Vous êtes sur la page 1sur 434

No 12-587-X au catalogue

Mthodes et
pratiques d'enqute

Comment obtenir dautres renseignements


Pour toute demande de renseignements au sujet de ce produit ou sur lensemble des donnes et des services de
Statistique Canada, visiter notre site Web www.statcan.gc.ca. Vous pouvez galement communiquer avec nous par courriel
infostats@statcan.gc.ca ou par tlphone entre 8 h 30 et 16 h 30 du lundi au vendredi aux numros suivants :
Centre de contact national de Statistique Canada
Numros sans frais (Canada et tats-Unis) :
Service de renseignements
Service national dappareils de tlcommunications pour les malentendants
Tlcopieur

1-800-263-1136
1-800-363-7629
1-877-287-4369

Appels locaux ou internationaux :


Service de renseignements
Tlcopieur

1-613-951-8116
1-613-951-0581

Programme des services de dpt


Service de renseignements
Tlcopieur

1-800-635-7943
1-800-565-7757

Comment accder ce produit


Le produit no 12-587-X au catalogue est disponible gratuitement sous format lectronique. Pour obtenir un exemplaire, il suffit de
visiter notre site Web www.statcan.gc.ca et de parcourir par Ressource cl > Publications .

Normes de service la clientle


Statistique Canada sengage fournir ses clients des services rapides, fiables et courtois. cet gard, notre organisme sest
dot de normes de service la clientle que les employs observent. Pour obtenir une copie de ces normes de service, veuillez
communiquer avec Statistique Canada au numro sans frais 1-800-263-1136. Les normes de service sont aussi publies sur le
site www.statcan.gc.ca sous propos de nous > Notre organisme > Offrir des services aux Canadiens .

Statistique Canada

Mthodes et pratiques d'enqute

Publication autorise par le ministre responsable de Statistique Canada


Ministre de lIndustrie, 2010
Tous droits rservs. Le contenu de la prsente publication lectronique peut tre reproduit en tout
ou en partie, et par quelque moyen que ce soit, sans autre permission de Statistique Canada, sous
rserve que la reproduction soit effectue uniquement des fins dtude prive, de recherche, de
critique, de compte rendu ou en vue den prparer un rsum destin aux journaux et/ou des fins
non commerciales. Statistique Canada doit tre cit comme suit : Source (ou Adapt de , sil y
a lieu) : Statistique Canada, anne de publication, nom du produit, numro au catalogue, volume
et numro, priode de rfrence et page(s). Autrement, il est interdit de reproduire le contenu de
la prsente publication, ou de lemmagasiner dans un systme dextraction, ou de le transmettre
sous quelque forme ou par quelque moyen que ce soit, reproduction lectronique, mcanique,
photographique, pour quelque fin que ce soit, sans lautorisation crite pralable des Services
doctroi de licences, Division des services la clientle, Statistique Canada, Ottawa, Ontario,
Canada K1A 0T6.
Publie pour la premire fois en octobre 2003
No 12-587-X au catalogue
ISBN 978-1-100-95206-2
Priodicit : hors srie
Ottawa
This publication is also available in English.

Note de reconnaissance
Le succs du systme statistique du Canada repose sur un partenariat bien tabli entre
Statistique Canada et la population, les entreprises, les administrations canadiennes et les
autres organismes. Sans cette collaboration et cette bonne volont, il serait impossible de
produire des statistiques prcises et actuelles.

Donnes de catalogage avant publication de la Bibliothque nationale du Canada


Vedette principale au titre:
Mthodes et pratiques denqute
Publi aussi en anglais sous le titre : Survey methods and practices
ISBN 0-660-96826-6
CS12-587-XPF
1. Enqutes Mthodologie. 2. Mnages (Statistique) Enqutes Mthodologie.
3. Questionnaires Design. 4. chantillonnage (Statistique) Mthodologie.
I. Statistique Canada. II. Statistique Canada. Division des mthodes denqutes. III. Title.
HA37.C3 S8714 2003
C2003-988001-X

001.433

Prface
Je suis trs fier de la publication des Mthodes et Pratiques denqute de Statistique Canada. Ce
rel accomplissement couronne les efforts dun grand nombre demploys de Statistique Canada,
en particulier des divisions de mthodologie denqute, auxquels je souhaite exprimer ma
gratitude.
Cette publication a profit de cours donns aux employs de Statistique Canada, dateliers offerts
nos clients, et de cours sur les recensements et sondages prsents aux statisticiens dAfrique et
dAmrique latine. Le Cours de base sur les enqutes, unique et innovateur, dj offert plus de
80 reprises quelque 2000 employs de Statistique Canada et des employs dautres agences
statistiques nationales, a t une influence notable sur cette publication. Finalement, la ralisation
du Survey Skills Development Manual pour le compte du Bureau national de la statistique de
Chine sous les auspices du Programme de coopration statistique Canada - Chine (Canada
China Statistical Co-operation Program) a donn une impulsion particulire ce projet.
Cette publication servira de support au Cours de base sur les enqutes et je crois quelle
deviendra une lecture oblige et une rfrence pour tous les employs de Statistique Canada
associs de prs ou de loin une enqute. Je souhaite quelle soit aussi utile aux statisticiens
dautres agences nationales et aux tudiants de cours sur la mthodologie denqute qui y
trouveront un aperu de la pratique.

Ottawa
Octobre 2003

Dr. Ivan P. Fellegi


Statisticien en chef du Canada

Avant-propos
Ce manuel est avant tout un guide pratique pour la planification, la conception, et la ralisation
denqutes. Il aborde les nombreux concepts denqute et de nombreuses mthodes lmentaires
qui peuvent tre utilises profit lors de la conception et la ralisation dune enqute. Ce manuel
ne remplace cependant pas le jugement clair et lexpertise; il vise plutt y contribuer en
donnant un aperu de ce qui est ncessaire la conception denqutes efficientes et de grande
qualit, et de la faon dutiliser les donnes denqute de faon efficace et pertinente pour
lanalyse.
Ce manuel prend sa source dans le Programme de coopration statistique Canada Chine, financ
par lAgence canadienne de coopration internationale. La manuel qui avait t prpar pour ce
programme en vue de contribuer au programme national de formation statistique du Bureau
national de la Statistique de Chine. Une tude de cas accompagnait le manuel, en en illustrant les
principaux points laide dune enqute fictive. Ces deux documents ont t revus et modifis
afin de mieux rpondre aux besoins de Statistique Canada, particulirement comme outil de
rfrence pour son Cours de base sur les enqutes.
Bien que ce manuel se concentre sur les aspects fondamentaux des enqutes utiles tous les
lecteurs, certains chapitres sont plus techniques. Le gnraliste pourra tudier ces chapitres en
passant outre les points techniques souligns ci-dessous.
Les cinq premiers chapitres couvrent les aspects gnraux du plan denqute, notamment :
- une introduction aux concepts de lenqute et ses tapes (Chapitre 1),
- la formulation des objectifs dune enqute (Chapitre 2),
- des considrations gnrales sur le plan denqute (Chapitre 3), par exemple,
- le choix entre une enqute - chantillon et un recensement,
- la mthode de dfinition de la population qui sera observe,
- les divers genres de base de sondage,
- les sources derreurs dans une enqute,
- les mthodes de collecte des donnes de lenqute (Chapitre 4), par exemple,
- lautodnombrement, linterview sur place ou linterview tlphonique,
- les questionnaires sur support papier ou lectronique,
et
- la conception dun questionnaire (Chapitre 5).
Les Chapitres 6, 7 et 8 couvrent les points plus techniques du plan de lenqute - chantillon :
- comment choisir un chantillon (Chapitre 6),
- comment estimer les caractristiques de la population (Chapitre 7),
- comment dterminer la taille de lchantillon et rpartir lchantillon entre les strates
(Chapitre 8).
Au Chapitre 7, la matire technique plus approfondie commence la Section 7.3 Estimation de
lerreur dchantillonnage des estimations de lenqute. Au chapitre 8, la formule utilise pour
dterminer la taille de lchantillon fait appel une comprhension plus technique et elle
commence la Section 8.1.3 Formule de calcul de la taille de lchantillon.
Le Chapitre 9 couvre les principales oprations de collecte des donnes et prcise comment
organiser les oprations de collecte.

Le Chapitre 10 traite de la transformation des rponses un questionnaire denqute en un fichier


complet de donnes denqute. La matire technique plus approfondie commence la
Section 10.4.1 Mthodes dimputation.
Le Chapitre 11 porte sur lanalyse des donnes. La matire technique plus approfondie commence
la Section 11.4 Vrification des hypothses au sujet dune population : variables continues.
Le Chapitre 12 traite la diffusion des donnes aux utilisateurs et le contrle de la divulgation de
donnes individuelles ou dun groupe dindividus.
Le Chapitre 13 traite de questions pertinentes la planification et la gestion dune enqute. Ce
chapitre non technique vise les gestionnaires denqute ventuels ou ceux qui participent la
planification et la gestion dune enqute, ou qui sintressent ces sujets.
Deux annexes sont ajoutes ces 13 chapitres. LAnnexe A porte sur lutilisation de donnes
administratives dont la collecte a t faite par des organismes gouvernementaux, des hpitaux,
des coles, etc., des fins administratives plutt que statistiques. LAnnexe B couvre le contrle
qualitatif et lassurance de la qualit, deux mthodes qui peuvent tre appliques diverses tapes
de lenqute pour minimiser et vrifier les erreurs.

Remerciements
Nous remercions les nombreux employs de Statistique Canada qui ont collabor la prparation
de Mthodes et pratiques denqute, en particulier:
ditrices : Sarah Franklin et Charlene Walker.
Rviseurs : Jean-Ren Boudreau, Richard Burgess, David Dolson, Jean Dumais, Allen
Gower, Michel Hidiroglou, Claude Julien, Frances Laffey, Pierre Lavalle, Andrew Maw,
Jean-Pierre Morin, Walter Mudryk, Christian Nadeau, Steven Rathwell, Georgia Roberts,
Linda Standish, Jean-Louis Tambay.
Rviseur de la traduction franaise: Jean Dumais.
Nous remercions aussi tous ceux qui ont collabor la prparation de la version originale du
China Survey Skills Manual (Manuel des notions lmentaires denqute en Chine), et en
particulier :
quipe du projet : Richard Burgess, Jean Dumais, Sarah Franklin, Hew Gough, Charlene
Walker.
Comit directeur : Louise Bertrand, David Binder, Geoffrey Hole, John Kovar, Normand
Laniel, Jacqueline Ouellette, Bla Prigly, Lee Reid, M.P. Singh.
Rdacteurs (membres de lquipe du projet et ) : Colin Babyak, Rita Green, Christian Houle,
Paul Kelly, Frances Laffey, Frank Mayda, Dave Paton, Sander Post, Martin Renaud, Johanne
Tremblay.
Rviseurs : Benot Allard, Mike Bankier, Jean-Franois Beaumont, Julie Bernier, Louise
Bertrand, France Bilocq, Grard Ct, Johanne Denis, David Dolson, Jack Gambino, Allen
Gower, Hank Hofmann, John Kovar, Michel Latouche, Yi Li, Harold Mantel, Mary March,
Jean-Pierre Morin, Eric Rancourt, Steven Rathwell, Georgia Roberts, Alvin Satin, Wilma
Shastry, Larry Swain, Jean-Louis Tambay.
Mise en page: Nick Budko et Carole Jean-Marie.
Nous remercions aussi le Statistical Education Centre (Centre de lenseignement de la statistique)
du NBS (Bureau national de la statistique) pour leurs apports et rtroaction, et nous apprcions le
travail prliminaire de Jane Burgess, Owen Power, Marc Joncas et Sandrine Prasil.
Finalement, nous souhaitons souligner le travail de Hank Hofmann, Marcel Brochu, Jean Dumais
et Terry Evers, lquipe responsable du dveloppement et du lancement du Cours de base sur les
enqutes lautomne 1990 en anglais et lautomne 1991 en franais.
Des publications et des documents varis de Statistique Canada ont servi llaboration de ce
manuel. Voici certains documents importants :
- Lchantillonnage, Un guide non mathmatique, par A. Satin et W. Shastry,
- Statistique Canada, Lignes directrices concernant la qualit,
- Matriel de cours pour Enqutes : du dbut la fin (416),
- Matriel de cours pour Introduction aux techniques dchantillonnage (412),

Matriel de cours pour Cours de base sur les enqutes (CBE).

Dautres documents de Statistique Canada sont numrs la fin de chaque chapitre, le cas
chant.

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

Table des matires


1. Introduction aux enqutes . 1
2. Formulation de lnonc des objectifs .. 11
3. Introduction au plan denqute . 21
4. Mthodes de collecte des donnes .... 41
5. Conception du questionnaire 63
6. Plans dchantillonnage 97
7. Estimation.. 133
8. Calcul de la taille de lchantillon et rpartition ... 165
9. Oprations de collecte des donnes .. 191
10. Traitement.. 217
11. Analyse des donnes de lenqute. 247
12. Diffusion des donnes.... 283
13. Planification et gestion de lenqute.. 303
Annexe A: Donnes administratives 329
Annexe B: Contrle qualitatif et assurance de la qualit ..... 335
tude de cas . 351
Index 415

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

Chapitre 1 - Introduction aux enqutes


1.0

Introduction

Quest-ce quune enqute? Une enqute est une activit organise et mthodique de collecte de donnes
sur des caractristiques dintrt dune partie ou de la totalit des units dune population laide de
concepts, de mthodes et de procdures bien dfinis. Elle est suivie dun exercice de compilation
permettant de prsenter les donnes recueillies sous une forme rcapitulative utile. Une enqute
commence habituellement sil y a un besoin dinformation et sil ny a pas de donnes ou si elles sont
insuffisantes. Cest parfois lorganisme statistique lui-mme qui en a besoin ou un client lexterne, peuttre un ministre, un organisme gouvernemental ou un organisme priv. Lorganisme statistique ou le
client veut habituellement tudier les caractristiques dune population, assembler une base de donnes
des fins analytiques ou vrifier une hypothse.
Une enqute comprend plusieurs tapes lies entre elles, notamment, la dfinition des objectifs, la
slection dune base de sondage, le choix du plan dchantillonnage, la conception du questionnaire, la
collecte et le traitement des donnes, lanalyse et la diffusion des donnes, et la documentation de
lenqute.
La dure dune enqute peut tre rpartie en plusieurs phases. La premire est la planification, viennent
ensuite les phases de la conception et de llaboration puis, celle de la mise en uvre. En bout de ligne,
tout le processus de lenqute est examin et valu.
Lobjectif de ce chapitre est de donner un aperu des activits comprises dans le droulement dune
enqute statistique, et les dtails seront verss aux chapitres suivants et en annexes. Afin daider illustrer
les points pertinents lenseignement dans ce manuel, le lecteur est invit lire le manuel de ltude de
cas qui est un cheminement de la planification jusqu la conception et la mise en uvre dune enqute
statistique fictive.

1.1

tapes dune enqute

premire vue peut-tre, le droulement dune enqute consiste simplement poser des questions et
compiler les rponses pour obtenir des statistiques. Il faut cependant faire une enqute tape par tape,
appliquer des procdures et des formules prcises pour que les rsultats donnent de linformation exacte
et significative. Il faut bien connatre les tches particulires, leurs liens et leur pertinence pour
comprendre le processus complet.
Voici les tapes dune enqute :
- formulation de lnonc des objectifs,
- slection dune base de sondage,
- choix dun plan dchantillonnage,
- conception du questionnaire,
- collecte des donnes,
- saisie et codage des donnes,
- vrification et imputation,
- estimation,
- analyse des donnes,
- diffusion des donnes,

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

2
-

documentation.

Voici maintenant une brve description de chaque tape.

1.1.1

Formulation de lnonc des objectifs

La formulation de lnonc des objectifs est lune des plus importantes tches dune enqute. Elle tablit
non seulement les besoins dinformation de lenqute dans lensemble, mais aussi les dfinitions
oprationnelles utiliser, les sujets considrer en particulier et le plan danalyse. Cette tape de
lenqute dtermine ce quelle comprendra ou non, ce que le client a besoin de savoir plutt que ce qui
serait intressant dapprendre.
Le Chapitre 2 - Formulation de lnonc des objectifs explique comment formuler les objectifs et
dterminer la matire de lenqute.

1.1.2

Slection dune base de sondage

La base du sondage donne les moyens didentifier les units de la population de lenqute et de
communiquer avec elles. La base prend la forme dune liste, par exemple,
- une liste physique, notamment, un fichier de donnes, un imprim dordinateur ou un annuaire
tlphonique,
- une liste conceptuelle, par exemple une liste de tous les vhicules qui entrent au stationnement dun
centre commercial entre 9 h et 20 h pendant une journe en particulier,
- une liste gographique dont les units correspondent des secteurs gographiques et dont les units
composantes sont des mnages, des fermes, des entreprises, etc.
Un organisme statistique peut habituellement utiliser, approfondir ou crer une base de sondage. La base
choisie dtermine la dfinition de la population de lenqute et peut avoir des rpercussions sur les
mthodes de collecte des donnes, de slection et destimation de lchantillon, ainsi que sur le cot de
lenqute et la qualit des rsultats. Les bases de sondage sont prsentes au Chapitre 3 - Introduction
au plan denqute.

1.1.3

Choix dun plan dchantillonnage

Il y a deux genres denqute : lenqute-chantillon et le recensement. Au cours dune enqutechantillon, la collecte des donnes est faite pour une partie seulement (habituellement trs petite) des
units de la population, mais lors dun recensement, la collecte des donnes est faite pour toutes les
units de la population. Il y a deux types dchantillonnage : lchantillonnage non probabiliste et
probabiliste. Lchantillonnage non probabiliste est un moyen rapide, facile et bon march de slectionner
des units de la population, mais la mthode de slection est subjective. Afin de faire des dductions sur
la population partir dun chantillon non probabiliste, lanalyste des donnes doit supposer que
lchantillon est reprsentatif de la population. Cette supposition est souvent risque cause de la
mthode de slection subjective. Lchantillonnage probabiliste est plus complexe, demande plus de
temps et cote habituellement plus cher que lchantillonnage non probabiliste. tant donn cependant
que la slection des units de la population est alatoire et que la probabilit de slection de chaque unit
peut tre calcule, des estimations fiables sont possibles, ainsi que des estimations derreur
dchantillonnage et des dductions sur la population. Lchantillonnage non probabiliste est

STATISTIQUE CANADA

INTRODUCTION AUX ENQUTES

habituellement inappropri pour un organisme statistique et le prsent manuel cible donc


lchantillonnage probabiliste.
Il y a de nombreuses mthodes de slection dun chantillon probabiliste. Il faut tenir compte de certains
lments pour choisir le plan dchantillonnage, notamment, la base de sondage, la variabilit des units
de la population et les cots de lenqute sur la population. Le plan dchantillonnage dtermine en partie
la taille de lchantillon qui a des rpercussions directes sur les cots de lenqute, le temps et le nombre
dintervieweurs ncessaires pour conclure lenqute et sur dautres considrations oprationnelles
importantes. Il ny a ni solution magique ni recette parfaite pour dterminer la taille de lchantillon. Il
sagit plutt dessayer de rpondre au plus grand nombre de besoins possibles dont lun des plus
importants est la qualit des estimations, tout en tenant compte des contraintes oprationnelles.
Les points forts et les points faibles relatifs de lenqute-chantillon et du recensement sont expliqus au
Chapitre 3 - Introduction au plan denqute. Les plans dchantillonnage non probabiliste et
probabiliste sont prsents au Chapitre 6 - Plans dchantillonnage. Les lignes directrices formules
pour dterminer la taille ncessaire dun chantillon sont inscrites au Chapitre 8 - Calcul de la taille de
lchantillon et rpartition.

1.1.4

Conception du questionnaire

Un questionnaire (ou un formulaire) est un groupe ou une squence de questions formules pour
obtenir dun rpondant de linformation sur un sujet. Les questionnaires sont au cur du processus de
collecte des donnes parce quils ont des rpercussions importantes sur la qualit des donnes et une
incidence sur limage de marque que projette lorganisme statistique dans le grand public. Les
questionnaires sont sur support papier ou lectronique.
La conception dun questionnaire suscite des interrogations : quelles questions poser, comment les
formuler au mieux et comment organiser les questions pour obtenir linformation voulue? Le but est
dobtenir de linformation et, cette fin, les rpondants doivent comprendre les questions et donner
facilement les rponses exactes en un format qui convient au traitement ultrieur et lanalyse des
donnes. Il y a des principes bien tablis de conception dun questionnaire, mais la cration dun bon
questionnaire est un art qui demande de lingniosit, de lexprience et des mises lessai. Si les besoins
de donnes ne sont pas transforms correctement en un instrument de collecte des donnes structur de
qualit leve, un bon chantillon peut donner de mauvais rsultats.
Ce sujet est approfondi au Chapitre 5 - Conception du questionnaire.

1.1.5

Collecte des donnes

La collecte des donnes est le processus appliqu pour obtenir linformation ncessaire de chaque
unit slectionne dans lenqute. Les mthodes lmentaires de collecte des donnes sont
lautodnombrement, cest--dire que les rpondants remplissent le questionnaire sans laide dun
intervieweur, et lintervention de lintervieweur (par lintermdiaire de linterview tlphonique ou sur
place). Dautres mthodes de collectes de donnes comprennent lobservation directe, la dclaration
lectronique des donnes et lutilisation des donnes administratives.
La collecte des donnes peut tre faite sur support papier ou lectronique. Si une mthode de collecte sur
support papier est privilgie, les rponses sont inscrites dans des questionnaires imprims. Si on opte
plutt pour une mthode assiste par ordinateur, le questionnaire est affich lcran de lordinateur et les

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

rponses sont entres directement au clavier. Les mthodes assistes par ordinateur ont un avantage : la
saisie des donnes ou transformation des rponses en format lisible par la machine est faite pendant la
collecte, liminant ainsi cette activit du traitement aprs la collecte. Autre avantage : les donnes non
valables ou incohrentes peuvent tre identifies plus rapidement que celles des questionnaires sur
support papier.
Les mthodes de collecte des donnes sont considres au Chapitre 4 - Mthodes de collecte des
donnes. Le recours aux donnes administratives est examin en Annexe A - Donnes administratives.
Les activits de collecte des donnes, y compris certaines interventions de lintervieweur, notamment
lnumration, le reprage et les mthodes dorganisation de la collecte des donnes, sont prcises au
Chapitre 9 - Oprations de collecte des donnes.

1.1.6

Saisie et codage des donnes

Si les donnes nont pas t collectes au moyen dune mthode assiste par ordinateur, elles doivent tre
codes et saisies . Le codage est le processus daffectation dune valeur numrique aux rponses pour
faciliter la saisie et le traitement des donnes en gnral. Certaines questions sont parfois prcodes sur
le questionnaire mme, mais dautres sont codes aprs la collecte pendant le traitement manuel ou
automatis. La saisie et le codage des donnes sont des activits qui cotent cher et qui demandent
beaucoup de temps, mais elles sont essentielles la qualit des donnes parce que les erreurs entres
peuvent avoir des rpercussions sur les rsultats finals de lenqute. Il faut donc mettre laccent sur la
prvention des erreurs ds les premires tapes. Lassurance de la qualit et le contrle qualitatif sont
deux mthodes de surveillance et de vrification des erreurs. Lobjectif de lassurance de la qualit est de
prvoir et dempcher les problmes, et celui du contrle qualitatif est de garantir que le nombre derreurs
est restreint aux limites acceptables.
Le Chapitre 10 - Traitement porte sur la saisie et le codage des donnes. Les questions de qualit sont
considres en Annexe B - Contrle qualitatif et assurance de la qualit.

1.1.7

Vrification et imputation

La vrification est lapplication de mesures pour reprer les entres manquantes, non valables ou
incohrentes qui indiquent des enregistrements de donnes ventuellement errones. Lobjectif de la
vrification est de mieux comprendre les processus et les donnes de lenqute pour garantir que les
donnes finales de lenqute sont compltes, convergentes et valables. Les vrifications peuvent tre de
simples mesures de contrle manuel quappliquent les intervieweurs sur place ou des vrifications
compltes excutes par un programme informatique. Limportance de la vrification faite est un
compromis entre lobjectif, cest--dire que tous les enregistrements sont parfaits , et une somme
raisonnable de ressources affectes (temps et argent) pour atteindre cet objectif.
Certaines lacunes de vrification sont combles laide dun suivi auprs du rpondant ou dun examen
manuel du questionnaire, mais il est peu prs impossible de corriger toutes les erreurs ainsi, et
limputation est souvent utilise pour rgler les autres cas. Limputation est un processus appliqu pour
dterminer et attribuer des valeurs de remplacement, afin de rsoudre les problmes de donnes
manquantes, non valables ou incohrentes.
Limputation peut amliorer la qualit des donnes finales, mais il faut choisir prudemment une
mthodologie dimputation approprie. Certaines mthodes dimputation ne protgent pas les liens entre
les variables ou peuvent en fait susciter une distorsion des liens sous-jacents des donnes. Il faut tenir
STATISTIQUE CANADA

INTRODUCTION AUX ENQUTES

compte du genre denqute, de ses objectifs et des caractristiques de lerreur pour choisir la mthode
convenable.
Le Chapitre 10 - Traitement reprend en dtail la vrification et limputation.

1.1.8

Estimation

Aprs la collecte, la saisie, le codage, la vrification et limputation des donnes, ltape suivante est
lestimation. Il sagit dun moyen que lorganisme statistique applique pour obtenir des valeurs de la
population dintrt et tirer des conclusions sur cette population partir de linformation obtenue dun
chantillon seulement de la population. Une estimation peut tre un total, une moyenne, un ratio, un
pourcentage, etc.
Le fondement de lestimation dans une enqute-chantillon est la pondration qui indique le nombre
moyen dunits de la population reprsente par une unit de lchantillon. Un total de la population peut
tre estim, par exemple, en additionnant les valeurs pondres des units de lchantillon. Le plan de
sondage dicte la pondration initiale. Des modifications sont parfois apportes cette pondration pour
compenser, par exemple, pour les units qui ne rpondent pas lenqute (c.--d. non-rponses totales) ou
pour tenir compte de linformation secondaire. Les modifications apportes pour les non-rponses
peuvent aussi sappliquer aux donnes dun recensement.
Une enqute-chantillon peut accuser une erreur dchantillonnage parce quune partie seulement de la
population est dnombre et que les units chantillonnes nont pas exactement les mmes
caractristiques que toutes les units de la population reprsente. Il faudrait toujours ajouter une
estimation de lampleur de lerreur dchantillonnage pour chaque estimation, afin dindiquer aux
utilisateurs la qualit des donnes.
Le Chapitre 7 - Estimation traite de lestimation des statistiques simples. Lestimation de lerreur
dchantillonnage est couverte au Chapitre 7- Estimation et au Chapitre 11 - Analyse des donnes de
lenqute.

1.1.9

Analyse des donnes

Lanalyse des donnes comprend le sommaire des donnes et linterprtation de leur signification pour
obtenir des rponses claires aux questions qui ont motiv lenqute. Lanalyse des donnes devrait nouer
un lien entre les rsultats de lenqute et les questions et problmes mentionns dans lnonc des
objectifs. Il sagit de lune des tapes les plus cruciales de lenqute parce que la qualit de lanalyse peut
avoir des rpercussions substantielles sur lutilit de lenqute dans lensemble.
Lanalyse des donnes peut tre restreinte aux donnes de lenqute ou tablir une comparaison entre les
estimations de lenqute et les rsultats dautres enqutes ou sources de donnes. Elle consiste souvent
examiner des tableaux, des graphiques et diverses mesures sommaires, par exemple, les moyennes et les
rpartitions des frquences pour rsumer les donnes. Linfrence statistique peut servir vrifier les
hypothses ou tudier les liens entre des caractristiques, par exemple, laide de tests de rgression,
danalyses de lcart ou du chi au carr.
Le Chapitre 11 - Analyse des donnes de lenqute reprend ce sujet en dtail.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

1.1.10 Diffusion des donnes


La diffusion des donnes est la distribution des donnes de lenqute aux utilisateurs par
lintermdiaire de divers mdias, par exemple, un communiqu, une interview radio ou tldiffuse, une
rponse tlphonique ou tlcopie une demande spciale, la publication dun document, une
microfiche, un mdia lectronique, y compris Internet, ou un fichier de microdonnes sur CD, etc.
La prestation et la prsentation des rsultats finaux sont trs importantes. Les utilisateurs devraient
trouver, interprter, comprendre et utiliser correctement et facilement les rsultats de lenqute. Il faudrait
rsumer les rsultats de lenqute, indiquer les points forts et les points faibles des donnes, et mettre en
vidence les dtails importants dans un rapport crit qui comprend des tableaux et des graphiques.
Avant de diffuser les donnes, il faudrait en valuer la qualit pour aider considrer et interprter les
rsultats et la qualit de lenqute, et informer les utilisateurs, afin quils jugent par eux-mmes de lutilit
des donnes. Cette activit peut aussi donner des renseignements prcieux pour amliorer lenqute (si
elle est prvue de nouveau) ou dautres enqutes. Cette valuation et le rapport subsquent devraient
comprendre une description de la mthodologie de lenqute, ainsi que les mesures et les sources derreur.
Au volet du processus de diffusion, la loi oblige de nombreux organismes statistiques protger la
confidentialit de linformation des rpondants. Le contrle de la divulgation englobeles mesures
appliques pour protger les donnes diffuses, afin dempcher toute infraction la vie prive des
rpondants. Il sagit, notamment, didentifier et dliminer (ou de modifier) les cases des tableaux qui
risquent de rvler de linformation sur une personne. Certaines donnes doivent habituellement tre
supprimes ou modifies. Avant de choisir une mthode de contrle de la divulgation, il faudrait
comparer diverses mthodes, compte tenu de leurs rpercussions sur les rsultats de lenqute et du risque
de divulgation pour une personne.
De nombreux autres aspects de la diffusion sont couverts au Chapitre 12 - Diffusion des donnes.

1.1.11 Documentation
La documentation donne un dossier de lenqute et devrait comprendre chaque tape et phase de
lenqute. Elle peut comprendre divers aspects de lenqute et cibler diffrents groupes, notamment, la
direction, le personnel technique, les concepteurs dautres enqutes et les utilisateurs. Un rapport sur la
qualit des donnes, par exemple, donne aux utilisateurs un contexte pour lutilisation informe des
donnes. Un rapport denqute qui comprend, non seulement les dcisions prises, mais aussi leurs
justifications, donne la direction et au personnel technique de linformation utile pour llaboration et
lapplication ultrieures denqutes semblables. Au cours de la mise en uvre, la documentation des
procdures lintention du personnel aide garantir un droulement efficace.
Le Chapitre 12 - Diffusion des donnes prcise comment organiser un rapport et donne des lignes
directrices sur la rdaction.

1.2

Cycle de vie utile dune enqute

Les tapes de lenqute prsentes ci-dessus ne sont pas ncessairement squentielles : certaines se
droulent en parallle, dautres, par exemple la vrification, sont ritres divers moments pendant le

STATISTIQUE CANADA

INTRODUCTION AUX ENQUTES

processus de lenqute. Chaque tape doit dabord tre planifie, conue et labore, mise en uvre
ensuite et value en bout de ligne. Les phases de la vie utile dune enqute sont dcrites ci-dessous.

1.2.1

Planification de lenqute

La planification est la premire phase du processus de lenqute. Il faut cependant slectionner et


appliquer auparavant une structure de planification et de gestion. Une structure habituellement utilise est
lapproche de lquipe de lenqute ou du projet, cest--dire quune quipe interdisciplinaire est charge
de la planification, de la conception, de la mise en uvre et de lvaluation de lenqute et de ses
aboutissants prvus. Lquipe interdisciplinaire est forme de membres qui ont des aptitudes techniques
diffrentes, par exemple, un statisticien, un programmeur, un expert dans le domaine de ltude, un expert
de la collecte des donnes, etc.
La planification dune enqute devrait se drouler par tapes dexactitude et de dtails croissants.
ltape prliminaire ou de proposition de lenqute, seules les notions les plus gnrales des besoins de
donnes du client peuvent tre connues. Lorsque la proposition denqute a t formule, il est important
de dterminer si une nouvelle enqute est ncessaire, sans oublier les options, les cots et les priorits du
client et de lorganisme statistique. Il est parfois possible dobtenir, en tout ou en partie, linformation
voulue dans les dossiers administratifs dadministrations publiques, dinstitutions et dorganismes.
Autrement, il peut tre possible dajouter des questions un questionnaire denqute existant ou de
refondre une enqute existante.
Sil est dtermin que les sources de donnes de rechange ne peuvent rpondre aux besoins
dinformation, lquipe passe la formulation dun nonc des objectifs et elle approfondit sa
comprhension des choix de base de sondage, de la taille gnrale de lchantillon, des besoins de
prcision, des options de collecte des donnes, de lchancier et des cots. La faisabilit de lenqute est
habituellement dtermine cette tape.
Lorsque les objectifs de lenqute sont vidents, chaque membre de lquipe prpare les plans de la
composante pertinente sa responsabilit dans lquipe. La planification devient plus complexe au cours
de cette tape. Les avantages et inconvnients des mthodologies de rechange devraient tre examins et
compars, compte tenu des points suivants : couverture, mode de collecte des donnes, frquence, dtails
gographiques, fardeau de la rponse, qualit, cot, ressources ncessaires et rapidit dexcution.
Au cours des tapes ultrieures du processus de lenqute, les plans sont labors, rviss et amliors, et
des aspects plus dtaills sont examins. Chaque activit et opration exige un certain plan de conception,
dlaboration et dapplication. La planification continue pendant tout le processus de lenqute et des
modifications sont apportes au besoin.
Les dtails de la planification sont expliqus au Chapitre 13 - Planification et gestion de lenqute.

1.2.2

Conception et laboration

Aprs avoir tabli un grand cadre mthodologique, il est possible daccomplir un travail dtaill sur les
diverses tapes dune enqute la phase intitule conception et laboration. Lobjectif gnral de cette
phase est de dterminer lensemble des mthodes et procdures qui permettront dtablir un quilibre
appropri entre les objectifs de qualit et les limites des ressources.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

Au cours de cette phase, les essais prliminaires ou les enqutes pilotes ncessaires sont excuts pour
valuer, par exemple, si le questionnaire est appropri, si la base de sondage convient, si les procdures
oprationnelles sont bien choisies, etc. Tout le matriel sur place (p. ex., manuels dinstruction et de
formation des intervieweurs, documents de contrle des chantillons) est prpar pour ltape de la
collecte des donnes. Les programmes logiciels pour les questionnaires administrs par ordinateur sont
labors, modifis ou mis lessai. La touche finale est apporte aux procdures de slection et
destimation de lchantillon pour tablir des spcifications. Les spcifications sur le codage, la saisie des
donnes, la vrification et limputation sont prpares pour le traitement des donnes.
Des procdures devraient tre conues pour contrler et mesurer la qualit chaque tape de lenqute par
souci defficacit ( laide de procdures de contrle qualitatif et dassurance de la qualit) et pour valuer
la qualit des produits statistiques en bout de ligne.

1.2.3

Mise en uvre

Aprs avoir vrifi si tous les systmes sont en place, lenqute peut maintenant tre lance. Cest la
phase de la mise en uvre. Les manuels et les formules de contrle de lenqute sont imprims, ainsi que
le questionnaire (sil sagit dun questionnaire sur support papier). Les intervieweurs sont forms,
lchantillon est slectionn, la collecte de linformation est faite, et tout est ralis comme prvu pendant
la phase de llaboration. Le traitement des donnes commence aprs ces activits. Il comprend la saisie,
le codage, la vrification et limputation des donnes. Le rsultat est un ensemble de donnes complet
bien structur qui permet de produire les totalisations ncessaires et danalyser les rsultats de lenqute.
Ces rsultats sont ensuite vrifis aux fins de la confidentialit puis, diffuss. chaque tape, la qualit
des donnes devrait tre mesure et surveille laide des mthodes conues et labores au cours de
ltape prcdente.

1.2.4

valuation de lenqute

Lvaluation est un processus continu au cours de lenqute. Chaque tape de lenqute devrait tre
value pour dterminer lefficience, lefficacit et les cots, en particulier dans le cas des enqutes
ritres, afin dapporter avec le temps des amliorations sa conception et la mise en uvre. Ce
processus comprend des examens des mthodes appliques, ainsi que des valuations de lefficacit
oprationnelle et de la rentabilit. Ces valuations sont un test pour dterminer si les pratiques techniques
sont convenables. Elles servent aussi amliorer et orienter lapplication de concepts particuliers ou de
composantes de la mthodologie et des oprations au cours dune enqute et dune enqute lautre. Elles
soutiennent les activits et fournissent des mesures et des examens des limites de la qualit des donnes
du programme. Chaque tape de lenqute est aussi value pour donner un aperu des lacunes ou des
problmes dautres tapes de lenqute. La vrification et limputation peuvent donner, par exemple, de
linformation sur les problmes que posent les questionnaires.
Les valuations denqutes prcdentes ou denqutes pilotes sont importantes lors de la planification
dune nouvelle activit statistique : elles peuvent aider formuler des objectifs denqute ralistes, donner
une ide de la qualit des donnes que lon veut obtenir et de linformation essentielle la conception de
lenqute et au traitement des donnes.

STATISTIQUE CANADA

INTRODUCTION AUX ENQUTES

1.3

Sommaire

Quest-ce quune enqute? Toute activit organise et mthodique de collecte dinformation est une
enqute. Elle est habituellement motive par le besoin dtudier les caractristiques dune population,
dimplanter une base de donnes des fins analytiques ou de vrifier une hypothse.
Quelles sont les tapes de lenqute? Une enqute est une procdure beaucoup plus complexe que la
simple activit de poser des questions et de compiler les rponses pour produire des statistiques. Il faut
franchir de nombreuses tapes et appliquer des mthodes et procdures prcises pour que les rsultats
donnent de linformation exacte. Ces tapes comprennent la formulation des objectifs de lenqute, le
choix de la conception de lchantillon, la conception du questionnaire, la collecte, le traitement et la
totalisation des donnes puis, la diffusion des rsultats.
Comment les tapes sont-elles franchies? Lexcution dune enqute peut tre dcrite comme un cycle de
vie utile quatre phases. La premire est la planification qui permet dtablir les objectifs de lenqute, la
mthodologie, le budget et lchancier des activits. La deuxime est la conception et llaboration des
tapes de lenqute. La troisime consiste franchir les tapes de lenqute. La qualit est mesure et
surveille pendant la troisime phase pour garantir que le processus fonctionne comme prvu. En dernier
lieu, les tapes de lenqute sont examines et values.

Bibliographie
Cochran, W.G. 1977. Sampling Techniques. John Wiley and Sons, New York.
Des Raj. 1972. The Design of Sample Surveys. McGraw-Hill Series in Probability and Statistics, New
York.
Moser C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.
Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.
Satin, A. et W. Shastry. 1993. chantillonnage statistique : un guide non mathmatique Deuxime
dition. Statistique Canada. 12-602F.
Statistique Canada. 1987. Lignes directrices concernant la qualit. Deuxime dition.
Statistique Canada. 1998. Statistique Canada Lignes directrices concernant la qualit. Troisime
dition. 12-539-X1F.

STATISTIQUE CANADA

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

11

Chapitre 2 - Formulation de lnonc des objectifs


2.0 Introduction
La premire tche de la planification dune enqute est de prciser les objectifs le mieux et le plus
clairement possible. Un nonc clair des objectifs oriente toutes les tapes ultrieures de lenqute. Ces
tapes devraient tre planifies de faon garantir que les rsultats en bout de ligne correspondent aux
objectifs originaux.
Supposons que vous prvoyez une enqute sur la pauvret. Il nest pas suffisant dindiquer que lobjectif
de lenqute est dobtenir, par exemple, de linformation sur les conditions de logement des pauvres .
Ce genre dnonc vague peut tre une description globale du thme gnral de lenqute, mais en bout de
ligne, il faut approfondir en une formulation plus spcifique. Que signifie conditions de logement ?
Sagit-il de ldifice, de lge du btiment, de la ncessit de rnover ou de la densit (p. ex., le nombre de
personnes par mtre carr)? Que signifie prcisment le terme pauvre ? La pauvret est-elle mesure
selon les revenus, les dpenses, les dettes, ou les trois?
Lorganisme statistique, en consultation avec le client, doit dabord dfinir les besoins dinformation, les
principaux utilisateurs et les principales utilisations des donnes plus compltement et prcisment. En
gnral, quels renseignements sont ncessaires sur les conditions de logement des pauvres? Qui a besoin
des donnes et pourquoi? Supposons que le client qui demande lenqute soit le conseil municipal.
Celui-ci a limpression que les conditions de logement des pauvres laissent dsirer et prvoit quil devra
btir de nouveaux logements subventionns. Il voudra peut-tre savoir combien de nouvelles rsidences
seront ncessaires et combien elles coteront. Il pourrait demander aux pauvres o ils veulent les
nouveaux logements. La Ville devra peut-tre modifier la subvention, compte tenu de la pauvret de la
famille, et elle aura donc besoin de donnes sur les divers niveaux de pauvret.
Il faut ensuite formuler des dfinitions oprationnelles particulires, y compris une dfinition de la
population cible. Ces dfinitions indiquent qui (ou quoi) sera observ et ce qui sera mesur. Dans le cas
des pauvres , la dfinition peut comprendre toutes les familles dont le revenu brut est infrieur un
certain seuil. Il faut aussi dfinir les termes famille et revenu . Il faut prciser la couverture de la
population : quel secteur gographique intresse le client, quels secteurs de la ville? Quelle est la priode
de rfrence, la semaine dernire, lanne dernire?
Lorganisme statistique doit aussi connatre les sujets particuliers qui seront examins dans lenqute. Le
client veut-il de linformation sur le revenu par tranche, le genre de logement (p. ex., immeubles
dappartements, maisons individuelles, etc.), lge du logement, le nombre de personnes qui y habitent,
etc.? quel point chaque sujet doit-il tre dtaill et quelle sera la mise en forme des rsultats? Le tout
fait habituellement lobjet dune proposition de tableaux danalyse. Dans une enqute-chantillon, le
niveau de dtail possible est fonction de la taille de lerreur dchantillonnage dans les estimations, ainsi
que des contraintes oprationnelles, notamment, le temps, le budget, le personnel et le matriel
disponibles. Ces cibles de qualit et contraintes oprationnelles auront des rpercussions profondes sur la
porte de lenqute.
Lorganisme statistique, en consultation avec le client, peut rviser plusieurs fois lnonc des objectifs
pendant la planification, la conception et llaboration de lenqute.
Lobjectif de ce chapitre est dillustrer comment formuler lnonc des objectifs.

STATISTIQUE CANADA

12

2.1

MTHODES ET PRATIQUES DENQUTE

Processus dlaboration de lnonc des objectifs par tapes successives

Llaboration de lnonc des objectifs est un processus itratif qui engage lorganisme statistique, le
client et les utilisateurs (sils ne sont pas le client). Les tapes du processus visent dterminer :
- les besoins dinformation,
- les utilisateurs et les utilisations des donnes,
- les principaux concepts et les dfinitions oprationnelles,
- la matire de lenqute,
- le plan danalyse.
Considrons lexemple suivant pour illustrer ces tapes. Le conseil municipal a demand la Rgie des
transports en commun de la rgion (RTCR) dappliquer des mesures pour faciliter lutilisation des
transports en commun par les citoyens gs (c.--d. les personnes ges ). La RTCR na pas
dinformation jour sur les besoins ou les habitudes de dplacement des personnes ges et elle a donc
communiqu avec lorganisme statistique pour obtenir de laide la collecte de nouvelles donnes. Le
paragraphe suivant est lnonc initial de la RTCR sur la situation :
La RTCR considre modifier son service actuel pour faciliter lutilisation des transports en
commun par les personnes ges. Les changements possibles comprennent, par exemple, lachat
dautobus spciaux, la modification des autobus actuels, lajout de nouveaux itinraires ou peuttre des tarifs subventionns. Avant de procder des achats et des modifications qui cotent
cher, la RTCR demande de linformation sur les besoins de transport des personnes ges pour
tablir un budget et apporter des amliorations selon leurs besoins.

2.1.1 Besoins dinformation (noncer le problme)


La premire tape est la description en termes gnriques des besoins dinformation du client.
Lorganisme statistique devrait commencer par identifier le problme et lnoncer en termes gnraux.
Pourquoi lenqute a-t-elle t suggre? Quelles sont les questions sous-jacentes et dans quel contexte
sont-elles poses?
Dans lexemple de la RTCR, le conseil municipal lui a demand dappliquer des mesures pour faciliter
lutilisation des transports en commun par les personnes ges . Dans lnonc initial, la RTCR a
interprt cette demande comme un besoin de modifier le service actuel pour faciliter lutilisation des
transports en commun par les personnes ges . Quel est en fait lobjectif quil faut considrer
directement pour aider la RTCR atteindre cet objectif?
La RTCR demande de linformation sur les besoins de transport des personnes ges, et veut
savoir si lon rpond actuellement ces besoins et comment.
Les besoins dinformation de lenqute dans lensemble sont maintenant identifis. Il est important de
revenir cet nonc chaque tape de lenqute pour garantir que les objectifs de lenqute sont atteints.

2.1.2

Utilisateurs et utilisations des donnes

Les deux questions suivantes se posent : Qui sont les principaux utilisateurs des donnes? quoi servira
linformation? Lorganisme statistique a besoin de savoir qui sont les utilisateurs parce que leur
rtroaction est trs importante pendant la phase de planification de lenqute. (Les utilisateurs des
donnes en bout de ligne ne sont pas toujours le client, mais cest souvent le cas.) Il faut dterminer les

STATISTIQUE CANADA

FORMULATION DE LNONC DES OBJECTIFS

13

utilisations des donnes pour prciser davantage les besoins dinformation. Cette tape est franchie en
consultation avec le client et les utilisateurs des donnes. Quel genre de questions stratgiques faut-il
considrer? Linformation de lenqute servira-t-elle dcrire une situation ou analyser des relations?
Quel genre de dcisions peuvent tre prises laide des donnes et quelles peuvent tre les consquences?
Il faudrait aussi consulter les rpondants ventuels si possible parce quils pourraient mentionner des
questions et des proccupations importantes pour eux et qui pourraient avoir des rpercussions sur la
matire de lenqute.
son avis, la RTCR demande de linformation sur les besoins de transport des personnes ges pour
tablir un budget et apporter des amliorations selon leurs besoins . Linformation peut servir en
particulier aux planificateurs des transports de la RTCR aux fins suivantes :
- achat dautobus spciaux,
- modification des autobus actuels,
- ajout de nouveaux itinraires,
- subvention des tarifs.
Les besoins dinformation de lenqute sont maintenant identifis, ainsi que les utilisateurs et les
utilisations des donnes. Voil qui est particulirement important. Supposons, par exemple, que la RTCR
prvoit quil faudra ajouter de nouveaux itinraires, elle voudra peut-tre demander aux personnes ges
o devraient tre amnags ces itinraires. Si la RTCR prvoit modifier les autobus actuels, elle voudra
peut-tre savoir quelles modifications prfrent les personnes ges. Si la RTCR considre acheter des
autobus spciaux, elle voudra peut-tre savoir de quel genre dautobus ont besoin les personnes ges. Si
la RTCR compte percevoir des tarifs subventionns, elle voudra peut-tre demander aux personnes ges
quels tarifs elles considrent raisonnables. Les rsultats prvus et les consquences de ces rsultats
dterminent donc la matire de lenqute.

2.1.3 Dfinitions oprationnelles et des concepts


Lorganisme statistique a besoin de dfinitions prcises et claires pour dterminer les donnes ncessaires,
afin datteindre les objectifs de lenqute. Ces dfinitions peuvent prciser des exclusions, notamment, les
personnes sans abri ou qui habitent dans des institutions, etc. Il faudrait utiliser des dfinitions standard
reconnues dans la mesure du possible. Elles faciliteront la communication entre les utilisateurs des
donnes et les rpondants et garantiront luniformit entre les enqutes. Lorganisme statistique devra
peut-tre laborer certaines dfinitions standard, par exemple, pour le logement, le mnage, la famille, etc.
Il faut poser trois questions pour dterminer les dfinitions oprationnelles : Quoi ou quoi? O? et Quand?
Lun des premiers concepts dfinir est la population cible de lenqute. La population cible est la
population dont on veut obtenir de linformation. Cest lensemble des units que le client est intress
tudier. Selon les caractristiques et lobjectif de lenqute, ces units sont habituellement des personnes,
des mnages, des coles, des hpitaux, des fermes, des entreprises, etc. Reprenons lexemple de la RTCR.
Il faudrait poser les questions suivantes pour dfinir la population cible de lenqute:
i.

qui ou quoi le client sintresse-t-il?

Lorganisme statistique doit, dans ce cas, considrer le genre dunits que comprend la population cible et
les caractristiques qui dfinissent les units. Aux fins de lenqute de la RTCR, il est tabli que le client
sintresse lutilisation des transports en commun par les personnes ges et leurs besoins. Des
dfinitions explicites de personnes ges, transport en commun et utilisation sont ncessaires. Supposons
que les personnes ges sont les 65 ans ou plus selon la dfinition. (Le client doit vrifier auprs de la
RTCR quelle est sa dfinition de personnes ges pour les transports urbains). Il peut y avoir divers

STATISTIQUE CANADA

14

MTHODES ET PRATIQUES DENQUTE

transports en commun : autobus, train, mtro et vhicules pour besoins spciaux. Supposons que le client
sintresse seulement aux autobus. Autre question : le client sintresse-t-il seulement aux personnes
ges qui utilisent actuellement les autobus ou toutes les personnes ges? Le client peut sintresser
toutes les personnes ges.
ii.

Quelles sont les units dintrt?

La question cible le lieu gographique des units (c.--d. les personnes ges). Le client sintresse peuttre seulement lutilisation des autobus de transport en commun qui se dplacent dans le secteur
mtropolitain de la ville (selon la dfinition dun recensement rcent, par exemple, et de nouveau, une
dfinition claire est ncessaire) ou peut-tre mme au territoire de la RTCR (c.--d. le territoire que sert le
rseau actuel des itinraires des autobus de transport en commun). Le client doit donc dcider si toutes les
personnes ges font partie de la population cible ou si celle-ci comprend seulement celles qui habitent
dans une rgion en particulier.
iii.

Quelle est la priode de rfrence de lenqute? (Quand?)

Sur quelle priode les donnes portent-elles? (Quand?) La rponse semble tre maintenant parce que
lnonc de la RTCR cible les besoins actuels. Voil qui pourrait signifier en pratique que des questions
seront poses aux personnes ges sur leur utilisation des autobus de transport en commun pendant une
priode de rfrence rcente (semaine, mois, etc.). Faudrait-il faire enqute auprs des personnes ges
pour plus dune priode ou leur poser des questions sur plusieurs priodes de rfrence diffrentes?
Une importante considration sur la priode de rfrence est la saisonnalit. Certaines activits seront
lies une priode en particulier de la semaine, du mois ou de lanne. Les conclusions peuvent donc
viser une priode en particulier, mais elles ne sont pas ncessairement valables pour dautres priodes. Si
la RTCR pose des questions aux personnes ges dans son questionnaire, par exemple, sur leur utilisation
du rseau de transport en commun en semaine, les rsultats de lenqute ne seront peut-tre pas valables
pour les fins de semaine.
Aprs la population cible, de nombreux autres concepts doivent tre dfinis. Voici les exemples de trois
concepts connexes habituellement utiliss dans les enqutes auprs des mnages Statistique Canada :
Un logement est un ensemble de pices dhabitation structurellement distinctes qui a une
entre prive lextrieur de ldifice ou partir dun couloir commun ou dun escalier
lintrieur de ldifice.
Un mnage est une personne ou un groupe de personnes qui habitent un logement. Un mnage
peut tre une personne qui habite seule, une famille ou plus, un groupe de personnes sans lien
de parent, mais qui habitent le mme logement.
Une famille est un groupe de deux personnes ou plus qui habitent le mme logement et qui ont
des liens de parent par le sang, le mariage (y compris lunion libre) ou ladoption. Une
personne qui habite seule ou qui na de lien avec personne dautre dans le logement o elle
habite est classe comme personne hors famille.
Le Chapitre 3 - Introduction au plan denqute donne davantage de dtails pour dfinir la population
cible et celle du sondage.

STATISTIQUE CANADA

FORMULATION DE LNONC DES OBJECTIFS

2.1.4

15

Matire du sondage

Un nonc des objectifs vident garantit que la matire de lenqute est approprie et clairement dfinie.
Aprs avoir dtermin les besoins dinformation dans lensemble, les utilisateurs et les utilisations, ainsi
que les dfinitions oprationnelles, lorganisme statistique doit ensuite considrer le genre de sujets en
particulier qui seront tudis dans lenqute. Il sagit souvent dun processus itratif. Le processus de
prcision de la matire de lenqute rvle souvent que les besoins dinformation et les utilisations sont
incomplets, ou mme quil est impossible de rpondre certains besoins pour des raisons oprationnelles
ou cause des dfinitions.
Revenons lexemple de la RTCR. Linformation ncessaire un chelon raisonnablement gnral a t
identifie. Lorganisme statistique doit maintenant en apprendre davantage ce sujet.
Le client voudra peut-tre aussi dterminer diverses caractristiques des personnes ges, notamment :
- lge,
- le sexe,
- les incapacits,
- le revenu du mnage,
- le lieu gographique (les personnes ges habitent-elles surtout dans des secteurs restreints en ville,
notamment un foyer de retraite, ou sont-elles rparties sur tout le territoire de la ville?),
- le genre de logement (p. ex., maisons de retraite, appartements, rsidences),
- la composition du mnage (avec qui habitent-elles?).
Le client peut avoir besoin de renseignements sur les points suivants pour dterminer les besoins de
transport :
- nombre de dplacements la semaine dernire,
- frquence des dplacements (par heure de la journe, en semaine et en fin de semaine),
- modes de transport utiliss,
- problmes dutilisation des autobus de transport en commun,
- nombre de dplacements locaux.
Vouloir de linformation sur les caractristiques des dplacements peut susciter des questions sur les
points suivants :
- raison des dplacements,
- point de dpart gographique et la destination des dplacements,
- limites au dplacement,
- aides spciales ou lassistance ncessaire,
- nombre de dplacements annuls cause du manque de transport.
Le client devra peut-tre comprendre certains points, pour dterminer si les besoins sont satisfaits ou non,
notamment :
- laccs (combien de personnes ges ont une automobile, une bicyclette, etc.?),
- lutilisation des autobus de transport en commun,
- la somme dpense pour les autobus de transport en commun,
- les moyens damliorer le service,
- les moyens dinciter les personnes ges utiliser (ou utiliser plus souvent) les autobus de transport
en commun.
Tus les concepts qui ne sont pas dj dfinis devront ltre. Que signifie, par exemple, une incapacit?
Quest-ce quun dplacement?

STATISTIQUE CANADA

16

MTHODES ET PRATIQUES DENQUTE

Les sujets couvrir en particulier dterminent les variables obtenir, la conception du questionnaire et
mme le plan dchantillonnage. Ces points ont aussi des rpercussions sur le choix de la mthode de
collecte des donnes, par exemple, faudrait-il retenir les services dintervieweurs ou non, et quels seront
donc les cots de lenqute?
Lorganisme statistique doit couvrir tous les aspects des besoins dinformation, mais si elle veut viter des
frais superflus ou un fardeau de rponse excessif pour la population de lenqute, il devrait liminer tous
les articles qui ne sont pas directement lis aux objectifs de lenqute.
Au cours dune tape ultrieure, cette description de la matire de lenqute doit tre formule en
questions et mise en forme dans un questionnaire. Ce sujet est couvert en dtail au Chapitre 5 Conception du questionnaire.
2.1.5

Plan danalyse (totalisations proposes)

Lorsque tous les articles mesurer sont identifis, la tche suivante consiste dterminer combien de
dtails seront ncessaires pour chaque article et la mise en forme des rsultats. Quelles mesures, calculs,
indices, etc., sont ncessaires? Faut-il obtenir des estimations pour les sous-populations? Le plan dtaill
de la mthode danalyse et la prsentation des donnes est le plan danalyse, et aux analyses prvues
sajoute la cration ncessaire de totalisations proposes. Un plan danalyse facilite normment la
conception du questionnaire.
Dans le cas des dtails des rsultats finaux, par exemple, est-il ncessaire de faire une distinction entre les
divers groupes dge des personnes ges? Le client doit-il faire la diffrence entre les hommes et les
femmes, ou entre divers types de transport (autobus, automobile, bicyclette, etc.)? Faut-il utiliser des
donnes nominales ou en continu? Le client a-t-il besoin de savoir, par exemple, le revenu exact dune
personne ge ou le revenu par tranche est-il suffisant? (Si le client est intress calculer les moyennes,
le revenu exact est plus appropri.)
Remarquez que le plan danalyse peut comprendre le retour et des retouches aux dfinitions
oprationnelles et la matire de lenqute. Dans lexemple de la RTCR, voici certaines possibilits pour
le genre de dtails des rsultats, par ordre croissant de dtail :
Revenu du mnage :
- tranches de revenu du mnage (p. ex., moins de 15 000 $, de 15 000 $ 29 999 $, de 30 000 $
49 999 $, etc.),
- revenu total exact du mnage,
- revenu exact de chaque source (traitement ou rmunration, rgime de retraite, investissements).
Incapacits :
- une seule question pour dterminer si la personne ge a une condition physique qui limite sa capacit
de dplacement local,
- une seule question sur plusieurs incapacits distinctes,
- une srie de questions poser pour dterminer la prsence, les caractristiques et la gravit de chaque
incapacit.
Composition du mnage :
- personnes ges qui vivent seules qui ne vivent pas seules,
- nombre de personnes dans les mnages,

STATISTIQUE CANADA

FORMULATION DE LNONC DES OBJECTIFS

17

catgories de mnage (personne seule, couple, deux adultes ayant des liens autres que ceux dun
couple, trois adultes ou plus ayant des liens, etc.),
ge de chaque adulte et sa relation avec la personne de rfrence pour dterminer la composition
exacte du mnage.

Nombre de dplacements la semaine dernire :


- tranches (p. ex., de 0 3, de 4 6, etc.),
- nombre exact,
- nombre exact par jour et heure du jour.
Frquence des dplacements :
- pourcentage de dplacements en semaine ou en fin de semaine,
- nombre exact de dplacements chaque jour de la semaine.
Modes de transport utilis :
- mode de transport utilis le plus souvent pendant la priode de rfrence (p. ex., la semaine dernire),
- tous les modes de transport utiliss (transport en commun et vhicule priv),
- nombre de dplacements en autobus de transport en commun seulement,
- mode de transport utilis pour chaque dplacement.
Problmes dutilisation des autobus de transport en commun :
- lment qui cause la plus importante difficult,
- tous les lments qui causent une difficult,
- numration des lments par ordre de difficult cause,
- cote de la difficult que pose chaque lment.
Dans les cas prsents ci-dessus, la premire rpartition la moins dtaille peut tre suffisante, ou elle ne
contient pas suffisamment de dtails pour rpondre aux besoins dinformation du client. La dernire
rpartition la plus dtaille peut donner exactement le bon niveau de dtails, ou elle peut tre trop
dtaille et, en fait, trop difficile rpondre. Linformation dtaille donne une plus grande souplesse
pour lanalyse et permet la comparaison avec dautres sources dinformation, mais lorganisme statistique
devrait toujours essayer de demander linformation suffisamment dtaille pour rpondre aux besoins de
lanalyse, et sans plus, afin dviter un fardeau excessif aux rpondants.
Il est bon de prparer un ensemble prliminaire de totalisations proposes et dautres principaux rsultats
voulus. Dterminer comment les rsultats seront prsents aide dfinir non seulement le niveau de
dtail, mais aussi la porte complte de lenqute. Sans un plan danalyse clair, il peut tre possible la
fin de lenqute de produire des centaines de tableaux danalyse, mais seulement quelques-uns pourraient
tre directement lis aux objectifs de lenqute.
Les totalisations proposes devraient prciser chaque variable qui sera prsente dans un tableau et ses
catgories. Lobjectif de cette tape est de crer et de retenir des spcimens de ces tableaux qui formeront
lanalyse. La spcification ce niveau permet lorganisme statistique de commencer formuler la
version prliminaire des questions du questionnaire de lenqute.
Aux fins de lenqute de la RTCR, par exemple, la population devrait tre rpartie en deux groupes ou
plus (p. ex., pour comparer les personnes ges ayant une incapacit celles qui nen nont pas).
Des sommaires darticles distincts (rpartitions des frquences, moyennes, mdianes, etc.) peuvent tre
produits, notamment,
- le pourcentage de dplacements chaque jour de la semaine (Tableau 1),

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

18

le nombre moyen de dplacements en transport en commun,


la somme moyenne dpense pour les transports la semaine dernire,
le pourcentage de personnes ges par raison de dplacement la plus frquente.
Tableau 1 : Dplacements par jour de la semaine
Jour de la semaine

Nombre de dplacements

% du total des
dplacements

Dimanche
Lundi
Mardi
Mercredi
Jeudi
Vendredi
Samedi
Total
Les totalisations croises dintrt ventuel peuvent comprendre :
- le nombre de dplacements par mode de transport (Tableau 2),
- le nombre dautobus utiliss par points de dpart et darrive,
- la rpartition des raisons pour ne pas utiliser le transport en commun par caractristique de personne
(p. ex., personne ayant une incapacit, etc.).
Dautres liens peuvent faire lobjet dune enqute, notamment :
- la somme moyenne dpense pour les transports par tranche de revenu,
- le revenu mdian des personnes ges confines la maison.
Tableau 2 : Nombre de dplacements par mode de transport
Mode de transport

Nombre de
dplacements

% du total des
dplacements

Transport en commun
Autobus
Mtro
Autre
Transport priv
Automobile camion
Bicyclette
Marche
Autre
Total

2.2

Contraintes ayant des rpercussions sur lnonc des objectifs

De nombreuses exigences et contraintes peuvent avoir des rpercussions sur lnonc des objectifs de
lenqute. Lune est lie la qualit des estimations. quel point les rsultats de lenqute devraient-ils
tre prcis? La question fait rfrence lampleur de lerreur dchantillonnage acceptable pour les
variables les plus importantes. Les rsultats dtaills et prcis exigent souvent de trs larges chantillons
qui sont parfois au-del des moyens du client. Celui-ci peut donc dcider dexiger moins de prcision ou
dobtenir des donnes plus agrges, moins dtailles.
STATISTIQUE CANADA

FORMULATION DE LNONC DES OBJECTIFS

19

Les lments qui ont des rpercussions sur la prcision et donc, sur la taille de lchantillon comprennent
ceux-ci :
- la variabilit de la caractristique dintrt de la population,
- la taille de la population,
- le plan dchantillonnage et la mthode destimation,
- le taux de rponse.
Les contraintes oprationnelles ont aussi des rpercussions sur la prcision. Ces lments sont parfois les
plus influents :
- Quelle taille dchantillon le client a-t-il les moyens dutiliser?
- Combien de temps peut tre rserv au travail dlaboration?
- Combien de temps peut tre rserv au droulement de lenqute au complet?
- Les rsultats sont-ils rapidement ncessaires aprs la collecte?
- Combien dintervieweurs sont ncessaires? Combien sont disponibles?
- Combien dordinateurs sont disponibles? Combien de membres du personnel de soutien informatique
sont disponibles?
La prcision est labore davantage au Chapitre 3 - Introduction au plan denqute, au Chapitre 6 Plans dchantillonnage, au Chapitre 7 - Estimation et au Chapitre 8 - Calcul de la taille de
lchantillon et rpartition.
Voici dautres lments qui ont des rpercussions sur lnonc des objectifs :
- Les variables ncessaires peuvent-elles tre mesures laide des techniques disponibles?
- Faudra-t-il imposer aux rpondants un fardeau trop lourd pour obtenir les rsultats voulus?
- La vie prive du rpondant sera-t-elle compromise cause du niveau de dtail des rsultats diffuss?
- Lenqute aura-t-elle des rpercussions ngatives sur la rputation de lorganisme denqute?
Toutes ces considrations sont des points de la planification dune enqute. Les diffrents aspects de la
gestion dune enqute sont couverts au Chapitre 13 - Planification et gestion de lenqute.

2.3

Sommaire

Sil na pas une ide claire des besoins dinformation, lorganisme statistique risque de cibler un problme
diffrent, dobtenir des rsultats incomplets ou hors de propos, et de perdre du temps et des ressources.
Les activits de lenqute pourraient simplement ennuyer ou perturber de nombreux rpondants sans
donner de renseignements utiles. Les objectifs de lenqute doivent donc tre clairement dfinis pendant
la phase de planification.
Voici un rsum des questions les plus importantes et des points considrer lors de llaboration des
besoins dinformation et des objectifs de lenqute :
- Quels sont les besoins dinformation de lenqute dans lensemble?
- Qui utilisera les donnes et comment?
- Quelles dfinitions serviront lenqute?
- Quel genre de sujets en particuliers seront considrs pendant lenqute?
- Un plan danalyse a-t-il t prpar avec totalisations proposes?
- quel point les estimations doivent-elles tre prcises?
- Quelles sont les contraintes oprationnelles?
La formulation des objectifs de lenqute peut tre peaufine davantage pendant la conception et
llaboration du questionnaire en particulier (voir le Chapitre 5 - Conception du questionnaire).

STATISTIQUE CANADA

20

MTHODES ET PRATIQUES DENQUTE

Bibliographie
Brackstone, G.J. 1991. Shaping Statistical Services to Satisfy User Needs. Statistical Journal of the
United Nations. ECE 8: 243-257.
Brackstone, G.J. 1993. Data Relevance: Keeping Pace with User Needs. Journal of Official Statistics. 9:
49-56.
Fink, A. 1995. The Survey Kit. Sage Publications, California.
Fowler, F.J. 1984. Survey Research Methods. 1. Sage Publications, California.
Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.
Levy, P. et S. Lemeshow. 1991. Sampling of Populations. John Wiley and Sons, New York.
Moser C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.
Satin, A. et W. Shastry. 1993. chantillonnage statistique : un guide non mathmatique Deuxime
dition. Statistique Canada. 12-602F.
Statistique Canada. 1998. Politique sur les Normes. Manuel des politiques. 2.10.

STATISTIQUE CANADA

21

Chapitre 3 - Introduction au plan denqute


3.0 Introduction
Lorsque les objectifs de lenqute sont clairement dfinis, il faut considrer le plan denqute. Voici les
questions importantes : faut-il faire une enqute-chantillon ou un recensement? La population qui
intresse le client peut-elle faire lobjet dune enqute? Quelles peuvent tre les principales sources
derreur dans lenqute et leurs rpercussions sur les rsultats?
De nombreux lments aident dterminer sil faut faire une enqute-chantillon ou un recensement,
notamment, le budget et les ressources disponibles, la taille de la population et des sous-populations
dintrt, et lchancier des rsultats de lenqute.
La base de sondage dfinit en bout de ligne la population observe qui peut tre diffrente de celle que
cible le client. Avant de choisir une base de sondage en particulier, il faut valuer la qualit de diverses
bases ventuelles pour dterminer en particulier laquelle couvre le mieux la population cible.
Une enqute peut prsenter deux genres derreur : lerreur dchantillonnage et lerreur non due
lchantillonnage. Lerreur dchantillonnage est possible seulement dans lenqute-chantillon. Lerreur
non due lchantillonnage est possible dans lenqute-chantillon et le recensement, et un certain
nombre de raisons peuvent lexpliquer : la base de sondage est incomplte, certains rpondants nont pas
dclar correctement les donnes, des donnes de certains rpondants peuvent manquer, etc.
Lobjectif de ce chapitre est de prsenter ces considrations importantes pour le plan denqute.
Davantage dinformation propos de la planification dune enqute-chantillon est donne au
Chapitre 6 - Plans dchantillonnage.

3.1

Recensement et enqute-chantillon

Il y a deux genres denqute, lenqute-chantillon et le recensement. La diffrence est que le


recensement cible la collecte de renseignements pour toutes les units de la population, mais lenqutechantillon retient cette fin une partie seulement (habituellement trs petite) des units de la
population. Dans les deux cas, linformation sert tablir des statistiques pour la population dans
lensemble et, habituellement, pour des sous-groupes de la population.
La principale raison de prfrer lenqute-chantillon au recensement est que lenqute - chantillon est
souvent un moyen plus conomique et rapide dobtenir de linformation de qualit suffisante pour les
besoins du client. tant donn quune enqute-chantillon est une opration plus petite chelle quun
recensement, elle est aussi plus facile contrler et surveiller. Dans certains cas cependant, un
recensement peut tre prfrable ou ncessaire. (Pour une dfinition formelle de la qualit, voir lAnnexe
B - Contrle qualitatif et assurance de la qualit).
La liste suivante englobe les lments les plus importants considrer avant de choisir un recensement ou
une enqute par chantillonnage :
i.

Erreurs denqute

Il y a deux genres derreurs denqute, lerreur dchantillonnage et lerreur non due lchantillonnage.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

22

Lerreur dchantillonnage est propre toute enqute-chantillon. Il y a erreur dchantillonnage


lorsquon estime une caractristique en mesurant seulement une partie de la population au lieu de la
population au complet.
Lerreur dchantillonnage est habituellement mesure en dterminant dans quelle mesure les estimations
de lchantillon sont diffrentes lune de lautre, compte tenu de tous les chantillons possibles de la
mme taille et en appliquant la mme mthode dchantillonnage (plan dchantillonnage). Lampleur de
lerreur dchantillonnage peut tre limite par la taille de lchantillon (elle diminue dans la mesure o
augmente la taille de lchantillon), le plan dchantillonnage et la mthode destimation.
Il ny a pas derreur dchantillonnage dans un recensement parce que tous les membres de la population
sont dnombrs. Les rsultats du recensement devraient donc tre plus prcis, semble-t-il, que ceux de
lenqute-chantillon. Toute enqute peut cependant comporter des erreurs non dues
lchantillonnage, c.--d. toutes les erreurs qui ne sont pas lies lchantillonnage, et le recensement,
encore plus que lenqute-chantillon, parce quil est possible daffecter davantage de ressources
lenqute-chantillon pour rduire les erreurs non dues lchantillonnage. Ces erreurs peuvent donner
des rsultats denqute biaiss. Les erreurs de mesure et de traitement sont des exemples derreurs non
dues lchantillonnage.
La Section 3.4 donne des dtails sur les sources derreur denqute, alors que le Chapitre 7 - Estimation
et le Chapitre 11 - Analyse des donnes de lenqute abordent la mthode de calcul de lerreur
dchantillonnage.
ii.

Cot

tant donn que tous les membres de la population font lobjet de lenqute, le recensement cote plus
cher que lenqute-chantillon (la collecte des donnes est lactivit la plus chre de lenqute). Dans le
cas dune grande population, il est habituellement possible dobtenir des rsultats prcis partir
dchantillons relativement modestes. LEnqute sur la population active canadienne, par exemple, est
faite chaque mois auprs de 130 000 rsidents environ. La population canadienne compte
approximativement 30 millions de citoyens et la taille de lchantillon est donc de moins de 0,5 % de la
population. Un recensement coterait considrablement plus cher.
iii.

Rapidit dexcution

Il faut souvent obtenir et traiter les donnes, puis diffuser les rsultats, au cours dune priode
relativement brve. tant donn que le recensement saisit des donnes pour toute la population, la collecte
et le traitement des donnes dun recensement demandent considrablement plus de temps que pour une
enqute-chantillon.
iv.

Taille de la population

Le recensement peut tre prfrable pour une petite population. En effet, pour faire des estimations ayant
une petite erreur dchantillonnage, il peut tre ncessaire de tirer un large chantillon de la population.
Dans ce cas et pour des frais supplmentaires minimes, les donnes peuvent tre disponibles pour toute la
population, au lieu dune fraction seulement. Le recensement dune grande population dautre part cote
trs cher et lenqute-chantillon est donc habituellement prfrable.
Les lments qui ont des rpercussions sur la taille de lchantillon sont repris au Chapitre 8 - Calcul de
la taille de lchantillon et rpartition.

STATISTIQUE CANADA

INTRODUCTION AU PLAN DENQUTE

v.

23

Estimation pour un petit domaine

Compte tenu du point prcdent, le recensement peut tre prfrable lorsque des estimations denqute
sont ncessaires pour des secteurs gographiques restreints ou des secteurs ayant une petite population.
Une enqute nationale peut tre ncessaire, par exemple, pour obtenir des statistiques sur chaque ville au
pays. Lenqute-chantillon peut donner des statistiques nationales dont lerreur dchantillonnage est
minime, mais, compte tenu de la taille de lchantillon, il peut y avoir trop peu de rpondants pour donner
des estimations dont lerreur dchantillonnage est minime pour toutes les villes. tant donn que le
recensement cible chacun et quil ny a pas derreur dchantillonnage, il peut donner des estimations
pour tous les sous-groupes possibles de la population.
Il nest pas toujours ncessaire de faire le recensement ou lenqute-chantillon. Il est parfois possible de
combiner les deux. Si vous voulez des estimations sur de petits domaines, par exemple, lenqutechantillon peut se drouler dans les plus grandes villes et le recensement, dans les plus petites.
vi.

Prdominance des attributs

Si lobjectif de lenqute est destimer la proportion de la population ayant une certaine caractristique, et
si la caractristique est commune, une enqute-chantillon devrait tre suffisante. Si la caractristique est
rare cependant, le recensement peut tre ncessaire. La taille de la sous-population ayant la caractristique
dtermine le choix.
Supposons, par exemple, que le client veut dterminer le pourcentage de personnes ges dans la
population et que ce pourcentage, son avis, est denviron 15 %. Lenqute-chantillon devrait permettre
destimer ce pourcentage avec une petite erreur dchantillonnage. Si les attributs sont plus rares
cependant, et sils touchent moins de 1 % de la population, le recensement peut tre plus appropri.
(Lhypothse est que la base du sondage na pu identifier ces personnes auparavant.)
Il est bien entendu possible quavant de procder lenqute, absolument personne nait de donne sur la
prdominance de lattribut en question. Il est conseill dans ce cas de procder une tude prliminaire,
c.--d. une tude de faisabilit ou une enqute pilote.
vii.

Besoins spcialiss

Il arrive que linformation voulue par enqute ne peut tre demande directement au rpondant ou elle
peut tre un fardeau pour lui. Une enqute sur la sant, par exemple, peut demander des donnes sur la
tension artrielle, le groupe sanguin et la condition physique des rpondants, donnes qui peuvent tre
dtermines avec prcision par un professionnel de la sant seulement. Si le genre de donnes vises
demande du personnel chevronn, du matriel de mesure qui cote cher, ou sil faut imposer un fardeau
relativement lourd aux rpondants, il peut tre impossible de faire un recensement. Dans certains
domaines en particulier (contrle qualitatif dun processus de fabrication par exemple), le caractre
destructif de certains tests peut indiquer que lenqute-chantillon est la seule option logique.
viii.

Autres lments

Il y a dautres raisons de faire le recensement. La cration dune base de sondage en est une. De
nombreux pays, par exemple, font le recensement quinquennal ou dcennal de la population. Les donnes
tires de ce genre de recensement peuvent servir de base de sondage une enqute-chantillon ultrieure
qui cible la mme population.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

24

Obtenir de linformation comparative est une autre raison de faire le recensement. Linformation
comparative peut tre le dnombrement connu de la population, par exemple, le nombre dhommes et de
femmes. Linformation peut servir amliorer les estimations de lenqute-chantillon (voir le
Chapitre 7 - Estimation).

3.2

Population cible et population denqute

Au Chapitre 2 - Formulation de lnonc des objectifs, nous avons expliqu comment formuler les
dfinitions oprationnelles et des concepts. Lun des premiers concepts dfinir, y est-il mentionn, est la
population cible, c.--d. la population dont on veut obtenir de linformation.
Les lments suivants sont essentiels la dfinition de la population cible et aux dfinitions
oprationnelles en gnral :
- genre dunits que comprend la population et caractristiques particulires de ces units (qui ou
quoi?),
- localisation des units (o?),
- priode de rfrence considre (quand?).
Lorganisme statistique commence avec une population conceptuelle, pour laquelle il ny a peut-tre
aucune liste concrte, afin de dfinir la population cible. La population conceptuelle peut tre, par
exemple, lensemble des agriculteurs. Il faut dfinir le terme agriculteur pour cerner la population
cible. Celui qui a un petit jardin dans la cour arrire est-il un agriculteur? Quelle est la distinction entre un
agriculteur et un jardinier occasionnel? Quen est-il si un exploitant agricole na vendu aucun de ses
produits? La dfinition de la population cible peut englober, en bout de ligne, tous les agriculteurs au
Canada dont les revenus sont suprieurs un certain seuil au cours dune anne de rfrence en
particulier.
La population denqute est en fait la population que couvre lenqute. Elle peut tre diffrente de la
population cible, mais idalement, les deux devraient tre trs semblables. Il est important de souligner
que les conclusions tires des rsultats de lenqute sappliquent seulement la population de lenqute.
Voil pourquoi la population denqute devrait tre clairement dfinie dans la documentation de
lenqute.
Diverses raisons peuvent expliquer les diffrences entre les deux populations. La difficult et le cot lev
de la collecte des donnes dans les rgions isoles, par exemple, peut motiver la dcision dexclure ces
units de la population denqute. De mme, les membres de la population cible qui vivent ltranger ou
qui sont dans des institutions peuvent tre exclus de la population denqute sil est trop difficile ou
coteux de les intgrer.
Les exemples suivants illustrent les diffrences possibles entre la population cible et la population
denqute.
Exemple 3.1 :
Enqute sur les revenus et les dpenses des mnages
Population cible :

Toute la population rsidant au Canada le 30 avril 1997.

Population denqute :

La population du Canada au 30 avril 1997, lexception de ceux qui


habitent dans des institutions ou qui nont aucune adresse permanente.

STATISTIQUE CANADA

INTRODUCTION AU PLAN DENQUTE

25

Aux fins de cette enqute, il a t dcid quil serait trop difficile de faire enqute auprs des gens sans
adresse permanente (les expriences prcdentes ont eu peu de succs). De plus, ceux qui habitent en
institution peuvent tre mentalement ou physiquement incapables de rpondre aux questions. Nombre de
ces gens peuvent tre indisposs rpondre, et mme sils ltaient, souvent, les questions poses ne
sappliquent pas leur situation, et il faudrait donc laborer des instruments denqute modifis. Il
faudrait aussi prvoir des dispositions particulires pour avoir accs certaines institutions en particulier.

3.3

Base de sondage

Lorsque la dfinition de la population cible satisfait le client et lorganisme statistique, certains moyens
daccs aux units de la population sont ncessaires. La base de sondage donne les moyens didentifier
les units de la population denqute et de communiquer avec elles. Cette base de sondage dfinit en
bout de ligne la population denqute : si la base de sondage ne comprend pas les numros de tlphone
non publis, par exemple, ils sont aussi exclus de la population denqute.
Exemple 3.2 :
Recensement du secteur de la fabrication
Population cible :

Tous les tablissements de fabrication en exploitation au Canada en


avril 2002.

Population denqute :

Tous les tablissements de fabrication o des employs travaillaient au


Canada en avril 2002.

Le propritaire peut exploiter un tablissement de fabrication, avec employs ou non. Dans cet exemple,
la seule base de sondage disponible sapplique aux tablissements qui ont des employs et ceux qui nen
nont pas sont donc exclus de la population denqute.
(La population cible est souvent redfinie pour correspondre la population qui peut en pratique faire
lobjet dune enqute. Voil lapproche dornavant applique dans ce manuel : la population cible fait
rfrence la population que lenqute prvoit couvrir, compte tenu des contraintes oprationnelles et
pratiques et de la base de sondage utilise.)
Une base de sondage est ncessaire, non seulement comme vhicule daccs aux units de la population
denqute, mais aussi parce que dans certaines enqutes, lorganisme statistique doit tre en mesure de
calculer la probabilit dinclusion que prsente une unit de la population dans lchantillon. Si on a
recours lchantillonnage probabiliste, ces probabilits permettent de tirer des conclusions sur la
population observe, et cest lobjectif de lenqute. (Consulter le Chapitre 6 - Plans dchantillonnage
pour obtenir une dfinition de lchantillonnage probabiliste.)
On a dj fait rfrence aux units de lenqute dont on peut distinguer trois types :
- lunit dchantillonnage (lunit qui fait lobjet de lchantillonnage),
- lunit de rfrence (lunit sur laquelle linformation est fournie),
- lunit dclarante (lunit qui donne linformation).
Dans certaines enqutes, ces units sont toutes les mmes, mais il en est souvent autrement. Dans le cas
dune enqute auprs des enfants, par exemple, il nest peut-tre pas pratique que lunit de rfrence, un
enfant, soit lunit dclarante. Un plan dchantillonnage commun pour les enqutes auprs des mnages
est le recours une base de sondage qui numre les mnages dans la population de lenqute (une telle

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

26

base peut donner la meilleure couverture de tous les enfants de la population cible). Dans une enqute qui
applique ce genre de base de sondage, on procderait lchantillonnage des mnages et demanderait
un parent de rpondre au nom de lunit de lanalyse, cest--dire lenfant.
La base de sondage devrait comprendre les renseignements suivants, en tout ou en partie :
i.

Donnes didentification

Des donnes didentification sont les renseignements de la base de sondage qui identifient sans ambigut
chaque unit de lchantillon, par exemple, le nom, ladresse exacte et un numro didentification unique.
ii.

Donnes de communication

Les donnes de communication sont les renseignements ncessaires pour situer les units de lchantillon
pendant la collecte, par exemple, ladresse postale ou le numro de tlphone.
iii.

Donnes de classification

Les donnes de classification servent la slection de lchantillon et, ventuellement, lestimation. Si


les gens qui habitent dans des appartements, par exemple, font lobjet dune enqute diffrente de ceux
qui habitent dans des rsidences, la base de sondage doit donc classer diffrents types de logement (c.--d.
appartements, maisons individuelles, etc.). Les donnes de classification peuvent aussi comprendre une
mesure de la taille utiliser pour lchantillonnage, par exemple, le nombre demploys qui travaillent
dans une entreprise ou le nombre dacres dune ferme. Voici dautres exemples de donnes de
classification : classification gographique (p. ex., province, division ou subdivision du recensement),
classification type des professions (CTP) ou classification type des industries (p. ex., CTI ou Systme de
classification des industries de lAmrique du Nord, SCIAN).
iv.

Donnes de mise jour

Les donnes de mise jour sont ncessaires si lenqute doit tre ritre, par exemple, dates des ajouts
ou des modifications apportes aux donnes de la base de sondage.
v.

Donnes de couplage

Les donnes de couplage sont utilises pour lier les units de la base de sondage une source de donnes
plus jour, par exemple, pour mettre jour la base de sondage.
La base de sondage est en rsum un ensemble de renseignements qui donnent le moyen davoir accs
aux units slectionnes de la population de lenqute. Les donnes didentification et de communication
sont le minimum ncessaire pour faire lenqute. Les donnes de classification, de mise jour et de
couplage sont cependant aussi souhaitables. Les donnes de la base de sondage sont un outil
dchantillonnage, mais nous constaterons aussi dans les chapitres ultrieurs quelles peuvent servir
vrifier et imputer des donnes manquantes ou incohrentes, et amliorer lchantillonnage et
lestimation.
Les diffrents aspects des plans dchantillonnage sont repris au Chapitre 6 - Plans dchantillonnage et
au Chapitre 7 - Estimation. Le Chapitre 10 - Traitement porte sur la vrification et limputation.

STATISTIQUE CANADA

INTRODUCTION AU PLAN DENQUTE

3.3.1

27

Types de base de sondage

Il y a deux principales catgories de base de sondage : les listes et les bases arolaires. Si aucune base de
sondage nest approprie, des bases multiples peuvent tre utilises.
3.3.1.1 Liste
Une liste peut tre dfinie comme une liste conceptuelle ou physique de toutes les units de la
population de lenqute. Une liste conceptuelle est souvent utilise pour une population qui existe
seulement au cours de lenqute. Un exemple serait la liste de tous les vhicules qui entrent dans le
stationnement dun centre commercial entre 9 h et 20 h pendant une journe en particulier.
Il est possible dobtenir des listes physiques, ou listes relles des units de la population, de diffrentes
sources. Divers organismes et paliers de ladministration publique maintiennent des listes des fins
administratives. Ces donnes administratives sont souvent les sources les plus efficientes de donnes de
mise jour de la base de sondage. Voici des exemples de liste :
- registre des statistiques de ltat civil (p. ex., une liste de toutes les naissances ou de tous les dcs
dans la population, ou les deux),
- registre des entreprises (p. ex., une liste de toutes les entreprises en exploitation),
- registre des adresses (p. ex., une liste des mnages et des adresses municipales),
- annuaire tlphonique (c.--d. une liste de tous les mnages dont le numro de tlphone est publi),
- listes de clients (c.--d. une liste de tous les clients dune entreprise),
- listes de membres (c.--d. une liste de tous les membres dun organisme).
Il faut tenir compte des lments suivants lorsquon utilise des donnes administratives pour tablir une
liste :
i.

Cot

Les sources administratives offrent souvent un point de dpart bon march pour tablir la base de
sondage. Elles sont aussi une source dinformation pour la mise jour de cette base.
ii.

Couverture

La source administrative devrait couvrir correctement la population cible.


iii.

Mise jour

Il est important de dterminer quel point une information administrative est jour. Il faudrait considrer
le temps ncessaire pour traiter les mises jour et le dlai de communication des donnes lorganisme
statistique parce quils peuvent tre des critres dcisifs pour dterminer sil faut utiliser ou non une
source administrative en particulier.
iv.

Dfinitions

Les dfinitions quutilise la source administrative devraient correspondre le plus possible aux concepts de
lenqute. La dfinition dun logement ou dune entreprise, par exemple, peut tre diffrente de celle de
lenqute.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

28

v.

Qualit

La qualit des donnes que fournit la source administrative devrait correspondre lensemble des normes
de qualit de lenqute. (Si les donnes administratives ont un taux de rejet lev la vrification, par
exemple, lorganisme statistique peut dcider que les donnes sont de qualit insuffisante. La vrification
est couverte en dtail au Chapitre 10 - Traitement.)
vi.

Stabilit de linformation de la source

Lorsque les sources administratives sont utilises pour tablir une base de sondage, lensemble des
variables que fournit la source devrait tre aussi stable que possible dans le temps. Les modifications des
concepts, des classifications ou de la matire la source peuvent causer des problmes graves de mise
jour de la base de sondage.
vii.

Relations officielles et juridiques

Il devrait idalement y avoir une relation (par exemple, un contrat sign) entre lorganisme statistique et
la source de linformation administrative. Voil qui peut tre important pour garantir la confidentialit des
donnes. Il est aussi important davoir un dialogue ouvert et de favoriser la collaboration entre les deux
partenaires.
viii.

Documentation

Les dossiers de donnes devraient tre documents du point de vue des variables quils contiennent et de
leur configuration. Cest particulirement important si les dossiers sont tenus dans diffrents secteurs de
comptence.
ix.

Accessibilit facilit dutilisation

Linformation est-elle disponible sur support lectronique? Comment linformation est-elle organise?
Faut-il combiner diffrentes listes avant de pouvoir les utiliser?
Pour en savoir davantage propos de lutilisation des donnes administratives, on peut consulter
lAnnexe A - Donnes administratives.
3.3.1.2 Base arolaire
Une base arolaire est une liste spciale dont les units sont des secteurs gographiques. La population
observe est situe dans ces secteurs gographiques. Les bases arolaires peuvent servir lorsque lenqute
a un caractre gographique (mesurer les peuplements de la faune, par exemple, en comptant le nombre
danimaux par kilomtre carr) ou lorsquune liste approprie nest pas disponible, auquel cas la base
arolaire peut tre un moyen de crer une liste. Une liste inapproprie est souvent un problme. Cest
parce que les populations peuvent changer avec le temps, des units naissent, meurent, dmnagent ou
changent de nom, de composition ou de caractre, et nimporte quelle liste peut devenir dsute. Les
limites gographiques sont cependant plus stables et il est souvent plus facile de maintenir une base
arolaire.
Les bases arolaires sont habituellement composes dune hirarchie dunits gographiques. Des units
de base de sondage un niveau peuvent tre subdivises pour former des units au niveau suivant. Les
grandes rgions gographiques comme les provinces peuvent tre composes de districts ou de

STATISTIQUE CANADA

INTRODUCTION AU PLAN DENQUTE

29

municipalits qui peuvent aussi tre diviss en plus petits secteurs, par exemples, les lots dune ville.
Dans les plus petits secteurs gographiques chantillonns, la population peut tre liste pour
chantillonner les units de ce secteur.
Lchantillonnage partir dune base arolaire est souvent effectu en plusieurs tapes. Supposons, par
exemple, quil faut tirer un chantillon des logements dune ville en particulier pour lenqute, mais quil
ny a pas de liste jour. Une base arolaire peut servir crer une liste jour des logements, comme suit :
la premire tape de lchantillonnage, des secteurs gographiques sont chantillonns, par exemple, les
lots dune ville. Ensuite, pour chaque lot slectionn, une liste est tablie en numrant tous les
logements des lots chantillonns en ville. la deuxime tape de lchantillonnage, un chantillon de
logements est ensuite slectionn. Ce genre dapproche a un avantage : elle maintient les cots de cration
dune base de sondage dans des limites raisonnables et elle restreint lchantillon un nombre limit de
secteurs gographiques, moyen rentable de faire des enqutes par interview sur place.
Il est important que les units gographiques chantillonner dans une base arolaire soient identifiables
uniquement sur une carte et que les intervieweurs puissent reprer facilement les limites. Voil pourquoi
les lots des villes, les routes principales et les rivires sont souvent utiliss pour dlimiter les units
gographiques dune base arolaire.
Lexamen de lchantillonnage partir des bases arolaires est plus approfondi au Chapitre 6 - Plans
dchantillonnage. Ltablissement dune liste pour une base arolaire est expliqu au Chapitre 9 Oprations de collecte des donnes.
3.3.1.3 Base de sondage multiple
Une base de sondage multiple est une combinaison de deux bases ou plus (des listes et des bases
arolaires ou deux listes ou plus).
Les bases de sondage multiples sont habituellement utilises lorsquaucune base unique ne peut fournir la
couverture ncessaire de la population cible. Pendant lEnqute sur la sant dans les collectivits
canadiennes (ESCC), on utilise la base arolaire de lEnqute sur la population active (EPA) et une base
de composition alatoire (CA).
Le principal avantage dune base multiple est que la couverture de la population cible peut tre meilleure.
Lun des principaux inconvnients cependant est que la mme unit dchantillonnage peut paratre
plusieurs fois dans la base de sondage. Idalement, une unit devrait paratre une fois seulement dans les
bases utilises pour tablir la base de sondage multiple. En pratique toutefois, une unit est souvent entre
dans plus dune de ces bases. Il y a plusieurs moyens de traiter le chevauchement entre les bases de
composantes :
- liminer le chevauchement pendant la cration de la base de sondage,
- rsoudre le problme pendant la slection de lchantillon (ou sur place),
- corriger le problme ltape de lestimation.
Bankier (1986) approfondit ce sujet. La composition alatoire est tudie au Chapitre 4 - Mthodes de
collecte des donnes.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

30

3.3.2

Dfauts de la base de sondage

Plusieurs dfauts de base ventuels sont dcrits ci-dessous :


i.

Sous-dnombrement

Le sous-dnombrement est le rsultat de lexclusion de la base de sondage de certaines units qui font
partie de la population cible. Cest souvent d au laps de temps entre la collecte et le traitement des
donnes utilises pour implanter la base de sondage. Entre le moment o la base est acheve et celui o se
droule lenqute, certaines units sont nes dans la population. Toute unit qui arrive dans la
population cible aprs lachvement de la base de sondage na aucune chance dtre slectionne pour
lenqute. Il en rsulte une sous-estimation de la taille de la population cible et les estimations peuvent
tre biaises. Des procdures sont ncessaires pour mesurer lampleur du sous-dnombrement et corriger
au besoin.
ii.

Surdnombrement

Le surdnombrement est le rsultat de lajout la base de sondage de certaines units qui ne font pas
partie de la population cible. Cest souvent d un laps de temps lors du traitement des donnes de la
base de sondage. Entre le moment o la base est acheve et celui o se droule lenqute, certaines units
de la population meurent (une unit est morte si elle ne fait plus partie de la population cible). Toute
unit qui est dans la base de sondage, y compris ces units mortes hors du champ de lenqute, peuvent
tre slectionnes pour lenqute. Si ces units ne sont pas correctement classes hors du champ de
lenqute dans la base de sondage, la stratgie dchantillonnage peut tre moins efficiente du point de
vue statistique et les rsultats peuvent tre biaiss.
iii.

Rptition

Il y a rptition lorsque la mme unit parat plus dune fois dans la base de sondage. Dans une base
dentreprise, par exemple, la mme entreprise peut tre numre une fois sous sa raison sociale et une
fois sous son nom commercial. Voil un problme frquent des bases de sondage multiples. La rptition
a tendance donner une surestimation de la taille de la population cible et les estimations peuvent tre
biaises. Souvent, les units en double sont repres seulement ltape de la collecte des donnes de
lenqute.
iv.

Classification errone

Les erreurs de classification sont des valeurs inexactes attribues des variables de la base de sondage.
Un homme est inscrit par erreur la catgorie femme, par exemple, ou une entreprise de dtail est classe
grossiste. Le rsultat peut tre un chantillonnage inefficient, ou se traduire par le sous-dnombrement (ou
le surdnombrement) parce que si lchantillon comprend seulement des dtaillants, par exemple, ceux
qui auront t classs grossistes par erreur seront oublis. Les erreurs de donnes didentification ou de
communication peuvent susciter des difficults de reprage du rpondant pendant la collecte.
Le Chapitre 6 - Plans dchantillonnage donne davantage dinformation sur lefficience statistique et
les plans dchantillonnage.

STATISTIQUE CANADA

INTRODUCTION AU PLAN DENQUTE

3.3.3

31

Qualits dune bonne base de sondage

Quatre critres dterminent la qualit dune base de sondage :


i.

Pertinence

La pertinence devrait tre mesure en dterminant quel point la base de sondage correspond et permet
laccs la population cible. Plus elle est diffrente de la population cible, plus lcart slargit entre la
population denqute et la population cible. Il faudrait aussi valuer quel point elle permet la
comparaison des rsultats des donnes entre divers programmes denqute. Lutilit de la base de sondage
pour dautres enqutes qui couvrent la mme population cible est aussi une mesure essentielle de sa
pertinence.
ii.

Prcision

Il faudrait valuer la prcision en tenant compte de diffrentes caractristiques. Il faudrait dabord valuer
les erreurs de dnombrement (sous-dnombrement, surdnombrement et rptition). Quelle est
limportance des units manquantes, hors du champ de lenqute ou en double dans la base de sondage? Il
faudrait ensuite vrifier les erreurs de classification. Les units sont-elles toutes classes? Si oui, le sontelles correctement? Il faudrait tre trs attentif aux donnes de communication. Sont-elles compltes? Si
oui, sont-elles exactes et prcises? Les rpercussions de la prcision des donnes se manifesteront pendant
les tapes de la collecte et du traitement dans lenqute. La prcision des donnes de la base de sondage a
des rpercussions profondes sur la qualit des rsultats de lenqute.
iii.

Actualit/ Fracheur

Il faudrait mesurer lactualit / la fracheur des renseignements en vrifiant quel point la base est jour,
compte tenu de la priode de rfrence de lenqute. Si linformation de la base est loin dtre jour (
cause de la source des donnes utilise pour implanter la base de sondage ou de la priode ncessaire pour
tablir la base), il faut alors appliquer certaines mesures pour amliorer la rapidit dexcution.
iv.

Cot

Les cots peuvent tre calculs de diffrentes faons. Il faudrait dabord dterminer le total des frais
engags pour obtenir et implanter la base de sondage. Il faudrait ensuite comparer le cot de la base de
sondage et le cot total de lenqute. Il faudrait enfin comparer les frais de mise jour de la base de
sondage au total du budget du programme denqute. Les bases de sondage servent souvent plusieurs
enqutes pour accentuer la rentabilit.
Les caractristiques souhaitables suivantes sajoutent ces importants critres :
a. Procdures et concepts normaliss
Il faudrait appliquer linformation entre dans la base de sondage des dfinitions, procdures,
classifications et concepts normaliss que comprennent le client et lutilisateur des donnes. Voil qui est
particulirement important si ces dfinitions, procdures, classifications et concepts servent dautres
enqutes. La base de sondage devrait aussi permettre une stratification efficiente (du point de vue
statistique et des frais de collecte).

STATISTIQUE CANADA

32

MTHODES ET PRATIQUES DENQUTE

b. La base de sondage devrait tre facile mettre jour laide des sources administratives et de
lenqute.
Cest un moyen de garantir quelle est tenue jour et que la couverture est complte.
c. La base de sondage devrait tre facile utiliser
Les bases de sondage qui rpondent toutes les exigences ci-dessus sont peu nombreuses. Le but est de
choisir la base qui rpond le mieux ces critres. Il est important de savoir que la base de sondage a des
rpercussions directes sur de nombreuses tapes de lenqute. Elle a, notamment, des rpercussions sur la
mthode de collecte des donnes. Si la base de sondage ne donne pas les numros de tlphone, il ne peut
y avoir dinterviews tlphoniques. Elle a aussi des rpercussions sur la mthode dchantillonnage. La
qualit de la base de sondage a donc, bien entendu, des rpercussions sur les rsultats finals de lenqute.

3.3.4

Conseils et lignes directrices

Voici des conseils et lignes directrices utiles pour choisir et utiliser au mieux la base de sondage :
i.

Lorsquil faut choisir une base de sondage (si plusieurs sont disponibles), valuer diffrentes
bases possibles ltape de la planification de lenqute pour dterminer leur pertinence et leur
qualit.

ii.

viter les bases de sondage multiples si possible. Lorsquaucune base unique nest approprie,
cependant, considrer une base multiple.

iii.

Utiliser la mme base de sondage pour les enqutes qui ont la mme population ou le mme sousensemble de la population cible. Voil qui vitera les rsultats non convergents entre les enqutes
et qui diminuera les cots lis la mise jour et lvaluation de la base de sondage.

iv.

Intgrer des procdures pour liminer les rptitions, mettre jour les naissances, les dcs et les
units hors du champ de lenqute, ainsi que les modifications apportes tout autre
renseignement de la base de sondage pour amliorer ou maintenir la qualit de la base de
sondage.

v.

Intgrer les mises jour de la base de sondage le plus rapidement possible.

vi.

Insister sur limportance de la couverture et appliquez des procdures dassurance de la qualit


efficaces aux activits lies la base de sondage. Voil qui aidera minimiser les erreurs dans
cette base.

vii.

Surveiller priodiquement la qualit de la couverture de la base de sondage en nouant des liens


avec dautres sources ou en vrifiant linformation pendant la collecte des donnes.

viii.

Dterminer et surveiller la couverture des sources administratives par lintermdiaire de la


communication avec le gestionnaire de la source, en particulier lorsque ces sources sont hors du
contrle de lenqute.

ix.

Ajouter des descriptions de la population cible et de celle de lenqute, de la base de sondage et


de la couverture dans la documentation de lenqute.

STATISTIQUE CANADA

INTRODUCTION AU PLAN DENQUTE

33

x.

Procder des vrifications cartographiques pour les bases arolaires laide de vrifications sur
place ou dautres sources cartographiques pour obtenir une dlimitation claire et sans
chevauchement des secteurs gographiques utiliss dans le plan dchantillonnage.

3.4

Erreurs denqute

Dans un monde parfait, il serait possible de slectionner un chantillon parfait, de concevoir un


questionnaire parfait, davoir des intervieweurs parfaits qui obtiendraient de linformation parfaite de
rpondants parfaits. Il ny aurait donc pas derreurs de saisie de linformation ou de conversion en une
mise en forme traitable par ordinateur.
videmment, le monde nest pas parfait et mme lenqute la plus simple pose des problmes. Sils ne
sont pas prvus et contrls, ces problmes peuvent intgrer de telles erreurs, que les rsultats de
lenqute seront inutiles. Il faut donc faire tous les efforts possibles au cours des phases de planification,
de conception et dlaboration de lenqute pour prvoir les erreurs denqute et appliquer les mesures
ncessaires pour les viter. Au cours de la phase de mise en uvre, il faudrait utiliser des techniques de
contrle qualitatif pour cerner et minimiser les rpercussions des erreurs denqute. On peut consulter
cette fin lAnnexe B - Contrle qualitatif et assurance de la qualit.
Diverses sources expliquent les erreurs denqute. Elles peuvent tre classes en deux principales
catgories : erreur dchantillonnage et erreur non due lchantillonnage.

3.4.1

Erreur dchantillonnage

Lerreur dchantillonnage a dj t dfinie. Elle est le rsultat de lestimation dune caractristique de la


population en mesurant une partie au lieu de toute la population. tant donn que toute enqutechantillon peut comprendre une erreur dchantillonnage, lorganisme statistique doit donner une
certaine indication de la porte de lerreur aux utilisateurs ventuels des donnes de lenqute. Des
mthodes de calcul de lerreur dchantillonnage sappliquent lenqute-chantillon probabiliste. Ces
mthodes dcoulent directement du plan dchantillonnage et de la mthode destimation de lenqute.
La mesure applique le plus souvent pour quantifier lerreur dchantillonnage est la variance
dchantillonnage. La variance dchantillonnage dtermine quel point lestimation dune
caractristique de divers chantillons possibles de mme taille et de mme conception est diffrente
lune de lautre. Dans le cas des plans dchantillonnage qui utilisent lchantillonnage probabiliste,
lampleur de la variance dchantillonnage dune estimation peut tre dtermine en tenant compte des
diffrences de la caractristique observes entre les units de lchantillon (c.--d. compte tenu des
diffrences observes dans lchantillon obtenu). La variance dchantillonnage estime est donc fonction
de lchantillon slectionn et varie dun chantillon lautre. Le point principal est lampleur de la
variance dchantillonnage estime dune estimation relativement la taille de lestimation de lenqute :
si la variance est relativement grande, la prcision de lestimation est donc mdiocre et nest pas fiable.
Les lments qui ont des rpercussions sur lampleur de la variance dchantillonnage comprennent :
i.

La variabilit de la caractristique dintrt dans la population

Plus la caractristique dans la population est variable, plus la variance dchantillonnage est grande.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

34

ii.

La taille de la population

En gnral, la taille de la population a des rpercussions sur la variance dchantillonnage seulement pour
les populations de petite taille ou de taille moyenne.
iii.

Le plan dchantillonnage et les mthodes destimation

Certains plans dchantillonnage sont plus efficients que dautres parce que, pour la mme taille
dchantillon et la mme mthode destimation, un plan peut donner une variance dchantillonnage
moindre que lautre.
iv.

Le taux de rponse

La variance dchantillonnage augmente dans la mesure o la taille de lchantillon diminue. tant donn
que les non-rpondants diminuent en fait la taille de lchantillon, les non-rponses augmentent la
variance dchantillonnage. Les non-rponses peuvent aussi biaiser les rsultats (voir 3.4.2.3).
Les dtails sur les plans dchantillonnage et lchantillonnage probabiliste sont couverts au Chapitre 6 Plans dchantillonnage. La mthode destimation de la variance dchantillonnage, le biais et lerreur
quadratique moyenne sont tudis au Chapitre 7 - Estimation, au Chapitre 8 - Calcul de la taille de
lchantillon et rpartition et au Chapitre 11 - Analyse des donnes de lenqute.

3.4.2

Erreurs non dues lchantillonnage

Outre lerreur dchantillonnage, un large ventail derreurs qui ne sont pas lies au processus
dchantillonnage peuvent tre repres dans une enqute. Ces erreurs sont habituellement intitules
erreurs non dues lchantillonnage. Les erreurs non dues lchantillonnage peuvent tre dfinies
comme des erreurs possibles pendant peu prs toutes les activits denqute, mis part
lchantillonnage. Ces erreurs se retrouvent dans lenqute-chantillon et le recensement (contrairement
lerreur dchantillonnage qui est prsente seulement dans lenqute-chantillon). Les erreurs non dues
lchantillonnage peuvent tre rparties en deux groupes :
i.

Erreurs alatoires

Les erreurs alatoires ont des rpercussions qui sliminent approximativement si lchantillon est
suffisamment grand, le rsultat tant une variabilit accrue.
ii.

Erreurs systmatiques

Les erreurs systmatiques ont tendance avoir la mme orientation, elles saccumulent donc dans tout
lchantillon et les rsultats finaux sont biaiss. Contrairement la variance dchantillonnage et aux
erreurs alatoires, ce biais ne diminue pas malgr laugmentation de la taille de lchantillon. Les erreurs
systmatiques sont la principale cause de proccupation au chapitre de la qualit des donnes de
lenqute. Malheureusement, les erreurs non dues lchantillonnage sont souvent trs difficiles et parfois
mme impossibles mesurer.
Voici les principales sources derreurs non dues lchantillonnage :
- couverture,
- mesure,
- non-rponse,

STATISTIQUE CANADA

INTRODUCTION AU PLAN DENQUTE

35

traitement.

3.4.2.1 Erreur de couverture


Les erreurs de couverture sont des omissions, des ajouts errons, des rptitions et des erreurs de
classification dunits dans la base de sondage. Elles ont des rpercussions sur chaque estimation de
lenqute et sont donc lun des plus importants types derreur. Elles peuvent mme tre la principale
source derreurs du recensement. Les erreurs de couverture peuvent susciter des estimations biaises et les
rpercussions peuvent varier pour diffrents sous-groupes de la population. Ces erreurs ont tendance
tre systmatiques et sont habituellement dues au sous-dnombrement. Voil pourquoi les organismes
statistiques essaient den diminuer lincidence le plus possible.
3.4.2.2 Erreur de mesure
Lerreur de mesure est la diffrence entre la rponse inscrite une question et la vraie valeur. Le
rpondant, lintervieweur, le questionnaire, la mthode de collecte des donnes et loutil de mesure
peuvent susciter ce genre derreur.
Lune des principales causes de lerreur de mesure est lincomprhension du rpondant ou de
lintervieweur. Voici des sources possibles dincomprhension :
- recours au jargon technique,
- manque de clart des concepts (c.--d. utilisation de concepts non standard),
- formulation mdiocre des questions,
- formation inapproprie de lintervieweur,
- communication de renseignements errons (c.--d. erreur de mmoire ou manque de sources
dinformation disponibles),
- problme de langue,
- traduction mdiocre (si lenqute est multilingue).
La mthode de collecte des donnes peut aussi avoir des rpercussions sur lerreur de mesure. Les
mthodes assistes par intervieweurs (recours des intervieweurs bien forms), par exemple, peuvent
donner des erreurs de mesure plus petites que les mthodes denqute par autodnombrement qui ne
donnent pas daide aux rpondants pour remplir le questionnaire.
Dans les enqutes avec mesure directe, les intervieweurs font la collecte des donnes par observation ou
en prenant les mesures (p. ex., enqutes sur les prix). Lerreur de mesure peut tre due lintervieweur ou
loutil de mesure. Lors dune enqute sur le poids des gens, par exemple, si la balance nest pas bien
calibre, les poids ne seront pas correctement dtermins.
Les erreurs de mesure parpilles alatoirement autour de la vraie valeur auront des rpercussions sur la
prcision des estimations de lenqute : la prcision diminue dans la mesure o augmente la variabilit. Si
les erreurs de mesure refltent systmatiquement certaines valeurs ou catgories , un biais se glissera et
les estimations de lenqute seront trompeuses. Il y a erreur systmatique, par exemple, si lintervieweur
doit mesurer la taille des enfants lcole et si les enfants portent des souliers pendant la mesure, auquel
cas, toutes les tailles sont systmatiquement surestimes.
Les expressions erreur de mesure et erreur de rponse sont souvent utilises sans distinction. Les
mthodes de collecte des donnes sont considres au Chapitre 4 - Mthodes de collecte des donnes.
Lerreur de rponse fait lobjet dun examen dtaill au Chapitre 5 - Conception du questionnaire.

STATISTIQUE CANADA

36

MTHODES ET PRATIQUES DENQUTE

3.4.2.3 Erreur due la non-rponse


Il y a deux genres de non-rponse : la non-rponse partielle ( une ou quelques questions) et la nonrponse totale. Il y a non-rponse partielle lorsque linformation est disponible pour certaines questions
seulement, notamment, parce que le rpondant rpond une partie seulement du questionnaire. Il y a
non-rponse totale en labsence de toutes les donnes ou presque dune unit dchantillonnage.
La non-rponse peut causer plusieurs problmes dans une enqute. Le principal problme est que les nonrpondants ont souvent des caractristiques diffrentes de celles des rpondants, et les estimations de
lenqute seront biaises si les non-rponses ne sont pas corriges. Lors dune enqute sur
lalphabtisation, par exemple, les rsultats de lenqute peuvent tre biaiss si la majorit des nonrpondants sont analphabtes. Si le taux de non-rponse est lev, le biais peut tre suffisamment marqu
pour que les rsultats de lenqute soient inutiles. La non-rponse totale pose un deuxime problme : elle
diminue la taille relle de lchantillon parce quil tait prvu que davantage dunits rpondraient
lenqute. La variance dchantillonnage augmente donc au dtriment de la prcision des estimations. Sil
est possible de prvoir le taux de rponse, la taille initiale de lchantillon devrait augmenter pour en tenir
compte. Laugmentation de la taille de lchantillon diminue la variance de lchantillonnage et permet
donc dapporter une correction pour les non-rponses qui sont rparties au hasard, mais elle ne diminue
pas le biais de la non-rponse systmatique.
Certaines raisons peuvent expliquer la non-rponse totale : il ny avait personne la maison, la personne
slectionne a refus ou tait incapable de participer lenqute. Une explication mdiocre de lobjectif
de lenqute ou de son utilisation prvue peut aussi susciter une non-rponse. Des donnes de base de
sondage mdiocres ou primes sont un autre lment : les donnes didentification de lunit de
lenqute peuvent tre inappropries et ne permettent pas de la situer. De plus, une unit en particulier est
parfois slectionne pour de nombreuses enqutes diffrentes ou pour une enqute ritre et, la longue,
lunit en vient refuser de rpondre aux enqutes cause du fardeau de rponse. Enfin, si les donnes du
rpondant sont considres inutilisables, elles peuvent tre traites comme une non-rponse.
Il peut y avoir non-rponse une question si le rpondant ne connat pas la rponse, refuse de rpondre,
oublie de rpondre ou adopte un cheminement erron pendant le questionnaire. Parfois, le rpondant ne
peut rpondre parce quil est malade ou parce quil prouve des difficults communiquer dans la langue
de lenqute. La conception mdiocre du questionnaire peut aussi favoriser la non-rponse certaines
questions. Les concepts prsents au rpondant dans le questionnaire ou pendant linterview peuvent tre
difficiles comprendre ou mal dfinis. Linterview peut se prolonger inutilement ou le dbit des questions
peut tre illogique. Les rpondants peuvent donc se dcourager et cesser de rpondre avant la fin de
linterview ou ils peuvent simplement suivre un cheminement erron dans le questionnaire.
Les intervieweurs peuvent aussi avoir une incidence sur la non-rponse totale ou partielle. Des techniques
dinterview mdiocres empchent certains intervieweurs dtablir une bonne relation avec le rpondant
qui peut donc refuser de participer ou, sil le fait, perdre rapidement tout intrt pour lenqute. Certains
intervieweurs indiquent des erreurs dues la non-rponse une question parce quils ne suivent pas les
instructions ou ne lisent pas les questions telles quelles sont formules.
Enfin, les mthodes de collecte des donnes peuvent tre une source de non-rponse. Les intervieweurs
font souvent le suivi dune non-rponse pour obtenir certaines rponses (p. ex., renverser un refus). Le
suivi inappropri des non-rpondants ou le suivi au mauvais moment peut empcher de corriger la nonrponse. La perte des donnes dun fichier ou dun questionnaire peut aussi donner des erreurs dues la
non-rponse . (Les donnes perdues, mme si le nombre rel de cas est mince, sont une importante
source de proccupations cause de linfraction ventuelle la confidentialit des donnes du rpondant.)

STATISTIQUE CANADA

INTRODUCTION AU PLAN DENQUTE

37

Le Chapitre 5 - Conception du questionnaire rvlera les dtails de la conception du questionnaire. Le


traitement de la non-rponse totale est couvert au Chapitre 7 - Estimation alors que la non-rponse
partielle est traite au Chapitre 10 - Traitement. Les procdures sur le terrain sont prcises au
Chapitre 9 - Oprations de collecte des donnes.
3.4.2.4 Erreur de traitement
Le traitement transforme les rponses de lenqute obtenues pendant la collecte en une mise en forme
qui convient la totalisation et lanalyse des donnes. Il comprend toutes les activits de manutention
des donnes aprs la collecte et avant lestimation. Il sagit dun ensemble dactivits manuelles et
automatises qui demandent beaucoup de temps et de ressources, et ce volet est donc une source
ventuelle derreurs. Des erreurs de traitement peuvent se produire, par exemple, pendant le codage ou la
saisie des donnes, la vrification ou limputation. Elles peuvent tre alatoires comme toutes les autres
erreurs et accrotre ainsi la variance des estimations de lenqute, ou elles peuvent tre systmatiques et
ajouter un biais.
Le codage est le processus daffectation dune valeur numrique aux rponses pour faciliter la saisie
des donnes et le traitement en gnral. Le codage comprend lattribution dun code (p. ex., le code de
profession) une rponse donne ou la comparaison de la rponse avec un ensemble de codes et la
slection de celui qui dcrit le mieux la rponse.
Dans le cas des questions fermes (questions ayant des catgories de rponses prdtermines), les codes
sont souvent attribus avant linterview. Quant aux questions ouvertes (le rpondant rpond dans ses
propres mots), le codage peut tre manuel ou automatis. Lintgralit et la qualit de la rponse une
question ouverte, ainsi que la mthode de codage de la rponse, dterminent la qualit du codage. Le
codage manuel des questions ouvertes demande linterprtation et du jugement, et lerreur est donc
possible. Deux codeurs diffrents peuvent coder la mme rponse diffremment. Les codeurs de peu
dexprience et de formation mdiocre sont particulirement exposs aux erreurs de codage. Au cours
dune opration de codage automatis, un problme de programmation peut susciter des erreurs ou il est
possible que le programme ne tienne pas compte correctement de toute linformation disponible. Si le
codage est programm et excut automatiquement, un problme de programmation sera
systmatiquement rpt et introduira un biais (p. ex., erreur de classification de la profession).
La saisie des donnes est la mise en forme des rponses lisible la machine. Il y a erreur de saisie des
donnes si elles ne sont pas entres lordinateur exactement comme elles paraissent dans le
questionnaire. La complexit des donnes alphanumriques et le manque de clart des rponses fournies
peuvent expliquer ce problme. La prsentation physique du questionnaire ou les documents de codage
peuvent susciter des erreurs de saisie des donnes. La mthode de saisie des donnes peut aussi
occasionner des erreurs (la saisie des donnes peut tre une activit manuelle ou automatise, par
exemple, laide dun lecteur optique de caractres).
La vrification consiste inscrire des coches pour identifier des entres manquantes, errones ou
incohrentes qui rvlent lenregistrement de donnes ventuellement errones. Limputation est un
processus qui dtermine et attribue des valeurs de remplacement, afin de rsoudre les problmes de
donnes manquantes, errones ou incohrentes. Les erreurs de vrification et dimputation sont souvent
simultanes parce que les deux processus sont trs troitement lis.
La structure complexe ou la qualit mdiocre des donnes originales peut expliquer les erreurs de
vrification et dimputation. Lorsque les processus de vrification et dimputation sont automatiss, les
dfaillances des programmes insuffisamment mis lessai peuvent aussi expliquer les erreurs. Le choix

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

38

dune mthode dimputation inapproprie peut susciter des biais. La modification inexacte des donnes
considres errones ou la modification errone de donnes exactes peuvent aussi expliquer les erreurs.
Les activits de traitement sont expliques en dtail au Chapitre 10 - Traitement. Les erreurs de
traitement sont souvent surveilles et contrles laide de techniques de contrle qualitatif.
LAnnexe B - Contrle qualitatif et assurance de la qualit donne davantage de dtails.

3.5

Sommaire

Ce chapitre a prsent certains points importants considrer lors de la planification de lenqute. La


distinction entre une enqute et un recensement a t explique, ainsi que les avantages et les
inconvnients de chacun. La diffrence entre la population cible et la population de lenqute a ensuite t
prcise. Une section sur les bases de sondage a expos les divers types de bases qui peuvent tre utilises
dans une enqute, les qualits dune bonne base, ainsi que les dfauts souvent manifestes et des moyens
de les liminer. Enfin, les diffrents types et les sources diverses derreurs dans une enqute ont t
considrs. Lerreur dchantillonnage a t brivement dfinie (la question sera approfondie dans les
chapitres ultrieurs) et laccent a t mis sur les erreurs non dues lchantillonnage : erreurs de
couverture, de mesure ou de traitement et erreur due la non-rponse.
Comment planifier et grer une enqute en gnral, quelles sont les tapes de la planification de
lenqute? Cest le sujet du Chapitre 13 - Planification et gestion de lenqute. Quelle est la conception
qui permettra de dterminer comment slectionner lchantillon de la population cible? Le Chapitre 6 Plans dchantillonnage rpond cette question.

Bibliographie
Bankier, M. 1986. Estimators Based on Several Stratified Samples with Applications to Multiple Frame
Surveys. Journal of the American Statistical Association. 81-396.
Biemer, P.P., Groves, R.M., Lyberg, L.E., Mathiowetz, N.A. et S. Sudman, ds. 1991. Measurement
Errors in Surveys. John Wiley and Sons, New York.
Cialdini, R., M. Couper et R.M. Groves. 1992. Understanding the Decision to Participate in a Survey.
Public Opinion Quarterly. 56: 475-495.
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge, P.S. Kott, ds. 1995. Business
Survey Methods. John Wiley and Sons, New York.
Food and Agriculture Organization of the United Nations (FAO). 1996. Multiple Frame Agriculture
Surveys. Volume 1: Current Surveys Based on Area and List Sampling Methods. FAO, Rome.
Fuller, W. 1987. Measurement Error Models. John Wiley and Sons, New York.
Gosselin, J.-F., B.N. Chinnappa, P.D. Ghangurde et J. Tourigny. 1978. Coverage. A Compendium of
Methods of Error Evaluation in Censuses and Surveys. Statistics Canada. 13-546E: 7-9.
Groves, R.M. 1989. Survey Errors and Survey Costs. John Wiley and Sons, New York.

STATISTIQUE CANADA

INTRODUCTION AU PLAN DENQUTE

39

Hartley, H.O. 1962. Multiple Frame Surveys. Proceedings of the Social Statistics Section. American
Statistical Association. 203-206.
Laniel, N. et H. Finlay. 1991. Data Quality Concerns with Sub-Annual Business Survey Frames.
Proceedings of the Section on Survey Research Methods. American Statistical Association. 202207.
Lessler, J.T. et W.D. Kalsbeek. 1992. Nonsampling Errors in Surveys. John Wiley and Sons, New York.
Linacre, S.J. et D.J. Trewin. 1989. Evaluation of Errors and Appropriate Resource Allocation in
Economic Collections. Proceedings of the Annual Research Conference. U.S. Bureau of the
Census. 197-209.
Lyberg, L., P. Biemer, M. Collins, E. de Leeuw, C. Dippo, N. Schwarz et D. Trewin, ds. 1997. Survey
Measurement and Process Quality. John Wiley and Sons, New York.
Statistique Canada. 1998. Statistique Canada - Lignes directrices concernant la qualit. Troisime
dition. 12-539-XIF.
Swain, L., J.D. Drew, B. Lafrance et K. Lance. 1992. La Cration dun registre des adresses rsidentielles
pour amliorer la couverture du recensement du Canada de 1991. Techniques denqute. 18(1):
139-156.
Swain, L. et D. Dolson. 1997. Current Issues in Household Survey Nonresponse at Statistics Canada.
Statistics in Transition. 3: 439-468.

STATISTIQUE CANADA

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

41

Chapitre 4 - Mthodes de collecte des donnes


4.0

Introduction

La collecte des donnes est le processus qui permet dobtenir linformation ncessaire pour chaque
unit slectionne de lenqute. Pendant la collecte des donnes, les intervenants de lenqute
dterminent o sont les membres de la population, cest--dire des particuliers ou des organismes, ils
communiquent avec eux et leur demandent de participer lenqute. Un questionnaire est ensuite
administr et les rponses sont enregistres. Ce processus cote cher, demande beaucoup de temps et
normment de ressources, et il a des rpercussions directes sur la qualit des donnes. tant le principal
moyen de communication du grand public avec lorganisme statistique, il contribue limage de marque
de lorganisme et a de grandes rpercussions sur la pertinence de lorganisme et la qualit de ses donnes.
Au cours de la phase de planification de lenqute, il faut prendre de nombreuses dcisions sur la mthode
de collecte des donnes. Un intervieweur devrait-il administrer le questionnaire? Si oui, faut-il faire une
interview tlphonique ou sur place? Faut-il appliquer une combinaison de mthodes, les rpondants
devraient-ils remplir le questionnaire eux-mmes et faut-il faire le suivi auprs des non-rpondants au
cours dune interview tlphonique? Le questionnaire devrait-il tre sur support papier ou lectronique?
Faut-il utiliser des donnes administratives pour obtenir certaines donnes de lenqute? La collecte des
donnes pour plusieurs enqutes devrait-elle tre combine?
La mthode de collecte des donnes choisie devrait donner un taux de participation lev et les donnes
obtenues devraient tre les plus compltes et prcises possibles, mais la mthode devrait aussi minimiser
le fardeau pour les rpondants et tenir compte du budget et des limites oprationnelles du client.
Lobjectif de ce chapitre est de prsenter les diverses mthodes de collecte des donnes, y compris
lenqute par autodnombrement, les mthodes assistes par intervieweur ou ordinateur et le recours aux
donnes administratives, ainsi que les critres qui aident dterminer quelle mthode est la plus
approprie. Les oprations de collecte des donnes en gnral (laccent est mis sur les mthodes assistes
par intervieweur), par exemple, comment reprer les units de lchantillonnage, susciter la collaboration
et saisir les rponses sont exposes au Chapitre 9 - Oprations de collecte des donnes.

4.1

Mthodes lmentaires de collecte des donnes

Voici les mthodes lmentaires de collecte des donnes :


i.

Autodnombrement

Le rpondant remplit le questionnaire denqute par autodnombrement sans laide dun intervieweur.
Divers moyens peuvent servir envoyer le questionnaire au rpondant et le retourner lexpditeur : le
service postal, le tlcopieur, un moyen lectronique (y compris Internet) ou un enquteur. (Si le
questionnaire est retourn par tlcopieur ou sur support lectronique, une ligne scuritaire ou le chiffrage
est alors ncessaire pour garantir la confidentialit des donnes du rpondant). La mthode sur support
papier est intitule interview papier et crayon (IPC) et la mthode sur support lectronique est intitule
auto-interview assiste par ordinateur (AIAO).

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

42

ii.

Questionnaire assist par intervieweur (interviews tlphoniques ou sur place)

a. Interviews sur place


Un intervieweur aide le rpondant remplir le questionnaire. Linterview se droule sur place,
habituellement la rsidence du rpondant ou en milieu de travail, mme si elle peut avoir lieu dans un
endroit public (p. ex., aroport, centre commercial). La mthode sur support papier est intitule interview
papier et crayon (IPC) et la mthode assiste par ordinateur est intitule interview sur place assiste par
ordinateur (IPAO).
b. Interviews tlphoniques
Un intervieweur aide le rpondant remplir le questionnaire au tlphone. La mthode sur support papier
est intitule interview papier et crayon (IPC) et la mthode assiste par ordinateur est intitule interview
tlphonique assiste par ordinateur (ITAO).
Ce chapitre commence par un expos des mthodes lmentaires de collecte des donnes, et surtout de la
collecte sur support papier (mme si de nombreux commentaires ciblent aussi les mthodes assistes par
ordinateur). Les avantages et les inconvnients de la collecte assiste par ordinateur sont expliqus la
Section 4.2. Dautres mthodes de collecte des donnes, notamment lutilisation de donnes
administratives, sont dfinies la Section 4.3. Le tableau la fin du chapitre prsente une comparaison
des mthodes de collecte des donnes.

4.1.1

Autodnombrement

Les mthodes denqute par autodnombrement exigent un questionnaire trs bien structur, facile
suivre et donnant des instructions claires au rpondant. Il peut y avoir un numro de tlphone pour
obtenir de laide, afin de remplir le questionnaire. Celui-ci a habituellement une prsentation visuelle plus
labore quun questionnaire assist par intervieweur et ce, pour susciter la participation du rpondant.
(Le Chapitre 5 - Conception du questionnaire donne davantage de dtails sur la mthode de conception
du questionnaire.)
Comparativement la gestion des interviews, ladministration de lenqute par autodnombrement est
relativement facile. Elle cote aussi habituellement moins cher que les mthodes assistes par
intervieweur et des chantillons de plus grande taille peuvent tre slectionns. Cette mthode est utile
pour les enqutes qui exigent de linformation dtaille parce que le rpondant peut consulter des dossiers
personnels. Voil qui peut diminuer les erreurs de rponse parce que le rpondant na pas faire appel
uniquement la mmoire. Lune des applications de lautodnombrement comprend le journal ou le
carnet de notes. Au cours dune enqute par journal, le rpondant prend des notes pendant la priode de
rfrence de lenqute, par exemple, un journal dauditeur pour les enqutes sur la radio et la tlvision
pendant une semaine en particulier, ou un carnet de notes sur les achats dessence pour une enqute sur la
consommation dessence des vhicules. Lautodnombrement est aussi utile pour les questions caractre
dlicat parce que le questionnaire peut tre rempli en priv, sans intervieweur.
Lun des inconvnients de lenqute par autodnombrement est que les rpondants doivent avoir des
connaissances ou une bonne scolarit, ou le sujet denqute doit tre trs simple. Autre inconvnient : les
taux de rponse sont habituellement plus faibles que ceux des mthodes assistes par intervieweur parce
quil ny a pas de pression exerce pour que le rpondant rponde entirement au questionnaire. Le taux
de rponse aux enqutes par autodnombrement Statistique Canada est habituellement infrieur 70 %.
(Le Recensement de la population est une exception, le taux de retour par la poste tant de 85 %, cause

STATISTIQUE CANADA

MTHODES DE COLLECTE DES DONNES

43

dune vaste campagne de publicit et du caractre obligatoire de lenqute.) On a souvent recours de


nombreux suivis, pour demander aux rpondants de remplir entirement le questionnaire, ou des
intervieweurs au tlphone pour obtenir un bon taux de rponse (voir la Section 4.3.4). De plus, mme si
le questionnaire peut contenir beaucoup de matriel de rfrence sur les concepts de lenqute et des
guides pour aider remplir le questionnaire, le rsultat nest habituellement pas aussi bon quen prsence
dun intervieweur parce que de nombreux rpondants ne lisent pas les instructions. La qualit peut donc
tre mdiocre, comparativement aux mthodes assistes par intervieweur, parce que le rpondant peut
manquer les instructions passez , mal interprter linformation, etc. Voil pourquoi lenqute par
autodnombrement exige le suivi aprs la collecte pour corriger les erreurs.
Il y a plusieurs moyens de livrer et de reprendre les questionnaires denqute par autodnombrement. Il
faut examiner de prs le choix du moyen de livraison et de ramassage des questionnaires, considrer
attentivement la qualit des donnes, les cots de la collecte, la dure de la priode de collecte, les taux de
rponse, etc., avant de choisir la combinaison qui convient le mieux. La base de sondage utilise et
linformation de la collecte disponible dans la base auront des rpercussions sur ce choix : pour envoyer
les questionnaires par la poste, il faut avoir le nom et ladresse postale, et le systme postal doit tre
fiable. La base de sondage doit contenir les numros de tlcopieur des rpondants pour utiliser ce moyen.
Voici les moyens les plus habituels de livraison et de retour des questionnaires :
- livraison ramassage du questionnaire sur support papier en personne,
- envoi par la poste ramassage du questionnaire sur support papier en personne,
- livraison en personne retour du questionnaire sur support papier par la poste,
- envoi retour du questionnaire sur support papier par la poste.
Lorsquun questionnaire sur support papier est livr et retourn par la poste, lenqute par
autodnombrement demande une longue priode de collecte parce que cest la mthode la plus lente de
collecte des donnes. Au Canada, cest aussi la mthode la moins onreuse.

4.1.2 Mthodes assistes par intervieweur


Le principal avantage des mthodes assistes par intervieweur est que linterview est personnalise, les
questions et les concepts de lenqute peuvent tre interprts, et lintervieweur peut augmenter le taux de
rponse et la qualit des donnes dans lensemble. Les mthodes assistes par intervieweur sont
particulirement utiles pour les populations denqute dont les taux dalphabtisation sont modestes,
lorsque le questionnaire ou les concepts sont complexes, ou chaque fois que lenqute par
autodnombrement serait difficile.
Lintervieweur peut augmenter le taux de rponse en suscitant lintrt pour lenqute et il peut rpondre
aux questions du rpondant sur la confidentialit des donnes, lobjectif de lenqute, ce qui lui est
demand pendant linterview, la longueur de linterview, lutilisation des rsultats de lenqute, etc.
Certains rpondants peuvent avoir limpression, par exemple, que linformation quils donnent pourra tre
utilise leur dtriment, ils peuvent soutenir que la matire du sujet a un caractre dlicat ou ils peuvent
craindre de ne pas avoir la bonne rponse. Lintervieweur peut garantir au rpondant que les donnes
seront en scurit et que lorganisme statistique respectera toutes les procdures de scurit pour
maintenir la confidentialit.
La qualit des donnes dans lensemble peut tre amliore parce que lintervieweur peut obtenir une
formation approfondie sur les concepts et les dfinitions de lenqute et aider le rpondant en cas de
problme dinterprtation du questionnaire. Lenquteur peut empcher les erreurs de rponse et la nonrponse partielle en reprant immdiatement les erreurs et en les corrigeant en prsence du rpondant.
Cette intervention diminue aussi le nombre de suivis qui peut demander beaucoup de temps lorganisme
STATISTIQUE CANADA

44

MTHODES ET PRATIQUES DENQUTE

qui fait enqute et reprsenter un fardeau pour le rpondant. Enfin, lintervieweur peut amliorer la
qualit des donnes en vrifiant sil y a eu communication avec lunit dchantillonnage choisie et si
cest bien elle qui est interviewe.
Autre avantage de linterview : elle permet des priodes de collecte plus souples. Si la collecte des
donnes est trop lente et sil faut acclrer le processus, dautres intervieweurs peuvent tre engags.
Cette solution ne sapplique pas aux mthodes denqute par autodnombrement parce quil est
pratiquement impossible de dterminer quand le rpondant remplit et retourne le questionnaire.
Voici les deux principaux inconvnients des mthodes assistes par intervieweur : elles peuvent coter
cher et la gestion peut tre difficile. Certaines dpenses comprennent la rmunration de lintervieweur, sa
formation, les frais de transport et dhbergement (pour les interviews sur place) ou la superficie de
bureau et les tlphones pour les interviews tlphoniques centralises. Autres inconvnients des
mthodes assistes par intervieweur : la formation mdiocre de lintervieweur peut occasionner des
erreurs de rponse et, dans le cas des sujets caractre dlicat, le rpondant peut hsiter rpondre aux
questions (mme si linterview tlphonique permet un certain anonymat). Si un intervieweur bien form
nest pas disponible et quun biais li un intervieweur devient un problme srieux, lenqute par
autodnombrement peut tre prfrable.
Les erreurs de rponse ont t tudies au Chapitre 3 - Introduction au plan denqute; le sujet est
repris au Chapitre 5 - Conception du questionnaire. Les sections suivantes exposent les avantages et les
inconvnients des interviews tlphoniques et sur place.
4.1.2.1 Interviews sur place
Linterview sur place se droule en prsence du rpondant. Celle-ci est habituellement faite la rsidence
de la personne ou en milieu de travail. Cest la seule mthode raliste de collecte des donnes pour
certaines populations cibles, par exemple, lorsque linterview tlphonique est impossible ou que
lenqute exige une visite pour chantillonner ou reprer des membres de la population (p. ex., pour
achever le listage dune base arolaire).
Les interviews sur place donnent souvent les taux de rponse les plus levs (habituellement, de 80 %
95 % pour Statistique Canada), mais cest la mthode de collecte la plus onreuse dhabitude, compte
tenu des frais de transport et dhbergement des intervieweurs. Cette mthode de collecte peut donc
inciter slectionner des chantillons de plus petite taille que celle des interviews tlphoniques ou
denqute par autodnombrement. Linterview sur place pose un autre problme : il peut tre difficile de
rencontrer la personne la maison ou au travail et lintervieweur devra peut-tre visiter la rsidence ou le
lieu de travail plusieurs fois avant de russir communiquer avec le rpondant. Celui-ci est parfois
prsent, mais lheure ne convient pas, et lintervieweur doit convenir dune nouvelle rencontre pour
linterview.
Voici dautres avantages de linterview sur place :
- lintervieweur peut faire des observations directes (qui sont impossibles pendant linterview
tlphonique),
- lintervieweur russit gnralement mieux convaincre une personne qui refuse de rpondre,
- lintervieweur peut inspirer confiance en montrant au rpondant ses pices didentit officielles.
Voici dautres inconvnients de linterview sur place :
- il est parfois difficile de retenir les services dun intervieweur raisonnablement qualifi dans tous les
domaines enquts,

STATISTIQUE CANADA

MTHODES DE COLLECTE DES DONNES

45

il est difficile de confier des charges de travail des intervieweurs moins dbords,
il est difficile dappliquer un programme de contrle qualitatif au processus de linterview.

4.1.2.2 Interviews tlphoniques


Linterview tlphonique offre un taux de rponse raisonnable un cot raisonnable. Ce genre
dinterviews donne des taux de rponse de moyens levs au Canada, infrieurs ceux de linterview
sur place, mais suprieurs ceux de lenqute par autodnombrement (le taux de rponse habituel est de
70 % 85 % Statistique Canada). Certaines enqutes par autodnombrement comprennent linterview
tlphonique de suivi pour obtenir un meilleur taux de rponse. Linterview tlphonique cote
habituellement moins cher que linterview sur place parce quil ny a pas de frais de dplacement de
lintervieweur et la collecte est habituellement plus rapide que celle de linterview sur place ou de
lenqute par autodnombrement. Linterview tlphonique permet aussi de poser des questions
caractre dlicat, mais cette mthode nest pas aussi anonyme que celle de lenqute par
autodnombrement. Cette mthode de collecte est plus scuritaire que linterview sur place parce que
lintervieweur na pas besoin daller dans des endroits dangereux ou isols. Si le rpondant est absent ou
sil veut reporter linterview, la communication avec celui-ci demande aussi moins de temps que dans le
cas de linterview sur place. Enfin, le contrle qualitatif du processus de linterview peut tre appliqu
facilement parce que la surveillance de linterview tlphonique est moins difficile.
Lenqute tlphonique a un inconvnient : la longueur de linterview et la complexit du questionnaire
sont limites parce que le rpondant a moins de patience pendant une longue interview complexe au
tlphone. Il est mieux dispos pendant une interview sur place. Comme un intervieweur administre le
questionnaire, celui-ci peut donc tre plus complexe que celui de lenqute par autodnombrement. Les
observations directes sont impossibles au tlphone, et cest un autre inconvnient.
Voici dautres inconvnients de linterview tlphonique :
- il peut tre difficile dtablir une base de sondage avec une bonne couverture des numros de
tlphone,
- lchantillonnage des numros de tlphone est souvent inefficiente (c.--d. quil est possible de
tlphoner de nombreuses units hors du champ de lenqute),
- la confidentialit peut tre un problme si une autre personne peut entendre les rponses du rpondant
(p. ex., lignes tlphoniques partages),
- linterview tlphonique est moins personnelle que linterview sur place et il peut tre plus difficile
de convaincre les gens de limportance de lenqute,
- linterview tlphonique peut coter cher en interurbains.
Lchantillonnage des numros de tlphone, y compris la composition alatoire, est approfondi au
Chapitre 6 - Plans dchantillonnage.
4.1.2.2.1 chantillonnage des interviews par tlphone
Le processus de linterview tlphonique comprend souvent le processus de slection de lchantillon :
lintervieweur slectionne souvent lchantillon la premire tape de linterview. Nous dcrirons
maintenant des questions pertinentes lchantillonnage des interviews au tlphone qui peuvent
dterminer si linterview tlphonique est la mthode de collecte des donnes approprie pour une
enqute en particulier.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

46

Lchantillonnage des interviews par tlphone et linterview tlphonique sont souvent choisis pour les
enqutes auprs des mnages comme compromis pratique entre les chantillons de base arolaire avec
interviews sur place plus onreuses, mais de qualit suprieure, et les enqutes par questionnaire
dautodnombrement envoi-retour par la poste moins onreuses, mais de qualit infrieure. Le recours
lchantillonnage des interviews par tlphone et linterview tlphonique permet dviter les cots
levs de mise jour des bases arolaires et du temps de dplacement pour les interviews sur place, tout
en obtenant des taux de rponse raisonnablement levs. Il est important que la population dont on tire
lchantillon soit reprsentative de la population cible, au moins du point de vue des caractristiques
dintrt pour lenqute, comme cest toujours le cas pour toute mthode dchantillonnage. Lenqute
tlphonique peut poser un problme en ce sens si un pourcentage important de la population cible na
pas le tlphone ou sil y a des carts importants entre les sous-populations. (Certains biais ventuels
cause des carts des taux de service tlphonique peuvent tre diminus de la mme faon que les taux
diffrentiels de non-rponse peuvent tre pris en compte.)
Un exemple de biais que peut susciter lutilisation dune base de sondage non reprsentative est le cas
maintenant classique de lenqute dopinion du Literary Digest effectue pendant les lections
prsidentielles de 1936 aux .-U. Le sondage soutenait que le candidat rpublicain Alf Landon
lemporterait sur le prsident Roosevelt :
Landon
Roosevelt

55 %,
41 %.

Les rsultats ont cependant t trs diffrents :


Landon
Roosevelt

37 %,
61 %.

La base utilise pour cette enqute-chantillon par envoi et retour par la poste tait axe surtout sur les
adresses trouves dans les rpertoires tlphoniques et les listes denregistrement des automobiles. Les
Amricains propritaires dautomobiles et de tlphones en 1936 taient gnralement bien nantis et
votaient pour le Parti rpublicain. Un pourcentage important de llectorat navait cependant ni tlphone
ni automobile et ces citoyens avaient tendance voter pour le Parti dmocratique. (Au Canada, aux tatsUnis et dans de nombreux pays dEurope de nos jours, peu prs tous les mnages ont le service
tlphonique, et la possibilit dobtenir des rsultats biaiss pour de nombreuses estimations des enqutes
auprs des interviews par tlphone est beaucoup moindre que ce nest le cas dans cet exemple de 1936.)
Le choix de la base de sondage est une importante question lors de la slection dun chantillon des
interviews par tlphone. La base de sondage de lenqute par tlphone serait complte si elle
comprenait tous les numros de tlphone utiliss et, pour quelle soit efficiente, elle devrait contenir le
moins possible de numros non utiliss. Lamlioration de lexhaustivit dune base de sondage
denqute par tlphone en rduit gnralement lefficience. Il est important dessayer dobtenir autant
lefficience que lexhaustivit. Le recours aux annuaires tlphoniques (en direct ou sur support papier)
comme base de slection dchantillons dinterviews par tlphone peut tre trs efficient, mais le
manque dexhaustivit augmente le risque de rsultats biaiss. Les numros de tlphone non publis ne
sont pas dans ces annuaires et cest vident, les annuaires sont toujours prims depuis plusieurs mois, ou
mme plusieurs annes, et les gens qui ont de nouveaux numros ny sont pas inscrits non plus. Des
techniques de composition alatoire (CA) sont habituellement appliques pour amliorer lexhaustivit de
la couverture dun chantillon dinterviews par tlphone. Voici un exemple de ce qui peut tre fait au
Canada pour obtenir lefficience et lexhaustivit.

STATISTIQUE CANADA

MTHODES DE COLLECTE DES DONNES

47

La composition des numros de tlphone varie dun pays lautre, mais au Canada, le modle nordamricain est utilis, c.--d. le numro de tlphone dix chiffres : un indicatif rgional trois chiffres,
suivi dun prfixe trois chiffres auxquels sajoutent quatre chiffres supplmentaires. Il y a actuellement
21 indicatifs rgionaux utiliss au Canada, et une seule base de sondage consisterait en lannexion de
10 millions de numros sept chiffres possibles pour chacun des 21 indicatifs rgionaux, le rsultat
donnant 210 millions de numros de tlphone dans la base de sondage. Celle-ci serait absolument
complte (jusqu ce quun nouvel indicatif rgional soit ajout), mais, au Canada actuellement, environ
13 millions de numros de tlphone seulement sont attribus aux mnages, cest--dire que 94 % des
numros slectionns au hasard dans cette base de sondage ne permettraient pas de communiquer avec les
mnages. Il serait donc peu efficient dutiliser la base. Il est cependant possible de lamliorer. Il est
possible dacheter une liste de toutes les combinaisons dindicatifs rgionaux et de prfixes utiliss en
Amrique du Nord. Il y en a actuellement 8 600 au Canada, partir desquelles une base peut tre tablie
en annexant chacun les 10 000 numros quatre chiffres possibles pour obtenir une base de 86 millions
de numros dont 85 % seulement ne permettraient pas de communiquer avec les mnages. La mthode
Mitofsky-Waksberg peut tre applique pour amliorer davantage lefficience oprationnelle de cette base
de sondage au risque de compliquer les procdures de terrain et de diminuer ventuellement lefficience
statistique en ayant recours aux grappes. Statistique Canada amliore davantage la base dchantillonnage
des interviews par tlphone laide des donnes administratives.
Une banque de centaine comprend les 100 numros de tlphone dont lindicatif rgional, le prfixe et les
deux numros suivants sont identiques. laide des listes administratives de numros de tlphone
publis, il est possible didentifier toutes les banques de centaine qui contiennent au moins un numro de
tlphone de mnage publi. Il y a environ 260 000 de ces banques actives qui donnent une base de
sondage contenant 26 millions de numros de tlphone dont environ la moiti seulement ne permettent
pas de communiquer avec les mnages. Les deux premires bases de sondage sont compltes un
moment donn (et elles le sont jusqu ce que de nouveaux indicatifs rgionaux ou de nouvelles
combinaisons dindicatifs rgionaux et de prfixes soient activs), mais la base de sondage fonde sur les
banques de centaine actives peut tre incomplte. Si une banque de centaine ne contient pas de numros
de mnage publis, mais si elle contient certains numros de mnage non publis, cette caractristique ne
paratra pas dans la base comme elle le devrait. Les socits de tlphone utilisent aussi de nouvelles
banques de centaine beaucoup plus souvent que des indicateurs rgionaux et des prfixes nouveaux, et les
nouveaux indicatifs rgionaux et prfixes sont publis avant dtre activs. Cette dernire mthode de CA
est intitule troncation des banques sans numros lists ou limination des banques inutiles.
Mme si les banques inutiles sont limines pour amliorer lefficience, environ la moiti des numros de
tlphone dun chantillon obtenu par CA pour une enqute auprs des mnages au Canada seront des
numros hors du champ de lenqute. Avant de faire une interview au tlphone, lintervieweur doit donc
confirmer que le numro est dans le champ de lenqute. Dans le cas des enqutes par CA au Canada,
lintervieweur passe de quatre six minutes de son temps sur des numros hors du champ de lenqute
pour chaque interview acheve. Ces minutes peuvent reprsenter un pourcentage important du temps total
que lintervieweur passe chaque interview si le questionnaire est bref. Cest nanmoins relativement
peu, comparativement au temps de dplacement ncessaire pour les interviews sur place.
Le plan dchantillonnage par composition alatoire est moins souple que les plans de base arolaire du
point de vue de la stratification. (La stratification rpartit la population de lenqute en sous-populations,
par exemple, en provinces. Trois principales raisons justifient la stratification : faire en sorte que la
stratgie dchantillonnage soit efficiente, garantir des tailles dchantillon appropries pour les souspopulations particulires qui font lobjet de lanalyse et viter de tirer un chantillon erron .) Les
bases arolaires donnent une souplesse pour le choix de la strate gographique, mais pour les enqutes par
CA, la gographie de la stratification doit tre axe sur lindicatif rgional et le prfixe (ou des concepts
semblables pour les rseaux tlphoniques hors de lAmrique du Nord). Des secteurs gographiques
STATISTIQUE CANADA

48

MTHODES ET PRATIQUES DENQUTE

correspondent gnralement ces indicatifs et prfixes, mais ils ne correspondent peut-tre pas aux
limites municipales ou dautres limites dimportance pour lenqute. Lchantillonnage par CA permet
la slection dchantillons de mnages non constitus en grappe pour compenser et donne des chantillons
qui ont tendance tre plus efficients du point de vue statistique (effets de plan moindres ) que les
chantillons des bases arolaires.
Dillman (1978), Groves et coll. (1979), Groves et coll. (1988) et Lavrakis (1987) donnent davantage
dinformation sur lchantillonnage des mnages par tlphone. Les problmes de couverture de la base
de sondage ont t vus au Chapitre 3 - Introduction au plan denqute. Le Chapitre 6 - Plans
dchantillonnage expose des considrations dtailles sur les plans dchantillonnage. Le Chapitre 7 Estimation donne de linformation sur les corrections apporter pour les non-rponses.

4.1.3 Choix dune mthode denqute par autodnombrement ou assiste par intervieweur
Il faut considrer diverses questions pour slectionner une mthode de collecte des donnes :
- linformation pour la collecte disponible dans la base de sondage,
- les caractristiques de la population cible,
- le genre de questions poses,
- les ressources disponibles (p. ex., les intervieweurs),
- la facilit remplir le questionnaire,
- les considrations sur la vie prive,
- les exigences de qualit des donnes.
Linformation pour la collecte disponible dans la base de sondage est un lment important pour
dterminer la mthode de collecte des donnes la plus approprie. Si la base ne comprend pas les adresses
postales, les questionnaires denqute par autodnombrement ne peuvent tre envoys aux rpondants par
la poste. Si les numros de tlphone jour ne sont pas disponibles et si la composition alatoire est
considre inapproprie, les interviews ne peuvent donc tre faites par tlphone.
Les caractristiques de la population cible ont des rpercussions sur la mthode de collecte des donnes.
Si le taux dalphabtisation de la population est faible ou si les difficults de communication sont un
problme (p. ex., les immigrants), les mthodes assistes par intervieweur peuvent tre la seule option. La
rpartition gographique de la population et de lchantillon sont aussi importantes. Si la population et
lchantillon sont largement disperss au pays, les interviews sur place pourraient coter trop cher et tre
trop difficiles accomplir. (La rpartition de la population et le cot de la collecte des donnes sont des
lments qui aident dterminer la mthode dchantillonnage la plus approprie comme on lexplique au
Chapitre 6 - Plans dchantillonnage.)
Le genre de questions de lenqute a des rpercussions sur la collecte des donnes. Dans le cas de la
matire caractre dlicat, une mthode de collecte axe sur lanonymat, notamment les interviews
tlphoniques et denqute par autodnombrement, peut tre la plus approprie. Si des questions
complexes sont poses, un intervieweur peut tre ncessaire pour expliquer les questions et les concepts.
Si lintervieweur doit faire des observations ou prendre des mesures (p. ex., administration dun examen
dalphabtisation aux enfants) ou prsenter le matriel aux rpondants (p. ex., graphiques ou
diagrammes), linterview sur place peut alors tre ncessaire.
Les ressources disponibles ont des rpercussions profondes sur le choix de la mthode de collecte des
donnes, Ces ressources comprennent le budget, le personnel, le matriel et le temps disponibles.
Lapplication dune mthode assiste par intervieweur exige un budget suffisant pour lembauche, la
formation et les dplacements des intervieweurs. Lorganisme statistique doit aussi tre en mesure
STATISTIQUE CANADA

MTHODES DE COLLECTE DES DONNES

49

dobtenir le nombre dintervieweurs ncessaires. Si une mthode assiste par ordinateur est slectionne,
des programmeurs chevronns seront ncessaires, ainsi que le matriel informatique appropri.
Certaines mthodes de collecte des donnes sont plus faciles administrer que dautres. Les interviews
tlphoniques centralises (c.--d. que tous les intervieweurs sont installs au mme endroit pour
tlphoner), par exemple, sont plus faciles organiser que les interviews sur place et gographiquement
disperses. La priode limite de collecte des donnes est aussi importante : les mthodes par
autodnombrement sont habituellement plus lentes que les mthodes assistes par intervieweurs et les
mthodes manuelles sur support papier sont normalement plus lentes que celles assistes par ordinateur.
Il faudrait en bout de ligne considrer les exigences de qualit des donnes lors de la slection dune
mthode de collecte des donnes. Les intervieweurs bien forms aux concepts utiliss dans lenqute
peuvent rduire les erreurs de rponse et les non-rponses. Il faudrait considrer les exigences de
prcision : les chantillons plus nombreux donnent gnralement des estimations plus prcises (c.--d. des
estimations comprenant une erreur dchantillonnage de moindre importance), mais plus la mthode de
collecte des donnes cote cher, plus lchantillon la porte des moyens du client est rduit. Les
interviews sur place sont souvent la mthode la plus chre et les enqutes par autodnombrement, la
moins chre. La capacit de mesurer la qualit et dappliquer les procdures de contrle qualitatif peut
aussi tre importante. Il est plus facile de surveiller la qualit des interviews tlphoniques, par exemple,
que celle des interviews sur place.
Le tableau suivant affiche une comparaison entre les mthodes de collecte des donnes denqute par
autodnombrement, par interview sur place et par interview tlphonique, compte tenu du temps
ncessaire pour achever la collecte des donnes et dterminer les taux de rponse.
Tableau 1 : Mthodes de collecte des donnes denqute par autodnombrement et assiste par
intervieweur
Autodnombrement
Cot
Temps
Taux de rponse

Faible
Plus long
Faible

Intervieweur
Sur place
lev
Moyen
lev

Tlphonique
Raisonnable
Moins long
Moyen - lev

Les dtails pour dterminer comment slectionner un plan dchantillonnage sont couverts au
Chapitre 6 - Plans dchantillonnage. Les lments qui dterminent la taille de lchantillon sont
tudis au Chapitre 8 - Calcul de la taille de lchantillon et rpartition.

4.2

Collecte des donnes assiste par ordinateur

Un lment important du plan denqute est de dterminer si la collecte comprend des mthodes assistes
par ordinateur ou une approche traditionnelle sur support papier, auquel cas les rponses sont inscrites
dans un questionnaire sur support papier. La mthode intitule interview papier et crayon (PAPI pour
paper and pencil interview1) est encore applique parfois, mais la collecte des donnes assiste par
ordinateur devient prdominante.

Dans ce manuel, on utilisera lacronyme anglais PAPI plutt que le franais IPC pour viter toute confusion avec
lIndice des prix la consommation.
STATISTIQUE CANADA

50

MTHODES ET PRATIQUES DENQUTE

Si lenqute doit se drouler une seule fois, les mthodes sur support papier cotent souvent moins cher et
demandent moins de temps dlaboration que les mthodes assistes par ordinateur. La saisie des
donnes, c.--d. le transfert des rponses en une mise en forme interprtable par la machine, devient
cependant une opration distincte aprs la collecte. La saisie des donnes est une tape de lenqute
ncessaire parce que toutes les donnes denqute doivent en bout de ligne tre entres et sauvegardes
dans un ordinateur.
Voici dautres inconvnients de la collecte sur support papier :
- la collecte manuelle des donnes demande beaucoup de temps et la lecture optique du questionnaire
nest peut-tre pas une option,
- le questionnaire ne devrait pas comprendre des instructions passez ou des vrifications
compliques,
- limpression des questionnaires peut coter cher,
- lenvoi des questionnaires par la poste peut coter cher,
- les questionnaires remplis doivent tre rangs et protgs en toute scurit pour garantir la
confidentialit des donnes des rpondants.
Lavantage principal des mthodes assistes par ordinateur est la simultanit de la collecte et de la saisie
des donnes, le rsultat tant un processus de saisie et de collecte intgr, plus rapide et plus efficient.
Nimporte quelle mthode de collecte des donnes peut servir au droulement de linterview assiste par
ordinateur (IAO) :
- autodnombrement (auto-interview assiste par ordinateur, AIAO),
- tlphone (interview tlphonique assiste par ordinateur, ITAO),
- sur place (interview sur place assiste par ordinateur, IPAO).
LAIAO est une technologie relativement rcente et peu utilise. Le questionnaire, ainsi quun
programme de vrification pour reprer les entres manquantes, errones ou incohrentes, et des
caractristiques daide, sont envoys au rpondant en mise en forme lectronique. Le rpondant remplit le
questionnaire laide de son ordinateur. Cette mthode permet au rpondant qui a le matriel
informatique et le logiciel ncessaires de saisir et de vrifier directement les donnes laide de son
ordinateur pendant que le systme lincite passer dune question de lenqute lautre. Le questionnaire
sur disquette peut tre envoy par la poste ou par messager, ou le fichier lectronique peut tre achemin
par modem laide dune ligne protge.
Statistique Canada procde actuellement des projets pilotes de collecte des donnes en mise en forme
structure standard en toute scurit sur Internet. Le recours Internet a des avantages : les cots de
collecte et de saisie des donnes diminuent et la rapidit dexcution est la hausse. Internet un
inconvnient : le questionnaire doit tre compatible avec les diffrentes versions logicielles de la toile
(p. ex., Explorer, Netscape, Windows, UNIX, etc.). Autre inconvnient : le nombre dutilisateurs de
lInternet haute vitesse est relativement faible (mme si ce nombre pourrait augmenter rapidement au
cours des prochaines annes) et cette option est donc peu probable pour les enqutes auprs des mnages,
mais elle est plus raliste pour les enqutes auprs des entreprises.
LAIAO a un avantage en gnral : elle est souple et pratique pour le rpondant qui a le matriel
informatique et le logiciel, mais tous les rpondants nont pas le matriel informatique ncessaire, et cest
le principal inconvnient.
Pour lITAO et lIPAO, chaque intervieweur dispose dun ordinateur. Lintervieweur lit un scnario
affich lcran et entre les rponses directement dans lordinateur. LITAO et lIPAO deviennent
prdominantes au Canada mesure que la technologie informatique volue.

STATISTIQUE CANADA

MTHODES DE COLLECTE DES DONNES

51

LIAO a gnralement de nombreux avantages comparativement au PAPI, surtout cause de la collecte et


de la saisie simultanes des donnes. Il est plus facile de faire la surveillance et le contrle qualitatif des
donnes parce que la collecte, la vrification automatise et la saisie des donnes sont plus uniformes et
contrles que dans le cas des mthodes sur support papier. La vrification automatise signifie aussi que
les rejets la vrification peuvent tre rsolus immdiatement, ce qui diminue le fardeau de rponse et la
ncessit de suivi. Il est plus facile dappliquer le contrle qualitatif du processus dinterview et de
produire des rapports de gestion sur le statut des interviews (p. ex., taux de rponse, nombre dinterviews
acheves, nombre dinterviews en instance, dure de chaque interview, etc.). Le questionnaire peut tre
plus complexe du point de vue des instructions passez et des vrifications. Les rsultats sont souvent
plus rapides que dans le cas des enqutes sur support papier (en particulier les questionnaires envoys et
retourns par la poste).
La collecte assiste par ordinateur a un inconvnient : la personne qui remplit le questionnaire, le
rpondant ou lintervieweur, doit tre forme et bien connatre lapplication logicielle. (Sil connat bien
lapplication, lintervieweur peut cependant rserver plus de temps aux aptitudes interpersonnelles.) Les
enqutes assistes par ordinateur exigent aussi un travail de dveloppement approfondi et coteux de la
part des experts en programmation informatique (problme qui peut tre relativement amenuis sils
peuvent adapter lenqute lapplication informatique dune autre enqute). Le questionnaire doit tre
programm pour que chaque question soit affiche lcran de lordinateur selon la squence approprie.
Lapplication doit tre soigneusement mise lessai pour garantir que les crans sont affichs dans lordre
appropri et quils orientent lintervieweur ou le rpondant sur la voie prdtermine. Les vrifications,
laide en direct et les fonctions supplmentaires qui aident les intervieweurs ou les rpondants doivent
aussi tre programmes et mises lessai. Le cot du matriel est aussi un autre inconvnient des
enqutes assistes par intervieweur parce que chacun deux a besoin dun ordinateur (mme si ce cot
peut tre rparti entre les enqutes). Le rangement en toute scurit des questionnaires sur support papier
pour protger la confidentialit des donnes des rpondants nest pas ncessaire, un avantage dans ce cas,
mais il faut protger les ordinateurs contre le vol.
Llaboration et la mise lessai de mthodes assistes par ordinateur, en particulier pour une nouvelle
enqute, peut tre un long processus qui cote cher. Sil sagit denqutes comprenant un chantillon de
grande taille cependant, la collecte par ordinateur peut rduire normment les cots de saisie et de
vrification des donnes. Sil sagit denqutes ritres, la collecte assiste par ordinateur peut coter
moins cher long terme que la collecte sur support papier, compte tenu des conomies dimpression, et
parce que le cot dlaboration peut tre rparti sur plusieurs cycles de collecte.
Voici quelques autres avantages de la collecte assiste par ordinateur :
- elle est cologiquement conviviale (les questionnaires ne sont pas imprims),
- linterview connexe peut se drouler facilement pour les enqutes ritres, afin de rduire les erreurs
de rponse (c.--d. les renseignements dun rpondant fournis au cours dun cycle prcdent de
lenqute peuvent tre utiliss au cours de cycles ultrieurs)
et quelques autres inconvnients de la collecte assiste par ordinateur :
- le transfert entre ordinateurs (p. ex., de lordinateur de lintervieweur celui du bureau central) doit
tre fait laide dune ligne protge pour garantir la confidentialit des donnes des rpondants,
- elle est vulnrable aux difficults techniques (vie utile de la pile, problmes de transfert des fichiers,
etc.), il faut beaucoup de temps pour les rgler, et il est possible de perdre ou dendommager des
donnes,
- des experts informatiques sont ncessaires pour laborer le logiciel et rgler les problmes techniques.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

52

La saisie des donnes est considre plus en dtail au Chapitre 9 - Oprations de collecte des donnes.
Le Chapitre 10 - Traitement cerne le traitement des donnes, y compris la lecture optique pour la saisie
des donnes et la vrification.

4.3

Autres mthodes de collecte

Outre les mthodes assistes par intervieweur et denqute par autodnombrement, dautres mthodes de
collecte des donnes comprennent lobservation directe, la dclaration lectronique des donnes, les
donnes administratives, les mthodes combines et les enqutes omnibus ou supplmentaires.

4.3.1

Observation directe

Cette mthode consiste observer ou mesurer directement les caractristiques dintrt sur place ou en
laboratoire. Elle peut tre la seule possibilit pour certains concepts (p. ex., des donnes mdicales) et elle
est souvent applique aux enqutes sur les prix. La tldtection est une forme dobservation directe qui
interprte les images satellites. Elle est utilise dans certaines enqutes sur les exploitations agricoles pour
estimer les types et les secteurs de culture. Ce genre de collecte ne peut tre applique la majorit des
donnes parce quelles ne peuvent tre observes ou mesures directement.
La mesure directe est habituellement prcise et, lorsque seules les observations sont faites, il ny a pas de
fardeau de rponse. Dans le cas de la mesure des gens, cependant, les sujets ltude peuvent considrer
que ces mesures sont un tracas et un fardeau, par exemple, au cours dune tude mdicale lorsquil faut
prlever des chantillons de sang des patients. Les taux de participation peuvent tre faibles.
La mesure directe pose une difficult, c.--d. quelle peut coter cher parce quil faut former tous les
intervieweurs lobservation et la mesure des donnes, et il pourrait tre ncessaire dembaucher des
spcialistes (p. ex., des infirmires pour mesurer la tension artrielle). Si des spcialistes sont ncessaires
et si seulement quelques-uns peuvent tre engags, le plan dchantillonnage et la taille de lchantillon
peuvent tre normment restreints.

4.3.2

Dclaration lectronique des donnes (DED)

Certaines enqutes permettent aux rpondants de fournir des donnes lectroniques (p. ex., sur disquette,
bande dordinateur ou cartouche), selon leur propre mise en forme. La DED est une forme
dautodnombrement qui peut tre trs pratique pour le rpondant, mais elle est habituellement offerte
seulement sil ny a aucun autre moyen dobtenir les donnes. Certaines entreprises, par exemple, peuvent
fournir leurs donnes seulement de cette faon.
Lorsque les donnes sont transfres de lordinateur du rpondant celui de lorganisme statistique
laide dune ligne rserve (de modem modem), il y a transfert de donnes dordinateur ordinateur. On
vite souvent la DED si une mise en forme standard ne peut tre convenue avec le rpondant parce quil
faut normment de travail pour vrifier et traiter les donnes, afin quelles conviennent la mise en
forme utilise par lorganisme statistique.

STATISTIQUE CANADA

MTHODES DE COLLECTE DES DONNES

4.3.3

53

Donnes administratives

Il est possible dobtenir linformation ncessaire certaines enqutes partir des donnes administratives.
Les donnes administratives sont celles qui ont t obtenues des fins administratives (p. ex., pour
administrer, rglementer ou imposer des activits dentreprises ou de particuliers), et non des fins
statistiques (pour tudier des groupes de particuliers, dentreprises, dexploitations agricoles, etc.).
Les dossiers administratifs ont un norme avantage parce quils permettent dviter la majeure partie des
cots de collecte des donnes et du fardeau des rpondants. Des rsultats denqute rapides sont aussi
possibles parce que les donnes existent dj. Lobjectif du programme administratif peut cependant tre
trs diffrent de celui de lenqute, et il faut donc valuer prudemment les dfinitions et les concepts
(p. ex., la population cible et la couverture de cette population). Il y a aussi un manque de contrle
qualitatif des donnes (dtermin par ladministrateur et non lorganisme statistique). Le suivi des rejets
la vrification est habituellement impossible. Il y a aussi un travail de traitement habituellement
considrable faire pour garantir la mise en forme des donnes administratives selon les exigences de
lorganisme statistique. Enfin, la confidentialit peut susciter des proccupations quant lutilisation de
donnes administratives des fins statistiques.
LAnnexe A - Donnes administratives offre davantage de dtails ce sujet.

4.3.4

Mthodes combines

Lune des stratgies de collecte les plus satisfaisantes est doffrir aux rpondants un choix de mthode de
collecte des donnes. Les avantages des mthodes combines comprennent des taux de rponse amliors,
un nombre moins lev derreurs de rponse et une collecte plus rapide. Les mthodes combines ont un
inconvnient, c.--d. que la collecte peut tre plus complexe et coter plus cher. Autre inconvnient : elles
produisent des donnes htrognes qui peuvent compliquer le traitement et lanalyse. Si une enqute par
questionnaire postal dautodnombrement se droule, par exemple, et sil y a suivi tlphonique auprs
des non-rpondants laide dun questionnaire plus bref, les deux versions du questionnaire doivent tre
rapproches pendant le traitement. Les rsultats peuvent tre biaiss si les donnes des interviews
tlphoniques sont de meilleure qualit que celle des questionnaires denqute par autodnombrement, ce
qui compliquera lanalyse des donnes.
Lenqute mensuelle est un autre exemple de mthodes combines : il peut tre rentable de communiquer
avec le rpondant en personne pour la premire interview et au tlphone pour les interviews ultrieures.
Cest le cas de lEnqute canadienne sur la population active. Lors du recensement de la population
canadienne, la collecte des donnes est faite avant tout laide dun questionnaire envoy et retourn par
la poste. Le suivi est fait au cours dinterviews tlphoniques et sur place. Le taux de rponse des
enqutes par questionnaire postal dautodnombrement est amlior laide du suivi auprs des nonrpondants en deux tapes, dabord au tlphone, puis sur place. Une autre solution de plus en plus
populaire : les donnes obtenues par questionnaire sont combines aux donnes administratives, afin de
rduire lerreur de mmoire, le fardeau des rpondants et les cots de lenqute.

4.3.5

Enqutes omnibus et supplmentaires

Il est parfois possible dappliquer un moyen de collecte une autre enqute, laide dune enqute
omnibus ou supplmentaire. Lors dune enqute supplmentaire, le nouveau questionnaire est ajout en
supplment au questionnaire de lautre enqute. Celle-ci est habituellement une enqute grande chelle.
Les enqutes supplmentaires sont communes dans les organismes gouvernementaux. Un exemple
Statistique Canada est lEnqute sur les voyages des Canadiens qui collecte de linformation sur les
STATISTIQUE CANADA

54

MTHODES ET PRATIQUES DENQUTE

dplacements et les caractristiques des Canadiens qui voyagent, et elle se droule en supplment
lEnqute sur la population active.
Les questions de plusieurs enqutes diffrentes sont combines en un seul questionnaire pour une enqute
omnibus. Le questionnaire de lenqute omnibus est ainsi compos de plusieurs sections, chacune traitant
dun sujet diffrent pour un client diffrent. Les clients partagent les cots de lenqute
proportionnellement leffort de collecte et de traitement faire pour les diffrentes sections de
lenqute. Ce moyen peut donc tre efficace pour rduire les cots dlaboration et lexcution de
lenqute. Des organismes statistiques et des entreprises de recherche du secteur priv procdent
rgulirement ce genre denqute qui engage plusieurs partenaires ayant divers besoins de recherche. Le
principal avantage de cette approche est la diminution des cots, souvent importante, comparativement au
droulement dune enqute distincte pour chaque sujet.
Cette approche a un inconvnient, c.--d. que le rpondant est aux prises avec un imposant questionnaire
compos dune varit de sujets qui peuvent tre dcousus et avoir parfois un caractre dlicat. Le
questionnaire peut donc tre un fardeau qui nincitera pas le rpondant y rpondre. Le manque de
contrle sur la disposition des questions du questionnaire peut aussi avoir des rpercussions sur les
rponses.

4.4 Sommaire
Il y a trois principales mthodes de collecte des donnes : les interviews denqute par
autodnombrement, les interviews sur place et les interviews tlphoniques. Lenqute par questionnaire
postal dautodnombrement est habituellement la mthode de collecte de donnes la moins chre.
Malheureusement, lenqute par autodnombrement donne souvent le taux de rponse le plus bas et peut
demander le plus de temps, surtout si le questionnaire est envoy et retourn par la poste.
Linterview sur place donne habituellement le taux de rponse le plus lev, mais elle peut aussi tre la
plus chre. Elle est souvent applique aux enqutes qui ont des questions complexes ou labores, lorsque
lchantillon demande une visite sur place pour situer et slectionner les rpondants, et en cas de
couverture mdiocre de la population cible laide du tlphone, ou lorsque le taux dalphabtisation est
faible dans la population.
Les interviews tlphoniques donnent habituellement des taux de rponse moyens, elles cotent moins
cher que les interviews sur place et cest la mthode de collecte la plus rapide. Elles peuvent tre
particulirement avantageuses si la population et lchantillon sont gographiquement parpills, si les
interviews sur place cotent trs cher et il serait difficile de les raliser. Le principal problme des
interviews tlphoniques est lchantillonnage des interviews par tlphone : les listes de numros de
tlphone sont rapidement primes (ce qui donne un sous-dnombrement dans la base) et la composition
alatoire est inefficiente.
Toutes ces mthodes de collecte des donnes peuvent tre appliques sur support papier ou lectronique.
Le principal avantage des mthodes assistes par ordinateur est que la collecte et la saisie des donnes
sont combines. Le principal inconvnient des mthodes assistes par ordinateur est lapplication
informatique qui demande du temps et des sommes considrables.
Voici dautres mthodes de collecte des donnes : lobservation directe, la dclaration lectronique des
donnes, les donnes administratives, les mthodes combines et les enqutes supplmentaires ou
omnibus. Lobservation directe peut tre prcise, mais elle ne peut tre applique toutes les donnes et
elle exige souvent le recours des spcialistes. La dclaration lectronique des donnes est pratique pour
STATISTIQUE CANADA

MTHODES DE COLLECTE DES DONNES

55

les rpondants qui peuvent dclarer leurs donnes sur support lectronique, mais elle demande un travail
considrable pour convertir les donnes du rpondant en une mise en forme voulue. Les donnes
administratives peuvent servir comme mthode de collecte des donnes indirecte pour certaines enqutes.
Cette mthode peut liminer le fardeau de rponse, rduire normment les cots de lenqute et acclrer
la rapidit dexcution, mais lorganisme statistique doit examiner attentivement les concepts utiliss par
les sources administratives et la qualit des donnes. Une combinaison des mthodes est souvent un bon
moyen de diminuer les cots, damliorer les taux de rponse et dacclrer la rapidit dexcution. La
collaboration dautres enqutes laide dune enqute supplmentaire ou omnibus est un autre moyen
de diminuer les cots.

Bibliographie
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.
Couper, M.P., R.P. Baker, J. Bethlehem, C.Z.F. Clark, J. Martin, W.L. Nicholls II et J.M. OReilly, ds.
1998. Computer Assisted Survey Information Collection. John Wiley and Sons, New York.
Dielman, L. et M.P. Couper. 1995. Data Quality in a CAPI Survey: Keying Errors. Journal of Official
Statistics, 11: 141-146.
Dillman, D.A. 1978. Mail and Telephone Surveys: The Total Design Method. John Wiley and Sons, New
York.
Dillman, D.A. 2000. Mail and Internet Surveys: The Tailored Design Method. John Wiley and Sons, New
York.
Dufour, J., R. Kaushal, C. Clark et J. Bench, eds. 1995. Converting the Labour Force Survey to
Computer-Assisted Interviewing. Statistics Canada. HSMD-95-009E.
Groves, R.M. 1989. Survey Errors and Survey Costs. John Wiley and Sons, New York.
Groves, R.M., P.P. Biemer, L.E. Lyberg, J.T. Massey, W.L. Nicholls et J. Waksberg, ds. 1988.
Telephone Survey Methodology. John Wiley and Sons, New York.
Groves, R.M. et R.L. Kahn. 1979. Surveys by Telephone: A National Comparison with Personal
Interviews. Academic Press, New York.
Kasprzyk, D., G.J. Duncan, G. Kalton et M.P. Singh, ds. 1989. Panel Surveys. John Wiley and Sons,
New York.
Lavrakis, P. J. 1987. Telephone Survey Methods: Sampling, Selection and Supervision. Applied Social
Research Methods Series. 7. Sage Publications, California.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

56

Tableau 2 : Comparaison des mthodes de collecte des donnes


Mthode
A. Support papier

A.1 Autodnombrement

Avantages
elle peut contenir du matriel de rfrence imprim pour
rduire les erreurs de rponse
un ordinateur nest pas ncessaire pour la collecte des
donnes
elle peut demander moins de temps pour laborer les
procdures de collecte que les mthodes assistes par
ordinateur
pour les enqutes uniques ou les petites enqutes, la
collecte peut coter moins cher que les mthodes
assistes par ordinateur
elle est facile administrer
elle peut rduire le taux derreur parce que le rpondant
peut consulter des dossiers personnels
mthode habituellement la moins chre, le client a donc
les moyens davoir un chantillon plus important et
dobtenir une plus grande prcision
le questionnaire peut tre rempli sans la prsence dun
intervieweur, une caractristique positive pour les
questions caractre dlicat
il nest pas ncessaire davoir un grand nombre
dintervieweurs forms

STATISTIQUE CANADA

Inconvnients
la saisie des donnes est distincte de la collecte
limpression des questionnaires peut coter cher
les questionnaires ne peuvent avoir un cheminement des
questions des instructions passez complexes
la collecte des donnes demande beaucoup de travail manuel
seulement quelques vrifications manuelles simples du
questionnaire sont possibles
linterview connexe est difficile pour les enqutes ritres
les erreurs de rponse peuvent augmenter parce que le
rpondant ne lira probablement pas le matriel de rfrence
les donnes peuvent tre de moins bonne qualit que dans le
cas des mthodes assistes par intervieweur
le questionnaire doit tre bien conu et convivial pour le
rpondant, et donner des instructions claires pour susciter la
participation et diminuer les erreurs de rponse
le questionnaire ne peut tre trop long ou complexe
la mthode devrait seulement tre applique pour des sujets
simples et directs, ou des populations ayant une bonne
scolarit
les taux de rponse sont infrieurs ceux des mthodes
assistes par intervieweur (de nombreux suivis peuvent tre
ncessaires pour amliorer le taux de rponse)
il faut faire le suivi des rejets la vrification
si les questionnaires sont envoys par la poste, il faut rgler
laffranchissement
les questionnaires envoys et retourns par la poste peuvent
tre la mthode de collecte des donnes la plus lente

MTHODES DE COLLECTE DES DONNES

Mthode
A2. Assiste par
intervieweur

A2.1. Interviews sur


place

Avantages
les taux de rponse sont meilleurs que ceux des enqutes
par autodnombrement parce que lintervieweur peut
susciter lintrt du rpondant et tre sensibilis ses
proccupations
lintervieweur peut amliorer la qualit des donnes en
expliquant les concepts et en aidant rgler les
problmes : il peut diminuer les erreurs de rponses et le
nombre de questionnaires rpondus en partie seulement
lintervieweur peut garantir que lunit exacte fait
lobjet de lenqute
il peut diminuer le fardeau de rponse parce que
lintervieweur peut vrifier immdiatement et faire le
suivi des rejets la vrification
lintervieweur peut expliquer les mthodes utilises
pour garantir la scurit et la confidentialit des donnes
la mthode permet une priode de collecte plus souple
que celle de lautodnombrement (davantage
dintervieweurs peuvent tre engags pour acclrer la
collecte)
la mthode peut tre relie des populations ayant des
capacits de lecture et dcriture trs limites
la mthode offre une interview trs personnalise (plus
que celle des interviews tlphoniques) qui permet
habituellement dobtenir des taux de rponse plus levs
que ceux des interviews tlphoniques
lintervieweur peut inspirer la confiance au rpondant
en lui montrant ses pices didentit officielles
lintervieweur peut faire des observations directes
il est possible dadministrer un questionnaire plus
complexe que celui des interviews tlphoniques et de
lenqute par autodnombrement

STATISTIQUE CANADA

57

Inconvnients
les interviews peuvent coter cher : cot de la formation des
intervieweurs, rmunration des intervieweurs, logement et
transport des intervieweurs sur place espaces de bureau
pour les interviews tlphoniques
il faut avoir du temps pour former les intervieweurs
de bonnes aptitudes la gestion sont ncessaires pour
coordonner toutes les interviews
les erreurs de rponse peuvent augmenter : les intervieweurs
de formation mdiocre peuvent augmenter les erreurs de
rponse, les rpondants peuvent hsiter rpondre des
questions caractre dlicat (en particulier si lintervieweur
est engag lchelon local) ou donner simplement des
rponses socialement convenables
il peut tre difficile dobtenir une base de sondage et une
bonne couverture de tous les numros de tlphone
lchantillonnage des interviews au tlphone est inefficient

cest habituellement la mthode de collecte des donnes la


plus chre et les tailles dchantillon sont donc plus petites
il est difficile dexercer le contrle qualitatif des interviews,
comparativement aux interviews tlphoniques qui sont plus
faciles surveiller
russir communiquer avec les gens la maison ou au
travail peut tre difficile et demander beaucoup de temps
il peut tre difficile de dcouvrir et de maintenir en poste les
intervieweurs convenablement qualifis dans tous les
domaines de lenqute
il est difficile de confier la charge de travail des
intervieweurs des collgues moins dbords

MTHODES ET PRATIQUES DENQUTE

58

Mthode
A2.2.
Interviews
tlphoniques

Avantages
les taux de rponse sont habituellement plus levs que
ceux des enqutes par autodnombrement
le contrle qualitatif de linterview est facile
elles cotent moins cher que les interviews sur place (il
nest pas ncessaire de payer les dplacements et le
logement)
on obtient les rponses plus rapidement
(comparativement aux interviews sur place ou denqute
par autodnombrement)
il est possible de procder aux interviews dans des
rgions difficiles ou inaccessibles
elles sont plus anonymes que les interviews sur place : il
est possible de poser des questions caractre dlicat
elles cotent moins cher que les interviews sur place et
permettent dutiliser des chantillons plus importants, si
ncessaire

STATISTIQUE CANADA

Inconvnients
les taux de rponse sont moins levs que ceux des
interviews sur place
il faut payer lespace de bureau pour les intervieweurs
il faudra peut-tre rgler les interurbains
les questionnaires ne peuvent tre trop longs ou complexes
des observations directes sont impossibles
des problmes de confidentialit sont possibles si les lignes
tlphoniques sont partages
lchantillonnage des interviews par tlphone est
inefficient : le rsultat de la composition dun numro de
tlphone peut ne donner aucune communication, produire
une non-rponse ou la communication avec une unit hors
de la porte de lenqute
le rsultat peut tre biais cause du sous-dnombrement
lorsque lchantillonnage est fait partir dune liste
administrative de numros de tlphone
lchantillonnage par CA a des variables de stratification
gographique limite

MTHODES DE COLLECTE DES DONNES

Mthode
B. Assiste par ordinateur

B1. Auto-interview
assiste par ordinateur
(AIAO)

Avantages
la vrification pendant la collecte peut tre automatise,
il est donc possible de rgler immdiatement les rejets
la vrification et de diminuer le fardeau de rponse
cause du suivi
la collecte, la vrification et la saisie des donnes sont
intgres, c.--d. plus rapides (temps de rponse plus
rapide), efficientes et faciles surveiller que celles des
mthodes sur support papier
les donnes peuvent tre de meilleure qualit
il est possible dadministrer des questionnaires
enchanement complexe (instructions passez )
il est facile de produire des rapports de gestion (p. ex.,
sur les taux de rponse)
la collecte peut tre moins chre que la collecte sur
support papier pour les grandes enqutes ou les enqutes
ritres
il est possible de rduire les cots dlaboration en
adaptant un logiciel labor pour une enqute semblable
la protection de la confidentialit des questionnaires
remplis est meilleure
ces mthodes sont cologiquement conviviales (moins
de papier gaspill)
les interviews connexes sont possibles pour les enqutes
ritres
mthode souple et pratique pour les rpondants qui ont
un ordinateur

STATISTIQUE CANADA

59

Inconvnients
llaboration de lapplication informatique peut demander
beaucoup de temps et coter cher
il faut faire lessai approfondi de lapplication informatique
des experts en informatique seront ncessaires pour
laborer modifier lapplication informatique
cette mthode est la merci des difficults techniques
les intervieweurs et les rpondants doivent savoir comment
utiliser lapplication informatique
la mthode a des exigences dinfrastructure (p. ex., il faut
remettre aux intervieweurs des ordinateurs portatifs)
il faut tre en mesure de transmettre les donnes en toute
scurit dun ordinateur lautre (p. ex., acheminement des
donnes acquises sur place ou au bureau central)

les rpondants doivent utiliser facilement les ordinateurs et


lapplication, avoir les logiciels et le matriel informatique
ncessaires

MTHODES ET PRATIQUES DENQUTE

60

Mthode
B2. Interview assiste par ordinateur (IAO)

Avantages
il est possible dautomatiser la gestion des interviews
(p. ex., automatisation de lordonnancement des
interviews)
- il est plus facile de grer les interviews que dans le cas
de la collecte sur support papier
- la mthode peut accentuer la qualit des donnes : les
intervieweurs qui utilisent facilement lapplication
informatique peuvent rserver plus de temps aux
aptitudes interpersonnelles
C. Autres mthodes de collecte des donnes
C1. Observation
- lorsque toutes les donnes sont observes, il ny a pas
directe
de fardeau de rponse
- les donnes obtenues sont habituellement plus prcises
que celles des mthodes denqute par interview et par
autodnombrement
C2. Dclaration
lectronique des
donnes (DED)
C2.1. Internet

la mthode est pratique pour les rpondants qui ont un


ordinateur

la collecte et la saisie des donnes cotent moins cher


la rapidit dexcution est la hausse

STATISTIQUE CANADA

Inconvnients
il faut dterminer les cots du matriel informatique pour les
intervieweurs
les intervieweurs peuvent avoir besoin dinformation
supplmentaire sur lapplication informatique
il faut considrer les questions de scurit (p. ex.,
lordinateur peut tre vol)

la mthode peut coter trs cher si des spcialistes sont


ncessaires pour prendre des mesures, et les chantillons
pourraient donc tre assez restreints
la mthode ne peut tre applique la plupart des enqutes
si des mesures sont prises, les participants peuvent les
considrer comme un tracas et le taux de participation sera
faible
la mise en forme des donnes des rpondants peut varier et
le traitement peut donc coter cher et demander beaucoup de
temps
le nombre dinternautes est encore faible

MTHODES DE COLLECTE DES DONNES

Mthode
C3. Donnes
administratives

Avantages
les donnes sont rapidement disponibles et il est souvent possible dobtenir des rsultats denqute rapides et
prix raisonnable
le fardeau de rponse est faible
-

C4. Mthodes
combines
C5. Enqutes
supplmentaires et
omnibus

taux de rponse amlior


diminution des erreurs de rponse
collecte des donnes plus rapide
les cots sont partags entre plusieurs enqutes

STATISTIQUE CANADA

61

Inconvnients
lobjectif du programme administratif peut tre diffrent de
celui de lenqute : il faut valuer lutilit de la source
administrative du point de vue des concepts et des
dfinitions de lenqute (p. ex., problmes de population
cible et de couverture, priodes de rfrence, etc.)
lorganisme statistique a peu de contrle sur la qualit des
donnes
il est difficile ou impossible de faire le suivi des rejets la
vrification
le traitement des donnes administratives peut demander
beaucoup de temps et coter cher (p. ex., il faudra peut-tre
modifier le format de lenregistrement)
lutilisation des donnes administratives peut susciter des
proccupations de confidentialit
la collecte peut tre plus complexe et coter plus cher
la mthode produit des donnes htrognes qui peuvent
compliquer le traitement
il faut dterminer les enqutes appropries avec lesquelles
travailler les auteurs de lenqute ne voudront peut-tre
pas tre lis certaines enqutes
cette mthode peut tre un fardeau pour le rpondant et se
traduire par des taux de rponse moindres
le manque de contrle de lordre des sections du
questionnaire peut avoir des rpercussions sur les rponses

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

63

Chapitre 5 - Conception du questionnaire


5.0 Introduction
Un questionnaire (ou formule) est un groupe ou une squence de questions conues pour obtenir dun
rpondant de linformation sur un sujet. Les questionnaires comprennent les formules utilises pour les
enqutes-chantillons et les recensements, ainsi que les formules administratives. Les questionnaires sont
au coeur du processus de collecte des donnes. Ils ont des rpercussions importantes sur la qualit des
donnes parce quils constituent le moyen de collecte des donnes. Ils ont aussi des rpercussions sur
limage de marque que lorganisme statistique projette dans le public.
Les questions poses doivent tre conformes lnonc des objectifs de lenqute et permettre la collecte
dinformation utile pour lanalyse des donnes. Elles doivent rpondre tous les besoins dinformation,
mais chaque question devrait avoir une justification explicite pour tre inscrite dans le questionnaire. Il
faut savoir pourquoi chaque question est pose et quoi servira linformation. La formulation de la
question doit tre claire. Les questions doivent tre rparties en squences logiques pour le rpondant. Les
questions doivent tre formules pour tre faciles comprendre et permettre au rpondant dy rpondre
prcisment. Enfin, le questionnaire devrait tre mis lessai avant son application, laide dun essai
cognitif, de groupes de discussion, dun prtest et dautres mthodes dcrites dans ce chapitre.
Un questionnaire bien conu devrait :
- permettre la collecte des donnes avec efficience et le rsultat devrait comprendre un nombre minimal
derreurs et de donnes incohrentes,
- tre convivial pour lintervieweur et le rpondant (sil sagit dune enqute assiste par intervieweur),
- diminuer dans lensemble le cot et le temps de la collecte des donnes.
Lobjectif de ce chapitre est de donner un aperu des tapes de la conception dun questionnaire, y
compris llaboration et la mise lessai des questionnaires. Les principaux types de questions, ouvertes
et fermes, sont dcrites, ainsi que leurs avantages et inconvnients. On donnera aussi quelques lignes
directrices pour llaboration des questions. Enfin, les problmes derreur de rponse et de traitement
pertinents la conception dun questionnaire font lobjet dun examen.

5.1

Processus de conception du questionnaire

Le processus de conception du questionnaire commence par la formulation des objectifs de lenqute et


des besoins dinformation (Chapitre 2 - Formulation de lnonc des objectifs) et continue avec les
tapes suivantes :
- consultation avec les utilisateurs des donnes et les rpondants,
- examen des questionnaires prcdents,
- version provisoire du questionnaire,
- examen et rvision du questionnaire,
- mise lessai et rvision du questionnaire,
- touche finale apporte au questionnaire.

5.1.1

Consultation avec les utilisateurs des donnes et les rpondants

Le processus de consultation avec les utilisateurs des donnes commence lors de la formulation des
objectifs de lenqute au cours de la phase de planification et continue pendant la conception et
STATISTIQUE CANADA

64

MTHODES ET PRATIQUES DENQUTE

llaboration du questionnaire. Cette consultation approfondie est particulirement importante pour les
grandes enqutes, sinon toutes, dun organisme statistique. Une comprhension approfondie de
lutilisation des donnes devrait permettre lorganisme statistique dlaborer un questionnaire bien
conu qui rpond aux besoins des utilisateurs.
Il faudrait consulter non seulement les utilisateurs des donnes, mais aussi les rpondants, les experts de
la matire de ltude et ceux qui ont procd des enqutes semblables auparavant, avant de formuler la
version provisoire du questionnaire. Ils devraient pouvoir donner une rtroaction sur le genre
dinformation que les rpondants peuvent fournir et aider prciser les concepts tudier. Rencontrer les
rpondants peut aider identifier les questions et les proccupations importantes pour eux et obtenir des
rpercussions sur les dcisions pertinentes la matire du questionnaire. Cette intervention peut aussi
aider identifier les expressions et le langage quutilisent les rpondants pour dcrire les concepts de
lenqute, et donner une bonne ide de la faon dont les catgories de questions et rponses devraient tre
formules. Ces discussions peuvent se drouler pendant des consultations approfondies ou en groupe de
discussion (voir la Section 5.1.5.3).

5.1.2

Examen des questionnaires prcdents

Dautres enqutes sont une bonne source dinformation pour llaboration dune enqute. Lexamen des
questions poses dans dautres enqutes sur le mme sujet ou un sujet semblable peut tre un bon point de
dpart lorsquil faut formuler une question (c.--d. rdiger une question). Lorsque lon souhaite
comparer les rsultats de diffrentes enqutes, il est prfrable dutiliser les mmes questions. Il faudrait
aussi examiner la documentation sur la qualit des donnes de ces enqutes pour valuer lefficacit du
questionnaire (p. ex., les problmes de rdaction des questions, le fardeau de rponse, les taux de refus,
etc.).

5.1.3

Formulation du questionnaire

La prochaine tape est llaboration dune version prliminaire du questionnaire au complet. tant donn
que la conception globale et les objectifs de lenqute ont des rpercussions sur le questionnaire, il faut
considrer les volets suivants :
i.

Mthode de collecte des donnes

La mthodologie de collecte des donnes a une incidence sur la longueur du questionnaire et la


formulation des questions. Les questionnaires denqute par autodnombrement devraient tre moins
complexes et plus brefs que ceux des mthodes assistes par intervieweur et ils devraient de prfrence
tre autonomes, c.--d. que toute linformation pertinente (p. ex., instructions, information sur les
personnes-ressources, exemples) est comprise dans le questionnaire. Dans le cas des mthodes assistes
par intervieweur, la formulation dune question est souvent diffrente de celle des questionnaires
denqute par autodnombrement. La question pose de vive voix devrait sembler neutre. Les interviews
sur place et les enqutes par autodnombrement permettent davantage de catgories de rponses que les
interviews tlphoniques qui devraient tre brves.
La prsentation, lorganisation et la structure denregistrement des donnes seront aussi trs diffrentes
dun questionnaire lautre, par exemple, un questionnaire denqute par autodnombrement, un
questionnaire dinterview tlphonique ou sur place, ou encore un questionnaire papier et crayon ou
assist par ordinateur.

STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

ii.

65

Caractristiques des rpondants

Les caractristiques des rpondants influencent la formulation des questions. Elles peuvent avoir des
rpercussions sur la terminologie ou la complexit du langage utilis pour poser les questions. Les
questions destines au grand public devraient tre faciles comprendre pour tous les rpondants, mais il
est possible, dans une enqute qui cible des professionnels, dutiliser un langage technique ou
professionnel pertinent au travail des rpondants.
iii.

Fardeau de rponse

Le fardeau de rponse du questionnaire, le temps et leffort ncessaires pour rpondre aux questions et la
possibilit que le rpondant consulte des dossiers ou dautres personnes doivent tre pris en considration.
Il faudrait minimiser le nombre de questions, et chaque question inscrite au questionnaire devrait tre
justifiable. (Le but de certaines questions peut tre de faciliter la comprhension dune question ultrieure
ou elle peut servir lvaluation.)
iv.

Complexit des donnes qui font lobjet de la collecte

Une formulation attentive des questions est ncessaire lors de la collecte de donnes complexes. Des
instructions devraient tre intgres aux questions qui couvrent des sujets complexes. Voil qui aidera
lintervieweur expliquer les questions, et le rpondant, y rpondre prcisment.
v.

Confidentialit et caractre dlicat de linformation

Ces deux points peuvent avoir des rpercussions directes sur la formulation des questions. Le
questionnaire devrait comprendre des noncs dintroduction qui prcisent comment la confidentialit des
donnes du rpondant sera protge. Il faudrait aussi expliquer quoi serviront les donnes, qui y aura
accs, la dure de vie utile des donnes, etc. Si des questions caractre dlicat sont poses (questions qui
peuvent mettre certains rpondants mal laise), il peut tre ncessaire dappliquer des techniques qui
amenuiseront les rpercussions de ces questions. Cette mesure accentue la possibilit dune rponse (voir
la section 5.3.8 pour en apprendre davantage).
vi.

Traduction

Le questionnaire devrait tre traduit dans toutes les langues couramment parles dans la population cible.
Il faut tre attentif lors de la traduction de questions formules dans une autre langue pour tenir compte,
non seulement de la langue, mais aussi des diffrentes coutumes et cultures. Une rtro-traduction (la
traduction du texte traduit dans la langue dorigine) peut souvent aider identifier des erreurs.
vii.

Comparabilit des rsultats avec ceux dautres enqutes

Si les rsultats de lenqute sont compars avec ceux dautres enqutes, les questions doivent tre
rdiges de la mme faon. Chaque version de la question doit cerner le point de la mme faon et avoir
la mme signification dans le contexte de la question. Afin de garantir la comparabilit des rsultats avec
ceux dautres enqutes, il faudrait utiliser la mme formulation de la question aprs avoir confirm la
qualit des rsultats prcdents. Certaines questions peuvent aussi tre troitement lies celles qui les
prcdent immdiatement.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

66

viii.

Cohrence

La formulation de la question doit avoir la mme signification pour tous les rpondants, soit celle que
cible lorganisme statistique. Si le questionnaire est traduit dans diffrentes langues, il est
particulirement important de mettre lessai chaque version dans toutes les langues.
ix.

Autres lments

Voici dautres lments considrer lors de la formulation des questions :


- la disponibilit des donnes voulues,
- la disposition du rpondant rpondre,
- la possibilit dune non-rponse,
- les exigences administratives,
- le genre de questions,
- la formulation de chaque question,
- la prsentation du questionnaire,
- les sources de mesure ou derreur de rponse,
- le traitement du questionnaire.
Les exigences administratives de lorganisation de lenqute comprennent les ententes dchange des
donnes, un nonc informant les rpondants de la confidentialit de leurs rponses, des versions
bilingues du questionnaire, etc.
Les questions peuvent tre ouvertes ou fermes (les questions fermes donnent des catgories de rponse).
Les divers genres de questions sont examins en dtail la section 5.2. Les lignes directrices appliques
la formulation des questions de lenqute sont considres la section 5.3. Les sources derreur de
rponse sont mentionnes la section 5.4. Les considrations sur la prsentation et le traitement du
questionnaire sont prcises aux sections 5.5 et 5.6.

5.1.4

Examen et rvision du questionnaire

Il est essentiel que le questionnaire soit examin linterne avant la mise lessai. Cet examen devrait
identifier tous les problmes vidents du questionnaire, par exemple, les erreurs dorthographe ou de
grammaire, ou la rdaction maladroite. Il est aussi utile cette tape de demander des intervenants qui
ne sont pas directement engags dans le projet dexaminer le questionnaire. Ceux-ci peuvent comprendre
des experts du domaine ltude, des gens qui ont lexprience de la conception des questionnaires, des
intervieweurs ou des membres de la population ltude. Ils peuvent souvent faire des commentaires et
des suggestions utiles qui susciteront la rvision des questions et des catgories de rponse.

5.1.5

Mise lessai et rvision du questionnaire

Il est important de procder la mise lessai de toutes les versions (c.--d. les versions dans toutes les
langues) du questionnaire auprs de rpondants reprsentatifs bien avant le dbut de la collecte des
donnes (c.--d. reprsentatifs de la population cible, peut-tre des rpondants dun certain ge, dun sexe
ou lautre, ou ayant une scolarit en particulier). Il peut tre aussi important de faire lessai du
questionnaire auprs de sous-populations en particulier qui peuvent avoir des problmes avec certaines
questions.
Rpondre une question est un processus complexe. Les rpondants doivent dabord comprendre la
question. Ils doivent ensuite faire un effort de mmoire ou fouiller des dossiers pour extraire linformation
STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

67

demande. Ils doivent aussi rflchir la rponse exacte la question et dterminer sils sont disposs
rvler linformation, en tout ou en partie. Ils rpondent alors la question. Chacun de ces processus peut
tre une source derreur. (Tourangeau et coll., 2000)
Les mthodes de mise lessai des questions visent identifier les difficults et les erreurs possibles. La
mise lessai permet aussi de dterminer si les instructions sont claires ou si lordre des questions a des
rpercussions sur linterprtation de ces questions et dobtenir les impressions des rpondants sur la
prsentation du questionnaire. Lun des avantages de la mise lessai du questionnaire est la production
dun questionnaire convivial pour le rpondant et lintervieweur qui facilite la collecte de donnes
prcises en une mise en forme propice la saisie et au codage des donnes. Enfin, la mise lessai aide
aussi minimiser les erreurs et diminuer le cot et le temps de la collecte, de la saisie et du traitement
des donnes.
Les mthodes appliques aux mises lessai des questionnaires (matire, prsentation, etc.) sont
habituellement axes sur de petits chantillons subjectifs non probabilistes de rpondants tirs de la
population cible. Voici les mthodes dcrites dans les sections suivantes :
- prtest,
- mthodes cognitives,
- groupes de discussion,
- compte rendu des intervieweurs,
- codage comportemental des interactions entre lintervieweur et le rpondant,
- essai dchantillons fractionns,
- essai pilote.
5.1.5.1

Prtest (essai prliminaire)

Le prtest (parfois intitul essai prliminaire) est facile, le cot est raisonnable, et cest une tape
fondamentale de llaboration dun questionnaire. Sil ny a pas dautres mises lessai du questionnaire,
il faudrait au moins faire un prtest. La taille de lchantillon du prtest peut varier de 20
100 rpondants ou plus. Si le principal objectif est de reprer des problmes de rdaction ou de squence,
trs peu dinterviews sont ncessaires. Il faut en faire davantage (de 50 100) pour dterminer les
catgories de rponse aux questions fermes, partir des rponses aux questions ouvertes du prtest. Le
questionnaire devrait tre administr de la mme faon que prvu pour la principale enqute (p. ex.,
assiste par intervieweur ou ordinateur, sur place, au tlphone ou sur support papier). Il faudrait
cependant avoir recours un intervieweur pour la mise lessai des questionnaires denqute par
autodnombrement.
Lors du prtest, le rpondant nest pas inform, il remplit simplement le questionnaire ou rpond
linterview pour reflter la situation lors de la collecte relle des donnes. Le prtest indique seulement l
o il y a un problme. Sans aller plus loin, il ne dtermine pas pourquoi il y a un problme ou comment le
corriger. La mise lessai non officiel nidentifiera peut-tre pas non plus tous les problmes du
questionnaire.
Voici quoi sert le prtest dun questionnaire :
- dcouvrir lordre ou la rdaction mdiocres des questions,
- reprer les erreurs de prsentation ou dinstructions du questionnaire,
- identifier les problmes dapplication logicielle dun questionnaire assist par ordinateur,
- dterminer les problmes ventuels si le rpondant ne peut ou ne veut rpondre aux questions,
- suggrer des catgories de rponse supplmentaires qui peuvent tre codes davance dans le
questionnaire,

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

68

donner une indication prliminaire de la longueur de linterview et du taux de rponse (y compris la


non-rponse partielle).

5.1.5.2

Mthodes cognitives

Les mthodes cognitives sont particulirement utiles pour lessai des questionnaires parce quelles sont
conues pour faire enqute sur les tapes du processus de rponse. Les mthodes cognitives donnent les
moyens dexaminer les processus de rflexion du rpondant lorsquil rpond aux questions de lenqute.
Les mthodes cognitives aident donc valuer la validit des questions et identifier les sources
ventuelles derreur de rponse et de non-rponse.
Les interviews cognitives donnent loccasion dvaluer le questionnaire du point de vue du rpondant.
Elles ciblent des points comme la comprhension et les ractions la formule. Cette mesure permet
dintgrer la perspective du rpondant directement dans le processus de conception du questionnaire et
den arriver la conception dun questionnaire convivial pour le rpondant parce quil est facile
comprendre et remplir avec prcision.
Les interviews cognitives se droulent souvent en laboratoire ou dans une salle munie dun miroir
dobservation. La taille de lchantillon est relativement minime. De 12 15 interviews cognitives
seulement peuvent se drouler, mais parfois jusqu 100 et plus, pour mettre lessai la version
prliminaire dun questionnaire. tant donn la taille de lchantillon relativement minime, une approche
itrative est parfois applique et des modifications sont apportes au questionnaire aprs quelques
interviews cognitives avant de donner suite la mise lessai.
Voici certaines mthodes cognitives de mise lessai :
i.

Lobservation des rpondants

Le rpondant est observ pendant quil rpond au questionnaire. Lobservation donne des renseignements
sur le comportement du rpondant, notamment :
- les sections du questionnaire quil lit,
- la squence de rponse aux questions,
- le rpondant se reporte aux instructions ou non,
- le genre de dossiers quil examine,
- le rpondant consulte quelquun ou non,
- le temps quil prend rpondre chaque section,
- les corrections ou modifications quil apporte aux rponses.
ii.

Les interviews penser tout haut

Le rpondant est invit penser tout haut lorsquil rpond aux questions, faire des commentaires sur
chaque question et expliquer comment il a choisi la rponse en bout de ligne. Ce genre dinterview
penser tout haut est intitul interview simultane penser tout haut . Si le rpondant explique son
processus de rflexion aprs coup, pendant une discussion de suivi, linterview est alors intitule
interview rtrospective penser tout haut . Ces deux mthodes sont trs utiles pour la mise lessai des
questionnaires et lidentification des sources ventuelles derreur et des amliorations qui peuvent tre
apportes.
Des techniques particulires, notamment les questions dapprofondissement, la reformulation et la
notation de la confiance sont appliques pendant les interviews cognitives.

STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

69

a. Questions dapprofondissement
Les questions dapprofondissement servent cibler des aspects en particulier du processus de rponse
(c.--d. comprhension, extraction, rflexion ou rponse). Lintervieweur peut demander, par exemple,
comment et pourquoi un rpondant a choisi une rponse ou comment il a interprt les concepts, les mots.
b. Reformulation
Le rpondant est invit rpter les instructions ou la question dans ses propres mots, ou expliquer la
signification des termes et des concepts. La reformulation permet de dterminer si un rpondant a lu et
bien compris les instructions et les questions.
c. Notation de la confiance
Le rpondant cote le degr de confiance en la prcision de ses rponses. Cette technique rvle quel
point le rpondant a eu de la difficult formuler une rponse une question ou sil a essay de deviner.
5.1.5.3

Groupes de discussion

Un groupe de discussion considre un sujet slectionn par les participants choisis dans la population
dintrt. Le groupe de discussion donne loccasion de consulter les membres de la population cible, les
utilisateurs des donnes ou les intervieweurs pour intgrer leur point de vue dans le processus de conception
du questionnaire. Au cours des premires tapes de llaboration du questionnaire, les groupes de discussion
peuvent aider prciser les objectifs de lenqute et les besoins de donnes, et identifier les concepts,
dfinitions et questions saillantes de la recherche. Les groupes de discussion servent aussi la mise lessai
des questionnaires. On fait appel eux pour valuer la comprhension du langage et de la rdaction des
questions et des instructions de la part du rpondant, ainsi que dautres formulations et mises en forme des
questions.
Un animateur qui connat bien les techniques dinterview des groupes et lobjectif de la discussion oriente
le groupe de discussion. Chaque groupe comprend habituellement de six douze personnes et la taille
optimale est de sept neuf personnes. Une sance en groupe de discussion demande habituellement deux
heures environ. Le groupe de discussion est enregistr sur bande sonore (et parfois sur bande vido) que
les observateurs peuvent entendre dans une salle contigu derrire un miroir dobservation. Il est
recommand que ceux qui laborent le questionnaire observent le groupe de discussion. Les observateurs
ninterviennent pas dans la discussion du groupe, mais leurs observations peuvent servir lanimateur la
fin de la sance du groupe de discussion.
Si le questionnaire de lenqute par autodnombrement est mis lessai, il peut tre achev immdiatement
avant la discussion du groupe (si le temps le permet) ou le rpondant peut le remplir davance et lapporter la
sance du groupe de discussion. Sil sagit dun questionnaire assist par intervieweur, ce dernier peut
ladministrer quelques jours avant la runion du groupe de discussion.
Lancer la discussion du groupe en demandant aux participants dexprimer leur raction au questionnaire dans
lensemble est une technique utile. Le groupe discute ensuite des questions et problmes particuliers que
suscite le questionnaire. Lanimateur du groupe de discussion examine le questionnaire au complet, question
par question, ou cible des questions dintrt en particulier. Lanimateur devrait avoir des aptitudes
approfondir la matire parce que certains participants du groupe de discussion peuvent hsiter faire des
commentaires ngatifs, mme sils sont pertinents. Lanimateur devrait aussi donner chaque membre
loccasion de sexprimer pour viter quune personne ou deux domine(nt) la discussion. La sance du groupe

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

70

de discussion peut tre conclue en demandant aux participants de recommander lamlioration la plus
importante, leur avis, quil faudrait apporter au questionnaire.
5.1.5.4

Compte rendu des intervieweurs

Le compte rendu de lintervieweur se droule souvent aprs la sance en groupe de discussion ou pendant
les prtests. Lintervieweur discute de lexprience acquise pendant linterview des rpondants et
approfondit ainsi la comprhension des rsultats du questionnaire. Sa perspective peut aider dterminer
les amliorations apporter au questionnaire. Lintervieweur fait habituellement son compte rendu dans
un groupe trs semblable au groupe de discussion. Autrement, des formules de notation ou des
questionnaires de compte rendu peuvent servir obtenir de linformation sur les problmes que posent le
questionnaire et des suggestions damlioration.
5.1.5.5

Codage comportemental des interactions entre lintervieweur et le rpondant

Le codage comportemental peut tre fait pendant que lintervieweur administre le questionnaire. Ce genre
de mise lessai comprend le codage systmatique par un tiers de linteraction entre lintervieweur et le
rpondant. Le tiers cible comment lintervieweur pose les questions et la raction du rpondant.
Linterview de mise lessai est souvent enregistre sur bande sonore et la relation entre lintervieweur et
le rpondant est ensuite analyse. Le codage comportemental aide identifier certains problmes, par
exemple, lintervieweur na pas lu les questions telles quelles sont formules ou le rpondant a demand
des prcisions. Si le codage comportemental rvle quune question pose des difficults, une mesure
corrective peut tre justifie. En gnral, le codage comportemental ne donne cependant pas
dinformation sur les raisons du problme ou la solution possible. Un large chantillon est souvent
ncessaire pour analyser les rsultats du codage comportemental, surtout si le questionnaire comprend de
nombreuses instructions passez qui orientent le rpondant dans un questionnaire cheminements
varis.
5.1.5.6

Essai dchantillons fractionns

Les mises lessai dchantillons fractionns servent dterminer les deux meilleures versions ou
plus dun questionnaire ou dune question. La mise lessai dun chantillon fractionn est parfois
intitule exprience du questionnaire deux formes ou du panel fractionn . Elle comprend un plan
dchantillonnage exprimental intgr au processus de collecte des donnes. Sil sagit dun seul plan
dchantillonnage fractionn, la moiti de lchantillon reoit une version du questionnaire et lautre
moiti, lautre version.
La mise lessai de lchantillon fractionn permet non seulement de comparer les variations des
questions, mais aussi les diffrentes mthodes de collecte des donnes pour dterminer la meilleure
mthode. Un plan dchantillonnage probabiliste et des tailles dchantillons appropries sont ncessaires
pour analyser les diffrences entre les chantillons.
5.1.5.7

Enqute pilote

Une enqute pilote se droule pour observer toutes les tapes du processus de lenqute, y compris
ladministration du questionnaire. Une enqute pilote est une simulation qui applique la version finale
du plan denqute petite chelle du dbut la fin, y compris le traitement et lanalyse des donnes. Elle
permet lorganisme statistique de considrer les rsultats du questionnaire pendant toutes les tapes de
STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

71

lenqute (collecte, vrification, imputation, traitement, analyse des donnes, etc.). Le questionnaire est
habituellement soumis des essais approfondis laide des mthodes susmentionnes avant lenqute
pilote.

5.1.6

Touche finale apporte au questionnaire

La conception du questionnaire est un processus itratif : des modifications sont continuellement


apportes pendant llaboration et la mise lessai du questionnaire. Les objectifs et les besoins
dinformation sont formuls et rvalus, les rpondants et les utilisateurs des donnes sont consults, la
version prliminaire des questions proposes est formule et mise lessai, les questions sont examines
et rvises jusqu la formulation de la version finale du questionnaire. Lorsquil est dcid quil ny aura
pas dautres modifications apportes au questionnaire, ltape finale du processus est franchie. La touche
finale est alors apporte au questionnaire et il est imprim ou programm, selon la mthode de saisie des
donnes applique.

5.2

Genres de questions : ouvertes et fermes

Il y a deux genres de questions : ouvertes et fermes. Les questions ouvertes ne donnent pas les
catgories de rponse au rpondant. Le rpondant donne un chiffre exact ou une rponse la question
dans ses propres mots par crit dans le cas dun questionnaire denqute par autodnombrement ou
lintervieweur enregistre la rponse intgralement. Une question ouverte devrait comprendre un espace
suffisant pour inscrire la rponse.
Voici un exemple de question ouverte :
Quel est le plus important problme au Canada?

Les questions fermes comprennent des catgories de rponse inscrites sous la question. On rpond la
question ferme en cochant une case ou en encerclant la rponse exacte dans lnumration. Les rponses
possibles numres pour une question sont intitules catgories de rponse.
Voici un exemple de questions fermes :
Quel est le plus important problme au Canada? (Cochez une rponse seulement)
P Chmage
P conomie rcession
P Dficit fdral
P Impts
P Unit nationale
P Crime violence
P Environnement
P Autre

STATISTIQUE CANADA

72

MTHODES ET PRATIQUES DENQUTE

Une question ouverte permet au rpondant dexprimer une rponse sans linfluence des catgories de
rponse inscrites sous une question ferme. Ce choix permet cependant dinterprter la question de
diffrentes faons. Une question ouverte largit donc la porte de la question en gnral et la version
ferme donne au rpondant des indices sur la manire dinterprter la question. Une question ferme
ramne aussi le rpondant un ensemble de rponses dtermines.
Les questions ouvertes ont plusieurs applications. Lun des avantages est quelles donnent au rpondant
loccasion de sexprimer ou dlaborer. Elles sont importantes lorsquil faut examiner une question mal
comprise ou trs large. Les questions ouvertes sont donc souvent utilises pendant llaboration et la mise
lessai du questionnaire. Elles sont poses des groupes de discussion, par exemple, pour obtenir des
commentaires et des opinions sur la question pose et pour susciter la discussion. Une question ouverte
permet aussi lorganisme statistique dobtenir la formulation naturelle personnelle du rpondant.
Elle est importante lors de lexamen de la rdaction dune question et des catgories de rponse une
question ferme.
Un autre avantage des questions ouvertes est quelles peuvent servir obtenir des donnes numriques
exactes, par exemple, lge prcis du rpondant. Les intervenants des enqutes auprs des entreprises
demandent souvent les sommes exactes des revenus et dpenses dclars. Les donnes numriques
exactes sont ncessaires pour certaines analyses des donnes (p. ex., calculer une moyenne ou une
mdiane).
Les questions ouvertes ont une autre utilit, elles permettent de faire le suivi des questions fermes. Une
question ferme peut demander, par exemple :
Avez-vous des suggestions pour amliorer notre service la clientle?
P Non
P Oui
Si le rpondant coche Oui , une question ouverte de suivi pourrait tre la suivante :
Si oui, quelles sont vos suggestions?

Les questions ouvertes comme celle-ci : Avez-vous des commentaires supplmentaires? sont souvent
poses la fin des sections de questions ou la fin du questionnaire. Le rpondant a donc loccasion
dajouter tout ce qui est pertinent, son avis, aux questions considres dans le questionnaire. Certains
rpondants pourraient vouloir ajouter de linformation supplmentaire pour prciser une rponse. Il est
important de prvoir ce genre dinformation dans le questionnaire.
Les questions ouvertes dont les rponses sont rdiges (au lieu dtre numriques) ont des inconvnients.
Elles sont un fardeau parce que le rpondant doit dterminer lintention de la question et formuler une
rponse sans laide des catgories de rponse. Dans une enqute par autodnombrement, linscription de
la rponse demande du temps. Lors dune enqute assiste par intervieweur, la collecte, la saisie et le
codage des donnes sont un fardeau. Il est souvent difficile pour lintervieweur de saisir intgralement la
rponse du rpondant et, aprs la collecte, toutes les rponses diffrentes sont habituellement rparties en
catgories et un code numrique leur est attribu pour faciliter le traitement et lanalyse des donnes. Les

STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

73

questions ouvertes se traduisent donc habituellement par un traitement plus cher, plus expos aux erreurs
et qui demandent plus de temps que les questions fermes.
Sil sagit de donnes numriques, Il est plus difficile de rpondre des questions ouvertes qu des
questions fermes, et la saisie des donnes est plus difficile et expose aux erreurs.
Exemples de questions ouvertes qui demandent des rponses rdiges :
Quels produits ou services offre votre entreprise?
Que pensez-vous faire dans cinq ans?
Veuillez faire davantage de commentaires sur les questions ou problmes considrs dans ce
questionnaire.
Exemples de questions ouvertes qui demandent des rponses numriques :
Quelle est votre meilleure estimation du revenu total avant impts et dductions de tous les
membres du mnage et de toutes sources depuis 12 mois?
Depuis combien dannes le propritaire actuel exploite-t-il ltablissement?
Au cours dun mois normal, combien de fois les membres de votre mnage utilisent-ils Internet
la maison?
Les questions fermes ont de nombreux avantages dont le plus important est quelles sont moins un
fardeau pour les rpondants, et la collecte et la saisie des donnes sont plus faciles et moins chres. Le
rpondant ragit plus rapidement et facilement parce quil choisit simplement la catgorie de rponse
approprie au lieu de formuler une rponse et de linscrire dans ses propres mots. Il rpondra
correctement sans doute plus souvent parce que les catgories de rponse indiquent la cible des questions.
Il est plus facile danalyser les donnes obtenues laide de questions fermes parce que les rponses sont
plus cohrentes et dj regroupes. Si une question est pose dans plusieurs enqutes, lutilisation des
mmes catgories de rponse facilite la comparaison entre les enqutes.
Les questions fermes ont plusieurs inconvnients. Pendant la formulation de la version prliminaire des
questions, il faut souvent faire des efforts pour laborer des catgories de rponse (c.--d. que le codage
est fait avant la collecte, mais lactivit peut quand mme tre difficile). Les catgories de rponse doivent
tre mutuellement exclusives et exhaustives comme dans tout codage. Si les catgories de rponse ne sont
pas clairement formules, le rpondant pourrait avoir davantage de problmes que si la question pose
tait ouverte. Les questions fermes suscitent une autre proccupation, savoir que les catgories de
rponse tant numres, le rpondant peut se sentir oblig de choisir une catgorie de rponse, peu
importe sil ou si elle a formul une rponse ou a mme les connaissances ncessaires pour rpondre la
question. Si la question demande une opinion, le rpondant peut tre oblig de choisir une catgorie qui
ne correspond pas son opinion, ou dexprimer une opinion lorsquen fait, il nen na pas. (Une catgorie
Ne sais pas ou Sans objet est parfois ajoute pour viter la situation. Dans le cas dun
questionnaire assist par intervieweur, il est pratique commune dajouter une catgorie de rponse
Refus .) Autre problme ventuel : les catgories de rponse peuvent simplifier exagrment un point
en confinant le rpondant une rponse possible.
Il y a plusieurs genres de questions fermes : les plus frquemment utilises sont les questions
dichotomiques, choix multiples, avec rponses cocher, avec classement et avec chelle dvaluation.
Elles sont dcrites ci-dessous.
STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

74

Le Chapitre 10 - Traitement donne davantage dinformation sur le codage des questions ouvertes et
fermes.

5.2.1

Questions dichotomiques

La question dichotomique est la version la plus simple dune question ferme. Il sagit souvent dune
question oui non et elle sert rpartir les rpondants en deux groupes distincts. La question
dichotomique permet aussi la slection pour viter de demander aux rpondants une srie de questions qui
ne sappliquent pas eux. La directive Passez la question X est ensuite inscrite immdiatement aprs
lune des catgories de rponse et les rpondants passent outre certaines questions. Cette instruction est
parfois appele aiguillage .
Par exemple :
Avez-vous fum des cigarettes hier?
P Oui
P Non ------------Passez la question 14

5.2.2

Questions choix multiples et avec rponses cocher

La question choix multiples demande au rpondant de slectionner une rponse dans une liste de choix
et la question avec rponses cocher demande au rpondant de choisir au moins une rponse dans la
liste. Dterminer sil sagit dune question choix multiples ou avec rponses cocher nest peut-tre pas
vident pour le rpondant. Il faut donc ajouter des instructions. Remarquez quune catgorie Autre
(prcisez) est habituellement ajoute pour garantir lexhaustivit de la liste.
Exemple de questions choix multiples :
De quel genre de logement sagit-il? (Cochez une rponse seulement.)
P Maison individuelle
P Maison jumele (en parallle)
P Maison sur jardin, en bande ou en range
P Duplex (superpos)
P Immeuble hauteur restreinte (moins de cinq tages)
P Crime violence
P Tour dhabitation (cinq tages ou plus)
P Autre (veuillez prciser)___________
Exemple de question avec rponses cocher :
Quel genre dhbergement avez-vous choisi pendant vos vacances? (Cochez toutes les rponses
appropries.)
P Htel (y compris maison de chambres pour touristes)
P Motel
P Camping ou parc de roulottes
P Rsidence damis ou de parents
P Cabine ou chalet louer
P Autre (centre dhbergement, universit, etc.)

STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

75

Les catgories de rponse des questions choix multiples et avec rponses cocher demandent une
formulation attentive. La liste des catgories de rponse devrait tre mutuellement exclusive et
exhaustive. Les catgories de lexemple qui suit ne sont pas mutuellement exclusives, elles se
chevauchent :
Quel ge avez-vous?
P de 20 30 ans
P de 30 40 ans
P de 40 50 ans
P 50 ans ou plus
Un rpondant qui a 30, 40 ou 50 ans peut choisir deux catgories de rponse. Lanalyse des donnes serait
difficile parce quil est impossible de savoir quelle catgorie choisira ce rpondant. La liste des catgories
de rponse nest pas exhaustive et cest un autre problme. Si les moins de 20 ans font partie de la
population cible, comment rpondront-ils cette question? Voici un meilleur choix de catgories de
rponse :
Quel ge avez-vous?
P moins de 20 ans
P de 20 29 ans
P de 30 39 ans
P de 40 49 ans
P 50 ans ou plus

5.2.3

Questions avec classement

La question avec classement est un autre genre de question ferme et elle demande au rpondant dtablir
lordre des catgories de rponse, par exemple :
Voici une liste de certains moyens dont les gens se servent pour trouver un emploi. Veuillez les
classer par ordre defficacit en inscrivant 1 la mthode qui serait la plus utile, selon vous,
2 la mthode qui serait la plus utile en second lieu, et ainsi de suite.
____ Envoi de curriculum vitae par la poste
____ Annonces dans les journaux ou les revues
____ Centres demploi du gouvernement
____ Vrification auprs damis
____ Service de placement priv
____ Communication directe avec des employeurs
____ Autre (veuillez prciser) ________________________________
Les rpondants considrent souvent que le classement des catgories est un fardeau, surtout si les points
classer sont trs diffrents lun de lautre ou si linterview se droule au tlphone. Les questions avec
classement posent un autre problme : les carts dimportance des rponses classes sont inconnus et ne
sont probablement pas quivalents, cest--dire que lcart entre 1 et 2 ne peut tre considr comme
quivalent lcart entre 2 et 3. Voil qui complique lanalyse des donnes. Si trois rponses sont
inscrites pour tre classes, par exemple, le rpondant les classera 1, 2 et 3, mais il peut considrer que les
deux premires sont trs proches et que la troisime est loin derrire. Il est impossible dobtenir ce genre
dinformation simplement partir du classement. Autre inconvnient : le rpondant peut attribuer la
mme cote deux rponses ou plus. Dans lexemple ci-dessus, le rpondant peut attribuer la cote 1 la
STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

76

rponse Annonces dans les journaux ou les revues et Centres demploi du gouvernement . Les
questions avec classement posent une autre difficult parce que les rpondants ne pourront peut-tre pas
classer tous les choix de la liste. Il peut tre raisonnable de prvoir quils en classeront seulement
quelques-uns (p. ex., cinq ou moins).
Voici un exemple de question avec classement qui demande au rpondant de slectionner les plus
importants lments et de classer seulement ceux qui sont importants.
Veuillez classer les cinq lments les plus importants qui influencent votre entreprise lorsquelle
choisit un transporteur. Linformation nous aidera cibler notre attention et nos ressources sur
les secteurs qui sont essentiels pour rpondre vos besoins de service.
Veuillez classer leur importance en inscrivant le chiffre 1 llment le plus important, selon
vous, 2 llment le plus important en second lieu, et ainsi de suite.
___
___
___
___
___
___
___
___
___
___
___
___

5.2.4

Transport sans dommage


Prix
Marketing et reprsentants des ventes
Reprsentants du service la clientle
Solution rapide des problmes de service
Traitement des rclamations de marchandise
Uniformit du service
Frquence du service
Priode en transit
Communication rapide des avis de retard de service
Prcision de la facturation
Autre (veuillez prciser)

Questions avec chelle dvaluation

Les questions avec lchelle dvaluation demandent au rpondant dvaluer leur rponse, par exemple :
tes-vous satisfait de notre service la clientle?
P Trs satisfait
P Satisfait
P Insatisfait
P Trs insatisfait
La formulation dune question avec chelle dvaluation demande plusieurs considrations.
Premirement, combien de catgories devrait avoir lchelle dvaluation? Elle pourrait en avoir
seulement deux daccord, pas daccord ou jusqu 10, partir de 1 (sans importance) jusqu 10
(extrmement important).
Deuximement, une question se pose, savoir si lchelle dvaluation devrait avoir ou non un choix
neutre, par exemple, ni satisfait ni insatisfait. En labsence dune possibilit neutre, le rpondant doit faire
un choix. Dautre part, les rpondants ont tendance choisir la rponse neutre si elle est ajoute. Il est
possible dajouter le choix neutre dans un questionnaire assist par intervieweur, mais sans loffrir au
rpondant. Il est alors slectionn seulement si le rpondant lexprime spontanment.

STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

77

Lexemple ci-dessus noffre pas de choix neutre comme celui ci-dessous.


tes-vous satisfait de notre service la clientle?
P Trs satisfait
P Satisfait
P Ni satisfait ni insatisfait
P Insatisfait
P Trs insatisfait
Troisimement, lors de la formulation dune question avec chelle dvaluation, il faut considrer lajout
de la catgorie Ne sais pas pas dopinion ou Sans objet , compte tenu de la question pose.
Lorsque vous posez une question sur un service en particulier que le rpondant na peut-tre jamais
utilis, par exemple, il faut ajouter la catgorie Sans objet .
Dans chacun de ces cas (nombre de catgories de lchelle dvaluation, ajout dun choix neutre, recours
la catgorie Sans objet ), la solution sera dtermine en tenant compte des objectifs de lenqute, du
point coter, de la mthode de collecte des donnes et des prfrences de lorganisme statistique.
La question avec classement prsente la section 5.2.3 sur le choix dun transporteur peut tre
reformule en question avec chelle dvaluation, comme suit :
Voici un certain nombre dlments qui influencent une entreprise lorsquelle choisit un
transporteur. Certains peuvent tre plus importants que dautres pour votre entreprise. Compte
tenu des priorits de votre entreprise, veuillez coter limportance de chaque lment de 1 10, 1
quivalant la cote Sans importance et 10 quivalant Extrmement important .
___
Transport sans dommage
___
Prix
___
Marketing et reprsentants des ventes
___
Reprsentants du service la clientle
___
Solution rapide des problmes de service
___
Traitement des rclamations de marchandise
___
Uniformit du service
___
Frquence du service
___
Priode en transit
___
Communications rapides des avis de retard de service
___
Prcision de la facturation
La version de la question avec chelle dvaluation demandera plus de temps en interview, mais il est plus
facile pour le rpondant de coter chaque catgorie de rponse au lieu de les classer. Cest particulirement
vrai pour les interviews tlphoniques.

5.3

Lignes directrices sur la rdaction des questions de lenqute

La formulation des questions devrait tre claire et significative pour les rpondants. Les donnes de
lenqute seront de qualit suprieure si les rpondants peuvent facilement comprendre la signification
des mots. Ils seront aussi davantage disposs donner de linformation, et en mesure de le faire, sils
comprennent clairement la question pose. Il est aussi essentiel que la comprhension des questions de
lenqute de la part des rpondants corresponde lintention du concepteur du questionnaire.

STATISTIQUE CANADA

78

MTHODES ET PRATIQUES DENQUTE

La formulation dune question peut donner des rsultats fausss et des donnes denqute inexactes si les
rpondants :
- ne comprennent pas la signification des mots dans une question,
- ninterprtent pas les mots selon lintention du concepteur,
- ne connaissent pas les concepts vhiculs dans la formulation dune question.
Les sections suivantes dcrivent certaines lignes directrices gnrales considrer pour viter ces
problmes.

5.3.1

La simplicit est de rigueur

Le meilleur moyen de communiquer clairement avec les rpondants est dutiliser des mots simples,
quotidiens, et de vrifier si tous les termes sont appropris pour la population qui fait lobjet de lenqute.
Le langage de la question suivante nest ni simple ni quotidien.
tes-vous conscient de la fusion imminente des circonscriptions proximit de la nouvelle rgion
mtropolitaine?
De nombreux rpondants de lenqute pourraient ne pas connatre ou comprendre la signification des
termes et des expressions fusion imminente, circonscriptions ou nouvelle rgion mtropolitaine.
Il faut toujours considrer les aptitudes linguistiques des rpondants lors de llaboration des questions. IL
est prfrable de choisir des mots faciles comprendre pour tout le monde. Si lenqute cible une
population ayant une scolarit plus pousse, par exemple des avocats, des enseignants ou dautres
professionnels, il est possible davoir recours un langage plus complexe. En bout de ligne, le langage
utilis devrait correspondre la comprhension moyenne de la population cible.
Les termes techniques ou le jargon spcialis que les rpondants ne connaissent pas sont viter. Si ces
termes sont ncessaires, cependant, il faudrait ajouter des prcisions ou des dfinitions lintention des
rpondants. Il faut dfinir les concepts nouveaux ou complexes pour que tous les rpondants aient la
mme comprhension de la question. Les dfinitions peuvent tre ajoutes la question, aux instructions
lintention des rpondants imprimes ailleurs dans le questionnaire ou un cahier dinstructions distinct
(un cahier distinct a cependant moins de chance dtre lu).
Les termes de la question suivante ne sont ni simples ni communs.
Le vaccin antipneumococcique vous a-t-il t administr?
La majorit des citoyens dans la population en gnral ne connaissent probablement pas le terme mdical
antipneumococcique et il sera donc difficile de rpondre la question. De nombreuses personnes ne
pourront probablement pas donner une rponse prcise. Voici une meilleure formulation :
Avez-vous t vaccin contre la grippe?

5.3.2

Dfinition des acronymes et des abrviations

Les textes techniques et scientifiques sont souvent truffs dacronymes et dabrviations, ainsi que
dexpressions juridiques et dentreprise. Il vaut mieux les utiliser dans les contextes o les lecteurs
connaissent bien la matire. Lors des enqutes auprs du grand public, il faudrait les viter, sauf sils sont
bien connus. Il sera probablement plus facile de comprendre clairement les questions si elles comprennent
STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

79

la rdaction complte du mot, du terme ou de lorganisme cibl, au lieu dune abrviation. Il faut toujours
dfinir dabord les abrviations et les acronymes utiliss.
La question suivante comprend un acronyme qui peut semer la confusion chez les rpondants.
Savez-vous o est situ le bureau de lARAP le plus prs?
De nombreux rpondants ne sauront pas que lARAP est lacronyme de lAdministration du
rtablissement agricole des Prairies.

5.3.3

Vrification de la pertinence des questions

Il est important de faire un effort pour minimiser le fardeau des rpondants. Un important moyen cette
fin est de faire en sorte que seules les questions pertinentes soient poses aux rpondants. Cette mesure
diminue la longueur des interviews, le temps de participation des rpondants et les cots de lenqute.
La question suivante, par exemple, ne sapplique pas tous les rpondants, seulement ceux qui ont un
emploi.
Quelle est votre occupation actuelle dans la population active?
Cette question devrait suivre une question de slection conue pour dterminer si un rpondant a un
emploi et elle devrait tre pose seulement ceux qui ont indiqu quils en ont un. Mme si la question
semble anodine, elle pourrait irriter ceux qui nont pas demploi.
Les concepteurs de questionnaire devraient aussi dterminer si les rpondants ont suffisamment de
connaissances pour rpondre la question pose. Sinon, ils peuvent choisir de ne pas rpondre ou donner
une rponse errone. Peu de citoyens dans le grand public ont des connaissances suffisamment
spcialises, par exemple, pour donner une rponse informe la question suivante.
Lincinration 1 600 oC pendant 30 minutes est-elle suffisante, votre avis, pour liminer les
biphnyles polychlors?

5.3.4

La prcision est de rigueur

La rdaction des questions de lenqute doit tre aussi prcise que possible pour garantir que les
rpondants comprennent exactement ce quon attend deux. Un processus semblable celui qui est
appliqu pour dfinir les concepts, prsent au Chapitre 2 - Formulation de lnonc des objectifs, est
appliqu ici cette fin. Le concepteur du questionnaire doit demander : Qui? Quoi? O? et Quand? Il faut
prciser clairement pour chaque question :
- qui sapplique-t-elle?
- Quelle information faut-il ajouter la rponse ou y retrancher?
- Quelles units doit donner la rponse (p. ex., kg ou lb)?
- La question vise quelle priode (Quand?)?
La question suivante peut sembler simple et directe premire vue.
Quel est votre revenu?

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

80

la rflexion cependant, il nest pas si facile dy rpondre. Premirement, votre dsigne qui? Ce nest pas
vident. Il faudrait prciser sil sagit-il du revenu personnel du rpondant, de celui de la famille ou du
mnage. Deuximement, pour quelle priode de rfrence le rpondant devrait-il donner linformation sur
le revenu? La semaine dernire, le mois dernier, lan dernier? Enfin, quest-ce que le rpondant devrait
considrer comme revenu? Le salaire et les traitements seulement? Le salaire et les traitements, y compris
les gratifications? Le salaire, les traitements et les revenus dautres sources? Autre chose?
Voici deux exemples de formulation amliore de la question (si le terme mnage a t dfini pour le
rpondant).
Quel a t le revenu total de toute source de votre mnage avant impt et dductions lan
dernier?
Quel a t le revenu total de votre mnage avant dductions lan dernier? Ajoutez les revenus
tirs des traitements, des salaires et de toute autre source.
La question suivante illustre le problme possible lorsque la formulation dune question nest pas
suffisamment prcise. On a prsent au rpondant une bouteille de boisson lorange avant quil rponde
cette question dune enqute (Poursuite au civil 47LL (1945), U.S. D.C. N.J., U.S. c. 88 cas boisson
lorange Bireley).
Combien de jus dorange contient cette boisson votre avis?
Voici des exemples de nombreuses rponses diffrentes possibles :
P
P
P
P
P
P
P
P

une orange, un peu deau et de sucre


25 % de jus dorange et 75 % deau gazifie
jus dune demi-douzaine doranges
trois onces de jus dorange
concentration intgrale
un quart de tasse de jus dorange
aucun
trs peu

P
P
P
P
P
P
P
P

un quart de jus dorange


trs peu de jus dorange, sinon aucun
ne sais pas
pas beaucoup
de trois quatre onces de jus dorange
une chopine
en majeure partie
environ un verre et demi

Voici des formulations plus prcises de la question sur le jus dorange :


Cette bouteille contient 300 ml dune boisson. Combien de mililitres de jus dorange contient-elle
votre avis? __ ml
Cette boisson contient quel pourcentage de jus dorange votre avis? ___ %
Quelle proportion de cette boisson un quart, une demie, trois quarts, ou laquelle est du jus
dorange, votre avis? ___
Chacune de ces questions demande une rponse en units particulires : mililitres, pourcentage, fraction.
Lorganisme statistique qui pose des questions ainsi formules obtiendra davantage de rponses en units
mentionnes dans la question.

STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

5.3.5

81

Les questions deux volets

Une question deux volets est en fait une question qui en pose deux. Elle couvre plus dun concept en
gnral, par exemple :
Prvoyez-vous laisser votre automobile la maison et emprunter lautobus pour aller au travail
lanne prochaine?
Certaines personnes auront de la difficult rpondre cette question parce que leur situation personnelle
ne correspond peut-tre pas simplement une rponse par oui ou non. Un rpondant peut prvoir,
notamment,
- dutiliser parfois lautomobile et demprunter lautobus dautres occasions,
- de toujours laisser lautomobile la maison et daller au travail bicyclette,
- daller au travail en automobile, mais parfois bicyclette,
- de toujours laisser lautomobile la maison et de se rendre au travail par dautres moyens,
- daller au travail en automobile parfois et demprunter autrement divers moyens,
- de choisir une autre combinaison.
La question est rellement double : Prvoyez-vous laisser lautomobile la maison lanne prochaine? et
Prvoyez-vous emprunter lautobus pour aller au travail lanne prochaine? La meilleure solution peut
tre de formuler deux questions.
Les concepteurs de questionnaire devraient examiner toutes les questions qui contiennent les mots et et ou
pour vrifier si elles pourraient semer la confusion chez les rpondants. Il serait bon dexaminer lobjectif
de ces questions pour dterminer si une question unique est approprie ou sil vaudrait mieux :
- formuler au moins deux questions :
- mettre en vidence les principaux mots dans la question,
- ajouter des instructions pour prciser,
- donner des exemples,
- poser seulement les questions pertinentes aux objectifs de lenqute.
Ceci dit, il est important de savoir que les questions qui contiennent les mots et et ou ne sont pas
ncessairement toutes des questions deux volets, par exemple :
Quelle est la premire langue que vous avez apprise et que vous comprenez toujours?
Lobjectif de cette question est de dterminer, parmi les langues que comprend le rpondant, celle quil a
apprise en premier. La rponse pertinente est la langue qui rpond aux deux conditions de la question.
Voil qui peut sembler vident pour le concepteur du questionnaire, mais certains rpondants pourraient
hsiter rpondre. Il serait bon de donner des instructions avec des exemples pour aider le rpondant
comprendre ce quon lui demande, et dinsister sur le mot et dans la question, par exemple :
Quelle est la langue que vous avez apprise en premier et que vous comprenez toujours?
(Instructions au rpondant : Cette question est pose pour dterminer la langue qui rpond
aux deux conditions, la langue que vous avez apprise en premier et que vous comprenez
toujours. Une personne peut avoir appris le chinois dabord, mais ne plus le comprendre
parce quelle a immigr trs jeune au Canada. Le chinois serait donc une rponse inexacte
parce quelle ne rpond pas aux deux conditions de la question. La deuxime langue apprise
tait langlais et la personne le comprend toujours. Dans ce cas, la rponse exacte la
question est langlais, langue que le rpondant a appris en premier lieu et quil comprend
toujours.)

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

82

5.3.6

Les questions suggestives

Une question suggestive ou insidieuse suggre une certaine rponse ou incite le rpondant en choisir
une en particulier. Autrement dit, la formulation de la question a des rpercussions sur les rponses. Les
questions suggestives peuvent fausser les rponses et avoir des rpercussions sur les rsultats de
lenqute.
Question suggestive :
Veuillez prciser si vous tes daccord avec lnonc suivant, si vous ntes pas daccord ou si
vous navez aucune opinion : Le tourisme est avantageux pour le comt de Northumberland et
il faudrait donc en faire la promotion .
Question neutre :
Veuillez prciser si vous tes daccord avec lnonc suivant, si vous ntes pas daccord ou si
vous navez aucune opinion : Il faudrait faire la promotion du tourisme pour le comt de
Northumberland .
Les questions denqute devraient tre formules pour que toutes les possibilits soient videntes pour le
rpondant. Autrement, la question pourrait tre suggestive et avoir des rpercussions ngatives sur les
rsultats de lenqute. Il y a une seule rponse possible la question suivante (Payne, 1951).
Pensez-vous que la majorit des entreprises de fabrication qui mettent pied des travailleurs
pendant les priodes creuses devraient prendre des dispositions pour viter les mises pied et
donner du travail rgulier pendant toute lanne?
P Oui
P Non
P Aucune opinion
Rsultats
63 %
22 %
15 %

Oui, les entreprises peuvent viter les mises pied


Non, les entreprises ne peuvent viter les mises pied
Aucune opinion

La seule possibilit offerte aux rpondants dans cette question est de prciser, leur avis, si les entreprises
peuvent prendre des dispositions pour viter les mises pied. Lorsquil y a une seule possibilit, les
rpondants ont souvent tendance en convenir. Dans cet exemple, 63 % des rpondants sont davis que
les entreprises peuvent viter les mises pied, et cest la seule option prsente dans la question. Voici
une autre formulation possible de la mme question.
Pensez-vous que la majorit des entreprises de fabrication qui mettent pied des travailleurs
pendant les priodes creuses pourraient prendre des dispositions pour viter les mises pied et
donner aux employs du travail rgulier pendant toute lanne, ou pensez-vous que les mises
pied sont invitables?
P Oui, les entreprises peuvent viter les mises pied
P Non, les mises pied son invitables
P Aucune opinion
Rsultats
35 %

Oui, les entreprises peuvent viter les mises pied

STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

41 %
24 %

83

Non, les mises pied sont invitables


Aucune opinion

La question comprend deux possibilits videntes : les entreprises peuvent viter les mises pied et les
mises pied sont invitables. Les rsultats de cette question sont mieux rpartis que ceux de la question
prcdente entre oui, non et aucune opinion.
La prsentation dautres rponses possibles la question incite davantage les gens, en thorie, rflchir
la rponse avant de rpondre et la rponse est donc plus fiable.

5.3.7

Les ngations doubles

Il faudrait viter les structures de phrase qui contiennent des ngations doubles parce que le rpondant ne
saura pas sil est daccord ou pas. Voici un exemple :
Seriez-vous pour ou contre linterdiction de la vente dalcool dans les dpanneurs?
Le rpondant devra dterminer, pour rpondre la question, que sil est pour linterdiction de la vente
dalcool dans les dpanneurs, il est contre lautorisation. De mme, sil est contre linterdiction de la
vente, il est donc pour lautorisation.
La question est difficile parce quelle comprend une ngation double : contre et interdiction sont deux
ngations. Les questions formules laide dune ngation double sment souvent la confusion chez les
rpondants qui, leur insu, peuvent donner une rponse qui contredit leurs convictions. Il vaut mieux
reformuler la question qui devrait contenir une seule ngation. Voici une version plus claire de la
question :
Seriez-vous pour ou contre lautorisation de la vente dalcool dans les dpanneurs?

5.3.8

Les rpercussions des questions caractre dlicat

Les questions personnelles, menaantes ou caractre dlicat, de lavis du rpondant, peuvent donner une
rponse biaise socialement convenable. Les rpondants ont tendance choisir la rponse la plus
favorable pour lestime de soi, ou qui convient aux normes sociales, au lieu dexprimer une conviction ou
de rvler la vrit. Le rsultat possible est une sous-dclaration des caractristiques ou comportements
mesurs.
Les questions suivantes, par exemple, peuvent donner des rponses biaises socialement convenables :
Y a-t-il eu une priode o vous navez pas t en mesure de garantir la subsistance de votre
famille?
Avez-vous dj conduit un vhicule automobile sous linfluence de lalcool?
Quel est votre revenu?
Combien pesez-vous?
Combien de fois avez-vous particip des groupes de discussion sur Internet le mois dernier?

STATISTIQUE CANADA

84

MTHODES ET PRATIQUES DENQUTE

Avez-vous dj considr le suicide?


Il est mentionn au Chapitre 4 - Mthodes de collecte des donnes que certaines mthodes (cest--dire
les questionnaires denqute par autodnombrement et les enqutes tlphoniques) sont plus anonymes
que dautres et les questions caractre dlicat sont donc moins menaantes pour les rpondants. Si un
intervieweur administre le questionnaire, les questions caractre dlicat, en particulier, ne devraient pas
tre poses un rpondant en prsence dautres personnes.
La formulation prudente peut aussi aider diminuer les rpercussions de questions caractre dlicat sur
les rponses de lenqute. Il y a plusieurs techniques appliquer pour poser une question caractre
dlicat de faon moins menaante. Une approche appliquer avant de poser la question est de suggrer
que le comportement caractre dlicat nest pas inhabituel. Certaines expressions, notamment de
nombreuses personnes ou la majorit des gens, peuvent aider poser la question. Si cette technique est
applique, il faut viter les biais (c.--d. que la question ne devrait pas inciter le rpondant dclarer un
comportement quil na jamais eu). Poser des questions prliminaires est une autre technique qui permet
den arriver poser la question caractre dlicat aprs un certain nombre de questions pertinentes
caractre moins dlicat. Une troisime technique est le recours une question ferme ayant un ventail de
catgories de rponses. Dans le cas des renseignements personnels, cest--dire lge, le revenu ou la
frquence du comportement indsirable notamment, le rpondant peut tre mieux dispos rpondre la
question si un ventail de rponses est ajout. Voici un exemple :
Quel a t votre revenu total avant dductions lan dernier? (Ajoutez les revenus tirs des
traitements, des salaires et de toute autre source.)
P moins de 20 000 $
P de 20 000 $ 39 999 $
P de 40 000 $ 59 999 $
P de 60 000 $ 79 999 $
P de 80 000 $ 99 999 $
P 100 000 $ ou plus

5.3.9

La lisibilit des questions

Les questions de lenqute devraient tre aussi concises que possible et en langage quotidien pour que la
population cible nait pas de problmes de comprhension. Le questionnaire devrait tre rdig la
deuxime personne (vous) pour que les rpondants le considrent moins froid, plus personnel, et il
faudrait respecter les rgles de grammaire.
Le plus important test est de vrifier la raction lorsque les questions sont lues haute voix. Elles
devraient sembler naturelles, avoir un ton de dialogue et tre faciles suivre pour celui qui coute. La
question suivante ne respecte pas cette ligne directrice.
Quelle cote attribueriez-vous lutilit de la prestation de linformation sur les caractristiques
psychologiques et sociologiques de la transition, notamment, laccs au programme informatis
dorientation professionnelle interactive quoffre le bureau rgional du ministre aux employs
qui prennent leur retraite, lorsquil est disponible et conformment la dcision de lagent du
personnel rgional?
Cette question est trop longue, le langage est complexe, la construction est complique, elle semble rigide
et bureaucratique, et il est donc difficile de la comprendre et dy rpondre cause de ces caractristiques.

STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

5.4

85

Erreur de rponse

Au Chapitre 3 - Introduction au plan denqute, lune des sources derreur non due lchantillonnage
qui a t considre tait lerreur de mesure qui est la diffrence entre la rponse enregistre une
question et la vraie valeur. Dans la documentation sur la conception du questionnaire, cette erreur est
plus souvent intitule erreur de rponse. Le questionnaire tant un moyen de collecte des donnes, il est
donc une source importante derreurs de rponse. Il est donc essentiel de concevoir le questionnaire et de
le mettre lessai pour minimiser ces erreurs.

5.4.1

Sources derreur de rponse

Les erreurs de rponse sont possibles nimporte o dans le processus denregistrement des questions et
rponses. Les erreurs peuvent tre attribues au questionnaire, au rpondant, lintervieweur, la
mthode de collecte des donnes ou loutil de mesure (dans le cas dune enqute avec mesure directe).
Les sources derreur de rponse due au questionnaire ont dj t mentionnes aux sections prcdentes.
Les questions fermes, par exemple, peuvent inciter le rpondant choisir une rponse, peu importe sil a
une opinion ou non, ou sil a mme les connaissances suffisantes pour rpondre la question, et les
rponses biaises socialement convenables peuvent tre un problme dans le cas des questions caractre
dlicat. Toute question mal formule peut tre mal interprte. Voici en gnral les explications des
erreurs de rponse occasionnes par le questionnaire :
- le genre de question (ouverte ou ferme),
- la formulation de la question,
- la longueur du questionnaire (peut fatiguer le rpondant),
- la prsentation du questionnaire (p. ex., les instructions Passez compliques peuvent occasionner
des erreurs, en particulier dans les questionnaires sur support papier) (voir la Section 5.5),
- le traitement du questionnaire (voirla Section 5.6).
Le rpondant peut aussi avoir de la difficult se remmorer des comportements ou des vnements
antrieurs. Cette source derreur de rponse est intitule erreur de mmorisation. Lune des erreurs de
mmorisation est lerreur de mmoire, cest--dire que le rpondant ne se souvient pas de tous les
vnements qui se sont drouls au cours de la priode de rfrence. Le rsultat est une sous-dclaration
des comportements ou des vnements. La situation inverse est aussi possible. Le rpondant peut dclarer
des activits qui se sont droules hors de la priode de rfrence pensant quelles en faisaient partie.
Cette source derreur est intitule erreur de tlescopage et le rsultat est habituellement une
surdclaration des comportements manifests ou des vnements. La situation sexplique ainsi : le
rpondant tendance dclarer que des comportements se sont manifests ou des vnements ont eu lieu
plus rcemment que ce nest le cas en ralit. Il sagit de tlescopage en aval. Le rpondant peut dclarer
loccasion que des comportements se sont manifests ou des vnements ont eu lieu plus longtemps
auparavant que ce nest le cas en ralit. Cette erreur est intitule tlescopage en amont. En gnral, plus
la priode de rfrence est longue, plus grande est la perte de mmoire (et ainsi, la possibilit derreurs de
mmoire). Les priodes de rfrence plus brves ont cependant tendance augmenter les erreurs de
tlescopage.
Les enqutes ritres peuvent poser ce quon appelle un problme de concordance lorsquun nombre
particulirement important de changements sont dclars la lisire de deux priodes de rfrence
comparativement au nombre de changements pendant la priode de rfrence. La situation peut tre
corrige laide de linterview connexe.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

86

Voici des exemples de questions qui exigent que le rpondant se souvienne dvnements ou de
comportements antrieurs :
Combien de fois avez-vous visit le mdecin depuis 12 mois?
Quelles revues avez-vous lues le mois dernier?
Quelles missions de tlvision avez-vous coutes la semaine dernire?
Les intervieweurs peuvent aussi tre une source derreur de rponse. Chaque intervieweur doit poser la
question de la mme manire chaque interview. Sil y a plusieurs interviews et si un intervieweur
modifie la formulation dune question, la signification de la question peut alors changer. Les
intervieweurs peuvent aussi faire erreur lorsquils enregistrent la rponse, par ngligence ou dlibrment
(convaincus que le rpondant aurait d rpondre diffremment), ou en interprtant mal la rponse. Dans
les enqutes avec mesure directe, lintervieweur peut mesurer la caractristique (p. ex., tension artrielle)
et faire erreur. Lintervieweur, compte tenu de sa raction aux rponses, peut aussi influencer le
comportement du rpondant. Si lintervieweur exprime son tonnement, par exemple, lorsque le
rpondant prcise combien il dpense en vtements, celui-ci peut dclarer des montants moindres pour les
autres questions sur les dpenses.

5.4.2

Techniques de rduction des erreurs de rponse

Il est possible didentifier les sources derreur de rponse et dappliquer des techniques pour rduire les
rpercussions de ce genre derreurs.
La longueur des questions peut avoir des rpercussions sur les erreurs de rponse. Les questionnaires
couvrent souvent divers sujets. Si lintervieweur administre le questionnaire, il est difficile pour le
rpondant de prvoir la question suivante. Le recours des questions plus longues, mais quand mme
prcises, simples et claires, est une technique qui aide le rpondant cibler un nouveau sujet. Une version
plus longue dune question donne davantage de temps au rpondant pour formuler une rponse. La
recherche suggre quune question plus longue peut inciter le rpondant sexprimer davantage, ce qui
peut raviver des souvenirs. Le rpondant peut aussi avoir davantage de temps pour rflchir et donner une
rponse plus complte.
Question brve :
Quels problmes de sant avez-vous eus lan dernier?
Longue question :
La question suivante porte sur les problmes de sant lan dernier. Nous posons la question
chacun dans lenqute. Quels problmes de sant avez-vous eus lan dernier?
Afin de rduire les erreurs de rponse des intervieweurs, ils devraient tre bien forms et des procdures
de contrle qualitatif, notamment des techniques de rinterview, devraient tre appliques, pour identifier
les problmes et donner une nouvelle formation aux intervieweurs, au besoin.
Il faut faire tous les efforts possibles pour produire un questionnaire bien conu, selon la description dans
ce chapitre, afin de rduire les erreurs de rponse que peut susciter le questionnaire.

STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

87

Si des problmes de mmoire sont reprs dans un questionnaire, les techniques suivantes peuvent tre
appliques, en tout ou en partie :
i.

La priode de rfrence peut tre abrge sil est dtermin que le rpondant a de la difficult se
remmorer tous les vnements qui se sont drouls pendant cette priode.

Ce problme est possible quand les occurrences sont frquentes. Si la question demande le nombre de
visites du rpondant chez le mdecin lan dernier, par exemple, il peut tre difficile de se souvenir de
chaque occurrence sil a visit souvent le mdecin. Si la priode de rfrence est plus courte, les rponses
peuvent tre plus prcises. Il faut cependant viter une priode de rfrence trop brve parce que le
nombre dvnements dclars serait insuffisant. La longueur optimale de la priode de rfrence peut
tre dtermine pendant lvaluation du questionnaire.
ii.

Un calendrier ou des points de repre comme les congs fris peuvent aussi aider minimiser les
erreurs de mmoire.

iii.

Le rappel born est une technique de diminution des erreurs de tlescopage.

Les rpondants sont interviews au dbut et la fin de la priode de rfrence. Les vnements identifis
la premire interview peuvent tre retranchs sils sont dclars de nouveau pendant la deuxime
interview.
iv.

Linterview connexe est aussi un moyen de diminuer les erreurs de rponse dans les enqutes
ritres.

Au cours de linterview connexe, linformation que le rpondant a donne pendant un cycle prcdent de
lenqute est disponible pour les cycles ultrieurs. Cette mesure peut aider le rpondant situer les
vnements dans la priode de rfrence voulue et lempcher de dclarer des vnements mentionns
auparavant.
v.

Si le rpondant a de la difficult dclarer un vnement avec prcision, il peut tre possible de


consulter des dossiers.

Si la question demande au rpondant de dclarer son revenu lan dernier, par exemple, il pourrait
confirmer sa rponse en consultant sa dclaration de revenus. Le rpondant peut aussi tenir des dossiers
dans dautres situations. Certaines personnes ont des dossiers des dpenses du mnage, notamment, les
factures mensuelles de tlphone ou les reus dachat dessence. La consultation des dossiers pour
diminuer les erreurs de mmoire est probablement davantage applique au questionnaire de lenqute par
autodnombrement.
vi.

Un autre moyen utile pour les questionnaires de lenqute par autodnombrement est le journal.

Lorsquil est important dobtenir de linformation dtaille sur une priode prolonge, le rpondant peut
utiliser un journal pour entrer les vnements mesure. Le journal a tendance servir aux enqutes sur
les dpenses des mnages, la consommation des aliments, lemploi du temps, lcoute de la tlvision et
de la radio.
Dans le cas des questionnaires assists par intervieweur, dautres techniques peuvent aider le participant
rpondre prcisment aux questions. Si vous demandez au rpondant de dclarer les aliments consomms
sur une priode de 24 heures, il peut tre difficile dindiquer les portions. Lintervieweur peut avoir

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

88

recours des moyens visuels qui indiqueraient la taille des diverses portions et le rpondant pourrait
slectionner celle qui convient.
Dautres points du plan denqute, notamment le dlai dexcution de la collecte des donnes, peuvent
aussi amliorer la mmoire, par exemple, lordonnancement dune enqute sur les revenus en avril.

5.5

Prsentation du questionnaire

Au genre de questions et leur formulation sajoutent lordre des questions, les noncs de transition, les
instructions et la mise en forme du questionnaire qui sont aussi des lments importants pour crer un
questionnaire de qualit.

5.5.1

Ordonnancement des questions

Lordre des questions devrait tre conu pour maintenir lintrt du rpondant et linciter remplir le
questionnaire ou rpondre linterview. La squence des questions devrait tre logique pour le
rpondant et faciliter le rappel la mmoire. Les questions devraient couler doucement de lune lautre.
Il faudrait regrouper les questions sur un mme sujet.
i.

Introduction

Lintroduction lenqute, que lit le rpondant ou qui lui est lue, est trs importante parce quelle donne
le ton tout le questionnaire. Lintroduction du questionnaire devrait :
- donner le titre ou le sujet de lenqute,
- identifier le commanditaire de lenqute,
- exprimer lobjectif de lenqute,
- demander la collaboration du rpondant,
- expliquer pourquoi il est important de remplir le questionnaire,
- garantir que le rpondant comprend clairement la valeur de ses renseignements,
- souligner comment seront utilises les donnes de lenqute,
- prciser comment le rpondant peut avoir accs aux rsultats de lenqute,
- indiquer que les rponses seront confidentielles et ajouter toute entente dchange de donnes avec
dautres organismes statistiques, ministres, clients, etc.,
- donner ladresse et la date de retour pour le questionnaire denqute envoy par la poste.
ii.

Questions dentre en matire

Les questions dentre en matire sont importantes pour inciter le rpondant participer lenqute. La
premire question devrait porter directement sur lobjectif de lenqute et cibler tous les rpondants,
autrement, le rpondant remettra en question la pertinence de lenqute. Les premires questions devraient
aussi tre faciles rpondre. Commencer par une question ouverte qui demande une rponse dtaille
peut donner une non-rponse si le questionnaire est considr comme un fardeau trop lourd pour y donner
suite.
iii.

Rpartition des questions caractre dlicat

Il faudrait considrer attentivement o intgrer les questions caractre dlicat. Si elles sont poses trop
tt, le rpondant peut hsiter y rpondre, mais si elles sont poses la fin dun long questionnaire, la
fatigue du rpondant peut avoir des rpercussions sur la qualit des rponses. Il faudrait donc poser des

STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

89

questions caractre dlicat au moment o le rpondant est probablement le plus laise pour y rpondre
et lorsquelles sont les plus significatives dans le contexte des autres questions. Les questions caractre
dlicat sur la sant, par exemple, devraient tre poses la section o sont poses les autres questions
pertinentes la sant.
iv.

Rpartition des questions dmographiques et de classification

Ces renseignements sont souvent utiliss des fins de regroupement pour analyser les donnes et faire des
comparaisons entre des enqutes. Il faudrait expliquer pourquoi ce genre de questions est pose, par
exemple, les quelques questions suivantes aideront comparer linformation sur votre sant celle
dautres personnes ayant des antcdents semblables. Dans le cas des enqutes sur les mnages et
dautres enqutes sociales, linformation dmographique est reporte loccasion la fin du
questionnaire.

5.5.2

noncs de transition

Les noncs de transition des questionnaires servent prsenter des sections de questions connexes.
Ils sont importants dans les questionnaires assists par intervieweur parce quils indiquent au
rpondant quun nouveau sujet sera considr, par exemple :
Partie A - Nous voulons dabord obtenir des renseignements gnraux sur votre exploitation
agricole.
Partie B - Nous voulons maintenant obtenir de linformation sur votre superficie en culture
lan dernier.
Partie C - Les questions suivantes portent sur les dclarations de revenus de votre
exploitation agricole lan dernier.

5.5.3

Instructions

Le questionnaire assist par intervieweur ou celui de lenqute par autodnombrement devrait


comprendre des instructions claires, brves et faciles trouver. Ces instructions peuvent tre inscrites
directement au-dessus des questions cibles, au dbut du questionnaire, dans un guide distinct qui
accompagne les questions, dans un encart, etc.
Les instructions de lexemple suivant sont ajoutes en caractres gras la deuxime question.
Vous avez travaill pour qui?
De quel genre dentreprise, dindustrie ou de service sagissait-il? Donnez une description
complte. Fabrication de botes en carton, par exemple, voirie, vente de chaussures au
dtail, etc.
Si les instructions sont entres ailleurs dans le questionnaire, le rpondant ou lintervieweur doit
savoir o les trouver. La question pourrait, par exemple, prciser au rpondant que les instructions
sont dans un guide de rfrence. Les instructions sont parfois ajoutes au dbut du questionnaire ou
au dbut dune section du questionnaire, par exemple :

STATISTIQUE CANADA

90

MTHODES ET PRATIQUES DENQUTE

Nota : Les questions suivantes ciblent votre travail ou votre entreprise la semaine dernire.
Si vous naviez pas de travail ou dentreprise la semaine dernire, rpondez en tenant compte
de lemploi qui a dur le plus longtemps depuis le 1er janvier. Si vous avez eu plus dun
emploi la semaine dernire, rpondez selon lemploi o vous avez travaill pendant le plus
grand nombre dheures.
Dans lexemple prcdent, les directives sont inscrites avant les questions poses et elles peuvent tre
prsentes dans un style de caractres diffrent de celui des questions.
Les dfinitions devraient tre inscrites au dbut du questionnaire si elles sont pertinentes lensemble des
questions, autrement, elles peuvent tre ajoutes certaines questions en particulier, au besoin.
Lutilisation des caractres gras met laccent sur les points importants, par exemple les priodes de
rfrence ou de dclaration, et le rpondant rflchira probablement alors davantage en tenant compte de
la priode de rfrence de la question. Sil est ncessaire de prciser des points en particulier inclure ou
exclure, il vaut mieux ajouter ces remarques aux questions directement, et non dans les instructions
distinctes, par exemple :
Combien de pices y a-t-il dans ce logement?
- Comptez la cuisine, les chambres coucher, les pices habitables au grenier ou au sous-sol,
etc.
Lan dernier, un membre actif de cette exploitation agricole a-t-il t atteint dune lsion lie aux
activits agricoles qui a demand lattention mdicale dun professionnel de la sant (mdecin,
infirmire, etc.) ou qui a occasionn une perte de temps de travail?
- Comptez seulement les lsions des membres actifs de cette exploitation agricole.
- Ninscrivez pas les problmes de sant chroniques.
Quelle est la superficie totale des grandes cultures cibles pour la rcolte cette anne, mme si
elle a t cultive ou ensemence au cours dune anne prcdente?
- Comptez toutes les grandes cultures, peu importe si la superficie vous appartient, si elle est
loue ou si vous lavez loue bail.
- Comptez toutes les terres qui seront ensemences, mme si ce nest pas dj fait.
- Dclarez les secteurs seulement une fois, mme si plus dune culture sera rcolte cette anne.
Combien de semaines par anne travaillez-vous habituellement ce poste? Veuillez compter les
congs annuels et autres congs pays.
Les instructions Passez devraient tre clairement indiques dans les questionnaires sur support
papier. Des flches en gras bien situes devraient orienter le rpondant ou lintervieweur vers la question
approprie suivante. Les instructions Passez devraient tre clairement lies la case de rponse
pertinente (p. ex., laide de lignes traces directement vers la case ou le cercle de rponse). Enfin, il
faudrait minimiser les instructions Passez des questionnaires denqute par autodnombrement.

5.5.4

Considrations sur la mise en forme

Il y a de nombreuses considrations ne pas oublier lors de lorganisation des mots imprims sur support
papier ou affichs lcran. Il faudrait maintenir luniformit du style et de la police de caractres des
questions, instructions, enttes et noncs de transition. Le recours des polices et styles de caractres
diffrents pour les questions et les instructions permet au rpondant ou lintervieweur didentifier
facilement les questions. Les titres et enttes de section ont habituellement une police de caractres plus

STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

91

larges que celle des questions et des catgories de rponse. Il faudrait numrer conscutivement les
questions dun bout lautre du questionnaire. Des nombres, titres ou lettres peuvent indiquer les
sections. Les codes dentre des donnes imprims dans le questionnaire ou affichs lcran devraient
tre clairement distincts des questions ou de la numrotation des questions.
Il serait bon dinscrire un titre ou une entte chaque section du questionnaire, par exemple :
INFORMATION AUX RPONDANTS
SECTION 1 : Information gnrale
SECTION 2 : Dclaration des revenus
SECTION 3 : Dpenses dimmobilisations
SECTION 4 : Population active
SECTION 5 : Commentaires
Il faut considrer toutes les caractristiques du questionnaire pertinentes sa prsentation. La couverture
avant dun questionnaire denqute par autodnombrement est extrmement importante parce quelle doit
attirer lattention du rpondant. Il faut prendre des dcisions sur le genre de papier et la taille du papier
utilis pour le questionnaire.
La couleur du questionnaire peut avoir plusieurs utilits. Diffrentes versions du questionnaire (p. ex.,
selon la langue) peuvent tre imprimes sur du papier de couleurs varies. Si le questionnaire est imprim
sur papier couleur, les cases de rponse sont blanches ou dun ton plus ple de la mme couleur. Voil qui
aide le rpondant ou lintervieweur dterminer correctement o rpondre chaque question.
Le recours des cases de rponse aux questions ouvertes et des cercles de rponse pour les questions
fermes est une convention qui aide aussi le rpondant ou lintervieweur. Il est plus facile de dterminer
o entrer la rponse laide de cette convention. Le cercle des catgories de rponse aux questions
fermes devrait tre dispos uniformment avant ou aprs la rponse. Des graphiques peuvent servir
amliorer le questionnaire. Les graphiques, sils sont appropris, peuvent aider indiquer les sujets de la
section, mais ils ne devraient pas empcher de remplir le questionnaire.
Dans le cas des applications dinterviews assistes par ordinateur, Statistique Canada a labor des
normes pour prsenter une interface commune tous les intervieweurs et rduire les cots de
dveloppement, de mise lessai et de formation. Ces normes sappliquent certains points, notamment,
-

lutilisation de couleurs ou du noir et blanc,


les polices de caractres,
les cls de fonction,
les cls de navigation,
les crans de question standard,
linterface Windows de Microsoft.

Ces normes sont donnes en dtail dans Screen Display and Functionality Standards for Social Survey
Full BLAISE Applications (2001) Normes relatives aux affichages et aux fonctions compltes des
applications BLAISE pour les enqutes sociales.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

92

5.6

Considrations sur le traitement lors de la conception du questionnaire

Le traitement est la mise en forme convenable des rponses de lenqute obtenues pendant la collecte
des donnes aux fins de la totalisation et de lanalyse des donnes. Il comprend toutes les activits de
traitement des donnes aprs la collecte et avant lestimation. Certaines activits, cest--dire la saisie, la
vrification et le codage des donnes, peuvent tre faites pendant la collecte des donnes laide dune
application assiste par ordinateur pour rationaliser le traitement.
Il faudrait considrer les tches de traitement pendant la conception et llaboration du questionnaire. Le
programme de codage devrait tre labor en mme temps que la formulation des questions. Il faudrait
imprimer les codes des questions fermes sur le questionnaire sur support papier. Il faudrait aussi
considrer la saisie des donnes lorsque les dcisions sont prises sur la prsentation du questionnaire sur
support papier.
La prsentation du questionnaire a des rpercussions sur la facilit de la saisie des donnes des
questionnaires sur support papier. Linscription uniforme de codes numriques aprs des catgories de
rponse et lalignement des questions en colonnes facilitent la saisie des donnes. Toutes les tapes de
traitement pertinentes au questionnaire (saisie des donnes, codage, etc.) devraient tre mises lessai
pour garantir lefficacit du questionnaire aux fins de ces oprations.
Il faudrait considrer les rpercussions de la formulation des questions sur la saisie des donnes. Chaque
questionnaire devrait comprendre un numro didentification unique pour faciliter la vrification de la
saisie des donnes. Il est parfois ncessaire de revenir au questionnaire original pour dterminer si
linformation a t saisie correctement. Il faudrait saisir les donnes des questionnaires sur support papier
le plus rapidement possible aprs les avoir reus. Cette mesure permet la mise en uvre de systmes
utiliss pour vrifier si linformation entre au fichier correspond celle du questionnaire.
Le Chapitre 10 - Traitement donne davantage de dtails ce sujet.

5.7

Sommaire

La conception et llaboration dun questionnaire ont t considres dans ce chapitre. La premire tape
est la formulation des objectifs de lenqute. Les rpondants et les utilisateurs des donnes sont ensuite
consults et les questionnaires denqutes semblables font lobjet dun examen. Vient ensuite la
formulation de la version prliminaire du questionnaire qui doit tre mise lessai et rvise
soigneusement avant dy apporter la touche finale. La mise lessai peut comprendre le prtest, la mise
lessai cognitif, les groupes de discussion, les comptes rendus des intervieweurs, le codage
comportemental, les mises lessai dchantillons fractionns et un essai pilote.
Il y a deux genres de questions : fermes ou ouvertes. Les questions fermes peuvent tre des questions
dichotomiques, choix multiples, avec classement ou avec chelle dvaluation. Les questions ouvertes
permettent lexpression personnelle, mais elles peuvent tre un fardeau, demander du temps et tre
difficiles analyser. Les questions fermes sont habituellement un fardeau moindre pour le rpondant, et
la collecte et la saisie des donnes cotent moins cher et sont plus faciles. Un choix mdiocre de
catgories de rponse peut cependant occasionner lerreur de rponse.
Il faudrait respecter les lignes directrices suivantes lors de la formulation dun questionnaire denqute :
- tre simple (la simplicit est de rigueur),
- dfinir les acronymes et les abrviations,

STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

93

vrifier si les questions sont pertinentes,


tre prcis (la prcision est de rigueur),
viter les questions deux volets,
viter les questions suggestives,
viter les ngations doubles,
amenuiser les rpercussions des questions caractre dlicat,
vrifier sil est facile de lire les questions.

Le questionnaire devrait tre conu pour minimiser les erreurs de rponse possibles. La prsentation du
questionnaire est aussi importante. Lintroduction et la rpartition squentielle des questions peuvent
susciter ou rprimer la participation des rpondants. Il faudrait utiliser des noncs de transition
prsentant les nouveaux sujets, et les instructions au rpondant ou lintervieweur devraient tre claires,
brves et faciles trouver. Il faudrait valuer la mise en forme gnrale du questionnaire pour en
dterminer les rpercussions sur le rpondant et lintervieweur : police de caractres, entte de section,
couleur du questionnaire, mise en forme des catgories de rponse, etc. Enfin, il faudrait considrer le
traitement du questionnaire : il devrait tre conu pour faciliter la collecte et la saisie des donnes.

Bibliographie
Advertising Research Foundation. 1985. Focus Groups: Issues and Approaches. Advertising Research
Foundation, Inc., New York, New York. 10022.
American Statistical Association. 1993. How to Conduct Pretesting. The Section on Survey Research
Methods. American Statistical Association.
Babyak, C., A. Gower, L. Gendron, J. Mulvihill et R.A. Zaroski. 2000. Testing of Questionnaires for
Statistics Canadas Unified Enterprise Survey. Proceedings of the International Conference on
Establishment Surveys II. American Statistical Association.
Biemer, P.P., R.M. Groves, L.E. Lyberg, N.A. Mathiowetz et S. Sudman, ds. 1991. Measurement Errors
in Surveys. John Wiley and Sons, New York.
Bishop, G.F. 1987. Experiments with the Middle Response Alternative in Survey Questions. Public
Opinion Quarterly, 51: 220-232.
Bureau of the Census. Pretesting Policy and Options: Demographic Surveys at the Census Bureau. U.S.
Department of Commerce, Washington, D.C.
Carlson, L.T., J.L. Preston et D.K. French. 1993. Using Focus Groups to Identify User Needs and Data
Availability. Proceedings of the International Conference on Establishment Surveys. American
Statistical Association. 300-308.
Converse, J.M. et S. Presser. 1986. Survey Questions: Handcrafting the Standardized Questionnaire.
Sage University Paper Series on Quantitative Applications in the Social Sciences. 07-063. Sage
Publications, Thousand Oaks, California.
Couper, M.P. 2001. Web Surveys. Public Opinion Quarterly, 64(4): 464-494.
Desvousges, W.H. et J.H. Frey. 1989. Integrating Focus Groups and Surveys: Examples from
Environmental Risk Studies. Journal of Official Statistics, 5(4): 349-363.

STATISTIQUE CANADA

94

MTHODES ET PRATIQUES DENQUTE

Dillman, D.A. 1978. Mail and Telephone Surveys: The Total Design Method. John Wiley and Sons, New
York.
Dillman, D.A., M.D. Sinclair et J.R. Clark. 1993. Effects of Questionnaire Length, Respondent-friendly
Design, and a Difficult Question on Response Rates for Occupant-addressed Census Mail
Surveys. Public Opinion Quarterly, 57(3): 289-304.
Esposito, J.L., P.C. Campanelli, J.M. Rothgeb et A.E. Polivka. 1991. Determining Which Questions are
Best: Methodologies for Evaluating Survey Questions. Proceedings of the Section on Survey
Research Methods, American Statistical Association. 46-57.
Fowler, F.J., Jr. 1995. Improving Survey Questions: Design and Evaluation. Applied Social Research
Methods Series. 38. Sage Publications, Thousand Oaks, California.
Fowler, F.J., Jr. et T.W. Mangione. 1990. Standardized Survey Interviewing. Applied Social Research
Methods Series. 18, Sage Publications, Thousand Oaks, California.
Gower, A.R. 1994. Conception des questionnaires denqutes-entreprises. Tchniques denqute, 20(2):
129-142.
Gower, A.R. 1997. Prsentation des questions sous forme squentielle, matricielle, de feuillet unique et de
livret pour le questionnaire du recensement au Canada. Comptes-rendus du Symposium 97 de
Statistique Canada: nouvelles directions pour les enqutes et les recensements, Statistique
Canada. 251-256.
Gower, A.R. et G. Haarsma. 1997. A Comparison of Two Methods in a Test of the Canadian Census
Questionnaire: Think-aloud Interviews vs. Focus Groups. Proceedings of the Minimum Standards
in Questionnaire Testing Workshop. Statistics Sweden. 35-37.
Gower, A.R., B. Blanger et M.-J. Williams. 1998. Using Focus Groups with Respondents and
Interviewers to Evaluate the Questionnaire and Interviewing Procedures after the Survey Has
Taken Place. Proceedings of the 1998 Joint Statistical Meetings, Section on Survey Research
Methods. American Statistical Association. 404-409.
Gower, A.R., K. McClure, A. Paletta et M.-J. Williams. 1999. When to Use Focus Groups versus
Cognitive Interviews in the Development and Testing of Questionnaires: The Statistics Canada
Experience. Proceedings: Quality Issues in Question Testing (QUEST 99). Office for National
Statistics, England. 51-66.
Jabine, T., E. Loftus, M. Straf, J. Tanur, et R. Tourangeau, ds. Cognitive Aspects of Survey
Methodology: Building a Bridge Between Disciplines. National Academy of Science,
Washington, DC.
Kalton, G. and H. Schuman. 1982. The Effect of the Question on Survey Responses: A Review. Journal
of the Royal Statistical Society, 145(1): 42-73.
Krueger, R.A. 1997. Analyzing and Reporting Focus Group Results. Focus Group Kit. 6. Sage
Publications, Thousand Oaks, California.
Krueger, R.A. 1997. Developing Questions for Focus Groups. Focus Group Kit. 3. Sage Publications,
Thousand Oaks, California.

STATISTIQUE CANADA

CONCEPTION DU QUESTIONNAIRE

95

Morgan, D.L. 1997. Planning Focus Groups. Focus Group Kit. 2. Sage Publications, Thousand Oaks,
California.
Morgan, D.L. 1997. The Focus Group Guidebook. Focus Group Kit. 1. Sage Publications, Thousand
Oaks, California.
Oppenheim, A.N. 1992. Questionnaire Design, Interviewing and Attitude Measurement. Pinter
Publishers, London.
Payne, S.L. 1951. The Art of Asking Questions, Princeton University Press, Princeton, New Jersey
Platek, R., F.K. Pierre-Pierre et P. Stevens. 1985. laboration et conception des questionnaires
denqute. Statistique Canada. 12-519F.
Presser, S. et J. Blair. 1994. Survey Pretesting: Do Different Methods Produce Different Results?
Sociological Methodology, 24: 73-104.
Statistique Canada. 1994. Politique concernant lexamen et la mise lessai des questionnaires. Manuel
des politiques. 2.8.
Statistique Canada. 1996a. Politique dinformation des rpondants aux enqutes, Manuel des politiques.
1.1.
Statistics Canada. 2001. Screen Display and Functionality Standards for Social Survey Full BLAISE
Applications.
Statistics Canada. 2001. Standard Question Blocks for Social Survey Full BLAISE Applications.
Tourangeau, R., L.J. Rips et K. Rasinski, 2000, The Psychology of Survey Response, Cambridge
University Press, Cambridge, U.K.

STATISTIQUE CANADA

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

97

Chapitre 6 - Plans dchantillonnage


6.0 Introduction
Le Chapitre 3 - Introduction au plan denqute prcise quau cours de la phase de planification,
lorganisme statistique doit dterminer sil fait un recensement ou une enqute-chantillon. Si la dcision
est une enqute-chantillon, lorganisme doit donc prvoir comment slectionner lchantillon.
Lchantillonnage est un moyen de slectionner un sous-ensemble dunits dans une population aux
fins de la collecte de linformation sur ces units pour formuler des infrences sur lensemble de la
population.
Il a deux genres dchantillonnage : lchantillonnage probabiliste et non probabiliste. Il faut savoir si des
infrences fiables seront faites au sujet de la population pour choisir lun ou lautre. Dans
lchantillonnage non probabiliste considr la Section 6.1, une mthode subjective de slection des
units est applique une population. Cest un moyen rapide, facile et bon march de slectionner un
chantillon. Cependant, sil veut formuler des infrences au sujet de la population partir de
lchantillon, lanalyste des donnes doit supposer que lchantillon est reprsentatif de la population.
Cette supposition est souvent risque si lchantillon est non probabiliste.
Lchantillonnage probabiliste, considr la Section 6.2, comprend la slection dunits dans une
population selon le principe du choix alatoire ou au hasard. Lchantillonnage probabiliste est plus
complexe, demande davantage de temps et cote habituellement plus cher que lchantillonnage non
probabiliste. tant donn que les units de la population sont slectionnes au hasard, et que la probabilit
dinclusion de chaque unit peut tre calcule, il est cependant possible de faire des estimations fiables,
ainsi que des estimations de lerreur dchantillonnage, et de formuler des infrences au sujet de la
population.
Un chantillon probabiliste peut tre slectionn de plusieurs faons diffrentes. Il faut considrer un
certain nombre de facteurs pour choisir le plan, notamment, la base de sondage disponible, les
caractristiques des diffrences entre les units de la population (c.--d. leur variabilit) et les frais quil
faudrait engager pour faire enqute sur les membres de la population. Il est possible dtablir un quilibre
entre lerreur dchantillonnage, les cots et la rapidit dexcution en choisissant le plan et la taille de
lchantillon pour une population donne.
Lobjectif de ce chapitre est de prsenter diffrents facteurs considrer pour dterminer quel plan
dchantillonnage probabiliste est appropri une enqute en particulier. Le Chapitre 8 - Calcul de la
taille de lchantillon et rpartition donne des dtails sur les facteurs qui ont des rpercussions sur la
taille de lchantillon.

6.1 chantillonnage non probabiliste


Lchantillonnage non probabiliste est un moyen de slectionner des units dune population laide
dune mthode subjective (c.--d. non alatoire). Il nest pas ncessaire davoir une base de sondage
complte pour lchantillonnage non probabiliste qui est donc un moyen rapide, facile et bon march
dobtenir des donnes. Lchantillonnage non probabiliste pose un problme : il nest pas vident quil est
possible de gnraliser et dappliquer les rsultats de lchantillon toute la population. La raison de cette
constatation est que la slection dunits dans une population pour un chantillon non probabiliste peut
donner des biais dimportance.

STATISTIQUE CANADA

98

MTHODES ET PRATIQUES DENQUTE

Par exemple, il est courant que lintervieweur dcide subjectivement qui doit tre chantillonn. tant
donn que lintervieweur slectionnera probablement les membres de la population les plus amicaux ou
faciles daccs, une partie importante de la population naura aucune chance dtre slectionne et celle-ci
sera peut-tre systmatiquement diffrente des membres slectionns. Non seulement la situation peut
biaiser les rsultats de lenqute, mais elle peut aussi diminuer erronment la variabilit apparente de la
population cause dune tendance slectionner des units typiques et dliminer les valeurs
extrmes. Lchantillonnage probabiliste vite justement ce genre de biais cause de la slection alatoire
des units (voir la Section 6.2).
tant donn le biais de slection et (habituellement) labsence de base de sondage, la probabilit
dinclusion dune personne ne peut tre calcule pour les chantillons non probabilistes et il est donc
impossible de faire des estimations fiables ou des estimations de leur erreur dchantillonnage. Il faut
supposer que lchantillon est reprsentatif de la population pour faire des infrences sur celle-ci. Il faut
habituellement supposer que les caractristiques de la population correspondent un certain modle ou
quelles sont galement ou alatoirement rparties dans la population. Cest souvent dangereux cause de
la difficult dvaluer si oui ou non ces suppositions sont fondes.
Les tudes de march utilisent souvent lchantillonnage non probabiliste comme mesure de rechange
rapide prix raisonnable, comparativement lchantillonnage probabiliste, mais ce nest pas un substitut
valable de lchantillonnage probabiliste pour les raisons mentionnes ci-dessus. Dans ce cas, pourquoi
choisir un chantillonnage non probabiliste? Celui-ci peut tre appliqu des tudes qui servent :
- doutil pour donner des ides,
- dtape prliminaire llaboration dune enqute par chantillonnage probabiliste,
- dtape de suivi pour aider comprendre les rsultats dune enqute par chantillonnage probabiliste.
Lchantillonnage non probabiliste peut donner, par exemple, de linformation importante au cours des
premires tapes dune enqute. Il peut servir des tudes diagnostiques ou de recherche pour acqurir un
aperu des attitudes, certitudes, motivations et comportements des gens. Lchantillonnage non
probabiliste est parfois la seule option viable; par exemple, lchantillonnage des bnvoles peut tre le
seul moyen dobtenir des donnes pour des expriences mdicales.
Lchantillonnage non probabiliste est souvent utilis pour slectionner des personnes pour des groupes
de discussion ou des interviews approfondies. Statistique Canada utilise lchantillonnage non
probabiliste, par exemple, pour faire lessai des questions du Recensement de la population, afin de
vrifier si les questions poses et les concepts utiliss sont clairs pour les rpondants. Si la matire dune
question est considre controverse, des sous-populations peuvent aussi tre slectionnes et mises
lessai. Si ces questions peuvent tre formules de sorte quelles soient acceptables pour ces personnes,
par lintermdiaire de groupes de discussion, elles peuvent tre acceptables pour tous les membres de la
population. (Les groupes de discussion sont tudis au Chapitre 5 - Conception du questionnaire.)
Les tudes prliminaires sont un autre exemple qui motive lutilisation de lchantillonnage non
probabiliste. Si une nouvelle enqute est planifie pour couvrir un domaine trs peu connu, des plans
dchantillonnage non probabilistes sont souvent utiliss dans les enqutes pilotes. Considrons, par
exemple, lindustrie relativement nouvelle de la conception des pages Web. Supposons quil ny a pas de
renseignements sur le nombre de personnes qui travaillent dans lindustrie, leurs revenus ou dautres
dtails de la profession. Une enqute pilote serait planifie et des questionnaires seraient envoys
quelques personnes qui conoivent des pages Web. Lexamen des questionnaires retourns peut donner
une ide sur leurs revenus et rvler que de nombreux concepteurs de pages Web travaillent domicile,
quils ont uniquement un numro de tlphone personnel et quils annoncent exclusivement sur Internet.

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

99

Voici les avantages de lchantillonnage non probabiliste :


i.

Il est rapide et pratique.

Rgle gnrale, les chantillons non probabilistes sont obtenus en peu de temps et lenqute est rapide : il
est trs facile de simplement sortir et poser des questions la premire centaine de personnes rencontres
dans la rue.
ii.

Il est relativement bon march.

Il faut habituellement quelques heures seulement du temps dun intervieweur pour faire ce genre
denqute. De plus, les chantillons non probabilistes ne sont gnralement pas disperss
gographiquement et les frais de dplacement des intervieweurs sont donc minimes.
iii.

Une base de sondage nest pas ncessaire.

iv.

Il peut tre utile pour les tudes de recherche et dlaboration denqute.

Voici les inconvnients de lchantillonnage non probabiliste :


i.

Il faut avoir des hypothses solides sur la reprsentativit de lchantillon pour formuler des
infrences sur la population. tant donn que tous les chantillons non probabilistes comportent
un biais de slection, il est souvent dangereux de formuler ces hypothses. Il vaudrait mieux
procder un chantillonnage probabiliste si des infrences sont ncessaires.

ii.

Il est impossible de dterminer la probabilit quune unit de la population soit slectionne pour
lchantillon, et des estimations fiables et des estimations de lerreur dchantillonnage ne
peuvent donc tre faites.

Les sections suivantes dcrivent cinq diffrents types de mthodes dchantillonnage non probabilistes :
lchantillonnage laveuglette, lchantillonnage participation volontaire, lchantillonnage au jug,
lchantillonnage par quotas et lchantillonnage probabiliste modifi. Lchantillonnage de rseaux ou
boule de neige moins souvent utilis est prsent la Section 6.3.

6.1.1

chantillonnage laveuglette

Les units sont slectionnes de faon arbitraire, sans ide prconue, et la planification est minime, sinon
nulle. Celui qui fait lchantillonnage laveuglette prsume que la population est homogne : si les
units de la population sont toutes semblables, nimporte quelle unit peut tre choisie pour lchantillon.
Linterview de lhomme de la rue est un exemple dchantillonnage laveuglette parce que
lintervieweur choisit nimporte quel passant. Sauf si la population est vraiment homogne, les biais de
lintervieweur et du passant au moment de lchantillonnage peuvent malheureusement avoir des
rpercussions sur la slection.

6.1.2

chantillonnage participation volontaire

Cette mthode fait appel des rpondants volontaires. Les volontaires doivent gnralement faire lobjet
dun examen pour obtenir un ensemble de caractristiques qui convient aux objectifs de lenqute (p. ex.,

STATISTIQUE CANADA

100

MTHODES ET PRATIQUES DENQUTE

les personnes atteintes dune maladie en particulier). Cette mthode peut tre marque dun important
biais de slection, mais elle est parfois ncessaire. Pour des raisons de dontologie, on peut faire appel,
par exemple, des volontaires ayant des conditions mdicales particulires pour procder certaines
expriences mdicales.
Voici un autre exemple dchantillonnage participation volontaire : au cours dune mission radio ou
tldiffuse, une question fait lobjet dune discussion et les citoyens lcoute sont invits tlphoner
pour exprimer leurs opinions. Seuls ceux que le sujet intresse vraiment dune faon ou dune autre ont
tendance rpondre. La majorit silencieuse ne rpond habituellement pas et nous avons donc un biais de
slection marqu. Lchantillonnage participation volontaire sert souvent slectionner des particuliers
pour des groupes de discussion ou des interviews approfondies (c.--d. une mise lessai qualitative qui
exclut la gnralisation applique la population complte).

6.1.3

chantillonnage au jug

laide de cette mthode, lchantillonnage est fait en tenant compte des ides pralables sur la
composition et le comportement de la population. Un expert qui connat la population dcide quelles
units devraient tre choisies. Autrement dit, lexpert slectionne dessein ce qui est considr comme un
chantillon reprsentatif. Les biais du chercheur peuvent marquer lchantillonnage au jug qui peut tre
encore plus biais quun chantillonnage laveuglette. tant donn que les ides prconues du
chercheur sont refltes dans lchantillon, des biais importants peuvent tre intgrs si ces ides
prconues sont inexactes. Il peut cependant tre utile aux tudes de recherche, par exemple, lors de la
slection de personnes pour des groupes de discussion ou des interviews approfondies, afin de vrifier des
aspects particuliers dun questionnaire.

6.1.4

chantillonnage par quotas

Voil lun des chantillonnages non probabilistes les plus communs. Lchantillonnage est fait jusqu ce
quun nombre dtermin dunits (quotas) soient slectionnes dans diverses sous-populations.
Lchantillonnage par quotas est un moyen datteindre les objectifs de taille dchantillon pour les souspopulations.
Les quotas peuvent tre tablis selon des proportions de population. Sil y a 100 hommes et 100 femmes
dans la population, par exemple, et sil faut tirer un chantillon de 20 personnes, 10 hommes et
10 femmes peuvent tre interviews. Lchantillonnage par quotas peut tre considr prfrable
dautres formes dchantillonnage non probabiliste (p. ex., chantillonnage au jug) parce quil faut
inclure des membres de sous-populations diffrentes.
Lchantillonnage par quotas ressemble lchantillonnage stratifi parce que des units semblables sont
regroupes (des dtails sur lchantillonnage stratifi sont donns la Section 6.2.6). La mthode de
slection des units est cependant diffrente. Les units sont slectionnes alatoirement dans
lchantillonnage probabiliste, mais dans lchantillonnage par quotas, une mthode non alatoire est
applique, cest--dire que lintervieweur dcide habituellement qui est ajout lchantillon. Les units
sollicites qui ne sont pas disposes participer sont simplement remplaces par dautres qui le sont, et
lon ignore en fait le biais de non-rponse.
Les tudes de march utilisent souvent lchantillonnage par quotas (en particulier pour les enqutes au
tlphone) au lieu de lchantillonnage stratifi pour faire enqute auprs de citoyens ayant des profils

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

101

socioconomiques particuliers parce quil est relativement meilleur march que lchantillonnage stratifi,
il est facile administrer et il a la caractristique souhaitable de respecter les proportions de la population.
Il masque cependant un biais de slection ventuellement important.
Dans ce cas comme dans tous les autres plans dchantillonnage non probabiliste il faut prsumer que les
personnes slectionnes sont semblables aux autres pour formuler des infrences sur la population. Ces
fortes prsomptions sont rarement valables.

6.1.5

chantillonnage probabiliste modifi

Lchantillonnage probabiliste modifi est une combinaison dchantillonnage probabiliste et non


probabiliste. Les premires tapes sont habituellement axes sur lchantillonnage probabiliste (voir la
section suivante). La dernire tape est un chantillon non probabiliste, habituellement un chantillon par
quotas. Des secteurs gographiques peuvent tre slectionns, par exemple, laide dun plan
dchantillonnage probabiliste et ensuite, dans chaque rgion, un chantillon de personnes peut tre choisi
par quotas.

6.2

chantillonnage probabiliste

Lchantillonnage probabiliste est une mthode qui permet de formuler des infrences sur la population,
compte tenu des observations tires de lchantillon. Celui-ci devrait tre libre de tout biais de slection
pour formuler les infrences. Lchantillonnage probabiliste vite ce biais par la slection alatoire
dunits de la population ( laide dun ordinateur ou dun tableau de nombres alatoires). Il ne faut pas
oublier que le terme alatoire ne signifie pas arbitraire. En particulier, les intervieweurs ne choisissent pas
arbitrairement les rpondants parce que leur biais personnel aurait des rpercussions sur
lchantillonnage. Le terme alatoire signifie que la slection nest pas biaise, cest un tirage au sort.
Lchantillonnage probabiliste ne permet pas lintervieweur de dcider subjectivement qui doit tre
choisi.
Voici les deux principaux critres de lchantillonnage probabiliste : la slection des units est alatoire,
toutes les units de la population de lenqute ont une probabilit dinclusion diffrente de zro dans
lchantillon et il est possible de calculer ces probabilits. Il nest pas ncessaire que toutes les units
aient la mme probabilit dinclusion et, en fait, dans les enqutes les plus complexes, la probabilit
dinclusion varie dune unit lautre.
Il y a de nombreux types diffrents de plans dchantillonnage probabiliste. Le plus lmentaire est
lchantillonnage alatoire simple et la complexit des plans saccentue ensuite pour englober
lchantillonnage systmatique, lchantillonnage avec probabilit proportionnelle la taille,
lchantillonnage par grappes, lchantillonnage stratifi, lchantillonnage plusieurs degrs,
lchantillonnage plusieurs phases et lchantillonnage par rpliques. Chacune de ces techniques
dchantillonnage est utile dans diffrentes situations. Si lobjectif de lenqute est simplement dobtenir
des estimations de la population en gnral, et si la stratification serait inapproprie ou impossible,
lchantillonnage alatoire simple pourrait alors tre le meilleur choix. Si le cot de la collecte des
donnes de lenqute est lev et si les ressources sont disponibles, lchantillonnage par grappes est
souvent le choix. Si des estimations de sous-populations sont aussi demandes (p. ex., des estimations par
province, groupe dge ou taille dentreprise), lchantillonnage stratifi est habituellement appliqu.

STATISTIQUE CANADA

102

MTHODES ET PRATIQUES DENQUTE

La majorit des plans plus complexes ont recours linformation auxiliaire de la base de sondage pour
amliorer lchantillonnage. Si la base a t cre partir dun recensement prcdent ou de donnes
administratives, il peut y avoir une mine de renseignements supplmentaires qui peuvent servir
lchantillonnage. Dans le cas dune enqute sur les exploitations agricoles (fermes), par exemple,
lorganisme statistique peut avoir la taille de chaque exploitation en hectares tire du recensement
agricole le plus rcent. Sil sagit dune enqute sur les citoyens, linformation (p. ex., ge, sexe, origine
ethnique, etc.) peut tre disponible pour chacun dans le plus rcent recensement de la population. Lors
dune enqute sur les entreprises, lorganisme statistique peut avoir de linformation administrative,
notamment, sur le genre dindustrie (p. ex., dtaillant, grossiste, fabricant), le genre dentreprise (p. ex.,
magasin daliments), le nombre demploys, etc. Linformation auxiliaire amliore lchantillonnage sil
y a corrlation entre les donnes auxiliaires et les variables de lenqute.
Voici le principal avantage de lchantillonnage probabiliste : la slection de chaque unit est alatoire,
la probabilit dinclusion de chaque unit peut tre calcule, il est possible de faire des estimations fiables
et destimer lerreur dchantillonnage de chaque estimation. On peut donc formuler des infrences sur la
population. Un plan dchantillonnage probabiliste permet en fait souvent dutiliser un chantillon
relativement petit pour formuler des infrences sur une grande population.
Voici les principaux inconvnients de lchantillonnage probabiliste : il est plus difficile, il demande plus
de temps et il cote habituellement plus cher que lchantillonnage non probabiliste. Les frais de cration
et dentretien dune base de sondage de bonne qualit sont substantiels en gnral. tant donn que les
chantillons probabilistes ont tendance tre gographiquement rpartis plus largement dans la
population que les chantillons non probabilistes, les tailles dchantillon sont habituellement plus
grandes, la collecte des donnes cote souvent plus chre et sa gestion est plus difficile. Pour un
organisme statistique, la capacit de formuler des infrences partir dun chantillon probabiliste
surpasse habituellement ses inconvnients.
On a vu au Chapitre 3 - Introduction au plan denqute les qualits dun bon plan. Lutilisation des
donnes administratives est couverte lAnnexe A - Donnes administratives.

6.2.1

Efficience statistique

Lchantillonnage alatoire simple (EAS) est une rfrence pour lvaluation de lefficience dautres
stratgies dchantillonnage. Voici certaines dfinitions pour comprendre le concept de lchantillonnage
efficient.
Un paramtre est une caractristique de la population que le client ou lutilisateur des donnes est
intress estimer, par exemple, la moyenne, la proportion ou le total de la population. Un estimateur est
une formule de calcul dune estimation du paramtre dans lchantillon et une estimation est la valeur
de lestimateur calcul laide des donnes de lchantillon obtenu. La stratgie dchantillonnage est
la combinaison du plan dchantillonnage et de lestimateur utilis.
Le paramtre dintrt peut tre, par exemple, la moyenne de la population, Y , calcule comme suit :
Y =
iU

yi
N

o yi est la valeur de la variable y de la ie unit, U est lensemble des units de la population et il y a


N units dans la population.
STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

103

Dans le cas dun EAS dont le taux de rponse est de 100 %, lestimateur habituel, mais il nest pas le seul,
pour la moyenne de la population est le suivant :
y
Y = i
iS n
r

o Sr est lensemble des rpondants de lchantillon qui comprend n units. La valeur que prend

yi

n
iS r

pour un chantillon en particulier est une estimation.


Les estimations calcules partir dchantillons diffrents sont diffrentes lune de lautre. La
distribution dchantillonnage dun estimateur est la rpartition de toutes les valeurs diffrentes que
lestimateur peut avoir pour tous les chantillons possibles du mme plan dchantillonnage de la
population. La stratgie dchantillonnage dtermine donc cette rpartition.
Les estimateurs ont certaines caractristiques souhaitables. Lestimateur devrait, par exemple, tre non
biais ou approximativement non biais. Un estimateur nest pas biais si lestimation moyenne, compte
tenu de tous les chantillons possibles, est quivalente la valeur relle du paramtre. La rpartition de
lchantillonnage le plus prs possible de la moyenne (c.--d. que lerreur dchantillonnage est minime)
est une autre caractristique souhaitable dun estimateur. Lerreur dchantillonnage dun estimateur est
mesure par sa variance dchantillonnage dtermine comme fluctuation de sa moyenne calcule en
tenant compte de tous les chantillons possibles tirs du plan dchantillonnage. Un estimateur ayant une
variance dchantillonnage minime est considr prcis. La prcision augmente quand la variance
dchantillonnage diminue. Il faut noter quun estimateur peut tre prcis et biais. Lexactitude tient
compte la fois de la variance et du biais; un estimateur exact jouit dune bonne prcision et est peu
entach de biais.
Une stratgie dchantillonnage est plus efficiente quune autre si la variance dchantillonnage de
lestimateur est plus petite que celle dune autre stratgie dchantillonnage. Afin de ne pas semer la
confusion au sujet de ce genre defficience avec dautres, par exemple le cot unitaire, cette notion sera
donc intitule efficience statistique. Lefficience statistique est une considration importante si vous
comparez divers plans dchantillonnage possibles parce que les conomies peuvent tre considrables si
un plan peut donner une prcision quivalente ou meilleure et si la taille de lchantillon est plus petite.
Les plans dchantillonnage suivants donnent une comparaison de leur efficience comparativement
lEAS. Celle-ci est formellement mesure en calculant leffet de plan es rpercussions du plan dont les
dtails sont expliqus la section 7.3.3 du Chapitre 7 - Estimation.
On trouvera au Chapitre 7 - Estimation davantage de dtails sur lestimation, les facteurs qui ont des
rpercussions sur la prcision et lestimation de la prcision.

6.2.2

chantillonnage alatoire simple (EAS)

Lchantillonnage alatoire simple (EAS) est le point de dpart de tout plan dchantillonnage
probabiliste. LEAS est une mthode de slection en une tape qui garantit que chaque chantillon
possible de taille n a une chance gale dtre slectionn. Chaque unit de lchantillon a donc la mme
probabilit dinclusion. Cette probabilit, , est gale n/N, o N est le nombre dunits dans la
population.
Lchantillonnage peut tre fait avec ou sans remise. Lchantillonnage avec remise permet une unit
dtre slectionne plus dune fois. Lchantillonnage sans remise signifie que lorsquune unit a t

STATISTIQUE CANADA

104

MTHODES ET PRATIQUES DENQUTE

slectionne, elle ne peut ltre de nouveau. Lchantillonnage alatoire simple avec remise (EASAR) et
lchantillonnage alatoire simple sans remise (EASSR) sont pratiquement identiques si la taille de
lchantillon est une trs petite fraction de la taille de la population parce que la possibilit que la mme
unit apparaisse plus dune fois dans lchantillon est minime. Lchantillonnage sans remise donne
gnralement des rsultats plus prcis et est plus pratique du point de vue oprationnel. Aux fins de ce
chapitre, lchantillonnage est suppos tre sans remise, sauf avis contraire.
Considrons une population de cinq personnes et supposons quun chantillon de trois est slectionn
(EASSR). tiquetons les personnes de la population 1, 2, 3, 4 et 5 et prcisons que la population est la
srie {1, 2, 3, 4, 5}. Il y a dix chantillons possibles de trois personnes : {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1,
3, 4}, {1, 3, 5}, {1, 4, 5}, {2, 3, 4}, {2, 3, 5}, {2, 4, 5} et {3, 4, 5}. Chacun de ces chantillons a une
chance gale dtre slectionn et chaque personne est slectionne dans six des dix chantillons
possibles, chaque personne a donc une probabilit dinclusion de = 6 10 = n N = 3 5 .

Lorganisme statistique qui veut slectionner un chantillon alatoire simple a habituellement tabli une
base de sondage complte (une liste ou une base arolaire) avant lchantillonnage. Dans une liste, les
units sont gnralement numrotes de 1 N, mais la mthode daffectation dun chiffre unique chaque
unit nest pas importante. Ensuite, n units de la liste sont choisies au hasard laide dun tableau de
nombres alatoires ou de nombres alatoires produits par ordinateur et les units correspondantes forment
lchantillon.
Considrons une enqute auprs des lves dune cole pour illustrer la technique de lEASSR.
Supposons quune liste convenable dlves est disponible ou peut tre dresse partir de sources
existantes. Cette liste sert de base dchantillonnage ou de sondage. Supposons maintenant que la liste de
la population contient N=1530 lves dont un chantillon de la taille n=90 est ncessaire. La prochaine
tape est de dcider comment slectionner 90 lves.
La slection de lchantillon peut tre faite laide dun tableau de nombres alatoires (voir le tableau 1).
La premire tape comprend la slection dun nombre quatre chiffres (parce que cest le nombre de
chiffres de 1530). Commenons lchantillonnage en slectionnant un nombre nimporte o dans le
tableau et en procdant dans nimporte quelle direction. Les premiers 90 nombres quatre chiffres qui ne
sont pas suprieurs 1530 sont slectionns.
Supposons que la ligne 01 et la colonne 85 - 89 sont slectionnes au dpart. En procdant vers le bas de
cette colonne, les nombres alatoires slectionns sont 189, 256, 984, 744, 1441, 617, etc. La slection
continue jusqu ce quon obtienne 90 nombres diffrents. Le rsultat est un chantillon dlves et de
nombres correspondants dans la liste de la population. (tant donn que la mthode considre est
lEASSR, les nombres qui apparaissent plus dune fois ne sont pas retenus). Un tableau de nombres
alatoires a t utilis ci-dessus pour illustrer la slection manuelle dun chantillon alatoire simple, mais
en pratique, un programme informatique slectionnerait les units au hasard.

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

105

Tableau 1 : Extrait dun tableau de nombres alatoires


00
01
02
03
04

50-54
59311
98567
10363
86852
11258

55-59
58030
76364
97518
19558
24591

60-64
52098
77204
51400
64432
36863

65-69
87024
27062
98342
99612
31721

70-74
14194
53402
24830
53537
81305

75-79
82848
96621
61891
59798
94335

80-84
04190
43918
27101
32803
34936

85-89
96574
01896
37855
67708
02566

90-94
90464
83991
06235
15297
80972

95-99
29065
51141
33516
28612
08188

05
06
07
08
09

95068
54463
16874
92484
15669

84628
47437
62677
63157
56689

35911
73804
57412
76593
35682

33020
36239
31389
03205
53256

70659
18739
56869
84869
62300

80428
72824
62233
72389
81872

39936
83671
80827
96363
35213

31855
39892
73917
52887
09840

34334
60518
82402
01087
34471

64865
37092
84420
66591
74441

10
11
12
13
14

99116
15696
97720
11666
71628

75486
10703
15369
13841
73130

84989
65178
51269
71681
78783

23476
90637
69620
98000
75691

52967
63110
03388
35979
41632

67104
17622
13699
39719
09847

39495
53988
33423
81899
61547

39100
71087
67453
07449
18707

17217
84148
43269
47985
85489

74073
11670
56720
46967
69944

15
16
17
18
19

40501
22518
75112
08327
60251

51089
55576
30485
02671
45548

99943
98215
62173
98191
02146

91843
82068
02132
84342
05597

41995
10798
14878
90813
48228

88931
82611
92879
49268
81366

73631
36584
22281
95441
34598

69361
67466
16783
15496
72856

05375
69377
86352
20168
66762

15417
40054
00077
09271
17002

20
21
22
23
24

57430
73528
25991
78388
12477

82270
39559
65959
16638
09965

10421
34434
70769
09134
96657

00540
88596
64721
59980
57994

43648
54086
86413
63806
59439

75888
71693
33475
48472
76330

66049
43132
42740
39318
24596

21511
14414
06175
35434
77515

47676
79949
82758
24057
09577

33444
85193
66248
74739
91871

45
46
47
48
49

12900
75086
99445
26075
13636

71775
23537
51434
31671
93596

29845
49639
29181
45386
23377

60774
33595
09993
36583
51133

94924
31484
38190
93459
95126

21810
97588
42553
48599
61496

38636
28617
68922
52022
42474

33717
17979
52125
41330
45141

67598
78749
91077
60650
46660

82521
35234
40197
91321
42338

STATISTIQUE CANADA

106

MTHODES ET PRATIQUES DENQUTE

LEAS a un certain nombre davantages comparativement dautres techniques dchantillonnage


probabiliste, notamment :
i.

Cest la technique dchantillonnage la plus simple.

ii.

Il nest pas ncessaire davoir de linformation supplmentaire (auxiliaire) dans la base de


sondage pour tirer lchantillon.

Les seuls renseignements ncessaires sont une liste complte de la population de lenqute et de
linformation permettant dentrer en communication avec les personnes choisies.
iii.

Llaboration technique nest pas ncessaire.

La thorie sous-jacente lEAS est bien tablie et il y a des formules standard pour dterminer la taille de
lchantillon, les estimations de la population et de la variance, et ces formules sont faciles appliquer.
Voici les inconvnients de lEAS :
i.

Linformation auxiliaire nest pas utilise mme si cette information existe dans la base de
sondage. Les rsultats peuvent donc donner des estimations statistiquement moins efficientes que
celles dun autre plan dchantillonnage.

ii.

Il peut coter cher sil y a des interviews sur place parce que lchantillon peut tre largement
tal gographiquement.

iii.

Lchantillon de lEAS peut tre mauvais . Tous les chantillons de taille n ont une chance
gale dtre ajouts lchantillon et il est donc possible dobtenir un chantillon qui nest pas
bien rparti et qui reprsente peu la population.

chantillon alatoire simple (illustr, n=12)

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

6.2.3

107

chantillonnage systmatique (SYS)

Les units dun chantillonnage systmatique (SYS) sont slectionnes intervalles rguliers dans la
population. Lchantillonnage systmatique sert parfois si lorganisme statistique veut utiliser un EAS,
mais sil ny a pas de liste disponible, ou si lordre de la liste est approximativement alatoire, auquel cas,
le SYS est encore plus simple faire que lEAS. Un intervalle dchantillonnage et une origine choisie au
hasard sont ncessaires. Si une liste est utilise et si la taille de la population, N, est un multiple de la taille
de lchantillon, n, chaque ke unit est slectionne lorsque lintervalle k est gal N/n. Un seul nombre,
lorigine r, est choisi au hasard entre 1 et k inclusivement. Les units slectionnes sont donc : r, r+k,
r+2k, ..., r+(n-1)k. Chaque unit, comme dans lEAS, a une probabilit dinclusion, , gale n/N, mais,
contrairement lEAS, chaque combinaison de n units na pas une chance gale dtre slectionne :
dans un SYS, nous pouvons uniquement slectionner les chantillons dont les units sont spares par k.
Seulement k chantillons possibles peuvent donc tre tirs de la population laide de cette mthode.
Supposons, pour illustrer le SYS, quune population contienne N=54 units et quun chantillon de taille
n=9 units soit sectionn. Lintervalle dchantillonnage serait k = N/n = 54/9 = 6. Un nombre alatoire
entre 1 et k = 6, disons 2, est ensuite choisi. Les units de la population slectionnes pour lchantillon
sont ensuite numrotes : 2, 8, 14, 20, 26, 32, 38, 44 et 50. En prsence dun intervalle dchantillonnage
de 6 et dune population dont la taille est de 54 units, il y a seulement six chantillons SYS possibles,
mais il y a plus de 25 millions dchantillons alatoires simple de taille 6 possibles.
Un avantage de lchantillonnage systmatique est quil peut tre utilis lorsquil ny a pas de liste
disponible des units de la population. Une base de sondage peut tre tablie dans ce cas en choisissant
chaque ke personne jusqu la fin de la population.
Le SYS pose un problme : la taille de lchantillon, n, est connue seulement aprs la slection de
lchantillon. Il peut y avoir un autre problme si lintervalle dchantillonnage, k, correspond une
certaine priodicit dans la population. Supposons, par exemple, quune enqute sur la circulation est faite
dans un secteur et quune journe seulement de la semaine peut tre chantillonn, autrement dit, k est
chaque 7e jour. Les dbits de la circulation dans lenqute seront extrmement diffrents si les jours
chantillons sont toujours le dimanche au lieu dtre toujours le mardi. Bien entendu, si la priode
dchantillonnage est le 5e jour, chaque jour de la semaine peut alors tre vis par lenqute.
Malheureusement, dans la plupart des cas, la priodicit nest pas connue davance.
Si N ne peut tre galement divise par n, lintervalle de lchantillonnage SYS nest pas un nombre
entier. Dans cette occurrence, k peut tre considr gal au nombre entier le plus prs, mais la taille de
lchantillon variera dun chantillon lautre. Supposons, par exemple, que N=55 et n=9, alors
k=55/9=6,1. Supposons que k est 6 et r=2, lchantillon contient donc les units numrotes : 2, 8, 14, 20,
26, 32, 38, 44 et 50. Si lorigine choisie au hasard est r=1 et si chaque sixime unit est slectionne,
lchantillon comprend donc les units : 1, 7, 13, 19, 25, 31, 37, 43, 49 et 55. Dans ce cas, lchantillon
est de taille 10, et non 9. Une autre approche est darrondir chaque valeur r, r+k, r+2k, , r+(n-1)k au
nombre entier le plus prs. Dans cette approche, la taille de lchantillon obtenu est fixe. Supposons de
nouveau, par exemple, que N=55 et n=9, cest--dire que k=55/9=6,1. Si r=1, lchantillon comprend les
units 1, 7, 13, 19, 25, 31, 38, 44 et 50.
Dautre part, si N ne peut tre divis galement par n, on pourra alors faire un chantillonnage
systmatique circulaire pour viter une taille de lchantillon variable. Dans cette mthode, il est
considr que les units de la population existent sur un cercle et on y compte modulo N . La valeur
attribue k est gale au nombre entier le plus prs de N/n, mais lorigine choisie au hasard, r, peut tre
entre 1 et N, au lieu de 1 et k (c.--d. que la premire unit peut tre nimporte o dans la liste). Les units

STATISTIQUE CANADA

108

MTHODES ET PRATIQUES DENQUTE

slectionnes, comme auparavant, sont : r, r+k, r+2k, ..., r+(n-1)k. Si la je unit est telle que r+(j-1)k > N,
lunit choisie est donc r+(j-1)k - N. Cela veut dire qu la fin de la liste, lchantillonnage continue au
dbut de la liste. Lavantage de la mthode circulaire est que chaque unit a une chance gale dtre dans
lchantillon. laide de lexemple suivant, supposons, par exemple, que N=55, n=9 et k=6. Une origine
choisie au hasard, r, est slectionne entre 1 et 55, disons r=42. Les units de la population slectionnes
sont donc : 42, 48, 54, 5, 11, 17, 23, 29 et 35.
Lchantillonnage SYS a un certain nombre davantages, selon les circonstances et lobjectif de
lenqute :
i.

Cest un substitut de lEAS lorsquil ny a pas de base de sondage.

ii.

Contrairement lEAS, linformation auxiliaire de la base de sondage nest pas ncessaire.

iii.

Il peut donner un chantillon mieux rparti que celui de lEAS (compte tenu de lintervalle
dchantillonnage et de la mthode de tri de la liste).

iv.

Cest une thorie aussi bien tablie que celle de lEAS et les estimations sont faciles calculer.

v.

Il est plus simple que lEAS parce quun seul nombre alatoire est ncessaire.

Voici les inconvnients du SYS :


i.

Il peut donner un mauvais chantillon si lintervalle dchantillonnage correspond une


certaine priodicit dans la population.

ii.

Linformation auxiliaire qui peut tre disponible dans la base de sondage nest pas utilise,
comme dans le cas de lEAS, et le rsultat peut tre une stratgie dchantillonnage inefficiente.

iii.

La taille de lchantillon final nest pas connue davance lorsquune base de sondage conceptuelle
est utilise.

iv.

Il na pas destimateur non biais de la variance dchantillonnage. Lchantillon systmatique est


souvent trait comme un chantillon alatoire simple pour faire lestimation de variance. Cest
appropri seulement lorsque la liste est trie au hasard. (Pour davantage dinformation sur
lestimation de la variance pour un chantillon systmatique, on consultera Cochran (1977) ou
Lohr (1999).)

v.

Il peut donner une taille dchantillon variable si la taille de la population, N, ne peut tre divise
galement par la taille de lchantillon voulue, n (mais il est possible dviter cela en utilisant le
SYS circulaire).

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

109

chantillon systmatique (illustr, n=12, N=36, k=3)

LEAS et le SYS circulaire sont deux plans dchantillonnage probabiliste probabilit gale parce que
chaque chantillon possible a exactement la mme chance dtre slectionn. Les techniques
dchantillonnage ne donnent pas toutes des probabilits gales. Les plans dchantillonnage dcrits dans
les sections suivantes peuvent donner des probabilits ingales. On se rappellera que dans un
chantillonnage probabiliste, le critre nest pas que toutes les units aient la mme probabilit
dinclusion, mais plutt quelles aient une probabilit dinclusion connue diffrente de zro.
Lchantillonnage avec probabilits ingales peut souvent amliorer lefficience statistique de la stratgie
dchantillonnage.

6.2.4 chantillonnage avec probabilit proportionnelle la taille (PPT)


Lchantillonnage avec probabilit proportionnelle la taille (PPT) est une technique qui utilise des
donnes auxiliaires et donne des probabilits dinclusion ingales. Si les tailles des units de la population
varient et si ces tailles sont connues, linformation peut servir pendant lchantillonnage pour accentuer
lefficience statistique. Lchantillonnage PPT peut augmenter normment la prcision si les mesures des
tailles sont prcises et si les variables dintrt sont corrles avec la taille de lunit. Quand on dispose de
mesures de tailles moins prcises, il vaut mieux crer des groupements de tailles et procder
lchantillonnage stratifi (Section 6.2.6).
Un bon exemple dune variable de taille de lchantillonnage PPT est la superficie. Lchantillonnage
PPT est souvent utilis dans les enqutes sur les exploitations agricoles et la mesure de la taille est la taille
de lexploitation agricole (ferme) en hectares. La taille dune exploitation agricole peut, bien entendu,
augmenter (ou diminuer) si lexploitant achte ou vend une terre, mais dans la majorit des cas, la taille
de lexploitation agricole est constante danne en anne. De plus, des questions typiques aux enqutes
sur les exploitations agricoles, notamment les revenus, les rcoltes, le btail et les dpenses, sont souvent
corrles avec la proprit foncire. Dautres mesures de taille pour les enqutes sur les entreprises
comprennent le nombre demploys, les ventes annuelles et le nombre demplacements, mais ces
variables risquent davantage de changer danne en anne.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

110

Dans un chantillonnage PPT, la taille de lunit dtermine la probabilit dinclusion. Dans le cas dune
exploitation agricole ayant une superficie de 200 hectares, par exemple, la probabilit dtre slectionne
est donc deux fois celle dune exploitation de 100 hectares.
Aux fins de lillustration, supposons une population de six exploitations agricoles (fermes) et le client est
intress estimer les dpenses totales de cette population laide dun chantillon dune exploitation.
(Un chantillon de taille 1 est utilis pour illustration, mais en pratique, un organisme statistique
slectionne rarement une seule unit.) Supposons quil y a une mesure de taille stable pour chaque
exploitation agricole (la taille de lexploitation en hectares) et, pour illustrer lefficience accrue
comparativement lEAS, supposons aussi que les dpenses de chaque exploitation agricole sont
connues. (Bien entendu, en ralit, si les dpenses taient connues, il ne serait pas ncessaire de procder
lenqute.)
Considrons la liste dexploitations agricoles suivante :
Tableau 2 : Valeurs de la population
Unit dchantillonnage :
Ferme
1
2
3
4
5
6
Total

Information auxiliaire de la base :


Taille de la ferme en hectares
50
1 000
125
300
500
25
2 000

Variable dintrt de lenqute :


Dpenses ($)
26 000
470 000
63 800
145 000
230 000
12 500
947 300

Le total rel des dpenses est 947 300 $ pour cette population de six fermes. Un chantillon alatoire
simple peut tre slectionn, chaque chantillon contenant une unit et chaque unit ayant une probabilit
dinclusion de 1/6. Six chantillons dEAS diffrents de taille n=1 sont possibles. Considrons les
rsultats obtenus de lEAS. Il faut invoquer cette fin certains concepts destimation (expliqus en dtail
au Chapitre 7 - Estimation). Dans le cas dun chantillon de taille un, le total des dpenses pour la
population est estim en multipliant les dpenses de lunit chantillonne par le poids de lunit. Ce
poids est le nombre moyen dunits de la population de lenqute que lunit chantillonne reprsente et
est linverse de la probabilit dinclusion.
Tableau 3 : chantillons possibles de taille n=1 de lEAS
chantillon
(Ferme slectionne)

chantillon 1 (Ferme 1)
chantillon 2 (Ferme 2)
chantillon 3 (Ferme 3)
chantillon 4 (Ferme 4)
chantillon 5 (Ferme 5)
chantillon 6 (Ferme 6)

Probabilit
dinclusion
( )
1/6
1/6
1/6
1/6
1/6
1/6

Poids
(1/ )

Dpenses ($)

6
26 000
6
470 000
6
63 800
6
145 000
6
230 000
6
12 500
Estimation moyenne de
lchantillon

STATISTIQUE CANADA

Estimation du total des


dpenses de la
population ($)
156 000
2 820 000
382 800
870 000
1 380 000
75 000
947 300

PLANS DCHANTILLONNAGE

111

On remarquera la grande variabilit dchantillonnage dans les estimations de lEAS qui passe de
75 000 $ 2,8 millions de dollars. Lchantillonnage PPT peut donner des estimations avec variabilit
dchantillonnage beaucoup plus petite.
Tableau 4 : chantillons PPT possibles de taille n=1
chantillon
(Ferme slectionne)

chantillon 1 (Ferme 1)
chantillon 2 (Ferme 2)
chantillon 3 (Ferme 3)
chantillon 4 (Ferme 4)
chantillon 5 (Ferme 5)
chantillon 6 (Ferme 6)

Taille
de la
ferme
50
1 000
125
300
500
25

Probabilit
dinclusion
( )
50/2 000
1 000/2 000
125/2 000
300/2 000
500/2 000
25/2 000

Poids ( 1 / )

Dpenses
($)

2 000/50
26 000
2 000/1000
470 000
2 000/125
63 800
2 000/300
145 000
2 000/500
230 000
2 000/25
12 500
Estimation moyenne de
lchantillon

Estimation du total
des dpenses de la
population ($)
1 040 000
940 000
1 020 800
966 667
920 000
1 000 000
947 300

La variabilit dchantillonnage est beaucoup plus faible pour un chantillon PPT. Les estimations tires
des six chantillons possibles passent maintenant dun seuil de 920 000 $ un plafond de 1,4 million de
dollars seulement, un rsultat meilleur que celui de lEAS. (La probabilit dinclusion de
lchantillonnage PPT est calcule ainsi : taille de lexploitation agricole divise par la taille totale de
toutes les exploitations).
Il est suppos y avoir un lien, dans cet exemple, entre les dpenses et la taille de lexploitation agricole,
une supposition valable de toute vidence dans ce cas ou lchantillonnage PPT naurait pas eu autant de
succs. En fait, si les variables dintrt et la variable de la taille navaient pas t corrles,
lchantillonnage PPT naurait peut-tre pas t meilleur que lEAS et pourrait mme avoir t pire.
Le principal avantage de lchantillonnage PPT est quil peut amliorer lefficience statistique de la
stratgie dchantillonnage laide de linformation auxiliaire. Le rsultat peut tre une diminution
importante de la variance de lchantillonnage comparativement lEAS ou mme lchantillonnage
stratifi (Section 6.2.6).
Voici les inconvnients de lchantillonnage PPT :
i.

Il faut avoir une base de sondage qui contient de linformation auxiliaire jour de bonne qualit
pour toutes les units de la base qui peuvent servir de mesures de la taille.

ii.

Il est inappropri si les mesures de la taille ne sont pas prcises ou stables. Dans ces
circonstances, il vaut mieux crer des groupements de tailles et faire un chantillonnage stratifi.

iii.

Il nest pas toujours applicable parce que chaque population na pas ncessairement une mesure
de la taille stable mise en corrlation avec les principales variables de lenqute.

iv.

Le rsultat peut tre une stratgie dchantillonnage statistiquement moins efficiente que celle de
lEAS pour les variables de lenqute qui ne sont pas corrles avec les variables de la taille.

v.

Lestimation de la variance dchantillonnage dune estimation est plus complexe.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

112

vi.

La cration dune base de sondage cote plus cher et est plus complexe que celle de lEAS ou du
SYS parce que la taille de chaque unit dans la population doit tre mesure et sauvegarde.

6.2.4.1 Mthodes dchantillonnage PPT

Comment obtient-on un chantillon PPT? Il y a de nombreuses mthodes dchantillonnage PPT, mais


trois techniques sont habituellement utilises sont la mthode alatoire, la mthode systmatique et la
mthode systmatique alatoire. (Il est suppos dans ce qui suit que les mesures de la taille sont des
valeurs entires.)
i.

Mthode alatoire dchantillonnage PPT :

pour chaque unit de la population, faire le calcul cumulatif des mesures de la taille des units jusqu
lunit elle-mme comprise,

dterminer ltendue correspondant chaque unit dans la population, cest--dire partir de la


somme cumulative de lunit prcdente (mais sans linclure) jusqu la somme cumulative de lunit
courante,

slectionner un nombre alatoire entre 0 (si les mesures de taille ne sont pas des nombres entiers) ou 1
(si les mesures de taille sont des nombres entiers) et la taille cumulative totale, et slectionner lunit
dont ltendue comprend le nombre alatoire,

rpter ltape prcdente jusqu ce que n units soient slectionnes.

Illustrons en utilisant en exemple des exploitations agricoles :


Tableau 5 : chantillonnage PPT laide de la mthode alatoire
Ferme
1
2
3
4
5
6

Taille
50
1000
125
300
500
25

Taille cumulative
50
1050
1175
1475
1975
2000

tendue
1-50
51-1050
1051-1175
1176-1475
1476-1975
1976-2000

Trois nombres alatoires entre 1 et 2000 sont slectionns pour obtenir un chantillon de trois units.
Supposons que ces nombres sont : 1697, 624 et 1109. Les exploitations agricoles (fermes) slectionnes
sont donc : les fermes 5, 2 et 3.
Dans le cas de la mthode alatoire dchantillonnage PPT sans remise, si plus dune unit est
slectionne, essayer de maintenir les probabilits directement proportionnelles la taille et estimer les
variances dchantillonnage des estimations de lenqute peuvent susciter des complications. La situation
devient encore plus complique si plus de deux ou trois units sont slectionnes avec PPT sans remise et,
en fait, fait lobjet dun nombre considrable de travaux de recherche. La majeure partie de cette
recherche est contenue dans les ouvrages de Horvitz et Thompson (1952), Yates et Grundy (1953), Rao,
Hartley et Cochran (1962), Fellegi (1963), Brewer et Hanif (1983).

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

ii.

113

Mthode systmatique :

pour chaque unit de la population, faire le calcul cumulatif des mesures de taille des units jusqu
lunit elle-mme comprise,

dterminer ltendue correspondant chaque unit dans la population, cest--dire partir de la


somme cumulative de lunit prcdente (mais sans linclure) jusqu la somme cumulative de lunit
courante,

dterminer lintervalle dchantillonnage, k = (taille cumulative totale)/n,

dterminer une origine choisie au hasard, r, entre 0 (si les mesures de taille ne sont pas des nombres
entiers) ou 1 (si les mesures de taille sont des nombres entiers) et k,

slectionner les units dont ltendue contient les nombres alatoires r, r+k, r+2k, ... r+(n-1)k.

iii.

Mthode systmatique alatoire :

La liste est tablie au hasard dans cette mthode avant lapplication de lchantillonnage systmatique. Si
la liste est utilise dans lordre original, comme dans le cas de lchantillonnage systmatique, certains
chantillons possibles peuvent tre limins. Lorsque la liste est tablie au hasard, le nombre
dchantillons ventuels qui peuvent tre tirs est la hausse.
On se souviendra des problmes que posent ces mthodes. Dans le cas des mthodes systmatiques
alatoires et systmatiques, par exemple, si la taille dune unit est plus grande que lintervalle, elle peut
tre slectionne plus dune fois. Ce problme peut tre rsolu uniquement en rpartissant ces grandes
units en strates distinctes et en en faisant lchantillonnage part (Section 6.2.6). La difficult
destimation des variances dchantillonnage est un autre problme.

6.2.5

chantillonnage par grappes

Lchantillonnage par grappes est le processus de slection alatoire de groupes complets (grappes)
dunits de la population dans la base de sondage. Cest habituellement une stratgie dchantillonnage
statistiquement moins efficiente que lEAS et elle est applique pour plusieurs raisons. Premirement,
lchantillonnage par grappes peut rduire normment le cot de la collecte, surtout si la population est
largement disperse et si on a recours des interviews sur place. Deuximement, il nest pas toujours
pratique dchantillonner des units distinctes de la population. Il est parfois plus facile de faire
lchantillonnage de groupes dunits de la population (p. ex., mnages complets). Troisimement, elle
permet de faire des estimations pour les grappes elles-mmes (p. ex., revenu moyen par mnage).
Lchantillonnage par grappes est un processus en deux tapes. Premirement, la population est regroupe
en grappes (il peut sagir de grappes naturelles, p. ex., mnages, coles). La deuxime tape est la
slection dun chantillon de grappes et linterview de toutes les units des grappes slectionnes.
La base de sondage peut dterminer la mthode dchantillonnage. Jusqu maintenant, la cible a t
lchantillonnage dunits individuelles de la population partir dune liste. Si les units de la population
sont naturellement regroupes, il est souvent plus facile dtablir une base de sondage pour ces groupes et
den faire lchantillonnage, plutt que dessayer dtablir une liste de toutes les units individuelles de la

STATISTIQUE CANADA

114

MTHODES ET PRATIQUES DENQUTE

population. Le client peut tre intress, par exemple, chantillonner les enseignants, mais avoir
seulement une liste des coles. Dans le cas des enqutes sur les mnages ou les exploitations agricoles, de
nombreux pays nont pas de listes compltes et jour des gens, des mnages ou des exploitations
agricoles dans aucune grande rgion gographique, mais ils ont des cartes des rgions. Il est alors possible
dtablir une base arolaire et de rpartir les secteurs gographiques en rgions (grappes), de faire
lchantillonnage des rgions et dinterviewer chacun dans la rgion. Divers plans dchantillonnage
peuvent servir pour slectionner les grappes, notamment, lEAS, le SYS ou le PPT. Un plan commun
utilise le PPT dont lchantillonnage est proportionnel la taille de la grappe.
Il ne faut pas oublier un certain nombre de considrations pour lchantillonnage par grappes. Les
estimations seront statistiquement efficientes si les units dune grappe sont aussi diffrentes que possible.
Autrement, si les units dune grappe sont semblables, elles donnent toutes de linformation semblable et
il suffirait dinterviewer une unit.
Les units dune grappe ont souvent des caractristiques malheureusement semblables et elles sont donc
plus homognes que les units slectionnes au hasard dans la population en gnral. Le rsultat est une
procdure dchantillonnage moins efficiente que celle de lEAS. Supposons, par exemple, que deux
chantillons sont tirs dune ville de 100 000 personnes. Lchantillonnage par grappes est utilis pour le
premier chantillon et un lot de la ville englobant 400 rsidents est slectionn au hasard. LEAS est
appliqu au deuxime chantillon pour slectionner 400 personnes dans une liste de 100 000 rsidents.
Lchantillon de 400 rsidents de lEAS sera probablement beaucoup plus diversifi aux volets revenus,
ge, occupation et scolarit (pour nommer seulement quelques variables) que lchantillon par grappes de
400 personnes qui habitent toutes le mme lot en ville.
La qualit de lhomognit des units des grappes, le nombre dunits de la population dans chaque
grappe et le nombre de grappes de lchantillon dterminent lefficience statistique de lchantillonnage
par grappes. Si les units voisines sont semblables, il est statistiquement plus efficient de slectionner de
nombreuses petites grappes plutt que quelques-unes plus larges. Lors des interviews sur place cependant,
plus lchantillon est dispers, plus lenqute cote cher. Lorganisme statistique doit tablir un quilibre
entre le nombre optimal et la taille des grappes et le cot.
Lchantillonnage par grappes peut poser des difficults logistiques. Si la base de sondage est une base
arolaire tire dune carte et si lunit dchantillonnage est une grappe de logements, il peut tre difficile
de dterminer si un logement est dans une grappe ou une autre. Il faudrait tablir certaines rgles
lmentaires pour dterminer quelles units font partie dune grappe. Si la rgle suivante est tablie, par
exemple, savoir que les logements font partie de la grappe o se trouve leur entre principale (porte
lavant), la majorit des problmes seraient limins (habituellement, le logement complet est lintrieur
ou lextrieur des limites dune grappe). Si un logement semble galement rparti entre plus dune
grappe, tirez au sort pour viter un biais. Dans lEnqute canadienne sur la population active (EPA), les
grappes sont dtermines en tirant une ligne au milieu de la rue. Il est donc facile de dterminer si un
logement est dans lchantillon ou non. (Le lecteur trouvera davantage dinformation sur ces
considrations pratiques au Chapitre 9 - Oprations de collecte des donnes).
Voici les avantages de lchantillonnage par grappes :
i.

Il peut rduire normment le cot de la collecte parce que lchantillon est moins dispers que
celui de lEAS. Cest particulirement important si la population est largement rpartie et si
lenqute comprend des interviews sur place parce quil est possible dconomiser en diminuant
le temps de dplacement des intervieweurs, en particulier pour les populations en milieu rural.

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

115

ii.

Il est plus facile appliquer que lEAS ou le SYS aux populations regroupes naturellement par
grappes (p. ex., mnages, coles) et certaines populations conceptuelles, par exemple, les
personnes qui traversent une frontire pendant une priode dtermine. Il peut tre difficile,
coteux ou impossible dtablir une liste de toutes les units individuelles de ce genre de
population comme lexige lEAS.

iii.

Il permet de faire des estimations pour les grappes elles-mmes. Les estimations du nombre
moyen denseignants par cole sont un exemple (lorsque les coles sont en grappes).

iv.

Il peut tre statistiquement plus efficient quun EAS si les units des grappes sont htrognes
(diffrentes) du point de vue des variables de ltude et si les grappes sont homognes
(semblables). Ce nest cependant pas le cas en pratique, habituellement.

Voici les inconvnients de lchantillonnage par grappes :


i.

Il peut tre statistiquement moins efficient que lEAS si les units des grappes sont homognes du
point de vue des variables de ltude. Cest souvent le cas parce que les units dune grappe ont
tendance avoir des caractristiques semblables. Le nombre de grappes slectionnes peut
cependant tre augment pour liminer cette perte defficience statistique.

ii.

La taille finale de lchantillon nest pas connue davance parce que le nombre dunits dune
grappe est dtermin seulement la conclusion de lenqute.

iii.

Lorganisation de lenqute peut tre plus complexe que dans le cas dautres mthodes.

iv.

Lestimation de la variance peut tre plus complexe que celle de lEAS si les grappes sont
chantillonnes sans remise.

chantillon par grappes (illustr, quatre grappes sont chantillonnes)

STATISTIQUE CANADA

116

6.2.6

MTHODES ET PRATIQUES DENQUTE

chantillonnage stratifi (STR)

Au cours de lchantillonnage stratifi, la population est rpartie en groupes homognes mutuellement


exclusifs intituls strates et des chantillons indpendants sont ensuite slectionns dans chaque strate.
Nimporte quel plan dchantillonnage mentionn dans ce chapitre peut servir lchantillonnage dune
strate, partir de mthodes plus simples comme lEAS ou le SYS, jusquaux mthodes plus complexes
comme lchantillonnage PPT, par grappes, plusieurs degrs ou plusieurs phases (considrs plus loin
dans ce chapitre). Dans lchantillonnage par grappes, par exemple, il est trs commun de stratifier
dabord et de tirer ensuite lchantillon par grappes. Cette mthode est intitule chantillonnage par
grappes stratifi.
Une population peut tre stratifie par nimporte quelle variable disponible pour toutes les units de la
base de sondage avant de procder lenqute. Cette information, par exemple, peut tre simplement
ladresse de lunit qui permettra la stratification par province, ou les donnes sur les revenus entres dans
la base de sondage qui permettront la stratification par groupe de revenu, les variables de stratification
souvent utilises comprennent : lge, le sexe, la gographie (p. ex., province), le revenu, les revenus de
toute source, la taille du mnage, la taille de lentreprise, le genre dentreprise, le nombre demploys,
etc.).
Trois principales raisons justifient la stratification. Premirement, elle permet dobtenir une stratgie
dchantillonnage plus efficiente que celle de lEAS ou du SYS. Deuximement, elle donne des tailles
dchantillon suffisantes pour des domaines dintrt en particulier qui motivent lanalyse effectuer.
Troisimement, elle aide viter de tirer un mauvais chantillon.
Dune part, pour une taille dchantillon et un estimateur donns, la stratification peut diminuer lerreur
dchantillonnage ou, dautre part, pour une erreur dchantillonnage donne, la taille de lchantillon
peut tre plus petite. Bien que les grappes et les strates soient toutes deux des regroupements dunits de
la population, un chantillon est tir de chaque strate mais les grappes sont enqutes intgralement. La
stratification est en gnral plus prcise que lEAS, mais lchantillonnage par grappes lest gnralement
moins (parce que les units voisines sont habituellement semblables).
Il faut observer une forte homognit dans une strate (c.--d. que les units dune strate devraient tre
semblables quant la variable dintrt) pour amliorer lefficience statistique dune stratgie
dchantillonnage de lEAS et les strates elles-mmes doivent tre diffrentes le plus possible (quant la
mme variable dintrt). On peut gnralement obtenir ce rsultat si les variables de la stratification sont
corrles avec la variable dintrt de lenqute. Cochran (1977) explique pourquoi la stratification peut
augmenter la prcision des estimations par rapport lEAS :
Si chaque strate est homogne, cest--dire si les mesures varient peu dune unit lautre, il est
possible dobtenir une estimation prcise de nimporte quelle moyenne de strate laide dun
petit chantillon de cette strate. Ces estimations peuvent tre intgres en une estimation prcise
de la population dans lensemble.
La stratification est particulirement importante si les populations sont asymtriques (c.--d. lorsque la
rpartition des valeurs dune variable nest pas symtrique et quelle affiche une tendance vers la droite
ou la gauche). Les enqutes auprs des entreprises et des exploitations agricoles, par exemple, ont souvent
des populations fortement asymtriques : quelques grandes entreprises et exploitations agricoles peu
nombreuses ont souvent de grandes valeurs pour les variables dintrt (p. ex., revenus, dpenses, nombre
demploys). Quelques units de la population peuvent alors avoir dimportantes rpercussions sur les
estimations, si elles sont slectionnes dans lchantillon, elles peuvent augmenter normment

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

117

lestimation et, si elles ne sont pas slectionnes, lestimation peut tre beaucoup plus faible. Autrement
dit, ces units peuvent augmenter la variabilit dchantillonnage de lestimation. Ces units devraient
donc former une strate distincte pour garantir quelles ne reprsentent pas dautres units ventuellement
plus petites de la population.
Une variable de la taille, drive du nombre demploys, par exemple, est souvent utilise pour la
stratification des entreprises. Si la variable de la taille a trois valeurs, petite, moyenne et grande,
lefficience statistique est amliore si les grandes entreprises ont des ventes semblables, les moyennes
entreprises ont des ventes semblables et les petites entreprises ont des ventes semblables, et si les
moyennes et grandes entreprises, et les moyennes et petites entreprises, ont des ventes trs diffrentes. De
mme, dans un plan dchantillonnage qui utilise des bases arolaires, la reprsentation approprie des
grandes villes peut tre garantie en les intgrant dans une strate distincte et en faisant lchantillonnage de
chaque strate sparment.
Dans lexemple prcdent, il tait raisonnable de stratifier par nombre demploys parce que cest une
mesure de la taille de lentreprise et elle est probablement troitement lie aux ventes. Dautre part, si une
enqute cible lge de ces employs, il est insens de stratifier par nombre demploys parce quil ny a
pas de corrlation. De plus, la stratification statistiquement efficiente pour une variable de lenqute peut
fonctionner moins bien pour dautres. Les variables de la stratification sont habituellement choisies selon
leur corrlation avec les plus importantes variables de lenqute. Dans le cas des variables moins
importantes de lenqute qui nont pas de corrlation avec les variables de la stratification, cela signifie
que les estimations pour un chantillon stratifi peuvent tre moins efficientes que celles de lEAS.
La deuxime raison de la stratification est de garantir des tailles dchantillon appropries pour les
domaines dintrt connus. Au cours de la conception dune enqute, lobjectif gnral est souvent
destimer un total. Combien de personnes navaient pas demploi le mois dernier? Quel tait le total des
ventes au dtail le mois dernier? Souvent, le client veut, non seulement les totaux dans lensemble, mais
aussi des estimations pour les sous-groupes de la population intituls domaines.
Le client veut, par exemple, savoir combien dhommes taient sans emploi et comparer ce rsultat au
nombre de femmes sans emploi. De mme, le client veut peut-tre avoir les rsultats des ventes le mois
dernier pour les magasins de vtements ou pour tous les magasins de dtail dans une province en
particulier. tablir des estimations pour les sous-groupes est intitul estimation du domaine. Si des
estimations de domaines sont ncessaires, la capacit de les calculer laide dun chantillon
suffisamment large dans chaque domaine devrait tre intgre au plan dchantillonnage. Si linformation
est disponible dans la base de sondage, le moyen le plus facile dy arriver est de garantir que les strates
correspondent exactement aux domaines dintrt.
La troisime raison de la stratification est lapplication dune mesure de protection contre le tirage dun
mauvais chantillon. Dans le cas de lEAS, la slection de lchantillon est laisse entirement la
chance. Lchantillonnage stratifi tente de restreindre les chantillons possibles aux moins extrmes en
garantissant quau moins certaines parties de la population seront reprsentes dans lchantillon. La base
de sondage devrait tre stratifie par sexe (en supposant que cette variable auxiliaire est disponible dans la
base), par exemple, pour garantir que les hommes et les femmes sont inclus dans lchantillon.
Ajoutons ces raisons que la stratification est souvent utilise parce quelle est pratique du point de vue
oprationnel ou administratif. Elle peut permettre lorganisme statistique de contrler la rpartition du
travail sur le terrain entre ses bureaux rgionaux. Si la collecte des donnes est faite par province, par
exemple, la stratification par province est approprie et le bureau rgional provincial peut obtenir sa part
de lchantillon.

STATISTIQUE CANADA

118

MTHODES ET PRATIQUES DENQUTE

Lorsque la population a t rpartie en strates, lorganisme statistique doit dterminer combien dunits il
faut chantillonner dans chaque strate. Cette tape est intitule rpartition de lchantillon et elle est
considre au Chapitre 8 - Calcul de la taille de lchantillon et rpartition.
Les probabilits dinclusion varient habituellement dune strate lautre, compte tenu de la rpartition de
lchantillon entre les strates. Il faut considrer la taille de lchantillon et la taille de la population dans
chaque strate pour calculer les probabilits dinclusion de la majorit des plans dchantillonnage.
Considrons une population de N=1000 units stratifies en deux groupes pour illustrer : une strate a
N1=250 units et lautre, N2=750 units. Supposons que lEAS est utilis pour slectionner n1=50 units
la premire strate et n2=50 units la deuxime strate. La probabilit, 1, quune unit de la premire
strate soit slectionne est donc 1 = 50 250 = 1 / 5 et la probabilit, 2, quune unit de la deuxime
strate soit slectionne est 2 = 50 750 = 1 15 . Les units ont donc diffrentes probabilits dinclusion,
cest--dire quune unit de la premire strate a plus de chance dtre slectionne que celle de la
deuxime.
Voici les avantages de lchantillonnage stratifi :
i.

Il peut accrotre la prcision des estimations de la population dans lensemble et la stratgie


dchantillonnage est donc plus efficiente. Un chantillon plus petit peut viter une dpense
considrable pendant lenqute, en particulier lors de la collecte des donnes.

ii.

Il aide garantir que les sous-groupes importants, rpartis en strates, sont bien reprsents dans
lchantillon et les estimateurs de domaines sont alors statistiquement efficients.

iii.
iv.

Il peut tre pratique du point de vue oprationnel et administratif.


Il aide viter la slection dun mauvais chantillon.

v.

Il permet dappliquer diffrents plans dchantillonnage et diverses procdures des strates


diffrentes (p. ex., EAS pour une strate, PPT pour une autre).

Voici les inconvnients de lchantillonnage stratifi :


i.

Le plan dchantillonnage doit contenir de linformation auxiliaire de haute qualit pour toutes les
units du plan, et non pas seulement celles de lchantillon, qui peuvent tre utilises pour la
stratification.

ii.

Ltablissement de la base de sondage cote plus cher et est plus complexe que dans le cas de
lEAS ou du SYS parce que la base exige une bonne information auxiliaire.

iii.

Il peut donner une stratgie dchantillonnage stratgiquement moins efficiente que celle de
lEAS pour les variables de lenqute qui ne sont pas corrles avec les variables de la
stratification.

iv.

Lestimation est lgrement plus complexe que celle de lEAS ou du SYS.

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

119

chantillon stratifi (illustr, quatre strates, trois units slectionnes par strate)

6.2.7 chantillonnage plusieurs degrs


Nos considrations ont t axes jusqu maintenant sur les plans dchantillonnage un degr.
Lchantillonnage plusieurs degrs est le processus de slection dun chantillon deux degrs
successifs ou plus. Les units slectionnes au premier degr sont intitules units primaires
dchantillonnage (UP), les units slectionnes au deuxime degr sont intitules units secondaires
dchantillonnage (US), etc. Les units chaque degr ont une structure diffrente et sont hirarchiques
(p. ex., les personnes qui habitent dans un logement, les logements qui forment un lot en ville, les lots
qui forment une ville, etc.). Les US sont souvent les units individuelles de la population dans un
chantillonnage deux degrs.
Un plan dchantillonnage commun plusieurs degrs comprend lchantillonnage par grappes deux
degrs laide dune base arolaire au premier degr pour slectionner des rgions (lUP) et dun
chantillon systmatique de logements (lUS) dans une rgion, au deuxime degr. Compte tenu de
lchantillonnage par grappes un degr prsent auparavant, chaque unit dune grappe chantillonne
est comprise dans lchantillon. Dans lchantillonnage deux degrs, seulement certaines units de
chaque UP slectionne sont sous-chantillonnes.
Lchantillonnage plusieurs degrs est habituellement utilis dans des bases arolaires pour pallier les
inefficiences de lchantillonnage par grappes un degr qui est en fait rarement utilis. Si les units
voisines dans une grappe sont semblables, il est statistiquement plus efficient dchantillonner quelques
US de nombreuses UP que dchantillonner de nombreuses US de moins dUP.
Les chantillons plusieurs degrs peuvent avoir nimporte quel nombre de degrs, mais, tant donn que
la complexit du plan (et de lestimation) augmente avec le nombre de degrs, les plans dchantillonnage
sont souvent restreints deux ou trois degrs. Il faut souligner que la base de sondage pour le premier
degr est gnralement trs stable. Une base arolaire qui couvre de grands secteurs gographiques, par
exemple, ne change pas rapidement avec le temps. Les bases du deuxime degr (et des degrs suivants)
ncessaires pour chantillonner des units des degrs ultrieurs sont habituellement moins stables. Ces
bases sont souvent des listes tablies sur place pendant la collecte des donnes. Dans le cas des secteurs
gographiques chantillonns au premier degr, par exemple, une liste de tous les logements des secteurs
chantillonns peut tre tablie. Moins defforts sont ncessaires pour lister seulement les secteurs

STATISTIQUE CANADA

120

MTHODES ET PRATIQUES DENQUTE

chantillonns plutt que toute la population. (Le Chapitre 9 - Oprations de collecte des donnes
couvre en dtails le listage.)
Chaque degr dun chantillon plusieurs degrs peut tre accompli laide de nimporte quelle
technique dchantillonnage. La souplesse est donc lun des principaux avantages de lchantillonnage
plusieurs degrs. Un chantillon alatoire simple peut tre tir, par exemple, dune UP slectionne au
premier degr. Il peut y avoir, pour une autre UP, une mesure de la taille corrle avec les principales
variables de lenqute et lchantillonnage PPT peut tre utilis pour cette UP.
Lchantillon de lEnqute canadienne sur la population active (EPA) est un exemple dchantillon
stratifi plusieurs degrs. Le pays est rparti en plus de 1 100 strates. Chaque strate comprend un groupe
de secteurs de dnombrement (SD). Les SD sont des secteurs gographiques dfinis dans le Recensement
de la population et la rgion couverte peut tre dnombre par un recenseur (ils sont dlimits en tenant
compte de la taille du territoire et de la densit de la population). Le premier degr de lchantillonnage
est un chantillon stratifi de grappes (SD ou groupes de SD) tir de ces strates. Au deuxime degr, les
grappes sont cartographies, tous les logements de ces grappes sont lists et le recenseur slectionne un
chantillon systmatique de logements dans chaque liste. Toutes les personnes dun logement slectionn
sont ensuite interviewes pour lenqute.
Noubliez pas que les exemples prsents jusqu maintenant appliquent une base arolaire au premier
degr, mais ce nest pas une exigence de lchantillonnage plusieurs degrs. Un exemple dchantillon
plusieurs degrs qui appliquerait un genre diffrent de base est une enqute sur les voyages dans un
aroport. Lunit dchantillonnage primaire pourrait tre le temps, les jours dans un mois, et lunit au
deuxime degr pourrait tre les voyageurs eux-mmes. Dans le cas dune enqute plus complexe sur les
voyages, lunit du deuxime degr pourrait tre les avions de passagers larrive et lunit au troisime
degr pourrait tre les siges occups dans lavion.
Voici les avantages de lchantillonnage plusieurs degrs :
i.

Il peut donner une stratgie dchantillonnage statistiquement plus efficiente que celle du plan
dchantillonnage par grappes un degr lorsque les grappes sont homognes quant aux variables
dintrt (c.--d. une rduction de la taille de lchantillon).

ii.

Il peut rduire normment le temps de dplacement et les cots des interviews sur place parce
que lchantillon est moins dispers que celui dautres formes dchantillonnage, notamment
lEAS.

iii.

Il nest pas ncessaire davoir une liste de toute la population. Il faut simplement avoir une bonne
base chaque degr de slection de lchantillon.

Voici les inconvnients de lchantillonnage plusieurs degrs :


i.

Lefficience statistique est habituellement moindre que celle de lEAS (mme sil peut tre plus
efficient quune stratgie par grappes un degr).

ii.

La taille finale de lchantillon nest pas toujours connue davance parce que le nombre dunits
dune grappe est habituellement connu seulement la conclusion de lenqute. (La taille de
lchantillon peut tre contrle, cependant, si un nombre dtermin dunits est slectionn dans
chaque grappe.)

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

121

iii.

Lorganisation de lenqute est plus complexe que celle dun chantillonnage par grappes un
degr.

iv.

Ses formules de calcul des estimations et de la variance dchantillonnage peuvent tre


complexes.

chantillon plusieurs degrs (illustr, plan dchantillonnage par grappes deux degrs, six UP
slectionnes et jusqu trois US slectionnes dans chaque UP)

6.2.8

chantillonnage plusieurs phases

Les appellations se ressemblent, mais lchantillonnage plusieurs phases est trs diffrent de
lchantillonnage plusieurs degrs. Lchantillonnage plusieurs phases comprend aussi la slection de
deux chantillons ou plus, mais les chantillons sont tirs de la mme base et les units ont la mme
structure chaque phase. La collecte pour lchantillon plusieurs phases cible surtout linformation dun
large chantillon dunits et ensuite, linformation plus dtaille pour un sous-chantillon de ces units.
Lchantillonnage plusieurs phases le plus commun est lchantillonnage deux phases (ou
chantillonnage double), mais trois phases ou plus sont aussi possibles. Plus il y a de phases, cependant,
plus les estimations et le plan dchantillonnage sont complexes, tout comme dans lchantillonnage
plusieurs degrs.
Lchantillonnage plusieurs phases est utile lorsque la base de sondage manque dinformation auxiliaire
qui pourrait servir stratifier la population ou en retrancher une partie. Supposons, par exemple, que
lon ait besoin dinformation sur les leveurs de bovins, mais la base de sondage comprend seulement une
liste dexploitations agricoles, sans information auxiliaire. On pourrait procder une enqute simple en
posant seulement une question : Votre exploitation agricole est-elle axe, en tout ou en partie, sur
llevage de bovins? Cette enqute une seule question devrait coter trs peu par interview (surtout si
elle est faite au tlphone) et lorganisme devrait donc pouvoir obtenir un important chantillon. Lorsque
le premier chantillon est tir, un deuxime chantillon plus petit peut tre slectionn dans la population
des leveurs de bovins et vous pouvez leur poser des questions plus dtailles. Lorganisme statistique qui
applique cette mthode vite les frais de sondage des units hors du champ de lenqute (c.--d. ceux qui
ne sont pas leveurs de bovins).

STATISTIQUE CANADA

122

MTHODES ET PRATIQUES DENQUTE

Lchantillonnage plusieurs phases peut aussi servir la collecte de linformation plus dtaille partir
dun sous-chantillon lorsque le budget nest pas suffisant pour obtenir de linformation de tout
lchantillon ou lorsque le fardeau de rponse serait excessif. LEnqute trimestrielle sur les marchandises
vendues au dtail (ETMVD) est un exemple. La premire phase de lenqute est lEnqute mensuelle sur
le commerce de gros et de dtail (EMCGD). Les enquteurs de lEMCGD demandent chaque mois deux
variables aux grossistes et aux dtaillants : les ventes et les stocks mensuels. Les enquteurs de lETMVD
sous-chantillonnent les dtaillants et leur demandent de faire rapport sur leurs ventes par produits de
dtail, par exemple, les vtements, les articles lectroniques, les denres alimentaires, etc.
Lchantillonnage plusieurs phases peut aussi servir lorsque les frais de collecte des donnes sont trs
diffrents pour diverses questions dune enqute. Considrons une enqute sur la sant qui pose des
questions lmentaires sur le rgime alimentaire, le tabagisme, lexercice et la consommation dalcool.
Supposons de plus que les enquteurs demandent aux rpondants de se prter certaines mesures directes,
notamment, marcher sur un tapis roulant, faire prendre une mesure de leur tension artrielle et de leur taux
de cholestrol. Poser quelques questions cote relativement peu, mais les examens mdicaux demandent
le temps dun praticien form en soins de sant et lutilisation dun laboratoire quip qui cotent
relativement cher. Lenqute peut tre faite laide dun chantillon deux phases, les questions
lmentaires sont poses la premire phase et les mesures directes sont prises seulement auprs de
lchantillon plus petit de la deuxime phase.
Les donnes obtenues la premire phase peuvent servir la stratification ou linformation de slection,
mais aussi pour amliorer lefficience de lestimation (p. ex., pour lestimation par rgression). Ces
notions seront reprises au Chapitre 7 - Estimation.
Voici les avantages de lchantillonnage plusieurs phases :
i.

Il peut augmenter normment la prcision des estimations (comparativement lEAS).

ii.

Il peut servir obtenir de linformation auxiliaire qui nest pas dans le plan dchantillonnage (en
particulier de linformation sur la stratification pour lchantillonnage la deuxime phase).

iii.

Il peut tre utile si les frais de collecte pour certaines variables de lenqute sont excessifs ou si le
fardeau des rpondants est trop lourd.

Voici les inconvnients de lchantillonnage plusieurs phases :


i.

Il faut plus de temps pour obtenir des rsultats que le temps ncessaire pour une enqute une
phase si les rsultats de la premire phase sont ncessaires pour procder la deuxime phase.

ii.

Il peut coter plus cher quune enqute une phase parce quil faut interviewer une unit
chantillonne plus dune fois.

iii.

Si la population est mobile ou si les caractristiques dintrt changent souvent, la priode


coule entre les phases peut poser des problmes.

iv.

Lorganisation de lenqute peut tre complexe.

v.

Ses formules de calcul des estimations et de la variance de lchantillonnage peuvent tre trs
complexes.

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

123

chantillon plusieurs phases (illustr, 12 units slectionnes la premire phase, quatre la


deuxime)

6.2.9

chantillonnage par rpliques

Lchantillonnage par rpliques comprend la slection dun nombre dchantillons indpendants dans une
population et non dans un seul chantillon. Au lieu dun chantillon global, un certain nombre
dchantillons plus petits, de taille peu prs gale, intituls rpliques, sont slectionns
indpendamment, chacun partir du mme plan dchantillonnage. Lchantillonnage par rpliques peut
servir lorsque les rsultats prliminaires sont demands rapidement. Ces rsultats prliminaires peuvent
tre tirs du traitement et de lanalyse dune seule rplique.
La principale raison dun chantillonnage par rpliques est de faciliter le calcul de la variance
dchantillonnage des estimations dune enqute (la variance dchantillonnage est une mesure de lerreur
dchantillonnage). Il est gnralement possible de calculer la variance dchantillonnage laide
dchantillons probabilistes, mais ces calculs peuvent tre extrmement difficiles selon la complexit du
plan dchantillonnage. Certaines expressions mathmatiques pour la variance de lchantillonnage sont
difficiles dterminer, fastidieuses programmer, cotent cher, et cest un problme. Dans le cas de
lchantillonnage systmatique en particulier, les estimations de la variance ne peuvent tre calcules
directement, sauf si des hypothses sont formules sur la disposition des units dans la liste.
On obtient des mesures de lerreur dchantillonnage en examinant quel point les estimations varient
dun chantillon lautre, compte tenu de tous les chantillons possibles de la mme taille et du mme
plan dchantillonnage. Lchantillonnage par rpliques simule ce concept. Au lieu de tirer tous les
chantillons possibles (ce qui nest pas pratique), un nombre raisonnable dchantillons plus petits est
slectionn laide de mthodes identiques. Au lieu de slectionner un chantillon de taille 10 000, par
exemple, dix chantillons indpendants de taille 1 000 peuvent tre slectionns. En comparant les
estimations de chacun de ces dix chantillons, on peut obtenir des estimations de la variance
dchantillonnage. La fiabilit des estimations de la variance dchantillonnage augmente avec le nombre
de rptitions slectionnes. (Un exemple dchantillonnage par rpliques pour estimation de la variance
est donn la Section 7.3.4 du Chapitre 7 - Estimation.)
Un certain nombre dautres procdures appliquent le r-chantillonnage pour estimer la variance
dchantillonnage lorsque les plans dchantillonnage sont complexes. Ils comprennent les rpliques
quilibres (mthode BRR), la mthode du Jackknife et la mthode dauto-amorage (Bootstrap). Ces
STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

124

techniques sont toutes des ramifications de lide lmentaire de lchantillonnage par rpliques, mais
elles sont diffrentes lune de lautre quant la prcision de la mesure de la variance dchantillonnage de
divers genres destimations denqute, de leur complexit oprationnelle et des situations auxquelles elles
sappliquent le mieux.
Cette approche a des inconvnients, par exemple, les estimations de la variance dchantillonnage ont
tendance tre moins prcises en gnral que si elles taient directement bases sur des expressions
statistiques qui intgrent des caractristiques de plan dchantillonnage, notamment, lchantillonnage
plusieurs degrs, la stratification, etc.
chantillonnage par rpliques (illustr, deux chantillons slectionns de taille 6)

6.3

Sujets spciaux en chantillonnage

Les plans dchantillonnage sont parfois modifis pour rpondre aux besoins spciaux dune enqute en
particulier. Cette mesure peut tre ncessaire si la population cible est particulirement difficile situer, si
la caractristique dintrt est trs rare dans la population, ou cause des besoins analytiques de lenqute
ou de la mthode de collecte des donnes. Le Chapitre 4 - Mthodes de collecte des donnes exposait
les plans dchantillonnage des interviews au tlphone, y compris la composition alatoire (CA). Les
sections suivantes dcrivent dautres applications particulires des plans dchantillonnage pour rpondre
des besoins denqute spciaux.

6.3.1

Enqutes rptes

Les enqutes uniques ont de nombreuses diffrences comparativement aux enqutes rptes. Le but
dune enqute rpte est souvent dtudier les tendances ou les modifications des caractristiques
dintrt au fil du temps.
Avant de prendre des dcisions sur le plan dchantillonnage denqutes rptes, il faudrait tenir compte
de la possibilit de dtrioration de lefficience statistique de la stratgie dchantillonnage au cours du
temps. Un organisme statistique peut choisir, par exemple, dutiliser des variables de stratification plus

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

125

stables et dviter celles qui peuvent tre statistiquement plus efficientes court terme, mais qui peuvent
changer rapidement avec le temps.
Beaucoup de renseignements sont en gnral disponibles et utiles aux fins des plans ultrieurs, et cest
une autre caractristique de lenqute rpte. Il est possible dexaminer au cours du temps si les diverses
caractristiques du plan dchantillonnage sont suffisantes, par exemple, la pertinence des limites et des
variables de stratification, la mthode de rpartition de lchantillon et la taille des units diverses tapes
du plan dchantillonnage plusieurs degrs, afin daccentuer lefficience statistique. Linformation
ncessaire pour tablir un plan denqute unique efficient est souvent trs limite.
Quand on labore un plan denqute rpte, il faut prvoir des dispositions pour tenir compte de certains
vnements, par exemple, les naissances, les dcs et les modifications de la mesure de la taille. Les
mthodes destimation et dchantillonnage appliques aux enqutes rptes devraient intgrer ces
modifications de faon statistiquement efficiente pour interrompre le moins possible les oprations
denqute en cours.
Un type particulier denqute rpte est lchantillon constant (panel) ou enqute longitudinale, cest-dire que les donnes sont obtenues des mmes units de lchantillon plusieurs occasions. Ces enqutes
permettent habituellement de mesurer les modifications des caractristiques dune population donne et
dobtenir une prcision plus grande que celle dune srie dchantillons indpendants de taille
comparable. Si une enqute est rpte, le recours un chantillon longitudinal a des avantages,
comparativement une srie dchantillons indpendants spciaux. Voici certains avantages :
i.

Il diminue la variance dchantillonnage pour les estimations du changement (c.--d. Y2 Y1 , o


Y est une estimation du total loccasion 1 et Y est une estimation du total loccasion 2). Vous
1

pouvez obtenir, par exemple, une mesure du changement du nombre de personnes sans emploi
dun mois lautre.
ii.

Il peut servir obtenir de linformation sur le comportement des rpondants avec le temps.

iii.

Il peut diminuer les erreurs de rponse (parce que les rpondants approfondissent leur
comprhension du questionnaire).

iv.

Les cots peuvent diminuer avec le temps (llaboration de lenqute, la programmation des
systmes informatiques, la formation du personnel, etc., sont faites au cours dune longue
priode).

Voici certains inconvnients de lutilisation de lchantillon longitudinal au lieu de plusieurs chantillons


indpendants :
i.

Les estimations, le traitement des non-rponses, etc., sont plus complexes.

ii.

Il faut que le budget de lenqute soit garanti pendant toute la vie utile de lchantillon constant.
Un engagement financier pour couvrir les cots est donc ncessaire pendant une longue priode.

iii.

Il est plus difficile de maintenir la reprsentativit au cours de priodes prolonges cause des
changements qui se produisent dans la population avec le temps, notamment, lajout de nouvelles
units et le retrait dautres.

STATISTIQUE CANADA

126

MTHODES ET PRATIQUES DENQUTE

iv.

Le nombre derreurs de rponse peut augmenter (p. ex., la connaissance du questionnaire peut
inciter certains rpondants rpondre incorrectement aux questions pour acclrer linterview).

v.

Le nombre de non-rponses peut augmenter avec le temps ( cause de la fatigue des rpondants,
la mme personne faisant lobjet dune enqute ritre dans le temps, le reprage est difficile,
etc.).

vi.

Son organisation est plus complexe que celle dune enqute unique.

vii.

Il peut susciter un comportement motiv par lenqute. Les questions ritres sur les visites au
mdecin, par exemple, peuvent inciter un rpondant visiter un mdecin la suite de lenqute.
Il peut tre difficile de dfinir certains concepts (p. ex., la composition du mnage peut changer
avec le temps et alors, comment dfinir un mnage longitudinal?).

viii.
ix.

Si lchantillon slectionn au dpart est un mauvais chantillon, lorganisme statistique peut


continuer de lutiliser.

Le plan dchantillonnage intermdiaire entre les chantillons indpendants utiliss des occasions
successives et lchantillon longitudinal est intitul plan dchantillonnage avec renouvellement, cest-dire quune partie de lchantillon est remplace chaque fois que le sondage est fait.
LEnqute sur la population active (EPA) applique, par exemple, un plan dchantillonnage avec
renouvellement. Des mnages forment lchantillon pendant six mois conscutifs et, chaque mois, un
sixime de lchantillon est remplac par un nouveau groupe de mnages. Lchantillon de lEPA est
rparti en six panels (ou groupes de rotation). Chaque panel fait lobjet de lenqute une fois par mois
pendant six mois. la fin du sixime mois, un groupe de rotation est supprim de lenqute (renouvel) et
un nouveau est ajout. Le fardeau du rpondant est ainsi limit (linterview moyenne de lEPA demande
moins de dix minutes) et on conserve un bon chevauchement de lchantillon chaque mois. Le
renouvellement mensuel de lchantillon est un avantage supplmentaire. Si lchantillon nest jamais mis
jour, les membres de lchantillon vieillissent et les familles des nouveaux logements nont jamais la
chance dtre ajouts lchantillon. Dans ce cas, lchantillon ne reflte plus la population actuelle et
devient biais avec le temps.
Ce plan dchantillonnage a lavantage quil permet de mesurer les changements chaque mois avec une
plus grande prcision, il cote moins cher et il y a moins dinterruptions des oprations sur place,
comparativement aux chantillons indpendants. Il amenuise aussi le problme du fardeau des rpondants
li aux tudes avec chantillons constants. (Afin de reflter les changements de la taille et de la structure
de la population, ainsi que les besoins de donnes, nanmoins, des modifications priodiques sont
apportes au plan dchantillonnage de lEPA, habituellement loccasion du recensement dcennal.)
Ces plans dchantillonnage servent non seulement lEPA, mais aussi aux enqutes auprs des
entreprises. Il ne faut pas oublier que les plans dchantillonnage avec renouvellement exigent un plan
dchantillonnage lmentaire, mais aussi une mthodologie de renouvellement de lchantillon. Il sagit
de notions complexes hors de la porte de ce manuel. On trouvera dans Kalton et coll. (1992) et dans
Kasprzyk (1989) une prsentation dtaille des plans rotation partielle et des enqutes longitudinales.

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

127

6.3.2 Enqutes entre-sortie


Les enqutes entre-sortie sappliquent aux populations qui traversent une frontire, par exemple, les gens
qui entrent dans un pays (ou qui le quittent) ou les utilisateurs dune route page. tablir une liste jour
de ces populations avec information sur les personnes-ressources pour interviewer les units ou leur
envoyer un questionnaire pose un problme. Supposons, par exemple, que le client veuille interviewer les
trangers en visite au Canada et quil soit possible dobtenir des douanes une liste de tous les visiteurs
arrivs au pays une date en particulier. Comment trouver ces gens pour les interviewer? Voil un
problme. Ds que la base de sondage est cre, les voyageurs sont probablement dj retourns chez eux
et lentrevue nest pas pratique. Sils sont toujours au Canada, il est peu probable quune adresse pour
communiquer avec eux soit disponible.
Voil pourquoi une base de sondage conceptuelle et lchantillonnage systmatique, ou lchantillonnage
par grappes deux degrs avec chantillonnage systmatique dans les grappes chantillonnes, est(sont)
souvent utilis(s) pour faire enqute sur ces populations. La base de sondage conceptuelle peut tre une
liste des units de la population numres au cours dune certaine priode certains endroits en
particulier. La base de sondage aura une couverture complte si ces endroits sont les secteurs o la
population cible est concentre. Des points dentre et de sortie sont souvent utiliss. Les points de sortie
sont plus populaires parce que la plupart des enqutes ciblent les activits de lunit avant quelle quitte le
secteur.
Il est important de tenir compte dans le plan dchantillonnage, comme dans tout plan dchantillonnage,
des procdures sur place. Le dfi relever lchelon oprationnel et du plan dchantillonnage est le
recours optimal aux travailleurs sur place, tout en maintenant un chantillon probabiliste. Lachalandage
ingal des visiteurs donne une charge de travail extrmement variable et la rpartition efficiente du
personnel est donc difficile. Lutilisation la plus efficace du temps dun intervieweur est linterview du
ke visiteur aprs avoir achev linterview en cours, mais le plan dchantillonnage serait alors non
probabiliste. Il est prfrable dappliquer lchantillonnage systmatique, cest--dire quune personne
compte les gens et une petite quipe dintervieweurs remet des questionnaires ou procde des
interviews. La densit de lachalandage et de la longueur de linterview, sil y a interview, dterminent la
taille de lquipe.
La collecte des donnes peut se faire par autodnombrement, interviews ou observation directe lorsque
cest appropri. Dans le cas dun questionnaire par autodnombrement, le taux de rponse est meilleur si
le rpondant remplit le questionnaire sur place au lieu de le retourner lorganisme statistique par la
poste. Les interviews demandent videmment davantage de personnel sur place, mais elles donnent des
taux de rponse plus levs. Lobservation directe est trs prcise et souhaitable, mais elle nest pas
toujours applicable.
Le principal avantage de lenqute entre-sortie est que la base de sondage pour ltape finale peut tre
cre pendant que lenquteur est sur place.
Voici les inconvnients de lenqute entre-sortie :
i.

Il peut tre difficile de nouer un lien entre la population de lenqute et une population
habituellement comprise. Les enqutes entre-sortie mesurent des visiteurs, et non des personnes,
voil pourquoi. Si une enqute est faite un magasin, par exemple, celui qui visite le magasin
plus dune fois au cours de la priode sera compt plus dune fois.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

128

ii.

Il peut tre difficile de grer les oprations sur place cause des dbits variables de la population.
Voil pourquoi de brves interviews sont recommandes.

iii.

Les taux de rponse sont typiquement faibles.

6.3.3

chantillonnage boule de neige

Supposons que le client veut trouver des particuliers rares dans une population, quil en connat dj
certains et quil peut communiquer avec eux. Une approche possible est de communiquer avec ceux-l et
demander simplement sils connaissent quelquun comme eux, puis de communiquer avec ces personnes,
etc. Lchantillon prend de lampleur comme une boule de neige qui descend une colline pour englober
ventuellement peu prs tous ceux qui ont cette caractristique. Lchantillonnage boule de neige est
utile pour des populations petites ou spcialises, notamment, les aveugles, les sourds, dautres personnes
qui ne font peut-tre pas partie dun groupe organis ou, par exemple, des musiciens, peintres ou potes
qui ne sont pas dj identifis dans une liste de sondage. Lchantillonnage boule de neige est cependant
une mthode dchantillonnage non probabiliste : certains particuliers ou sous-groupes pourraient navoir
aucune chance dtre chantillonns. Il faut faire de solides hypothses de modlisation (qui ne se
concrtisent habituellement pas) pour formuler des infrences.
Lchantillonnage de rseaux et lchantillonnage adaptatif par grappes sont des plans dchantillonnage
semblables utiliss pour cibler des populations rares ou spcialises.

6.4 Sommaire
Ce chapitre a cibl les notions lmentaires de lchantillonnage. Les deux principaux types
dchantillonnage sont lchantillonnage probabiliste et non probabiliste. Lutilit de lchantillonnage
non probabiliste est limite pour les enqutes des organismes statistiques parce que la slection biaise
des units ne permet pas de formuler immdiatement des infrences sur la population de lenqute. Il est
cependant facile et rapide et il peut tre utile pour les tudes de recherche ou pendant la phase
dlaboration dune enqute (p. ex., pour faire lessai du questionnaire).
Lchantillonnage probabiliste devrait tre utilis lorsquil faut formuler des infrences sur la population,
compte tenu des rsultats de lenqute. Dans un chantillon probabiliste, chaque unit de la base de
sondage a une probabilit diffrente de zro dtre slectionne et la slection des units est alatoire. La
slection nest donc pas biaise et il est possible de calculer les probabilits dinclusion et la variance
dchantillonnage des estimations, puis de formuler des infrences sur la population. Voici les principaux
inconvnients de lchantillonnage probabiliste : il demande plus de temps et cote plus cher que
lchantillonnage non probabiliste, et la base dchantillonnage doit tre de qualit leve.
Les plans dchantillonnage probabiliste les plus simples sont lchantillonnage alatoire simple et
lchantillonnage systmatique qui donnent des probabilits dinclusion gales. Des plans
dchantillonnage plus complexes peuvent donner des probabilits dinclusion ingales et la majorit
dentre eux exigent de linformation auxiliaire, y compris les chantillonnages avec probabilit
proportionnelle la taille, stratifis, par grappes, plusieurs degrs et plusieurs phases. Les plans
dchantillonnage probabiliste ingaux sont typiquement utiliss pour amliorer lefficience statistique de
la stratgie dchantillonnage ou pour diminuer les cots de lchantillonnage. La base dchantillonnage
justifie parfois leur utilisation.

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

129

Lorsque lon choisit entre divers plans dchantillonnage possibles, il faut dabord dterminer quels plans
dchantillonnage sont ralistes, compte tenu de la base de sondage, des units de la base de sondage, des
domaines dintrt, du fardeau de la rponse, de la mthode de collecte des donnes, du budget, etc.
Voici certains points considrer :
- Y a-t-il des donnes auxiliaires dans la base de sondage qui pourraient servir amliorer lefficience
de lchantillonnage (avec stratification ou PPT)?
- La base de sondage manque-t-elle dinformation auxiliaire qui pourrait servir la stratification ou
liminer certaines units? La collecte des donnes cote-t-elle cher ou est-elle un fardeau (considrez
deux phases)?
- La population est-elle naturellement rpartie par grappes ou les units de la base de sondage sont-elles
des grappes? La population est-elle rpartie gographiquement et y aura-t-il des interviews sur place
(chantillonnage un degr ou par grappes plusieurs degrs)?
En bout de ligne, plusieurs applications spciales de plans dchantillonnage sont possibles, selon les
besoins particuliers de lenqute.
Pour apprendre comment dterminer la taille de lchantillon ncessaire pour obtenir un degr de
prcision donn et comment comparer lefficience de diffrents plans dchantillonnage en comparant les
effets de plan, le lecteur consultera le Chapitre 8 - Calcul de la taille de lchantillon et rpartition.

Bibliographie
Bebbington, A.C. 1975. A Simple Method of Drawing a Sample without Replacement. Applied Statistics,
24(1).
Binder, D.A. 1998. Les enqutes longitudinales : Pourquoi ces enqutes sont-elles diffrentes de toutes
les autres ? Techniques denqute, 24(2): 107-115.
Brewer K.R.W et M. Hanif. 1983. Sampling with Unequal Probabilities. Springer-Verlag, New York.
Cochran, W.G. 1977. Sampling Techniques. John Wiley and Sons, New York.
Conner, W.S. 1966. An Exact Formula for the Probability that Two Specified Sample Units Will Occur in
a Sample Drawn with Unequal Probabilities and Without Replacement. Journal of the American
Statistical Association, 61: 385-390.
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.
Droesbeke, J.-J., B. Fichet et P. Tassi, (1987). Les Sondages. Economica, Paris.
Fellegi, I.P. (1963). Sampling with Varying Probabilities Without Replacement Rotating and NonRotating Samples. Journal of the American Statistical Association, 58: 183-201.
Fink, A. (1995). The Survey Kit. Sage Publications, California.
Fowler, F.J. 1984. Survey Research Methods. 1. Sage Publications, California.

STATISTIQUE CANADA

130

MTHODES ET PRATIQUES DENQUTE

Gambino, J.G., M.P. Singh, J. Dufour, B. Kennedy et J. Lindeyer. 1998. Mthodologie de lenqute sur la
population active du Canada. Statistique Canada. 71-526.
Gray, G.B. 1971. Joint Probabilities of Selection of Units in Systematic Samples. Proceedings for the
American Statistical Association. 271-276.
Hidiroglou, M.A. 1994. Sampling and Estimation for Establishment Surveys: Stumbling Blocks and
Progress. Proceedings of the Section on Survey Research Methods. American Statistical
Association. 153-162.
Hidiroglou, M.A. et G.B. Gray. 1980. Construction of Joint Probabilities of Selection for Systematic
P.P.S. Sampling. Applied Statistics, 29(1): 663-685.
Hidiroglou, M.A. et K.P. Srinath. 1993. Problems Associated with Designing Sub-Annual Business
Surveys. Journal of Economic Statistics, 11: 397-405.
Horvitz, D.G. et D.J. Thompson. 1952. A Generalization of Sampling Without Replacement from a Finite
Universe. Journal of the American Statistical Association. 47: 663-685.
Kalton, G., J. Kordos et R. Platek, ds. 1992. Small Area Statistics and Survey Designs. Central
Statistical Office, Warsaw. 31-75.
Kasprzyk, D., G.J. Duncan, G. Kalton et M.P. Singh, ds. 1989. Panel Surveys. John Wiley and Sons,
New York.
Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.
Lavalle, P. 1998. Thorie et Applications des enqutes longitudinales, Notes de cours 411F, Statistique
Canada.
Levy, P. et S. Lemeshow. 1991. Sampling of Populations. John Wiley and Sons, New York.
Lohr, S. 1999. Sampling: Design and Analysis. Duxbury Press, U.S.A.
McLeod, A.I. et D.R. Bellhouse. 1983. A Convenient Algorithm for Drawing a SRS. Applied Statistics,
32(2).
Moser C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.
Rao, J.N.K, H.O. Hartley et W.G. Cochran. 1962. On a Simple Procedure of Unequal Probability
Sampling Without Replacement. Journal of the Royal Statistical Society, B, 27: 482-490.
Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.
Satin, A. et W. Shastry. 1993. Lchantillonnage : un guide non mathmatique Deuxime dition.
Statistique Canada. 12-602F.
Stuart, A. 1968. Basic Ideas of Scientific Sampling. Charles Griffin and Company Limited, London.

STATISTIQUE CANADA

PLANS DCHANTILLONNAGE

131

Thompson, M. 1997. Theory of Sample Surveys. Chapman and Hill, United Kingdom.
Thompson, S.K. 1992. Sampling. John Wiley and Sons, New York.
Yates, F. et P.M. Grundy. 1953. Selection Without Replacement from Within Strata with Probabilityproportional-to-size. Journal of the Royal Statistical Society. B, 15: 235-261.

STATISTIQUE CANADA

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

133

Chapitre 7 - Estimation
7.0

Introduction

Il est indiqu au Chapitre 1 - Introduction lenqute que ltude des caractristiques dune population
est habituellement la motivation du client. Lestimation est un moyen que lorganisme statistique utilise
pour obtenir des valeurs de la population dintrt et tirer des conclusions sur cette population partir
de linformation obtenue dun chantillon .
Le principe sous-jacent lestimation dans une enqute probabiliste est que chaque unit de lchantillon
reprsente non seulement elle-mme, mais aussi plusieurs units de la population de lenqute. Le nombre
moyen dunits de la population que reprsente une unit de lchantillon est souvent intitul poids de
base ou pondration daprs le plan pour cette unit. Dterminer la pondration est un important volet du
processus destimation. Les poids de base peuvent servir lestimation, mais la majorit des enqutes
produisent une srie de poids destimation en ajustant les poids de base. Tenir compte des non-rponses et
utiliser les donnes auxiliaires sont les deux justifications habituelles des ajustements.
Lorsque les destimation ont t calculs, ils sont appliqus aux donnes de lchantillon pour dterminer
les estimations. Des mesures sommaires de la population, par exemple les totaux, moyennes et
proportions, sont habituellement estimes pour un large ventail de caractristiques obtenues des units
de lchantillon. Ces caractristiques, souvent intitules variables en thorie statistique, peuvent tre
qualitatives, par exemple le sexe ou ltat civil, ou quantitatives, notamment lge ou le revenu.
Diffrentes formules sont appropries pour lestimation des mesures sommaires, selon le genre de
donnes.
Dterminer limportance de lerreur dchantillonnage dans lestimation est un volet important de
lestimation. Elle donne une mesure de la qualit des estimations de lenqute pour un plan
dchantillonnage en particulier. Lerreur dchantillonnage peut tre estime seulement si
lchantillonnage est probabiliste.
Lobjectif de ce chapitre est dillustrer comment calculer les poids, tablir des estimations des mesures
sommaires et des estimations de leur erreur dchantillonnage pour les enqutes avec chantillonnage
probabiliste.

7.1

Pondration

La premire tape de lestimation est lattribution dun poids chaque unit chantillonne ou chaque
unit chantillonne rpondante. La poids de base peut tre considr comme le nombre moyen dunits
dans la population de lenqute que chaque unit chantillonne reprsente et elle est dtermine par le
plan dchantillonnage. La pondration du plan, wd (o d reprsente le plan, design en anglais), pour une
unit de lchantillon est linverse de sa probabilit dinclusion, . On se souviendra que la probabilit de
slection dune unit, pour un plan dchantillonnage plusieurs degrs ou plusieurs phases est le
produit des probabilits de slection chaque degr ou phase. Dans un chantillon deux phases o la
probabilit de slection dune unit est 1 la premire phase et 2 la deuxime phase, la pondration du
plan pour une unit de lchantillon est donc :
1
1
wd =

1 2

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

134

Les donnes de lchantillon dune enqute sont gnralement entres dans un fichier comprenant un
enregistrement pour chaque unit chantillonne. Nous savons que chaque unit de lchantillonnage
probabiliste a une probabilit connue, , dtre chantillonne. Si cette probabilit dinclusion est, par
exemple, une sur 50, chaque unit slectionne reprsente donc une moyenne de 50 units de la
population de lenqute et le poids de base est wd = 50. Si le poids est un nombre entier, un moyen de
produire des estimations pour la population serait de recopier chaque enregistrement pour quil y ait
50 copies de chacun et de calculer ensuite les valeurs dintrt (par exemple, les moyennes, les totaux, les
ratios, etc.) de ce fichier. La rptition devient plus difficile si le poids nest pas une valeur entire. (Si
deux units sur cinq sont slectionnes laide de lchantillonnage alatoire simple, par exemple, le
poids de base est donc wd = 2,5). Il est en gnral plus facile dajouter une variable de pondration
lenregistrement de chaque unit de lchantillon.
Ltude de la pondration commencera par les plans dchantillonnage avec probabilit gale qui sont le
cas de pondration le plus simple.

7.1.1

Pondration pour plans dchantillonnage avec probabilit gale

Les plans dchantillonnage sont considrs autopondrs lorsque les poids de base sont les mmes pour
toutes les units de lchantillon. Cest le cas lorsque chaque unit a la mme probabilit dinclusion.
Dans un plan dchantillonnage autopondr, si aucun ajustement ultrieur nest apport aux poids de
base (p. ex., pour les non-rponses ou les donnes auxiliaires), les poids peuvent tre ignors pour
produire certaines statistiques comme les proportions et les moyennes. Le calcul des totaux exige
simplement que le total de lchantillon soit multipli par le poids de base.
Quels plans dchantillonnage un degr sont autopondrs? Les chantillons alatoires simples (EAS) et
les chantillons systmatiques sont autopondrs parce que chaque unit a une chance gale dtre incluse
dans lchantillon. Dans un plan stratifi, un plan autopondr est obtenu, par exemple, si un EAS est
slectionn dans chaque strate et si la taille de lchantillon de chaque strate est proportionnelle la taille
de la population de la strate. La fraction dchantillonnage est donc la mme dans chaque strate et toutes
les units de la population ont la mme probabilit dinclusion. (Cette rpartition de lchantillon entre les
strates est intitule rpartition proportionnelle N et fait lobjet dune tude plus dtaille au Chapitre 8 Calcul de la taille de lchantillon et rpartition.)
Exemple 7.1 : EAS stratifi avec rpartition proportionnelle N
Supposons quune population de N = 1 000 personnes est rpartie en deux strates dans la base de sondage.
La premire strate est compose de N1 = 400 hommes et la deuxime, de N2 = 600 femmes. Un chantillon
total de n = 250 est tir des deux strates et lchantillon est rparti proportionnellement la taille de
chaque strate. La fraction dchantillonnage de chaque strate est donc quivalente
n/N = 250/1 000 = 1/4.
Tableau 1 : EAS stratifi avec rpartition proportionnelle N
Strate
Homme
Femme
Total

Taille de la population
N1 = 400
N2 = 600
N = 1 000

STATISTIQUE CANADA

Taille de lchantillon
n1 = 100
n2 = 150
n = 250

ESTIMATION

135

Voici les probabilits dinclusion dans chaque strate :


Strate 1, Hommes :
n
100 1
1 = 1 =
=
N 1 400 4

Strate 2, Femmes :
n
150 1
2 = 2 =
=
N 2 600 4

La probabilit dtre slectionn est donc la mme pour chacun, ainsi que le poids de base, wd = 1/ = 4.
Dans un plan dchantillonnage plusieurs degrs, lautopondration est obtenue en slectionnant des
grappes avec probabilit proportionnelle la taille (PPT) tous les degrs, lexception du dernier. Un
nombre dtermin dunits dans une grappe sont slectionnes au dernier degr (p. ex., choisir toujours
n=5 au dernier degr). Lchantillonnage PPT est souvent utilis dans les plans plusieurs degrs parce
quil peut donner un chantillon autopondr et permettre de contrler la taille de lchantillon.
Un exemple de plan dchantillonnage autopondr deux phases serait un EAS, un chantillon
systmatique ou un chantillon stratifi avec rpartition proportionnelle N obtenu chaque phase.
Les plans dchantillonnage ont t tudis au Chapitre 6 - Plans dchantillonnage.

7.1.2

Pondration pour plans dchantillonnage avec probabilits ingales

La simplicit des plans autopondrs est intressante, mais il nest pas toujours possible ou souhaitable de
slectionner un chantillon autopondr. Dans un plan stratifi aux fins dune enqute nationale, par
exemple, pour des rgions plus petites, la rpartition proportionnelle N peut donner des tailles
dchantillon insuffisantes et, pour les rgions plus grandes, elle peut donner des chantillons trop gros.
Lexemple suivant illustre les poids de base pour un plan dchantillonnage stratifi dont la taille de
lchantillon de chaque strate nest pas proportionnelle la taille de la population de la strate. (Le
Chapitre 8 - Calcul de la taille de lchantillon et rpartition donne davantage de dtails sur la
rpartition non proportionnelle.)
Exemple 7.2 : EAS stratifi avec rpartition non proportionnelle

Aux fins dune enqute sur les transports en commun, la population de N=1 100 personnes est rpartie en
deux strates gographiques. tant donn que les personnes qui habitent en milieu rural et urbain peuvent
tre trs diffrentes quant linformation obtenue pour lenqute, un plan dchantillonnage stratifi est
utilis. La strate urbaine est de la taille N1=1 000 et la strate rurale, N2=100. Un chantillon de n=250
personnes est slectionn : n1=200 dans la strate urbaine et n2=50 dans la strate rurale. Quelles sont les
poids de base pour les personnes chantillonnes?
Tableau 2 : EAS stratifi avec rpartition non proportionnelle
Strate
Urbain
Rural
Total

Taille de la population
N1 = 1 000
N2 = 100
N = 1 100

STATISTIQUE CANADA

Taille de lchantillon
n1 = 200
n2 = 50
n = 250

MTHODES ET PRATIQUES DENQUTE

136

Les probabilits dinclusion de chaque strate sont calcules comme suit:


Strate 1, Urbain :
n
200 1
1 = 1 =
=
N 1 1 000 5

Strate 2, Rural :
n
50 1
2 = 2 =
=
N 2 100 2

Dans le fichier de lchantillon, chaque rpondant de la strate du milieu urbain a un poids de base de
wd,1 = 5 et chaque rpondant de la strate du milieu rural a un poids de base de wd,2 = 2.
Dans un chantillonnage plusieurs degrs ou phases, la pondration du plan dans lensemble est calcule
en multipliant la probabilit de slection chaque degr ou phase et en appliquant ensuite linverse. Dans
un chantillon par grappes deux degrs, par exemple, supposons que vous slectionnez un EAS de
n1=10 dans un ensemble de N1=100 grappes au premier degr et un EAS de n2=30 units dans chaque
grappe au deuxime degr, le nombre dunits dans chaque grappe tant N2=60.
La probabilit de slection au premier degr est donne par:

1 =

n1
10
1
=
= ,
N 1 100 10

et la probabilit au deuxime degr par:

2 =

n2
30 1
=
= .
N 2 60 2

Le poids de base est donc :


wd =

7.1.3

= 10 2 = 20.

Ajustement de la pondration pour les non-rponses

Les non-rponses sont un problme dans toutes les enqutes et elles se produisent lorsque, pour certaines
raisons, linformation demande aux units chantillonnes nest pas disponible, en tout ou en partie. Il
est mentionn au Chapitre 3 - Introduction au plan denqute quil y a deux principaux types de nonrponse, la non-rponse partielle et la non-rponse totale. Il y a non-rponse partielle lorsque
linformation est disponible pour certaines questions seulement, par exemple, lorsque la personne
rpond une partie seulement du questionnaire. Limputation des valeurs manquantes est lapproche la
plus commune dans ce cas. (Diverses approches dimputation pour les non-rponses une question ou
partielles sont considres au Chapitre 10 - Traitement.)
Cette section traite de la non-rponse totale, cest--dire lorsque toutes les donnes ou presque dune
unit chantillonne sont manquantes. Il sagit de cas o lunit de lchantillon refuse de participer, o
il est impossible dtablir un contact, o lunit ne peut tre repre ou encore si linformation obtenue est
inutile. La faon la plus facile de traiter ces non-rponses est de les ignorer. Dans certaines circonstances
exceptionnelles, des proportions ou des moyennes estimes sans ajustement pour les non-rponses totales
sont les mmes que celles produites en appliquant un ajustement pour les non-rponses. Si lon vous
nglige de compenser pour les units non rpondantes, les totaux sont gnralement sous-estims (p. ex.,
la taille dune population, le total des revenus ou le total dacres rcolts).

STATISTIQUE CANADA

ESTIMATION

137

La faon la plus commune de traiter la non-rponse totale est dajuster les poids de base en supposant que
les units rpondantes reprsentent les units rpondantes et non rpondantes. Cette mesure est
raisonnable si lon considre que les non-rpondants sont quivalents aux rpondants pour les
caractristiques mesures dans lenqute. Les poids de base pour les non-rpondants sont ensuite
redistribues entre les rpondants. Cette mesure est souvent applique laide dun facteur dajustement
pour les non-rponses qui est multipli par la poids de base, afin dobtenir une pondration ajuste pour
les non-rponses, ceci tant illustr dans lexemple 7.3 ci-dessous.
On remarquera que les donnes de recensement peuvent aussi avoir un ajustement de pondration pour les
non-rponses et les poids de base seraient alors quivalents un, wd = 1. Le biais de non-rponse a t
tudi au Chapitre 3 - Introduction au plan denqute et au Chapitre 5 - Conception du
questionnaire.
7.1.3.1 Facteurs dajustement de la pondration pour les non-rponses

Le facteur dajustement pour les non-rponses est habituellement dfini comme le rapport entre la somme
des poids dans lchantillon original et la somme des poids des units rpondantes. Dans un plan
dchantillonnage autopondr, il est quivalent au rapport entre le nombre dunits de lchantillon
original et le nombre dunits rpondantes, et il est illustr ci-dessous.
Exemple 7.3 : Facteur dajustement pour les non-rponses dun EAS, un groupe de non-rponses

Un EAS de n=25 personnes est slectionn dans une population de N=100 personnes. Disons que le
nombre dunits rpondantes est nr. Seulement nr=20 personnes ont donn toute linformation demande.
Quelles sont les poids ajusts pour les non-rponses des units de lchantillon?
1. La premire tape est le calcul des probabilits dinclusion pour un EAS :

n
25 1
=
= .
N 100 4

Le poids de base pour chaque unit chantillonne est donc wd=4.


2. La deuxime tape est le calcul du facteur dajustement pour les non-rponses.
Seulement nr = 20 personnes sur n = 25 personnes slectionnes ont donn linformation demande et la
taille de lchantillon final est donc de 20 units. Si les units rpondantes reprsentent les units
rpondantes et non rpondantes, le facteur dajustement pour les non-rponses est donn par:
n
25
=
= 1,25.
n r 20

3. La dernire tape est le calcul des poids ajusts pour les non-rponses.
Les poids ajusts pour les non-rponses, wnr, sont le produit des poids de base et du facteur dajustement
pour les non-rponses :
n
wnr = wd
= 4 1,25 = 5.
nr

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

138

Chaque rpondant reprsente donc cinq personnes dans la population de lenqute. Un poids final de 5 est
attribu chaque unit dans le fichier des donnes.
Si lhypothse selon laquelle tous les non-rpondants sont quivalents aux rpondants pour les
caractristiques mesures dans lenqute est approprie, le mme facteur dajustement pour les nonrponses peut tre utilis pour toutes les units rpondantes (comme ci-dessus). Il y a habituellement des
sous-groupes, cependant, qui ont tendance rpondre diffremment et qui ont diffrentes caractristiques,
et un ajustement identique pour tous les rpondants peut donc biaiser les rsultats. Les mnages
unifamiliaux, par exemple, ont souvent des taux de rponse infrieurs ceux des mnages multiples et ils
ont des caractristiques diffrentes : il faudrait donc procder des ajustements distincts pour les nonrponses.
Un facteur dajustement diffrent pour les non-rponses est appliqu dans lexemple ci-dessous chacune
des deux strates : urbaine et rurale. Des caractristiques dintrt diffrentes entre les strates justifient
cette mesure.
Exemple 7.2 (suite) : Facteur dajustement pour les non-rponses de lEAS stratifi (o le groupe
des non-rponses correspond la strate)

Seulement nr,1=150 personnes dans la strate du milieu urbain et nr,2=40 personnes dans la strate du milieu
rural ont donn linformation demande pendant la collecte des donnes. Quelles sont les poids ajusts
pour les non-rponses de ces rpondants?
Tableau 3 : EAS stratifi avec les non-rponses
Strate

Urbain
Rural

Taille de la
population
N1 = 1 000
N2 = 100

Taille de
lchantillon
n1 = 200
n2 = 50

Nombre de rpondants

nr,1 = 150
nr,2 = 40

1. La pondration du plan dchantillonnage dans chaque strate est wd,1=5 pour la strate du milieu urbain
et wd,2=2 pour la strate du milieu rural.
2. Un facteur dajustement pour les non-rponses est calcul chaque strate, comme suit :
Strate 1, Urbain :
n1
200
=
= 1,33
n r ,1 150

Strate 2, Rural :
n2
50
=
= 1,25
n r , 2 40

3. La pondration ajuste pour les non-rponses dans chaque strate est le produit de la pondration du
plan dchantillonnage et du facteur dajustement pour les non-rponses.
Strate 1, Urbain :
n
wnr ,1 = wd ,1 1 = 5 1,33 = 6,67
n r ,1

Strate 2, Rural :
n
wnr , 2 = wd , 2 2 = 2 1,25 = 2,5
nr , 2

Dans le fichier de lchantillon, on attribue chaque rpondant de la strate du milieu urbain un poids final
de 6,67 et chaque rpondant de la strate du milieu rural, un poids final de 2,5.

STATISTIQUE CANADA

ESTIMATION

139

Lors du calcul du facteur dajustement pour les non-rponses, il est important de tenir compte du fait que
certaines units chantillonnes peuvent se rvler hors du champ de lenqute (c.--d. quelles ne font
pas partie de la population cible). Dans une enqute sur les entreprises de dtail, par exemple, certains
renseignements dans la base de sondage peuvent tre inexacts et une unit chantillonne peut en fait tre
un grossiste. Lajustement pour les non-rponses devrait tre calcul seulement pour les units
admissibles parce que les units hors du champ de lenqute reprsentent habituellement dautres units
hors du champ de lenqute dans la base de sondage. Il nest pas prvu que les units hors du champ de
lenqute rpondront au sondage et il faut donc prsumer que leur taux de non-rponse sera 100 %. Dans
lexemple ci-dessus, il est suppos que tous les non-rpondants sont admissibles, mais les facteurs
dajustement pertinents pourraient tre trs diffrents selon le nombre de non-rpondants admissibles
considr exact.
Il vaut mieux regrouper, pour toutes ces mthodes, les enregistrements semblables comme cest le cas
pour les ajustements de pondration pour les non-rponses (voir le Chapitre 7 - Estimation). Ces
regroupements sont intituls classes dimputation.
Lajustement pour les non-rponses devrait tre fait distinctement pour des groupes de rpondants
semblables lorsque chaque groupe de rpondants peut reprsenter les non-rpondants de ce groupe. Ces
groupements peuvent tre par strate ou par strate a posteriori (voir la section suivante), ou une analyse
peut tre faite pour dterminer les groupements (p. ex., test du chi au carr ou rgression logistique).
Groves et Couper (1998) couvrent en dtail la non-rponse dans les enqutes auprs des mnages. .
Le test du khi carr et la rgression logistique sont tudis au Chapitre 11 - Analyse des donnes de
lenqute.

7.1.4

Recours linformation auxiliaire pour ajuster les pondrations

Les poids de base multiplis par le facteur dajustement pour les non-rponses peuvent servir dterminer
les pondrations finales et les estimations des caractristiques voulues de lenqute. Linformation sur la
population de lenqute peut cependant tre disponible dautres sources, par exemple, la suite dun
recensement prcdent. Cette information peut aussi tre intgre au processus de pondration.
Il y a deux principales raisons pour utiliser les donnes auxiliaires lors de lestimation. Premirement, il
est souvent important que les estimations de lenqute correspondent aux totaux connus de la population
ou aux estimations dune autre enqute plus fiable. De nombreuses enqutes sociales, par exemple,
ajustent leurs estimations de lenqute pour quelles soient conformes aux estimations (ge, rpartition
des sexes, etc.) du recensement de la population le plus rcent. Linformation auxiliaire peut aussi tre
obtenue partir de donnes administratives ou dune autre enqute considre plus fiable parce que sa
taille dchantillon est plus large ou parce quil faut respecter ses estimations publies.
Deuximement, les donnes auxiliaires sont utilises pour amliorer la prcision des estimations. En effet,
un estimateur ayant une petite variance dchantillonnage, une mesure de lerreur dchantillonnage, est
considr prcis. Au Chapitre 6 - Plans dchantillonnage, nous avons considr limportance de
lutilisation des donnes auxiliaires lors de la conception de lchantillon, afin damliorer lefficience
statistique de la stratgie dchantillonnage. ltape du plan dchantillonnage cependant, linformation
auxiliaire doit tre disponible pour toutes les units de la base de sondage. ltape de lestimation, les
donnes auxiliaires peuvent servir amliorer la prcision des estimations si les variables auxiliaires ont
t mesures pour les units de lenqute et si les totaux ou les estimations de la population pour ces
variables auxiliaires sont disponibles une autre source fiable.

STATISTIQUE CANADA

140

MTHODES ET PRATIQUES DENQUTE

Si lge dune personne nest pas disponible dans la base de sondage, par exemple, il ne peut servir
stratifier la population. Si cette information est obtenue lors de lenqute cependant, les estimations de
lenqute peuvent tre ajustes pour correspondre la rpartition des ges dans le recensement. Si lge
est corrl avec dautres variables obtenues pendant lenqute (p. ex., les variables sur la sant), son
utilisation comme donnes auxiliaires peut amliorer la prcision des estimations. Cette notion est
illustre aux sections suivantes.
Linformation auxiliaire peut aussi servir pour apporter dautres corrections lorsquil y a des taux de nonrponses diffrents dans divers sous-groupes de la population. Elle peut aussi aider ajuster sil y a des
dfauts de couverture parce que la population du sondage est diffrente de la population cible.
Il y a trois exigences lmentaires pour utiliser avec succs des donnes auxiliaires ltape de
lestimation:
-

les donnes auxiliaires doivent tre bien corrles avec les variables de lenqute,

les sources externes dinformation sur la population doivent tre exactes,

il faut faire la collecte de linformation auxiliaire pour toutes les units rpondantes de lchantillon
quand on ne connat que les totaux de la population.

Plus les variables de lenqute sont troitement corrles avec les donnes auxiliaires disponibles, plus les
estimations qui utilisent les donnes auxiliaires seront efficientes. La prcision de linformation auxiliaire
est importante. Non seulement les donnes doivent tre fiables, mais il est aussi important que la source
de donnes externe couvre la mme population cible et quelle soit tablie selon des concepts, dfinitions
et priodes de rfrence comparables, etc., ceux de lenqute.
Les sections suivantes dcrivent comment les donnes auxiliaires peuvent servir aux estimations.
LAnnexe A - Donnes administratives explore plus avant lutilisation des donnes administratives.
7.1.4.1 Stratification a posteriori

La stratification a posteriori est utilise pour ajuster les poids de lenqute laide de variables qui
conviennent la stratification, mais qui ne pouvaient tre utilises ltape de la conception du plan parce
que les donnes ntaient pas disponibles, ou parce que de linformation plus fiable et jour est devenue
disponible aprs la slection de lchantillon. La stratification a posteriori est utilise lorsque les donnes
auxiliaires sont numriques, par exemple, le nombre dhommes et de femmes dans la population. Elle est
plus efficace pour diminuer la variance dchantillonnage lorsque les moyennes des variables dintrt de
la population sont aussi diffrentes que possible entre les strates a posteriori. Il ne faut pas oublier quil
est prfrable, si possible, de stratifier ltape de la conception du plan au lieu dappliquer la
stratification a posteriori.
Lexemple suivant rvle comment utiliser la stratification a posteriori pour amliorer lestimation du
nombre de fumeurs dans une entreprise.

STATISTIQUE CANADA

ESTIMATION

141

Exemple 7.4 : Ajustement de la pondration pour stratification a posteriori de lEAS

Supposons quune enqute est faite pour obtenir de linformation sur le tabagisme des employs dans une
petite entreprise. Un EAS de n=25 personnes est slectionn dans une liste de N=78 employs. Il ny a
pas dinformation auxiliaire disponible qui peut servir la stratification ltape de la conception du plan.
La collecte de linformation est faite sur le tabagisme, et lge et le sexe de chaque rpondant sont aussi
disponibles. Sur n=25 personnes lorigine, nr=15 rpondent et la rpartition suivante est faite :
Tableau 4 : EAS, non-rponse et stratification a posteriori
Strate a
posteriori 1,
hommes
3
1

Tous les employs


Employs fumeurs

Strate a
posteriori 2,
femmes
12
7

Nombre de
rpondants

15
8

1. La probabilit dinclusion de chaque unit chantillonn est donne par:

n 25
=
= 0,32
N 78

Le poids de base est donc wd=1/=3,12.


2. Le facteur dajustement pour les non-rponses, en supposant que chacun dans lenqute a la mme
probabilit de rpondre au sondage (c.--d., un groupe de non-rponses) est donn par:

n 25
=
= 1,67
n r 15
3. On obtient les poids ajusts pour les non-rponses en faisant:
wnr = wd

n
= 3,12 1,67 = 5,2
nr

Tous les rpondants ont donc la mme pondration ajuste pour les non-rponses, wr=5,2. Les estimations
suivantes de lenqute sont faites laide de ces poids (consultez la section 7.2 pour obtenir des dtails et
apprendre comment faire des estimations denqute) :
Tableau 5 : Estimation de lenqute et ajustement pour les non-rponses

Nombre demploys
Nombre de fumeurs
Proportion de fumeurs

Hommes
15,6
5,2
0,33

Femmes
62,4
36,4
0,59

Total
78,0
41,6
0,53

Les pondrations ajustes pour les non-rponses donnent une estimation denviron 16 hommes et
62 femmes qui travaillent dans lentreprise, ainsi quune estimation de 33 % de fumeurs et de 59 % de
fumeuses dans lentreprise. Supposons que linformation auxiliaire suivante devienne disponible aprs

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

142

lenqute : 42 hommes et 36 femmes travaillent dans lentreprise. Les estimations de lenqute sont trs
diffrentes de ces valeurs relles.
Lorganisme statistique veut que les estimations de lenqute soient conformes au nombre connu
dhommes et de femmes. Lorganisme souponne aussi que le tabagisme est li au sexe dune personne et
la stratification a posteriori pourrait amliorer la prcision des estimations sur le tabagisme. Si cette
information avait en fait t disponible au moment de la conception du plan, lorganisme statistique aurait
stratifi par sexe. Que faire?
Il est possible de stratifier lchantillon aprs le fait et de dterminer des pondrations stratifies a
posteriori utiliser au moment de lestimation. La pondration stratifie a posteriori, wpst, est le produit
de la pondration ajuste pour les non-rponses, wnr, et du facteur dajustement stratifi a posteriori.
Le facteur dajustement stratifi a posteriori est dtermin pour chaque strate a posteriori. Ce facteur
correspond au rapport entre le nombre dunits de la population dans la strate a posteriori, N, et le nombre
estim dunits de la population dans la strate a posteriori, N , qui est estim laide des pondrations du
plan ajust pour les non-rponses.
4. Le facteur dajustement pour stratification a posteriori se calcule comme suit :
Strate a posteriori 1, Hommes :
N hommes
42
=
= 2,69

N hommes 15,6

Strate a posteriori 2, Femmes :


N femmes
36
=
= 0,58

62,4
N
femmes

(Remarque : Cet exemple vaut pour lEAS, mais la mme formule, N / N , est utilise pour des
pondrations de plan dchantillonnage plus complexes.)
Lorsquil est appliqu la pondration ajuste pour les non-rponses, il donne les pondrations stratifies
a posteriori finales :
Strate a posteriori 1, Hommes :
N
w pst , hommes = wnr hommes = 5,2 2,69 = 14
N

Strate a posteriori 2, Femmes :


N femmes
= 5,2 0,58 = 3
w pst , femmes = wnr
N
femmes

hommes

Voici maintenant les estimations de lenqute laide des pondrations stratifies a posteriori :
Tableau 6 : Estimations de lenqute avec ajustement pour les non-rponses et la stratification a
posteriori

Nombre de personnes
Nombre de fumeurs
Proportion de fumeurs

Hommes
42
14
0,33

Femmes
36
21
0,59

Total
78
35
0,45

Les estimations du nombre dhommes et de femmes sont maintenant conformes aux totaux connus
dhommes et de femmes dans lentreprise et, dans la mesure o le sexe est li au nombre et la
proportion de fumeurs, il est possible damliorer normment la prcision. Remarquez que la proportion
de fumeurs dans chaque strate a posteriori na pas chang, mais que la proportion de fumeurs dans la
population totale qui comprend plus dune strate a posteriori a chang.
STATISTIQUE CANADA

ESTIMATION

143

7.1.4.2 Estimation par quotient

Une mthode souvent applique dans les enqutes pour intgrer de linformation auxiliaire, afin
damliorer les estimations de lenqute, est lestimation par quotient. Lorsque les donnes sont des
nombres, lestimation par quotient correspond la stratification a posteriori. Dans le cas dune estimation
par quotient en gnral, les poids des enregistrements dans un groupe de classification sont ajustes par
un facteur multiplicatif. Ce facteur est le rapport entre lestimation tire des donnes auxiliaires et
lestimation de lenqute pour la mme variable, pour le groupe de classification.
Si lobjectif dune enqute est destimer le nombre dacres de bl dans des rgions en particulier, par
exemple, le nombre total dacres dans chaque rgion pourrait tre une variable auxiliaire utile. Si le
nombre dacres de bl est fortement corrl avec le total des terres dans la rgion, cette information
auxiliaire pourrait amliorer les estimations du nombre dacres de bl. laide de lestimation par
quotient, le facteur dajustement pour chaque rgion serait la superficie totale des terres de la rgion
divise par lestimation dans lchantillon du total de la superficie des terres de la rgion (c.--d. que le
facteur dajustement serait Y / Y ) . Dans lexemple 7.4, les quotients sont le nombre dhommes divis par
le nombre estim dhommes et le mme quotient pour les femmes et, ceux-ci tant des nombres, ils
correspondent la stratification a posteriori. Tout comme les mthodes prcdentes, lestimation par
quotient peut tre applique distinctement par strate si linformation auxiliaire est disponible ce niveau
et si la taille de lchantillon de chaque strate est suffisante.
7.1.4.3 Ajustements de la pondration plus complexes : calibration et rgression gnralise

Lestimation par quotient est fonde sur lhypothse selon laquelle il y a une simple relation
multiplicative entre les caractristiques de lenqute et une variable auxiliaire (c.--d. que 2,7 fois plus
dhommes signifie 2,7 fois plus de fumeurs). Cette hypothse peut cependant ne pas tre vraie dans toutes
les situations. Premirement, le recours une seule variable auxiliaire peut tre insuffisant pour donner de
bonnes estimations. Deuximement, la relation entre la variable estime et la variable auxiliaire peut tre
plus complexe quune simple relation multiplicative. Dans ce cas, lestimation par rgression peut tre
utilise. Lestimation par rgression est une approche plus complexe qui permet lanalyste de considrer
des modles plus perfectionns, y compris des modles ayant plus dune variable auxiliaire.
Lestimation par quotient pose un autre problme : il peut tre ncessaire de garantir que les totaux de
lchantillon pondr correspondent aux totaux connus de la population pour plus dune caractristique.
Si les totaux de lchantillon pondr doivent correspondre aux totaux de rfrence pour plus dune
caractristique, il faut appliquer une mthode intitule calibration. La situation se produit, par exemple,
lorsque des strates a posteriori sont formes laide de plus dune variable et que seuls les totaux
marginaux de la population pour chaque variable sont connus. Si les donnes sur la population taient
disponibles en nombre par groupe dge et par sexe, par exemple, mais si le nombre dhommes et de
femmes dans chaque groupe dge est inconnu, la mthode de stratification a posteriori dcrite
auparavant ne pourrait tre applique en utilisant les deux caractristiques. (Lestimation par quotient et la
stratification a posteriori sont une calibration qui utilise une seule variable.)
Un prolongement de la mthode par quotient intitule mthode itrative du quotient permet lorganisme
statistique dtablir les pondrations ajustes pour que les estimations soient trs prs des nombres de
rfrence marginaux pour chaque caractristique. Vous obtiendrez une description de cette mthode en
consultant Deming et Stephan (1940), Arora et Brackstone (1977), Bankier (1978), Brackstone et Rao
(1978), Binder (1988).

STATISTIQUE CANADA

144

MTHODES ET PRATIQUES DENQUTE

Des procdures destimation gnralises ont aussi t labores pour obtenir des estimations qui
conviennent aux totaux de rfrence pour de nombreuses caractristiques simultanment. Lorsque ces
techniques gnrales sont appliques, le processus qui garantit que les nombres correspondent aux totaux
de rfrence est intitul calibration et les ajustements de pondration obtenus sont intituls facteurs de
calibration.
Ces techniques, comme lestimation par quotient et la stratification a posteriori, donnent des ajustements
des poids de base. Les poids finaux utiliss pour calculer les estimations deviennent le produit des poids
ajusts pour les non-rponses et des facteurs de calibration. Les procdures destimation gnralises sont
hors de la porte de ce document. Le lecteur dcouvrira la thorie de lestimation par rgression
gnralise dans Srndal, Swensson et Wretman (1992), Deville et Srndal (1992) et Hidiroglou et
Srndal (1998). Le Chapitre 11 - Analyse des donnes de lenqute prsente une introduction la
rgression linaire.

7.2

Production destimations simples (totaux, moyennes et proportions)

Les exemples ont illustr jusqu maintenant comment calculer les poids de base et les ajuster pour les
non-rponses et pour les donnes auxiliaires. Cette section explique comment obtenir des estimations
laide des poids finaux (poids destimation).
On a not au Chapitre 6 - Plans dchantillonnage quavec lchantillonnage probabiliste, il est possible
de dterminer la distribution dchantillonnage de lestimateur. Dans lchantillonnage non probabiliste,
tant donn que les probabilits de tirage des divers chantillons sont inconnues, la distribution
dchantillonnage ne peut tre calcule. Pouvoir mesurer lerreur dchantillonnage est un volet important
de lestimation de lenqute et lune des principales raisons de procder un chantillonnage probabiliste.

7.2.1

Estimateurs pour divers genres de donnes

Des statistiques descriptives simples comme les totaux, moyennes et proportions, sont produites pour
peu prs toutes les enqutes. Des statistiques et des analyses plus complexes sont aussi habituellement
ncessaires. Dans la majorit des enqutes, des donnes sont obtenues pour un large ventail de variables
qui peuvent tre qualitatives (aussi intitules nominales) ou quantitatives.
Quelques catgories seulement sont possibles pour certaines variables qualitatives, par exemple, le sexe
ou ltat civil. Quant aux questions dopinion, les rponses des participants sont souvent obtenues laide
dune chelle dagrment, par exemple, vraiment daccord, daccord, ni pour ni contre, pas daccord,
vraiment pas daccord. Remarquez quavec les donnes nominales, chaque unit correspond une seule
catgorie.
Si lunit de mesure indique des quantits comme des mtres ou des annes, les donnes sont
quantitatives. Les donnes quantitatives sont habituellement des rponses aux questions du genre quelle
quantit? ou quel nombre?, c.--d. combien? Certains exemples sont lge, le nombre denfants, le
nombre dheures travailles, les dpenses et les revenus, la tension artrielle.
Diffrents types destimateurs sont appropris pour ces divers genres de variables. On produit
habituellement des proportions et des comptes totaux pour des variables qualitatives, tandis que les
moyennes et les totaux sont estims pour des variables quantitatives. Dans cette section, les procdures

STATISTIQUE CANADA

ESTIMATION

145

appliques pour obtenir des estimations seront prsentes distinctement pour les donnes qualitatives et
quantitatives.
Outre le genre de donnes, une autre considration pendant lestimation est la caractristique
dterminante de la population que ciblent les estimations. Des estimations peuvent tre tablies pour toute
la population de lenqute ou pour des sous-groupes ou domaines de la population en particulier (p. ex.,
les provinces). Si la classification originale des units de lchantillonnage a chang pendant la priode
coule entre lchantillonnage et lestimation, la nouvelle classification devrait tre utilise pour
lestimation des domaines.
Les rponses aux questions suivantes devraient aider dterminer comment les estimations de lenqute
sont calcules :
- Quel genre de statistiques sont demandes? Un total, une moyenne, une proportion?
- Quel genre de donnes sont utilises? Qualitatives ou quantitatives?
- Quelles sont les poids finaux ?
- Quels sont les domaines dintrt?
Les procdures destimation des totaux, moyennes et proportions, pour toute la population denqute et
pour des domaines, sont dcrites ci-dessous pour les donnes qualitatives et quantitatives.
Les estimateurs suivants peuvent tre appliqus tout plan dchantillonnage probabiliste simple (p. ex.,
EAS, SYS) ou plus complexe. Il est important surtout que la pondration finale de chaque unit
corresponde au correctement le plan dchantillonnage.
i.

Estimation dun total de la population

Lestimation du nombre total dunits dans la population denqute est calcule, pour les donnes
qualitatives et quantitatives, en additionnant les poids finaux (ajusts) des units rpondantes :
N = wi
iS r

o i est la ie unit rpondante de lchantillon, wi, son poids final et Sr, lensemble des units rpondantes.
Lestimation dune valeur totale pour les donnes quantitatives (p. ex., les dpenses totales) est le produit
du poids final , wi, et de la valeur, yi, pour chaque unit rpondante dont on fait la somme pour toutes les
units rpondantes :
Y = wi y i
iS r

ii.

Estimation dune moyenne de la population

Lestimation dune valeur moyenne dans la population pour les donnes quantitatives est obtenue en
additionnant le produit de la valeur observe et du poids final pour chaque unit rpondante, et en divisant
cette somme par celle des poids. Autrement dit, lestimation de la moyenne dans la population est
lestimation de la valeur totale des donnes quantitatives divise par lestimation du nombre total dunits
dans la population.

STATISTIQUE CANADA

146

MTHODES ET PRATIQUES DENQUTE

Y =

w y
w
i

iS r

Y
N

iS r

Remarque : Pour lEAS ou le SYS ayant un taux de rponse de 100 % sans ajustement pour la
pondration, lestimateur se simplifie ainsi :
yi

iS

Y =
n
r

iii.

Estimation dune proportion de la population

Lestimation de la proportion des units dans la population de lenqute ayant une caractristique donne,
pour les donnes qualitatives, est obtenue en additionnant les poids des units ayant cette caractristique,
et en divisant ce total par la somme des poids pour tous les rpondants. Autrement dit, lestimation de la
proportion dans la population est lestimation du nombre total des units qui ont la caractristique donne
divise par lestimation du nombre total dunits dans la population.

P =

w
w

iS r C

N C
N

iS r

o C est lensemble des units ayant la caractristique donne.


iv.

Estimation pour les domaines de la population

Des estimations peuvent tre demandes pour certains domaines, notamment le groupe dge, le type de
logement, la taille du mnage ou la tranche de revenu.
-

Lestimation de la taille de la population pour un domaine dintrt, tant pour les donnes qualitatives
que quantitatives se calcule ainsi :
N domaine = wi
iS r domaine

Lestimation dun total de domaines pour les donnes quantitatives est donne par :
Ydomaine =

w y

i i
iS r domaine

On en dduit lestimation dune moyenne de domaines pour les donnes quantitatives :


Ydomaine =

w y
w

i i
iS r domaine
i
iS r domaine

Ydomaine
N

domaine

STATISTIQUE CANADA

ESTIMATION

147

De faon quivalente, lestimation dune proportion de domaines pour les donnes qualitatives ou
quantitatives est donne par :
wi N domaine C
iS domaine C

=
Pdomaine =
N domaine
wi
r

iS r domaine

Ces procdures destimation sont illustres dans les sections suivantes.

7.2.2

Estimations des totaux, moyennes et proportions

Lutilisation correcte des poids destimation est au cur du processus destimation.


Exemple 7.6 : Estimation lorsque les poids finaux sont ingaux, EAS

Une enqute est mene pour obtenir de linformation sur une population dexploitations agricoles
(fermes). Un chantillon de n=10 exploitations est slectionn laide dun plan dchantillonnage
stratifi. Les 10 exploitations agricoles rpondent et il ny a pas dajustement aux poids, le poids final
tant donc gal au poids de base. Il faut obtenir des estimations partir du fichier de donnes suivant :
Strate
1
1
1
1
1
1
2
2
2
2

Pondration finale
5,67
5,67
5,67
5,67
5,67
5,67
16,5
16,5
16,5
16,5

Genre de ferme
1
2
1
1
2
1
1
1
2
1

Revenu ($)
75 000
15 000
125 000
67 000
80 000
40 000
30 000
14 000
48 000
22 000

Genre de ferme
1=culture
( N1 = 34, n1 = 6)
2=levage
( N2 = 66, n2 = 4)
-

Le nombre dexploitations agricoles dans la population est estim :


N = wi
iS r

= 5,67 + 5,67 + 5,67 + 5,67 + 5,67 + 5,67 + 16,5 + 16,5 + 16,5 + 16,5
= 100
Remarque : Si les pondrations avaient t omises, le calcul erron de lestimation aurait donn 10.
-

Le nombre estim dexploitations agricoles dlevage (eae) est donne par :


N eae =

= 5,67 + 5,67 + 16,5 = 28

iS r eae

STATISTIQUE CANADA

148

MTHODES ET PRATIQUES DENQUTE

On en dduit la proportion estime dexploitations agricoles dlevage :

P =

w
w

iS r eae

28
= 0,28
100

iS r

Le revenu total de la population entire dexploitations agricoles est estim :


Y = wi y i
iS r

= 5,67 75 000 + 5,67 15 000 + . + 16,5 22 000


= 4 160 340
-

On estime le revenu moyen pour toute la population dexploitations agricoles en faisant :


Y =

w y
w
i

iS r

4 160 340
= 41 595
100,02

iS r

Lestimation du revenu total des exploitations agricoles dlevage est donne par :
Yeae =

w y
i

iS r eae

= 5,67 84 000 + 5,67 48 000 + 16,5 23 000


= 1 330 650
-

Lestimation du revenu moyen des exploitations agricoles dlevage est :

Yeae =

w y
w
i

iS r eae

iS r eae

5,67 84 000 + 5,67 48 000 + 16,5 23 000


5,67 + 5,67 + 16,5
1 330 650
=
= 47 796
27,8
=

Remarque : Si les pondrations de lchantillonnage taient ignores, les estimations seraient inexactes.
Le tableau ci-dessous montre la comparaison :

STATISTIQUE CANADA

ESTIMATION

149

Tableau 7 : Comparaison des estimations calcules avec et sans pondration


Paramtre estim

N
Neae
P
Y
Y
Yeae
Yeae

Estimation exacte
avec pondration
100
28
0,28
4 160 340 $
41 595 $
1 330 650 $

47 796 $

Estimation inexacte
sans pondration
10
3
0,30
516 000 $
51 600 $
155 000 $

51 667 $

Il est possible dtablir des estimations pour les donnes qualitatives laide de techniques habituellement
rserves aux variables quantitatives. Une variable indicatrice peut tre dfinie pour chaque catgorie de
la variable qualitative qui prend la valeur 1 si lunit appartient la catgorie, et 0 autrement.
Lestimation du nombre total dunits ayant la caractristique est obtenue en calculant le produit de la
valeur de la variable indicatrice (1 ou 0) et du poids pour chaque unit rpondante, et ensuite, en faisant la
somme pour toutes les units rpondantes. Compte tenu de cette approche, les procdures destimation
des donnes qualitatives et quantitatives sont les mmes.

7.2.3

Questions destimation

7.2.3.1 Estimation pour les petits domaines

Le plan dchantillonnage devrait tenir compte des domaines dintrt par lintermdiaire de la
stratification lorsque cest possible. Cette mesure garantit une prcision et une taille de lchantillon
appropries. Des restrictions appliques la taille de lchantillon et dautres critres de plan
dchantillonnage (notamment linformation de la base de sondage) peuvent cependant signifier que seul
un nombre minime de strates peuvent tre formes et, pour certains domaines, en particulier les petits, la
taille de lchantillon peut donc tre insuffisante.
Une taille dchantillon insuffisante dans un domaine peut poser un problme au moment de lestimation.
Diverses techniques sont disponibles pour obtenir des estimations dans ces cas. Elles comprennent
lestimation synthtique, lestimation composite et dautres encore. Ces mthodes exigent habituellement
de linformation corrle dune autre source ou le recours de bons modles. Lapplication de ces
techniques peut devenir complexe et elle est hors de la porte de ce manuel. Le lecteur intress obtiendra
davantage dinformation sur ce sujet avanc en consultant Srndal, Swensson et Wretman (1992), Ghosh
et Rao (1994), Singh, Gambino et Mantel (1994).
7.2.3.2 Valeurs aberrantes

Selon la dfinition de Barnett et Lewis (1995), une valeur aberrante est une observation ou un sousensemble dobservations qui semble(nt) tre incohrente(s), compte tenu des autres sries de donnes.
Il y a diverses mthodes disponibles pour diminuer les rpercussions des valeurs aberrantes sur les
estimations de lenqute. Les ignorer simplement peut diminuer la prcision, leur donner une pondration
de un ou de zro peut biaiser les rsultats. Dautre part, linformation auxiliaire et la stratification a
posteriori peuvent tre utilises pour garantir que les valeurs aberrantes nont pas de rpercussions

STATISTIQUE CANADA

150

MTHODES ET PRATIQUES DENQUTE

excessives sur les estimations. Les valeurs aberrantes sont abordes au Chapitre 10 - Traitement. Ce
sujet avanc est aussi tudi dans Kish (1965), et Hidiroglou et Srinath (1981).

7.3

Estimation des erreurs dchantillonnage des estimations de lenqute

Des erreurs peuvent se glisser dans les estimations dune enqute. Au Chapitre 3 - Introduction au plan
denqute, nous mentionnons deux types lmentaires derreurs, lerreur dchantillonnage et les erreurs
non dues lchantillonnage. Les erreurs non dues lchantillonnage se traduisent souvent par un biais
et sont difficiles mesurer. Lerreur dchantillonnage donne la variabilit, elle mesure quel point une
estimation de diffrents chantillons possibles de la mme taille et du mme plan dchantillonnage,
laide du mme estimateur, donne des rsultats diffrents lun de lautre.
Limportance dune estimation de la variance dchantillonnage ltape de la conception du plan, afin de
comparer lefficience statistique de diffrents plans dchantillonnage, est explique au Chapitre 6 Plans dchantillonnage. Le Chapitre 8 - Calcul de la taille de lchantillon et rpartition rvle
comment une estimation de la variance dchantillonnage est utilise, afin de dterminer la taille de
lchantillon ncessaire pour obtenir un niveau de prcision donn.
Lobjectif de cette section est dillustrer comment la variance dchantillonnage est mesure et
limportance de la prise en compte du plan dchantillonnage. Cette section prsente seulement les
estimateurs de la variance pour une moyenne ou un total estim pour un EAS ou un EAS stratifi en
supposant quil ny a pas dajustement des poids de base. Lestimation de la variance pour une proportion
estime dun EAS et des plans dchantillonnage plus complexes ( laide dun effet de plan) sont
expliqus au Chapitre 8 - Calcul de la taille de lchantillon et rpartition.
Chaque stratgie dchantillonnage a sa formule particulire destimation de la variance
dchantillonnage et elle peut tre complique. Il faudrait consulter un statisticien denqute qui connat
bien ce genre de problme pour estimer correctement la variance dchantillonnage pour des donnes
complexes (c.--d. pour les plans dchantillonnage plus complexes et lorsquil y a ajustements de la
pondration).
Les formules prsentes dans ce chapitre se retrouvent dans tout ouvrage dintroduction la thorie des
sondages, par exemple, Cochran (1977) ou Lohr (1999).

7.3.1

Variance dchantillonnage

Du point de vue mathmatique, la variance dchantillonnage dune estimation est la dviation


quadratique moyenne par rapport la valeur moyenne de lestimateur pour tous les chantillons possibles.
Une liste de facteurs qui ont des rpercussions sur limportance de la variance dchantillonnage a t
donne au Chapitre 3 - Introduction au plan denqute :
- la variabilit de la caractristique dintrt dans la population,
- la taille de la population,
- le taux de rponse,
- le plan dchantillonnage et la mthode destimation.
Les rpercussions de ces facteurs sur la variance dchantillonnage sont illustres ci-dessous laide de
lestimateur pour la variance dchantillonnage dune moyenne de la population estime partir de

STATISTIQUE CANADA

ESTIMATION

151

lEASSR avec un taux de rponse de 100 %. (Voir aussi le Chapitre 8 - Calcul de la taille de
lchantillon et rpartition.)
La valeur de chaque variable, yi, varie habituellement dune unit lautre dans la population. La variance
de la population, 2, de toutes les units, yi, dans la population est dfinie comme suit :

2 =

( N 1) 2
S
N

o
S2 =
iU

( yi Y ) 2
N 1

U est lensemble des units de la population et il y a N units dans la population.

Un estimateur non biais de la moyenne de la population pour un EASSR de taille n avec un taux de
rponse de 100 % est donn par :
y
Y = i
iS n
r

o Sr est lensemble des rpondants de lchantillon et il y a n units dans lchantillon.


Lestimation, Y , varie dun chantillon lautre. La variance dchantillonnage de Y pour un EASSR de
taille n peut tre exprime ainsi :
n S2
Var (Y ) = (1 )
N n
Il est vident, compte tenu de lquation ci-dessus, quune estimation pour une caractristique ayant de
grandes diffrences dune unit lautre, c.--d. une variabilit leve dans la population, a une variance
dchantillonnage plus grande que celle dune estimation pour une caractristique ayant une faible
variabilit dans la population. Habituellement, S2 est inconnue et doit tre estime (voir la
section 7.3.2.3.).
Il est aussi vident que la taille de la population a des rpercussions sur la variance dchantillonnage :
lquation f = n/N est appele la fraction de sondage et lquation (1-f) = 1-n/N est le facteur de correction
de la population finie (cpf, aussi parfois appel facteur dexhaustivit). La variance dchantillonnage
diminue dans la mesure o la taille de lchantillon, n, augmente et, lors dun recensement (o n=N), il
ny a pas de variance dchantillonnage. Lorsque la fraction de sondage est petite (c.--d. que la taille de
lchantillon est petite comparativement la population), on peut ignorer la cpf. (Selon Cochran (1977),
ce facteur peut tre ignor sil nest pas suprieur 5 % et, dans de nombreux cas , mme sil est aussi
lev que 10 %.) Toutefois, les non-rponses augmentent la variance dchantillonnage en diminuant en
fait la taille de lchantillon.
Il est expliqu au Chapitre 6 - Plans dchantillonnage que certaines stratgies dchantillonnage sont
plus efficientes que dautres. La stratification, par exemple, et lutilisation destimateurs par le ratio
peuvent amliorer la prcision des estimations.
Dans ltude de la variance dchantillonnage qui suit, il est suppos que lestimateur nest pas biais.
Dans certains cas cependant, il vaut mieux avoir un estimateur biais (p. ex., lorsque sa prcision est

STATISTIQUE CANADA

152

MTHODES ET PRATIQUES DENQUTE

meilleure que tout autre estimateur non biais). Sil y a un biais, peu importe la raison, cause dun
estimateur biais ou dune erreur non due lchantillonnage, les formules de variance de
lchantillonnage prsentes dans les sections suivantes permettent de calculer lerreur quadratique
moyenne (EQM) qui est une mesure de la variance dchantillonnage et du biais. Le rsultat peut susciter
des problmes dintervalles de confiance et ceci sera repris au Chapitre 11 - Analyse des donnes de
lenqute.
7.3.1.1 Calcul de la variance dchantillonnage relle

Lexemple suivant illustre comment calculer la variance dchantillonnage relle des dpenses moyennes
estimes pour les articles vido dans un EASSR de taille n=2.
Exemple 7.7 :

Les dpenses pour les articles vido dune population de quatre mnages sont inscrites ci-dessous. Dans
un EASSR de taille n=2, quelle est la variance dchantillonnage relle des dpenses moyennes estimes?
Tableau 8 : Dpenses pour articles vido par mnage
Mnage

Dpenses pour articles


vido ($)
10
20
30
40

1
2
3
4

Remarquez dabord que la valeur du paramtre des dpenses moyennes de la population pour les articles
vido est la suivante :
y
Y = i
iU N
10 + 20 + 30 + 40
=
= 25
4
Voici lestimateur habituel pour la moyenne estime dans un EAS :
y
y
Y = i = i
iS n
iS 2
r

Nous pouvons calculer la variance dchantillonnage relle de la moyenne estime, Var (Y ) , pour un
EASSR de taille n=2 en considrant les rsultats de tous les chantillons possibles de taille 2 de lEASSR.
Ils sont affichs au tableau ci-dessous :

STATISTIQUE CANADA

ESTIMATION

153

Tableau 9 : Calcul de la variance dchantillonnage relle de Y


chantillon

Units de
lchantillon

Estimation de
lchantillon ($)
Y

(Y Y )

(Y Y ) 2

1
2
3
4
5
6

(1,2)
(1,3)
(2,3)
(1,4)
(2,4)
(3,4)
Moyenne

15
20
25
25
30
35
25

-10
-5
0
0
5
10
0

100
25
0
0
25
100
41.7

1. Dabord, calculer la moyenne de toutes les moyennes possibles de lchantillon :

Y(1) + Y( 2 ) + Y( 3) + Y( 4 ) + Y( 5) + Y( 6 )

Y =
6
15 + 20 + 25 + 25 + 30 + 35
=
= 25 = Y
6
On remarque que la valeur moyenne de lestimation pour tous les chantillons possibles est gale la
moyenne de la population, Y . Voil qui est prvisible parce que lestimateur pour Y nest pas biais.
2. Ensuite, calculer la diffrence entre chaque estimation de lchantillon et lestimation moyenne de
tous les chantillons (c.--d. Y j Y pour le jme chantillon) inscrite dans la quatrime colonne du

tableau ci-dessus.
3. Calculer le carr de ces diffrences (c.--d. (Y j Y ) 2 ) inscrit dans la cinquime colonne du tableau.
4. Pour lensemble, J, de tous les chantillons de la population, calculer la moyenne des diffrences au
carr :
(Y j Y ) 2
Var (Y ) =
6
jJ
=

100 + 25 + 0 + 0 + 25 + 100
= 41.7
6

La variance dchantillonnage relle des dpenses moyennes estimes pour les articles vido dun EASSR
de taille n=2 pour cette population est donc Var (Y ) = 41,7 .
Le problme de lapproche ci-dessus est quil nest pas pratique de slectionner tous les chantillons
possibles de la population. Une solution de rechange est de slectionner de nombreux chantillons par
rpliques, comme il est mentionn la Section 6.3.9 du Chapitre 6 - Plans dchantillonnage et la
section 7.3.4. Dautre part, lquation prsente plus tt pourrait tre utilise directement :

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

154

n S2
Var (Y ) = (1 )
N n
o :
S2 =
iU

( yi Y ) 2
N 1

(10 25) 2 + (20 25) 2 + (30 25) 2 + ( 40 25) 2


(4 1)
= 166,7
=

donc :
n S2

Var (Y ) = 1
= 1
N n

2 166,7
= 41,7

4 2

Lquation ci-dessus pose un problme : sauf sil y a eu recensement auparavant, la variabilit de la


population, S2, est inconnue et doit tre estime partir dun seul chantillon. Si lchantillonnage
probabiliste est utilis, la distribution dchantillonnage de lestimateur peut tre calcule et la variance de
la population peut tre estime partir dun seul chantillon.
Les formules pour S 2 se trouvent dans nimporte quel ouvrage thorique sur lchantillonnage pour les
plans dchantillonnage standard (EAS, chantillonnage stratifi, etc.). Lorsque le plan dchantillonnage
ou la procdure destimation est complexe, dautres mthodes peuvent servir, notamment celles qui sont
dcrites la Section 7.3.4.

Un estimateur sans biais de la variance dchantillonnage de la moyenne estime, Y , pour un EASSR, est
donn par :
n S 2

Var (Y ) = 1
N n

o :
( y y)2
S 2 = i
n 1
iS
et o :
y
y= i
iS n
Cette formule sera illustre la Section 7.3.2.3.
Un estimateur sans biais de la variance dchantillonnage du total estim, Y , pour un EASSR, est donn
par :

n S 2

Var (Y ) = Var ( N Y ) = N 2Var (Y ) = N 2 1


.
N n
On verra au Chapitre 8 - Calcul de la taille de lchantillon et rpartition lestimation de la variance
dchantillonnage dune proportion estime, P .

STATISTIQUE CANADA

ESTIMATION

155

7.3.2 Autres mesures de lerreur dchantillonnage


Avant dillustrer comment estimer la variance dchantillonnage, dautres mesures communes de lerreur
dchantillonnage seront prsentes, notamment :
- lerreur-type,
- le coefficient de variation,
- la marge derreur,
- lintervalle de confiance.
Ce sont des expressions connexes et il est possible de passer de lune lautre en appliquant des
oprations mathmatiques simples.
7.3.2.1 Erreur-type et coefficient de variation
Lerreur-type dun estimateur est la racine carre de sa variance dchantillonnage. Cette mesure est
plus facile interprter parce quelle donne une indication de lerreur dchantillonnage laide de la
mme chelle que lestimation, tandis que la variance est base sur les diffrences quadratiques.

Mme lerreur-type peut cependant tre difficile interprter lorsquon pose la question Quelle ampleur
derreur-type est acceptable? Cest limportance de lestimation qui dtermine la largeur. Une erreurtype de 100, par exemple, serait considre grande pour mesurer la moyenne du poids des gens, mais pas
pour estimer le revenu annuel moyen.
Il est plus utile dans de nombreuses situations dvaluer la taille de lerreur-type par rapport lestimation
de la caractristique mesure. Le coefficient de variation donne ce genre de mesure. Cest le rapport
entre lerreur-type de lestimation de lenqute et la valeur moyenne de lestimation elle-mme, pour
tous les chantillons possibles. Le coefficient de variation est habituellement calcul comme lestimation
de lerreur-type de lestimation de lenqute par rapport lestimation elle-mme. Cette mesure relative
de lerreur dchantillonnage est habituellement exprime en pourcentage (10 % au lieu de 0,1). Elle est
trs utile pour comparer la prcision des estimations de lchantillon lorsque leurs tailles ou chelles sont
diffrentes lune de lautre. Elle est cependant moins utile pour les estimateurs des caractristiques dont la
valeur relle peut tre zro ou ngative, y compris les estimations de changement (p. ex., le changement
du revenu moyen depuis lan dernier).
7.3.2.2 Marge derreur et intervalle de confiance

Il nest pas rare de lire les rsultats dune enqute publis dans un journal comme suit :
Selon une enqute rcente, 15 % des rsidents dOttawa assistent des services religieux chaque
semaine. Les rsultats, tirs dun chantillon de 1 345 rsidents, sont considrs prcis plus ou
moins 3 %, 19 fois sur 20.
Que signifie cet nonc? Il rvle que la valeur relle, le pourcentage rel des gens qui assistent des
services religieux chaque semaine, se situe probablement trois points de lestimation (15 %). Dans
lexemple ci-dessus, la marge derreur est de plus ou moins trois points, ou simplement 3 %, et
lintervalle de confiance correspond la plage de 12 % 18 %. Les marges derreur comprennent
toujours un nonc sur la confiance, cest--dire le degr de confiance que suscite lintervalle. Dans cet
exemple, lnonc sur la confiance est 19 fois sur 20. Si lenqute tait rpte de nombreuses fois, cela

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

156

signifie que 19 fois sur 20 (ou 95 % des fois), lintervalle de confiance couvrirait la valeur relle de la
population.
La thorie sous-jacente ltablissement des intervalles de confiance peut tre dcrite comme suit.
Supposons une estimation de la moyenne de la population, Y , pour un chantillon de grande taille, et une
estimation de lerreur-type, SE (Y ) . En vertu du thorme central limite et de la distribution normale, les
chances sont donc :
- de 0,10 que lerreur absolue | Y Y | soit suprieure 1,65 SE (Y ) (ce qui correspond un intervalle
de confiance de 90 %),
-

de 0,05 que lerreur absolue | Y Y | soit suprieure 1,96 SE (Y ) (ce qui correspond un
intervalle de confiance de 95 %),
de 0,01 que lerreur absolue | Y Y | soit suprieure 2,58 SE (Y ) (ce qui correspond un intervalle
de confiance de 99 %).

Ces formules sappliquent tous les estimateurs normalement distribus. Il ne faut pas oublier que les
erreurs-types sont utiles, non seulement pour le calcul des intervalles de confiance, mais aussi pour
lanalyse infrentielle des donnes, par exemple, les tests d hypothse (voir le Chapitre 11 - Analyse
des donnes de lenqute).
Le lecteur intress trouvera voulez davantage de dtails sur la thorie sous-jacente aux intervalles de
confiance dans les ouvrages sur la thorie de lchantillonnage (p. ex., Cochran (1977), Lohr (1999),
Srndal, Swensson et Wretman (1992), Stuart (1968)). point superflu en anglais
7.3.2.3 Estimation de la variance dchantillonnage et autres mesures de lerreur dchantillonnage
de lEASSR

Lexemple suivant illustre comment estimer les mesures de lerreur dchantillonnage partir dun seul
chantillon ralis laide de lEASSR, (en supposant un taux de rponse de 100 % et aucun ajustement
pour les donnes auxiliaires.)
Exemple 7.8 : Estimation de la variance dchantillonnage, de lerreur-type, du coefficient de
variation, de la marge derreur et de lintervalle de confiance pour Y , EASSR

Un EASSR de n=10 personnes (taux de rponse de 100 %) est slectionn dans une population de
N=500 personnes. Lge de chaque unit chantillonne est inscrit dans le tableau ci-dessous (tri par
ge). Quelle est la variance dchantillonnage estime de lge moyen estim? Quels sont lerreur-type et
le coefficient de variation estims? Quels sont la marge derreur et lintervalle de confiance pour un
niveau de confiance de 95 %?

STATISTIQUE CANADA

ESTIMATION

157

Tableau 10 : Calcul de la variance dchantillonnage estime de Y


Personne ge de lunit de
lchantillon, yi
1
21
2
26
3
27
4
32
5
34
6
37
7
38
8
40
9
42
10
47

(y i y )

( y i y )2

-13,4
-8,4
-7,4
-2,4
-0,4
2,6
3,6
5,6
7,6
12,6

179,56
70,56
54,76
5,76
0,16
6,76
12,96
31,36
57,76
158,76

1. Estimation de lge moyen de la population :


y
Y = i
iS n
r

21 + 26 + 27 + 32 + 34 + 37 + 38 + 40 + 42 + 47
= 34,4
10

Lge moyen estim est donc de 34,4 ans. On notera que la moyenne estime de la population est la
moyenne de lchantillon simple pour un EAS (sans facteur dajustement pour les non-rponses ou les
donnes auxiliaires).
2. Estimation de la variance dchantillonnage de Y pour un EASSR :
n S 2

Var (Y ) = 1
N n

o S 2 est :
( y y) 2
S 2 = i
n 1
iS
r

179,56 + 70,56 + 54,76 + ... + 31,36 + 57,76 + 158,76


=
10 1
= 64,3
donc :
10 64.3
n S 2

= 6,3
= 1
Var (Y ) = 1

N n 500 10

La variance dchantillonnage estime est donc 6,3.


3. Estimation de lerreur-type, SE (Y ) , et du coefficient de variation, CV (Y ) :

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

158

SE (Y )
2,5
CV (Y ) =
=
y
34,4
= 0,073 = 7,3 %

SE (Y ) = Var (Y )
= 6,3 = 2,5

4. Calcul de la marge derreur et de lintervalle de confiance avec niveau de confiance de 95 % :


Marge derreur

= 1,96 SE (Y )
= 1,96 x 2,5
= 4,9

Intervalle de confiance = Y 1,96 SE (Y )


= 34,4 4,9
= (29,5, 39,3)
On peut donc affirmer avec un taux de confiance de 95 % que lge moyen rel de la population se situe
entre 29,5 et 39,3 ans. ( proprement parler, linterprtation exacte est que lintervalle de confiance dans
un chantillonnage rpt comprendrait la valeur relle de la population en moyenne 95 % des fois.)

7.3.2.4 Estimation de la variance dchantillonnage de lEASSR stratifi


Illustrons maintenant les rpercussions si lon nglige de prendre en compte le plan dchantillonnage rel
et que la variance dchantillonnage est simplement calcule laide de lquation pour un chantillon
alatoire simple. Le march des logiciels offre un large ventail de logiciels de statistique et de traitement
des donnes sur ordinateur personnel, mais trs peu tiennent compte correctement du plan denqute, pas
mme ceux dont la publicit soutient quils sont spcialiss en traitement des enqutes. Un certain nombre
dexamens des logiciels statistiques a t fait depuis dix ans, et il serait prudent et judicieux den lire
quelques-uns; un rpertoire est tenu jour au http://www.fas.harvard.edu/~stats/survey-soft/surveysoft.html.

Exemple 7.6 (suite) : Estimation de la variance dchantillonnage


Si lchantillon est le rsultat dun chantillon alatoire simple de taille n=10 (taux de rponse de 100 %)
tir dune population de taille N=100, il est alors possible dobtenir les estimations suivantes du revenu
moyen et de la variance dchantillonnage du revenu moyen estim.
y
Y = i = 51 600
iS n
r

(comparativement 41 595 le plan dchantillonnage est pris en compte).


La variance dchantillonnage estime (en milliers) :
n S 2

VarEAS (Y ) = 1
N n

10 1 247

= 1
= 112,2

100 10
STATISTIQUE CANADA

ESTIMATION

et lerreur-type est (en milliers)

159

VarEAS (Y ) = SE EAS (Y ) =10,6.

Afin destimer correctement la variance dchantillonnage de la moyenne partir dun chantillon


stratifi, il faut dterminer la variance dchantillonnage estime de chaque strate h et faire la somme des
rsultats de chaque strate pour obtenir une estimation complte (en milliers de $) :

n h S h2

h N 1 N n
h
h

6 1406
4 211,6
1 2

=
+ 66 2 1
34 1
= 44
100 2 34 6
66

1
VSTR (Y ) = 2
N

et lerreur-type est (en milliers)

2
h

VarSTR (Y ) = SE STR (Y ) = 6,6.

Si variance dchantillonnage avait t estime sans tenir compte du plan dchantillonnage, et que
lestimateur pour un EAS avait t utilis, la variance dchantillonnage aurait t surestime. En
revanche, si le plan dchantillonnage avait t un plan par grappes et la formule de lEAS avait t
utilise, la variance dchantillonnage relle aurait probablement t sous-estime.

7.3.3

Effet de plan

Leffet de plan compare la variance des estimateurs entre un plan dchantillonnage et un EAS. Il sagit
du rapport entre la variance dchantillonnage dun estimateur, selon un plan dchantillonnage
donn, et la variance dchantillonnage de lestimateur dun EAS de mme taille.
Il est mentionn au Chapitre 6 - Plans dchantillonnage que cette mesure est souvent applique pour
comparer lefficience des estimateurs de divers plans dchantillonnage. Si le ratio est infrieur un, le
rsultat indique que le plan dchantillonnage est plus efficient que lEAS, sil est suprieur un, le plan
dchantillonnage est moins efficient que lEAS.
Dans le cas de lexemple prsent plus tt,
deff =

VarSTR (Y )
44 000
=
= 0,39

Var (Y ) 112 200


EAS

cest--dire que la stratification amliore normment la prcision de la moyenne estime de lenqute.


Les effets du plan dchantillonnage aident aussi obtenir des estimations approximatives de la variance
pour des plans dchantillonnage complexes. Si une estimation de leffet du plan dchantillonnage est
disponible dans une enqute prcdente qui a utilis le mme plan dchantillonnage, elle peut servir
dterminer la taille de lchantillon ncessaire de lenqute. (Ce point sera considr au Chapitre 8 Calcul de la taille de lchantillon et rpartition).
On consultera Kish (1965) pour davantage dinformation sur les effets de plan.

STATISTIQUE CANADA

160

MTHODES ET PRATIQUES DENQUTE

7.3.4 Estimation de la variance dchantillonnage laide de lchantillonnage par


rpliques
Les variances des statistiques simples, notamment les moyennes et les totaux, peuvent tre estimes
laide de procdures mentionnes auparavant pour les plans dchantillonnage simples. Si les plans
dchantillonnage ou les estimateurs sont plus complexes cependant (p. ex., des fonctions des totaux), il
peut tre difficile de dterminer la formule de la variance dchantillonnage.
Des mthodes de rechange (autres que lapplication dun effet de plan) permettent destimer la variance
dchantillonnage pour une srie slectionne de procdures destimation et de plans dchantillonnage.
Lchantillonnage par rpliques en est une. Dans un chantillonnage par rpliques, au lieu de slectionner
un chantillon de taille n, k chantillons indpendants de taille n / k sont slectionns. Une estimation de
la caractristique dintrt est faite pour chacun de ces chantillons k. La variabilit des estimations des
chantillons k sert ensuite estimer la variance dchantillonnage. Lestimation, t, de la caractristique
dintrt est obtenue laide de la moyenne des estimations faites pour chaque chantillon :
t=
jK

tj
k

o K est lensemble des chantillons, k est le nombre dchantillons et tj est lestimation du je chantillon.
La variance dchantillonnage estime de t, Var (t ) , est le rsultat de lquation :

Var (t ) =
jK

(t j t ) 2
k (k 1)

Exemple 7.9 : Estimation de la variance dchantillonnage de Y laide de lchantillonnage par


rpliques, EAS
Dans lexemple 7.8, au lieu de slectionner un chantillon de taille n=10 et dappliquer lquation
prcdente pour estimer Var (t ) = Var (Y ) , deux chantillons de taille n=5 sont slectionns. Les rsultats
sont inscrits au tableau suivant.

Tableau 11 : Calcul de la variance dchantillonnage estime de Y laide de lchantillonnage par


rpliques
chantillon 1
1
2
3
4
5
ge moyen

ge des units de lchantillon


21
27
34
38
42
32,4

chantillon 2
1
2
3
4
5

STATISTIQUE CANADA

ge des units de lchantillon


26
32
37
40
47
36,4

ESTIMATION

161

1. Lge moyen de la population est estim :


Y j

Y =
jK k
=

32,4 + 36,4
= 34,4
2

2. Voici la variance dchantillonnage estime de lge moyen laide de la mthode dchantillonnage


ritr :
(Y j Y ) 2
Var (Y ) =
jK k ( k 1)
=

(32,4 - 34,4) 2 + (36,4 - 34,4) 2


=4
2

Lerreur-type estime, SE (Y ) , est 2.


Dautres mthodes de r-chantillonnage, notamment la mthode du Jackknife et celle du Bootstrap (autoamorage), sont aussi souvent utilises dans les enqutes ayant des plans complexes. Rust et Rao (1996),
Wolter (1985) ou Efron (1981) donnent une description de ces mthodes. Gambino et coll. (1998)
donnent un exemple de la mthode du Jackknife applique dans une enqute sur les mnages comprenant
un estimateur et un plan dchantillonnage complexes. Dautres techniques qui ne sont pas bases sur le
r-chantillonnage, notamment lapproximation par sries de Taylor, peuvent aussi servir lorsque le plan
dchantillonnage est complexe. Hidiroglou et Paton (1987), Binder (1996), Srndal, Swensson et
Wretman (1992) et Wolter (1985) constituent dexcellentes sources.

7.4

Sommaire

La liste suivante donne un aperu des points importants considrer pour estimer les donnes dune
enqute :
1. Lestimation doit tenir compte du plan dchantillonnage. Il faudrait intgrer cette fin les poids de
base au processus destimation.
2. Les poids de base devraient tre ajusts pour les non-rponses.
3. Il faudrait utiliser, si possible, linformation auxiliaire, si elle est de qualit approprie et corrle
avec les principales variables de lenqute, pour amliorer luniformit et la prcision des estimations.
4. Il faudrait utiliser le plan dchantillonnage et la rpartition des chantillons pour rpondre aux
exigences des domaines dintrt. Si ce nest pas possible ltape de la conception du plan
dchantillonnage, il faudrait considrer des mthodes destimation spciales ltape de lestimation.
5. Les valeurs aberrantes peuvent donner une grande variabilit dchantillonnage dans les estimations.
Il faudrait considrer le reprage et le traitement des valeurs aberrantes ltape de lestimation.
6. Les estimations de lenqute devraient comprendre une estimation de leur erreur dchantillonnage,
sous forme de variance dchantillonnage, derreur-type, de coefficient de variation, de marge
derreur ou dintervalle de confiance.

STATISTIQUE CANADA

162

MTHODES ET PRATIQUES DENQUTE

On propose au Chapitre 11 - Analyse des donnes de lenqute des utilisation de donnes pour fins
danalyse qui vont au-del des simples statistiques descriptives..

Bibliographie
Arora, H.R. et G.J. Brackstone. 1977. An Investigation of the Properties of Raking Ratio Estimators: I,
With Simple Random Sampling. Survey Methodology, 3(1): 62-83.
Bankier, M.D. 1978. An Estimate of the Efficiency of Raking Ratio Estimators under Simple Random
Sampling. Survey Methodology. 4(1): 115-124.
Barnett, V. et T. Lewis. 1995, Outliers in Statistical Data. John Wiley and Sons, Chichester.
Binder, D.A. 1983. On the Variance of Asymptotically Normal Estimators from Complex Surveys.
International Statistical Review, 51: 279-292.
Binder, D.A. 1996. Mthodes de linarisation pour les chantillons une et deux phases: une approche de
type recette. Techniques denqute. 22(1): 17-22.
Binder, D.A. 1998. Estimating the Variance of Raking Ratio Estimators. Canadian Journal of Statistics,
16: 47-55.
Brackstone, G. et J.N.K. Rao. 1979. An Investigation of Raking Ratio Estimators. Sankhy, Series C, 42:
97-114.
Chambers, R.L. 1986. Outlier Robust Finite Population Estimation. Journal of the American Statistical
Association, 81: 1063-1069.
Cochran, W.G. 1977. Sampling Techniques. John Wiley and Sons, New York.
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.
Deming, W.E. et F.F. Stephan. 1940. On the least squares adjustment of a sampled frequency table when
the expected marginal totals are known. Annals of Mathematical Statistics, 11: 427-444.
Deville, J.C. et C.E. Srndal. 1992. Calibration estimators in survey sampling. Journal of the American
Statistical Association, 87: 376-382.
Efron, B. 1981. The Jackknife, the Bootstrap and Other Resampling Plans. SIAM. 38. Philadelphia.
Eltinge, J.L. et I.S. Yansaneh. 1997. Mthodes diagnostiques pour la construction de cellules de
correction pour la non-rponse, avec application la non-rponse aux questions sur le revenu
dans la U.S. Consumer Expenditure Survey. Techniques denqute, 23(1): 37-45.
Estevao, V., M.A. Hidiroglou, and C.E. Srndal. 1995. Methodological Principles for a Generalized
Estimation System at Statistics Canada. Journal of Official Statistics, 11: 181-204.
Fink, A. 1995. The Survey Kit. Sage Publications, California.

STATISTIQUE CANADA

ESTIMATION

163

Fowler, F.J. 1984. Survey Research Methods. 1. Sage Publications, California.


Gambino, J.G., M.P. Singh, J. Dufour, B. Kennedy et J. Lindeyer. 1998. Mthodologie de lenqute sur la
population active du Canada. Statistique Canada. 71-526.
Ghosh, M. et J.N.K. Rao. 1994. Small Area Estimation: An Appraisal. Statistical Science, 9: 55-93.
Groves, R. et M.P. Couper. 1998. Nonresponse in Household Interview Surveys. John Wiley and Sons,
New York.
Hidiroglou, M.A. et D.G. Paton. 1987. Some Experiences in Computing Estimates and their Variances
Using Data from Complex Survey Designs. Dans Applied Probability, Stochastic Processes, and
Sampling Theory. I.B. MacNeill et G.J. Umphrey, ds. D. Riedel Publishing.
Hidiroglou, M.A. et C.-E. Srndal. 1998. Emploi de donnes auxiliaires dans lchantillonnage deux
phases. Techniques denqute, 24(1): 11-20.
Hidiroglou, M.A. et K.P. Srinath. 1981. Some Estimators of Population Total Containing Large Units.
Journal of the American Statistical Association, 47: 663-685.
Holt, D. et T.M.F. Smith. 1979. Post-Stratification. Journal of the Royal Statistical Society, A, 142: 3346.
Kalton, G. et D. Kasprzyk. 1986. Le traitement des donnes denqute manquantes. Techniques
denqute, 12(1): 1-17.
Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.
Kovar, J.G., J.N.K. Rao et C.F.J. Wu. 1988. Bootstrap and Other Methods to Measure Error in Survey
Estimates. Canadian Journal of Statistics, 16, Supplement: 25-45.
Lehtonen, R. et E.J. Pahkinen. 1995. Practical Methods for Design and Analysis of Complex Surveys.
John Wiley and Sons, New York.
Levy, P. et S. Lemeshow. 1999. Sampling of Populations, John Wiley and Sons, New York.
Lohr, S. 1999. Sampling: Design and Analysis. Duxbury Press, U.S.A.
Madow, W.G., H. Nisselson, I. Olkin et D.B. Rubin, ds. 1983. Incomplete Data in Sample Surveys,
Volume 1. Academic Press, New York.
Madow, W.G., I. Olkin et D.B. Rubin, ds. 1983. Incomplete Data in Sample Surveys, Volume 2.
Academic Press, New York.
Madow, W.G. et I. Olkin, ds. 1983. Incomplete Data in Sample Surveys, Volume 3. Academic Press,
New York.
Moser, C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.

STATISTIQUE CANADA

164

MTHODES ET PRATIQUES DENQUTE

Platek, R., J.N.K. Rao, C.E. Srndal et M.P. Singh, ds. 1987. Small Area Statistics. John Wiley and
Sons, New York.
Pollock, K.H., S.C. Turner et C.A. Brown. 1994. Techniques de saisie - resaisie pour lestimation de la
taille de la population et de totaux de population lorsquon ne dispose pas dune base de sondage
complte. Techniques denqute, 20(2): 121-128.
Rancourt, E., H. Lee et C.E. Srndal. 1993. Variance Estimation Under More than One Imputation
Method. Proceedings of the International Conference on Establishment Surveys. American
Statistical Association. 374-379.
Rao, J.N.K. et C.F.J. Wu. 1988. Resampling Inference with Complex Survey Data. Journal of the
American Staistical Association, 83: 231-241.
Rao, J.N.K. 1996. On the Estimation with Imputed Survey Data. Journal of the American Statistical
Association, 91: 499-506.
Rao, J.N.K, C.F.J. Wu et K. Yue. 1992. Quelques travaux rcents sur les mthodes de rchantillonnage
applicables aux enqutes complexes. Techniques denqute, 18(2): 209-217.
Rust, K.F. et J.N.K. Rao. 1996. Variance Estimation for Complex Surveys using Replication Techniques.
Statistical Methods in Medical Research, 5: 283-310.
Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.
Satin, A. et W. Shastry. 1993. Lchantillonnage : un guide non mathmatique Deuxime dition.
Statistique Canada. 12-602F.
Schnell, D., W.J. Kennedy, G. Sullivan, H.J. Park et W.A. Fuller. 1988. Logiciel dordinateur personnel
pour lestimation de variance dans les enqutes complexes. Techniques denqute, 14(1): 63-73.
Singh, A.C. 1996. Combining Information in Survey Sampling by Modified Regression. Proceedings of
the Section on Survey Research Methods. American Statistical Association. 120-129.
Singh, M.P., J. Gambino et H.J. Mantel. 1994. Les petites rgions: problmes et solutions. Techniques
denqute, 20(1): 3-23.
Skinner, C.K., D. Holt et T.M.F. Smith. 1989. Analysis of Complex Surveys. John Wiley and Sons,
Chichester.
Stuart, A. 1968. Basic Ideas of Scientific Sampling. Charles Griffin and Company Limited, London.
Thompson, M. 1997. Theory of Sample Surveys. Chapman and Hill, United Kingdom.
Thompson, S.K. 1992. Sampling. John Wiley and Sons, New York
Wolter, K.M. 1985. Introduction to Variance Estimation. Springer-Verlag, New York.
Yung, W. et J.N.K. Rao. 1996. Linarisation des estimateurs de variance Jackknife dans un
chantillonnage stratifi degrs multiples. Techniques denqute. 22(1): 23-31.

STATISTIQUE CANADA

165

Chapitre 8 - Calcul de la taille de lchantillon et


rpartition
8.0 Introduction
Voici lune des questions les plus souvent poses un statisticien : Quelle taille devrait avoir
lchantillon? Les gestionnaires sont anxieux dobtenir une rponse cette question fondamentale
pendant la phase de la planification de lenqute parce quelle a des rpercussions directes sur les
considrations oprationnelles, notamment, le nombre dintervieweurs ncessaires.
Il ny a pas de solution magique ou de recette parfaite pour dterminer la taille de lchantillon. Il sagit
plutt dun processus de compromis au cours duquel les besoins de prcision des estimations sont
pondrs en tenant compte de diverses contraintes oprationnelles, par exemple, le budget, le temps et les
ressources disponibles.
Il faut se rappeler que les facteurs qui ont des rpercussions sur la prcision (prsents au Chapitre 7 Estimation) comprennent la variabilit et la taille de la population, le plan dchantillonnage, lestimateur
et le taux de rponse. Il faut tenir compte de ces facteurs pour tablir la formule de calcul de la taille de
lchantillon ncessaire pour obtenir un degr de prcision en particulier.
Des contraintes oprationnelles sajoutent ces facteurs et ont des rpercussions sur la taille de
lchantillon. Ces facteurs ont parfois davantage dinfluence. Quelle taille dchantillon le client peut-il
soffrir? Combien de temps est-il prvu pour procder lenqute au complet? Combien dintervieweurs
sont disponibles? Ces contraintes sont souvent exclues de la formule de calcul de la taille de lchantillon,
mais il faut en tenir compte.
Si un plan dchantillonnage stratifi est utilis, lorganisme statistique devra savoir, non seulement
quelle taille doit avoir lchantillon, mais aussi comment il devrait tre rparti entre les strates. Ce point
est intitul rpartition de lchantillon. Deux stratgies sont possibles. La premire est de dterminer la
taille totale de lchantillon et de la rpartir ensuite entre les strates. La deuxime est de dterminer la
prcision voulue et ensuite, la taille de lchantillon ncessaire dans chaque strate.
De nombreuses mthodes de rpartition diffrentes sont disponibles. La rpartition proportionnelle N
donne la mme proportion dunits de la population chantillonne dans chaque strate. Dans la rpartition
non proportionnelle, les strates sont chantillonnes diffrents taux. Les mthodes de rpartition non
proportionnelles comprennent la rpartition proportionnelle Y, la rpartition proportionnelle N , la
rpartition proportionnelle Y , la rpartition optimale, la rpartition de Neyman et la rpartition
optimale lorsque les variances sont gales.
Lobjectif de ce chapitre est dillustrer comment calculer la taille de lchantillon, compte tenu dun degr
cible de prcision, comment rpartir un chantillon stratifi, et de donner des conseils pour dterminer
quelle mthode de rpartition convient le mieux.

8.1

Choix de la taille de lchantillon

Nous avons expliqu au Chapitre 7 - Estimation que la prcision des estimations de lenqute et la taille
de lchantillon sont lies. tant donn que la variance dchantillonnage diminue lorsque la taille de

STATISTIQUE CANADA

166

MTHODES ET PRATIQUES DENQUTE

lchantillon augmente, plus les estimations doivent tre prcises, plus la taille dchantillon ncessaire
doit donc tre grande. La prcision cible des estimations de lenqute dtermine donc la taille approprie
de lchantillon. Cette prcision dune estimation, t, peut tre intitule erreur-type admissible, SE(t),
marge derreur, z SE (t ) , ou coefficient de variation SE (t ) / t . Le choix de la taille de lchantillon pour
une enqute comprend souvent la spcification de la prcision voulue laide de lune ou lautre de ces
mesures.

Le choix de la taille de lchantillon vise limiter les erreurs dchantillonnage et les non-rponses
alatoires. Il ne vise pas limiter dautres erreurs non dues lchantillonnage. Pour obtenir des rsultats
denqute exacts, il faudrait minimiser le biais d aux erreurs non dues lchantillonnage lorsque cest
possible (voir le Chapitre 5 - Conception du questionnaire et le Chapitre 3 - Introduction au plan
denqute pour obtenir davantage de dtails sur les erreurs non dues lchantillonnage).
Avant de prsenter les formules de calcul de la taille de lchantillon pour un degr donn de prcision,
nous considrerons dans ce chapitre comment dterminer le degr de prcision appropri et les facteurs
ayant des rpercussions sur la prcision.

8.1.1

Considrations sur le besoin de prcision

Lorganisme statistique devrait considrer plusieurs questions pertinentes avant de dterminer le degr
appropri de prcision pour les estimations de lenqute dun client. Lorganisme et le client devraient
examiner ce qui est demand des estimations de lenqute du point de vue des totalisations des donnes,
des analyses et des dcisions qui seront prises, compte tenu des estimations de lenqute.
i.

quoi serviront les estimations de lenqute? Quelle variance dchantillonnage est acceptable
dans les estimations de lenqute?

Quel degr dincertitude le client peut-il tolrer dans les estimations de lenqute? Une marge derreur de
6 % et un niveau de confiance de 95 % sont-ils convenables pour les objectifs du client, ou des
estimations plus (ou moins) prcises sont-elles ncessaires pour atteindre les objectifs de lenqute?
Si les rsultats de lenqute servent prendre des dcisions importantes qui auront de grandes
rpercussions ou qui comprennent un risque marqu, le client peut exiger des estimations denqute plus
prcises que sil veut simplement obtenir une estimation approximative dune caractristique dintrt.
ii.

Des estimations sont-elles ncessaires pour des sous-groupes (domaines) de la population de


lenqute?

Les rsultats de lenqute peuvent comprendre des estimations pour de nombreux sous-groupes ou
domaines. Aprs avoir obtenu des estimations denqute lchelon national, par exemple, des
estimations provinciales ou sous-provinciales peuvent tre ncessaires, ou le client peut avoir besoin
destimations pour dautres sous-groupes importants dans la population de lenqute, selon le sexe, lge,
la scolarit, etc. Il faudrait dterminer le degr de prcision appropri pour rpondre ces besoins de
donnes. Un degr diffrent de prcision peut tre dtermin pour divers domaines. Dans une enqute
nationale par exemple, le commanditaire de lenqute peut demander une marge derreur de 3 % pour
toutes les estimations nationales, mais une marge derreur de 5 % pour les estimations provinciales peut
le satisfaire, ainsi quune marge derreur de 10 % pour les estimations sous-provinciales. Des strates
sont habituellement formes pour chaque domaine dintrt dans ce cas.

STATISTIQUE CANADA

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION

iii.

167

Quelle est lampleur de la variance dchantillonnage comparativement lestimation de


lenqute?

Il faudrait dterminer les besoins de prcision aprs avoir considr la taille de lestimation. Disons par
exemple qu la suite dune nouvelle politique, les bureaux du gouvernement fdral doivent offrir un
service dans la langue officielle dune minorit si au moins P=0,05 (ou 5 %) des demandes sont
prsentes dans cette langue. Supposons que divers bureaux du gouvernement dcident de procder une
enqute auprs de leur clientle pour estimer la demande de services dans la langue officielle dune
minorit. premire vue, une marge derreur de 0,05 semble leve si une estimation de lenqute doit
se situer 0,05 environ. Il faudrait dterminer dans ce cas une plus petite marge derreur, peut-tre 0,01
ou 0,02 au plus (c.--d. que lintervalle de confiance devrait tre de 0,05 0,01 ou 0,05 0,02).
Le client devrait en fait considrer la taille de la plus petite estimation ncessaire pour dterminer les
besoins de prcision. Supposons que lenqute sert estimer des proportions. Certaines de ces proportions
pourraient tre P = 0,50 ou plus, mais dautres pourraient tre aussi minimes que P = 0,50 ou P = 0,10. Si
la plus petite proportion estimer doit tre P = 0,05 et si cette proportion est importante pour les objectifs
de lenqute, lorganisme statistique (et le client) voudront obtenir une marge derreur de moins de 0,05.
iv.

Quelles sont les rpercussions pratiques du besoin de prcision? Quel degr de prcision est
obtenu si lon augmente la taille de lchantillon?

Plus la taille de lchantillon augmente, plus le degr de prcision est lev. Le gain en prcision nest
cependant pas directement proportionnel laugmentation de la taille de lchantillon. Considrons une
variable qualitative qui a deux modalits possibles, A et B (p. ex., hommes et femmes) et le client est
intress estimer la proportion de la population dans la catgorie A.
Le tableau 1 illustre la marge derreur obtenue dans la proportion estime dun chantillon alatoire
simple (EAS) pour diverses tailles dchantillon et un taux de confiance de 95 %. La proportion relle de
la population de la catgorie A est P=0,5 (ou 50 %) et la taille de la population est N=100 000. (Consultez
la Section 8.1.3 pour obtenir la formule de calcul de la variance dchantillonnage dune proportion
estime.)
Tableau 1 : Taille dchantillonnage et marge derreur dune estimation de P, laide dun EAS,
lorsque P=0,5
Taille de lchantillon
50
100
500
1 000

Marge derreur
0,139
0,098
0,044
0,031

Le tableau ci-dessus montre que la taille de lchantillon double pour passer de 50 100 et la marge
derreur de lestimation de la proportion samliore pour passer de 0,14 0,10. La marge derreur na
cependant pas diminu de moiti pour stablir 0,07, comme on pourrait sy attendre. Doubler la taille
de lchantillon pour quelle passe de 500 1 000 ne diminue pas non plus la marge derreur de moiti.
Malgr limpression de la plupart des gens, il ny a pas de lien linaire entre la taille de lchantillon et la
marge derreur.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

168

Cet exemple fait valoir que lorganisme statistique et le client doivent dcider sil vaut la peine de faire
les efforts et dinvestir les ressources ncessaires pour interviewer 1 000 personnes au lieu de 500, afin
damliorer la prcision dune marge derreur de 0,045 0,032.
La meilleure solution nest peut-tre pas toujours de choisir la plus grande taille dchantillon possible
donnant la plus petite marge derreur. Il est parfois possible dobtenir des rsultats suffisamment prcis en
acceptant une marge derreur plus large et en utilisant des ressources avec plus defficience. Choisir un
chantillon de plus petite taille pour rserver de largent dautres facteurs qui ont des rpercussions sur
lexactitude des rsultats de lenqute, par exemple, pour rduire lerreur non due lchantillonnage,
peut tre plus efficace (p. ex., faire le suivi auprs des non-rpondants, faire lessai du questionnaire,
former les intervieweurs, etc.).

8.1.2

Facteurs ayant des effets sur la prcision

Nous avons prsent au Chapitre 3 - Introduction au plan denqute et au Chapitre 7 - Estimation les
divers facteurs ayant des effets sur la prcision. Cette section illustre les rpercussions de ces facteurs et
prsente des considrations lorsquil faut dterminer la taille de lchantillon pour un degr de prcision
en particulier.
8.1.2.1 Variabilit de la population

La caractristique, ou variable dintrt, est typiquement diffrente dune personne, dun mnage, dune
entreprise, dune exploitation agricole, etc., lautre dans la population de lenqute. Cette variabilit ne
peut tre contrle, mais son ampleur a des rpercussions sur la taille de lchantillon ncessaire pour
obtenir un degr de prcision en particulier pour une caractristique dintrt.
Considrez le Tableau 2 ci-dessous. Supposons quune nouvelle enqute vise estimer la proportion de
clients satisfaits des services dune certaine entreprise et quil y a seulement deux valeurs possibles pour
la variable satisfaction de la clientle : satisfait ou insatisfait. Certaines valeurs possibles servant
dterminer la proportion relle de clients satisfaits et insatisfaits sont numres ci-dessous :
Tableau 2 : Rpartition possible de la satisfaction de la clientle pour la population relle

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.

100 % Satisfaits
90 % Satisfaits
80 % Satisfaits
70 % Satisfaits
60 % Satisfaits
50 % Satisfaits
40 % Satisfaits
30 % Satisfaits
20 % Satisfaits
10 % Satisfaits
0 % Satisfait

0 % Insatisfait
10 % Insatisfaits
20 % Insatisfaits
30 % Insatisfaits
40 % Insatisfaits
50 % Insatisfaits
60 % Insatisfaits
70 % Insatisfaits
80 % Insatisfaits
90 % Insatisfaits
100 % Insatisfaits

Du point de vue de la variabilit de la satisfaction de la clientle dans la population, les nombres 1 et 11


dans la liste de possibilits ci-dessus sont les mmes, cest--dire quil ny a pas de variabilit, tous les
clients ont la mme opinion. Les nombres 2 et 10 de la liste refltent une trs petite variabilit, 90 % des
clients ont la mme opinion et seulement 10 % ont une opinion contraire. Chaque srie de nombres
STATISTIQUE CANADA

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION

169

suivants, 3 et 9, 4 et 8, 5 et 7, a la mme variabilit. partir des nombres 1 6 ou, de mme, des


nombres 11 6, la variabilit de la caractristique satisfaction de la clientle augmente. Dans la situation
que reprsente le nombre 6, cest--dire une rpartition moiti-moiti, o 50 % des clients sont satisfaits
et 50 % des clients sont insatisfaits, nous avons ici le point de variabilit maximale dans la population
quant la satisfaction de la clientle. Si tous les clients taient satisfaits des services obtenus, il ny aurait
donc pas de variabilit de la satisfaction de la clientle et un chantillon dun seul client donnerait une
estimation fiable de la satisfaction de la clientle. Dans la mesure o la variabilit relle dune
caractristique dintrt augmente dans la population de lenqute, cependant, la taille de lchantillon
doit aussi augmenter pour donner une estimation de cette caractristique avec une bonne prcision.
Il est difficile de mesurer prcisment les caractristiques qui ont des taux levs de variabilit. Il faut des
tailles dchantillon de plus en plus larges pour obtenir des estimations prcises de ces variables. Si vous
considrez la prcision des estimations, la taille de lchantillon ncessaire est la plus large lorsque la
variabilit de la caractristique dintrt est son point maximal. Si la caractristique a deux valeurs
seulement, la situation se produit lorsquil y a une rpartition moiti-moiti dans la population. Si vous
voulez dterminer la taille de lchantillon pour une enqute, il faut donc obtenir auparavant une
estimation de la variabilit dune caractristique dans la population de lenqute parce que la variabilit
relle nest gnralement pas connue davance. Vous pouvez lobtenir laide dune tude prcdente sur
le mme sujet ou dune enqute pilote.
Aprs lenqute, si lorganisme statistique ralise que la caractristique dintrt varie plus que prvu au
moment de dterminer la taille de lchantillon, les estimations de lenqute seront moins prcises que
prvu. Dautre part, si la variabilit de la caractristique dintrt est moins marque que la variabilit
prvue, la taille de lchantillon ncessaire sera surestime et les estimations de lenqute seront plus
prcises que celles demandes. Pour obtenir la prcision demande pour une enqute, il est habituellement
recommand de faire une estimation raisonnable de la variabilit de la caractristique de la population
lors du calcul de la taille de lchantillon demand. Autrement dit, en pratique, si la variabilit de la
caractristique mesurer dans lenqute nest pas connue davance, supposer la plus grande variabilit est
souvent une bonne ide. Il faudrait donc supposer une rpartition moiti-moiti de la population
lorsquune variable a seulement deux modalits possibles.
Les enqutes par chantillon mesurent habituellement plus dune caractristique, chacune ayant une
variabilit diffrente. Un chantillon suffisamment large pour une caractristique peut tre trop restreint
pour une autre qui a une plus grande variabilit. Pour obtenir une taille dchantillon suffisamment grande
pour les principales caractristiques, la taille de lchantillon devrait tre dtermine selon la
caractristique ayant la plus grande variabilit votre avis, ou celle juge la plus importante.
8.1.2.2 Taille de la population

Limportance de la taille de la population sur la taille de lchantillon varie selon la taille de la


population.. Elle est trs importante pour une petite population, moyennement importante pour une
population de taille moyenne et peu importante pour une grande population.
Revenons, par exemple, lenqute sur la satisfaction de la clientle et disons que la proportion relle de
clients satisfaits est P=0,5 (50 %). Supposons que lorganisme statistique veut tirer un chantillon de la
population laide dun EAS et quil veut, pour lestimation de P, une marge derreur de 0,05 et un taux
de confiance de 95 % (c.--d., un intervalle de confiance de 0,500,05). Le tableau et le graphique
suivants illustrent la taille de lchantillon ncessaire pour diffrentes tailles de population.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

170

Tableau 3 : Taille de lchantillon ncessaire pour estimer P avec une marge derreur de 0,05 et un
taux de confiance de 95 %, laide dun EAS, lorsque P=0,5
Taille de la population
50
100
500
1 000
5 000
10 000
100 000
1 000 000
10 000 000

Taille de lchantillon ncessaire


44
80
222
286
370
385
398
400
400

Graphique 1 : Taille de lchantillon ncessaire pour estimer P avec une marge derreur de 0,05 et
un niveau de confiance de 95 %, laide dun EAS, lorsque P=0,5
400
350
300
250
Taille de
200
l'chantillon, n
150
100
50
0
0

1 000

2 000

3 000

4 000

5 000

Taille de la population, N

On constate, pour obtenir le degr de prcision demand, que la taille de lchantillon augmente un taux
qui diminue mesure quaugmente la taille de la population. Lorganisme statistique a besoin dune taille
dchantillon de 44 questionnaires remplis pour une population de 50, mais il na pas besoin de doubler la
taille de lchantillon 88 si la population de lenqute double. La taille de lchantillon ncessaire
approche rapidement n=400 pour des populations denqute de N=5 000 et plus. Pour un EAS,
400 questionnaires remplis seraient donc suffisants pour rpondre aux besoins dune prcision donne
pour des populations de plus de 5 000 lorsque la proportion de la population relle est P=0,5.
Une proportion substantielle de la population doit souvent faire lobjet dune enqute pour obtenir la
prcision voulue si la population est trs petite. Voil pourquoi, en pratique, on fait souvent le
recensement des petites populations.

STATISTIQUE CANADA

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION

171

8.1.2.3 Plan dchantillonnage et estimateur

La stratgie dchantillonnage, cest--dire le plan dchantillonnage et lestimateur utilis, ont des


rpercussions sur la prcision. Les techniques de calcul de la taille de lchantillon pour un degr donn
de prcision appliquent souvent la formule de la variance dchantillonnage pour un EAS. Nous avons
expliqu au Chapitre 6 - Plans dchantillonnage et au Chapitre 7 - Estimation que des plans
dchantillonnage plus complexes utilisant le mme estimateur et une taille dchantillon quivalente
peuvent donner des estimations plus ou moins prcises. Si la formule de calcul de la taille de lchantillon
suppose lEAS, un ajustement est donc ncessaire pour tenir compte du plan dchantillonnage.
En gnral, si la formule de calcul de la taille de lchantillon suppose un EAS, mais si un plan
dchantillonnage plus complexe est utilis, la taille de lchantillon ncessaire pour obtenir un degr
donn de prcision doit tre multiplie par un facteur intitul effet de plan (deff). Mentionnons un point
tir du Chapitre 7 - Estimation : leffet de plan est le rapport entre la variance dchantillonnage dun
estimateur, selon un plan dchantillonnage donn, et la variance dchantillonnage de lestimateur
dun EAS ayant la mme taille. Dans un plan dchantillonnage alatoire simple, deff = 1, et
habituellement, deff 1 pour un plan dchantillonnage stratifi et deff 1 pour un plan dchantillonnage
par grappes.
Il est habituellement possible dobtenir une estimation des rpercussions du plan dchantillonnage pour
les principales variables de lenqute partir dune enqute prcdente comprenant le mme plan
dchantillonnage, ou un trs semblable, et le mme genre de matire ltude. Obtenir leffet de plan
dune enqute pilote est une autre option. Si lorganisme statistique prvoit utiliser un plan
dchantillonnage stratifi et sil ny a pas destimation convenable de leffet de plan disponible et tire
dune enqute prcdente, deff = 1 peut servir calculer la taille de lchantillon (c.--d. que nous
supposons un EAS). La prcision des estimations de lenqute devrait tre de qualit comparable celle
obtenue avec un chantillon alatoire simple et, si la stratification est efficace, la prcision sera meilleure.
Il est beaucoup plus difficile de dcider quel devrait tre leffet du plan dchantillonnage si un plan
dchantillonnage par grappes est prvu et sil ny a pas de connaissances pralables des rpercussions
des grappes sur la variance dchantillonnage. Un effet de plan dau moins deux pourrait tre appliqu
dans ce cas, mais leffet de plan peut atteindre jusqu six ou sept quand les grappes sont trs homognes.
8.1.2.4. Taux de rponse lenqute

Sil veut atteindre la prcision voulue pour les estimations de lenqute, lorganisme statistique doit
ajuster la taille de lchantillon pour le taux de rponse prvu. Il slectionne cette fin un large
chantillon, compte tenu dun taux de rponse prvu et estim partir denqutes semblables ou dune
enqute pilote dans la mme population.
Si la taille de lchantillon initial calcule est de 400, par exemple, et si un taux de rponse de 75 % est
prvu, lorganisme statistique devrait alors slectionner lchantillon suivant :

n=

400
= 533.
0,75

Lorsque lorganisme statistique et le client ont choisi un certain taux de rponse voulu, lorganisme doit
faire tous les efforts possibles pour obtenir au moins ce taux de rponse. Sil nobtient pas le taux de
rponse prvu, il y aura des rpercussions sur la prcision des rsultats de lenqute. Un taux de rponse

STATISTIQUE CANADA

172

MTHODES ET PRATIQUES DENQUTE

infrieur donnera une taille dchantillon plus petite que celle qui est ncessaire pour atteindre la
prcision voulue et, dautre part, un taux de rponse suprieur aura leffet contraire.
Cet ajustement est appliqu en supposant que les units manquantes sont alatoires, c.--d. que les nonrpondants ont des caractristiques semblables celles des rpondants. Simplement augmenter la taille de
lchantillon est insuffisant pour ragir correctement une non-rponse totale. Un biais ventuel est
toujours possible si les non-rpondants sont diffrents des rpondants du point de vue des caractristiques
dintrt de lenqute. (Voir le Chapitre 7 - Estimation et le Chapitre 10 - Traitement pour dterminer
comment traiter le biais d la non-rponse.)

8.1.3

Formules de calcul de la taille de lchantillon

Les formules suivantes peuvent servir calculer la taille de lchantillon ncessaire pour obtenir un degr
donn de prcision pour une moyenne ou proportion estime.
i.

Prcision dune moyenne estime, Y , pour un chantillon alatoire simple (taux de rponse de
100 %)

La marge derreur et la formule applique lerreur-type dune estimation pour un EAS servent souvent
dterminer la taille de lchantillon. Voici lquation pour une erreur-type estime dune moyenne
estime, Y , dun EAS sans remise :
n S

(1)
SE (Y ) = 1
N n

o S est la racine carre de lestimation de la variance de la population de yi (voir aussi le Chapitre 7 Estimation).
Notons e la marge derreur ncessaire :

n S

e = z 1
N n

(2)

o z est dtermin selon le niveau de confiance. La solution pour n donne :


n=

z 2 S 2
z 2 S 2
e +
N

(3)

Les tapes suivantes sont donc ncessaires pour dterminer n :


- une marge derreur voulue, e,
- une valeur correspondante un niveau de confiance voulu, z,
- la taille de la population, N,
- une estimation de la variabilit de la population, S 2 .
Ce dernier point est plus difficile obtenir et une approximation est souvent faite laide dtudes
prcdentes dune population semblable. (Il est aussi possible de calculer la taille de lchantillon

STATISTIQUE CANADA

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION

173

ncessaire laide dun coefficient donn de variation. Ce point est considr la Section 8.2.1.2 pour un
total estim dun EAS stratifi.)
ii.

Prcision dune proportion estime, P , pour un chantillon alatoire simple (taux de rponse de
100 %)

La prcision ncessaire sera dtermine dans ce cas selon la marge derreur et la caractristique dintrt
sera la proportion de la population, P, qui fait partie de lune des deux catgories. Nous savons que la
proportion estime, P , pour les grandes populations, est approximativement distribue normalement et la
variabilit de la caractristique binaire, yi, de la population peut tre estime comme suit :
S 2 = P (1 P )
Lquation (3) devient donc :
n=

z 2 P (1 P )
z 2 P (1 P )
e2 +
N

Si une bonne estimation de la proportion, P , est disponible avant lenqute, il faudrait lutiliser dans
lquation ci-dessus. Autrement, sil ny a pas de donnes sur la population, P = 0,5 peut-tre utilise, le
rsultat tant la taille dchantillon maximale, tant donn les autres suppositions.
Noues expliquerons dans la section suivante quil faut faire une estimation de leffet de plan si le plan
nest pas un EAS et une estimation du taux de rponse, r, est ncessaire si le taux de rponse lenqute
est infrieur 100 %.
iii.

Approche tape par tape pour dterminer la taille de lchantillon, compte tenu de la prcision
dune proportion estime, P , pour tout plan dchantillonnage (lorsque le taux de rponse est
<100 %)

Une approche tape par tape est applique dans les exemples suivants pour calculer la taille de
lchantillon. Une taille dchantillon initiale est dabord calcule et elle est ensuite ajuste, compte tenu
de la taille de la population, de leffet du plan dchantillonnage et du taux de rponse.
1. Taille de lchantillon initial
Remarquez lutilisation dans lquation (1) du facteur de correction dchantillonnage pour population
finie (1 n / N ), afin dapporter une correction, compte tenu de la taille de la population. Si ce facteur est
omis, une estimation prliminaire de la taille de lchantillon, n1, peut tre obtenue simplement comme
suit :
z 2 P (1 P )
n1 =
e2
On remarquera la formule pour n1 est aussi valable si e et P sont exprimes en pourcentage, et non en
proportions.
2. Ajustement pour la taille de la population laide de lquation suivante (le rsultat aura des
rpercussions seulement pour les populations de petite taille ou de taille moyenne) :
STATISTIQUE CANADA

174

MTHODES ET PRATIQUES DENQUTE

n 2 = n1

N
N + n1

3. Si le plan dchantillonnage nest pas un chantillon alatoire simple, la formule suivante peut servir
ajuster la taille de lchantillon pour leffet du plan dchantillonnage :

n3 = Deff n 2
o deff est leffet du plan dchantillonnage et, habituellement :
deff = 1 pour les plans dchantillonnage alatoires simples,
deff < 1 pour les plans dchantillonnage stratifis,
deff > 1 pour les plans dchantillonnage par grappes ou plusieurs degrs.
4. En bout de ligne, ajustement pour le taux de rponse, afin de dterminer la taille finale de
lchantillon, n :
n
n= 3
r
o r est le taux de rponse prvu.
8.1.3.1 Exemples de choix de taille de lchantillon

Les exemples suivants illustrent lapproche tape par tape du calcul de la taille de lchantillon.
Exemple 8.1 : EAS

Lditeur dune revue veut obtenir une estimation de la satisfaction des lecteurs en gnral. Il serait
possible de communiquer avec les 2 500 abonns laide dun questionnaire envoy par la poste, mais
lditeur a dcid dinterviewer un chantillon alatoire simple par tlphone cause des contraintes de
temps. Combien de lecteurs faudrait-il interviewer?
Voici certaines hypothses:
- lditeur sera satisfait si la proportion de la population relle est 0,10 de la proportion de la
population estime, compte tenu des rsultats de lchantillon, c.--d. que la marge derreur
ncessaire, e= 0,10 ;
- lditeur veut obtenir un niveau de confiance de 95 % dans les estimations de lenqute (c.--d. quil y
aurait seulement une chance sur 20 dobtenir un chantillon qui donne une estimation hors de
ltendue P 0,10 , donc z = 1,96);
- un EAS sera utilis;
- un taux de rponse de 65 % environ est prvu, c.--d. que r=0,65;
- tant donn quil ny a pas destimation de P disponible, le degr de satisfaction de la clientle est
donc suppos tre P = 0,5 .
Voici le calcul de la taille de lchantillon ncessaire :
1. Calcul de la taille de lchantillon initial, n1 :

STATISTIQUE CANADA

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION

175

z 2 P (1 P )
e2
(1,96) 2 (0,50)(0,50)
=
= 96
(0,10) 2

n1 =

2. Ajustement de la taille de lchantillon pour tenir compte de la taille de la population :


N
N + n1

n2 = n1
= 96

2500
= 92
(2500 + 96)

3. Ajustement de la taille de lchantillon, compte tenu de leffet de plan :


n3 = Deff n 2
= n2 = 92
Dans cet exemple, deff = 1 parce quon suppose quun EAS sera utilis.
4. Ajustement pour le taux de rponse, afin de dterminer la taille de lchantillon final, n :
n3
r
92
=
= 142
0,65

n=

Remarque : Si un taux de rponse dau moins 65 % nest pas ralis pendant lenqute, la taille de
lchantillon final sera plus petite que prvu et les estimations de lenqute pourraient donc tre moins
prcises que lexige la planification. Si un taux de rponse plus lev est obtenu, lchantillon sera plus
large que prvu et les estimations de lenqute pourraient tre plus prcises.
Aprs ces tapes, lditeur devrait tirer un EAS de 142 des 2 500 abonns pour estimer le niveau de
satisfaction des lecteurs de la revue avec une marge derreur de 0,10 et un niveau de confiance de 95 %,
compte tenu dun taux de rponse prvu de 65 %.
Exemple 8.2 : EAS stratifi

Une enqute dopinion publique est prvue pour dterminer la proportion de la population en faveur de
lamnagement dun nouveau parc provincial. La population comprend tous les adultes dans deux villes et
en milieu rural. Un chantillon alatoire simple des adultes dans chaque ville et un autre pour le milieu
rural seront slectionns. Il faut dterminer la taille de lchantillon ncessaire dans chaque strate.
La taille de la population est de 657 500 et la rpartition est la suivante :

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

176

Tableau 4 : Population des trois strates


H
1
2
3

Strate
Ville 1
Ville 2
Milieu rural
Total

Population (Nh)
400 000
250 000
7 500
657 500

Les besoins de donnes particuliers de lenqute dterminent la taille de lchantillon ncessaire. Les
deux options suivantes peuvent tre considres.
Option 1 : Marge derreur pour les estimations de la population dans lensemble
Supposons que des estimations prcises pour chaque strate ne sont pas ncessaires. Une estimation avec
marge derreur de 0,05 et un niveau de confiance de 95 % pour le secteur dans lensemble sont
suffisants. Une estimation prliminaire de la proportion nest pas disponible et nous supposons que
P = 0,5 . Un taux de rponse de 50 % est prvu.
1. Calcul de la taille de lchantillon initial, n1 :
z 2 P (1 P )
e2
(1,96) 2 (0,50)(0,50)
=
= 384
(0,05) 2

n1 =

2. Calcul de la taille de lchantillon modifie, n2 :


n2 = n1

N
N + n1

= 384

657 500
= 384
657 500 + 384

(Remarque : Si la valeur n1/N est ngligeable, on peut supposer que n2 = n1 )


3. Ajustement pour leffet de plan :

n3 = Deff n 2
= n2 = 384

Habituellement, deff < 1 pour un chantillonnage alatoire stratifi. Dans le prsent exemple, il ny a pas
destimation disponible de deff et, si on pose que deff = 1, le rsultat devrait vous donner une estimation
plus raisonnable de la taille de lchantillon (c.--d. plus large).
4. Ajustement pour le taux de rponse, afin de dterminer la taille de lchantillon final, n :

STATISTIQUE CANADA

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION

177

n3
r
384
=
= 768
0,50

n=

La taille de lchantillon ncessaire est 768. On verra la Section 8.2 comment rpartir ces 768 units
chantillonnes sur trois strates.
Option 2 : Marge derreur pour chaque estimation de strate

Supposons que le client demande des rsultats ayant une marge derreur de "0,05 et un taux de confiance
de 95 % pour chaque strate. Il faut maintenant calculer la taille de lchantillon individuel pour chaque
strate (c.--d. que chaque strate est traite comme une population en soi).
Remarquez que les Villes 1 et 2 ont de larges populations et que la taille de leur population ne devrait pas
avoir de rpercussion sur la taille de lchantillon. Compte tenu des hypothses ci-dessus, la taille de
lchantillon de chacune de ces deux strates est donc 768. La population plus petite du milieu rural devrait
cependant avoir des rpercussions sur la taille de lchantillon.
Milieu rural :
n1 =

z 2 P (1 P ) (1,96) 2 (0,50)(0,50)
=
= 384
e2
(0,05) 2

n2 = n1

7 500
N
= 366
= 384
N + n1
7 500 + 384
n3 = 366
n=

n3 366
=
= 732
r
0,50

La taille totale de lchantillon est donc 768 (Ville 1) + 768 (Ville 2) + 732 (milieu rural) = 2 268.
En comparant les options 1 et 2, la taille de lchantillon total de 2 268 pour loption 2 est prs de trois
fois plus grande que la taille de lchantillon de 768 pour loption 1. Autrement dit, si une seule
estimation pour la population totale des trois strates est ncessaire, la taille de lchantillon ncessaire est
infrieure celle quil faudra dterminer si des estimations prcises par strate sont demandes parce quil
faudrait alors tablir des tailles dchantillon suffisantes dans chaque strate.
Cet exemple illustre clairement limportance de lexamen des besoins de prcision pour chaque domaine
distinct. Si de nombreux domaines sont ncessaires, les rpercussions sur la taille de lchantillon total
peuvent tre importantes et donner ventuellement une taille dchantillonnage suprieure au budget et
aux ressources oprationnelles du client. En gnral, plus on demande destimations de domaines, plus la
taille de lchantillon doit tre grande. Il faut donc ventuellement en venir des compromis pour obtenir
des niveaux derreur acceptables. On peut choisir daugmenter les niveaux tolrables derreur dans
chaque strate, ou combiner deux domaines ou plus. Ceci sera repris la Section 8.2.2.2.

STATISTIQUE CANADA

178

8.1.4

MTHODES ET PRATIQUES DENQUTE

Contraintes oprationnelles, de cots et de temps

Nous avons considr un seul aspect de la taille de lchantillon jusqu maintenant, cest--dire la taille
de lchantillon ncessaire, afin dobtenir un degr de prcision en particulier pour les estimations de
lenqute les plus importantes. En pratique, le temps, les cots et dautres restrictions oprationnelles sont
aussi au premier plan.
Dans de nombreux sondages, les fonds sont attribus et les dlais sont dtermins avant mme que les
dcisions soient prises sur les particularits de lenqute. La taille de lchantillon ncessaire pour
procder au sondage peut se rvler plus grande que lchantillon quil est possible dobtenir, compte tenu
des fonds disponibles. Sil est impossible dobtenir dautres fonds, il faudra peut-tre rduire la taille de
lchantillon et diminuer ainsi la prcision des estimations. On pourrait aussi renoncer aux estimations de
certains domaines. La question se pose aussi pour les considrations de temps. Si le temps attribu est
insuffisant, il faudra peut-tre limiter la taille et lenvergure de lenqute pour respecter les dlais.
Les contraintes oprationnelles quimpose la mthode de collecte des donnes choisie, la disponibilit du
personnel sur place, la disponibilit du personnel de codage et de vrification et les installations de
traitement ont aussi des rpercussions sur la taille de lchantillon. Il peut sagir en fait des points les plus
importants pour dterminer la taille de lchantillon. Nous avons considr au Chapitre 4 - Mthodes de
collecte des donnes, par exemple, que les interviews sur place permettent dobtenir de linformation
plus complexe et des taux de rponse plus levs, mais elles cotent cher. Il nest donc pas toujours
pratique de les appliquer de gros chantillons.

8.2

Rpartition de lchantillon pour des plans dEAS stratifi

Pour dterminer lefficience de lchantillonnage stratifi, il est important de considrer comment la taille
totale de lchantillon, n, est rpartie dans chaque strate. Nous avons expliqu au Chapitre 6 - Plans
dchantillonnage que, dans un plan dchantillonnage stratifi, le nombre total dunits de la
population, c.--d. N, est divis en L strates sans chevauchement de taille N1, N2, , NL, respectivement.
La taille de la population est donc gale la somme, pour toutes les strates, du nombre dunits dans la
population : N = N1 + N2 + + NL. Un chantillon est tir indpendamment de chaque strate. La taille de
lchantillon dans chaque strate est nh (h = 1, 2, , L), o n = n1 + n2 + + nL.
La rpartition de lchantillon, n, en L strates est possible en appliquant lun ou lautre des critres
suivants. La taille totale de lchantillon peut tre dtermine laide des mthodes dcrites auparavant
dans ce chapitre et rpartie ensuite entre les strates (ou taille de lchantillon fixe). On peut aussi
dterminer la taille de lchantillon ncessaire dans chaque strate pour obtenir la prcision voulue et faire
la somme, afin dobtenir la taille de lchantillon total (ou coefficient de variation fixe, si la prcision
voulue est exprime en coefficient de variation).

8.2.1

Critres de rpartition

Cette section dcrit en dtail la diffrence entre les rpartitions selon une taille dchantillon fixe et un
coefficient de variation fixe.

STATISTIQUE CANADA

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION

179

8.2.1.1 Taille dchantillon fixe

Une taille dchantillon fixe n est attribue aux strates dune faon particulire dans ce cas. La proportion
de lchantillon attribue la he strate est ah = nh / n, o chaque ah se situe entre 0 and et 1 inclusivement
L

(c.--d. 0 ah 1) et la somme des ah est gale 1 (c.--d. a h = 1).


h =1

Dans chaque strate h, la taille de lchantillon nh est donc gale au rsultat de la taille de lchantillon
total n et de la proportion ah de lchantillon tir de cette strate en particulier :
nh = n a h

(4)

Si la strate a une proportion ah = , par exemple, la moiti de lchantillon complet est donc attribu
cette strate.
Compte tenu de ce critre de rpartition, la taille de lchantillon n dans lensemble tant connue, la taille
de lchantillon nh pour chaque strate peut tre calcule ds que la valeur ah est dtermine pour chaque
strate. Il y a de nombreuses faons de dterminer ah : lune delle consiste dterminer les valeurs de ah
qui minimisent la variance dchantillonnage des caractristiques dintrt. La Section 8.2.2. explique
comment dterminer la valeur de ah.
8.2.1.2 Coefficient de variation fixe

La solution de rechange ltablissement de la taille de lchantillon, n, est le calcul de la taille de


lchantillon ncessaire dans chaque strate, nh, compte tenu dun certain degr de prcision pour les
estimations dans lensemble. Il faut alors trouver la taille de lchantillon nh (h = 1, 2, , L) pour chaque
strate, afin que le coefficient de variation des estimations dans lensemble ne soit pas suprieur la valeur
voulue CV.
Considrons, par exemple, lestimation dun total, Y , partir dun chantillon alatoire simple stratifi.
Lquation permettant dobtenir le coefficient de variation dun total estim partir dun chantillon
stratifi peut tre exprim de la faon suivante pour la taille de lchantillon total, n1 :
L

n=

2
h

S h2 a h

h =1

CV 2Y 2 + N h S h2
h =1

o :
Nh est la taille de la strate,
S h2 est la variabilit des units, yi, de la strate h de la population,
ah est la proportion de lchantillon attribue la strate,
1

Consulter la Section 7.3.2.4 pour obtenir de linformation sur la variance dchantillonnage dun total estim pour

un chantillon stratifi. Lquation ci-dessus peut tre obtenue en tablissant que CV (Y ) = Var (Y ) / Y o

Var (Y ) = N 2Var (Y ) et N = N h .
h

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

180

CV est le coefficient de variation exig pour Y,


Y est le total.
Remarque : Dans la formule ci-dessus, nous supposons que nh = n a h < N h , c.--d. que la taille de
lchantillon attribu par strate est infrieure la taille de la population par strate. Consultez cette fin la
2
Section 8.2.3. La variance de la population, S h2 , peut tre estime laide de S h , comme suit :
nh

S h2 =

(y

hi

yh )

i =1

nh 1

o y h , la moyenne de la strate de lchantillon, est :


nh

yh =

hi

i =1

nh

(Remarque : Si yhi est une variable binaire, la moyenne de la strate est une proportion, c.--d. que y h = Ph ,
2
et S = P (1 P ) ).
h

Substituant nh = n a h , S h2 et Y dans lquation prcdente pour n, on obtient le rsultat suivant pour nh :


L

nh = a h

2
h

S h2 a h

h =1

CV Y 2 + N h S h2
2

(5)

h =1

Aprs avoir dtermin la valeur de ah pour chaque strate, on peut calculer chaque taille dchantillon nh.
Noubliez pas : nous avons expliqu auparavant dans ce chapitre comment dterminer la taille de
lchantillon et, pour trouver nh, il faut tablir la prcision ncessaire (sous forme de coefficient de
variation dans ce cas), la variabilit estime de la population, S h2 , et la taille de la population, Nh. Il
faudrait aussi apporter un ajustement pour les non-rponses la taille dchantillon nh finale.
Lapproche du coefficient de variation fixe pour rpartir lchantillon est plus complique que lapproche
de la taille de lchantillon fixe et seulement cette dernire sera utilise pour illustrer la rpartition de
lchantillon.

8.2.2

Mthodes de rpartition de lchantillon

Les quations (4) et (5) sont les outils lmentaires de rpartition de lchantillon stratifi. Chaque
quation peut tre applique ds que les valeurs ont t dtermines pour chaque ah. Le choix dune ah
pour chaque strate peut tre class en deux genres de mthodes : rpartition proportionnelle ou non
proportionnelle. Ces mthodes dpendent de certaines quantits : la taille de la population de la strate, une
autre mesure de la taille de la strate, la variabilit de la population de la strate ou le cot de lenqute dans
la strate.

STATISTIQUE CANADA

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION

181

8.2.2.1 Rpartition proportionnelle

Dans la rpartition proportionnelle, ou rpartition proportionnelle N, la taille de lchantillon, nh, de


chaque strate est proportionnelle la taille de la population, Nh, de la strate. Une part plus importante de
lchantillon est donc attribue une strate plus grande qu une strate plus petite. On obtient ainsi un
taux de sondage, fh = nh / Nh, semblable dans chaque strate et gal au taux de sondage dans lensemble,
f = n / N. On obtient donc lquation suivante :

nh =

Nh
n
N

Le rsultat de la rpartition proportionnelle N est donc ah = nh / n = Nh / N. Autrement dit, le facteur de


rpartition ah pour chaque strate est gal au ratio de la taille de la population de la strate la taille de la
population entire. Ce genre de rpartition est illustr au Chapitre 7 - Estimation.
La rpartition proportionnelle N est souvent utilise lorsque linformation sur les variances de strate de
la population ne sont pas disponibles. Elle nest donc pas utilise pour calculer les tailles dchantillon
pour une variance de coefficient fixe parce que lapplication de cette approche demande des
connaissances sur la variance de chaque strate. La rpartition proportionnelle N sert aussi
lautopondration du plan dchantillonnage (c.--d. que toutes les units ont la mme probabilit
dinclusion, , et la mme pondration du plan dchantillonnage, 1 / , videmment).
La rpartition proportionnelle N applique lchantillonnage stratifi est considrablement plus
efficiente que lchantillonnage alatoire simple de la population complte si les moyennes de strate, Yh ,
sont considrablement diffrentes lune de lautre. Si les strates sont cependant formes de sorte que leurs
moyennes, Yh , soient peu prs les mmes, la stratification avec rpartition proportionnelle N donne
seulement une lgre diminution de la variance dchantillonnage. La rpartition proportionnelle N nest
jamais pire que lchantillonnage alatoire simple et na donc jamais deffet du plan dchantillonnage,
deff, plus grand que 1.
Lexemple suivant illustre une rpartition proportionnelle N laide dune taille dchantillon fixe, n.
Exemple 8.2 (suite) :

Dans loption 1 de lexemple 8.2, le calcul de la taille de lchantillon n donne 768 personnes. La
rpartition proportionnelle N pour une taille dchantillon fixe est utilise, afin de dterminer comment
rpartir 768 personnes en trois strates.
1. Calcul de la valeur du facteur de rpartition ah pour chaque strate laide de la rpartition
proportionnelle N.
Ville 1 :
N
a1 = 1
N
400 000
=
657 500
= 0,6084

Ville 2 :
N
a2 = 2
N
250 000
=
657 500
= 0,3802

2. Calcul de la taille de lchantillon nh pour chaque strate.

STATISTIQUE CANADA

Milieu rural :
N
a3 = 3
N
7 500
=
657 500
= 0,0114

MTHODES ET PRATIQUES DENQUTE

182

Ville 1 :
n1 = na1

Ville 2 :
n2 = na 2

Milieu rural :
n3 = na 3

= 768 0,6084

= 768 0,3802

= 768 0,0114

= 467

= 292

=9

On constate que la majorit de lchantillon est rparti entre les strates plus larges, Ville 1 et Ville 2 o
467 et 292 personnes sont chantillonnes respectivement. La plus petite strate, le milieu rural, obtient
une plus petite portion de lchantillon complet, soit un chantillon de neuf personnes seulement. Les
rsultats sont rsums au tableau suivant.
Tableau 5 : Rpartition proportionnelle N
H
1
2
3

Strate
Ville 1
Ville 2
Milieu rural
Total

Population (Nh)
400 000
250 000
7 500
657 500

ah
0,6084
0,3802
0,0114
1

nh
467
292
9
768

fh =nh/Nh
0,0012
0,0012
0,0012
0,0012

La rpartition proportionnelle N du tableau ci-dessus donne un plan dchantillonnage autopondr


parce que le taux de sondage, fh, est gal 0,0012 dans les trois strates.
La diffrence entre la rpartition ci-dessus et la taille de lchantillon dtermine loption 2 de
lexemple 8.2 est remarquable : la rpartition ci-dessus rpond un besoin de prcision pour une
estimation de la population dans lensemble et loption 2 de lexemple 8.2 rpond un besoin de
prcision pour chaque strate.
8.2.2.2

Rpartition non proportionnelle

Les taux de sondage de la rpartition non proportionnelle sont diffrents dune strate lautre. Les
mthodes de rpartition non proportionnelles suivantes seront prsentes et expliques : rpartition
proportionnelle Y, rpartition proportionnelle la N , rpartition proportionnelle la Y , rpartition
optimale, rpartition de Neyman et rpartition optimale lorsque les variances sont gales. La terminologie
peut semer la confusion parce que certaines mthodes de rpartition non proportionnelles sont intitules
mthodes de rpartition proportionnelle (p. ex., rpartition proportionnelle Y). Il ne rappeler que la
mthode de rpartition est considre non proportionnelle ds que le taux de sondage est diffrent entre au
moins deux strates.
8.2.2.2.1

Rpartition proportionnelle Y

tant donn une variable denqute, yhi, vue comme une mesure de la taille pour la ie unit de la he strate,
les tailles de lchantillon, nh, peuvent tre calcules comme proportions de Yh, une mesure agrge de la
taille de la strate h. Ce genre de rpartition est intitule rpartition proportionnelle Y. Dans ce cas,
ah = Yh / Y. Cela signifie que le facteur de rpartition ah pour chaque strate est quivalent au ratio de la
mesure de la taille de la strate la mesure de la taille de la population entire.
La rpartition proportionnelle Y est une mthode trs populaire pour les enqutes sur les entreprises o
lon trouve souvent que la distribution des yhi est asymtrique (c.--d. quelle a des valeurs extrmes une
STATISTIQUE CANADA

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION

183

queue de la distribution). Des exemples typiques sont lemploi dans les industries de fabrication et les
ventes dans les industries de dtail. Dans chaque cas, un petit nombre dentreprises peuvent reprsenter un
pourcentage lev du total de lemploi ou du total des ventes. Dautre part, les autres entreprises en plus
grand nombre peuvent reprsenter seulement une petite fraction de lemploi total ou du total des ventes.
Dans les enqutes sur les entreprises, les strates sont habituellement tablies selon la mesure de la taille
disponible (p. ex., le nombre demploys, le revenu brut de lentreprise, les ventes nettes). La mesure de
la taille peut servir, notamment, crer trois strates pour les petites, moyennes et grandes entreprises. La
strate qui comprend le plus grand nombre dunits est souvent plus variable que dautres. Dans un cas
extrme, la rpartition proportionnelle Y se traduit par lchantillonnage avec certitude des plus
importantes units dune population asymtrique.
La rpartition proportionnelle Y donne une meilleure prcision que la rpartition proportionnelle N
pour les estimations denqute qui sont plus fortement corrles avec Yh quavec la taille de la strate, Nh.

8.2.2.2.2

Rpartition proportionnelle

Toutes les mthodes de rpartition prsentes jusqu maintenant ciblent uniquement la prcision de
lestimation globale Y . Le client peut cependant tre intress obtenir aussi une bonne prcision pour
les estimations de la strate, Yh . Si les strates sont des provinces, par exemple, les estimations provinciales
sont probablement aussi importantes que les estimations nationales. La rpartition par strate laide de la
rpartition proportionnelle la N peut amliorer la prcision des estimations de la strate. Le paramtre
de rpartition ah est alors calcul ainsi :
Nh
ah = L
Nh
h =1

Autrement dit, le paramtre de rpartition ah est gal au ratio de la racine carre de la taille de la
population de la strate la somme de la racine carre de la taille de la population de toutes les strates.
La rpartition proportionnelle N nest pas aussi efficace que dautres mthodes de rpartition quant
la prcision maximale dans lensemble. Elle peut cependant donner de meilleures estimations au niveau
de la strate. Elle est souvent utilise comme compromis entre la rpartition optimale (voir 8.2.2.2.4) et la
rpartition pour rpondre toutes les contraintes des domaines (o les domaines sont dfinis comme des
strates). La rpartition optimale pour les estimations nationales, par exemple, peut donner de grandes
variances dchantillonnage pour des domaines dintrt plus petits (p. ex., provinces) et la rpartition de
lchantillon total pour rpondre aux contraintes des domaines (comme dans loption 2 de lexemple 8.2)
peut donner une rpartition inefficiente de lchantillon total. La rpartition proportionnelle la N est
un compromis entre la rpartition dans lensemble et au niveau des domaines.
Lexemple suivant illustre lapplication de la rpartition proportionnelle la
dchantillon fixe, n.

STATISTIQUE CANADA

N pour une taille

MTHODES ET PRATIQUES DENQUTE

184

Exemple 8.2 (suite) :

Dans lexemple prcdent, un chantillon fixe de 768 personnes a t rparti en trois strates laide de la
rpartition proportionnelle N. La rpartition par strate ci-dessous est faite laide de la mthode de la
rpartition proportionnelle la N .
1. Calcul de la valeur du facteur de rpartition ah pour chaque strate laide de la rpartition
proportionnelle la N .
Ville 1 :
a1 =

Ville 2 :
N1

a2 =

Nh

h =1

Milieu rural :
N3
a3 = 3
Nh

N2
3

Nh

h =1

632,46
1 219,06
= 0,5188

h =1

500
1 219,06
= 0,4102

86,60
1 219,06
= 0,0710

2. Calcul de la taille de lchantillon nh pour chaque strate.


Ville 1 :
n1 = na1

Ville 2 :
n 2 = na 2

Milieu rural :
n3 = na 3

= 768 0,5188

= 768 0,4102

= 768 0,0710

= 398

= 315

= 55

Le tableau suivant rsume les rsultats et compare la rpartition proportionnelle N et la rpartition


proportionnelle la N .
Tableau 6 : Comparaison de la rpartition proportionnelle N et de la rpartition proportionnelle
N
Rpartition proportionnelle N
h

Strate

1
2
3

Ville 1
Ville 2
Milieu
rural
8.2 Total

Rpartition proportionnelle la N
ah
nh
fh
N

Population (Nh)

Ah

nh

fh

400 000
250 000
7 500

0,6084
0,3802
0,0114

467
292
9

0,0012
0,0012
0,0012

657 500

768

0,0012 1 219,06

632,46
500
86,60

0,5188
0,4102
0,0710

398
315
55

0,0010
0,0013
0,0073

768

0,0012

La rpartition proportionnelle la N donne une taille dchantillon plus petite pour la Ville 1 que la
rpartition proportionnelle N. Dautre part, elle donne un chantillon plus grand pour la Ville 2 et le
Milieu rural. La prcision de lestimation pour la Ville 2 et le Milieu rural est donc meilleure avec la
rpartition proportionnelle la N quavec la rpartition proportionnelle N parce que la taille de
lchantillon est plus grand. (Il serait difficile dobtenir une bonne estimation du milieu rural partir de
neuf units seulement.) La diminution de la taille de lchantillon de la Ville 1 aura de lgres
rpercussions sur la prcision de lestimation. Laugmentation de la taille de lchantillon de la Ville 2

STATISTIQUE CANADA

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION

185

aura simplement une rpercussion lgrement positive sur la prcision des rsultats. Laugmentation de la
taille dchantillon du Milieu rural amliore cependant beaucoup la prcision des estimations. La
prcision la hausse en Milieu rural surpasse la perte de prcision dans la Ville 1.

8.2.2.2.3

Rpartition proportionnelle

Un autre moyen de garantir que lestimation dans lensemble et les estimations de la strate sont
raisonnablement fiables est le recours la rpartition proportionnelle la Y , o yhi est une mesure de la
taille. Il sagit dune autre mesure plus prcise que la rpartition proportionnelle la N pour les
estimations de lenqute corrles davantage avec la variable de la taille, Yh, quavec la taille de la strate,
Nh. Voici le paramtre de rpartition ah :
Yh
ah = L
Yh
h=1

Cela signifie que le paramtre de rpartition ah est gal au rapport entre la racine carre de la mesure de la
taille de la strate et la somme de la racine carre de la mesure de la taille de toutes les strates.
Tout comme dans le cas de la rpartition proportionnelle la N , le recours la rpartition
proportionnelle la Y pour calculer les valeurs de ah (et ultrieurement les valeurs de nh) nest pas
aussi efficient que lapplication dautres mthodes de rpartition quant la prcision dans lensemble.
Cette rpartition donne cependant des estimations plus prcises lchelon de la strate.
Les rpartitions proportionnelles la N et la Y sont parfois intitules rpartitions par puissance o
lattribution dune puissance Y, par exemple, est dfinie plus gnralement comme suit :
ah =

Yh

h =1

o p est habituellement une fraction (p. ex., ). On trouvera dans Bankier (1988) davantage de dtails sur
les rpartitions par puissance.
8.2.2.2.4

Rpartition optimale

Lorsque le cot de linterview par unit est diffrent dune strate lautre et que les variances de la
population, Sh2, varient normment, une mthode de rpartition non proportionne intitule rpartition
optimale peut tre considre. Cest la seule mthode de rpartition prsente ici qui tient compte des
cots.
Afin dutiliser la rpartition optimale, lorganisme statistique a besoin dune fonction pour modliser le
cot. La plus simple fonction du cot total est exprime comme suit :
L

Cot = C = c o + c h n h
h =1

STATISTIQUE CANADA

186

MTHODES ET PRATIQUES DENQUTE

o ch est le cot par unit de sondage dans la strate h (h = 1, 2, , L) et c0 est un cot gnral fixe. Cette
fonction cot est meilleure lorsque le principal article du cot est celui de linterview ou de la mesure de
chaque unit.
Le paramtre de rpartition ah utilis pour la rpartition optimale est calcul comme suit :
ah =

Nh Sh

ch

Sh

ch

h =1

La rpartition optimale minimise la variance de lestimation pour un cot donn et, de mme, elle
minimise le cot de lchantillon total pour une variance globale en particulier. Afin datteindre ce but,
lchantillonnage est augment dans les strates qui ont de grandes variances ou tailles de population et il
est diminu dans les strates dont les interviews cotent cher. Rgle gnrale pour la rpartition optimale,
un grand chantillon est slectionn dans une strate donne si :
- la strate est plus nombreuse,
- la strate tmoigne dune plus grande variabilit interne,
- le droulement de lenqute cote moins cher dans la strate.
Il faut obtenir de linformation prcise sur les variances par strate et les cots lunit pour appliquer la
rpartition optimale. En pratique, les variances et les cots peuvent tre inconnus. Un moyen de surpasser
cette limite est destimer les variances et les cots dun chantillon prliminaire ou dune enqute
prcdente. Une difficult de la rpartition optimale est que les variances et les cots estims de la strate
peuvent tre imprcis. En pratique donc, le plan dchantillonnage nest peut-tre pas optimal.
Lorsque les variances et les cots sont gaux pour toutes les strates, la rpartition optimale se rduit la
rpartition proportionnelle N. La variance de lestimation est minimise pour cette rpartition. Si
seulement les cots sont quivalents pour toutes les strates, la rpartition optimale est ramene ce qui est
gnralement intitul rpartition de Neyman explique ci-dessous.
8.2.2.2.5

Rpartition de Neyman

Cette rpartition optimale particulire intitule rpartition de Neyman est applique lorsque le cot dune
interview est identique chaque strate. Cest une rpartition de la taille de lchantillon total en strates qui
minimise la variance de lestimation dans lensemble. La rpartition de Neyman attribue davantage
dunits de lchantillon aux strates plus larges, aux strates qui affichent les variances les plus leves, ou
aux deux. De nouveau, comme dans le cas de la rpartition optimale, les variances peuvent tre inconnues
et des estimations sont habituellement utilises.
Voici lexpression du paramtre de rpartition ah :

ah =

Nh Sh
L

N h Sh

h =1

Cest--dire que le paramtre de rpartition ah est gal au ratio du rsultat de la taille de la strate et de la
racine carre de la variance au rsultat de la taille de la strate et de la racine carre de la variance de toutes
les strates.

STATISTIQUE CANADA

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION

187

Sil est impossible dobtenir une valeur prcise pour les variances, le ratio de la variance de la strate la
moyenne de la strate ( S h Yh ) peut tre considr constant entre les strates. Cette supposition ramne la
rpartition de Neyman une rpartition proportionnelle Y. La rpartition de Neyman pose une
difficult, comme la rpartition optimale, cest--dire que lestimation des variances de la strate nest
peut-tre pas prcise, et ainsi, le plan dchantillonnage nest peut-tre pas optimal.
8.2.2.2.6

Rpartition optimale lorsque les variances sont gales

La rpartition optimale, occurrence particulire, est faite si les variances sont gales dans toutes les
strates, ce qui est inhabituel, et cette rpartition est donc rarement applique. Elle lest cependant sil ny a
pas dinformation sur les variances de la population ou lorsquon peut supposer que ces variances sont
approximativement gales et que le facteur de rpartition prdominant est le cot, auquel cas, ce genre de
rpartition attribue davantage dunits de lchantillon aux strates plus larges, celles qui cotent moins
cher, ou les deux. Le paramtre de rpartition ah est dfini comme suit :

ah =

Nh

ch

Nh

ch

h =1

8.2.3

Considrations particulires pendant la rpartition

Il ne faut pas oublier les proccupations suivantes pendant la rpartition :


i.

Utilisation des donnes auxiliaires pour la rpartition proportionnelle la

Y et Y

Lors de la mise en uvre dun plan dchantillonnage stratifi et de la rpartition proportionnelle Y ou


la racine carre de Y, en pratique, la valeur de Y est inconnue pour toutes les units de la population et, si
elle tait connue, il ne serait pas ncessaire de procder un sondage pour cette variable. Lorsque ces
mthodes de rpartition sont appliques, des donnes auxiliaires fortement corrles avec Y sont donc
utilises et elles sont habituellement tires denqutes prcdentes ou de donnes administratives. Il nest
pas vident que le coefficient de variation prcis pour la variable de lenqute sera obtenu parce que
lorganisme statistique applique une mesure auxiliaire de la taille. La puissance de la corrlation entre la
variable de lenqute et la variable auxiliaire utilise dterminent donc lefficience taille-stratification et
la prcision de la rpartition.
ii.

Rpartition excessive

Dans un plan dchantillonnage stratifi qui applique la rpartition optimale, la rpartition de Neyman, la
rpartition proportionnelle Y ou la rpartition proportionnelle la Y , il est possible que la valeur nh
attribue dpasse la taille de la population Nh. Il sagit dune rpartition excessive. Il faudrait alors
procder un recensement des strates qui demandent des chantillons excessifs. La taille de lchantillon
globale obtenue la suite de ce genre de rpartition excessive sera ensuite plus petite que la taille de
lchantillon original et il serait possible de ne pas obtenir la prcision demande dans lensemble. La
solution est daugmenter lchantillon dans les autres strates o nh est plus petit que Nh laide du surplus
dans les tailles dchantillon tir des strates recenses.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

188

iii.

Taille minimale de lchantillon de la strate

Il est habituellement recommand dattribuer au moins deux units chaque strate. Ces deux units sont
en fait le nombre minimal possible pour obtenir une estimation non biaise de la variance des estimations.
Remarquez que la taille minimale de lchantillon de la strate devrait tre suprieure deux, compte tenu
de la non-rponse totale.
Malheureusement, toutes les mthodes de rpartition de lchantillon examines la Section 8.2.2
peuvent donner des tailles dchantillon infrieures deux, ou mme un. La solution la plus habituelle
dans ce cas est daugmenter la taille de lchantillon deux dans les strates qui posent ce problme. Cette
mesure augmentera la taille totale de lchantillon. Une autre solution serait de rpartir un chantillon de
taille deux toutes les strates et dattribuer ensuite la taille de lchantillon qui reste toutes les strates
laide de lune des mthodes de rpartition prsentes plus tt. Cette solution a lavantage de ne pas
augmenter la taille totale de lchantillon.
iv.

Rpartition selon plusieurs variables

La rpartition qui convient une variable pourrait ne pas convenir une autre variable de lenqute. Afin
de rpartir lchantillon selon plus dune variable, il faut appliquer une rpartition intermdiaire. Des
mthodes de rpartition multidimensionnelle (certaines dentre elles appliquent la programmation
linaire) ont t labores pour rsoudre ce genre de problme (Bethel (1989)).
Il ne faut surtout pas oublier que lorganisme statistique veut rpartir lchantillon afin de rpondre aux
besoins de prcision pour les principales variables dintrt de lenqute. Cela signifie habituellement que
les estimations pour les variables moins importantes de lenqute ne seront pas aussi prcises que celles
des principales variables.

8.3

Sommaire

Dterminer la taille de lchantillon est un processus de compromis et de choix pratiques entre des
besoins de prcision souvent concurrents et des contraintes oprationnelles, par exemple le budget dans
lensemble, le cot de lenqute pour chaque strate, le temps disponible et le nombre dintervieweurs
ncessaires et disponibles. Les dcisions prendre sur la taille de lchantillon peuvent demander un
nouvel examen et une modification ventuelle des objectifs, des besoins de donnes, des degrs de
prcision, des lments du plan denqute, des activits sur place, etc., dtermins au point de dpart.
Lorganisme statistique et le client ciblent souvent la rentabilit pour que le client puisse obtenir la taille
de lchantillon ncessaire. Ils prvoient, notamment, des interviews plus brves, appliquent une autre
mthode de collecte des donnes, oublient certains domaines dintrt ou considrent un autre plan
dchantillonnage.
Si lchantillonnage stratifi est utilis, lchantillon doit tre rparti entre les strates. Il y a deux faons
dy arriver : dterminer la taille de lchantillon total et la rpartir entre les strates pour minimiser la
variabilit ou, compte tenu dune prcision demande, dterminer la taille de lchantillon ncessaire dans
chaque strate. Il faut une formule de rpartition, ah, dans chaque strate pour ces deux mthodes. Il y a
diverses mthodes diffrentes de rpartition. La rpartition proportionnelle N est la mthode de
rpartition proportionnelle qui donne des fractions dchantillonnage gales dans chaque strate. Les
mthodes de rpartition non proportionnelles distribuent lchantillon entre les strates, compte tenu de la
taille de la population dans la strate ou dune autre mesure de la taille de la strate, de la variabilit de la
population de la strate ou du cot de lenqute dans la strate.

STATISTIQUE CANADA

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION

189

Bibliographie
Bankier, M. 1988. Power Allocations: Determining Sample Sizes for Subnational Areas. The American
Statistician, 42: 174-177.
Bethel, J. 1989. Rpartition de lchantillon dans les enqutes plusieurs variables. Techniques
denqute, 15(1):49-60.
Cochran, W.G. 1977. Sampling Techniques. John Wiley and Sons, New York.
Fink, A. 1995. The Survey Kit. Sage Publications, California.
Fowler, F.J. 1984. Survey Research Methods. 1. Sage Publications, California.
Hidiroglou, M. 1986. The Construction of a Self-Representing Stratum of Large Units in Survey Design.
The American Statistician, 40: 27-31.
Hidiroglou, M. 1993. Quelques mthodes pour calculer les tailles dchantillon ainsi que leur allocation
pour les enqutes-entreprises. Statistique Canada.
Glasser, G.J. 1962. On the Complete Coverage of Large Units in a Statistical Study. Review of the
International Statistical Institute, 30: 28-32.
Gower, A. et K. Kelly. 1993. How Big Should the Sample Be? Statistics Canada.
Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.
Latouche, M. 1988. Dtermination, allocation et slection de lchantillon. Statistique Canada. 88-021F.
Lavalle, P. et M.A. Hidiroglou. 1988. Sur la stratification des populations asymtriques. Techniques
denqute, 14(1): 35-45.
Lehtonen, R. et E.J. Pahkinen. 1995. Practical Methods for the Design and Analysis of Complex Surveys,
Statistics in Practice. John Wiley and Sons, New York.
Levy, P. et S. Lemeshow. 1999. Sampling of Populations. John Wiley and Sons, New York.
Lohr, S. 1999. Sampling: Design and Analysis. Duxbury Press, U.S.A.
Moser C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.
Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.
Satin, A. et W. Shastry. 1993. Lchantillonnage : un guide non mathmatique Deuxime dition.
Statistique Canada. 12-602F.
Sethi, Y.K. 1963. A Note on Optimum Stratification of Populations for Estimating the Population Means.
Australian Journal of Statistics, 5: 20-33.
Thompson, M. 1997. Theory of Sample Surveys. Chapman and Hill, United Kingdom.
Thompson, S.K. 1992. Sampling. John Wiley and Sons, New York.
STATISTIQUE CANADA

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

191

Chapitre 9 - Oprations de collecte des donnes


9.0 Introduction
La collecte des donnes est habituellement le volet dune enqute qui cote le plus cher. Cest pour cette
raison, et parce quil cote trs cher de rsoudre les problmes qui surviennent durant la collecte et qui
peuvent faire chouer tout le projet quil faut bien rflchir cette tape de lenqute et la planifier
attentivement. Les diverses mthodes de collecte des donnes sont considres au Chapitre 4 - Mthodes
de collecte des donnes. Ce chapitre expose les diverses activits qui se droulent pendant la collecte des
donnes et explique comment elles devraient tre organises et accomplies. Les enqutes assistes par
intervieweur sont cibles parce quelles ont les exigences oprationnelles les plus compltes.
La collecte des donnes devrait tre organise le plus efficacement possible, tout en maintenant des
pratiques dinterview uniformes pour tous les intervieweurs. Une mthode dorganisation, applique
Statistique Canada et prsente dans ce chapitre, fait appel aux bureaux rgionaux qui font rapport au
Bureau central.
La collaboration des rpondants sobtient souvent au prix dimportantes relations publiques. Lorganisme
statistique doit notamment maintenir une bonne rputation. Il faut aussi organiser des campagnes
publicitaires et utiliser divers outils, par exemple, des lettres de prsentation, des brochures sur lenqute
et du matriel denqute prpar pour radiotldiffusion et publication dans les journaux, afin de susciter
un intrt pour lenqute et dencourager la participation des rpondants.
Retenir les services de bons intervieweurs et dautres membres du personnel est essentiel au succs de la
collecte des donnes. La persvrance et la qualit de ces travailleurs dterminent la qualit de la collecte
des donnes et des rsultats de lenqute. La formation et les manuels sont donc aussi importants.
On procde parfois au listage et au dpistage avant de faire les interviews ou de distribuer les questionnaires
par autodnombrement. Le listage est ncessaire quand on a recours des bases arolaires. Lobjectif du
listage est dtablir une liste dunits chantillonner (p. ex., logements ou entreprises) dans un secteur
gographique en particulier. Le dpistage est fait si une unit de lchantillon ne peut tre repre laide de
linformation de la base de sondage. Les numros de tlphone ne sont peut-tre plus jour, par exemple,
dans la base de sondage.
Linterview ou lautodnombrement peut commencer lorsque le rpondant a t repr et quon a pu
tablir le contact avec lui. Il ne sagit pas simplement de poser des questions, il faut aussi tablir le
calendrier des interviews, obtenir la collaboration des rpondants, minimiser les erreurs de rponse, faire
le suivi des rejets la vrification, coder les rponses, contrler les documents et surveiller la qualit de la
collecte des donnes. Celle-ci est considre complte seulement la conclusion de ces activits.

9.1

Organisation de la collecte des donnes

Il y a de nombreuses mthodes dorganisation des activits de collecte des donnes, mais lune des plus
habituelles est la rpartition du pays en rgions, chacune ayant un bureau rgional qui fait rapport au
Bureau central. Les bureaux rgionaux peuvent tirer pleinement avantage des connaissances locales
laide de cette structure pour amliorer les relations avec les rpondants et augmenter lefficacit en
diminuant le cot du suivi des questionnaires incomplets, des refus, des non-rponses, etc. Les bureaux
rgionaux sont chargs de la gestion des activits de collecte et de saisie des donnes dans leurs secteurs
(la saisie des donnes consiste transformer les rponses pour les rendre lisibles la machine; ce
STATISTICS CANADA

MTHODES ET PRATIQUES DENQUTE

192

propos, on peut consulter le Chapitre 4 - Mthodes de collecte des donnes et le Chapitre 10 Traitement). Le Bureau central veille ce que des procdures et concepts normaliss et uniformes soient
appliqus dans toutes les rgions. Il est aussi charg de la gestion de lenqute dans lensemble et de la
conception des procdures de collecte des donnes.
Il faut considrer un certain nombre de points pour structurer les bureaux rgionaux. Sil sagit dune
grande enqute ou dun recensement, il peut tre ncessaire douvrir des bureaux de district qui feront
rapport un bureau rgional. Les points suivants influenceront le nombre de rgions ou de bureaux :
- la taille de lenqute,
- la taille de lchantillon et le lieu o sont situes les units de lchantillon,
- lloignement de lendroit,
- la difficult de communiquer avec les rpondants,
- la collaboration des rpondants qui peut tre difficile obtenir,
- la langue des rpondants,
- la structure des administrations locales, rgionales ou provinciales,
- la population active (p. ex., disponibilit du personnel, scolarit, profils linguistiques),
- les moyens de transport (p. ex., autoroutes, ports, centres dexpdition).

9.1.1

Bureau central

Le Bureau central est gnralement charg de la conception et de la planification des activits et outils
suivants :
i.

Procdures de collecte des donnes

Le Bureau central conoit et labore habituellement des manuels pour les intervieweurs, les surveillants et
les autres membres du personnel de la collecte des donnes. Ces procdures comprennent les interviews,
le listage des units chantillonnes et la mise jour de la base de sondage, le dpistage des rpondants, le
suivi auprs des non-rpondants, ainsi que la vrification et le codage sur place. Certaines de ces tches
sont dtailles au Chapitre 10 - Traitement.
ii.

Traitement des donnes

Le traitement transforme les rponses du sondage obtenues pendant la collecte pour quelles
conviennent la totalisation et lanalyse des donnes. Les activits de traitement comprennent le
codage et la saisie des donnes, la vrification et limputation. Le Bureau central est charg de
llaboration de procdures et programmes de traitement, ainsi que des procdures de contrle qualitatif et
dassurance de la qualit qui seront appliques dans les bureaux rgionaux. Les activits de traitement
sont considres au Chapitre 10 - Traitement. Le contrle qualitatif et lassurance de la qualit sont
approfondis lAnnexe B - Contrle qualitatif et assurance de la qualit.
iii.

Procdures de formation

Elles comprennent llaboration dexercices, de scnarios dinterview simule, de matriel audiovisuel et


de guides de formation.

STATISTIQUE CANADA

OPRATIONS DE COLLECTE DES DONNES

iv.

193

chancier de la collecte des donnes

Un calendrier de collecte des donnes est tabli, les tapes de lenqute et les priodes de rapport sont
prcises, afin datteindre la date vise. Lchancier comprend les taux cibls de cas rsolus pour chaque
priode de rapport, ainsi que les taux de rponse voulus (voir les dtails la Section 9.5.3).
v.

Systmes de contrle et de rapport

Des formules de contrle sont labores pour lchantillon au complet et pour chaque intervieweur (la
formule est intitule tche de lintervieweur), et des procdures de rapport rgulier sont appliques pour
mettre jour ltat de chaque unit chantillonne, afin de garantir que toutes les activits de collecte des
donnes se droulent comme prvu. Cet outil est habituellement intitul Systme dinformation de
gestion (SIG). Le reprage de ltat dune unit et la prparation de rapports de surveillance appropris
sont programms dans un logiciel pour linterview assiste par ordinateur.
Le SIG devrait avoir la capacit de suivre les mesures de la qualit, les dpenses et dautres mesures du
rendement pendant la collecte des donnes. Il faudrait suivre tous les cots de la collecte des donnes, par
exemple, laffranchissement postal, les appels tlphoniques, les dplacements, linformatique et la
consommation par personne par jour. Il faudrait valuer et surveiller dimportantes mesures de la qualit
pendant le processus de la collecte, y compris les taux de rponse, les taux de suivi et le calcul des nonrponses totales pour chaque raison. Des mesures de la qualit et de la productivit peuvent servir
simultanment dterminer les pointes logiques de la collecte des donnes (p. ex., lorsque le taux de
rponse a atteint une cible prvue ou lorsque lamlioration du taux de rponse pour obtenir un taux
suprieur dtermin coterait trop cher) et les modifications apporter sil est impossible de respecter la
date limite de la collecte. Ces mesures de la qualit servent aussi valuer les mthodes qui pourraient
tre appliques dautres enqutes et obtenir de linformation pour lvaluation de la qualit des
donnes.
vi.

Campagne de relations publiques

LA campagne de relations publiques comprend llaboration et la production de brochures, daffiches,


etc. Certains lments de la campagne de relations publiques sont pris en charge directement au Bureau
central pour les grandes enqutes. tant donn cependant que limpression du public peut varier
considrablement dune rgion lautre dans un grand pays, les bureaux rgionaux sont chargs de la
majeure partie de ce travail.

9.1.2

Bureau rgional

La collecte et la saisie des donnes, ainsi que les relations publiques sont les principales responsabilits
des bureaux rgionaux. Ceux-ci font souvent la saisie des donnes parce quil est plus facile de contrler,
grer et tlcharger au Bureau central des fichiers lectroniques que denvoyer des questionnaires sur
support papier. Il est aussi plus facile pour un bureau rgional de faire la saisie de ses lots restreints de
questionnaires, comparativement au Bureau central qui devrait faire la saisie des donnes de toutes les
rgions.
Le recours linfrastructure des bureaux rgionaux permet de faire la gestion quotidienne des activits de
collecte des donnes le plus prs possible de la scne des oprations, et il est plus facile didentifier et de
rsoudre les problmes au fur et mesure.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

194

La hirarchie suivante des employs de la collecte des donnes est tablie pour la plupart des enqutes qui
se droulent partir des bureaux rgionaux :
i.

Chef de projet rgional

Le chef de projet rgional veille dans lensemble ce que la collecte des donnes soit acheve temps et
quelle rponde aux normes de qualit dtermines. Il est aussi charg du budget rgional. Il adopte
habituellement lchancier de lenqute globale et y ajoute les tapes et les points de repre rgionaux
dtaills qui sont ncessaires pour maintenir lenqute dans la bonne voie. Le chef de projet rgional est la
personne-ressource du Bureau central et lintervenant charg de toutes les expditions du Bureau central
et vers celui-ci. La distribution du matriel et la prestation de linformation aux surveillants lui sont aussi
confies. Sil sagit de trs grandes enqutes, par exemple le Recensement de la population canadienne,
des chefs rgionaux adjoints et des chefs de district sont ajouts lquipe.
ii.

Surveillant

Sil y a plus dun surveillant cause de la taille de lenqute, chacun supervise une quipe
dintervieweurs. Le ratio de surveillants intervieweurs varie selon les points suivants :
- la complexit de lenqute,
- lexprience des surveillants et du personnel charg des interviews,
- lendroit o est situ lchantillon,
- les difficults de dplacement,
- la facilit dutilisation du Systme dinformation de gestion.
Le surveillant retient les services des intervieweurs, les forme, obtient et distribue le matriel et les
articles, en collaboration avec le chef de projet rgional. Le surveillant est charg de la gestion
quotidienne de la collecte des donnes, y compris la supervision des intervieweurs et la surveillance
troite de ltat davancement et de la qualit. Le suivi des refus (voir la Section 9.4.6) est une autre tche
importante du surveillant.
iii.

Intervieweur

Lintervieweur procde la collecte des donnes en soi et fait rapport rgulirement au surveillant sur les
problmes et ltat davancement. Le rle de lintervieweur est tudi la Section 9.4.

9.2

Relations publiques

Lobjectif de la campagne de relations publiques est de sensibiliser la population lenqute, afin


dliminer la mfiance des gens envers les trangers qui frappent leurs portes dans le quartier, de
susciter leur intrt, daccrotre ainsi le taux de rponse et de rehausser la prcision des rponses.
La meilleure stratgie de relations publiques dans un organisme statistique est lacquisition et le maintien
dune rputation professionnelle indniable. Il faut garantir cette fin que les donnes obtenues sont
fiables, tout fait disponibles, utilises et apprcies, et que le respect de la confidentialit des rponses
des rpondants est incontestable.
Lorganisme doit, non seulement avoir bonne rputation si elle veut obtenir un bon taux de rponse, mais
il doit aussi donner aux intervieweurs les outils ncessaires pour rpondre aux questions et aux plaintes.
Dautres outils sont aussi utiles, notamment, une lettre de prsentation, une brochure de lenqute et une

STATISTIQUE CANADA

OPRATIONS DE COLLECTE DES DONNES

195

brochure sur lorganisme en gnral. Des campagnes de publicit sont aussi frquentes pour les grandes
enqutes.
Cette section sur les relations publiques couvre seulement la communication avec le grand public. Il
faudrait aussi prvoir dautres communications avec les gens lextrieur de lquipe pendant le
processus de lenqute. Au dbut de la phase de la planification, par exemple, les planificateurs de
lenqute devraient dterminer des questions que lenqute propose pourrait ventuellement susciter,
prvoir comment y rpondre et dcider de procder ou non lenqute. Un sujet propos de lenqute
peut, par exemple, avoir un caractre trop dlicat pour une partie des rpondants. Il est aussi important,
pendant le processus de planification, de consulter des intervenants, des rpondants, des reprsentants
dadministrations locales et dautres intresss pour garantir llaboration dune matire approprie dans
le questionnaire. Il faudrait consulter ces intresss ou les informer des rsultats la fin du processus de
lenqute.
La confidentialit et la planification dune enqute sont dtailles au Chapitre 12 - Diffusion des
donnes et au Chapitre 13 - Planification et gestion de lenqute, respectivement.

9.2.1

Campagnes publicitaires

Les campagnes publicitaires peuvent comprendre les points suivants, en tout ou en partie, selon le sujet de
lenqute, le budget et la population cible :
-

des relations actives avec les mdias (messages dintrt public, faits et porte-parole pour les journaux
et les stations de radio et de tlvision) et des relations avec les mdias pendant la collecte des
donnes pour rgler les problmes qui se posent pendant le processus,

la communication avec des groupes qui feront la promotion de lenqute pendant la collecte des
donnes et avec ceux qui se prononceront contre,

des lettres aux importants reprsentants du public (ou aux reprsentants dassociations ou
dtablissements qui ont un lien avec la population cible de lenqute) pour demander leur soutien et
leur fournir des encarts pour un discours, un bulletin, etc. (ces reprsentants prendront souvent la
parole pour soutenir activement lenqute),

des lettres aux reprsentants des forces de lordre pour les informer de lenqute au cas o des
rpondants communiqueraient avec eux sils se mfient du personnel de lenqute,

des affiches dans les endroits publics, notamment les bureaux de poste et les bibliothques, ou dans
des lieux o la population cible les remarquera probablement.

9.2.2

Relations avec les rpondants

Les campagnes de relations publiques ciblent habituellement les rpondants pour les sensibiliser
davantage et obtenir leur collaboration. Voici les articles utiliss le plus souvent :
i.

Lettre de prsentation

Cette lettre prcise lobjectif, les dates et la mthode de collecte, et explique limportance de lenqute. Le
premier reprsentant rgional suprieur (directeur rgional) signe gnralement les lettres de prsentation.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

196

Celles-ci (et les brochures si elles sont appropries) sont envoyes avec les questionnaires dans les
enqutes par la poste. On envoie habituellement les lettres (et les brochures le cas chant) une semaine
lavance si des intervieweurs font lenqute. Les rpondants ne seront donc pas surpris et collaboreront
probablement davantage lorsque lintervieweur se prsentera leur domicile.
ii.

Brochure de lenqute

Il sagit simplement de renseignements qui dcrivent limportance de lenqute pour le bien public. Elle
devrait comprendre des exemples dutilisation des donnes et une source prcisant o obtenir les donnes.
Les brochures peuvent tre envoyes tous les rpondants ou utilises seulement si les rpondants sont
rticents.
iii.

Brochure gnrale de lorganisme

Document gnral distribuer qui illustre la varit des donnes que lorganisme obtient et diffuse, la
brochure accentue la crdibilit de lorganisme et sert souvent aussi aux relations avec les rpondants.
iv.

Soutien pendant la collecte pour rgler les problmes imprvus avec des rpondants

v.

Manuel de lintervieweur

Un manuel de lintervieweur bien labor devrait donner les rponses aux questions et objections prvues.
vi.

Spcialistes forms pour convaincre ceux qui refusent de rpondre

Les intervieweurs confient habituellement les refus leurs surveillants qui sont forms pour appliquer des
mthodes, afin de convertir les refus en rponses.
Voici un exemple de lettre de prsentation que Statistique Canada a utilis pour le British Columbia Farm
Resource Management Survey (Enqute sur la gestion des ressources agricoles en Colombie-Britannique)
en 1998. La lettre prcise en vertu de quelle loi ou quelle autorit lenqute se droule, donne une garantie
de confidentialit et insiste sur limportance de la participation du rpondant. Le nom et le numro de
tlphone dune personne-ressource sont ajouts la fin de la lettre au cas o le rpondant aurait des
questions, et elle porte la signature approprie, dans ce cas, celle du directeur rgional.
Monsieur, Madame,
Votre exploitation agricole a t slectionne au hasard pour participer lEnqute sur la gestion des
ressources agricoles en Colombie-Britannique, une importante tude sur les pratiques de gestion agricole
visant trois principales ressources : le sol, leau et le fumier lengrais. Cette enqute participation
volontaire cible en particulier llevage du btail, et cest la premire dune srie denqutes dtailles
qui produiront en dfinitive des donnes uniformes pour tous les groupes de produits dans la province.
Cette tude se droule en collaboration avec le ministre de lAgriculture et de lAlimentation de la
Colombie-Britannique pour veiller ce que les programmes agricoles refltent les mthodes changeantes
de la gestion des ressources la ferme aujourdhui.
Entre le 5 et le 24 octobre, un intervieweur de Statistique Canada vous tlphonera pour procder une
interview de cinq dix minutes au tlphone. Aucune question financire dtaille ne sera pose et vous
naurez pas besoin de consulter vos dossiers. Nous demanderons cependant le nombre de ttes et le genre
de btail dans votre exploitation pour obtenir une perspective sur les pratiques de gestion appliques.

STATISTIQUE CANADA

OPRATIONS DE COLLECTE DES DONNES

197

Toute information obtenue Statistique Canada est strictement confidentielle et protge par la loi. Elle
sera utilise uniquement pour dresser des tableaux statistiques qui ne permettent pas didentifier un
rpondant en particulier ou ses renseignements.
Statistique Canada reconnat leffort norme que font les rpondants du secteur agricole pour rpondre
aux questionnaires des enqutes. Cette collaboration signifie que des donnes pertinentes et jour sont
disponibles sur ce secteur en changement rapide. Japprcie sincrement votre collaboration aux
enqutes prcdentes et je vous remercie davance de votre participation cette importante tude.
Si vous voulez davantage dinformation sur cette enqute, veuillez tlphoner Mme Unetelle,
gestionnaire des enqutes sur lagriculture, Bureau de la rgion du Pacifique (Vancouver), en composant
le numro sans frais 1 800 555-5555.
Le directeur,
Rgion du Pacifique
Jean Ixe

9.3

Prparation des procdures de collecte des donnes

Il y a de nombreuses tches accomplir avant la collecte des donnes, par exemple :


- rdiger des manuels,
- embaucher et former du personnel,
- concevoir des procdures de listage,
- concevoir des procdures de dpistage.
Ces tches sont considres dans cette section.

9.3.1

Manuels

Des intervieweurs et dautres membres du personnel de qualit sont la cl du succs de la collecte des
donnes. De bons intervieweurs et membres du personnel de lenqute doivent avoir les capacits et les
qualits personnelles ncessaires pour tre efficaces. Luniformit et la qualit de leur travail dterminent
la qualit des rsultats de lenqute. Des manuels dcrivent les procdures normalises et donnent des
instructions pour rgler des problmes imprvus. Lquipe de lenqute prpare gnralement un manuel
de lintervieweur, un manuel du surveillant et, si ncessaire, des instructions de listage pour les bases
arolaires.
9.3.1.1 Manuel des intervieweurs
Le manuel des intervieweurs est la principale et parfois la seule source dinformation que lintervieweur
peut consulter pour obtenir des renseignements sur son travail. Il est rparti en sections ou chapitres sur
les sujets suivants :

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

198

i.

Information gnrale

Cette section nonce lobjectif et limportance de lenqute, les utilisations prvues des donnes et les
rgles de collecte des donnes de lorganisme (confidentialit, langue de lintervieweur, mandat de
lorganisme, etc.). Une copie de la lettre de prsentation envoye aux rpondants y est habituellement
ajoute, ainsi que de linformation lmentaire sur la mthode de slection de lchantillon.
ii.

Prsentation

Cette section explique comment tablir la premire communication avec un rpondant, vrifier sil sagit
du rpondant voulu, examiner ou corriger linformation de la base de sondage (numro de tlphone, etc.)
et les lignes directrices dinterview des substituts (Section 9.4.7).
iii.

Matire du questionnaire

Cette section comprend une copie du ou des questionnaire(s), la dfinition des concepts de lenqute et la
terminologie. Il est important que lintervieweur comprenne la signification et lobjectif de chaque
question. Cette section porte aussi sur les questions des rpondants, les problmes ventuels et les
interventions appropries.
iv.

Vrification sur place prtraitement des questionnaires

Les vrifications sont des rgles appliques pour identifier les entres manquantes, invalides ou
incohrentes qui indiquent des donnes ventuellement errones. Les intervieweurs doivent faire des
vrifications sur place (c.--d. vrifications faites pendant linterview ou peu aprs). Les rgles de
vrification doivent tre clairement dcrites et prciser comment les appliquera lintervieweur.
v.

Gestion des units dchantillonnage

Cette section porte sur le rejet la vrification, le suivi des non-rponses et le nombre de tentatives que
doit faire lintervieweur pour essayer dobtenir une rponse. Elle prcise aussi comment attribuer un code
dtat dfinitif chaque questionnaire (p. ex., questionnaire rempli, refus, etc.). Vous obtiendrez
davantage de dtails la Section 9.5.2.
vi.

Gestion des tches

Cette section couvre certains dtails administratifs, par exemple, comment les intervieweurs font rapport
sur ltat davancement de leurs questionnaires, comment ils retournent les questionnaires au bureau
rgional, comment ils prsentent les documents des dpenses sur place (p. ex., dpenses de dplacement,
dhbergement, etc.), comment ils sont rmunrs et comment le matriel et les articles sont distribus et
retourns.
vii.

Sret et scurit sur place

Cette section porte sur la sant et la scurit au travail, ainsi que sur les systmes de contrle efficaces
pour garantir la scurit des questionnaires et du transfert des donnes des bureaux rgionaux au Bureau
central.

STATISTIQUE CANADA

OPRATIONS DE COLLECTE DES DONNES

viii.

199

Questions et rponses

Cette dernire section comprend une liste des questions que posent habituellement les rpondants (par
exemple : Comment ai-je t choisi pour lenqute?) et les rponses appropries.
Les aptitudes linterview et les techniques dinterview en gnral peuvent aussi tre intgres au manuel
des intervieweurs avec exemples pertinents lenqute en particulier.
9.3.1.2 Manuel des surveillants
Les surveillants doivent trs bien connatre la matire du manuel des intervieweurs. Un manuel spcial
des surveillants est aussi prvu pour donner des instructions sur la gestion de lenqute.
Les sujets suivants sont habituellement ajouts au manuel des surveillants :
- embauche et formation des intervieweurs,
- conception des tches des intervieweurs,
- sant et scurit au travail,
- contrle de la qualit et du rendement (c.--d. observation des interviews, surveillance de ltat
davancement de lenqute comparativement des mesures dtermines de la qualit, des dpenses et
des dlais dexcution),
- logistique (p. ex., distribution et retour des articles, rmunration des intervieweurs, retour et
prsentation des questionnaires pour la saisie des donnes, etc.),
- scurit et protection des renseignements personnels,
- autres mthodes de collecte des donnes pour tenir compte des personnes ayant une incapacit, des
problmes de langue, des cas dont linclusion la population cible est ambigu (p. ex., trangers,
visiteurs), etc.,
- intervention pour convaincre ceux qui refusent de rpondre au questionnaire.

9.3.2

Embauche et formation des intervieweurs

Les intervieweurs sont essentiels au succs dune enqute assiste par intervieweur. Il est important de
vrifier si ceux qui sont engags ont les qualits personnelles et les capacits ncessaires, et sils ont la
formation et les outils appropris.
Lorganisme statistique devrait tenir jour une liste dintervieweurs dexprience qui servira au moment
de lembauche. Si les besoins de lenqute sont nombreux ou trs importants, il peut tre ncessaire
dobtenir du personnel supplmentaire. Des avis peuvent tre affichs ou des annonces peuvent tre
diffuses dans les journaux locaux ou la radio pour inviter les candidats ventuels, ou le personnel
appropri peut tre recrut (par exemple, le personnel de la livraison du courrier).
Il faut prciser les qualifications ncessaires pour faire lenqute et tablir les critres dembauche. La
scolarit, les aptitudes interpersonnelles, la capacit de sexprimer dans les langues locales, les aptitudes
lorganisation et lintgrit sont des lments importants considrer lors de lembauche des
intervieweurs (il y a habituellement une vrification de scurit). Sil sagit dinterviews sur place,
lendroit et la connaissance du secteur peuvent aussi tre importants. Une quipe, comprenant
habituellement le surveillant et le chef rgional principal, interviewe les candidats ventuels.
La formation des intervieweurs doit tre soigneusement planifie pour quils aient tous un rendement
uniforme et la mme comprhension des concepts de lenqute. Les surveillants sont habituellement

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

200

forms en premier. Ceux-ci forment ensuite les intervieweurs. Des reprsentants du Bureau central
observent souvent la formation et donnent des conseils. Plusieurs jours de formation intensive sont
gnralement offerts laide des techniques numres ci-dessous :
i.

tudes domicile

Les intervieweurs examinent attentivement les manuels et (ventuellement) font les exercices crits.
ii.

Formation en classe

Les surveillants et les intervieweurs tudient en classe ce quils peuvent faire pour tablir de bonnes
relations avec les rpondants et obtenir ainsi des rponses. De bonnes techniques et pratiques dinterview,
ainsi que des aptitudes linterview sont prsentes. Les surveillants examinent et corrigent les erreurs
dans les exercices faits domicile. Les intervieweurs examinent ensuite la matire complte du
questionnaire pour bien comprendre les concepts et les questions (cran par cran pour linterview
assiste par ordinateur). Les cas spciaux et problmes sont revus en classe afin de laisser suffisamment
de temps pour les questions et les prcisions.
iii.

Interviews simules

Les interviews simules donnent loccasion aux intervieweurs de mettre en pratique leurs techniques
avant dintervenir sur place. Elles donnent aussi aux intervieweurs loccasion dobserver les aptitudes et
les techniques appliques par leurs pairs et de faire des commentaires. Le surveillant ou un autre
intervieweur intervient cette tape titre de rpondant. Divers scnarios sont mis lessai, y compris les
cas typiques et problmes.
iv.

Interviews concrtes

Quand cela est possible, on fait aussi des interviews avec des rpondants rels avant de procder
lenqute sur le terrain. Les rpondants sont parfois des membres du personnel de lorganisme qui ne sont
pas informs de lenqute, ou autrement, ce sont des rpondants chantillonns dans la population cible
(mais qui ne font pas partie de lchantillon qui servira lenqute relle). Les interviews concrtes
devraient aussi tre un volet dun essai pilote (voir le Chapitre 5 - Conception du questionnaire).
v.

Examen des premires interviews

Le surveillant aura avantage rencontrer chaque intervieweur pour examiner les premires interviews
acheves. Si lintervieweur a des problmes, ils peuvent tre identifis et corrigs rapidement.
Les procdures administratives (p. ex., rapports hebdomadaires, formules de contrle, etc.) pour la gestion
des tches sont habituellement le dernier sujet couvert pendant la formation. la conclusion de la
formation, chaque intervieweur se voit confier sa tche.

9.3.3

Listage

Le listage est ncessaire lorsquune base arolaire sert lchantillonnage. On a vu au Chapitre 6 - Plans
dchantillonnage quun plan dchantillonnage habituel pour une base arolaire est un plan
dchantillonnage par grappes deux degrs, les secteurs gographiques tant chantillonns au premier
degr dans une base arolaire (ce sont les units primaires dchantillonnage ou UP). On peut ensuite
tirer de ces UP un chantillon systmatique de logements (units secondaires dchantillonnage ou

STATISTIQUE CANADA

OPRATIONS DE COLLECTE DES DONNES

201

US). Afin dchantillonner les logements, il faut dabord tablir une liste de tous les logements dans le
champ de lenqute de lUP (c.--d. que les logements admissibles lchantillonnage doivent tre
lists, ladmissibilit tant dfinie selon la population cible de lenqute).
Il est avantageux de bien connatre le secteur gographique (UP) pour faire les interviews et le mme
groupe dintervieweurs est donc souvent charg du listage et des interviews dans lUP. Le listage est
dautant plus exact quil est fait peu de temps avant les interviews.
Avant le listage, chaque intervieweur (ou celui qui fait le listage) devrait obtenir les articles suivants et la
formation ncessaire pour les utiliser :
i.

Une carte de lUP aux limites clairement dfinies

Les limites de chaque UP doivent tre clairement dfinies pour viter le chevauchement des UP ou les
segments manquants. La carte devrait tre la plus dtaille et jour qui soit disponible et comprendre des
points de rfrence bien inscrits (voies ferres, ponts, cours deau, noms de rue, etc.). Ces donnes
viennent parfois de sources municipales ou darpentage.
ii.

Instructions sur le listage

Elles comprennent des instructions sur la mthode appliquer pour tracer litinraire dune UP, afin de
couvrir le secteur complet sans rebrousser chemin (pour viter les risques de ddoublement) ou oublier
des secteurs. Il y a aussi des instructions sur la mthode appliquer pour identifier une unit
dchantillonnage dans le champ de lenqute. Si lunit de lchantillon est un logement, par exemple, il
devrait y avoir des instructions prcisant comment trouver et identifier des logements confins ou dans un
immeuble units multiples, ainsi que la dfinition de logement inoccup, etc.
iii.

Une formule de listage et linformation obtenir pour chaque unit de lchantillon dans le
champ de lenqute

Le genre denqute dtermine la dfinition dune unit dans le champ de lenqute et le nombre de
renseignements obtenir. Les donnes obtenues pendant le listage sont habituellement limites
linformation ncessaire pour situer lunit (adresse ou endroit sur la rue, nom, numro de tlphone, etc.)
et toute donne ncessaire pour passer ltape suivante de lchantillonnage.
Lorsque le listage est achev, les donnes des formules de listage sont gnralement saisies
lectroniquement et envoyes au Bureau central pour passer ltape suivante de lchantillonnage.
Pour illustrer le listage, on trouvera ci-dessous une carte de grappe de lEnqute sur la population active
de Statistique Canada; on y trouve les limites de lUP traces en ligne continue, un X inscrit au point
de dpart du listage et une ligne de tirets (---) trace litinraire. On demande lintervieweur de
commencer lintersection nord-ouest, de procder dans le sens des aiguilles dune montre autour de
chaque lot et de lister tous les logements habitables sa droite. La mme mthode gnrale de listage (
partir dun point de dpart dtermin en continuant dans le sens des aiguilles dune montre pour lister les
units droite) est applique en milieu rural. Le listage est plus compliqu si le logement est une
exploitation agricole parce quelle peut empiter sur les limites de lUP, et la solution est alors de lister
lexploitation agricole dans lUP qui englobe la voie ou lentre principale.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

202

Si la mthode dchantillonnage est trs simple, lintervieweur peut parfois faire le listage,
lchantillonnage et les interviews simultanment. Lors du Recensement de la population canadienne, par
exemple, quatre mnages sur cinq dans un secteur de dnombrement (SD) reoivent un bref questionnaire
et le cinquime mnage obtient un questionnaire plus long et plus dtaill. laide de lchantillonnage
systmatique avec origine choisie au hasard dans chaque SD, lenquteur liste les mnages et remet le
long questionnaire au cinquime mnage de chaque tranche de cinq mnages.
On a vu au Chapitre 3 - Introduction au plan denqute et au Chapitre 6 - Plans dchantillonnage
les dtails sur les bases arolaires.

9.3.4

Dpistage

Le dpistage est ncessaire quand linformation disponible dans la base de sondage est insuffisante pour
situer le rpondant. Dans les enqutes tlphoniques, par exemple, certains numros de tlphone dans la
base de sondage ne sont peut-tre plus jour. Dans les sondages par la poste, le bureau de poste peut
retourner certains questionnaires parce que ladresse est incomplte ou inexacte, ltablissement nexiste
plus ou le rpondant a dmnag. Le dpistage peut tre fait avant de procder lenqute si lon
souponne que linformation dans la base de sondage nest plus jour.
Voici donc lobjectif du dpistage :
- situer lunit chantillonne,
- mettre jour linformation didentification lmentaire dans la base de sondage (p. ex., nom, adresse,
numro de tlphone, personne-ressource ou, dans une base arolaire, indiquer le lieu gographique
dune exploitation agricole sur une carte, etc.),
- dterminer si lunit est toujours dans le champ de lenqute (p. ex., Ltablissement a-t-il ferm ses
portes? Le rpondant a-t-il dmnag hors du champ gographique de lenqute?).
Les outils de dpistage les plus souvent utiliss comprennent ceux-ci :
- annuaires tlphoniques jour, rpertoires dentreprises, assistance-annuaire,
- information tire dautres bases de sondage plus jour,
- dossiers dautres organismes gouvernementaux (p. ex., listes de permis dentreprise dans une
municipalit en particulier, listes de permis de conduire dans une province, etc.),

STATISTIQUE CANADA

OPRATIONS DE COLLECTE DES DONNES

203

pour les enqutes ritres, reprage de linformation que lunit chantillonne a donne une
occasion prcdente (p. ex., adresse ou numro de tlphone de parents qui peuvent aider reprer le
rpondant).

Les intervieweurs peuvent faire le dpistage jusqu un certain point, mais il est souvent plus efficace
pour le bureau rgional davoir une quipe demploys affects au dpistage et qui ont accs tous les
rpertoires et dossiers ncessaires. Aprs le dpistage, linformation de communication dans la base de
sondage peut tre mise jour ou, si le dpistage est fait aprs le lancement de la collecte, les units
dpistes peuvent tre retournes aux intervieweurs originaux, ou elles peuvent tre confies un
intervieweur de rappel en particulier.
La qualit de linformation auxiliaire dans la base de sondage, ainsi que le talent et lesprit dinitiative du
dpisteur, dterminent le succs du dpistage. Statistique Canada procde, par exemple, une enqute sur
les diplms duniversit deux ans aprs la collation des grades. La base de sondage comprend ladresse
et le numro de tlphone les plus rcents de chaque tudiant selon les dossiers des universits. tant
donn que les diplms rcents sont extrmement mobiles, nombre dentre eux ont dmnag depuis. Si
les donnes auxiliaires comprennent aussi le nom et ladresse des parents, lintervieweur peut dpister
ltudiant en communiquant avec eux. Il est trs important de veiller ce que les intervieweurs ne
donnent pas dinformation confidentielle pendant le dpistage.

9.4

Droulement des interviews

Aprs avoir planifi toutes les activits de collecte des donnes, prpar les manuels, embauch et form
le personnel, fait le listage et le dpistage prliminaire, les interviews peuvent commencer. Cette tape ne
se limite pas communiquer simplement avec les rpondants et poser des questions. Lintervieweur est
charg des activits suivantes :
- prparer les interviews et en tablir le calendrier,
- veiller ce que linformation soit obtenue de lunit dchantillonnage choisie,
- susciter la collaboration des rpondants pour minimiser les non-rponses,
- poser les questions et inscrire les rponses prcisment pour viter les erreurs,
- vrifier les rponses,
- appliquer toutes les procdures de scurit pour garantir la confidentialit des donnes.
Lintervieweur et dautres membres du personnel de la collecte des donnes sont aussi chargs des tches
suivantes :
- faire le suivi des rejets la vrification et des non-rponses,
- coder les donnes (si les questionnaires ne sont pas entirement cods davance),
- exercer un contrle sur les documents (formules de reprage pour le cheminement pendant le
processus, par exemple, le nombre de questionnaires envoys par la poste, retourns, en instance,
etc.),
- surveiller la qualit de la collecte des donnes.
Les Sections 9.4.1 9.4.8 suivantes ciblent la prparation des interviews et ltablissement du calendrier,
ainsi que les techniques dinterview appliquer, y compris les techniques de prsentation, dutilisation du
questionnaire, dapprofondissement pour obtenir des rponses, de conclusion de linterview, de raction
aux refus ou dautres situations caractre dlicat et dinterview dun substitut. La surveillance de la
qualit de la collecte des donnes est tudie la Section 9.5.
La vrification et le codage des donnes sont approfondis au Chapitre 10 - Traitement.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

204

9.4.1

Prparation des interviews et tablissement de lhoraire

Lintervieweur est plus efficace sil a planifi la journe de travail, sil a tabli lhoraire des appels ou des
visites et sil a une connaissance approfondie du questionnaire, des formules de contrle et du matriel de
lenqute. Voici certaines lignes directrices utiles pour lorganisation de la tche de lintervieweur :
i.

Organisation du temps

Lintervieweur qui organise le travail chaque jour sait exactement combien dappels il prvoit faire. Il doit
rserver suffisamment de temps entre les appels pour complter les notes ncessaires prises pendant
linterview et ajouter les corrections au besoin pour les questionnaires sur support papier.
ii.

Entre des commentaires

Lintervieweur devrait entrer tous les commentaires lcran appropri de lordinateur ou les inscrire
dans lespace prvu au questionnaire. Il devrait ajouter certains renseignements, notamment, le meilleur
moment pour tlphoner au rpondant, le genre de suivi convenu, quand il sera achev et le nom de la
personne la mieux ou la plus informe avec qui il pourra communiquer.
iii.

Rendez-vous prvoir

Lintervieweur devrait toujours avoir la main un calendrier ou un journal pour inscrire lheure des
interviews et il devrait entrer le rendez-vous lcran appropri de lordinateur ou linscrire au questionnaire.
Lintervieweur ne devrait pas inscrire lheure et la date des rendez-vous prvus sur des morceaux de papier
quil perdrait probablement.
Lorsquil tablit le calendrier des interviews, lintervieweur ne devrait pas oublier les points suivants :
a. vitez les appels trs tt ou trs tard quand vous communiquez avec un mnage. Nombre de
personnes naiment pas recevoir des appels tlphoniques ou rpondre la porte tard en soire
(certains rpondants seront effrays si vous frappez la porte en soire). Pour les interviews sur
place, lintervieweur peut dposer une lettre de prsentation dans la bote aux lettres et une note
personnelle prcisant quil prvoit revenir, ou il peut ajouter un numro de tlphone que le rpondant
peut composer pour confirmer lheure de linterview ou en prvoir une autre. Si lintervieweur
drange quelquun pendant lheure du repas, prsenter des excuses est un bon moyen de susciter une
raction positive de la part du rpondant.
b. Les rpondants dans les entreprises sont souvent occups lorsque lintervieweur tlphone la premire
fois et il peut tre ncessaire de prvoir une heure qui convient ou de laisser un numro de tlphone
que le rpondant pourra composer pour dterminer une heure propice avec lintervieweur. Le
rpondant ne devrait pas avoir de difficult communiquer avec lintervieweur qui devrait donner un
numro de tlphone o il est toujours possible de le rejoindre ou prciser les heures pendant
lesquelles il nest pas disponible.
c. Si le rpondant nest pas disponible lorsque lintervieweur tlphone la premire fois, ce dernier
devrait tablir une relation amicale avec la personne qui rpond lappel et dterminer le moment
propice pour communiquer avec le rpondant.
d. Sil ne peut communiquer avec un rpondant, lintervieweur devrait tlphoner un autre jour et une
heure diffrente. Si lintervieweur a tlphon deux fois pour les interviews sur place et sil ne peut
reprer le rpondant, il ou elle peut demander un voisin quel est le moment propice pour

STATISTIQUE CANADA

OPRATIONS DE COLLECTE DES DONNES

205

communiquer avec quelquun au logement slectionn. Il faut essayer de communiquer au moins trois
fois pour les enqutes par interviews sur place Statistique Canada et jusqu dix fois pour les
enqutes tlphoniques.
9.4.2

Techniques de prsentation

Il est important que lintervieweur tablisse une bonne relation avec le rpondant au dbut de linterview.
La premire impression que donne lintervieweur influence normment le rsultat de linterview. Il est
essentiel davoir une attitude professionnelle, mais amicale, pour donner la meilleure impression. Cette
disposition aidera nouer un lien qui incitera le rpondant donner des rponses compltes et prcises.
La prsentation est la pierre angulaire dune bonne relation entre lintervieweur et le rpondant. La
prsentation devrait tre brve (en particulier au tlphone) et sincre. Elle devrait comprendre ce qui
suit :
- le nom de lintervieweur et de lorganisme,
- le titre et lobjectif de lenqute,
- lutilisation des donnes (pour tablir limportance de lenqute),
- la loi en vertu de laquelle les donnes sont demandes,
- une garantie de confidentialit.
Sil sagit dinterviews sur place, une lettre de prsentation, une brochure sur lenqute, ou les deux,
livre(s) avant linterview sont un bon moyen de prsenter lenqute et den tablir la lgitimit. Au
moment de linterview, les rpondants se souviennent alors avoir reu quelque chose au sujet de
lenqute. Lintervieweur devrait porter et prsenter sa carte didentit dintervieweur lorsquil visite un
rpondant.
Il est essentiel dtablir une bonne relation au dpart pour le succs de linterview. Lintervieweur doit
couter le rpondant et tre prt rpondre ses questions (le manuel de lintervieweur devrait
comprendre les rponses aux questions habituelles). Si le rpondant hsite aller de lavant,
lintervieweur devrait essayer de dterminer les principales proccupations du rpondant et y rpondre.
Les proccupations exprimes peuvent tre lune des suivantes :
i.

Pourquoi mavez-vous choisi?

Donner une explication simple de la slection alatoire convaincra le rpondant quil a t choisi au
hasard et que ses rponses sont importantes parce quil reprsente en fait dautres personnes dans la
population.
ii.

Qui consultera mes donnes? Comment utiliserez-vous mes rponses?

La principale proccupation est maintenant la confidentialit de linformation que peut donner le


rpondant. Lintervieweur devrait informer le rpondant que ses rponses et celles dautres rpondants
seront agrges et utilises uniquement pour produire des tableaux statistiques ou des rsultats agrgs
(sommaires). Les tableaux statistiques peuvent aider les auteurs de politiques et les dcideurs dterminer
si la situation considre dans lenqute est satisfaisante ou si une certaine intervention est ncessaire.
iii.

Je nai pas le temps maintenant.

Lintervieweur doit prciser honntement la dure de linterview. Il devrait tre dispos faire linterview
immdiatement. Il ne devrait jamais supposer que le rpondant na pas le temps. Si le rpondant ne peut

STATISTIQUE CANADA

206

MTHODES ET PRATIQUES DENQUTE

rpondre immdiatement linterview, lintervieweur devrait suggrer une autre heure et prendre des
dispositions fermes pour dterminer le moment de linterview. Certains refuseront de participer sils ne
comprennent pas clairement limportance de lenqute et lutilisation des donnes. Lintervieweur devrait
tre certain que ces points sont clairement expliqus pendant la prsentation.
9.4.3

Utilisation du questionnaire

La collecte des donnes doit tre uniforme pour toutes les interviews, cest--dire quil faut poser les
mmes questions de la mme faon tous les rpondants. Les lignes directrices suivantes expliquent
comment utiliser le questionnaire pour faire la collecte uniforme des donnes :
i.

Il faut respecter la formulation lorsque vous posez les questions.

La recherche rvle que la modification, mme trs lgre ou par mgarde, de la formulation peut changer
la rponse obtenue.
ii.

Il faut poser les questions dans lordre.

La squence des questions est planifie aux fins de la continuit. La squence est aussi dispose de faon
ce que les premires questions naient pas de rpercussions ngatives sur les rponses du rpondant aux
questions ultrieures.
iii.

Il faut poser chaque question pertinente.

Lorsque le rpondant rpond une question, il rpond aussi parfois une autre question ultrieure dans
linterview. Il est quand mme important que lintervieweur pose la question ultrieure au moment
opportun. Le rpondant peut affirmer : Vous mavez dj dit quelque chose ce sujet, mais la situation
indique que lintervieweur est conscient de la rponse prcdente et quil demande la collaboration du
rpondant pour rpondre de nouveau la question.
iv.

Il faut poser les questions positivement.

Un intervieweur peut tre mal laise lorsquil pose certains questions et sembler sexcuser, par
exemple : Vous refuserez peut-tre de rpondre cette question, mais . . .ou Cette question vous semblera
probablement insense . . . Ces affirmations ont des rpercussions ngatives sur le dbit de linterview et
elles ont tendance modifier les rponses du rpondant. Si lintervieweur pose la question sur un ton
positif ou neutre, le rpondant comprend quil sagit simplement dune autre question et quil peut y
rpondre sans crainte dtre jug.
v.

Il faut expliquer les dlais entre les questions, en particulier pendant les interviews tlphoniques.

Le temps dentre est plus long pour certaines rponses. Lintervieweur peut expliquer au rpondant en
ajoutant : Veuillez excuser le dlai, jinscris jentre votre rponse.
vi.

Il faut poser de nouveau les questions mal comprises ou interprtes.

Les questions devraient tre formules de faon ce que chacun les comprenne et la majorit des
rpondants les comprendront (si le questionnaire est bien conu). loccasion cependant, un rpondant
peut mal comprendre ou interprter une question. Lintervieweur doit alors rpter la question en

STATISTIQUE CANADA

OPRATIONS DE COLLECTE DES DONNES

207

respectant la formulation. Si la rponse est toujours inapproprie, lintervieweur devra peut-tre


approfondir (voir la Section 9.4.4).
vii.

Il faut tre attentif en particulier aux instructions passez .

Une question filtre ou passez dtermine si les questions ultrieures sappliquent et dtermine le
cheminement de linterview. Lintervieweur doit tre particulirement attentif aux questions filtres et
remarquer les instructions lintervieweur dans le questionnaire. Linstruction passez est
programme pour linterview assiste par ordinateur (IAO), mais lintervieweur doit quand mme bien
connatre les caractristiques du cheminement.
viii.

Il faut avoir une attitude neutre, peu importe linformation obtenue.

Le rpondant peut donner des rponses socialement acceptables, son avis, sil a limpression que
lintervieweur porte un jugement. Le rpondant ne doit pas avoir limpression que certaines rponses sont
plus acceptables que dautres. Rien dans lattitude de lintervieweur ou dans son ton ne devrait laisser
souponner la critique, la surprise, lapprobation ou la dsapprobation, laccord ou le dsaccord lorsque la
personne rpond aux questions. Lintervieweur accepte la rponse du rpondant si elle correspond
lventail des rponses acceptables.
La conception du questionnaire et les erreurs de rponse ont t tudies au Chapitre 5 - Conception du
questionnaire.
9.4.4

Approfondissement

Lapprofondissement est une technique utilise lorsque lintervieweur remarque que la rponse natteint
pas lobjectif de la question. Le rpondant ne sait peut-tre pas la rponse ou peut mal interprter ou
comprendre la question et sa rponse est donc incomplte, obscure ou incohrente, compte tenu dautres
renseignements. Lintervieweur doit donc approfondir sur un ton neutre pour obtenir linformation
ncessaire.
Avant dapprofondir cependant, il faut poser de nouveau la question en respectant sa formulation au cas
o le rpondant naurait simplement pas entendu la question. Lintervieweur devrait utiliser les dfinitions
sil doit prciser la question. Sil nobtient toujours pas une rponse satisfaisante, il peut utiliser un
nonc neutre pour demander davantage dinformation, notamment :
Je ne suis pas certain de ce que vous voulez dire
ou
Pouvez-vous men dire un peu plus?
ou
Autre chose?
Lintervieweur peut aussi aider le rpondant en ciblant la catgorie de rponse exacte :
Quel nombre est le plus prs, selon vous?
ou
Est-il plus grand, ou moins grand que? (pour les rponses numriques)
ou
tait-ce le printemps, lt, lautomne ou lhiver?

STATISTIQUE CANADA

208

MTHODES ET PRATIQUES DENQUTE

Il est possible de reformuler la question, mais il faut tre trs prudent. Les questions ne devraient pas tre
reformules de faon suggrer une rponse. Si la question est Combien de semaines avez-vous travaill
lan dernier?, par exemple, il ne faudrait pas la reformuler ainsi : Avez-vous travaill toute lanne?, mais
plutt comme suit : Avez-vous travaill lan dernier? et si oui, Pendant combien de semaines?
9.4.5

Conclusion de linterview

La dernire tape du processus de linterview est de vrifier si vous avez obtenu toute linformation
ncessaire et si elle est crite lisiblement. la fin de chaque interview, lintervieweur examine le
questionnaire attentivement et apporte les vrifications ncessaires. Il ou elle naura peut-tre pas
suffisamment de temps pour le faire en prsence du rpondant. Il est donc important de remercier
poliment le rpondant pour toute linformation donne, mais dajouter quun suivi tlphonique est
possible si une prcision est ncessaire. Lintervieweur devrait offrir de rpondre aux questions du
rpondant sur lenqute, sil en a dautres. Il est important que le rpondant ait limpression davoir bien
rempli son temps et que sa participation lenqute est importante et valable.
9.4.6

Refus et autres situations dlicates

Un manque dinformation sur lenqute ou lorganisme statistique, ou un moment inopportun, expliquent


habituellement le refus de participer dun rpondant. Les lignes directrices suivantes peuvent aider
lintervieweur intervenir en cas de refus ou dans une situation dlicate :
i.

Dans le cas denqutes auprs dentreprises ou dinstitutions, le charg denqute devrait


sassurer que lintervieweur communique avec la personne approprie dans lorganisme au
moment opportun et que linformation est facilement disponible. Dans la mesure du possible, on
peut offrir ces rpondants de fournir les donnes selon une mthode et une prsentation qui leur
convient.

ii.

Si lheure de linterview ne convient pas, lintervieweur devrait prsenter des excuses (au lieu de
risquer un refus) et suggrer une heure pour tlphoner de nouveau.

iii.

Il est peut-tre possible de ngocier avec un rpondant rticent. Lintervieweur peut suggrer que
le rpondant rponde quelques questions et, lorsque linterview est lance, le rpondant peut
dcider de continuer. Lintervieweur peut informer le rpondant, par souci de courtoisie, quil ou
quelle peut refuser de rpondre des questions en particulier sil considre quil essuierait
autrement un refus total.

iv.

Si lintervieweur obtient un refus catgorique de vive voix, il devrait se retirer poliment et


dclarer lincident au surveillant pour suivi. Insister sur linterview peut remettre en question le
succs du surveillant qui tentera de convertir un refus en rponse.

v.

Ne demandez pas au rpondant de rpondre devant dautres personnes. Lintervieweur devrait


prendre des dispositions pour tlphoner de nouveau au moment opportun si le rpondant le
prfre ou rserver un moment en priv pour linterview.

vi.

Si le rpondant a une difficult linguistique et accepte le recours un interprte, un membre de la


famille peut parfois interprter chaque question et rponse.

STATISTIQUE CANADA

OPRATIONS DE COLLECTE DES DONNES

209

vii.

Si le rpondant prouve un problme personnel, par exemple une maladie grave ou un deuil,
lintervieweur doit valuer la situation et dterminer sil continue linterview, prend des
dispositions pour tlphoner de nouveau un moment opportun ou met fin linterview sil tait
dplac de continuer ou sil na aucune chance de succs.

viii.

Communiquer avec un rpondant dans une tour dhabitation pose parfois un problme parce que
linterphone nest pas un bon moyen dobtenir une interview. Lintervieweur peut essayer
dtablir la communication avec le surintendant, le bailleur ou le propritaire de limmeuble pour
expliquer le but de la visite et demander la permission dentrer dans limmeuble pour pouvoir
faire une prsentation sur place.

ix.

Lintervieweur ne doit jamais argumenter avec un rpondant ou le menacer, directement ou


implicitement. Linformation complte et fiable exige la collaboration de plein gr.
Lintervieweur ne doit jamais se lancer dans des sujets de conversation controverss, par
exemple, la politique.

x.

Lintervieweur ne doit jamais avoir recours des pratiques qui contreviennent lthique pour
procder une interview. Si le rpondant nest pas domicile, lintervieweur (aprs stre
identifi) peut demander un voisin quel moment serait opportun pour tlphoner.
Lintervieweur devrait cependant tre prudent, viter de susciter la mfiance et limiter ses
questions lorsquil demande quand communiquer avec le rpondant.

xi.

En bout de ligne, et cest aussi important, lintervieweur ne devrait pas oublier ses droits. Sil est
menac de mauvais traitements, victime de menaces de vive voix, de harclement physique ou de
violence, lintervieweur devrait quitter immdiatement et dclarer lincident au surveillant.

9.4.7

Interview dun substitut (par procuration)

Lintervieweur peut obtenir linformation pour un rpondant absent, dans certaines enqutes, en
interviewant une autre personne informe, et cette mesure est intitule rponse dun substitut ou rponse
par procuration. La rponse par procuration convient aux enqutes qui collectent des donnes
gnralement connues dautres personnes que le rpondant cibl, et elle est donc habituellement
inapproprie pour les questions personnelles, dopinion personnelle ou caractre dlicat.
Il faudrait informer lintervieweur pendant la formation si linterview de substituts est permise et, si oui, il
faudrait prciser qui sont les substituts acceptables. Lintervieweur devrait supposer en gnral quun
substitut ne convient pas linterview, sauf avis contraire. Si un substitut ne convient pas et si que le
rpondant prouve des difficults communiquer dans lune ou lautre des langues officielles, dautres
membres de la famille peuvent intervenir titre de traducteurs avec la permission du rpondant.
Linterview sans substitut exige gnralement un effort plus grand que celui de linterview avec substitut
et le taux de rponse est moins lev. Lintervieweur ne doit pas oublier que le nombre de rappels et de
rendez-vous ncessaires pour procder des interviews sans substitut devrait tre soigneusement
dtermin pour viter le fardeau de rponse et limiter les cots de lenqute.
9.4.8

Principaux points de linterview efficace

Voici les principaux points de linterview efficace :

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

210

i.

Confiance

Lintervieweur doit avoir confiance en ses capacits. Il peut y arriver seulement sil comprend bien
lenqute et le rle de lintervieweur.
ii.

Aptitudes couter

Lintervieweur devrait attendre que le rpondant ait fini de parler avant de cesser de lcouter.
Lintervieweur peut indiquer quil coute en ajoutant loccasion Oui, je vois. Lintervieweur ne devrait
cependant pas supposer quil sait ce que dira le rpondant et finir la phrase sa place. Il vaut mieux poser
des questions sil a limpression que le rpondant ou lui-mme est pass ct de la question.
iii.

Compassion

Lintervieweur devrait tre sensibilis la situation du rpondant au moment de la visite ou de lappel


tlphonique. Si le rpondant dcrit un incident personnel, lintervieweur devrait faire preuve dintrt
(sans juger) et essayer ensuite dorienter de nouveau le rpondant vers linterview.
iv.

locution

Lexpression de vive voix est importante, en particulier pour linterview tlphonique. Lintervieweur
devrait sexprimer trs clairement, un rythme modr. Si lintervieweur sexprime trop rapidement, le
rpondant peut manquer une partie de la question. Sil sexprime trop lentement, le rpondant peut
commencer rpondre avant quil ait fini de poser la question. Baissez la tte et le ton de la voix baisse.
Un ton de voix plus bas est plus clair et sentend mieux, en particulier au tlphone. Il faudrait donner des
exemples du rythme et du ton appropris pendant la formation.
v.

Connaissance du questionnaire

Lintervieweur doit connatre le questionnaire, les concepts et la terminologie utiliss dans lenqute. Il
naura pas le temps pendant linterview de consulter les dfinitions ou les rponses aux questions dans le
manuel. Rien ne peut rompre la communication plus rapidement que de longues pauses, en particulier
pendant les interviews tlphoniques.

9.5

Surveillance de la qualit et du rendement

Dans les enqutes avec interview assiste par ordinateur (IAO), la gestion des tches de lintervieweur,
ainsi que la surveillance de ltat davancement dans lensemble, et de nombreux indicateurs de la qualit
et du rendement sont automatiss laide dun logiciel. Les mesures de la qualit et du rendement sont
intgres la programmation de lIAO, mais les principes sont les mmes que ceux des enqutes sur
support papier. Nous utilisons dans cette section les exigences des enqutes sur support papier pour
illustrer les contrles ncessaires appliquer dans toute enqute. Le lecteur trouvera davantage de dtails
au Chapitre 10 - Traitement et lAnnexe B - Contrle qualitatif et assurance de la qualit.

9.5.1

Surveillance de la qualit de la collecte des donnes

Le surveillant devrait surveiller la qualit de la collecte des donnes comme suit :

STATISTIQUE CANADA

OPRATIONS DE COLLECTE DES DONNES

i.

211

Surveillance troite des intervieweurs

Le surveillant coute les interviews concrtes, en particulier celles des nouveaux intervieweurs et des
premires tapes de la collecte, pour vrifier si le questionnaire est utilis correctement et si les
techniques dinterview sont efficaces et uniformes dune interview lautre. tant donn que les
intervieweurs peuvent donner une rtroaction valable sur les procdures de collecte des donnes et la
conception du questionnaire, il faudrait les inviter suggrer des amliorations apporter lenqute.
ii.

Vrification (ou vrification au hasard) des questionnaires achevs

Cette mesure garantit que lintervieweur applique correctement les vrifications sur place et que
linformation manquante peut tre obtenue des rpondants, en temps opportun, pendant que lenqute se
droule toujours sur le terrain. Si le surveillant rvise les vrifications des donnes, lquipe charge de
lenqute peut obtenir davance des renseignements sur le genre de rejets la vrification possibles
pendant ltape de la vrification informatique aprs la collecte.
iii.

Surveillance des mesures de la qualit et du rendement

Ce point est considr en dtail en 9.5.3. Ces mesures donnent une ide de la qualit pendant la collecte
des donnes. Si le surveillant repre et rgle les problmes le plus tt possible, il peut grer la collecte des
donnes de faon atteindre, ou mieux, dpasser les taux de rponse et les autres indicateurs de qualit
cibles.
iv.

Contrle strict des documents

Il faut exercer un contrle sur chaque questionnaire chaque tape de la collecte des donnes laide de
certaines entres, par exemple, reu de lintervieweur le (date) , envoy au dpistage le (date) ,
envoy la saisie le (date) , etc. La formule de contrle de lchantillon du surveillant (et son lien avec
les identificateurs de chaque intervieweur) est essentielle au contrle efficace des documents et de
lchantillon. Les intervieweurs peuvent inscrire ltat davancement de leurs tches sur papier, mais
lautomatisation du contrle de lchantillon dans lensemble est recommande pour simplifier le travail
du surveillant. Un code dtat dfinitif (p. ex., achev, refus, etc.) doit tre appliqu chaque
questionnaire la fin de la collecte.
v.

Sance dinformation des intervieweurs

Une sance dinformation du personnel de lenqute la fin de la collecte des donnes peut aider
dcouvrir les problmes du processus de collecte des donnes. Ces problmes peuvent tre des
renseignements importants pour le traitement aprs la collecte (c.--d. identifier les vrifications qui sont
ncessaires aprs la collecte). Des amliorations peuvent aussi tre apportes au Systme dinformation
de gestion, aux campagnes de relations publiques, etc., dans le cas des enqutes ritres.
vi.

Reprage des modifications apportes aux donnes

Le charg denqute voudra peut-tre reprer les modifications apportes aux donnes pendant les
processus denqute ultrieurs. La frquence des rejets la vrification aprs la collecte, ainsi que le
nombre et le genre de corrections apportes aux donnes, peuvent se traduire par des renseignements
utiles sur la qualit et servir dindications prcisant que les outils ou les procdures de collecte devraient
tre modifis au cours des cycles ultrieurs de lenqute.

STATISTIQUE CANADA

212

9.5.2

MTHODES ET PRATIQUES DENQUTE

Gestion des tches de lintervieweur

Priodiquement pendant la collecte (habituellement une fois par semaine), lintervieweur doit faire
rapport sur ltat davancement dans lensemble sur une feuille de contrle des tches. Le code dtat en
instance (rparti ensuite en deux catgories : tentative faire et tentative faite ) est attribu aux
units de lchantillon toujours en cours ou avec lesquelles lintervieweur na pas encore communiqu.
Lorsque lintervieweur a trait une unit de lchantillon au mieux de sa capacit, un code dtat
rsolu lui est attribu comme suit :
ii.

Achev : Lintervieweur a entirement achev linterview.

iii.

Achev en partie : Le rpondant na pas rpondu tout le questionnaire, mais il a rpondu aux
principales questions. Avant denvoyer les intervieweurs sur le terrain, on identifie lensemble
minimal de questions auxquelles les rponses constituent un questionnaire utilisable.

iv.

Incomplet non-rponse totale pour lune des raisons suivantes :


- refus,
- absent pendant toute la priode de lenqute,
- dpistage impossible,
- hors du champ de lenqute (p. ex., dcd, nest plus en affaires, logement dmoli),
- temporairement hors du champ de lenqute (p. ex., logement inoccup),
- pas de communication (p. ex., personne domicile).

Les cas de refus et de dpistage impossible peuvent tre rfrs pour suivi. Les rapports sommaires
des tches permettent de surveiller le nombre total dunits de lchantillon dans chaque catgorie.
Lintervieweur remet des rapports sommaires hebdomadaires et envoie aussi au bureau rgional tous les
questionnaires rsolus chaque semaine pour permettre le suivi des refus et la saisie des donnes en temps
opportun.

9.5.3

Surveillance des surveillants

Les cibles de qualit et de rendement sont tablies au dbut de la collecte des donnes. Les surveillants
devraient se charger de la surveillance et de la gestion de leurs oprations, autant du point de vue des
tches de lintervieweur que dans lensemble, pour garantir que les cibles sont atteintes.
La cible de rendement est dtermine selon la proportion denregistrements rsolus :

taux d' units rsolues =

nombre d' units rsolues


chantillon total (c. - - d. rsolues + en instance)

Ce taux donne une indication de la somme de travail prvu qua achev lintervieweur. Le taux dunits
rsolues chaque semaine est compar au taux cible pour vrifier si lenqute sera conclue temps. Les
dpenses sont habituellement intgres dans cette valuation pour dterminer si lenqute est toujours
dans les limites du budget. Deux mesures habituelles du rendement par rapport au cot sont le cot par
unit rsolue et le solde du budget par unit non rsolue.
Le taux de rponse est un autre indicateur de rendement. Les rpercussions des non-rponses sont
considres au Chapitre 3 - Introduction au plan denqute et au Chapitre 7 - Estimation. Dans la
plupart des enqutes, la non-rponse est un lment important de lerreur non due lchantillonnage
(sous forme de biais) et de lerreur dchantillonnage (qui se traduit par une perte de prcision des
STATISTIQUE CANADA

OPRATIONS DE COLLECTE DES DONNES

213

estimations). La qualit cible est axe surtout sur le taux de rponse qui peut tre dtermin comme suit
pendant la collecte :
taux de rponse =

nombre d' units rpondantes (c. - - d. compltes + partielles) 1


units rsolues admissibles + units non rsolues

Supposons, par exemple, quun chantillon de 1 000 units a t slectionn dont 800 sont rsolues
(compltes, partielles, refus, hors du champ de lenqute, etc.) aprs une semaine de collecte des donnes.
Du nombre dunits rsolues, 700 sont dans le champ de lenqute. Du nombre dunits dans le champ de
lenqute, 550 rpondent au questionnaire (rponse complte ou partielle). Le taux de rponse aprs la
premire semaine de lenqute est donc 550/(700+200)= 61,1 %.
Un facteur dajustement est parfois appliqu aux units non rsolues, tant donn que certaines pourraient
tre hors du champ de lenqute. Cela signifie dans lexemple ci-dessus que, des 200 units non rsolues,
environ 175 seraient probablement dans le champ de lenqute (si lon retient la mme proportion que
celle des units rsolues). Le taux de rponse ajust serait donc 550/(700+175) = 62,9 %.
Outre les taux de rponse et la proportion denregistrements rsolus, les surveillants devraient aussi
surveiller dautres indicateurs qui peuvent rvler dventuels problmes de qualit. Des taux levs de
refus ou de non-communication dans une tche peuvent indiquer que lintervieweur a des problmes. Si
certains codes (en particulier inoccup ) sont plus frquents chez certains intervieweurs, il peut y avoir
un problme (p. ex., le logement tait-il vraiment inoccup ou les rsidents taient-ils temporairement
absents? Lintervieweur ne fait peut-tre pas la diffrence entre les deux). Des taux levs de refus dans
un chantillon complet rvlent la rsistance du public et il peut tre difficile dobtenir la qualit de
donnes voulue compte tenu de la priode de lenqute et de lenveloppe budgtaire. Un nombre plus
lev que prvu dunits hors du champ de lenqute peut rvler des problmes de base de sondage.
Dans le cas des enqutes-entreprises, les grandes entreprises peuvent tre surveilles distinctement parce
quelles peuvent avoir des rpercussions sur les estimations dfinitives de lenqute.
Pour plus dinformation sur les normes et lignes directrices de mesure des non-rponses de Statistique
Canada, consulter les Normes et lignes directrices de dclaration des taux de non-rponse (2001).

9.5.4

Techniques perfectionnes de mesure de la qualit

Les taux de rponse et certaines des autres mesures considres ci-dessus sont les seuls indicateurs de la
qualit de la collecte des donnes dans de nombreuses enqutes. Dans les trs grandes enqutes ritres,
il est possible de concevoir des expriences pour essayer de mesurer lampleur du biais que suscitent les
activits de collecte des donnes. Voici les tudes les plus habituelles :
Vrifications du listage : Les units admissibles (dans le champ de lenqute) des UP ont-elles t toutes
listes? Tous les membres admissibles dun mnage ont-ils t lists? Y a-t-il des rptitions? Quelles
sont les caractristiques des units manquantes ou ritres? Voil une tentative de mesure des erreurs de
couverture.

Ce rsultat est quivalent au nombre total dunits dans lchantillon moins le nombre dunits hors du champ de
lenqute.
STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

214

i.

Vrifications des logements inoccups

Les units listes inoccupes (ou hors du champ de lenqute) taient-elles rellement inoccupes ou y
a-t-il eu erreur de classification? Quelles sont les caractristiques des units classes par erreur? On essaie
ainsi de mesurer le sous-dnombrement dans la base de sondage.
ii.

Nouvel interview pour mesurer les erreurs de rponse

Un intervieweur diffrent (parfois un surveillant) interviewe de nouveau un sous-chantillon de


rpondants pour dterminer si les rponses originales aux principales questions sont exactes. Les rponses
la nouvelle interview sont compares aux rponses originales. Si les rponses sont diffrentes, certains
cas, sinon tous, sont rapprochs pour dterminer lesquels sont corrects.
iii.

Suivi des non-rponses

Une tude spciale des non-rponses peut tre faite pour valuer le biais qui dcoule de la non-rponse
totale laide dinterviews spciales de suivi avec des non-rpondants de lenqute (c.--d. essayer
dobtenir des rponses dun sous-ensemble de non-rpondants).
tant donn que leur objectif est de mesurer le biais que suscite lerreur non due lchantillonnage, ces
tudes sont des enqutes complexes en soi, elles peuvent coter cher, et il faut les concevoir selon les
principes considrs aux chapitres prcdents.
Les erreurs non dues lchantillonnage ont t tudies au Chapitre 3 - Introduction au plan
denqute.

9.6

Sommaire

Ce chapitre explique comment les oprations de collecte des donnes peuvent tre organises, ainsi que
les divers chelons de responsabilit, dorganisation et de contrle. Une attention spciale a t apporte
aux interventions respectives du surveillant et de lintervieweur. Les questions de relations publiques ont
t considres, y compris les campagnes publicitaires de lenqute et les relations avec les rpondants et
le grand public. La prparation de la collecte des donnes, notamment les manuels pertinents, lembauche
et la formation des intervieweurs, le listage, le dpistage et les mises jour de la base de sondage, ainsi
que les techniques dinterview, ont fait lobjet dun examen. Les mthodes de surveillance de la qualit et
du rendement ont t considres en dfinitive.
Il faudrait appliquer les lignes directrices suivantes pour garantir que les donnes obtenues pendant
lenqute sont compltes et prcises, le plus possible :
i.

Les intervieweurs sont essentiels au succs des enqutes assistes par intervieweur. Ceux qui sont
embauchs devraient avoir les capacits et les qualits personnelles ncessaires, ainsi que la
formation et les outils appropris.

ii.

Les procdures de collecte des donnes devraient tre appliques uniformment toutes les units
chantillonnes et les erreurs devraient tre extraites le plus possible de ces procdures : tous les
intervieweurs devraient recevoir la mme formation et les mmes manuels, tous les codeurs
devraient recevoir les mmes instructions, etc.

STATISTIQUE CANADA

OPRATIONS DE COLLECTE DES DONNES

215

iii.

Il faudrait appliquer les procdures de contrle de lchantillon appropries toutes les oprations
de collecte des donnes. Ces procdures permettent de reprer ltat davancement des
questionnaires, partir du dbut jusqu la conclusion de la collecte et de lentre des donnes.

iv.

Afin doptimiser les taux de rponse et la qualit de linformation obtenue des entreprises et des
tablissements, le charg denqute devrait veiller ce quun intervenant communique avec la
personne approprie dans lorganisme, au moment opportun, pour que linformation soit
facilement disponible. Il faudrait permettre ces rpondants de communiquer les donnes selon
une mthode et une prsentation qui leur conviennent, lorsque cest possible.

v.

Il faudrait tablir des systmes de contrle efficaces pour garantir la scurit des questionnaires et
de la communication des donnes des bureaux rgionaux au Bureau central.

vi.

Il faudrait implanter un Systme dinformation de gestion pour reprer les mesures de la qualit,
les dpenses et dautres mesures du rendement pendant la collecte des donnes.

vii.

Le charg denqute voudra peut-tre reprer les modifications apportes aux donnes pendant les
processus ultrieurs de lenqute. La frquence des rejets la vrification aprs la collecte, ainsi
que le nombre et le genre de corrections apportes aux donnes, peuvent donner de linformation
utile sur la qualit et servir dindication rvlant que les outils et procdures de collecte devraient
tre modifis dans les cycles ultrieurs de lenqute.

Bibliographie
Cialdini, R., M. Couper et R.M. Groves. 1992. Understanding the Decision to Participate in a Survey.
Public Opinion Quarterly, 56: 475-495.
Couper, M.P. et R.M. Groves. 1992. Le rle de l'intervieweur dans la participation aux enqutes,
Techniques d'enqute, 18(2): 279-294.
Statistique Canada. 2001. Normes et lignes directrices pour la dclaration des taux de non-rponse.
Statistique Canada. 1995. Les techniques d'interview d'une enqute : un guide pour mener des interviews
efficaces. 12F0047XPF.
Statistique Canada.1998. Politique dinformation des rpondants aux enqutes. Manuel des politiques.
1.1.
Statistique Canada. 1998. Lignes directrices concernant la qualit. 12-539-XIF.

STATISTIQUE CANADA

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

217

Chapitre 10 - Traitement
10.0 Introduction
Le traitement transforme les rponses du questionnaire obtenues pendant la collecte pour quelles
conviennent la totalisation et lanalyse des donnes. Il comprend toutes les activits de traitement
des donnes, automatis et manuel, aprs la collecte et avant lestimation. Le traitement demande
beaucoup de temps et de ressources, et il a des rpercussions sur la qualit et le cot des donnes
dfinitives. Il est donc important de bien le planifier, de surveiller la qualit de sa mise en uvre et
dapporter des mesures correctives au besoin.
Le genre de donnes obtenir, la mthode de collecte, le budget et les objectifs de lenqute du point de
vue de la qualit des donnes, notamment, dterminent la porte et lordre des activits de traitement. Le
codage, par exemple, peut tre fait avant ou aprs la saisie des donnes, mais la vrification est
habituellement faite tout au long de lenqute. Voici un exemple des activits de traitement dun
questionnaire sur support papier :
i.

Vrification des donnes du questionnaire aprs la collecte. Cette tape garantit que toute
linformation ncessaire a t obtenue et enregistre lisiblement, que les notes de lintervieweur
ont t examines et que certaines vrifications prliminaires ont t faites pour dterminer sil y
a des incohrences et des erreurs grossires.

ii.

Codage de toutes les donnes du questionnaire qui doivent tre codes (p. ex., rponses aux
questions ouvertes rdiges la main).

iii.

Saisie des donnes. Dautres activits de codage peuvent suivre la saisie des donnes.

iv.

Vrification dtaille et ensuite, imputation. Les questionnaires rejets aprs une vrification ou
plus sont retirs du lot pour examen ultrieur, suivi auprs des rpondants ou imputation.

v.

Dtection des valeurs aberrantes pour identifier les valeurs extrmes ou suspectes.

vi.

Sauvegarde dans une base de donnes pour faciliter lutilisation des donnes pendant les activits
aprs le traitement.

Plusieurs activits ci-dessus, notamment la saisie, la vrification et le codage, peuvent tre intgres par
automatisation laide de mthodes de collecte assiste par ordinateur pour rationaliser le traitement.
tant donn que des erreurs sont probables chaque tape du traitement, en particulier pour les activits
rptitives et manuelles, par exemple le codage, la saisie et la vrification, il faudrait surveiller le
traitement et apporter des mesures correctives au besoin pour maintenir ou amliorer la qualit. Cette
intervention est possible en appliquant les procdures de contrle qualitatif et dassurance de la qualit.
Lobjectif de ce chapitre est de couvrir les principales activits de traitement : codage, saisie des donnes,
vrification, imputation, dtection des valeurs aberrantes, traitement et implantation dune base de
donnes. Le lecteur obtiendra des dtails sur le contrle qualitatif et lassurance de la qualit en consultant
lAnnexe B - Contrle qualitatif et assurance de la qualit.

STATISTIQUE CANADA

218

MTHODES ET PRATIQUES DENQUTE

10.1 Codage
Le codage est le processus dattribution dune valeur numrique aux rponses pour faciliter la saisie
des donnes et le traitement en gnral. Il est mentionn au Chapitre 3 - Introduction au plan
denqute que le codage comprend lattribution dun code une rponse donne ou la comparaison de la
rponse un ensemble de codes et la slection de celui qui dcrit le mieux la rponse.
Dterminer un ensemble de catgories de rponse une question pose des difficults qui ont t
considres au Chapitre 5 - Conception du questionnaire. Les catgories de rponse sont dtermines
avant la collecte pour les questions fermes et le code numrique est habituellement affich sur le
questionnaire ct de chaque catgorie de rponse. Le codage des rponses aux questions ouvertes est
fait aprs la collecte, et il peut tre manuel ou automatis. Le codeur doit interprter et faire preuve de
jugement pour le codage manuel et les rsultats peuvent varier dun codeur lautre.
Lorsque vous choisissez la mthode de codage, lobjectif devrait tre de classer les rponses en un
ensemble significatif de catgories exhaustives et mutuellement exclusives qui font ressortir les
caractristiques essentielles des rponses. Le codage de certaines questions peut tre direct (p. ex., tat
matrimonial). Autrement, un autre systme de codage standard peut exister, par exemple pour la
gographie, la branche dactivit et la profession. Il ny a cependant pas de systme de codage standard
appliqu de nombreuses autres questions et le choix dune bonne mthode de codage nest pas une tche
triviale. La mthode de codage devrait tre uniforme et logique. Il faut dterminer quel point les codes
doivent tre dtaills, compte tenu de lobjectif de lenqute, des totalisations et des analyses de donnes
faire. Il vaut mieux commencer avec une liste assez large parce quun nombre insuffisant de catgories
peut tre trompeur et une grande catgorie autre peut tre dmunie dinformation. Les catgories peuvent
toujours tre regroupes, mais il est difficile de les ventiler aprs coup.
Nous avons prcis au Chapitre 5 - Conception du questionnaire quil faudrait considrer le genre
dinterview pour dterminer les catgories de rponse une question ferme. Remettre une liste de
50 catgories sur support papier aux rpondants est faisable (mais pas idal) pour les enqutes par
autodnombrement, mais ce nest pas pratique dnumrer les 50 catgories de rponse pendant une
interview tlphonique. Idalement, toutes les questions dun questionnaire seraient fermes et il y aurait
une brve liste de catgories de rponse pour simplifier le codage. Ce nest pas toujours possible en
pratique et les questions ouvertes sont parfois ncessaires.

10.1.1 Codage pralable des questions fermes


Les catgories de rponse aux questions fermes peuvent tre codes davance dans le questionnaire. Des
cases pour les codes peuvent tre disposes ct de la rponse coder ou dans la marge pour les
questionnaires sur support papier. Voil qui amliore normment lefficacit de la saisie des donnes
aprs la collecte : au lieu de dactylographier la catgorie de rponse slectionne, un code numrique est
entr (il est aussi plus facile danalyser des codes numriques quune suite de mots). Les codes des
mthodes de collecte assiste par ordinateur sont automatiquement saisis lorsque lintervieweur ou le
rpondant choisit une rponse.
Le systme de codage suivant, par exemple, a t utilis dans le Sondage auprs des fonctionnaires
fdraux en 2002 :

STATISTIQUE CANADA

TRAITEMENT

219

Combien de promotions avez-vous eues depuis trois ans?


P aucune
P une
P plus dune
Les avantages des questions fermes ont t considrs au Chapitre 5 - Conception du questionnaire :
elles sont un fardeau moindre pour les rpondants, et la collecte, la saisie et lanalyse des donnes cotent
moins cher, elles sont plus rapides et faciles que les questions ouvertes. La formulation naturelle du
rpondant est cependant inconnue, un inconvnient des questions fermes. Il peut donc tre difficile de
vrifier la qualit du codage. Si une question ouverte est pose pour dterminer la profession dune
personne, par exemple, la description du travail du rpondant peut donner un code de profession diffrent
de celui que le rpondant ou lintervieweur aurait slectionn dans une numration de codes de
profession ajoute une question ferme.

10.1.2 Codage manuel des questions ouvertes


Lors du codage manuel des questions ouvertes, le codeur (habituellement aprs la collecte) doit lire,
interprter et convertir la main une rponse par crit une question ouverte en un code numrique. Ce
code numrique est ensuite inscrit dans le questionnaire ou entr lordinateur. Le codeur devra peut-tre
simplement remarquer si la rponse contient un mot cl ou une rfrence un lment en particulier pour
attribuer un code. Parfois le codage est dtermin partir de la rponse une question seulement, parfois
partir des rponses plusieurs questions connexes. La clart et lexhaustivit de la rponse crite, la
qualit de la vrification initiale, la logique de la mthode de codage et laptitude du codeur influencent
normment la qualit du codage dans ce cas.
Les codeurs doivent tre bien forms parce quil faut tenir compte des points suivants pour appliquer la
mthode de codage :
- le nombre de rponses possibles,
- la complexit (jugement),
- lambigut possible de la rponse (c.--d. la qualit de la rponse).
La variabilit entre les codeurs est invitable. Une vrification dtaille du premier lot de questionnaires
dun codeur est ncessaire pour reprer les erreurs et dterminer si une formation supplmentaire est
ncessaire. On peut ensuite faire des vrifications priodiques de la qualit du codage et apporter des
mesures correctives au besoin. Cette mesure est souvent applique laide des mthodes de contrle
qualitatif (voir lAnnexe B - Contrle qualitatif et assurance de la qualit).

10.1.3 Codage automatis des questions ouvertes


Le codage des questions ouvertes est habituellement une opration manuelle. Compte tenu de lvolution
technologique, des ressources restreintes et, plus encore, des exigences de rapidit et de qualit, le
processus de codage est cependant de plus en plus automatis.
Deux fichiers sont habituellement entrs dans un systme de codage automatis. Un fichier contient les
rponses de lenqute quil faut coder, intitul fichier de rponse en lettres. Le deuxime fichier est
intitul fichier de rfrence et contient les rponses (ou phrases) crites typiques et leurs codes
numriques correspondants.

STATISTIQUE CANADA

220

MTHODES ET PRATIQUES DENQUTE

Le parsage est le plus souvent la premire tape du codage automatis. Le parsage est le processus de
normalisation dune phrase pour permettre lordinateur de reprer les phrases quivalentes. Le parsage
comprend habituellement la suppression des caractres superflus, par exemple la ponctuation, les mots en
double, les mots sans importance, certains suffixes et prfixes, etc. Le parsage est appliqu aux fichiers de
rfrence et de rponses en lettres avant daller de lavant.
Ltape suivante comprend la recherche dune entre dans le fichier de rfrence qui correspond
exactement une rponse en lettres dans le fichier de lenqute. Sil y en a une, le code du fichier de
rfrence est copi dans le fichier de lenqute et lenregistrement1 est considr cod. Sil ny a pas de
correspondance exacte cependant, on essaie de trouver les enregistrements du fichier de rfrence qui
correspondent le plus possible. Une cote est attribue chaque enregistrement du fichier de rfrence
pour indiquer quel point la phrase du fichier de rfrence est semblable la rponse du questionnaire.
Les cotes sont values selon des paramtres dtermins (lesquels sont prciss pour rduire le risque
derreur) et si une cote est suffisamment leve, le code est transfr la rponse du questionnaire et
lenregistrement est considr cod.
Plusieurs enregistrements du fichier de rfrence ayant des cotes semblables sont parfois reprs, mais
parfois aussi, le fichier de rfrence ne contient aucun enregistrement qui correspond suffisamment la
rponse du questionnaire. Dans ces situations, les enregistrements sont gnralement envoys une petite
quipe de codage manuel dote de codeurs experts chargs de coder les enregistrements non cods la fin
de ltape automatise et de vrifier la qualit du produit du systme automatis (voir lAnnexe B Contrle qualitatif et assurance de la qualit).

10.2 Saisie des donnes


La saisie des donnes consiste transformer les rponses pour les rendre lisibles la machine. La
saisie est faite aprs la collecte (habituellement aprs le prtraitement et certaines vrifications
prliminaires du questionnaire) pour les mthodes de collecte sur support papier. Dans ce cas par
exemple, un commis (un oprateur de saisie des donnes) entre au clavier de lordinateur les valeurs
dclares dans le questionnaire. La saisie se fait au moment de la collecte pour les mthodes de collecte
par ordinateur.
Il y a plusieurs moyens damliorer lefficacit de la saisie des donnes. Les mthodes de collecte des
donnes assistes par ordinateur sont un moyen. La collecte et la saisie tant simultanes, le processus de
collecte et de saisie des donnes est donc plus rapide et efficace que celui des mthodes sur support
papier. Cependant, les programmes des logiciels demandent beaucoup de dveloppement et de mises
lessai. (Les avantages et les inconvnients de la collecte des donnes assiste par ordinateur sont tudies
au Chapitre 4 - Mthodes de collecte des donnes.)
Le codage pralable des questions fermes peut amliorer normment lefficacit de la saisie des
donnes manuelle pour les mthodes de collecte sur support papier. La lecture optique des questionnaires
remplis est une autre option. La lecture optique fonctionne au mieux pour les questions fermes et elle est
moins fiable pour la saisie des rponses aux questions ouvertes. La lecture optique peut rduire les erreurs
de saisie des donnes comparativement la saisie manuelle, mais les erreurs de lecture optique sont
possibles et doivent tre values et minimises. La logistique de la lecture optique demande plus de
travail pour les longs questionnaires parce quil faut enlever les agrafes, ajouter des identificateurs de
questionnaire chaque page, rinitialiser les lecteurs pour lire les diffrentes pages, etc. Coder toutes les
1

Dans ce chapitre, le questionnaire est gnralement le document sur support papier et lenregistrement est la
version lectronique du questionnaire rempli.

STATISTIQUE CANADA

TRAITEMENT

221

rponses sur une seule feuille de papier est une autre option. La lecture optique est simplifie, mais
lintervieweur devra faire davantage defforts pour lire une question sur une feuille et inscrire la rponse
sur une autre. Cette mthode est aussi restreinte aux questions fermes et, si lintervieweur a en main une
grande feuille remplie de cases de rponse, il est plus facile de coder la mauvaise rponse ou de coder la
rponse dans la mauvaise case. Lintervieweur aura aussi de la difficult consulter une rponse dun
rpondant parce que les questions et rponses sont inscrites sur des feuilles distinctes.
Il est particulirement important dappliquer les procdures de contrle qualitatif et dassurance de la
qualit aux mthodes de collecte sur support papier pour minimiser et corriger les erreurs pendant la saisie
des donnes (voir lAnnexe B - Contrle qualitatif et assurance de la qualit).

10.3 Vrification
Dans un monde idal, chaque questionnaire serait rempli sans erreur. Les rponses certaines questions
peuvent malheureusement tre absentes, incompltes ou inexactes. La vrification est lexamen des
rponses pour identifier les entres manquantes, non valables ou incohrentes qui indiquent des
enregistrements de donnes ventuellement errones. La vrification permet habituellement didentifier
les erreurs non dues lchantillonnage que suscitent les erreurs de mesure (rponses), les non-rponses
ou le traitement. La vrification vise :
- mieux comprendre les processus et les donnes de lenqute,
- reprer les donnes errones ou manquantes,
- faire le suivi auprs du rpondant,
- acheminer un enregistrement pour imputation,
- supprimer un enregistrement.
Des rgles de vrification sont appliques pour identifier les enregistrements errons. Voici des exemples
de rgles de vrification :
- chaque question doit avoir une rponse et seulement une,
- les rponses valides la question X sont 1 ou 2,
- la somme des parties pour la question X ne peut tre moindre que la rponse la question Y.
Des vrifications peuvent tre faites plusieurs tapes pendant le processus de lenqute et elles passent
des simples vrifications prliminaires des intervieweurs sur place aux vrifications automatises plus
complexes excutes par un programme informatique aprs la saisie des donnes. Les rgles de la
vrification sont gnralement formules selon ce qui peut tre logique ou valide, compte tenu :
- des connaissances de lexpert en la matire,
- dautres enqutes ou donnes connexes,
- de la structure du questionnaire et de ses questions,
- dune thorie statistique.
Les experts en la matire devraient savoir comment les variables sont lies lune lautre et quelles
rponses sont raisonnables. Leur intervention est importante pour prciser le genre de rgles appropries.
Ces analystes ont habituellement lexprience du genre de donnes vrifies. Un analyste des transports,
par exemple, peut tre conscient de ltendue des valeurs acceptables pour les taux de consommation
dessence des divers modles et marques de vhicule. Lanalyse dautres enqutes ou ensembles de
donnes pertinents aux mmes genres de variables que celles qui sont vrifies peut tre utile pour tablir
certaines rgles de vrification.
Point tout aussi important, la configuration et la structure du questionnaire ont des rpercussions sur les
rgles de la vrification. Les vrifications devraient dterminer si les rponses correspondent au

STATISTIQUE CANADA

222

MTHODES ET PRATIQUES DENQUTE

cheminement logique des questions. Il est souvent rvl laide des instructions sur lenchanement des
questions ou passez qui sous-entendent que certaines questions du questionnaire ne sappliquent pas
certaines catgories de rpondants et le rpondant doit alors passer une autre question.
Il y a trois principales catgories de vrification : les vrifications de validit, de cohrence et de
distribution. Les vrifications de validit et de cohrence sont appliques un questionnaire la fois. Les
vrifications de validit ciblent la syntaxe des rponses et comprennent la vrification des caractres non
numriques entrs dans les champs numriques et le reprage des valeurs manquantes. Les deux premiers
exemples de rgles de vrification ci-dessus correspondent des vrifications de validit. Celles-ci
peuvent aussi dterminer si les donnes codes sinscrivent dans ltendue permise des valeurs. Une
vrification de ltendue peut tre faite, par exemple, pour lge dclar dun rpondant, afin de vrifier
sil se situe entre 0 et 125 ans.
Les vrifications de cohrence dterminent si les liens entre les questions sont respects. Le troisime
exemple de rgle de vrification ci-dessus est la vrification de cohrence. Les vrifications de cohrence
peuvent utilisent des liens logiques, juridiques, comptables ou structurels entre les questions ou entre les
volets dune question. Le lien entre la date de naissance et ltat matrimonial est un exemple auquel la
vrification de cohrence peut tre applique : ltat matrimonial dune personne de moins de 15 ans
peut seulement tre jamais mari . Les vrifications de cohrence peuvent aussi porter sur le
cheminement logique des questions, par exemple, si le rpondant inscrit non la question X, il ne peut
rpondre la question Y . Les vrifications de cohrence peuvent aussi comprendre le recours aux
donnes chronologiques (p. ex., les ratios dune anne lautre). Dans le cas des enqutes-mnages, les
vrifications peuvent tre faites entre les membres du mnage.
Les vrifications de distribution sont faites en observant les donnes entre les questionnaires. Elles tentent
de dterminer les enregistrements qui sont des valeurs aberrantes du point de vue de la distribution des
donnes. Les vrifications de distribution sont parfois considres comme des vrifications statistiques
(Hidiroglou et Berthelot, 1986) ou la dtection de valeurs aberrantes (voir la Section 10.5). Les erreurs
non dues lchantillonnage sont considres au Chapitre 3 - Introduction au plan denqute.

10.3.1 Vrifications pendant la collecte des donnes


Les vrifications pendant la collecte des donnes sont souvent intitules vrifications sur le terrain (sur
place), ce sont en gnral des vrifications de validit et, parfois, de simples vrifications de cohrence.
Voici pourquoi la vrification est faite pendant la collecte des donnes :
- dterminer sil faut amliorer la mthode de collecte des donnes,
- dcider sil faut davantage de formation,
- dtecter les erreurs videntes et faire le suivi immdiat auprs du rpondant,
- purer les entres.
Les intervenants suivants peuvent faire la vrification pendant la collecte des donnes :
- le rpondant (enqute par autodnombrement),
- lintervieweur pendant linterview,
- lintervieweur immdiatement aprs linterview,
- le surveillant de lintervieweur,
- le personnel de bureau.
Les vrifications sur place sont faites pour dterminer les problmes que posent les procdures de collecte
des donnes et la conception du questionnaire, ainsi que le besoin dapprofondir la formation de

STATISTIQUE CANADA

TRAITEMENT

223

lintervieweur. Elles servent aussi dtecter les erreurs que lintervieweur ou le rpondant ont commises
pendant linterview, ainsi que linformation manquante pendant la collecte, afin damenuiser le besoin de
suivi ultrieur. La vrification pendant la collecte est beaucoup plus facile faire si elle est incorpore
une mthode de collecte assiste par ordinateur.
Les rpondants peuvent vrifier leurs propres rponses un questionnaire dautodnombrement. Presque
toutes les enqutes assistes par intervieweur comprennent une certaine vrification pendant linterview,
les intervieweurs ont des instructions et sont forms pour examiner les rponses quils inscrivent dans un
questionnaire immdiatement la fin de linterview, aprs avoir quitt le logement ou raccroch le
combin du tlphone. Ils ont ainsi loccasion de dtecter et de traiter les enregistrements rejets aprs
lapplication des rgles de la vrification, soit parce quils ont toujours linformation exacte la mmoire,
soit parce quils peuvent facilement faire le suivi peu de frais auprs du rpondant pour dterminer les
valeurs exactes. Les rejets la vrification toujours non rsolus sont habituellement rgls plus tard par
imputation.
Les vrifications sur place servent aussi purer des rponses. Lintervieweur inscrit souvent de brves
notes en marge du questionnaire pendant linterview ou dans la section des notes de lapplication de
lITAO. Lintervieweur prend des notes parce quil ne connat pas le programme de codage des questions
ouvertes ou il veut consulter le manuel de lintervieweur pour interprter une rponse. Lintervieweur
vrifie alors ces questionnaires aprs linterview pour purer ces notes.
Lune des tches confies aux surveillants est la vrification du travail de ces intervieweurs pour dtecter
les erreurs et les en informer. Les genres de rejets dtects sont habituellement semblables ceux que
pourrait reprer lintervieweur immdiatement aprs linterview et lintervieweur a habituellement
loccasion de faire le suivi auprs du rpondant pour dterminer les valeurs exactes. Les surveillants
devraient aussi chercher les caractristiques des erreurs commises. Il faudrait communiquer toute
lquipe les leons apprises dun intervieweur.
Dans de nombreuses enqutes, le rpondant ou lintervieweur envoie les questionnaires remplis au bureau
rgional pour tlchargement et prtraitement par les prposs aux activits de bureau. Ce prtraitement
comprend souvent les mmes vrifications des intervieweurs ou des surveillants, ou des vrifications
supplmentaires. Le prtraitement comprend le dchiffrage des rponses inscrites la main,
linterprtation des remarques de lintervieweur, la normalisation des chelles de mesure (p. ex., calculer
en mtres une valeur inscrite en pieds), etc. Il permet aussi de vrifier si lintervieweur a rempli tous les
champs administratifs du questionnaire, notamment, les codes dtat des rponses (p. ex., qui indiquent si
le questionnaire est rempli en tout ou en partie). Ce processus donne une vrification ou un examen
autonome systmatique des donnes du questionnaire avant de les envoyer la saisie des donnes. La
vrification des codes didentification du questionnaire peut aussi tre un lment important de cet
exercice parce que les questionnaires ne peuvent tre entrs ou les donnes ne peuvent tre saisies sans
identification complte. Lampleur des vrifications dpend du budget disponible et jusqu quel point le
personnel de bureau affect la vrification peut reprer et rsoudre les problmes. Ce genre de
vrification est intgr, si possible, au codage, au pointage ou la rpartition en lots des questions du
questionnaire qui peuvent tre ncessaires avant de lancer la saisie des donnes. Le personnel du bureau
rgional peut faire le suivi auprs du rpondant, dans certains cas, pour rsoudre dimportants rejets la
vrification.

10.3.2 Vrifications aprs la collecte des donnes


Les vrifications les plus dtailles et compliques sont faites au cours dune tape distincte de
vrification et dimputation aprs la collecte des donnes. Les oprateurs de la saisie des donnes peuvent

STATISTIQUE CANADA

224

MTHODES ET PRATIQUES DENQUTE

faire des vrifications pendant la saisie, ou des programmes informatiques sen chargent
automatiquement, ou cest lapplication informatique qui les fait dans le cas des mthodes de collecte
assistes par ordinateur. Sil sagit de la saisie manuelle des donnes des questionnaires sur support
papier, il est conomique de profiter de loccasion pour appliquer les rgles et purer les donnes
suffisamment, afin que les tapes de traitement ultrieures soient plus efficientes. La vrification pendant
la saisie des donnes est gnralement minimise parce que lintervention aprs un rejet la vrification
ralentit la saisie des donnes. cette tape du traitement, ce sont surtout des vrifications de validit et de
simples vrifications de cohrence.
Les rgles de vrification plus complexes sont gnralement rserves ltape distincte de vrification
aprs la saisie des donnes, ainsi que des vrifications de validit et des vrifications plus complexes de la
cohrence souvent faites en mme temps que la vrification slective et la dtection des valeurs
aberrantes (voir la Section 10.5).
Au volet des rejets la vrification aprs la collecte des donnes, la procdure habituelle est dindiquer le
champ rejet la vrification et de limputer, ou dextraire lenregistrement du traitement ultrieur.
La majorit des rejets la vrification cette tape sont marqus pour imputation. Il est utile dentrer un
code spcial pour les valeurs rejetes la vrification, afin dindiquer quune valeur inacceptable ou un
blanc invalide a t repr. Ces indications sont particulirement utiles pour valuer la qualit des
donnes de lenqute. Dans certains cas, lenregistrement ou le questionnaire peut tre rejet aprs avoir
appliqu tellement de rgles de vrification (ou un petit nombre de vrifications critiques) quil devient
inutile au traitement ultrieur. Lenregistrement est alors habituellement considr comme celui dun nonrpondant, il est retir du circuit du traitement et il y a ajustement de la pondration pour non-rponse
(consulter le Chapitre 7 - Estimation pour obtenir des dtails sur les ajustements de la pondration).

10.3.3 Vrification slective


En vrification, il faut faire un compromis entre la perfection voulue pour chaque enregistrement et
laffectation de ressources raisonnables (c.--d. temps et argent) pour bien purer les donnes. Beaucoup
de temps et defforts ont t investis auparavant pour identifier toutes les erreurs denqute. La
survrification des donnes est non seulement une utilisation mdiocre des ressources, mais elle peut
aussi donner des rsultats biaiss. Les donnes doivent habituellement correspondre un modle dfini
davance ou sinon, elles sont rejetes la vrification. Si les donnes sont modifies chaque fois quelles
sont rejetes la vrification, elles peuvent devenir normment biaises comparativement au modle et
ne plus reflter la situation relle. La survrification et les suivis ritrs auprs des rpondants peuvent
aussi accrotre le fardeau de rponse et miner la collaboration des rpondants lavenir.
Des pratiques de vrification slective sont recommandes, en particulier pour les enqutes-entreprises
(c.--d. si la population est asymtrique et si quelques entreprises dominent les estimations), afin dviter
de rserver trop de temps et dpuiser des ressources pour vrifier des donnes qui ont peu de
rpercussions sur les estimations dfinitives. Lapproche de la vrification slective repose sur lide
selon laquelle seuls les rejets critiques la vrification doivent tre traits. La vrification slective
sapplique en gnral aux donnes quantitatives. Une procdure qui modifie les enregistrements
individuels selon leurs rpercussions ventuelles sur les estimations de lenqute, ou par lintermdiaire
de lanalyse des donnes agrges, est un exemple de lapplication de la vrification slective. Les
rsultats ventuels de la vrification slective des rejets sont le suivi auprs du rpondant, le retrait de
lenregistrement du traitement ultrieur ou une indication des enregistrements cibls pour imputation.

STATISTIQUE CANADA

TRAITEMENT

225

La vrification slective permet une :


- diminution des cots,
- amlioration de la qualit des donnes si les ressources sont rachemines vers les enregistrements
ayant des rpercussions importantes ou vers dautres activits,
- amlioration de la rapidit dexcution lorsque diminue le temps de traitement,
- diminution du fardeau de rponse lorsque diminue le nombre de suivis.
Cependant, avec la vrification slective :
- la qualit des donnes obtient moins dattention au niveau de lunit individuelle,
- il peut rester des donnes incohrentes et les utilisateurs pourraient avoir limpression que la qualit
des donnes est mdiocre,
- lerreur non due lchantillonnage pour les petits domaines peut tre plus grande si tous les
questionnaires ne sont pas vrifis individuellement,
- les prposs au traitement des donnes, les experts en la matire, la direction ou les utilisateurs des
donnes peuvent tre rticents et faire moins confiance aux donnes.
Voici certaines approches de la vrification slective :
i.

Approche descendante

Si cette mthode est applique, les valeurs des donnes pondres les plus influentes sont listes de haut
en bas pour un domaine destimation donn et elles sont examines une par une. La vrification et
lexamen des donnes prennent fin lorsque la valeur suivante de la donne la plus influente na pas de
rpercussions importantes sur lestimation du domaine. Considrons, par exemple, un chantillon de cinq
entreprises tires dune population de 100 si on veut estimer dans lenqute le nombre total demploys
dans la population. Lestimation du nombre total demploys dans lenqute est 737. Lanalyste a
limpression que cette estimation est trop leve (parce quil prvoit que le nombre moyen demploys
par entreprise est de trois). Lanalyste examine la contribution relative de chaque enregistrement
lestimation totale. On peut constater au tableau 1 que le premier enregistrement atteint 81,4 % de
lestimation du total. Compte tenu de son influence sur lestimation, cet enregistrement est examin de
plus prs. Il devient vite vident que le nombre demploys dclars dans cette entreprise est plus lev
que prvu et la pondration est plus leve que celle des autres enregistrements (peut-tre cause dun
ajustement pour les non-rponses). Cet enregistrement est donc trait comme une observation influante
(voir la Section 10.5). tant donn que les autres valeurs pondres reprsentent seulement une petite
proportion du total dans lensemble, elles ne sont pas examines de plus prs.
Tableau 1 : Exemple de vrification descendante
Enregistrement
1
2
3
4
5
ii.

Nombre demploys
12
7
3
2
1

Pondration
50
8
12
15
15

Proportion du total
81,4 %
7,6 %
4,9 %
3,3 %
2,0 %

Mthode agrge

La mthode agrge permet didentifier les estimations pour un domaine qui paraissent suspectes. Les
donnes pondres de tous les enregistrements du domaine sont ensuite examines. Dans une enqute
estimant la taille moyenne des mnages, par exemple, si la taille moyenne dans un village en particulier

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

226

est de 23, tous les enregistrements individuels pondrs de ce village seraient examins pour dterminer si
certaines valeurs semblent tre substantiellement plus leves que les autres.
iii.

Mthode graphique

Les donnes sont disposes en graphique pour identifier les valeurs suspectes. La distribution des donnes
peut tre prsente en graphique, par exemple, pour identifier les queues improbables de la distribution.
iv.

Cote du questionnaire

Berthelot et Latouche (1992) proposent lutilisation dune fonction de cotation, cest--dire quune cote
est attribue chaque rpondant selon une certaine mesure de la taille, le nombre dlments de donnes
suspects dans le questionnaire et limportance relative des variables. Seuls les enregistrements ayant une
cote leve sont examins.

10.3.4 Vrifications manuelle et automatise


La vrification peut tre automatise au moyen dun programme informatique. Lampleur de la
vrification faire (cest--dire le nombre dlments de donnes ou de questionnaires), les
caractristiques et la complexit des rgles de vrification appliques, les rpercussions de lunit,
limportance des variables et ltape du traitement du questionnaire laquelle sappliquent les rgles de la
vrification dterminent si le traitement manuel ou automatis est appropri. Plus les rgles de la
vrification sont complexes, plus le traitement manuel est difficile et expos aux erreurs. Dans certaines
enqutes dautre part (p. ex., sur support papier), il est difficile, sinon impossible, dintgrer les
vrifications automatises pendant la collecte des donnes. Dautres lments qui ont des rpercussions
sur le choix de la vrification manuelle ou automatise comprennent la ncessit de surveiller les
interviews et de laisser une piste de vrification. La vrification aprs la saisie des donnes est cependant
automatise dhabitude. Selon un principe gnralement accept pour cette tape de vrification, et
ltape dimputation connexe, il ne devrait pas tre ncessaire de revenir au questionnaire individuel sur
support papier pour rfrence, sauf si cette intervention est absolument ncessaire. Autrement dit, les
enregistrements lectroniques obtenus aprs la saisie des donnes devraient contenir tous les
renseignements ncessaires pour faire la vrification et limputation ultrieures.

10.3.5 Contraintes de la vrification


La vrification des donnes est assujettie :
- aux ressources disponibles (temps, budget et personnes),
- au logiciel disponible,
- au fardeau du rpondant,
- lutilisation prvue des donnes,
- la coordination avec limputation.
i.

Ressources (temps, budget et personnes)

Avec une approche de vrification manuelle, le processus de vrification peut coter cher en maind'uvre. Il faut :
- laborer et documenter les rgles de vrification appliquer et les interventions ncessaires en
prsence dun rejet la vrification,
- former les vrificateurs,

STATISTIQUE CANADA

TRAITEMENT

227

tablir un mcanisme de surveillance et dexamen du travail des vrificateurs (c.--d. appliquer les
procdures de contrle qualitatif et dassurance de la qualit),
appliquer une mthode dvaluation des rpercussions de la vrification sur les donnes originales.

En milieu informatique, les rpercussions aux volets temps, cots et ressources pour llaboration au
premier plan peuvent tre normes. Les tches comprennent celles-ci :
- laboration et documentation des rgles de la vrification,
- rdaction dun programme informatique ou adaptation dun logiciel pour identifier les rejets la
vrification,
- mise lessai du programme informatique,
- vrification des donnes de lenqute en excutant le programme.
Il est important de dterminer dans les deux cas si linvestissement en vrification vaut la peine. Des
ressources sont gaspilles si on applique une stratgie de vrification qui cote cher et demande beaucoup
de temps pour reprer quelques enregistrements dont les rpercussions sur les rsultats de lenqute sont
ngligeables. Il est risqu dautre part dappliquer uniquement une stratgie rudimentaire de vrification
pour dcouvrir en bout de ligne des erreurs et des incohrences majeures dans les rponses au
questionnaire. Combien denregistrements seront probablement rejets aprs lapplication des rgles de
vrification? Quelles seront les rpercussions de ces rejets sur la qualit des donnes obtenues? Les
enregistrements ont-ils tous la mme valeur? Des questions du genre sont importantes, mais il nest pas
toujours facile dy rpondre. La qualit de la conception du questionnaire, ainsi que la comprhension
approfondie ou non de lenqute chez les rpondants et la qualit de la formation des intervieweurs,
notamment, dterminent les rponses ces questions.
Il est souvent prfrable danalyser les donnes brutes (c.--d. avant la vrification), surtout si lenqute
est ritre, avant dappliquer une stratgie de vrification. Lorganisme statistique peut ainsi dterminer
davance le nombre probable de rejets la vrification et le genre de liens entre les questions. Il faudrait
en fait considrer que la vrification est un processus continu qui na pas ncessairement un point de
dpart et darrive. Cest un processus dapprentissage qui cible lamlioration constante de tout le
droulement de lenqute la longue.
ii.

Logiciel

Certaines progiciels spcialiss servent la vrification et limputation des donnes dun questionnaire
(p. ex., le Systme gnralis de vrification et dimputation de Statistique Canada, SGVI, ou le Systme
canadien de contrle et dimputation du recensement, SCANCIR). Ces trousses peuvent permettre
lapplication de rgles de vrification approfondies en contrepartie dun investissement pralable assez
raisonnable en conception de systmes. Dautre part, les organismes statistiques peuvent programmer leur
propre stratgie de vrification.
iii.

Fardeau du rpondant

Lune des consquences de la vrification des questionnaires est la possibilit de suivi auprs des
rpondants pour traiter des donnes manquantes ou errones. Dans la plupart des situations, le rpondant
est la source la plus prcise dinformation pour les questions du questionnaire. Le suivi est cependant un
fardeau pour le rpondant et il cote cher lorganisme statistique. Une priode relativement longue peut
aussi scouler entre linterview et le suivi, et le rpondant peut avoir oubli la rponse exacte. Ces
considrations signifient que le suivi (pour traiter des rejets la vrification) est gnralement limit aux
rejets la vrification identifis pendant la collecte ou reprs aprs la vrification slective. tant donn
que le suivi aprs la collecte nest en gnral ni pratique ni souhaitable, limputation est ncessaire.

STATISTIQUE CANADA

228

iv.

MTHODES ET PRATIQUES DENQUTE

Utilisation prvue des donnes

Lutilisation des donnes obtenues devrait dterminer, dans une large mesure, lampleur de la vrification.
Il nest peut-tre pas ncessaire de vrifier rigoureusement les ensembles ou lments de donnes qui
serviront dabord aux examens qualitatifs, au cours desquels les dcisions ne seront pas prises selon des
mesures prcises. Peut-tre vaudrait-il mieux vrifier de plus prs les ensembles ou lments de donnes
qui auront une importance stratgique dans la prise de dcisions. De plus, dans un ensemble de donnes
en particulier, certains lments peuvent tre beaucoup plus importants que dautres, et il peut donc tre
prfrable de rserver davantage de temps et de ressources pour en faire lpuration.
Dautre part, certains enregistrements dun ensemble de donnes peuvent avoir plus dimportance que
dautres et contribuer normment aux estimations de lenqute. Cest particulirement le cas dans les
enqutes-entreprises o 5 % des entreprises peuvent afficher 95 % du total des gains dans une branche
dactivit en particulier. Cibler les enregistrements ou les champs les plus influents est lune des raisons
dtre de la vrification slective (Section 10.3.3) et de la dtection des valeurs aberrantes (Section 10.5).
v.

Coordination avec limputation

La vrification en soi a une valeur minimale sans une certaine intervention pour traiter des lments
rejets aprs lapplication des rgles de vrification. Sil ny a pas de suivi auprs du rpondant, cette
mesure corrective est gnralement intitule imputation. Les interventions simultanes de vrification et
dimputation sont troitement lies. Il est donc important de considrer comment limputation sera faite
pendant llaboration des spcifications de la vrification. Dans de nombreux cas, limputation est faite
lorsque le rejet la vrification est dtect (avant de passer lexamen des rgles suivantes). Il est
prfrable dappliquer cette approche lorsque lintervention ncessaire devient vidente, tant donn le
genre de questions ou de rponses des questions connexes. Limputation est souvent faite cependant au
cours dune tape distincte lorsque toutes les donnes ont t traites aprs application de toutes les rgles
de vrification.

10.3.6 Lignes directrices propos de la vrification


Voici certaines lignes directrices propos de la vrification :
i.

Le personnel qui a lexpertise de la matire, de la conception des questionnaires, de lanalyse des


donnes et dautres enqutes semblables devrait laborer les vrifications.

ii.

La vrification devrait tre faite plusieurs tapes de lenqute.

iii.

La vrification applique chaque tape ne devrait pas contredire la vrification une autre tape
(les vrifications faites pendant la collecte et le traitement devraient tre uniformes).

iv.

La vrification devrait tre applique pour obtenir de linformation sur le processus de lenqute,
soit sous forme de mesures de la qualit de lenqute en cours ou pour suggrer des amliorations
aux enqutes ultrieures.

v.

Certaines hypothses sont formules sur les donnes au dbut dune enqute. Il est possible de
mettre lpreuve la validit de ces hypothses pendant la vrification. Il peut devenir vident,
par exemple, que certaines vrifications dtendue taient trop strictes ou que certaines
vrifications squentielles ont donn trop souvent un rejet, et les rgles de vrification se rvlent

STATISTIQUE CANADA

TRAITEMENT

229

donc inappropries (ou le questionnaire pose certains problmes). Cette information devrait servir
ajuster les vrifications lavenir (ou amliorer la maquette du questionnaire).
vi.

Il faudrait communiquer aux utilisateurs linformation sur le genre de vrifications faites et leurs
rpercussions sur les donnes de lenqute.

vii.

Il faudrait appliquer les procdures de contrle qualitatif et dassurance de la qualit pour


minimiser et corriger les erreurs ajoutes pendant la vrification (voir lAnnexe B - Contrle
qualitatif et assurance de la qualit).

10.4 Imputation
Limputation est un processus utilis pour dterminer et attribuer des valeurs de remplacement, afin de
rsoudre les problmes que suscitent les donnes manquantes, invalides ou incohrentes. Il faut cette
fin changer certaines des rponses et toutes les valeurs manquantes de lenregistrement vrifi pour crer
un enregistrement plausible et cohrent en soi. Certains problmes sont corrigs auparavant lorsquon
communique avec le rpondant ou quon tudie le questionnaire la main, mais, nous lavons mentionn
auparavant, il est habituellement impossible de rsoudre tous les problmes de cette faon et limputation
est applique pour rgler les autres rejets la vrification.
Laisser lutilisateur traiter les donnes manquantes, invalides ou incohrentes est une solution de rechange
limputation. Cette approche nest pas recommande. Si lutilisateur dcide dignorer ou de supprimer
tous les enregistrements qui affichent des rejets la vrification, un bon nombre de donnes peuvent tre
perdues si de nombreux enregistrements sont touchs. Si lutilisateur essaie de remplacer les donnes
manquantes, le rsultat peut dboucher sur des estimations incohrentes de diffrents utilisateurs et
entacher la rputation de lorganisme statistique charg de lenqute. Lutilisateur a accs moins de
variables que lorganisme statistique pour limputation et il est donc probable que lutilisateur ne puisse
traiter aussi bien les rejets la vrification.
Lajustement de la pondration pour les non-rponses est une approche souvent utilise dans le cas dune
non-rponse totale ou lorsque la collecte a produit peu de donnes, sinon aucune, (voir le Chapitre 7 Estimation).

10.4.1 Mthodes dimputation


Les mthodes dimputation peuvent tre rparties en deux catgories, stochastique ou dterministe.
Limputation dterministe signifie quil y a seulement une valeur impute possible, compte tenu des
donnes du rpondant. Limputation stochastique a un caractre alatoire : si limputation tait ritre
pour le mme ensemble de donnes, les mthodes dterministes imputeraient la mme valeur chaque fois,
mais les mthodes stochastiques pourraient imputer une valeur diffrente chaque fois.
Les mthodes dimputation dterministe comprennent limputation :
- dductive,
- de la valeur moyenne,
- par ratio-rgression,
- squentielle par donneur de lenqute (hot-deck),
- squentielle par donneur dune autre source (cold-deck),
- selon le voisin le plus proche.

STATISTIQUE CANADA

230

MTHODES ET PRATIQUES DENQUTE

Chaque mthode dterministe a une contrepartie stochastique, lexception de limputation dductive.


Pendant limputation des donnes quantitatives, on peut obtenir un rsultat en ajoutant la valeur impute
un rsidu alatoire tir dune distribution ou dun modle appropri. La contrepartie stochastique de
limputation squentielle hot-deck est limputation alatoire hot-deck. Limputation stochastique protge
peut-tre mieux la structure de la frquence de lensemble des donnes et peut rtablir une variabilit plus
raliste dans les valeurs imputes que les mthodes dterministes.
lexception des mthodes dimputation par donneur o un donneur peut servir imputer toutes les
donnes manquantes ou incohrentes pour un enregistrement destinataire, les mthodes suivantes
considrent limputation dun lment la fois.
10.4.1.1 Imputation dductive
Lapplication de la mthode dimputation dductive permet de dduire avec certitude une valeur
manquante ou incohrente. La dduction est souvent base sur les caractristiques des rponses donnes
dautres questions du questionnaire. Limputation dductive est habituellement faite avant dappliquer
toute autre mthode. Dans une somme de quatre articles, par exemple, si le total dclar est 100, si deux
articles valent 60 et 40 et si les deux autres sont laisses en blanc, on peut dduire que les deux valeurs
manquantes sont zro.
Limputation doit plus souvent remplacer une valeur qui nest pas considre vraie en toute certitude. La
matire ci-dessous donne une brve description de certaines mthodes habituelles dimputation. Il vaut
mieux regrouper des enregistrements semblables pour toutes ces mthodes, comme cest le cas dans les
ajustements de la pondration pour les non-rponses (voir le Chapitre 7 - Estimation). Ces
regroupements sont intituls classes dimputation.
10.4.1.2 Imputation de la valeur moyenne
Lorsque la mthode dimputation de la valeur moyenne est utilise, la valeur manquante ou incohrente
est remplace par la valeur moyenne pour la classe dimputation. Supposons, par exemple, quun
questionnaire denqute sur le logement na pas la valeur du loyer mensuel dun appartement. La valeur
manquante peut tre impute en dterminant le loyer mensuel moyen des rpondants qui ont dclar
correctement leur loyer mensuel (la classe dimputation pourrait comprendre les rpondants du mme
secteur gographique que celui du questionnaire quil faut imputer).
Limputation de la valeur moyenne pour la donne manquante est quivalente lapplication du mme
facteur dajustement pour la non-rponse tous les rpondants dune mme classe dimputation. On
considre que la non-rponse est uniforme et que les non-rpondants ont des caractristiques semblables
celles des rpondants.
Limputation de la valeur moyenne peut donner des estimations ponctuelles raisonnables (c.--d. les
estimations des totaux, des moyennes, etc.), mais elle dtruit les distributions et les liens
multidimensionnels en crant une pointe artificielle la moyenne de la classe. Le rsultat diminue
artificiellement la variance dchantillonnage estime des estimations dfinitives si des formules
conventionnelles de calcul de variance sont utilises.
Limputation de la valeur moyenne est souvent utilise en dernier recours pour viter de perturber la
distribution des donnes sil ny a pas dinformation auxiliaire disponible ou si limputation cible trs peu
denregistrements.

STATISTIQUE CANADA

TRAITEMENT

231

10.4.1.3 Imputation par ratio-rgression


Linformation auxiliaire ou les rponses valides dautres enregistrements sont utilises dans limputation
par ratio-rgression pour concevoir un modle de ratio ou de rgression qui utilise les liens entre deux
variables ou plus. Le modle suivant est souvent utilis pour limputation par ratio :

y i = Rxi + i
o

yi est la valeur de la variable y pour la ie unit,


xi est la valeur dune variable x auxiliaire pour la ie unit,
R est la pente de la droite (c.--d. le changement en yi lorsque xi augmente dune unit),
i est considre tre une variable de lerreur alatoire de moyenne 0 et de variance 2.

Autrement dit, on suppose pour ce modle que yi est approximativement linaire par rapport xi et que les
valeurs observes de yi scartent de part et dautre de cette ligne dune grandeur alatoire I.
Les valeurs de yi peuvent ensuite tre imputes, comme suit :
y
~
y i = xi
x

~
y i est la valeur impute pour la variable y de lenregistrement i,
x est la valeur x moyenne dclare pour la classe dimputation,
y est la valeur y moyenne dclare pour la classe dimputation.

Supposons, par exemple, quun questionnaire sur lemploi, la masse salariale et les heures de travail
contienne une entre invalide pour la masse salariale, yi, sur une priode de deux semaines, mais que le
nombre demploys rmunrs, xi, soit entr correctement et que nous sachions dans quelle branche
dactivit lentreprise est exploite. laide dautres questionnaires de la mme enqute et de la mme
branche dactivit (c.--d. la classe dimputation) o les donnes sur la masse salariale et le nombre
demploys rmunrs sont dclares correctement, il est possible de dterminer le ratio entre la masse
salariale et le nombre demploys. Ce ratio (de la masse salariale au nombre demploys) peut ensuite tre
appliqu au nombre demploys du questionnaire quil faut imputer, afin de dterminer une valeur pour la
masse salariale.
Lhypothse dans ce cas est que le modle de rgression ou de ratio ajust aux questionnaires ayant des
donnes valides (c.--d. qui ont pass toutes les vrifications) dans la classe dimputation sapplique aussi
bien aux questionnaires de la classe dimputation qui ont t rejets aux vrifications. Si cette hypothse
est fausse, il peut y avoir un biais marqu.
La prsence de variables troitement lies la variable impute, le degr de complexit des calculs
mathmatiques et le calcul restreint ou non une classe dimputation, ou appliqu ou non tout
lensemble des donnes, dterminent largement la prcision des valeurs imputes. Cette mthode a un
avantage, cest--dire quelle peut protger les liens entre les variables. Les estimateurs du ratio et de la
rgression donneront probablement aussi des valeurs imputes plus stables que de simples moyennes.
Cette mthode dimputation peut cependant ajouter artificiellement des liens ltape de lanalyse des
donnes. Tout comme la plupart des autres mthodes dimputation ( lexception de limputation
dductive), elle diminue la variance dchantillonnage estime des estimations dfinitives si des formules
conventionnelles de calcul de la variance sont appliques.

STATISTIQUE CANADA

232

MTHODES ET PRATIQUES DENQUTE

Limputation de la valeur prcdente, aussi intitule imputation par report ou par report en aval, est un cas
particulier dimputation par ratio-rgression, cest--dire que la valeur de loccurrence prsente est
impute en ajustant la valeur de loccurrence prcdente aux fins de la croissance. Elle est souvent utilise
pour les variables quantitatives dans les applications des enqutes-entreprises.
Lestimation par ratio et rgression est explique plus en dtail au Chapitre 11 - Analyse des donnes de
lenqute.
10.4.1.4 Imputation par donneur de lenqute (hot-deck)

Limputation hot-deck utilise linformation de lenregistrement dun donneur qui a habituellement pass
toutes les vrifications pour remplacer des valeurs manquantes ou incohrentes dun enregistrement
destinataire. Afin de trouver un enregistrement donneur semblable lenregistrement destinataire, des
variables lies celles qui ont besoin dimputation sont identifies pour tablir des classes dimputation.
Lensemble des enregistrements dans la classe dimputation qui ont pass toutes les vrifications est le
groupe donneur pour les enregistrements de la classe dimputation qui ont besoin dimputation.
Limputation hot-deck peut servir limputation de donnes qualitatives ou quantitatives, mais elle utilise
gnralement des variables qualitatives pour tablir les classes dimputation. Les deux principaux types
dimputation hot-deck sont limputation hot-deck squentielle et alatoire.
Dans le cas de limputation hot-deck squentielle, les donnes font lobjet du traitement squentiel dans la
classe dimputation, un enregistrement la fois (c.--d. tri dans un certain ordre). Limputation est faite
en remplaant larticle manquant dun questionnaire par la valeur pure du donneur prcdent dans la
classe dimputation. Limputation hot-deck squentielle est une mthode dimputation dterministe si la
mme mthode de tri est applique chaque fois. Lors de limputation hot-deck alatoire, des donneurs
sont slectionns au hasard dans la classe dimputation. Limputation hot-deck alatoire est une mthode
dimputation stochastique.
Considrons lexemple de limputation du statut de fumeur dun rpondant pour illustrer limputation hotdeck. Supposons quil y a deux rponses possibles : fumeur et non-fumeur. Des classes dimputation sont
tablies selon le groupe dge et le sexe pour trouver un enregistrement donneur parce que ces variables
sont lies au statut de fumeur dune personne. Supposons que lenregistrement ayant besoin dimputation
est celui dune femme de la catgorie des 15 24 ans. Lensemble des donneurs comprend toutes les
rpondantes ges de 15 24 ans qui ont dclar leur statut de fumeur. La slection dun donneur peut
tre alatoire (c.--d. hot-deck alatoire) ou squentielle si lon dresse la liste des donneurs et que lon en
slectionne un (c.--d. hot-deck squentielle).
Les mthodes de limputation par donneur ont un avantage (imputation hot-deck et par le plus proche
voisin, voir la Section 10.4.1.6), cest--dire que les donneurs semblables (entreprises, mnages, etc.)
devraient avoir des caractristiques semblables et la valeur impute devrait donc tre assez prs de la
valeur relle. Dans limputation par donneur, de plus, il est habituellement possible de maintenir la
distribution multidimensionnelle des donnes.
Il y a cependant certains inconvnients. En voici un : lutilisation multiple du mme donneur est frquente
dans limputation hot-deck squentielle. Lutilisation ritre dun donneur peut susciter une distorsion de
la distribution des donnes et diminuer artificiellement la variance dchantillonnage estime. Autre
inconvnient : une bonne information auxiliaire et au moins une rponse partielle (p. ex., revenu du
mnage, ge, sexe, etc.) sont ncessaires pour tablir les classes dimputation et ces donnes ne sont pas
toujours disponibles pour les enregistrements qui ont besoin dimputation. Il faut aussi tre prudent si la
classe dimputation est petite ou si le taux de non-rponse dans la classe dimputation est lev parce quil

STATISTIQUE CANADA

TRAITEMENT

233

pourrait ny avoir aucun donneur. (Cette constatation est vraie pour toutes les mthodes qui utilisent des
classes dimputation.)
Limputation hot-deck hirarchique peut tre utilise pour quil soit toujours possible de trouver un
enregistrement donneur. Limputation hirarchique utilise plus dun niveau de classe dimputation. Sil
ny a pas de donneur dans la premire classe dimputation la plus dtaille, les classes sont regroupes en
une structure hirarchique suffisante pour obtenir un donneur.
Limputation par donneur est tudie la Section 10.4.3.
10.4.1.5 Imputation par donneur dune autre source (cold-deck)

Limputation cold-deck est semblable limputation hot-deck, mais cette dernire utilise les donneurs de
lenqute courante et la premire utilise les donneurs dune autre source. Limputation cold-deck utilise
souvent les donnes chronologiques de la mme enqute ralise auparavant ou dun recensement. Si la
slection des donneurs est alatoire, limputation est stochastique, autrement, elle est dterministe.
10.4.1.6 Imputation par voisin le plus proche

Dans les enqutes dont les donnes sont largement quantitatives (p. ex., enqutes-entreprises comprenant
la dclaration des ventes et de linventaire), il peut tre ncessaire ou prfrable de trouver un
enregistrement donneur par appariement avec des donnes quantitatives. Limputation par le plus proche
voisin est la slection dun enregistrement donneur selon des variables dappariement. Lorsque cette
mthode dimputation est utilise, le but nest pas ncessairement de trouver un enregistrement donneur
qui corresponde exactement au destinataire pour chacune des variables dappariement. Le but est plutt
de trouver le donneur le plus prs du destinataire du point de vue des variables dappariement dans la
classe dimputation, c.--d. de trouver le voisin le plus prs. Cette proximit est dfinie par une
mesure de lcart entre deux observations calcul laide des variables dappariement (p. ex., pour
imputer un inventaire manquant, trouver le plus proche voisin du point de vue des ventes dclares dans
la classe dimputation).
Lapplication des mthodes dimputation par le plus proche voisin exige de la prudence si lchelle des
variables dappariement est trs diffrente (p. ex., monnaie et territoire). Il faut transformer les variables
dune certaine faon dans la plupart des cas pour normaliser lchelle.
10.4.1.7 Imputation dterministe avec rsidus alatoires

Les mthodes dterministes appliques aux donnes quantitatives peuvent devenir stochastiques en
ajoutant des rsidus alatoires, par exemple, en imputant la valeur moyenne et en ajoutant un rsidu
alatoire :
~
y i = y + ei*
o

~
y i est la valeur impute pour la variable y de lenregistrement i,
y est la moyenne pour la classe dimputation,
ei* est un rsidu modle alatoire slectionn parmi les rpondants ou tir dune distribution.

STATISTIQUE CANADA

234

MTHODES ET PRATIQUES DENQUTE

Pour choisir un rsidu ei*, il suffit de calculer les rsidus comme suit pour lensemble des rpondants
dans une classe dimputation :
ei ( r ) = y i ( r ) y r
o

yi(r) est la valeur y dclare pour le ie rpondant,


y r est la valeur y moyenne dclare pour la classe dimputation.

On peut ensuite dterminer ei* en slectionnant au hasard parmi toutes les valeurs de ei(r) dans la classe
dimputation.
Voir Kalton et Kasprzyk (1986) pour en apprendre davantage sur les approches de limputation
stochastique.

10.4.2 Choix des valeurs imputer


Aprs application dune rgle de vrification, les champs rejets cause de non-rponses ou de donnes
invalides qui ne sont pas rsolus par lintermdiaire dun suivi auprs du rpondant devraient faire lobjet
dune imputation. Limputation nest pas recommande pour tous les autres rejets la vrification parce
quil est prfrable de conserver le plus possible les donnes du rpondant. Il vaut mieux imputer un
ensemble minimal de champs pour un enregistrement. La structure Fellegi-Holt (Fellegi et Holt (1976))
est lune de ces mthodes didentification des champs qui ont besoin dimputation. Trois critres sont
appliqus pour dterminer quels champs ont besoin dimputation :
- il faut changer le moins dlments possibles des donnes (champs) dans chaque enregistrement pour
que chacun passe toutes les vrifications,
- il faut maintenir le plus possible la structure de la frquence du fichier des donnes,
- les rgles dimputation devraient dcouler des rgles de vrification correspondantes sans
spcification explicite.
Une caractristique importante de lapproche de la vrification de Fellegi-Holt est que les rgles de
vrification ne sont pas spcifiques une mthode dimputation en particulier. Il y a dabord, pour chaque
enregistrement rejet la vrification, une tape de localisation derreurs qui permet de dterminer
lensemble minimal de variables (champs) imputer, ainsi que ltendue acceptable (ou les tendues) des
valeurs imputer. Dans la majorit des applications de cette approche, un seul donneur est slectionn
dans les enregistrements qui ont pass la vrification, laide de lappariement, compte tenu dautres
variables comprises dans les vrifications, mais qui nexigent pas dimputation. La mthode comprend la
recherche dun seul appariement exact et elle peut tre largie pour tenir compte dautres variables qui ne
font pas explicitement partie des vrifications. Parfois, il peut ny avoir aucun donneur convenable et il
faut donc prvoir une mthode dimputation par dfaut.
Considrons deux rgles de vrification dune enqute quelconque, par exemple, une vrification tat
matrimonial ge pour identifier ceux qui sont maris et qui ont moins de 16 ans, et une vrification
degr de scolarit ge pour identifier ceux qui ont une scolarit universitaire et qui ont moins de
18 ans. Supposons quun enregistrement des donnes de lenqute est rejet ces deux vrifications : une
femme de dix ans est marie et a une scolarit universitaire. Ltat matrimonial et le degr de scolarit de
cette personne pourraient tre changs, ou simplement lge, pour passer les deux vrifications. La
structure Fellegi-Holt recommande de changer lge.

STATISTIQUE CANADA

TRAITEMENT

235

10.4.3 Questions dimputation par donneur


Il faut considrer les points suivants pour laborer un systme dimputation par donneur (c.--d.
imputation hot-deck, cold-deck ou par le plus proche voisin) :
i.

Comment trouver un enregistrement donneur pour un destinataire?

Le but est de trouver un enregistrement donneur semblable au destinataire pour chaque destinataire. LA
cration des classes dimputation mrite une tude srieuse : il est important que les variables qui ont
besoin dimputation et celles utilises pour slectionner les donneurs soient troitement lies. Il est
important, pour les mthodes qui exigent ltablissement de classes dimputation, que celles-ci soient
assez larges pour que des donneurs ventuels soient disponibles en nombre suffisant, mais sans tre trop
larges parce que les enregistrements dun groupe de donneurs pourraient tre diffrents.
ii.

Tous les champs dun enregistrement destinataire devraient-ils tre imputs partir dun seul
donneur?

Il est prfrable de le faire et dutiliser tous les champs dun enregistrement pour maintenir les
distributions conjointes entre les variables. Dans une enqute sur la population active, par exemple, si la
profession et le revenu personnel sont marqus pour imputation, il est videmment avantageux dimputer
ces deux variables laide du mme enregistrement donneur pour maintenir le lien entre le revenu et la
profession. Limputation laide dun seul donneur a un autre avantage : tant donn que le donneur doit
avoir pass avec succs toutes les vrifications, il peut servir imputer toutes les valeurs manquantes
(c.--d. que limputation est plus facile).
Limputation par donneur pose cependant un problme : si les variables dappariement utilises sont trop
nombreuses (p. ex., les variables utilises pour tablir des classes dimputation dans le cas des
imputations hot-deck et cold-deck), il est possible de ne trouver aucun donneur convenable. Autre
problme : les variables dappariement utilises pour imputer un champ ne conviennent pas
ncessairement un autre, en particulier si les variables qui ont besoin dimputation ne sont pas lies.
Considrons une enqute objectifs multiples sur la sant et supposons que la taille des personnes et le
nombre de cigarettes fumes chaque jour sont marqus pour imputation. Dans ce cas, un ensemble
diffrent de variables dappariement pourrait tre appropri pour chaque champ qui a besoin
dimputation.
Lorsque des procdures dimputation par donneur sont appliques, limputation est souvent rpartie en
plusieurs tapes et certains ensembles de champs sont imputs chaque tape. Plusieurs donneurs
peuvent donc tre engags pour complter un seul enregistrement dficient. Si cette situation pose un
problme, certains des principaux champs imputs peuvent servir tablir des classes dimputation aux
tapes ultrieures pour maintenir lintgrit interne.
iii.

Un enregistrement donneur peut-il servir imputer plus dun destinataire?

Si limputation de plusieurs enregistrements destinataires est faite avec le mme donneur, les
rpercussions sur les estimations dfinitives de lenqute peuvent tre importantes. Limiter lutilisation
rpte dun enregistrement donneur une fin permet den largir lutilisation ailleurs et dviter la
surutilisation. Si le taux de rponse dans une classe dimputation en particulier est trs faible, limiter le
recours un donneur peut dboucher sur certains appariements mdiocres (c.--d. que lenregistrement
donneur peut tre trs peu semblable celui du destinataire) et il pourrait ny avoir aucun donneur pour
certains destinataires. Dautre part, la surutilisation dun donneur (surtout si le donneur a des
caractristiques uniques et sil est donc trs diffrent des autres dans la population) peut avoir des

STATISTIQUE CANADA

236

MTHODES ET PRATIQUES DENQUTE

rpercussions substantielles sur les estimations de lenqute. Si lutilisation dun enregistrement donneur
nest pas limite, il devrait y avoir une mthode didentification des enregistrements donneurs souvent
utiliss. Si certains de ces enregistrements ont des champs suspects ou aberrants, il peut tre ncessaire
dexaminer les processus de traitement pour dterminer si les rsultats dfinitifs de lenqute affichent
une distorsion due au processus dimputation.
iv.

Y a-t-il une intervention ultrieure si aucun donneur convenable nest repr pour certains
destinataires?

Un enregistrement donneur peut ne pas tre trouv pour certains destinataires. Une procdure de rechange
est habituellement applique pour ces destinataires (p. ex., imputation hot-deck ou cold-deck hirarchique
ou imputation de la valeur moyenne).
v.

Les donnes considres dans lenqute sont-elles qualitatives ou quantitatives?

Certaines mthodes dimputation sont plus appropries pour les variables qualitatives et dautres
conviennent mieux aux variables quantitatives. Les mthodes hot-deck ont t labores pour traiter les
donnes qualitatives et limputation selon le plus proche voisin est davantage appropri pour les donnes
quantitatives. Les deux mthodes sont maintenant utiles dans chaque situation, y compris pour les
problmes mixtes.

10.4.4 Estimation de la variance pour les donnes imputes


Toutes les mthodes dimputation prsentes donnent une seule valeur impute pour chaque valeur
manquante ou incohrente. Elles altrent, jusqu un certain point, la distribution originale des valeurs
pour une variable et peuvent donner des estimations de la variance inappropries lorsque des estimateurs
standard de variance sont utiliss. Le rsultat peut donner des intervalles de confiance trop troits et des
rejets dhypothse nulle errons. La porte de la distorsion varie considrablement selon lampleur de
limputation faite et la mthode applique.
Lorsque limputation est faite, sil ny a pas dautres erreurs non dues lchantillonnage, la variance
dune estimation a deux composantes : lune est due lchantillonnage (la variance dchantillonnage) et
lautre, limputation (la variance due limputation). La composante variance dchantillonnage est
habituellement sous-estime en prsence de donnes imputes parce que les formules traditionnelles sont
bases sur un taux de rponse de 100 %. Les mthodes dimputation stochastiques ajoutent une certaine
perturbation lensemble des donnes acheves, et cest un avantage. Si limputation stochastique est
utilise, la variance dchantillonnage dune estimation peut donc tre correctement estime la plupart du
temps laide des mthodes traditionnelles. La variance dimputation doit cependant tre estime quand
mme pour dterminer la variance totale de lestimation.
Il est important destimer les composantes chantillonnage et imputation de la variance totale, non
seulement pour formuler des infrences exactes, mais aussi pour dterminer limportance relative de la
variance dchantillonnage et de la variance dimputation. Cette mesure peut aider informer les
utilisateurs sur la qualit des donnes et aider attribuer des ressources denqute entre la taille de
lchantillon et les processus de vrification dimputation.
Proposition de Rubin (1987), limputation multiple est une mthode qui permet de considrer ce problme
si lon impute correctement plusieurs, disons m, fois chaque valeur ayant besoin dimputation (voir
Rubin (1987) ou Binder et Weimin (1996) pour obtenir une dfinition de limputation correcte ). Il est
possible dobtenir m estimations pour larticle partir de lensemble des donnes acheves. Une seule

STATISTIQUE CANADA

TRAITEMENT

237

estimation combine en est tire, ainsi quune estimation de la variance qui exprime lincertitude au sujet
de la valeur imputer. Limputation multiple exige cependant davantage de travail pour le traitement des
donnes, la sauvegarde et le calcul des estimations.
Les mthodes importantes destimation de la variance ont t largies pour englober des fichiers
contenant les donnes imputes dans le cas de limputation simple. Les approches sont dcrites dans
Srndal (1992), Rao et Shao (1992), Rao et Sitter (1995) et Gagnon et coll. (1996). Une comparaison des
mthodes est prsente dans Lee, Rancourt et Srndal (1994, 2001).

10.4.5 Lignes directrices propos de limputation


Limputation peut amliorer la qualit des donnes dfinitives, mais il faut choisir prudemment une
mthode dimputation approprie. Limputation est un risque parce quelle peut dtruire les donnes
dclares pour crer des enregistrements qui correspondent des modles prconus qui peuvent se
rvler ultrieurement inexacts. Lenqute, ses objectifs, linformation auxiliaire disponible et le genre
derreur dterminent l-propos de la mthode dimputation.
Voici certaines lignes directrices pour limputation :
i.

Les enregistrements imputs devraient ressembler de prs lenregistrement rejet la


vrification. Cet objectif est habituellement atteint en imputant le nombre minimal de variables
pour sauvegarder le plus de donnes possible du rpondant. Lhypothse sous-jacente (qui nest
pas toujours vraie en pratique) est quun rpondant fera probablement une erreur ou deux au lieu
den faire plusieurs.

ii.

Une bonne imputation comprend une piste de vrification aux fins de lvaluation. Les valeurs
imputes devraient tre indiques et les mthodes et les sources dimputation, clairement
identifies. Les valeurs imputes et non imputes des champs de lenregistrement devraient tre
retenues, afin dvaluer lampleur et les rpercussions de limputation.

iii.

Les enregistrements imputs devraient passer toutes les vrifications.

iv.

Les mthodes dimputation doivent tre choisies avec soin, compte tenu du genre de donnes
imputer.

v.

La mthode dimputation devrait favoriser le plus possible la diminution du biais de non-rponse


et le maintien des liens entre les lments (c.--d. quil faut valuer si le modle sous-jacent
limputation est adquat).

vi.

Le systme dimputation devrait tre conu, spcifi, programm et mis lessai davance.

vii.

Le processus devrait tre automatis, objectif, reproductible et efficace.

viii.

Le systme dimputation devrait tre en mesure de traiter toute caractristique des champs
manquants ou incohrents.

ix.

Si une mthode dimputation par donneur est utilise, lenregistrement imput devrait ressembler
de prs aux donneurs slectionns. La combinaison des rponses imputes et non imputes pour
lenregistrement imput aura ainsi plus de chance de passer les vrifications et dtre plausible.

STATISTIQUE CANADA

238

MTHODES ET PRATIQUES DENQUTE

10.4.6 valuation des procdures dimputation


La taille de lenqute et le budget dterminent la somme de travail accomplir pour mesurer les
rpercussions de limputation. Les utilisateurs des donnes de lenqute devraient cependant toujours
avoir certains renseignements lmentaires sur lampleur de la modlisation ou de lestimation par
imputation des donnes de lenqute. Lors de lvaluation de la procdure dimputation, les
proccupations les plus pertinentes sont le biais et la variance dimputation des estimations de lenqute.
Si le budget de lenqute est suffisamment lev, lune des options est de faire une tude complte des
rpercussions de limputation et dexaminer les estimations de lenqute avec et sans imputation. Les
carts importants devraient tre examins et essayer de dcouvrir un biais ventuel d limputation.
Si cette mesure est impossible, il faudrait au moins surveiller limputation pour informer les utilisateurs
de limportance de limputation et prciser o elle a t faite. Il peut tre utile, la fin de limputation, de
produire les rsultats suivants (certains sont spcifiques une mthode en particulier) :
- le nombre denregistrements imputs (c.--d. le nombre denregistrements destinataires),
- le nombre dimputations dans chaque champ et la mthode utilise,
- le nombre denregistrements qui peuvent servir de donneurs,
- le nombre denregistrements utiliss en fait comme donneurs et le nombre de destinataires ainsi
imputs,
- une liste (ou un fichier) numrant les donneurs utiliss pour chaque bnficiaire (pour reprer les
sources des enregistrements imputs inhabituels),
- une liste de tous les enregistrements rejets limputation (p. ex., parce quaucun donneur na t
dcouvert).
Remarquez que linformation ci-dessus est utile pour la refonte dune enqute ou la conduite dune
enqute semblable. Ces renseignements peuvent aider amliorer le systme de vrification et
dimputation, le questionnaire de lenqute et les procdures de collecte. Si la rponse une question a un
taux dimputation lev, par exemple, la question peut tre mal formule (et la qualit des donnes peut
tre mdiocre).

10.5 Identification et traitement des valeurs aberrantes


Lidentification des valeurs aberrantes peut tre considre comme un genre de vrification parce que les
enregistrements suspects sont identifis. Au Chapitre 7 - Estimation, on a dfini une valeur aberrante
comme une observation ou un sous-ensemble dobservations qui semble(nt) incohrente(s) par rapport
aux autres donnes de lensemble. Il faudrait aussi faire la distinction entre les observations extrmes et
influentes. Une observation est influente si la combinaison de la valeur dclare et la pondration
dfinitive de lenqute ont une grande influence sur lestimation. Une valeur extrme nest cependant pas
ncessairement influente, et vice versa.
Il est possible de faire la distinction entre des valeurs aberrantes unidimensionnelles ( une variable) et
multidimensionnelles ( plusieurs variables). Une observation est une valeur aberrante unidimensionnelle
si elle est aberrante par rapport une seule variable. Une observation est une valeur aberrante
multidimensionnelle si elle est aberrante par rapport deux variables ou plus. Il est peut-tre facile, par
exemple, de trouver une personne mesurant deux mtres ou une personne pesant 45 kg, mais quelquun
qui mesure deux mtres et pse seulement 45 kg est un exemple de valeur aberrante multidimensionnelle.
Chaque enqute comprend des valeurs aberrantes pour peu prs chaque variable dintrt. De
nombreuses raisons expliquent les valeurs aberrantes :

STATISTIQUE CANADA

TRAITEMENT

239

i.

Il y a des erreurs dans les donnes (p. ex., erreurs de saisie des donnes).

ii.

On peut considrer que les valeurs aberrantes sont tires dun autre modle ou dune autre
distribution. Vous pouvez penser, par exemple, que la majorit des donnes sont tires dune
distribution normale, mais que les valeurs aberrantes peuvent provenir dune distribution
exponentielle.

iii.

La valeur aberrante peut tre due la variabilit inhrente des donnes. Une valeur peut sembler
suspecte, mais dcouler simplement de la variabilit inhrente de lensemble des donnes,
autrement dit, il peut sagir dune observation extrme, mais lgitime, de la distribution. La
situation est possible si la population est asymtrique et cest souvent le cas dans les enqutesentreprises. La rpartition des ventes selon la taille de lentreprise, par exemple, est typiquement
asymtrique, c.--d. que quelques trs grandes entreprises affichent souvent la majeure partie des
ventes dans lensemble.

10.5.1 Identification des valeurs aberrantes


Les mthodes de dtection des valeurs aberrantes les plus populaires sont les mthodes une variable
parce quelles sont plus simples que les mthodes plusieurs variables. Les valeurs aberrantes sont
habituellement dtectes en mesurant leur distance relative par rapport au centre des donnes. Si y1, y2, ,
yn sont les donnes de lchantillon observ, par exemple, et m et s sont des mesures de la tendance
centrale et de ltendue des donnes, respectivement, la distance relative, di, de yi par rapport au centre
des donnes peut tre dtermin ainsi :

di =

| yi m |
s

Si di surpasse une valeur limite dtermine, lobservation est alors considre comme une valeur
aberrante.
Dautre part, un intervalle de tolrance peut tre attribu comme suit :
(m cL s, m + cU s)
o cL et cU sont les valeurs limites infrieure et suprieure prdtermines. Si la population est
asymtrique, des valeurs ingales de cL et de cU sont utilises. Les observations hors de cette intervalle
sont dclares valeurs aberrantes.
La moyenne et la variance de lchantillon sont les statistiques les plus souvent utilises pour estimer le
centre et ltalement des donnes. tant donn quelles sont sensibles aux valeurs aberrantes cependant,
elles sont un choix mdiocre pour la dtection de ces valeurs. La moyenne de lchantillon se dplace vers
les valeurs aberrantes, par exemple, si elles sont en grappes dun ct et les valeurs aberrantes augmentent
normment la variance de lchantillon. Les valeurs relatives de la distance de certaines valeurs
aberrantes peuvent donc sembler ngligeables et la procdure de dtection peut chouer. Ce problme est
intitul effet de dissimulation.
Voil pourquoi lune des mthodes les plus populaires de dtection des valeurs aberrantes est la mthode
par quartile qui utilise la mdiane pour estimer le centre et les tendues quartiles pour estimer ltalement
des donnes pondres parce que ces statistiques rsistent mieux (c.--d. quelles ne ragissent pas) aux
valeurs aberrantes. Les quartiles rpartissent les donnes en quatre parties : 25 % des donnes simples

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

240

sont infrieures au premier quartile, q0,25, 50 % des donnes simples sont infrieures au deuxime quartile
(ou la mdiane), q0,5, et 75 % des donnes simples sont infrieures au troisime quartile, q0,75. (La
mdiane et les tendues des quartiles sont considres davantage au Chapitre 11 - Analyse des donnes
de lenqute).
Les tendues des quartiles infrieur et suprieur, hL et hU , sont dfinies comme suit :
h L = q 0,5 q 0, 25
hU = q 0, 75 q 0,5

Lintervalle de tolrance devient donc :


(q 0,5 c L h L , q 0, 5 + cU hU )

et certaines valeurs dtermines sont attribues cL et cU en examinant les donnes prcdentes ou selon
lexprience acquise. Toute observation hors de cet intervalle est considre comme une valeur aberrante.
Voir Barnett et Lewis (1995) pour obtenir davantage dinformation sur les mthodes de dtection des
valeurs aberrantes.

10.5.2 Traitement des valeurs aberrantes


Les valeurs aberrantes dtectes ltape de la vrification dans le processus de lenqute peuvent tre
traites de diffrentes faons. Dans le contexte dun systme de vrification manuel, les valeurs aberrantes
ventuelles sont examines, les rpondants relancs, et les donnes aberrantes sont modifies si elles se
rvlent en erreur. Dans un contexte automatis, les valeurs aberrantes sont souvent imputes. Dans les
cas o les donnes aberrantes nont pas dinfluence sur les rsultats finaux, il ny a pas ncessit de
traitement particulier.
Les valeurs aberrantes non traites la vrification peuvent tre considres lestimation. Ignorer
simplement les valeurs aberrantes non traites peut donner des estimations mdiocres et accrotre la
variance dchantillonnage des estimations. Attribuer une pondration de un une valeur aberrante (pour
diminuer ses rpercussions sur les estimations) peut biaiser les rsultats. Le but du traitement des valeurs
aberrantes est den diminuer les rpercussions sur la variance dchantillonnage de lestimation sans trop
biaiser les rsultats.
Les approches suivantes peuvent tre appliques pour traiter les valeurs aberrantes pendant lestimation :
- changer la valeur,
- changer la pondration,
- utiliser une estimation robuste.
i.

Changement de valeur

La winsorisation est un exemple de traitement dune valeur extrme. La winsorisation est le recodage des
k valeurs les plus grandes.
Le lecteur se rappellera que, dans un chantillonnage alatoire simple (si le taux de rponse est de 100 %),
lestimateur habituel non biais du total de la population Y est obtenu ainsi :

N
Y =
n

i =1

STATISTIQUE CANADA

TRAITEMENT

241

o i est la ie unit dun chantillon de taille n.


Supposons que yi , i=1,2, , n sont les valeurs ordonnes de yi dans un chantillon de taille n dune
population de taille N et que les k valeurs les plus grandes sont considres tre des valeurs aberrantes,
lestimateur unilatral windsoris dordre k est dfini en remplaant ces valeurs aberrantes par la n-ke plus
grande valeur, yn-k., c.--d. :
N nk
YW = ( y i + ky n k )
n i =1
On remarque que la winsorisation est plutt applique dans les situations une variable et rarement donc
dans les enqutes-chantillons plusieurs variables.
ii.

Changement de pondration

La diminution des pondrations des valeurs aberrantes pour en amenuiser les rpercussions est une autre
option. Attribuer une valeur de zro ou de un la pondration dune valeur aberrante est un exemple.
Cette mesure est rarement applique cause de ses rpercussions marques sur les estimations, en
particulier pour les populations asymtriques. Elle peut donner un biais grave, habituellement une sousestimation. Si deux grandes entreprises affichent la majorit des ventes au dtail, par exemple, et si lune
des deux est identifie comme une valeur aberrante, le retrait de cette entreprise des estimations donnera
une sous-estimation importante du total des ventes au dtail. Plusieurs estimateurs ayant des pondrations
rduites pour les donnes aberrantes ont t proposs, voir Rao (1970), Hidiroglou et Srinath (1981).
iii.

Estimateurs robustes

En thorie classique de lestimation, lestimateur dun paramtre de population est ax sur la supposition
dune certaine distribution. On suppose habituellement que la distribution dchantillonnage est normale
pour lestimateur (voir le Chapitre 7 - Estimation pour la dfinition de distribution dchantillonnage).
Les estimateurs habituels de la moyenne et de la variance de lchantillon sont optimaux en situation
normale. Ces estimateurs sont cependant extrmement sensibles aux valeurs aberrantes. Des estimateurs
robustes sont moins sensibles aux hypothses sur la distribution. La mdiane est plus robuste que la
moyenne, par exemple, les tendues interquartiles sont plus robustes que lestimateur habituel de la
variance. De nombreux estimateurs robustes complexes ont t proposs au cours des annes, y compris
les estimateurs M de Huber, Huber (1964).
Voir Kish (1965), Barnett et Lewis (1995), Rousseeuw et Leroy (1987), Lee et coll. (1992) ou Lee (1995)
pour obtenir davantage dinformation sur les estimateurs robustes et la dtection des valeurs aberrantes en
gnral. Voir le Chapitre 11 - Analyse des donnes de lenqute pour obtenir davantage dinformation
sur la moyenne comparativement la mdiane.

10.6 Production des rsultats cration dune base de donnes


Aprs le codage, la saisie des donnes, la vrification, limputation et la dtection des valeurs aberrantes,
les donnes sont relativement prtes pour lestimation, lanalyse et la diffusion. Avant de procder
cependant, il faut dterminer la mise en forme pour la sauvegarde des donnes. Une base de donnes et un
fichier non hirarchique sont les deux principaux choix. La disposition bidimensionnelle informatise des
enregistrements et de leurs valeurs correspondantes donne un fichier non hirarchique. Il est facile de le
tlcharger dune plateforme lautre et il peut tre consult laide dun logiciel tableur ou statistique.

STATISTIQUE CANADA

242

MTHODES ET PRATIQUES DENQUTE

La majorit des logiciels statistiques doivent avoir des donnes sauvegardes en mise en forme spciale
pour faciliter le traitement rapide, et cest le principal inconvnient dun fichier non hirarchique. Avec
un tel fichier, cette mise en forme particulire est continuellement modifie, une inefficacit inutile. Si les
donnes sont sauvegardes sous forme de base de donnes, il est possible dutiliser certains logiciels
statistiques et de base de donnes sans ncessairement crer de nouveau le fichier. Les demandes peuvent
tre entres directement dans la base de donnes. Le choix de format de base de donnes peut cependant
restreindre le choix du logiciel statistique et dexploitation de base de donnes qui peuvent servir la
totalisation et lanalyse. Il vaut peut-tre mieux crer un fichier non hirarchique et plusieurs fichiers
diffrents avec les rsultats de lenqute dans la base de donnes.
Lorsque le format de sauvegarde des donnes a t slectionn, les poids finaux (pour lestimation) sont
calculs et les totalisations prvues sont faites (voir le Chapitre 7 - Estimation pour obtenir une
description de la mthode de calcul des poids finaux). Les programmes informatiques sont habituellement
rdigs pour calculer les pondrations et produire les totalisations. Vous pouvez aussi faire une analyse
des donnes plus perfectionne. Il faut examiner les donnes avant de les diffuser pour vrifier si elles
respectent les critres de confidentialit des rpondants. Ce processus intitul contrle de la divulgation
peut dboucher sur la suppression de certaines donnes de lenqute. Voir le Chapitre 12 - Diffusion des
donnes pour obtenir davantage dinformation sur lanalyse des donnes et le contrle de la divulgation.

10.7 Traitement manuel ou automatis


Le traitement de tous les volets, ou presque, dune enqute tait auparavant manuel. Les ordinateurs
permettent maintenant le traitement automatis des donnes.
Les avantages de lautomatisation du codage et de la saisie des donnes, de la lecture optique des
caractres, des mthodes de collecte des donnes assistes par ordinateur et du codage pralable du
questionnaire ont dj t considrs. Les arguments en faveur de lutilisation des ordinateurs pour la
collecte des donnes sappliquent aussi au traitement. Lexprience rvle quen gnral les ordinateurs
sont bien meilleurs que les personnes pour traiter un nombre lev de renseignements. Lautomatisation
peut amliorer la qualit des donnes tous les points de vue, et en particulier la rapidit : elle donne des
rsultats plus rapidement et exige moins de ressources. Elle garantit aussi que les procdures appliques
(p. ex., la vrification et limputation) sont uniformes et elle diminue les erreurs non dues
lchantillonnage. Elle permet aussi dappliquer des mthodes plus complexes (p. ex., pour la vrification,
limputation, le codage, le contrle qualitatif, etc.), de suivre le traitement et de faire rapport sur chacune
de ses tapes (p. ex., le nombre de vrifications et dimputations faites). Lautomatisation facilite aussi la
surveillance et le contrle qualitatif du traitement.
Lautomatisation a cependant certains inconvnients, par exemple :
- la formulation de spcifications pour chaque systme qui sera automatis et llaboration dun
programme informatique pour chaque procdure (p. ex., limputation) sont ncessaires et peuvent
demander beaucoup de temps,
- la formation des oprateurs qui utiliseront le logiciel est obligatoire,
- le codage, la vrification et limputation automatiss nenglobent pas les renseignements
supplmentaires de loprateur.
Il est sage dautomatiser les procdures le plus possible, malgr ces inconvnients. Linvestissement
supplmentaire en temps au dpart devient trs avantageux plus tard pendant le processus de lenqute
(surtout si lenqute est ritre). Il faudra au moins toujours saisir les donnes, et en faire la pondration
et lestimation, lordinateur. Lautomatisation permet luniformit qui est importante pour obtenir des

STATISTIQUE CANADA

TRAITEMENT

243

rsultats prcis et mesurables. Tirer avantage des systmes et processus existant, des systmes
automatiss de codage, etc., est aussi une bonne dcision.

10.8 Sommaire
Le traitement est une importante activit de lenqute qui convertit les rponses des questionnaires en une
mise en forme qui convient lanalyse des donnes et la totalisation. Le traitement cote cher, demande
beaucoup de temps et de ressources, et a des rpercussions sur la qualit dfinitive des donnes.
Lautomatisation peut en augmenter lefficacit et amliorer la qualit dfinitive des donnes.
Le traitement commence normalement par une puration prliminaire du questionnaire, suivie du codage
et de la saisie des donnes. Ltape suivante est habituellement une vrification plus dtaille pour
identifier les donnes manquantes ou incohrentes, et ensuite, limputation est faite pour intgrer des
substituts plausibles ces valeurs. La dtection des valeurs aberrantes est aussi utile pour identifier les
valeurs suspectes. Lorsque les donnes sont compltes, convergentes et valides, elles sont habituellement
sauvegardes dans une base de donnes.

Bibliographie
Bankier, M., M. Lachance et P. Poirier. 1999. A Generic Implementation of the Nearest neighbour
imputation method. Proceedings of the Survey Research Methods Section. American Statistical
Association. 548-553.
Barnett, V. et T. Lewis. 1995. Outliers in Statistical Data. John Wiley and Sons, Chichester.
Binder, D. et S. Weimin. 1996. Frequency Valid Multiple Imputation for Surveys with a Complex
Design. Proceedings for the Section on Survey Research Methods of the American Statistical
Association, 1: 281-286.
Boucher, L, J.-P. S. Simard et J.-F. Gosselin. 1993. Macro-Editing, a Case Study: Selective Editing for
the Annual Survey of Manufacturers Conducted by Statistics Canada, Proceedings of the
International Conference on Establishment Surveys. American Statistical Association. Virginia.
Brick, J.M. et G. Kalton. 1996. Handling Missing Data in Survey Research. Statistical Mathematics in
Medical Research, 5: 215-238.
Chambers, R.L. 1986. Outlier Robust Finite Population Estimation. Journal of the American Statistical
Association, 81: 1063-1069.
Cox, B.G., D. A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.
Dielman, L. et M.P. Couper. 1995. Data Quality in a CAPI Survey: Keying Errors. Journal of Official
Statistics, 11(2): 141-146.
Dolson, D. 1999. Imputation Methods. Statistics Canada.
Fay, R.E. 1996. Alternative Paradigms for the Analysis of Imputed Survey Data. Journal of the American
Statistical Association, 91: 490-498.

STATISTIQUE CANADA

244

MTHODES ET PRATIQUES DENQUTE

Fellegi, I.P. et D. Holt. 1976. A Systematic Approach to Automatic Edit and Imputation. Journal of the
American Statistical Association, 71: 17-35.
Gagnon, F., H. Lee, E. Rancourt and C.E. Srndal. 1996. Estimating the Variance of the Generalized
Regression Estimation in the Presence of Imputation for the Generalized Estimation System.
Proceedings of the Survey Methods Section. Statistical Society of Canada. 151-156.
Granquist, L. 1984. On the Role of Editing. Statistisk tidskrift, 2: 105-118.
Granquist, L. et J. Kovar. 1997. Editing of Survey Data: How Much is Enough? In Lyberg, L., et al., eds.
1997. Survey Measurement and Process Quality. John Wiley and Sons, New York. 415-436.
Hidiroglou, M.A. 1999. Notes de cours Methods for Designing Business Survey.
Hidiroglou, M.A. 1999. Notes de cours Methods for Designing Business Survey. Commandit par l'AISE,
52 session de l'IIS, Universit de Jyvaskyl, Finlande.
Hidiroglou, M.A. et J.-M. Berthelot. 1986. Contrle statistique et imputation dans les enqutes-entreprises
priodiques, Techniques denqute, 12(1): 79-89.
Hidiroglou, M.A. et K.P. Srinath. 1981. Some Estimators of a Population Total Containing Large Units.
Journal of the American Statistical Association, 78: 690-695.
Huber, P.J. 1964. Robust Estimation of a Location Parameter. Annals of Mathematical Statistics, 35: 73101.
Kalton, G. et D. Kasprzyk. 1982. Imputation for Missing Survey Responses. Proceedings of the Section
on Survey Research Methods. American Statistical Association. 23-31.
Kalton, G. et D. Kasprzyk, D. 1986. Le traitement des donnes denqute manquantes. Techniques
denqute. 12(1): 1-18.
Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.
Kovar, J.G., J. MacMillan et P. Whitridge. 1988. Systme gnralis de vrification et dimputation
Aperu et stratgie (Mis jour en fvrier 1991). Statistique Canada. BSMD-88-007 E/F.
Latouche, M. et J.-M. Berthelot. 1992. Use of a Score Function to Prioritize and Limit Recontacts in
Editing Business Surveys. Journal of Official Statistics, 8(3): 389-400.
Lee, H., E. Rancourt et C.E. Srndal. 1994. Experiments with Variance Estimation from Survey Data with
Imputed Values. Journal of Official Statistics, 10(3): 231-243.
Lee, H., E. Rancourt et C.E. Srndal. 2001. Variance Estimation from Survey Data under Single Value
Imputation. Survey Nonresponse. John Wiley and Sons, New York.
Lee, H. 1995. Outliers in Business Surveys. Dans Business Survey Methods. Cox, B.G., D. A. Binder,
B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. John Wiley and Sons. New
York. 503-526.
Lyberg, L. et P. Dean. 1992 Automated Coding of Survey Responses: An International Review. Presented
at the Conference of European Statisticians. Washington, D.C.
STATISTIQUE CANADA

TRAITEMENT

245

Moser, C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.
Raj, D. 1972. The Design of Sample Surveys. McGraw-Hill Series in Probability and Statistics, New
York.
Rancourt, E., H. Lee et C.E. Srndal 1993. Variance Estimation Under More than One Imputation
Method. Proceedings of the International Conference on Establishment Surveys, American
Statistical Association, 374-379.
Rao, C.R. 1970. Estimation of Heteroscedastic Variances in Linear Models. Journal of the American
Statistical Association, 65: 161-172.
Rao, J.N.K. et J. Shao. 1992. Jackknife Variance Estimation with Survey Data under Hot-deck
Imputation. Biometrika, 79: 811-822.
Rao, J.N.K. et R.R. Sitter. 1995. Variance Estimation under Two-Phase Sampling with Application to
Imputation for Missing Data. Biometrika, 82: 453-460.
Rao, J.N.K. 1996. On Variance Estimation with Imputed Survey Data. Journal of the American Statistical
Association, 91: 499-506.
Rousseeuw, P.J. et A.M. Leroy. 1987. Robust Regression and Outlier Detection. John Wiley and Sons,
New York.
Rubin, D.B. 1987. Multiple Imputation for Nonresponse in Surveys. John Wiley and Sons, New York.
Rubin, D.B. 1996. Multiple Imputation after 18+ Years. Journal of the American Statistical Association,
91: 473-489.
Sande, I.G. 1979. A Personal View of Hot-deck Imputation Procedures. Survey Methodology, 5(2): 238258.
Sande, I.G. 1982. Imputation in Surveys: Coping with Reality. The American Statistician, 36(3). Part 1:
145-152.
Srndal, C.E. 1992. Mthodes pour estimer la prcision des estimations dune enqute ayant fait lobjet
dune imputation. Techniques denqute, 18(2): 257-268.
Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer Verlag, New
York.
Shao, J. et R.R. Sitter. 1996. Bootstrap for Imputed Survey Data. Journal of the American Statistical
Association, 94: 254-265.
Statistique Canada. 1990. Notes de cours, Cours de base sur les enqutes.
Statistique Canada. 1998. Lignes directrices concernant la qualit. 12-539-XIF.
Statistique Canada. 1998. Notes de cours STC416 Les Enqutes de A Z.

STATISTIQUE CANADA

246

MTHODES ET PRATIQUES DENQUTE

Wenzowski, M.J. 1988. Advances in Automated Coding and Computer-Assisted Coding Software at
Statistics Canada. Proceedings of the 1996 Annual Research of the U.S. Census Bureau.
Yung, W. et J.N.K. Rao. 2000. Jackknife Variance Estimation under Imputation for Estimators using
Poststratification Information. Journal of the American Statistical Association, 95: 903-915.

STATISTIQUE CANADA

247

Chapitre 11 - Analyse des donnes de lenqute


11.0 Introduction
Lanalyse des donnes comprend le rsum des donnes et linterprtation de leur signification pour
donner des rponses claires aux questions qui ont motiv lenqute. Il faut souvent interprter des
tableaux et diverses mesures de rcapitulation, par exemple, des distributions de frquences, des
moyennes et des tendues de valeurs, ou des analyses plus approfondies peuvent tre faites. Lanalyste
voudra peut-tre dcrire seulement les units observes et, dans ce cas, tous les outils de la statistique
lmentaire et intermdiaire sont disponibles (tableaux, diagrammes et graphiques, mesures lmentaires
de la position et de dispersion, modlisation de base, modles de classification, etc.). Lanalyste voudra
plus souvent dcrire la population et vrifier les hypothses formules ce sujet, et il faudra correctement
tenir compte du plan dchantillonnage pendant lanalyse.
Lobjectif de ce chapitre est de considrer lanalyse des statistiques sommaires (distributions des
frquences, mesures de la tendance centrale et mesures de ltalement), de prsenter des mthodes plus
analytiques qui comprennent lanalyse par infrence pour les chantillons probabilistes et de dterminer
comment ces mesures sappliquent des plans dchantillonnage simples ou complexes.
Le chapitre commence avec lanalyse de donnes denqute simples, sans stratification, grappes,
ajustements aux poids, etc. Lanalyse des donnes denqute plus complexes devient rapidement
complique et il vaut mieux consulter un spcialiste. La matire plus approfondie dans ce chapitre exige
des cours de premier cycle en statistique pour bien comprendre et elle commence la Section 11.3.2.2.1.

11.1 Paramtres, estimations, erreur dchantillonnage


Tout dabord, rappelons certaines dfinitions prsentes au Chapitre 6 - Plans dchantillonnage. Un
paramtre est une caractristique de la population que le client ou lutilisateur des donnes est
intress estimer, par exemple, la moyenne de la population, Y . Un estimateur est une formule de
calcul de lestimation du paramtre et lestimation est la valeur de lestimateur dtermine laide des
donnes de lchantillon ralis. Les estimations calcules partir dchantillons diffrents sont
diffrentes lune de lautre. La distribution dchantillonnage dun estimateur est la distribution de
toutes les valeurs diffrentes que lestimateur peut avoir pour tous les chantillons possibles du mme
plan dchantillonnage. Lestimateur et le plan dchantillonnage dterminent cette distribution. Un
estimateur non biais ou approximativement non biais et la distribution de lchantillonnage concentre
le plus prs possible de la moyenne (c.--d. que lerreur dchantillonnage est petit) sont deux
caractristiques souhaitables. Dans le cas des chantillons probabilistes, cette erreur peut tre mesure,
habituellement en estimant la variance dchantillonnage, lerreur-type, le coefficient de variation ou la
marge derreur.

11.2 Genres de donnes


Une enqute permet la collecte dun ventail de caractristiques ou variables. Nous avons mentionn au
Chapitre 7 - Estimation quune enqute unique peut comprendre des variables qualitatives et
quantitatives. Les variables qualitatives sont codes (nominales) et les variables quantitatives indiquent un
nombre. Dautres dcompositions sont possibles : les variables qualitatives peuvent tre nominales ou
ordinales et les variables quantitatives peuvent tre discrtes ou continues.
STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

248

i.

Variables nominales

Une variable nominale est une srie de catgories qui sont simplement des tiquettes ou des noms sans
lien mathmatique entre eux. On ne peut affirmer quune catgorie en particulier est plus grande quune
autre, gale ou infrieure une autre, par exemple, si le genre de sport est la variable nominale,
cricket < soccer na aucun sens.
ii.

Variables ordinales

Une variable ordinale est une srie de catgories ordonnes ou classes selon une chelle ou un
continuum dtermin, et une catgorie en particulier peut prcder ou suivre une autre. Les diffrences
entre les catgories ne sont pas ncessairement quivalentes. Des nombres peuvent tre attribus aux
variables ordinales, mais uniquement pour ordonner les matires, et les additionner ou faire dautres
oprations arithmtiques est inappropri. Voici un exemple de donnes ordinales : vraiment daccord,
daccord, ni pour ni contre, pas daccord, vraiment pas daccord. Dautres exemples : la collecte de lge
laide dune question ferme, par exemple, moins de 15 ans, de 15 ans 34 ans, , 75 ans ou plus, ou
la tension artrielle qualifie de basse, normale, leve.
iii.

Variables discrtes

Une variable discrte est une variable quantitative ayant des valeurs dnombrables. Voici un exemple
de ce genre de variables : une variable dont les valeurs possibles sont entires et il ne peut y avoir de
valeur intermdiaire entre deux valeurs entires. La taille dun mnage peut tre, par exemple, 1, 2, 3, et
des valeurs comme 1,5 ou 4,75 sont impossibles. Il nest cependant pas ncessaire que les variables
discrtes soient entires : un autre exemple de variable discrte est la taille des souliers qui peut tre 6,
61/2, 7, 71/2, etc., mais 63/4 est impossible.
iv.

Variables continues

Une variable continue est une variable quantitative dont toute valeur dans une certaine tendue est
possible (contrairement une variable discrte dont certaines valeurs en particulier seulement sont
possibles). La taille et le poids sont donc des variables continues, mais le nombre de buts dune quipe de
hockey est une variable discrte. Il est possible pour une personne davoir nimporte quelle taille, jusqu
un certain point, par exemple, 1,68 mtre, mais une quipe de hockey ne peut compter 2,3 buts parce que
le nombre de but est discret et entier. Remarquez que les variables continues peuvent tre transformes en
variables nominales, par exemple, les mesures de la tension artrielle peuvent tre qualifies de basse,
normale ou leve.
Le type de donnes dtermine le genre de procdures analytiques qui peuvent tre appliques et la
question est explique aux sections suivantes.

11.3 Mesures de rcapitulation


Dans Analysis of Complex Surveys (Analyse denqutes complexes) (1989), Skinner, Holt et Smith
affirment que les donnes dune enqute-chantillon peuvent servir des fins descriptives ou analytiques.
Les utilisations descriptives ciblent lestimation des mesures rcapitulatives de la population, par exemple
les moyennes et les frquences, mais les utilisations analytiques surpassent les mesures rcapitulatives et
donnent une explication des processus sous-jacents aux mesures descriptives.

STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

249

Cette section prsente les mesures rcapitulatives suivantes :


- distributions de frquences (en tableau ou graphique),
- mesures de tendance centrale (c.--d. moyenne, mdiane ou mode),
- mesures de ltalement de la distribution (p. ex., variance, tendue).
Il est important de bien tenir compte du plan dchantillonnage pendant lanalyse de la population. Ce
chapitre prsente dabord le cas de donnes simples la Section 11.3.1 et les lignes directrices pour
afficher les rsultats de lenqute en graphique. Les mesures de position et dtalement pour les donnes
plus complexes sont ensuite exposes la Section 11.3.2.

11.3.1 Donnes denqute simple


Les statistiques sommaires pour les donnes denqute simple (p. ex., le recensement, lchantillon
alatoire simple (EAS), ou lchantillon systmatique (SYS), sans ajustements de pondration) sont
considres dans les cours de premier cycle en statistique et prsentes brivement dans ce chapitre. Le
lecteur intress peut consulter de nombreux ouvrages pour obtenir davantage dinformation (p. ex., Lohr
(1999), Cochran (1977)).
11.3.1.1 Estimation et prsentation des distributions de frquences
La distribution de frquences est la reprsentation le plus simple dune variable. Les distributions de
frquences dune variable qualitative donnent la frquence de chaque catgorie, le nombre dobservations
dans chaque catgorie, et les rsultats peuvent tre prsents en tableau ou en graphique (p. ex., un
graphique barres). Les distributions de frquences pour les variables quantitatives sont habituellement
prsentes en graphiques parce quun tableau des frquences de chaque valeur de la variable pourrait tre
peu pratique.
Nous avons prsent au Chapitre 7 - Estimation les estimateurs utilisant les pondrations
dchantillonnage qui sappliquent aux donnes simples et complexes. Des estimateurs de domaines sont
utiliss pour estimer les frquences et le domaine est une catgorie (pour une donne qualitative) ou une
valeur (pour une donne quantitative).
Par exemple, lestimateur habituel pour la taille de la population dans un domaine dintrt pour les
donnes qualitatives scrit :
N domaine = wi
iS r domaine

o wi est le poids final ajust du ie rpondant et Sr est lensemble des rpondants. Lestimateur habituel du
total dun domaine pour les donnes quantitatives scrit :
Ydomaine =

w y

i i
iS r domaine

Illustrons lestimation des distributions de frquences pour une enqute-chantillon : considrez un EAS
de 100 employs slectionns dans une population de 1 000 hommes. Lune des variables de lenqute est
la variable nominale genre de travail qui comprend deux catgories : travailleurs manuels et travailleurs
de bureau. Une autre variable de lenqute est la variable continue tension artrielle systolique quune
infirmire diplme a mesure directement et inscrite en millimtres de mercure (mm Hg). Aprs

STATISTIQUE CANADA

250

MTHODES ET PRATIQUES DENQUTE

lenqute, les lectures de tension artrielle sont aussi catgorises en trois groupes : basse, moyenne ou
leve.
Voici la distribution des frquences pondres de la variable qualitative genre de travailleurs en tableau :
Tableau 1 : Nombre dhommes estim par genre de travailleurs
Genre de travailleurs

Nombre dhommes estims

N
Manuel
550
Bureau
450
Total
1 000
Source : Enqute fictive auprs des travailleurs, Canada, 2002.
(Remarque : chaque estimation dans ces tableaux devrait comprendre une estimation de lerreur
dchantillonnage.)
La distribution des frquences pondres de la variable qualitative tension artrielle est prsente dans le
tableau suivant:
Tableau 2 : Nombre dhommes estim par tension artrielle
Tension artrielle

Nombre dhommes estims


N
Basse
320
Normale
630
leve
50
Total
1 000
Source : Enqute fictive auprs des travailleurs, Canada, 2002.

Les distributions conjointes sont utiles pour identifier les combinaisons inhabituelles. La distribution
conjointe pondre du genre de travailleurs et de la tension artrielle ci-dessous nindique aucune
incidence de tension artrielle leve chez les travailleurs manuels (pour la population vise par
lenqute) :
Tableau 3 : Nombre dhommes estim par genre de travailleurs et tension artrielle
Tension artrielle
Genre de
Nombre dhommes estim
travailleurs
Basse
Normale
leve
N
Manuel
240
310
0
550
Bureau
80
320
50
450
Total
320
630
50
1000
Source : Enqute fictive auprs des travailleurs, Canada, 2002.

(Les tableaux des distributions conjointes sont souvent analyss avant la diffusion des donnes dans le
public pour se garantir de la divulgation des donnes confidentielles, c.--d. que les tableaux qui rvlent
des particuliers sont supprims. Le Chapitre 12 - Diffusion des donnes donne davantage dinformation
sur les mthodes de contrle de la divulgation.)

STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

251

Les distributions de frquences peuvent aussi tre reprsentes laide de graphiques ou de diagrammes.
Lanalyse des donnes devrait en fait commencer par une analyse visuelle des donnes. Laffichage
graphique est important pour de nombreuses raisons, notamment :
- les reprsentations graphiques des donnes sont suprieures aux reprsentations simplement
numriques pour dcouvrir la structure caractristique de la distribution,
- la forme de la distribution est au moins aussi importante que ltalement et le centre de la distribution,
- la forme de la distribution devrait dterminer le choix du paramtre (p. ex., moyenne, mdiane ou
mode) pour dcrire les donnes dune seule variable.
Les graphiques et diagrammes suivants pourraient tre ajouts un rapport sur les rsultats de lenqute :
- diagramme secteurs,
- diagramme colonnes,
- graphique barres,
- graphique linaire,
- diagramme bote et moustaches.
Ceux-ci sont examins la section suivante.
11.3.1.1.1 Diagrammes et schmas

Le genre de diagramme utiliser est dtermin par les donnes quil faut reprsenter et par le message
quon veut souligner : ordre de grandeur, taille ou tendance.
i.

Diagrammes secteurs

Un diagramme secteurs est un cercle divis en pointes comme une tarte pour afficher le pourcentage de
la population dans diffrentes catgories dune variable qualitative. Un diagramme est utile si la
population doit tre rpartie en groupes distincts (p. ex., la langue maternelle est le franais ou langlais)
et, de prfrence, seules quelques units sont entres dans la catgorie autre ou sans objet. Les
diagrammes secteurs sont utiliss pour rpondre des questions sur les proportions relatives de
composantes mutuellement exclusives.
Lorsque lon trace un diagramme secteurs, il faudrait rpartir les secteurs (pointes de tarte) selon la
taille, la pointe la plus large 12 h, et ainsi de suite dans le sens des aiguilles dune montre, les pointes
diminuant graduellement. Le nombre de secteurs devrait tre limit cinq ou six en gnral. Sil y a de
nombreux petits secteurs, il vaudrait peut-tre mieux les regrouper. Les tiquettes devraient tre
lextrieur des pointes et il faut viter les flches et les lgendes. Un bon exemple de diagramme
secteurs affichant les dpenses des mnages est illustr ci-dessous.

STATISTIQUE CANADA

252

MTHODES ET PRATIQUES DENQUTE

Rpartition des dpenses des mnages


articles
personnels et
vtements
8%
aliments
14 %

transports
15 %

logement et
mnage
23 %

impts
21 %
autre
19 %

Source : Enqute fictive sur les revenus et dpenses des mnages, Canada, 2002

Le trac tridimensionnel des diagrammes secteurs (voir ci-dessous) peut semer la confusion parce quil
dforme les secteurs et il vaut mieux lviter.
R p a r titio n d e s d p e n s e s d e s m n a g e s
a rtic le s p e rs o n n e ls
e t v te m e n ts
a lim e n ts8 %
14 %
tra n s p o rts
15 %

a u tre
19 %

lo g e m e n t
et m nage
23 %

im p ts
21 %

S o u rc e : E n q u te fic tiv e s u r le s re v e n u s e t d p e n s e s d e s m n a g e s , C a n a d a ,

ii.

Diagrammes colonnes

Un diagramme colonnes comprend une srie de colonnes dont les hauteurs reprsentent les ordres de
grandeur (p. ex., totaux, moyennes ou proportions). Le diagramme colonnes peut tre utilis pour les
variables qualitatives ou quantitatives. Le diagramme colonnes devrait tre utilis pour quelques points
seulement et les colonnes devraient avoir la mme largeur.
La distribution des tensions artrielles systoliques (une variable quantitative), par exemple, pourrait tre
estime dans la population laide des donnes denqute dun chantillon pondr et elle est prsente
dans le diagramme colonnes suivant :

STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

253

Rpartition de la tension artrielle systolique, Canada, 2002


160

Population estime

140
120
100
80
60
40
20
0
140,3

140,5

140,7

140,9

141,1

141,3

141,5

141,7

141,9

142,1

142,3

Tension artrielle systolique (mm Hg)

Source : Enqute fictive auprs des travailleurs (hommes), Canada, 2002.

Le diagramme colonnes comprend un certain nombre de variations. Un diagramme colonnes


regroupes a plusieurs variables regroupes en barres cte cte. Il ne devrait pas y avoir plus de trois
barres dans un groupe. Lanalyste voudra peut-tre comparer, par exemple, le revenu total, les ventes
totales et le revenu net au cours dune certaine priode. Voici un exemple dun diagramme colonnes
regroupes dont les colonnes cte cte reprsentent les annes conscutives et chaque groupe de
colonnes, le nombre de passagers qui visitent une rgion donne par ville dorigine des passagers.
Rpartition des lieux d'origine des passagers

Nombre estim
(en milliers)

1 400
1 200
1 000
800

1994
1995

600
400
200
Calgary

Ottawa

Toronto

Montral

Ville d'origine
Source : Enqute fictive sur le tourisme du rgime intrieur, Canada, 1995,1996.

Un diagramme colonnes proportionnelles (ou colonnes empiles) donne la proportion de la


population dans chaque catgorie dune variable qualitative et chaque colonne reprsente un domaine
diffrent. Les colonnes ont toutes la mme hauteur et la proportion ayant le plus dintrt devrait tre la
STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

254

plus proche de la ligne de base pour faciliter la comparaison. La variable compare entre diffrents
domaines ne devrait pas avoir plus de trois catgories parce que le diagramme colonnes empiles sera
presque illisible sil y en a trop. Voil pourquoi, dans lexemple suivant, les cinq catgories (trs satisfait,
satisfait, ni lun ni lautre, insatisfait et trs insatisfait) de la variable satisfaction ont t ramenes trois
(satisfait, ni lun ni lautre et insatisfait) et compares pour cinq domaines dintrt (heures, personnel,
livraison, garantie, service) :

Satisfaction de la clientle par raison de satisfaction


100%
75%
insatisfait
50%

ni l'un ni l'autre
satisfait

25%
0%
heures

personnel

livraison

garantie

service

Source : Sondage fictif sur la satisfaction de la clientle, endroit, anne.

Les diagrammes colonnes sont gnralement utiliss pour des valeurs positives seulement (p. ex.,
dnombrement de la population, proportions, etc.). Un graphique tuyaux dorgue plus-moins affiche
cependant des valeurs positives et ngatives au cours dune certaine priode. Une valeur ngative pointe
simplement vers le bas sous la ligne de base au lieu de pointer vers le haut.
iii.

Graphiques barres

Un graphique barres est un graphique colonnes horizontales. Lorsque lon trace un graphique
barres, les barres devraient tre disposes par ordre de longueur (de la plus longue la plus courte, ou
vice versa).
Si des valeurs exactes sont inscrites, le graphique devrait tre annot (c.--d. que la valeur exacte devrait
tre inscrite la fin de chaque barre). Si ces vedettes de la colonne de titres sont longues, un graphique
barres peut tre plus facile lire et paratre moins encombr quun diagramme colonnes. Il y a de
nombreuses variations sur le graphique barres lmentaire qui correspondent diffrents types de
diagrammes colonnes (p. ex., colonnes empiles, groupes, etc.).

STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

255

Voici un exemple de graphique barres groupes :


Rpartition des lieux d'origine des passagers
Montral
Toronto

1995
1994

Ville d'origine
Ottawa
Calgary
-

200

400

600

800

1 000

1 200

Nombre estim (en milliers)


Source : Enqute fictive sur le tourisme du march intrieur, Canada 1995, 1996.

iv.

Graphiques linaires

Un graphique linaire affiche une variation dans lordre de grandeur dune variable au cours dune
certaine priode (p. ex., totaux, moyennes ou proportions dans le temps). Le temps (la variable
explicative) est plac sur laxe horizontal. Ltendue des valeurs de la variable dintrt est place sur
laxe vertical. Un point (c.--d. une mesure de lordre de grandeur) est trac pour cette variable pour
chaque unit de temps et les points sont lis en squence. Les lignes sont droites dun point lautre ou
elles peuvent tre des courbes peu prononces. Voici des exemples de graphiques linaires :
Rpartition des tensions artrielles
systoliques, Canada, 2002

Indice des prix la consommation:


tous les articles et les transports
privs

Population estime

160
140

170

120

160

100

150

Tous les
articles

80

140

Transport priv

60

130

40

120

20

110
100

0
140,3 140,6 140,9 141,2 141,5 141,8 142,1 142,4

Tension artrielle systolique (mm Hg)


Source : Enqute fictive auprs des travailleurs
(hommes), Canada, 2002.

90
80
1986

1988

1990

1992

1994

1996

Les graphiques linaires devraient servir dmontrer les tendances ou le mouvement. Le graphique
linaire est prfrable au diagramme colonnes pour les sries de temps ayant un grand nombre de points.
Le graphique linaire est le meilleur moyen de mettre en vidence les diffrences ou les ressemblances
entre des groupes pour comparer plusieurs sries de donnes. Si les donnes rvlent des tendances
videntes, le graphique linaire donne lutilisateur une certaine capacit prdictive. Les tendances
STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

256

constantes la hausse ou la baisse, ou la priodicit vidente, permettent lobservateur dinterpoler ou


dextrapoler des donnes.
Il vaut mieux ne pas comparer de trop nombreuses sries simultanment pour viter la confusion. Voici
un exemple de graphique linaire mdiocre :
Avortements thrapeutiques par tranche de 10 000 femmes en ge de
procrer, Canada et provinces, 1981, 1993
Terre-Neuve

25

.-P.-.
Qubec

20

Canada
Ontario

15

Manitoba
10

Saskatchewan
Alberta

ColombieBritannique
Nouvelle-cosse

v.

1993

1992

1991

1990

1989

1988

1987

1986

1985

1984

1983

1982

1981

NouveauBrunswick

Diagrammes bote et moustaches

Les statistiques sommaires peuvent aussi tre prsentes en un seul graphique rcapitulatif : le diagramme
bote et moustaches. Celui-ci est utilis pour tudier la distribution et ltalement des donnes. La bote
elle-mme se prolonge partir du premier quartile (c.--d. le 25e centile) jusquau troisime quartile
(c.--d. le 75e centile) et une ligne est trace la mdiane (c.--d. le 50e centile). Les extrmits ou
pointes des lignes lies la bote reprsentent les valeurs minimales et maximales. Certaines trousses
statistiques affichent aussi la moyenne et lerreur-type de la moyenne (sil sagit dun EAS) dans le trac
en bote, mais ni lune ni lautre nest affiche ici.
Distribution des prix de vente des maisons, juin 2002
(Prix en milliers de dollars)
400

90e Ct
300

3e Q
200

Md.

tendue
interquartile

1er Q
100

10e Ct

Source : Enqute fictive sur les maisons vendues en juin 2002.


STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

257

Les dfinitions de la mdiane, du premier quartile, du troisime quartile, du 10e et du 90e centile sont
donnes lexemple 11.1 dans la section suivante pour les donnes simples et aux Sections 11.3.2.1 et
11.3.2.2 pour les donnes complexes. On trouvera davantage dinformation sur les diagrammes bote et
moustaches dans Tukey (1977).
11.3.1.2

Position : moyenne, mdiane et mode

Il y a trois mesures communes de la position : la moyenne, la mdiane et le mode. Dans les analyses
statistiques, la moyenne est de loin la plus souvent utilise pour les donnes quantitatives. La moyenne de
la population pour un recensement est simplement la moyenne arithmtique pour les donnes
quantitatives : la somme de toutes les valeurs dune variable divise par le nombre de valeurs. Voici
lestimateur habituel pour estimer la moyenne de la population laide dun chantillon alatoire simple
dont le taux de rponse atteint 100 % :
yi
iS

Y =
nr
r

o yi est la valeur dclare pour la ie unit rpondante et n est la taille de lchantillon.


La moyenne a plusieurs avantages comparativement aux autres mesures de la position. Premirement, elle
est facile calculer et comprendre. Elle a la caractristique souhaitable dtre un estimateur non biais
de la moyenne de la population pour de nombreux plans dchantillonnage probabiliste et de grands
chantillons en gnral. La moyenne a cependant plusieurs inconvnients. Lorsque vous considrez des
valeurs entires, notamment le nombre denfants par mnage, la moyenne peut tre une faction. Le
nombre moyen denfants par mnage, par exemple, peut tre 1,8. La moyenne ne peut servir de mesure de
position pour les variables qualitatives. De plus, les valeurs extrmes peuvent avoir une grande influence
sur la moyenne (elle se dplace vers les valeurs extrmes). Dans une enqute sur les revenus par exemple,
si quelques membres de la population ont des revenus extrmement levs, ceux-ci gonfleront la moyenne
de la population. Si lutilisateur veut une estimation de la valeur centrale, il prfrera peut-tre une
mesure de position moins sensible aux distributions asymtriques ou aux valeurs extrmes.
La mdiane est une autre mesure de la position. La mdiane est la valeur du milieu dune srie de
donnes disposes en ordre numrique ( partir de la plus petite jusqu la plus grande ou de la plus
grande jusqu la plus petite). Si les donnes ont un nombre pair de points, la mdiane est la moyenne
des deux valeurs du milieu. La mdiane peut servir pour les donnes quantitatives et numriques
ordinales, et elle est la meilleure mesure de la tendance centrale dune variable ordinale.
Les valeurs extrmes ont moins de rpercussions sur la mdiane que sur la moyenne et cest son principal
avantage. Dans une enqute sur les revenus, par exemple, les revenus trs levs ont moins dincidence
sur la mdiane. Celle-ci serait en fait inchange mme si le revenu le plus lev tait en millions ou en
milliards. Dans le cas des donnes denqute dun chantillon, le principal inconvnient de la mdiane est
quil est habituellement plus difficile den calculer la variance dchantillonnage et, videmment, de
lutiliser pour lanalyse par infrence.
La troisime mesure de la position est le mode. Le mode est la valeur des donnes la plus frquente.
Cest la plus gnrale des trois mesures de la tendance centrale. Il peut tre appliqu tous les genres de
donnes, mais il est le plus appropri pour les donnes qualitatives et cest la seule mesure sense de la
tendance centrale pour les donnes nominales. Au cours dun recensement agricole par exemple, si vous
demandez aux agriculteurs dinscrire la culture qui couvre la majeure partie de leur terre, et si 38 des
50 agriculteurs de la population inscrivent que cette rcolte est le bl, le bl est donc le mode.
STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

258

Le principal avantage du mode est sa simplicit parce quil peut tre dtermin partir dun tableau ou
dun graphique de la distribution des frquences des donnes. Le mode a cependant un certain nombre
dinconvnients. Premirement, il ne dcrit peut-tre pas suffisamment les donnes parce que la catgorie
la plus commune peut tre peu frquente. Ce problme se pose habituellement lorsquil y a de
nombreuses valeurs de donnes possibles. Dans un recensement sur la migration interurbaine par
exemple, vous pouvez faire la collecte de donnes nominales en demandant 2 000 personnes quelle ville
elles ont quitt et vous pouvez obtenir 1 999 rponses diffrentes, deux personnes seulement ayant le
mme point dorigine. Cette ville en commun serait le mode, mais il ne serait pas trs significatif. Voil
pourquoi le mode est rarement appliqu aux donnes quantitatives qui ont habituellement de nombreuses
valeurs possibles. Contrairement la mdiane et la moyenne, le mode nest pas ncessairement unique
non plus. Plusieurs catgories peuvent tre gales lorsque vous dterminez le rang le plus commun.
Une question se pose videmment : Quelle mesure devrait-on utiliser? Il est important que la mesure
soit significative, approprie, et quelle rponde aux besoins de lutilisateur. Le mode devrait en gnral
tre utilis pour les donnes nominales, la mdiane, pour les donnes numriques ordinales et
quantitatives asymtriques (c.--d. qui ne sont pas symtriques par rapport la moyenne), et la moyenne,
pour les donnes quantitatives rparties symtriquement. Si on considre des donnes quantitatives, la
distribution des valeurs de la variable devrait dterminer le choix. Si la distribution est symtrique et sil y
a seulement un sommet (p. ex., distribution normale) la moyenne, la mdiane et le mode sont identiques.
Le choix na pas dimportance dans ce cas, mais si lanalyste sait quils sont identiques, les donnes sont
donc symtriques. Si la distribution est asymtrique, une estimation des trois mesures donne un indicateur
de lampleur de lasymtrie.
Dautres mesures de la position sont parfois utilises dans les analyses statistiques descriptives. Les
quartiles sont des mesures de la position et, comme dans le cas de la mdiane, il faut dabord inscrire
les valeurs des donnes en ordre, mais au lieu de sparer la distribution en deux parties (comme dans
le cas de la mdiane), les quartiles ont quatre parties, chacune contenant 25 % de la distribution en
ordre. Les centiles tablissent aussi les valeurs des donnes en ordre, mais ils divisent la distribution en
100 entres gales. Le 10e, le 50e (la mdiane) et le 90e centiles sont des statistiques souvent utilises.
Exemple 11.1 : Mesures de la position pour un recensement des ventes de maisons

Supposons quune enqute est faite aux fins du recensement de toutes les maisons vendues au mois de
juin dans une ville en particulier et que lon obtienne les chiffres de vente suivants (en milliers de
dollars) : 85, 235, 146, 295, 96, 250, 235, 205, 195 et 375. Tris en ordre : 85, 96, 146, 195, 205, 235,
235, 250, 295 et 375.
Tableau 4 : Mesures de position pour un recensement des ventes de maisons
Mesure de la position
Moyenne
Mdiane
Mode
1er quartile (ou 25e centile)

3ed quartile (ou 75e centile)


90e centile

Valeur
211 700 $
220 000 $ (moyenne de 205 000 $ et 235 000 $)
235 000 $
146 000 $ (plus petite valeur plus grande que la
premire tranche de 25 % des valeurs)
250 000 $ (plus petite valeur plus grande que la
premire tranche de 75 % des valeurs).
375 000 $ (plus petite valeur plus grande que la
premire tranche de 90 % des valeurs)

STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

259

11.3.1.3 talement
Ltalement est la variabilit ou la dispersion des donnes. Une mesure de ltalement est prsente au
Chapitre 7 - Estimation, cest--dire la variance qui est calcule comme le carr des diffrences par
rapport la valeur de la moyenne. La variance de deux distributions diffrentes a t considre : celle de
la population et celle de lestimateur. La variance de la population mesure ltalement de la distribution
de toutes les donnes yi de la population (o y est une variable dintrt et yi est la valeur de la ie unit). La
variance dchantillonnage mesure ltalement de la distribution des estimations de diffrents chantillons
laide du mme estimateur et du mme plan dchantillonnage. Afin de donner aux utilisateurs de
linformation sur la qualit de lenqute-chantillon, toutes les estimations de lchantillon devraient
comprendre une certaine mesure de lerreur dchantillonnage (variance dchantillonnage, erreur-type,
coefficient de variation ou marge derreur).

Outre la variance de la population, dautres mesures de ltalement de la population comprennent


ltendue et ltendue interquartile. Ltendue est lcart entre la plus grande et la plus petite valeur. tant
donn que cette mesure utilise seulement deux valeurs de la distribution, elle donne seulement une ide
gnrale de ltalement et les valeurs extrmes ont dnormes rpercussions sur elle.
Ltendue interquartile donne ltendue de la tranche de 50 % au milieu des donnes. Cest lcart entre
le troisime et le premier quartile (ou le 75e et le 25e centile). Cette mesure est moins fragile aux valeurs
extrmes et elle est donc plus utile que la simple tendue pour mesurer ltalement. Ltendue
interquartile peut servir toutes les donnes quantitatives.
Exemple 11.1 (suite) : tendue et tendue interquartile pour un recensement des ventes de maisons

Pour le recensement des ventes de maisons, ltendue vaut 290 000 $ (c.--d. 375 000 $ - 85 000 $) et
ltendue interquartile vaut 104 000 $ (c.--d. 250 000 $ - 146 000 $).
Considrons le cas hypothtique suivant pour comprendre limportance de la combinaison de
linformation sur ltalement et de linformation sur la position. Un employ dans une banque vend des
produits financiers pour la retraite et essaie de dterminer le meilleur endroit pour ouvrir un nouveau
bureau. Les travailleurs de 45 ans environ sont le march cibl parce quils ne sont pas trop loin de la
retraite, mais ils nont probablement pas commenc planifier et ils ont de largent disponible. Le bureau
pourrait tre ouvert dans deux villes ventuellement. Un rapport statistique sur un recensement des villes
rvle que lge moyen des travailleurs est 45 ans dans les deux. Sans autre information, lemploy
voudra peut-tre ouvrir un bureau dans chaque ville. En considrant ltalement des donnes cependant, il
constate que les travailleurs de la ville A ont tous entre 40 et 50 ans, et ceux de la ville B ont de 15
65 ans, les deux valeurs modales tant de 20 et 60 ans. Le tableau est maintenant trs diffrent et il peut
tre plus avantageux pour la banque douvrir un bureau dans la ville A (il faudra quand mme obtenir
davantage dinformation, par exemple, combien de rsidents de 40 50 ans habitent dans chaque ville).

11.3.2 Donnes denqute complexe


Les mmes estimateurs de domaines prsents au Chapitre 7 - Estimation et la Section 11.3.1
ci-dessus peuvent tre utiliss pour estimer les distributions de frquences, les moyennes, les totaux et les
proportions des sondages ayant des donnes complexes. Les estimations pour les statistiques dordre
comme la mdiane et ltendue interquartile sont plus compliques.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

260

11.3.2.1 Mdiane

La mdiane de la population est la valeur de la variable dintrt sous laquelle se trouve la moiti de la
distribution de la population. Lestimation de la mdiane de la population est plus complique pour les
plans denqute complexes que pour les plans denqute simples. Des tailles de classes estimes sont
ncessaires pour les variables ordinales. Les valeurs des donnes sont tries par ordre croissant pour les
variables continues et les poids destimations sont additionns jusqu ce que la somme atteigne 50 % de
la taille estime de la population. Lexemple suivant illustre comment estimer la mdiane de la population
en estimant la distribution de la population laide de calculs pondrs.
Exemple 11.2 : Mdiane estime pour un EAS stratifi (voir lexemple 7.6 du Chapitre 7 Estimation)

Rappelons pas que lchantillon de cet exemple a dix observations et deux strates. Voici les points de
lchantillon (tri) :
Tableau 5 : Distribution estime des revenus de la population dun EAS stratifi
Strate

2
1
2
2
1
2
1
1
1
1

No did.
de lunit
8
2
10
7
6
9
4
1
5
3

Poids final

16,5
5,67
16,5
16,5
5,67
16,5
5,67
5,67
5,67
5,67

Genre dexploitation agricole

Poids
cumuls
16,5
22,17
38,67
55,17
60,84
77,34
83,01
88,68
94,35
100,02

Poids cumuls
relatifs
0,16
0,22
0,38
0,55
0,60
0,77
0,83
0,88
0,94
1,0

Genre de
ferme
1
2
1
1
1
2
1
1
2
1

(N1=34, n1=6)
(N2=66, n2=4)

1= culture
2= levage

Le revenu moyen de la population entire dexploitations agricoles est estim :

Y =

yi

iS r

=
i

4,160,340
= 41,595.1 .
100.02

iS r

STATISTIQUE CANADA

Revenu dclar
($)
14 000
15 000
22 000
30 000
40 000
48 000
67 000
75 000
80 000
125 000

ANALYSE DES DONNES DE LENQUTE

261

Estimation de la mdiane partir de la distribution estime


1 .0

0 .9

0 .8

0 .7

0 .6

0 .5

0 .4

0 .3

0 .2

0 .1

0 .0
0

10000

20000

30000

40000

50000

60000

70000

80000

90000

100000

110000

120000

130000

Revenu
La mdiane estime se situe entre 22 000 $ et 30 000 $ parce que les pondrations cumules sont de 0,38
0,55 pour ces deux chiffres. Il est pratique commune, pour obtenir une seule valeur, de faire une
interpolation linaire entre deux points (22 000 $, 0,38) et (30 000 $, 0,55) pour obtenir les coordonnes
du point mdian (Md., 0,50), cette explication tant illustre ci-dessus (lestimation non pondre de la
mdiane est 44 000).
30 000 22 000
Md . = 22 000 +
(0,50 0,38) = 27 647 .
0,55 0,38

11.3.2.2 talement

Il est plus facile de prsenter le cas des donnes denqute dun EAS ou dun EAS stratifi sans
ajustement de pondration comme celui du Chapitre 7 - Estimation pour illustrer le concept de la
variance dchantillonnage. En pratique cependant, peu prs toutes les enqutes ont des donnes plus
complexes, mme si le plan dchantillonnage est un EAS ou un plan systmatique (SYS), un ajustement
de pondration pour les non-rponses est habituellement appliqu, et les formules de lEAS ou de lEAS
stratifi ne sappliquent donc pas.
Le plan dchantillonnage et lestimateur ponctuel dterminent la formule de la variance exacte (c.--d.
que lestimateur de la moyenne dtermine lestimateur pour la variance dchantillonnage dune
moyenne). Lestimation de la variance pour des donnes complexes devient rapidement complique. Afin
destimer correctement lerreur dchantillonnage pour un sondage ayant des donnes complexes, il est
prfrable de consulter un statisticien denqute qui connat bien ce genre de problme. Il nest pas
recommand dutiliser simplement un logiciel, mme un logiciel statistique, parce quun EAS implicite
sans ajustement de pondration y est souvent intgr.
Pour estimer les tendues interquartiles pour des donnes complexes, on peut appliquer lapproche
explique ci-dessus pour la mdiane, afin destimer le 25e et le 75e centile.

STATISTIQUE CANADA

262

MTHODES ET PRATIQUES DENQUTE

11.3.2.2.1 Intervalles de confiance en prsence de biais

Ltude de lestimation et de lanalyse des donnes denqute a suppos jusqu maintenant quil ny
avait pas de biais. Au Chapitre 3 - Introduction au plan denqute, nous avons numr quatre sources
derreurs non dues lchantillonnage qui peuvent causer un biais : la couverture, la mesure, la nonrponse et les erreurs de traitement. Lestimateur peut aussi causer un biais : lanalyste peut prfrer
utiliser un estimateur ayant un petit biais, mais une bonne prcision, au lieu dun estimateur non biais
ayant une prcision mdiocre.
La variation totale par rapport la valeur relle dun paramtre, , est intitule erreur quadratique
moyenne :
MSE (t ) = E (t ) 2
= E (t E (t )) 2 + ( E (t ) ) 2
= Var (t ) + (Biais (t ) )

o t est lestimation de pour un chantillon ralis, E(t) est la valeur prvue, ou lestimation moyenne de
tous les chantillons possibles et Var(t) est la variance dchantillonnage de t.
En prsence dun biais, E(t) = + B. Sil ny a pas de biais, E(t) = , et la variation totale par rapport la
valeur relle, , est simplement la variance dchantillonnage :

MSE (t ) = E (t ) 2
= E (t E (t )) 2 + ( E (t ) ) 2
= Var (t ).
Les intervalles de confiance (considres auparavant au Chapitre 7 - Estimation et au Chapitre 8 Calcul de la taille de lchantillon et rpartition) sont souvent utiliss pour prsenter les rsultats
denqutes probabilistes. tant donn une estimation t et son erreur-type, SE (t ) = Var (t ) , un intervalle
de confiance peut tre tabli comme suit :
( t z SE (t ), t + z SE (t ) )
o z est la valeur correspondant au niveau de confiance (p. ex., z=1,96 pour un intervalle de confiance de
95 %) dans un tableau type de distribution normale. On reconnat la thorie standard enseigne dans les
cours de statistique de premier cycle. Elle sapplique aux moyennes, aux proportions, aux paramtres de
rgression et de nombreuses autres statistiques. Son assise thorique est le thorme central limite dans
les populations infinies. Il faut cependant un chantillon suffisamment large pour que la thorie
asymptotique sapplique et cest sa limite pratique.
Un intervalle de confiance de 95 % est parfois dcrit ainsi :
Selon une enqute rcente, 15 % des rsidents dOttawa assistent des services religieux chaque
semaine. Les rsultats, tirs dun chantillon de 1 345 rsidents, sont considrs prcis plus ou
moins 3 %, 19 fois sur 20.
Un intervalle de confiance de 95 %, pour des estimateurs non biaiss qui ont des distributions
dchantillonnage normales ou approximativement normales, signifie que si lenqute est rpte de

STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

263

nombreuses fois, environ 19 fois sur 20 (ou 95 % des occasions), lintervalle de confiance couvrirait la
valeur de la population relle.
En prsence dun biais, il ny a habituellement pas de mesure du Biais(t), et sil y en avait une,
t + Biais (t ) serait une estimation non biaise de et un intervalle de confiance serait tabli par rapport
cette valeur, mais un intervalle de confiance est plutt tabli par rapport t laide de SE (t ) = Var (t )
au lieu de

MSE (t ) .

Les rpercussions du biais sur lintervalle de confiance sont remarques surtout dans la probabilit de
couverture ( est-ce vraiment 95 %? ). Lintervalle de confiance (le secteur entre les zones ombres de la
courbe de droite) est dcal du point de vue de la valeur relle. La probabilit de couverture pour un
intervalle de confiance autour de est la zone ombre sous la courbe de gauche.
Distribution dun estimateur t avec et sans biais
B / SE( t ) =1

Srndal et coll. (1992) donnent le tableau suivant de la probabilit de couverture relle comme une
fonction du biais relatif, c.--d. le ratio B / Var (t ) .
Tableau 6 : Probabilit de couverture, compte tenu de B/V

Biais relatif
0,00
0,05
0,10
0,30
0,50
1,00

Probabilit de couverture
0,95
0,9497
0,9489
0,9396
0,9210
0,8300

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

264

Nous lavons dj mentionn, B est en pratique inconnu, mais le concepteur et lutilisateur de lenqute
doivent tre conscients de son existence et de ses rpercussions prjudiciables.
Le rapport denqute ou le rapport danalyse des donnes comprend souvent des tableaux des erreurstypes ou des coefficients de variation estims, c.--d. le ratio de lerreur dchantillonnage lestimation
(en pour cent), et les utilisateurs peuvent donc calculer leurs propres intervalles de confiance et procder
leurs vrifications dhypothses. Ces tableaux devraient comprendre une explication de la mthode
appliquer pour faire des tests dhypothses, ainsi que de linformation sur le biais et ses rpercussions.

11.4 Test dhypothses sur une population : variables continues


Rappelons que les enqutes-chantillons sont habituellement faites pour tudier les caractristiques dune
population, tablir une base de donnes des fins analytiques ou vrifier une hypothse. La thorie et les
mthodes considres jusqu maintenant dans ce manuel ciblent surtout la description de la population et
de ses caractristiques : Il y a combien dhommes et de femmes dans la population? Combien sont
fumeurs? Quelle proportion de la population les familles faible revenu forment-elles? Quel est le revenu
mdian des mnages ?
Cette section cible les tests dhypothses au sujet de la population : la proportion des fumeurs est-elle
diffrente de celle des fumeuses? La proportion des familles faible revenu est-elle la mme dans toutes
les provinces? Lesprance de vie varie-t-elle dune province lautre?

11.4.1 Introduction : les lments dun test


Un test dhypothse est une procdure applique pour dterminer si les donnes de lchantillon
soutiennent les noncs formuls au sujet de la population. Une hypothse est un nonc, ou une thorie,
sur la valeur relle de la population dune caractristique. Un test dhypothse comprend la vrification
dune hypothse nulle, Ho, compte tenu dune hypothse alternative, H1. Si vous tirez pile ou face de
nombreuses fois, par exemple, lhypothse nulle peut tre Ho : la pice nest pas biaise et lhypothse
alternative est H1 : la pice est biaise.
La probabilit que les valeurs observes soient le rsultat fortuit de lchantillonnage, en supposant que
lhypothse nulle est vraie, est calcule laide des donnes dun chantillon. Si cette probabilit se
rvle tre plus petite que le niveau de signification du test, lhypothse nulle est rejete.
Un test dhypothse a quatre composantes : les hypothses nulle et alternative, la statistique du test et le
niveau de signification. On devrait ajouter un cinquime lment : une conclusion.
i.

Hypothse nulle

Lhypothse nulle est un nonc au sujet dun paramtre de la population que lanalyste veut vrifier et
son symbole est Ho. Voici des exemples ventuels dhypothse nulle :
-

les revenus moyens de deux provinces sont semblables, H O : Y1 = Y2 ,

la proportion de fumeurs de la population est de 40 %, H O : P = 0,4 ,

STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

ii.

265

lge moyen de la population est de 38 ans, H O : Y = 38 .


Hypothse alternative

Lhypothse nulle est teste par rapport lhypothse alternative dont le symbole est souvent H1 ou HA.
Lhypothse alternative est souvent un nonc sur la population qui devrait tre vrai. Lhypothse
alternative peut tre accepte seulement si les donnes dun niveau de signification en particulier ne
peuvent soutenir lhypothse nulle. Les hypothses alternatives aux hypothses nulles ci-dessus
pourraient tre, par exemple,
-

les revenus moyens de deux provinces sont diffrents, H 1 : Y1 Y2 ,

la proportion de fumeurs dans la population est suprieure 40 %, H 1 : P > 0, 4 ,

lge moyen de la population est de moins de 38 ans. H 1 : Y < 38 .

iii.

Statistique du test

La statistique du test est une valeur calcule partir dun chantillon (ou de plusieurs chantillons) pour
tester une hypothse sur la population do lchantillon est tir. Les donnes, lhypothse vrifie, le
niveau de signification et lestimateur utiliss pour estimer le paramtre dterminent la valeur de la
statistique. Celle-ci exige habituellement que lestimateur ne soit pas biais (ou quil soit
approximativement sans biais) et que la distribution de lchantillonnage de lestimateur soit connue. Une
statistique z est distribue normalement, par exemple, une statistique khi carr a une distribution
khi carr et une statistique F a une distribution F de Fisher-Snedecor.
iv.

Niveau de signification

Les seuls rsultats possibles dun test dhypothse sont rejeter lhypothse nulle ou ne pas rejeter
lhypothse nulle. Rejeter lhypothse nulle ne signifie pas toujours quelle est fausse et ne pas la rejeter
ne signifie pas quelle est ncessairement vraie. Il y a en fait deux genres de conclusions errones :
conclure que lhypothse nulle est fausse lorsquelle est vraie et conclure quelle est vraie lorsquelle est
fausse.
Tableau 7 : Types derreur

Il est conclu aprs


vrification que
lhypothse nulle est :

VRAIE
FAUSSE

Lhypothse nulle est en fait :


VRAIE
FAUSSE
II
I

Ces deux genres de conclusion errone sont intitules erreur de type I et erreur de type II respectivement.
Le niveau de signification dun test, soit , est le risque accept de commettre une erreur de type I,
autrement dit, de rejeter une hypothse nulle vraie. La valeur, = 0,05, par exemple, est souvent utilise.
Si un risque moindre est exig, on peut attribuer une valeur infrieure , disons = 0,01. Si un risque
plus grand est acceptable, on peut utiliser = 0,10.
Le dictionnaire de la statistique de Cambridge (Everitt, 1998) illustre les niveaux de signification comme
suit : on tire pile ou face 100 fois et on obtient face chaque fois. On peut souponner avec raison que
STATISTIQUE CANADA

266

MTHODES ET PRATIQUES DENQUTE

la pice est biaise, mais il y a une mince possibilit quelle ne soit pas biaise et quelle tombe
simplement de cette faon. Nous savons cependant que la probabilit quune bonne pice tombe de la
mme faon 100 fois sur 100 est trs mince : 2 x ()100, ou 1,6 x 10 30 (cest la valeur de la statistique du
test). Compte tenu de ces points, lanalyste peut rejeter en toute confiance lhypothse nulle, Ho : la pice
nest pas biaise pour adopter lhypothse alternative, H1 : la pice est biaise, sachant quil y a
seulement une mince possibilit que sa conclusion soit inexacte. Supposons cependant que la pice est
tire six fois seulement et quelle donne face chaque fois. La probabilit quune pice quilibre tombe de
cette faon est : 2 x ()6, c.--d. 0,031. Cest peu probable, mais pas impossible. Si le niveau de
signification est = 0,05, lanalyste rejetterait lhypothse nulle, mais avec un niveau de signification
plus strict de = 0,01, lanalyste ne pourrait pas rejeter lhypothse nulle.
Il y a deux genres de tests dhypothse : les tests unilatral et bilatral. Un test est unilatral lorsque la
rgion de rejet pour lhypothse nulle, exprime graphiquement, consiste en une queue de distribution de
lchantillonnage de lestimateur. (La rgion de rejet est lensemble des valeurs de la statistique du test
qui inciteraient rejeter lhypothse nulle.) Dans un test bilatral, la rgion de rejet comprend les deux
queues de distribution. Les tests bilatraux sont habituellement utiliss avec des estimateurs normalement
distribus. Lhypothse alternative ci-dessus, par exemple, selon laquelle les revenus moyens des deux
provinces sont diffrents (p. ex., H 1 : Y1 Y2 ), utiliserait un test bilatral, alors que les deux autres
hypothses alternatives appliqueraient des tests unilatraux.

11.4.2 Donnes denqute simples


La matire considre dans cette section est habituellement le sujet des cours de statistique de premier
cycle et nous viterons intentionnellement les dtails et les complications. Le lecteur intress peut
consulter des ouvrages lmentaires (p. ex., Snedecor et Cochran (1989), Wonnacott et Wonnacott
(1977)).
11.4.2.1 Essai pour une moyenne unique

Compte tenu dune srie de donnes obtenues laide dun plan dchantillonnage alatoire simple dune
population, la moyenne de la population estime, Y , nest pas biaise et (si lchantillon est suffisamment
grand) elle est distribue presque normalement avec une moyenne, Y , et une erreur-type estime, SE (Y ) .
Si lanalyste veut tester lhypothse selon laquelle la valeur de Y est k (c.--d. que H O : Y = k ), la
statistique du test suivante peut tre utilise :
Y k
z=
.
SE (Y )

Cette statistique du test est intitule statistique z parce que, si Ho est vraie, z a donc une distribution type
approximativement normale, une moyenne gale 0 et une erreur-type gale 1. Cest la mme
statistique z que celle utilise pour tablir les intervalles de confiance pour la moyenne (voir Section
7.3.2.2).
Parce quil connat la distribution de z, lanalyste connat la probabilit que z scarte de sa moyenne dun
certain nombre derreurs-types; il dtermine ainsi le niveau de signification pour un test. Il est connu, par
exemple, que 5 % des valeurs (absolues) de z sont suprieures 1,96. Afin de faire un test bilatral (p. ex.,
H 1 : Y k ) laide dune statistique z et de = 0,05, la rgion de rejet serait donc les valeurs de z
STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

267

infrieures 1,96 ou suprieures 1,96. Dans le cas dun test unilatral (p. ex., H 1 : Y > k ), pour tablir
un test dont = 0,05, la rgion de rejet serait les valeurs de z suprieures 1,65.
Il est souvent raisonnable de supposer pour les grands chantillons que Y suit une distribution normale.
Cest parce que dans certaines conditions, selon le thorme central limite, la distribution de la moyenne
de lchantillon approche la distribution normale quand augmente la taille de lchantillon.
Exemple 11.3 : Test sur une moyenne dun EAS

Supposons quun organisme statistique procde une enqute sur la sant et fait la collecte des donnes
laide dun chantillon probabiliste. Lorganisme veut vrifier lhypothse selon laquelle il y a un
problme dembonpoint dans la population, lequel est dfini comme le poids moyen de la population tant
suprieur 100 kg. Lorganisme sait que lestimateur habituel pour la moyenne de la population nest pas
biais et est normalement distribu. Une statistique z est donc utilise, et le niveau de signification est de
= 5% . tant donn quun test unilatral est appropri et, afin dobtenir un taux de certitude de 95 %
pour rejeter lhypothse nulle, la rgion de rejet comprend toutes les valeurs z suprieures 1,65.
Voici la vrification de lhypothse :
H 0 : Y 100kg

H 1 : Y > 100kg
La statistique du test :
z=

Y 100
SE (Y )

Si les estimations de lenqute sont Y = 102,1 et SE (Y ) = 1,5, alors :


z=

102,1 100 2,1


=
= 1,4 .
1,5
1,5

tant donn que 1,4 est infrieur 1,645, la donne nest pas dans la rgion de rejet. Lvidence nest
donc pas suffisante pour rejeter lhypothse nulle.
11.4.2.2 Comparaison entre deux moyennes de (sous-)populations

Lapproche applique au test dune moyenne peut facilement tre applique deux moyennes : soit la
diffrence entre deux groupes dintrt, soit le mme groupe mesur deux points dans le temps.
Supposons maintenant quun chantillon est tir de chaque groupe, que les chantillons sont indpendants
et que chaque chantillon est suffisamment large pour justifier lapplication du thorme central limite.
Le premier groupe a une moyenne inconnue, Y1 , le deuxime groupe a une moyenne inconnue, Y2 , et si
lhypothse nulle est vraie, ces moyennes inconnues sont gales. Leur diffrence est donc zro et leurs
estimations devraient tre trs prs lune de lautre. Toute grande diffrence observe entre les
estimations sont dues des chantillons malheureusement mauvais (mais il ny a pas de bonnes raisons
pour cela) ou bien, H0 est faux. Compte tenu de cette explication, le test peut tre fait comme suit :

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

268

H 0 : Y1 = Y2

H 1 : Y1 Y2
et la statistique du test asymptotiquement normale est :
Y1 Y2

z=

Var (Y1 ) + Var (Y2 )

Le niveau de test dcid davance est habituellement 5 %. tant donn quil sagit dun test bilatral, cela
correspond rejeter lhypothse nulle si la statistique du test est lextrieur de la fourchette (-1,96,
1,96). (Remarquez que cette statistique du test est correcte seulement si les deux chantillons sont
indpendants.)
Exemple 11.4 : Test de deux moyennes dun EAS

Supposons quun analyste est intress dterminer si les gens dans une province ont un poids plus lev,
en moyenne, que ceux dune autre province. Un chantillon alatoire simple est tir dans chaque province
et les rsultats sont Y = 95, Y = 105, SE (Y ) = 1,4, SE (Y ) = 2,2. Voici donc la statistique du test :
1

z=

95 105
1,4 + 2,2
2

10
6,80

= 3,83

et les deux groupes sont jugs significativement diffrents.


11.4.2.3 Comparaison entre de nombreuses moyennes de (sous)-populations : modles danalyse de
la variance (ANOVA) une dimension et de rgression linaire

Le prolongement naturel de la thorie ci-dessus est llaboration dun essai pour comparer les moyennes
de nombreux groupes. Dans le cas de lANOVA (analyse (of) de la variance), aucune supposition nest
faite sur le lien ventuel entre les moyennes et, pour les modles linaires, une hypothse est formule sur
les liens linaires entre les moyennes. Les modles linaires sont dans une catgorie de techniques
statistiques utilises pour dterminer si une variable de rponse a des liens linaires avec une ou plusieurs
variables explicatives. Les effets des diverses variables explicatives sont additifs, une importante
caractristique des modles linaires.
11.4.2.3.1. Analyse de la variance (ANOVA)

LANOVA sert valuer leffet dune ou de plusieurs variables qualitatives (intitules facteurs) sur une
variable de rponse continue. Les diffrences entre les moyennes sont vrifies en tudiant la variabilit
dun ensemble dobservations pour dterminer si la variabilit est alatoire ou si elle peut tre attribue
un ou plusieurs facteurs.
LANOVA la plus simple est un plan un facteur pour lequel un chantillon est tir de chacun des k
diffrents groupes dun seul facteur (c.--d. que k moyennes diffrentes sont compares et, selon
lhypothse nulle, elles sont toutes gales). Lanalyste voudra peut-tre, par exemple, vrifier lhypothse
nulle selon laquelle il ny a pas de diffrence entre les revenus moyens des dix provinces :
STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

269

H O : Y1 = Y2 = Y3 = Y4 = Y5 = Y6 = Y7 = Y8 = Y9 = Y10 .

Cette hypothse scrit comme un modle dANOVA :


y gi = 0 + g + i
o ygi est la valeur de la variable de rponse, le revenu, pour la ie unit de la ge province, 0 est le revenu
moyen de toutes les provinces, g est la diffrence entre le revenu moyen de la province g et le revenu
moyen national; si toutes les moyennes sont gales, g = 0; finalement, i est une variable derreur
alatoire, de moyenne nulle et de variance 2.
La variation totale dans la population est rpartie en variation due aux diffrences entre les k groupes et la
variation due aux diffrences entre les sujets dans un mme groupe. Cette dcomposition peut scrire :

(y
g

Y ) 2 = N g (Y g Y ) 2 + ( y gi Y g )

gi

o Ng est le nombre dunits du groupe g, Yg est la moyenne du groupe g et Y est la moyenne gnrale.
Si les chantillons alatoires indpendants ont t tirs de g populations distribues normalement, cette
variation peut tre estime comme suit :

(y
g

iS

y ) 2 = n g ( y g y ) 2 + ( y gi y g )

gi

SS (total ) = SS ( Modle) + SS ( Rsiduel )


o ng est le nombre dunits chantillonnes du groupe g, y g est la moyenne de lchantillon du groupe g,
y est la moyenne gnrale de lchantillon et SS est la somme des carrs .

Si les moyennes de lchantillon k sont toutes les mmes, elles sont aussi gales la moyenne gnrale
y . Dans les limites de la variation alatoire, la variance entre les groupes, c.--d. :
MS ( Modle) =

SS ( Modle)
g 1

devrait donc tre prs de zro.


Il est possible de tester cette hypothse laide du test F tabli comme suit :

H : Y = L = Y10
H 0 : g = 0, g
0 1

H 1 : j 0, pour certaines j H 1 : Y j Yk , pour certaines j , k


et la statistique du test est

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

270

SS ( Modle)
MS ( Modle)
( g 1)
F=
~ Fg 1; g ( n
=
MS ( Rsiduel ) SS ( Rsiduel )
g (n g 1)

1)

Cette statistique a une distribution F de Fisher-Snedecor (g-1) et g(ng-1) degrs de libert. Les valeurs
critiques sont lues partir de tableaux F , avec les degrs de libert et de niveau appropri. On
considre quil existe une diffrence importante entre les moyennes quand la statistique F calcule est
suffisamment grande, c.--d. plus grande que la valeur critique donne par la table F.
Nous dcrivons ici un cas appropri au plan dchantillonnage le plus simple, c.--d. que nous supposons
des chantillons de taille gale et un chantillonnage alatoire simple dans chaque groupe. Ce nest pas
une situation typique des grandes enqutes et cette stratgie nest pas efficace dans les applications
pratiques des plans exprimentaux.
Le lecteur intress par lANOVA peut consultez des ouvrages dintroduction la statistique (p. ex., Lohr
(1999), Wonnacott et Wonnacott (1977)), ou des ouvrages sur les plans exprimentaux (Box, Hunter,
Hunter (1978)).
11.4.2.3.2. Rgression linaire

La rgression linaire est probablement le modle linaire le mieux connu. LANOVA aide dterminer
si la moyenne dun groupe est trs diffrente des autres et la rgression sert identifier ou modliser les
liens entre les diffrentes moyennes de groupe. Faire des prdictions ou des prvisions de la variable de
rponse pour les valeurs des variables explicatives connexes connues est une autre application de la
rgression linaire. La variable de rponse est habituellement une variable continue (p. ex., ge, poids,
taille) en rgression linaire et les variables explicatives peuvent tre qualitatives ou quantitatives. Si une
seule variable explicative est utilise, la rgression est simple et si plusieurs sont utilises, elle est
multiple.
Supposons par exemple quune enqute a t faite pour obtenir des donnes sur la taille et le poids, et
lanalyste est intress dterminer comment ces variables sont lies. Compte tenu du graphique de
donnes suivant, il semble y avoir un lien linaire entre les deux variables.
Le modle mathmatique de ce lien est exprim ainsi :
y i = 0 + 1 xi + i
o yi est la valeur de la variable de rponse continue, le poids, pour la ie unit, xi est la valeur de la
variable explicative, la taille, pour la ie unit, 0 est lordonne lorigine (valeur de y lorsque xi=0), 1
est la pente de la ligne (le changement en yi pour un changement dune unit en xi), i est une variable
derreur alatoire, de moyenne nulle et de variance 2. Autrement dit, on suppose que yi est
approximativement li linairement xi et que les valeurs observes de yi dvient dun nombre alatoire,
i, au-dessus et au-dessous de cette ligne. 0 et 1 sont les paramtres inconnus estims laide des
donnes de lchantillon. Afin de dterminer si les deux variables sont lies linairement ou non, les
intervalles de confiance peuvent tre tablis pour 1 et les tests dhypothses peuvent tre faits au sujet de
sa vraie valeur.

STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

271

Poids par taille


110
100
Poids (kg)

90
80
70
60
50
40
140

150

160

170

180

190

200

Taille (cm)

Les estimations de paramtres peuvent tre dtermines laide des donnes observes (en supposant ici
un chantillonnage alatoire simple), comme suit :

1 =

(x x )( y y ) ,
(x x )
i

0 = y 1 x.

Bien entendu, On peut aussi obtenir les erreurs dchantillonnage de ces estimations. Le test est appliqu
1 pour dterminer si le lien est significatif, cest--dire si la ligne nest pas horizontale, ou 1 0. Voici
les hypothses nulle et alternative :
H 0 : 1 = 0
,

H1 : 1 0
la statistique du test est la z bien connue :
z=

1
SE ( 1 )

qui a une distribution type normale, compte tenu des habituelles hypothses dasymptoticit. Le critre de
dcision est identique celui observ auparavant, c.--d. que lon rejette H0 si les valeurs de z sont
lintrieur de la rgion de rejet pour un niveau choisi.
Exemple 11.5 : Rgression linaire pour les donnes sur la taille et le poids, cas dun EAS

Supposons que les donnes sur la taille et le poids ci-dessus ont t obtenues laide dun EAS et que les
estimations suivantes ont t calcules :

STATISTIQUE CANADA

272

MTHODES ET PRATIQUES DENQUTE

Tableau 8 : Valeurs estimes pour o et 1

Estimation S(estimation)
-90,88
7,66

0,95

0,04

21,09

Lanalyste conclurait quil y a un lien important entre le poids et la taille des gens dans la population.
La rgression est aussi utilise dans les enqutes pendant lestimation ou limputation pour amliorer la
qualit des estimations (consultez le Chapitre 7 - Estimation et le Chapitre 10 - Traitement). Draper et
Smith (1981) expliquent en dtail la thorie et les applications des modles de rgression linaire.

11.4.3 Donnes denqute complexe


11.4.3.1 Test pour une seule moyenne

Le test pour une moyenne peut tre facilement tendu des donnes denqute complexe. Les exigences
asymptotiques pour le test sont en effet couvertes par la version pour population finie du thorme central
limite. Lestimation exacte de lerreur dchantillonnage de lestimateur de la moyenne (c.--d. tenant
compte de la stratification des donnes et des effets de grappe) remplace les exigences traditionnelles,
savoir que les donnes doivent tre indpendantes et identiquement distribues.
11.4.3.2 Comparaison entre de nombreuses moyennes de sous-populations : adaptation de
lANOVA et de la rgression

Des modles dANOVA et de rgression peuvent tre appliqus aux populations et des analyses par
infrence peuvent tre faites lorsque des chantillons de plans denqute complexes sont tirs de ces
populations. Peu douvrages traitent de lestimation et du test des paramtres des modles dANOVA et
de rgression linaire avec plans complexes. Ceux qui le font les regroupent en modles linaires et les
traitent simultanment.
Lintrt thorique et les difficults dpassent la porte de ce manuel. Le lecteur devrait maintenant trs
bien savoir que les trousses statistiques ordinaires ne tiendront pas compte correctement des complexits
ventuelles du plan dintrt et donneront probablement des rsultats trompeurs. Le lecteur intress
devrait consulter le Chapitre 8 de Thompson (1992), le Chapitre 7 de Srndal et coll. (1992), et le
Chapitre 8 de Lehtonen et Pahkinen (1995).

11.5 Tests dhypothses sur une population : variables discrtes


Nous avons tudi la Section 11.4 les test dhypothses propos de variables continues. Lanalyse des
donnes nominales est frquente (p. ex., analyse des dnombrements pour diffrentes catgories). Dans la
distribution conjointe au Tableau 3, par exemple, lanalyste voudra peut-tre vrifier si la proportion de la
population de travailleurs de bureau qui a une tension artrielle basse est diffrente de la proportion de
travailleurs manuels qui a une tension artrielle basse.

STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

273

11.5.1 Tests dindpendance et dhomognit avec donnes denqute simple


Les liens entre les variables discrtes dune population, en particulier les variables discrtes ayant un petit
nombre de valeurs distinctes, sont souvent examins et mis lessai laide de tableaux de contingence
deffectifs et de proportions.
11.5.1.1 Tests dindpendance

Dans un tableau de contingence deux entres, il est souvent intressant de dterminer si deux
caractristiques qui dfinissent les lignes et les colonnes du tableau sont indpendantes. Disons que la
variable A, ayant r valeurs diffrentes est la caractristique dfinissant les lignes du tableau et la
variable B ayant c valeurs diffrentes est la caractristique dfinissant les colonnes. Les proportions
observes (ou effectifs) dans lchantillon sont affiches dans un tableau rc, la valeur dans la ie ligne et
la je colonne tant la proportion (ou nombre) de particuliers qui ont simultanment la valeur i pour la
variable A et la valeur j pour la variable B.
Tableau 9 : Effectifs observs dans un tableau de contingence deux entres ayant r lignes et
c colonnes
Variable A

1
2
3

1
n11
n21

Variable B
2

n12
n22

c
n1c
n2c

Tailles
dchantillon
n1+
n2+

nr1
n+1

nr2
n+2

nrc
n+c

nr+
n++

Disons que pij reprsente la proportion de la population dans la case (i, j) et pi+ et p+j reprsentent les
nij
n
proportions de la ie ligne de la je colonne respectivement. Leur estimateur est p ij =
, p i + = i + et
n++
n++

p + j =

n+ j

, respectivement. Les hypothses dindpendance vrifier peuvent ensuite tre formules


n++
comme suit :
H 0 : p ij = p i + p + j , i = 1...r ; j = 1...c
.

H 1 : p ij p i + p + j , pour certaines i et j
Remarquons que ij pij = 1 parce que chaque individu de la population ltude fait partie dune case
seulement. Pour un ensemble de donnes obtenues en appliquant la population un plan
dchantillonnage alatoire simple, les tests dindpendance reposent ou bien sur la statistique X2 de
Pearson :
X = n
2

i, j

( p

p i + p + j )

ij

p i + p + j

ou bien sur le rapport de vraisemblance G2 :


STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

274

p ij
G 2 = 2n p ij ln
p p
i, j
i+ + j

n
, et p ij = ij ,

n++

o nij est le dnombrement de lchantillon dans la case (i, j) et p ij est la proportion de lchantillon
correspondante.
Compte tenu de Ho et des autres hypothses sur lchantillonnage, les deux statistiques ont une
distribution de khi carr asymptotique (r-1)(c-1) degrs de libert. Lhypothse nulle est rejete pour un
niveau de signification donn si X2 (ou G2) est plus grand que la valeur critique totalise 2(1-);(r-1)(c-1).
Exemple 11.6 : Test dindpendance pour les donnes dun tableau de contingence tires dun EAS

On veut vrifier si la frquence de lecture du journal quotidien (caractristique A, i=1 pour chaque jour,
i=2 pour parfois, i=3 pour jamais) est indpendante des opinions politiques du lecteur (caractristique B,
j=1 pour extrme droite, j=2 pour droite modre, j=3 pour gauche modre, j=4 pour extrme gauche).
Supposons quun chantillon alatoire simple de n=500 est slectionn et que les deux caractristiques
sont mesures pour tous les individus. Les rsultats de lenqute sont :
Tableau 10 : Estimations de lenqute
Lecture du
journal
Chaque jour

Parfois
Jamais
Total

Effectif
Proportion( %)
Effectif
Proportion( %)
Effectif
Proportion( %)
Effectif
Proportion( %)

Opinion politique
Gauche
Droite
Extrme
Modre
Modre
Extrme
50
36
6
n11 = 35
10,0
7,2
1,2
p 11 = 7,0
46
124
72
16
9,2
24,8
14,40
3,2
28
50
33
4
5,6
10,0
6,6
0,8
109
224
141
26
44,8
28,2
5,2
p +1 = 21,8

Total
127
p 1+ = 25,4

258
51,6
115
23,0
500
100,0

Les rsultats des tests :


Tableau 11 : Statistiques du test
Variable
X2 de Pearson
Rapport des vraisemblances G2

Df
6
6

Valeur
6,86
6,90

valeur p
0,334
0,329

tant donn que les valeurs des tests sont bien infrieures la valeur critique pour =0,05, 20.95;6= 12,59,
lvidence statistique nest pas suffisante pour confirmer que les opinions politiques et la frquence de
lecture dun journal sont lies. Dautre part, on peut comparer la probabilit dobtenir un rsultat au moins
aussi extrme que celui obtenu (p. ex., Pr(X2 6,86) = 0,334) avec , le niveau du test (ici, = 0,05).
Cette probabilit est intitule valeur p. Si la valeur p est plus grande que , en supposant toujours que H0
est vraie, on devrait affirmer que ce qui a t observ ntait pas suffisamment extrme pour rejeter
lhypothse nulle.

STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

275

11.5.1.2 Tests dhomognit

Un autre cas simple avec variables discrtes est le test dhomognit des proportions entre les
populations lorsquun chantillon indpendant a t slectionn dans chaque population. La comparaison
entre les provinces de la proportion de personnes qui ne parlent aucune langue officielle, qui en parlent
une ou les deux, par exemple, laide dune enqute nationale et dchantillons indpendants dans chaque
province, serait un test dhomognit.
Supposons dans cette situation que r populations sont compares. Disons que p j|i est une proportion
dindividus dans la ie population ayant la je valeur dune variable discrte de c catgories. tant donn que
chaque particulier de la ie population doit tre dans lune des c catgories, p j |i = 1 . Voici lhypothse
j

vrifier :
H 0 : p j |1 = p j |2 = ... = p j |r , j = 1...c
.

H 1 : p j |i p j |k , pour certaines i et k et pour au moins une j


Supposons que des chantillons alatoires simples indpendants de taille ni+, i=1, , r, sont choisis dans
chaque population. Disons que nij est le nombre de particuliers dans la ie population ayant la je valeur de la
variable discrte. videmment, j nij = ni+, la taille de lchantillon. Les dnombrements peuvent tre
nij
entrs dans un tableau rc et la proportion pj|i peut tre estime par p j|i =
.
ni +
La variable de Pearson pour un test dhomognit scrit :
X

2
(H )

n
= n i +
i n++
r

( p

p + j )

j |i

p + j

, o

p + j =

n+ j
n++

Il y a aussi une variable correspondante du rapport de vraisemblance.


Des calculs directs rvleront que X2(H) peut aussi tre formule comme suit :
X

2
(H )

= n

( p

ij

2
p i + p + j )

p i + p + j

la formulation tant semblable la variable X2 de Pearson pour le test dindpendance. Selon lhypothse
nulle de lhomognit, X2(H) a aussi une distribution de khi carr asymptotique (r-1)(c-1) degrs de
libert.
Exemple 11.6 (suite) : Test dhomognit

Dans lenqute sur les opinions politiques examines ci-dessus, au lieu dun chantillon alatoire simple,
supposons que nous avons quatre chantillons alatoires simples indpendants, chacun pour un groupe
dopinion politique diffrent. Le test dhomognit consisterait vrifier si la frquence de lecture du
journal est la mme pour chaque groupe politique.

STATISTIQUE CANADA

276

MTHODES ET PRATIQUES DENQUTE

11.5.1.3 Application de modles log-linaires lors de tests dhypothses

Les liens entre les proportions dans les cases dun tableau de contingence peuvent souvent tre exprims
sous forme dun modle linaire logarithmique. Dans un tableau deux entres, par exemple, un modle
linaire logarithmique satur prend la forme dun modle ANOVA deux facteurs avec interaction :

ln ( p ij ) = + i + j + ( )ij

= = 0
( ) = ( ) = 0

et

ij

ij

Lhypothse dindpendance prcdente est quivalente au test de labsence dinteraction et peut tre
reformule ainsi :
H 0 : ( )ij = 0, i, j.
De nombreuses hypothses diffrentes au sujet des paramtres des modles log-linaires peuvent tre
formules et chacune correspond une statistique donne. On les retrouvera, notamment, dans Agresti
(1996). La statistique du test pour vrifier lindpendance (qui nest pas prcise ici) a une distribution de
khi carr asymptotique (r-1)(c-1) degrs de libert lorsque lhypothse est vraie.

11.5.2 Tests dindpendance et dhomognit avec donnes denqute complexe


Des tests de proprit, comme lindpendance ou lhomognit de variables discrtes dans la population,
peuvent aussi tre effectus laide des donnes obtenues dune enqute ayant un plan complexe. Les
tests faits dans une enqute simple ne sont cependant pas applicables au plan complexe sans modification.
Tout dabord, un tableau de contingence de dnombrements dchantillons ou de proportions simples
ignorant les probabilits de slection ne donnera pas un aperu prcis du lien entre les variables discrtes
qui dterminent les cases du tableau. De mme, lutilisation sans modification des variables tester pour
lindpendance et lhomognit dveloppes en 11.5.1.1 pourraient donner des conclusions inexactes
(parce que ces variables tester ne suivent plus une distribution de khi carr centrale lorsque lhypothse
est vraie). Dans la matire qui suit, seule le test dindpendance sera considr, mais des approches
semblables sont disponibles pour le test dhomognit.
De nombreuses approches diffrentes ont t proposes pour tenir compte dun plan denqute complexe
dans un test dindpendance. Thomas et coll. (1996) dcrivent plus de 25 mthodes et donnent une
bibliographie approfondie, ils comparent aussi les rsultats de ces mthodes laide dune tude de
simulation. Lohr (1999) donne un compte rendu clair des principales mthodes intgres des logiciels
pour analyse des donnes denqutes complexes.
Une catgorie dapproches consiste apporter des ajustements aux statistiques semblables celles de
Pearson et du rapport de vraisemblance dcrites ci-dessus pour les donnes de plans denqute simples.
La premire tape de ces approches consiste modifier les statistiques X2 et G2 dfinies en 11.5.1.1 en
wk y kij

nij
k S
remplaant p ij =
par sa version pondre p ij =
n++
wk
k S

1, si y k est dans la case (i,j)


o y kij =
0, autrement
STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

277

et wk est le poids du ke individu chantillonn.


Cette modification seule nest pas suffisante, compte tenu de H0, parce que ces variables modifies
seront X2m et G2m ne suivent pas la distribution 2(r-1)(c-1). Dautres ajustements sont ncessaires,
exemple, une multiplication des variables X2m et G2m par une constante pour obtenir des variables
peuvent suivre approximativement une distribution de khi carr. Deux ajustements bien connus qui
t intgrs certains progiciels sont dcrits ci-dessous.

qui
par
qui
ont

Les corrections de premier ordre apportes X2m et G2m (Rao et Scott (1981) (1984)), souvent intitules
corrections de premier ordre de Rao-Scott , consistent faire correspondre la moyenne asymptotique
des statistiques de test la moyenne dune distribution 2(r-1)(c-1). Les statistiques corriges sont exprimes
X2
G2
2
2
ainsi : X RS
= m et G RS
= m , o est une fonction des effets de plan pour estimer les proportions

conjointes pij et les proportions marginales pi+ et p+j. La correction exige donc la capacit de faire une
estimation de la variance pour les proportions estimes comprises dans les formules qui sappliquent
X2m et G2m. X2RS et G2RS peuvent ensuite tre compares une distribution 2(r-1)(c-1).
Les corrections de premier ordre ajustent seulement X2m et G2m, de sorte que leurs moyennes sont les
mmes que celle dune variable alatoire avec distribution 2(r-1)(c-1). Rao et Scott (1981) et (1984) ont
aussi propos une correction de deuxime ordre, souvent intitule correction de Satterthwaite , qui fait
correspondre les moyennes et la variance de la statistique du test la moyenne et la variance dune
distribution 2. Cette correction de deuxime ordre est peut-tre plus difficile calculer que la correction
de premier ordre, mais le rsultat peut tre meilleur si les effets du plan dchantillonnage varient
normment dune case du tableau lautre.
Exemple 11.7 : Test dindpendance pour les donnes dun chantillon stratifi par grappes (Lohr,
1999, p. 332-334)

Au cours dune enqute sur les jeunes et la criminalit (Survey of Youth in Custody - Enqute sur le
placement sous garde des jeunes) du Dpartement de la justice des .-U. en 1987, on a slectionn un
chantillon de 2 621 adolescents et jeunes adultes rsidant dans des tablissements de longue dure pour
les jeunes sous la gouverne de ltat. Il sagit dun chantillon stratifi par grappes avec probabilits
ingales slectionn dans 52 tablissements. Les interviews ont permis dobtenir de linformation sur le
contexte familial, les antcdents criminels et la consommation de drogue et dalcool. laide des
donnes de lenqute, le tableau suivant a t dress pour tablir un lien possible entre lge et le caractre
violent ou non de linfraction criminelle. Voici les proportions pondres :
Tableau 12 : Proportions estimes ( laide des pondrations de lenqute)

Infraction avec
violence?

Non
Oui

15
0,1698
0,1107
0,2805

Groupe dge
16 ou 17 18
0,2616
0,1275
0,1851
0,1453
0,4467
0,2728

0,5589
0,4411
1,0000

Si le plan dchantillonnage par grappes et les probabilits de slection ingales avaient t omis, les
proportions estimes auraient t les suivantes :

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

278

Tableau 13 : Proportions non pondres

Infraction avec
violence?

Non
Oui

Groupe dge
16 ou 17
15
18
0,1389 0,2823 0,1328
0,0908 0,1969 0,1583
0,2297 0,4792 0,2911

0,5540
0,4460
1,0000

Il est vident que le plan dchantillonnage a un effet sur les estimations et quil ne peut tre nglig ou
rejet.
De mme, la simple statistique du test de Pearson pour lindpendance dfinie en 11.5.1.1 aurait une
valeur de 34. tant donn que la valeur critique de 2(2-1)(3-1) est 5,99 au niveau de 5 %, lhypothse de
lindpendance serait rejete. Il est maintenant vident que les contrevenants ne sont pas distribus au
hasard entre les tablissements correctionnels. En particulier, tous les rsidents de ltablissement no 31
sont des dlinquants violents. Les effets de grappes peuvent tre constats aprs avoir dtermin les effets
du plan denqute pour le tableau prcdent :
Tableau 14 : Effets du plan dchantillonnage

Infraction avec
violence?

Non
Oui

15
20,2
5,3
22,0

Groupe dge
16 ou 17
1,9
8,4
9,7

18
2,8
2,4
4,3

5,7
5,7

La statistique du test ajuste du premier ordre a une valeur de X2RS = 16,2. Les effets de plan sont
remarquables, mme si la conclusion est la mme.

11.6 Sommaire
Lanalyse des donnes est lune des tapes les plus dlicates dune enqute parce que la qualit de
lanalyse et la mthode de communication efficace peuvent avoir des rpercussions substantielles sur
lutilit de lenqute dans lensemble. Lanalyse des donnes devrait tablir un lien entre les rsultats de
lenqute et les questions et proccupations identifies au cours de la premire tape de lenqute.
Lanalyse des donnes peut tre restreinte aux donnes de lenqute seulement ou elle peut comprendre
une comparaison entre les rsultats de lenqute et les rsultats tirs dautres enqutes ou sources de
donnes. Lanalyse consiste souvent examiner des tableaux et graphiques de diverses mesures de
rcapitulation, notamment, les distributions de frquences, les moyennes et les tendues. Dautres genres
danalyses de donnes plus perfectionnes sont aussi possibles, et linfrence statistique peut tre
applique pour vrifier des hypothses ou tudier des liens entre des caractristiques.
Il faut correctement tenir compte du plan dchantillonnage pour formuler des infrences au sujet de la
population. Bien quon puisse obtenir des formules normalises dans des ouvrages statistiques pour les
donnes denqute simple, il est prfrable de consulter un spcialiste si les donnes sont plus complexes.

STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

279

Bibliographie
Agresti, A. 1996. An Introduction to Categorical Data Analysis, John Wiley and Sons. New York.
Aldrich, J.H. et F.D. Nelson. 1984. Linear probability, Logit and Probit Models, Quantitative
Applications in the Social Sciences Series. 07-045. Sage Publications, California.
Ardilly, P. 1994. Les Techniques de sondage. Editions Technip, Paris.
Bausch, T. et U. Bankhofer. 1992. Statistical Software Packages for PCs - A Market Survey. Statistical
Papers [anciennement: Statistischen Hefte], 33: 283-306.
Binder, D.A. 1984. Analyse de donnes qualitatives denqutes complexes: quelques expriences
canadiennes. Techniques denqute, 10(2): 155-170.
Box, G.E.P., Hunter, W.G. et J.S. Hunter. 1978. Statistics for Experimenters. John Wiley and Sons, New
York.
Bouroche, J.-M. et G. Saporta. 1980. LAnalyse des donnes. Collection Que sais-je? 1854, Presses
Universitaires de France, Paris.
Brogan, D.J. 1998. Pitfalls of Using Standard Statistical Software Packages for Sample Survey Data.
Encyclopedia of Biostatistics. John Wiley and Sons, New York.
Brackstone, G. 1999. La gestion de la qualit des donnes dans un bureau de statistique. Techniques
denqute, 25(2):159-171.
Carlson, B.L. 1998. Software for Statistical Analysis of Sample Survey Data. Encyclopedia of
Biostatistics. John Wiley and Sons, New York.
Chambers, R.L. and C.J. Skinner. 2003. Analysis of Survey Data. John Wiley and Sons.
Cohen, S. B. 1997. An Evaluation of Alternative PC-Based Packages for the Analysis of Complex Survey
Data. The American Statistician, 51: 285-292.
Draper, N.R. et H. Smith. 1981. Applied Regression Analysis. Second Edition. John Wiley and Sons, New
York.
Dubois, J.-L. et D. Blaizeau. 1989. Connatre les conditions de vie des mnagesdans les pays en voie de
dveloppement : Analyser les rsultats. Collection Mthodologies. Ministre de la coopration et
du dveloppement, Paris.
Dufour, J. 1996. Qualit des donnes lenqute sur la population active. Statistique Canada. HSMD-96002E/F.
Ehrenberg, A.S.C. 1982, A Primer in Data Reduction An Introductory Statistics Textbook. John Wiley
and Sons, Great Britain.
Everitt, B.S. 1998. The Cambridge Dictionary of Statistics. Cambridge University Press, United
Kingdom.

STATISTIQUE CANADA

280

MTHODES ET PRATIQUES DENQUTE

Fellegi, I.P. 1980. Approximate Tests of Independence and Goodness of Fit Based on Stratified
Multistage Samples. Journal of the American Statistical Association, 75: 261-268.
Fink, A. et J. Kosecoff. 1998. How to Conduct Surveys: a Step-by-Step Guide. Sage Publications,
California.
Freund, J.E. et R.E. Walpole. 1987. Mathematical Statistics. Fourth edition. Prentice Hall, New Jersey.
Friendly, M. 1995. Categorical Data Analysis with Graphics. Statistical Consulting Service Short Course,
York University, Toronto.
Hidiroglou, M.A. et J.N.K. Rao. 1987. Chi-squared Tests with Categorical Data from Complex Surveys, I
and II. Journal of Official Statistics, 3: 117-140.
Holt, D., T.M.F. Smith et P.D. Winter. 1980. Regression Analysis of Data from Complex Surveys.
Journal of the Royal Statistical Society, Series A (General), 143(4): 474-487.
Johnson, S., N.L. Kotz et C.B. Read. 1982. Encyclopedia of Statistical Sciences. John Wiley and Sons,
Toronto.
Lee, E.S., R.N. Forthofer et R.J. Lorimor. 1989. Analyzing Complex Survey Data, Quantitative
Applications in the Social Sciences Series. 07-071. Sage Publications, California.
Lehtonen, R. et E.J. Pahkinen. 1995. Practical Methods for the Design and Analysis of Complex Surveys,
Statistics in Practice. John Wiley and Sons, New York.
Lepkowski, J. et J. Bowles. 1996. Logiciels pour ordinateurs personnels pour lestimation des erreurs
dchantillonnage. Statisticien denqutes, 35:12-20.
Levy, P. S. et S. Lemeshow. 1999. Sampling of Population: Methods and Applications. Third edition.
John Wiley and Sons, New York.
Lohr, S. 1999. Sampling: Design and Analysis. Duxbury Press, U.S.A.
Mendenhall, W. 1991. Introduction to Probability and Statistics. Eighth edition. PWS-Kent Press,
Boston.
Nathan, G. et D. Holt. 1980. The Effect of Survey Design on Regression Analysis. Journal of the Royal
Statistical Society, Series B (Methodological), 42(3): 377-386.
Porkess, R. 1991. The Harper Collins Dictionary of Statistics. Harper Collins, New York.
Rao, J.N.K. et A.J. Scott. 1981.The Analysis of Categorical Data from Complex Sample Surveys: ChiSquared Tests for Goodness of Fit and Independence in Two-Way Tables (in Applications).
Journal of the American Statistical Association, 76(374): 221-230.
Rao, J.N.K. et A.J. Scott. 1987. On Simple Adjustments to Chi-square Tests with Sample Survey Data.
Annals of Statistics, 15: 385-397.
Rao, J.N.K., S. Kumar et G. Roberts. 1989. Analyse de donnes denqute avec variables de rponse
qualitatives: mthodes et logiciels. Techniques denqute, 15(1): 169-196.

STATISTIQUE CANADA

ANALYSE DES DONNES DE LENQUTE

281

Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.
Skinner, C.K., D. Holt et T.M.F. Smith. 1989. Analysis of Complex Surveys. John Wiley and Sons,
Chichester.
Snedecor, G. et Cochran, W.G., 1989, Statistical Methods, Eighth edition, Iowa State University Press,
Ames Iowa.
Steel, R.G.D. et J.H. Torrie. 1980. Principles and Procedures of Statistics A Biometrical Approach,
Second edition. McGraw-Hill, U.S.A.
Thompson, S. K., 1992, Sampling, John Wiley and Sons, New York.
Till, Y. 2001. Thorie des sondages : chantillonnage et estimation en populations finies. Dunod, Paris.
Tukey, J.W. 1977. Exploratory Data Analysis. Addison-Wesley Publishing Company, Reading, MA.
Wonnacott, T.H. et R.J. Wonnacott. 1977. Introductory Statistics. John Wiley and Sons, New York.
Wonnacott, T.H. et R.J. Wonnacott. 1991. Statistique: conomie - gestion - sciences mdecine.
Economica, Paris.

STATISTIQUE CANADA

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

283

Chapitre 12 - Diffusion des donnes


12.0 Introduction
La majorit des gens jugent lenqute complte en dfinitive selon les donnes ou les rapports diffuss.
Nous considrons dans ce chapitre des moyens de diffuser les rsultats de lenqute aux utilisateurs et
nous mettons un accent particulier sur lune des principales mthodes de diffusion : un rapport denqute
avec tableaux et graphiques.
La qualit des donnes doit faire lobjet dune valuation pour en informer les utilisateurs, afin quils
dterminent par eux-mmes lutilit des donnes. Cette mesure peut aussi donner des renseignements
utiles pour amliorer lenqute (si elle est rpte) ou dautres enqutes. Cette valuation et le rapport
connexe devraient comprendre une description des techniques denqute, ainsi que les mesures et les
sources derreurs dchantillonnage et non dues lchantillonnage.
Avant la diffusion des donnes, on sassurera quelles ne violent pas lanonymat des rpondants. Ce
processus, intitul contrle de la divulgation, peut se traduire par la suppression ou la modification de
certaines donnes.
Lobjectif de ce chapitre est de prsenter diffrentes mthodes de diffusion, de donner des conseils sur
lorganisation dun rapport sur support papier et dexpliquer des mthodes de contrle de la divulgation
des donnes en tableau et des fichiers de microdonnes grande diffusion.

12.1 Diffusion des donnes


La diffusion des donnes est la communication des donnes de lenqute aux utilisateurs laide de
divers mdias. La communication des rsultats de lenqute aux utilisateurs comprend la rduction dun
grand ensemble de renseignements en dtails concis et importants, tout en indiquant les points forts et les
points faibles des donnes. Lors de la prestation des rsultats aux utilisateurs, il est important de vrifier si
linformation est prcise, complte, accessible, comprhensible, utilisable, actuelle, conforme aux
exigences de la confidentialit et facture correctement. Les responsables de la diffusion devraient
exploiter les progrs technologiques pour permettre aux utilisateurs de traiter linformation statistique au
moindre cot et avec efficience dans leur propre milieu de travail.
Annoncer davance les dates de diffusion des rsultats de lenqute permet de susciter lintrt, de rester
neutre, et dtre peru comme tel. Cependant, il faut prvoir une explication du retard en cas de
circonstances imprvues.
Les donnes peuvent tre diffuses laide de divers mdias : communiqu, interview la tlvision ou
la radio, rponse une demande spciale par tlcopieur ou au tlphone, publication dun document,
microfiches, mdia lectronique, y compris Internet, ou fichier de microdonnes grande diffusion sur
disque compact. (Un fichier de microdonnes grande diffusion est un fichier anonyme qui contient les
enregistrements individuels des rponses de chaque rpondant au questionnaire.)
Plusieurs genres de rapports peuvent tre publis, notamment :
- un rapport principal de lenqute qui comprend les mthodes, ainsi que les principales totalisations et
constatations,
- un rapport danalyse des donnes,

STATISTIQUE CANADA

METHODES ET PRATIQUES DENQUTE

284

un rapport dvaluation de la qualit des donnes,


un rapport sur les techniques denqute,
des rapports spcialiss sur les procdures de traitement et de collecte des donnes, des tudes
mthodologiques, etc.

La section suivante cible la mthode dorganisation dun rapport denqute.

12.2 Principal rapport de lenqute


Le rapport principal est lun des produits les plus importants de lenqute. Cest habituellement le premier
rapport prpar et diffus aux utilisateurs, et il contient donc de linformation sur les buts et les
techniques de lenqute, la documentation des concepts et dfinitions, ainsi que les principales
totalisations et constatations. Luniformit de la structure du rapport de lenqute aide les utilisateurs
chercher et trouver des renseignements particuliers sur lenqute.
Lorganisme statistique a probablement des politiques, normes et lignes directrices particulires sur la
matire, lorganisation et la prsentation de ces rapports. Compte tenu de ces points, voici une structure
suggre du rapport de lenqute qui sapplique dans la plupart des situations.
i.

Page titre

Cet lment est ncessaire. Les organismes statistiques laborent habituellement une norme de mise en
page qui comprend les logos et lidentification numrique pour les contrles dimpression.
ii.

Table des matires

Cet lment est ncessaire. Il aide les utilisateurs trouver linformation voulue.
iii.

Liste des tableaux et graphiques

Cet lment est ncessaire. De nombreux utilisateurs veulent consulter une reprsentation visuelle des
rsultats pour leur propre prsentation ou pour comparer avec dautres sources.
iv.

Faits saillants ou sommaire

Cet lment est optionnel, mais fortement recommand. Un sommaire de deux ou trois pages au plus
rvle les constatations ou faits saillants les plus importants de lenqute. Il sagit dune rfrence rapide
pour ceux qui nont peut-tre pas le temps dtudier tous les dtails du rapport principal, mais qui doivent
connatre les points essentiels des constatations de lenqute. Il donne parfois une brve description des
objectifs de lenqute, prcise quand et o elle a eu lieu, et ajoute les principaux sujets couverts. Il devrait
ensuite dcrire, chacune dans un bref paragraphe, les constatations les plus intressantes, en commenant
par les rsultats plus gnraux pour mettre ensuite en vidence certaines constatations plus particulires
ou imprvues. Le sommaire est parfois simplement une numration en points des plus importantes
constatations. Les faits saillants devraient tre explicites. Voici les exemples : La superficie totale des
grandes cultures a diminu de 3 % depuis 1986, les interviews tlphoniques proccupent davantage les
rpondants, la majorit ont affirm quils refuseraient de donner de linformation financire au
tlphone.

STATISTIQUE CANADA

DIFFUSION DES DONNES

v.

285

Introduction

Lintroduction devrait donner de linformation contextuelle pertinente llaboration de lenqute, par


exemple, les antcdents du projet, les commanditaires, les objectifs de ltude, un aperu de la
mthodologie et la raison dtre du rapport. Elle peut aussi donner un synopsis des activits accomplies et
des leons apprises en termes gnraux seulement parce que les rsultats dtaills seront formuls dans les
sections ultrieures. Elle donne un aperu des sections venir et des liens entre elles.
vi.

Objectifs

Cette section est optionnelle. Si lenqute comprend un grand nombre de clients ou dutilisateurs et si elle
couvre un large ventail de sujets, il serait bon davoir une section entirement rserve lexplication
des objectifs de lenqute. Ces dtails sont cependant couverts dans lintroduction dhabitude.
vii.

Corps du texte

Le corps du rapport est rparti en plusieurs sections. Lune des premires sections devrait donner la
dfinition des concepts et des principales variables (davantage de dtails peuvent tre insrs en annexe)
et expliquer les techniques denqute, les procdures de collecte, le traitement, etc. Les rsultats de
lenqute et les totalisations suivent habituellement (y compris les mesures de la qualit dont la prcision).
Tous les dtails des principales conclusions se trouvent dans le corps du rapport. Chaque section qui prsente
les rsultats devrait commencer par les constatations et rsultats les plus importants suivis de renseignements
plus dtaills. Les ides devraient tre disposes logiquement par ordre dimportance. Les tableaux, les
graphiques, ainsi que lexplication des rsultats et de leur importance, se trouvent dans le corps du rapport.
Lun des plus grands dfis de la rdaction dun rapport est de soutenir lattention du lecteur. Les messages
principaux devraient tre disposs par ordre dimportance, aux fins de la lecture et de la comprhension.
Linformation devrait aussi tre prsente en langage le plus simple possible pour les lecteurs cibls.
viii.

Conclusions

Cette section prsente un synopsis des rpercussions et des constatations. Toutes les conclusions ou les
recommandations pertinentes sur lintervention ncessaire devraient tre entres ici. Une analyse approprie
et la considration des rpercussions ventuelles des erreurs dchantillonnage et non dues
lchantillonnage devraient soutenir les conclusions. Les organismes donateurs, les ministres qui financent
lenqute et les analystes stratgiques prendront sans doute les grandes dcisions, et cette section offre une
occasion unique ceux qui sont le plus proches de lenqute dexposer leur comprhension des
rpercussions des leons apprises.
ix.

Recommandations

Cette section est optionnelle. Dans les rapports techniques, des recommandations peuvent tre formules
pour rsoudre des problmes constats pendant toute activit de lenqute. Elles sont faites lavantage
des intervenants dautres enqutes qui peuvent se trouver dans la mme situation.
x.

Bibliographie liste des rfrences

Toutes les rfrences devraient tre clairement identifies.

STATISTIQUE CANADA

METHODES ET PRATIQUES DENQUTE

286

xi.

Personnes-ressources

Cette section est obligatoire. Il faut donner aux utilisateurs, dans toute enqute, un moyen de
communication clair et direct avec une personne informe du projet. Il faut donner un numro de
tlphone, un numro de tlcopieur, une adresse de courrier lectronique et une adresse postale. Il est de
plus en plus frquent de renvoyer un site Web o linformation est tlcharge.
xii.

Annexes

Lobjectif des annexes est de donner une ide brve, mais prcise, des sujets qui ne sont pas dcrits dans
le corps du rapport ou dajouter des dtails essentiels qui alourdiraient trop le texte. Les annexes peuvent
contenir des dtails sur les objectifs de lenqute, la population ltude et le questionnaire, dautres
dtails sur les techniques denqute, des mesures supplmentaires de la qualit des donnes, y compris la
formule applique pour estimer la variance dchantillonnage, une description des essais statistiques, etc.
Les procdures de collecte de donnes appliques sur place sont parfois ajoutes (p. ex., la mthode de
collecte des donnes, la formation et la supervision du personnel sur place). Le matriel ou le logiciel
utilis peut tre mentionn, ainsi que de linformation sur la mise au point des systmes informatiques.

12.2.1 Lignes directrices sur la rdaction


Le choix dune prsentation et dun style appropris pour le rapport dpend normment de la clientle
cible et de lobjectif du rapport. Les rapports peuvent tre rdigs pour le personnel de lenqute, dautres
ralisateurs denqute, des analystes stratgiques et des spcialistes du sujet, des leaders politiques ou le
grand public.
Poser une question intressante, organiser logiquement les faits pour rpondre des questions et ajouter la
rponse est une structure efficace souvent utilise pour chaque section du corps du rapport.
Voici certaines lignes directrices sur la rdaction :
i.

Expression claire et concise

Un bon rapport communique un certain nombre de messages particuliers, sans tre encombr de dtails
inutiles. Un langage concis est souhaitable, mais il nest pas toujours prfrable dtre plus bref et la
clart devrait toujours avoir la prsance. Voici un exemple : lexpression les fonds distincts de placement
long terme axs sur la retraite et lactif des compagnies dassurance-vie nest pas mauvaise, mais
lexpression lactif des compagnies dassurance-vie et leurs fonds distincts (placements long terme axs
sur la retraite) est dfinitivement plus claire.
ii.

Formulation active ou passive

Le sujet responsable de laction quexprime le verbe est habituellement (et de prfrence) mentionn en
premier dans la phrase, par exemple, Le Manitoba et lAlberta ont enregistr les plus importantes
augmentations provinciales des recettes montaires pendant la priode. Voil une formulation active qui
donne la phrase un caractre actif et convaincant, ainsi quune impression de confiance, que
nexpriment pas les verbes la forme passive. Comparons avec la mme phrase rdige la forme
passive : Les augmentations les plus prononces des recettes montaires pour la priode ont t
enregistres lchelon provincial au Manitoba et en Alberta.

STATISTIQUE CANADA

DIFFUSION DES DONNES

iii.

287

Abrviations et acronymes

On utilisera les abrviations et les acronymes avec parcimonie et, dans le doute, on donnera lexpression
au complet. Le lecteur nen connat peut-tre pas la signification. la premire apparition, on donnera
lexpression au complet et on ajoutera labrviation entre parenthses, par exemple : lIndice des prix la
consommation (IPC). Dans le reste du texte, on pourra ensuite utiliser labrviation ou lacronyme
seulement.
iv.

Terminologie conforme

La terminologie utilise dans les divers lments du rapport doit tre uniforme. Si le titre et le texte font
rfrence lactif et au passif, par exemple, le tableau ou le graphique ne devrait pas tre intitul bilan.
Nous avons aussi expliqu au Chapitre 2 - Formulation de lnonc des objectifs que la terminologie
est plus utile si elle est conforme celle dautres enqutes.
v.

Catgories rsiduelles

Les catgories rsiduelles sont souvent larges et dignes de mention, mais le terme autre est vague et
ambigu. Dfinissez la catgorie ou identifiez ses composantes, si possible, au lieu de les intituler
simplement autre(s).
vi.

Dates

Il faudrait viter les rfrences ambigus aux dates, par exemple, lan dernier ou le mois dernier. Il
faudrait inscrire la premire mention le mois et lanne en particulier, par exemple, la chute de prs de
26 % des expditions intrieures en juillet 1993 semble impressionnante, mais elle est comparable la
diminution de 23 % enregistre en juillet 1992.
vii.

Priode de rfrence

Il faudrait inscrire la priode de rfrence immdiatement sous le principal titre descriptif de chaque
diffusion et annonce de donnes, par exemple, Enqute mensuelle sur les industries manufacturires,
dcembre 2002. Si les donnes sont provisoires, il faudrait lindiquer la ligne de la priode de rfrence
pour viter de rpter provisoire partout dans le texte.
viii.

Ratios simples

Il est acceptable dutiliser une demie, un tiers, un quart ou un cinquime pour exprimer les rsultats. Les
ratios suivants deviennent difficiles comprendre. On sefforcera de rester uniforme, en vitant de
mlanger les ratios dans la mme phrase. On utilisera des nombres entiers si possible, en dcrivant, par
exemple, deux femmes sur trois, comparativement un homme sur trois On utilisera des ratios simples,
p. ex., il y a deux fois plus de chances que les femmes
ix.

Pourcentages

Les pourcentages sont donns entre parenthses, p. ex., environ deux tiers (66 %) des avocats et un tiers
(32 %) des dentistes... et sont donns en entiers, p. ex., 45 % au lieu de 45,3 %, sauf si une donne plus
dtaille est justifie et prcise. Il est prfrable dviter de surcharger la phrase de pourcentages ou de
catgories. Au lieu dinscrire les rsultats comme suit, par exemple, dfinitivement oui (17 %),
probablement oui (25 %), probablement non (27 %) et dfinitivement non (14 %) il peut tre plus clair

STATISTIQUE CANADA

METHODES ET PRATIQUES DENQUTE

288

et plus simple de dclarer que les rpondants taient rpartis peu prs galement entre oui (42 %) et
non (41 %), si les dtails sont inscrits dans un tableau.
x.

Chiffres trop nombreux dans le texte : lecteur confus et message obscur

Voici un exemple de texte qui sme la confusion : Le taux national dinfractions totales par tranche de
100 000 personnes a augment rgulirement de 1979 1981 pour afficher ensuite des diminutions
annuelles conscutives entre 1982 et 1985. Une augmentation de 4,1 % a cependant t remarque en
1986 comparativement 1985, suivie dune augmentation de 2,5 % entre 1986 et 1987.
Comparativement 1987, une diminution de 1,2 % a t enregistre en 1988. Ce taux a augment de
9,1 % au cours de la priode de 1979 1988.
xi.

Titres, rubriques et sous-titres

Le principal titre peut comprendre des rfrences aux dates et aux annes de base, par exemple, Produit
intrieur brut rel au cot des facteurs par branche dactivit, juillet 1993 (donnes provisoires). Il
faudrait utiliser des sous-titres par la suite comme guide ou indication pour orienter le lecteur dans le
texte, par exemple, industries manufacturires. Les sous-titres trop nombreux, trop longs et truffs de
jargon perdent leur influence. Ils devraient donner des renseignements sur ce qui suit, et non pas tre
simplement des tiquettes dnues dinformation. Il faut veiller ce que chaque mot et chaque sous-titre
ait son importance.
xii.

Services de communication

De nombreux organismes peuvent utiliser les services de professionnels des communications qui relvent
les difficults pour les lecteurs cibls et font des suggestions pour amliorer le texte. Ces intervenants
peuvent examiner le rapport ou mme aider le prparer avant la rdaction. Les corrections et la rvision
de la traduction font partie des services.

12.2.2 Tableaux
Nous avons expliqu au Chapitre 2 - Formulation de lnonc des objectifs que les tableaux sont lun
des principaux rsultats dune enqute. Il faudrait considrer directement dans les tableaux lobjectif
nonc et les exigences particulires des produits de lenqute. Les tableaux servent illustrer ou
examiner les caractristiques quantitatives des donnes. Ils peuvent rapidement rvler les liens entre
plusieurs variables et permettre la comparaison directe des sommes.
Pendant lanalyse et avant la documentation des rsultats, lanalyste devrait vrifier les estimations et les
tableaux produits. Les rsultats sont-ils uniformes linterne? Cela signifie que les totaux marginaux au
sujet des mmes variables devraient tre les mmes dans diffrents tableaux. Les calculs des souspopulations devraient tre quivalents au total de la population, etc. Les totaux correspondent-ils ceux
dautres sources?
Les lignes directrices suivantes devraient tre appliques lors de la prparation des tableaux :
i.

Les tableaux devraient tre simples et afficher seulement les principaux renseignements pour
justifier un point la fois en gnral. Il vaut mieux avoir deux tableaux simples quun tableau
trop compliqu.

STATISTIQUE CANADA

DIFFUSION DES DONNES

289

ii.

La mise en forme, les espaces et la formulation dans lensemble, la disposition et lapparence des
titres, les vedettes des lignes et des colonnes, ainsi que dautres mesures dtiquetage, devraient
aider mettre en vidence les donnes des tableaux et empcher les erreurs dinterprtation.

iii.

Les tableaux devraient tre clairs, logiques et uniformes.

iv.

Les titres devraient tre clairs et succincts et il faudrait viter les abrviations.

v.

La prsentation des rubriques devrait soutenir le message de lanalyse dans un ordre rationnel et il
faudrait noncer clairement toutes les units de mesure.

vi.

La conception des tableaux devrait permettre, le plus possible, la lecture des photocopies. Il
devrait aussi y avoir suffisamment dinformation dans le tableau (titre, notes en bas de page, etc.)
pour ne pas perdre sa valeur la photocopie.

vii.

Arrondir les donnes aidera le lecteur comprendre la prcision des estimations.

viii.

Si les donnes sont tires dune enqute-chantillon, les estimations et les mesures de la prcision
devraient tre faites laide des poids finaux (c.--d. les pondrations du plan qui peuvent tre
ajustes pour les non-rponses et les donnes auxiliaires comme on la vu au Chapitre 7 Estimation).

12.2.3 Graphiques
Les graphiques et diagrammes servent la prsentation visuelle des donnes. Ils ciblent les caractristiques,
formes ou distributions relatives, et les ordres de grandeur. De bons graphiques devraient ajouter au texte et
aux tableaux, et non simplement rpter linformation. Ils devraient servir expliquer ou soutenir les
principaux points dans le texte. Celui-ci devrait reporter aux graphiques qui devraient tre disposs aprs la
rfrence.
La prsentation des graphiques et diagrammes est aussi considre au Chapitre 11 - Analyse des donnes de
lenqute. Lensemble des rgles lmentaires sappliquent en majorit autant aux graphiques et diagrammes
quaux tableaux. Ils devraient tre simples et afficher seulement les principaux renseignements pour justifier
un point la fois en gnral. Les explications dtailles devraient tre superflues. Il faudrait utiliser les
graphiques pour diffuser une interprtation visuelle et intuitive des faits saillants ou des tendances, et ils
devraient donc tre purs et ordonns. Toute tentative de communiquer trop dinformation dans un seul
graphique ou tableau peut simplement semer la confusion chez les lecteurs. Si les graphiques sont utiliss pour
illustrer des points sur la population, il faut avoir recours aux pondrations dfinitives de lchantillon pour les
donnes dune enqute-chantillon.
Il faudrait prendre garde de ne pas induire le lecteur en erreur. Les graphiques sont trs efficaces pour
communiquer linformation, mais il est facile de les utiliser erronment. Les titres, lgendes et axes
tiquets ngligemment, le recours inappropri aux espaces en gris, les chelles fausses ou non
uniformes, etc., sont des erreurs frquentes. Il faudrait en gnral viter les prsentations
tridimensionnelles, mais elles peuvent tre appropries dans certaines circonstances (p. ex., le trac dune
surface).
On devrait utiliser des intervalles uniformes pour les graphiques linaires. Il vaut mieux viter, par
exemple, ce genre de progression : 1, 2, 5, 8, mme sil ny a pas de donnes simples pour les autres

STATISTIQUE CANADA

290

METHODES ET PRATIQUES DENQUTE

valeurs; il est prfrable dinscrire plutt 1, 2, 3, 4, 5, 6, 7, 8. Si la srie commence par un nombre lev,
ou sil y a un cart dans les valeurs de lun des axes, on ajoutera un symbole pour indiquer lcart.

12.3 Rapport danalyse des donnes


Le principal rapport de lenqute comprend certains rsultats et constatations lmentaires, mais il faudra
faire un rapport danalyse des donnes ou dautres rapports si une analyse plus approfondie est prvue.
Les activits analytiques devraient dboucher en bout de ligne sur un rapport sur support papier qui
rponde clairement aux questions qui ont suscit lenqute. Le rapport danalyse des donnes peut tre
structur en gnral comme le principal rapport de lenqute prsent la Section 12.2. Il devrait y avoir
un sommaire des mthodes analytiques dans le rapport danalyse des donnes, ainsi quune description et
une considration des rpercussions ventuelles des erreurs dchantillonnage et non dues
lchantillonnage, des mises en garde et des hypothses sur les rsultats et leur signification statistique.
Voir le Chapitre 11 - Analyse des donnes de lenqute pour obtenir des dtails sur les mthodes
danalyse des donnes.

12.4 Rapport sur la qualit des donnes


Lvaluation de la qualit des donnes est une tape importante de toute enqute et il faudrait la
documenter dans le principal rapport de lenqute ou dans un rapport distinct sur la qualit des donnes.
Lvaluation de la qualit des donnes est le processus dvaluation du produit dfinitif, compte tenu
des objectifs originaux de lactivit statistique du point de vue de la prcision ou de la fiabilit des
donnes. Ce genre dinformation permet aux utilisateurs de procder une interprtation et une
utilisation mieux informes des rsultats de lenqute. Les utilisateurs doivent tre en mesure dvaluer
quel point les erreurs dans les donnes en restreignent lutilisation, mais peu dutilisateurs peuvent
valuer eux-mmes la prcision des donnes tires dune enqute. Lorganisme statistique est donc charg
des valuations de la qualit des donnes ncessaires et de la diffusion des rsultats de ces valuations aux
utilisateurs au moment opportun et en prsentation facile utiliser. Les valuations de la qualit des
donnes sont aussi lavantage de lorganisme statistique. Dans la mesure o les erreurs peuvent tre
dtectes des tapes particulires du processus de lenqute, ces valuations peuvent servir amliorer
la qualit des occurrences ultrieures si lenqute est ritre ou sil y a dautres enqutes semblables.
Lanalyste devrait aussi considrer lapplication de mthodes dattestation. Lattestation comprend un
examen approfondi des indicateurs de qualit des donnes, diverses analyses une variable et plusieurs
variables et de nombreuses tudes comparatives, afin de comparer les rsultats de lenqute dautres
sources et des sries chronologiques. Toutes les donnes du recensement canadien passent, par exemple,
par une valuation et un examen critique rigoureux de la qualit pour en dterminer la pertinence et la
fiabilit aux fins de la diffusion publique des chelons particuliers du territoire de dclaration. La
pertinence signifie que les donnes doivent rpondre des normes particulires de qualit et de
confidentialit.
La documentation sur la qualit des donnes devrait comprendre linformation sur les techniques
denqute et les indicateurs de qualit des donnes. Les lments suivants dterminent la prcision de la
documentation sur la qualit des donnes ncessaire :
- le genre denqute (recensement, chantillon, donnes administratives, etc.) et la frquence (unique
ou ritre),
- le genre de donnes tires de la collecte,

STATISTIQUE CANADA

DIFFUSION DES DONNES

291

le genre danalyse faite,


les utilisations prvues des donnes (c.--d. rpercussions sur les politiques, planification conomique
et sociale, etc.),
lventualit derreurs et les rpercussions sur lutilisation des donnes,
lutilisation prvue du rapport sur la qualit (p. ex., information gnrale, amliorations ultrieures,
etc.),
lauditoire cibl dans le rapport sur la qualit,
le moyen de diffusion (c.--d. publication, fichier de microdonnes grande diffusion, etc.),
le budget total du programme et le cot de lvaluation de la qualit par rapport au cot dans
lensemble.

Les lments suivants donnent une liste partielle des articles qui peuvent tre ajouts un document sur la
qualit des donnes. Cette information devrait normalement tre jointe au produit statistique. Sil est
impossible dajouter cette documentation pour une raison ou pour une autre, il faudrait expliquer en
rfrence comment trouver cette documentation sur la qualit des donnes.
i.

Nota aux utilisateurs (le cas chant)

Il faudrait ajouter cet lment le cas chant. Il peut sagir de faits saillants de linformation formule
dans une section suivante ou plus, dexplications particulires ou de mises en garde dont il faut informer
les utilisateurs.
ii.

Sources de donnes et mthodologie

Cette sous-section devrait couvrir les points suivants :


- la mthodologie gnrale (diffrences entre population cible et population observe, sources de
donnes, mthodes de collecte, traitement, estimation et validation),
- la priode de rfrence,
- les rvisions, le cas chant,
- les ajustements, le cas chant.
iii.

Concepts et variables mesures

Cette sous-section devrait couvrir les variables, classifications et concepts utiliss les plus importants.
iv.

Prcision des donnes

Il devrait y avoir un nonc sur les questions de prcision, y compris la taille de lchantillon, les genres
derreurs non dues lchantillonnage et leurs sources (p. ex., taux de non-rponse, taux dimputation,
etc.) par rgion gographique et caractristique.
v.

Comparabilit des donnes et sources connexes

Cette sous-section indique, le cas chant, si les donnes sont comparables ou non dans le temps et elle
prcise pourquoi (p. ex., en cas de modification de la formulation dune question).
vi.

Autres valuations et indicateurs de qualit (le cas chant)

Cette sous-section offre un sommaire des approches ou mthodes analytiques, pour tous les rsultats
analytiques, ainsi quune brve description et une considration des rpercussions ventuelles des
questions de prcision, des hypothses et des mises en garde sur les rsultats et leur signification

STATISTIQUE CANADA

METHODES ET PRATIQUES DENQUTE

292

statistique. Elle comprend aussi une description dautres sources derreurs ventuelles importantes ou de
tout autre vnement (p. ex., une grve) qui peut ventuellement avoir des rpercussions sur lexactitude,
lactualit et linterprtation ou lutilisation des donnes.
vii.

Annexes (si ncessaires)

12.5 Contrle de la confidentialit et de la divulgation


La majorit des organismes statistiques doivent protger la confidentialit de linformation du rpondant
en vertu de la loi. Voici certaines mesures qui garantissent la confidentialit :
- protger les questionnaires pendant la collecte des donnes et lacheminement,
- exiger que tous les employs prtent serment de non-divulgation de linformation confidentielle,
- restreindre laccs aux btiments et aux serveurs o sont sauvegards les renseignements
confidentiels,
- appliquer des mthodes de contrle de la divulgation.
La protection de la confidentialit de linformation des rpondants est essentielle un organisme
statistique pour maintenir la confiance du public et obtenir ainsi des taux de rponse levs et des donnes
de bonne qualit.
Le contrle de la divulgation englobe lensemble des mesures prises pour protger les donnes
diffuses, afin dempcher les infractions contre lanonymat des rpondants. Il comprend, par exemple,
la suppression de cases dans un tableau qui pourraient rvler de linformation confidentielle sur un
rpondant en particulier. Lapplication du contrle de la divulgation a parfois des rpercussions ngatives
sur la qualit des donnes parce quil faut supprimer ou modifier certaines donnes pendant le processus.
Le but du contrle de la divulgation est de garantir le respect de la confidentialit de linformation donne
par un rpondant, tout en maintenant lutilit des donnes dans la mesure du possible.

12.5.1 Divulgation
Deux principaux types de divulgation suscitent des proccupations : la divulgation de lidentit et celle
des attributs. Il y a divulgation didentit lorsquun rpondant en particulier (personne, mnage,
entreprise, etc.) peut tre identifi partir des donnes diffuses. Une information confidentielle est
ainsi rvle. Le problme se pose surtout dans le cas des microdonnes parce que lidentification de
lenregistrement dun rpondant dbouche presque certainement sur la rvlation des caractristiques de
ce rpondant. Il y a divulgation dattribut lorsquil est possible, partir des donnes diffuses, de
rvler linformation confidentielle au sujet dun rpondant. Le problme se pose surtout dans le cas du
recensement ou des donnes administratives parce que lerreur dchantillonnage aide protger les
rsultats contre la divulgation. Un recensement peut, par exemple, donner une tendue troite (prcise) du
revenu des mdecins dans un certain secteur.
Il y a divers genres de divulgation qui comportent diffrents degrs de gravit. Les dfinitions suivantes
ne sont pas mutuellement exclusives :
i.

Donnes sur soi-mme dduites par soi-mme

Si un rpondant peut dduire linformation quil a donne, mais sil est seul pouvoir le faire, il ny a
donc pas de problme de divulgation. Il y a cependant perception dun problme si le rpondant a
limpression que dautres peuvent aussi dduire linformation, mme si ce nest pas le cas. Voil pourquoi

STATISTIQUE CANADA

DIFFUSION DES DONNES

293

les organismes statistiques devraient essayer dviter de divulguer des rsultats en une prsentation qui
permettrait cette occurrence.
ii.

Donnes dun rpondant dduites par un tiers

Quelquun peut, dans ce cas, dduire linformation dun rpondant. Ce problme le plus grave est lobjet
du contrle de la divulgation.
iii.

Donnes dun tiers sur soi dduites par soi-mme

Ce problme est particulier aux enqutes rpondants multiples lis entre eux. Une enqute sur les
enfants, par exemple, peut comprendre une section pour les parents, une pour les enseignants et une pour
les enfants. Si un pre peut sidentifier laide dun fichier de microdonnes, il peut dterminer quelles
rponses ont donn ses enfants ou les enseignants.
iv.

Constatation directe

La situation est possible si linformation confidentielle peut tre dduite en observant simplement une
case. Voici un exemple trs simple : un tableau affiche les revenus moyens par profession pour un secteur
donn. Si une profession comprend seulement une personne dans le secteur, son salaire est la moyenne.
Sil y en a deux, chaque personne peut utiliser la moyenne pour dduire linformation sur lautre (un cas
de divulgation rsiduelle).
v.

Divulgation rsiduelle

Il y a divulgation rsiduelle si dautres renseignements diffuss ou autrement disponibles permettent une


estimation prcise de linformation supprime. Si une composante dun total est supprime, par exemple,
il y a divulgation rsiduelle parce que la composante manquante peut tre estime en soustrayant les
autres composantes du total.
vi.

Divulgation exacte

Une personne peut, dans ce cas, dduire la valeur exacte de linformation confidentielle. Lexemple
donn au paragraphe de la constatation directe ci-dessus est un exemple de divulgation exacte.
vii.

Divulgation approximative

Dans ce cas, une personne ne peut dduire la valeur exacte de linformation confidentielle, mais elle peut
dterminer un intervalle qui pourrait fort probablement contenir la valeur confidentielle. Il y a divulgation
si lintervalle est suffisamment restreint pour causer ventuellement des actions prjudiciables au
rpondant. Si un fabricant domine, par exemple, la production totale dun certain produit (disons plus de
95 %), la diffusion dune estimation de la production totale de ce produit donne une estimation
approximative de la production de ce fabricant.

12.5.2 Techniques de non-divulgation


Les mthodes de restriction de laccs et de restriction des donnes sont deux approches de protection de
la confidentialit des donnes. Les mthodes de restriction de laccs empchent ou restreignent laccs
aux donnes, notamment comme suit : laccs un emplacement ou un serveur est limit au personnel
autoris, les fichiers sont protgs laide dun mot de passe ou du chiffrage, les donnes sont changes

STATISTIQUE CANADA

METHODES ET PRATIQUES DENQUTE

294

conformment aux modalits dun contrat de licence, etc. Ces mthodes ne sont pas considres dans ce
texte. Les mthodes de restriction des donnes protgent les donnes elles-mmes. Ces mthodes sont
classes en mthodes de rduction des donnes (c.--d. que linformation diffuse est rduite) et en
mthodes de perturbation des donnes (c.--d. que les donnes sont modifies).
Les techniques labores pour viter la divulgation varient selon le produit statistique, les trois produits
les plus habituels tant les tableaux de frquences (calculs ou calculs pondrs), les tableaux de donnes
quantitatives (pour les donnes quantitatives) et les fichiers de microdonnes grande diffusion. Les
techniques sont dcrites ci-dessous.
12.5.2.1 Protection des donnes des tableaux
Les cases dun tableau de donnes quantitatives donnent des valeurs numriques (habituellement non
ngatives), par exemple, les moyennes, les totaux des valeurs en dollars ou le nombre demploys. Ces
tableaux posent un risque de divulgation, en particulier lorsque les donnes sont tires dune enquteentreprise. tant donn le caractre asymtrique des donnes des entreprises, les donnes dune grande
entreprise ou deux peuvent dominer certaines cases et la divulgation des valeurs de ces cases peut donner
une estimation raisonnable des valeurs de ces importants rpondants. La premire tape est donc
lidentification des cases caractre dlicat (c.--d. les cases risque de divulgation). De nombreuses
rgles ont t labores pour identifier les cases caractre dlicat. Voici quelques exemples de rgles qui
dfinissent une case caractre dlicat dans un tableau de donnes quantitatives :
i.

Rgles de la limite

Il doit y avoir un nombre minimal de rpondants dans une case (p. ex., au moins trois rpondants). Sous
ce seuil, elle devient une case caractre dlicat.
ii.

La rgle (n,k)

Une case est considre caractre dlicat si trop peu de rpondants englobent une trop grande partie du
total de la case, c.--d. si les n plus importants rpondants reprsentent au moins k % de la valeur totale de
la case. Selon la rgle (2,90), si les deux plus importants rpondants reprsentent plus de 90 % du total de
la case, il sagit dune case caractre dlicat.
iii.

La rgle p-pour cent

Nous avons une case caractre dlicat si sa diffusion permetait quelquun destimer la contribution
dun rpondant moins de p-pour cent de sa valeur. Le risque devient maximal si le deuxime plus
important rpondant de la case essaie destimer la contribution du plus important rpondant en
soustrayant sa propre valeur du total diffus. Supposons que la case comprend m rpondants, la
divulgation est quivalente si : x3 + ... + x m < ( p / 100) x1 , o x1 est la valeur du plus important rpondant,
x3 est la valeur du troisime rpondant par ordre dimportance, etc.

Les rgles (n,k) et p-pour cent sont deux exemples de rgles appliques pour identifier les cases o
dominent une ou deux grandes units. Ce ne sont pas les seuls choix de rgles disponibles, il y en a
dautres. Les rgles de Duffett sont parfois appliques Statistique Canada. Les rgles de Duffett sont des
ensembles de rgles (n,k) et le nombre dunits dans la case dtermine les paramtres. Peu importe la ou
les rgle(s) applique(s), il vaut gnralement mieux garder confidentielles les valeurs de leurs
paramtres.

STATISTIQUE CANADA

DIFFUSION DES DONNES

295

Les cases dun tableau de frquences donnent le nombre rel ou estim dunits ayant les caractristiques
de la case. Les tableaux de frquences peuvent poser un risque de divulgation lorsquils rvlent les
caractristiques dun rpondant. Nous avons mentionn auparavant que le risque de divulgation
dattributs est le plus grand dans le cas dun recensement ou des donnes administratives, mme si les
donnes dun chantillon peuvent poser des risques de divulgation lorsque les units de lchantillon des
participants lenqute sont connues (p. ex., les autres membres du mnage). Trois problmes ventuels
sont les cases pleines, les cases dont le total est zro et les cases de faibles frquences.
Une case est pleine lorsquune seule catgorie de rponse englobe tous les rpondants, par exemple,
lorsquune seule case dune ligne ou dune colonne a une valeur diffrente de zro. Les cases pleines
posent un risque de divulgation si elles permettent dobtenir de linformation confidentielle sur une souspopulation. Un tableau peut rvler, par exemple, que tout le personnel de soutien dune institution a un
diplme dtudes secondaires la case scolarit. Si un tableau de rpartition des revenus les englobe
sans exception dans la tranche 20 000 $ 29 999 $ , linformation sur la rmunration est alors
divulgue.
Les cases de valeur zro, c.--d. les cases sans unit ou dont le total est zro, peuvent aussi poser un
risque de divulgation pour des raisons semblables celles des cases pleines (ces dernires sont le rsultat
des cases de valeur zro). Le tableau ci-dessus peut rvler, par exemple, que le personnel de soutien est
rparti en deux catgories de scolarit seulement : tudes inacheves et diplme dtudes
secondaires . Un tableau de rpartition des revenus dans un tablissement dont les employs sont diviss
en trois catgories de revenu : de 20 000 $ 29 999 $ , de 30 000 $ 39 999 et de 90 000 $
99 999 $ peut donner une bonne estimation de la rmunration des ingnieurs de ltablissement (la
dernire tranche).
Les cases de faibles frquences comptent peu de rpondants, p. ex., moins de trois ou cinq. Les cases de
faibles frquences peuvent poser un risque de divulgation si elles permettent lidentification de leurs
rpondants et rvlent certaines de leurs caractristiques. Un tableau de frquences dun recensement dans
un secteur restreint qui affiche, par exemple, deux mnages monoparentaux dont le chef est un divorc
peut identifier ces mnages. Les caractristiques supplmentaires rvles sur les membres de la case
peuvent constituer une divulgation dattributs. Les cases de faible valeur posent un autre problme : elles
peuvent donner limpression quil y a eu divulgation, mme si ce nest pas le cas. Sil est rvl, par
exemple, quil y a eu seulement un nouveau cas de cancer du clon dtect lle-du-Prince-douard en
2001, la situation ne rvle quand mme rien sur lintress.
Il y a plusieurs moyens de traiter les cases caractre dlicat.
1. Les mthodes de rduction des donnes comprennent les suivantes :
i.

Regroupement de cases

Il sagit de regrouper les catgories pour augmenter le nombre dentres par case (p. ex., rduire le niveau
de dtails fournis dans la branche dactivit). Cette mthode simple peut rduire de beaucoup
linformation en supprimant les dtails des donnes.
ii.

Suppression de cases

Lorsque les cases caractre dlicat sont supprimes, il faut habituellement supprimer des cases sans
caractre dlicat pour viter que les valeurs des cases caractre dlicat soient dduites du total marginal.
Ces autres cases sont intitules cases de suppression complmentaire et il y a de nombreuses rgles pour
choisir lesquelles supprimer. Le genre de variable et le degr de protection voulu dterminent le choix des

STATISTIQUE CANADA

METHODES ET PRATIQUES DENQUTE

296

rgles appliquer une case en particulier. La suppression complmentaire de cases peut tre optimise
en minimisant le nombre de cases supprimes, la somme des valeurs des cases supprimes et le nombre de
rpondants supprims, ou en appliquant une mthode qui se traduit par un compromis entre ces besoins.
Dautres rgles peuvent tre appliques, par exemple, la prfrence peut tre accorde lidentification de
suppressions complmentaires dans le mme regroupement de branches dactivit.
2. Voici certaines mthodes de perturbation des donnes :
i.

Arrondissement dterministe

Les donnes dune case sont arrondies selon une rgle dterministe (p. ex., arrondies la baisse au
multiple de 10 prcdent si le dernier chiffre de lunit est infrieur cinq et arrondi la hausse
autrement). Cette mesure peut cependant donner un biais et lquivalence entre les valeurs arrondies et les
totaux marginaux arrondis peut tre rompue.
ii.

Arrondissement alatoire

Lorientation de larrondissement est dtermine au hasard. Cette mthode offre une meilleure protection
que larrondissement dterministe, la mme base darrondissement tant utilise, parce quil est plus
difficile destimer la valeur originale. De plus, il ny pas de biais, mais le maintien des totaux marginaux
peut aussi tre rompu.
iii.

Arrondissement alatoire contrl

Larrondissement alatoire contrl permet de conserver les marges agrges dfinies davance.
Lapplication de cette mthode aux tableaux multidimensionnels nest pas une mince affaire. Il est
possible de trouver des solutions pour les tableaux trois dimensions au plus, mais il ny en na pas pour
les tableaux ayant davantage de dimensions.
iv.

Ajout dinterfrences

On peut ajouter des interfrences alatoires aux rsultats des tableaux pour susciter davantage
dincertitude et diminuer le risque de divulgation.
v.

Mthodes de contrle de la divulgation des microdonnes (voir la section suivante).

Aprs avoir appliquer des mthodes de contrle de la divulgation un fichier de microdonnes, on peut
ensuite procder en toute scurit toutes les totalisations partir de ce fichier.
Lorsque de multiples tableaux sont produits partir de la mme enqute, la protection de la
confidentialit ne peut se faire indpendamment pour chaque tableau parce que la combinaison de
linformation de diffrents tableaux peut dboucher sur la divulgation. Idalement, il faut donc appliquer
les techniques dcrites ci-dessus en considrant les tableaux dj publis et ceux qui ne le sont pas encore.
Les totalisations devraient tre dfinies davance le plus tt possible pour les tableaux de donnes
quantitatives parce que la protection des tableaux spciaux est particulirement difficile. La combinaison
de centaines de tableaux peut facilement donner des milliers ou des dizaines de milliers de cases et
lautomatisation est donc ncessaire.
Si lenqute est ritre rgulirement, il faut laborer avec une attention toute particulire une
caractristique de suppression appliquer la srie complte. Cependant, aprs un certain nombre de

STATISTIQUE CANADA

DIFFUSION DES DONNES

297

rptitions, la suppression dune case ou dun enregistrement peut devenir facultative (p. ex., la taille
dune case peut grossir jusqu ce quelle perde son caractre dlicat). Le contraire est aussi possible.
12.5.2.2 Protection des fichiers de microdonnes grande diffusion

Les fichiers de microdonnes grande diffusion, qui contiennent des enregistrements individuels, sont
diffuss parce quils permettent aux utilisateurs de procder des analyses des donnes de lenqute qui
sont difficiles faire partir des rsultats des tableaux. Les fichiers de microdonnes grande diffusion
ont un caractre trs dlicat et il faut en considrer la confidentialit de prs avant la diffusion pour viter
de rvler lidentit des rpondants. La divulgation des fichiers grande diffusion cible habituellement les
donnes tires de lchantillon seulement parce que le risque didentification des rpondants augmente
avec le taux dchantillonnage (dans le cas dun recensement, un fichier grande diffusion peut tre
divulgu pour un chantillon de rpondants). Il y a habituellement des identificateurs directs ou
personnels au fichier principal de lenqute qui peuvent seuls identifier un particulier (p. ex., nom,
adresse, numro didentification). Il faut les liminer. Il y a aussi des identificateurs indirects, des
variables qui peuvent servir identifier les rpondants (p. ex., secteur gographique, ge, profession, race,
ou mme revenu dans certains cas).
Les identificateurs indirects dun fichier grande diffusion sont examins pour dterminer sils peuvent
servir identifier les rpondants. Voici certaines vrifications :
i.

Vrification des identificateurs indirects pour les enregistrements uniques.

On peut chercher, par exemple, des particuliers ayant des revenus trs levs ou des tailles de mnage
exceptionnelles.
ii.

Analyse des tableaux didentificateurs indirects deux et trois dimensions (p. ex., ge, sexe,
scolarit, etc.).

On peut tudier, par exemple, les tableaux dge par sexe par degr de scolarit et y chercher les
combinaisons uniques (p. ex., une personne trs ge qui a toujours un emploi).
Dautres vrifications peuvent tre faites selon le genre denqute (structure de la population, plan
dchantillonnage, collecte ou utilisation des donnes, ). Linformation sur le plan dchantillonnage et
les pondrations de lenqute sont examines, par exemple, pour vrifier si elles rvlent des
renseignements caractre dlicat sur le secteur gographique des units de lchantillon. Si les donnes
de lenqute sont hirarchiques (p. ex., mnage-personne), les liens entre les units sont alors examins
(p. ex., recherche de combinaisons rares dges des conjoints). Si les donnes sont tires dune source
administrative, la probabilit de nouer avec succs des liens entre les enregistrements des fichiers
grande diffusion et la base de donnes administratives est examine, etc.
Plusieurs mthodes sont disponibles pour rduire les risques de divulgation. Les mthodes ont toutes un
cot du point de vue de lutilit analytique des donnes obtenues. Il faut appliquer les mthodes avec
prudence pour maintenir le plus possible la valeur analytique des donnes (p. ex., corrlations et
moyennes des variables).
1. Les mthodes de rduction des donnes comprennent les suivantes :
i.

Suppression des identificateurs directs (il faudrait toujours le faire).

STATISTIQUE CANADA

METHODES ET PRATIQUES DENQUTE

298

ii.

Suppression des variables des identificateurs indirects qui accroissent le risque de divulgation
(p. ex., pays dorigine, questions sur les troubles de la vue).

iii.

Suppression denregistrements individuels (p. ex., pour une personnalit bien connue).

iv.

Suppression de donnes individuelles dun enregistrement en particulier (p. ex., une appartenance
ethnique trs rare dans une rgion en particulier).

v.

Nouveau codage des donnes :

rduction des dtails gographiques, linformation gographique peut augmenter normment le


risque de divulgation et elle devrait tre ajoute seulement des niveaux trs agrgs,

donnes tronques par le haut et par le bas (p. ex., les revenus suprieurs 100 000 $ pourraient
tre tronqus par le haut 100 000 $),

variables quantitatives rparties en catgorie, par exemple, lge ou le revenu,

variables catgoriques agrges davantage.

vi.

chantillonnage du fichier de microdonnes

On construit un sous-chantillon des donnes de lenqute (et on ajuste conformment les pondrations
dchantillonnage). Cette mesure sert susciter lincertitude pour les units de lchantillon qui ont des
caractristiques uniques. Il sagit dune prcaution ncessaire si le fichier original est un recensement.
vii.

Enregistrements microagrgs

La microagrgation est le regroupement denregistrements, par exemple trois la fois, et le remplacement


des valeurs des variables quantitatives par les valeurs moyennes des groupes. Les variables catgoriques
peuvent servir dfinir les groupes dunits semblables.
2. Les mthodes de perturbation des donnes comprennent les suivantes :
i.

Arrondissement des microdonnes et ajouts dinterfrences

On peut faire larrondissement dterministe ou alatoire des donnes, par exemple, ou ajoute aux valeurs
des donnes des interfrences alatoires normalement distribues.
ii.

change de donnes

Des enregistrements correspondants un chantillon denregistrements de microdonnes sont identifis


selon un ensemble dtermin de variables et les valeurs dautres variables sont changes entre les
enregistrements correspondants. Lchange de donnes peut servir changer des variables
didentificateurs indirects ou des variables caractre ventuellement dlicat. Il peut tre possible de
slectionner un petit chantillon denregistrements de microdonnes, par exemple, et les valeurs de leurs
revenus pourraient tre changes avec des enregistrements qui ont des valeurs similaires pour la
gographie, lge et le sexe. Cette technique peut cependant avoir des rpercussions sur lanalyse de la
corrlation.

STATISTIQUE CANADA

DIFFUSION DES DONNES

iii.

299

Suppression de linformation et remplacement par des donnes imputes

On peut remplacer les valeurs dclares par des valeurs moyennes, par exemple, pour des petites
populations.
Si des bases de donnes externes, par exemple des fichiers de donnes administratives, et lenqute ont
des variables communes, les utilisateurs peuvent essayer de nouer des liens entre leurs donnes et le
fichier de donnes grande diffusion. Il faut accrotre dans ces cas la porte de la perturbation.

12.5.3 Autres considrations sur la confidentialit


Lquilibre entre le besoin dinformation pour utilisation publique et la ncessit de protger les
renseignements confidentiels des units de lchantillon est lun des dfis que doit relever un organisme
statistique. Celui-ci fait appel la bonne volont des rpondants, leur gnrosit et lutilisation de leur
temps non rmunr, et un contrat implicite est donc convenu avec les rpondants. Lorganisme
statistique doit considrer quatre lments pendant la planification dune enqute pour respecter ce contrat
implicite :
i.

Lintrusion dans la vie prive devrait tre vite. La socit a-t-elle vraiment besoin de
linformation? Est-il possible de trouver linformation sans la demander aux particuliers? Une
taille dchantillon infrieure convient-elle?

ii.

Il ne doit y avoir aucun risque de prjudice indirect pour le rpondant. Les particuliers qui
rpondent aux questions peuvent-ils tre ventuellement en danger? Au cours dune enqute sur
la violence dans les mnages, par exemple, le perscuteur peut entendre le rpondant pendant
linterview et le blesser aprs le dpart de lintervieweur.

iii.

Il faudrait garantir la confidentialit aux rpondants. Ils devraient tre informs que toute
linformation sera diffuse dans le grand public en une mise en forme qui empchera la
divulgation de linformation personnelle leur sujet.

iv.

Les rpondants peuvent donc donner leur consentement inform (c.--d. quils comprennent
quoi serviront les donnes et quils sont daccord). Il faut donc les informer des points suivants :
- lobjectif de lenqute (y compris les utilisations et les utilisateurs prvus des donnes de
lenqute),
- le pouvoir (loi) qui autorise la collecte des donnes,
- les dtails sur lenregistrement de la collecte (pour suivi),
- le caractre obligatoire ou volontaire de lenqute,
- la protection de la confidentialit,
- les plans de liaison des donnes avec dautres fichiers,
- lidentit des parties toute entente dchange de linformation.

Ces conditions sont essentielles pour obtenir de linformation fiable des rpondants. Afin de garantir que
les rpondants donnent leur consentement inform, lorganisme statistique devrait appliquer une politique
uniforme pour renseigner les rpondants sur la ncessit de lenqute et sur leurs droits et responsabilits.
Linformation demande en vertu de cette politique doit tre rdige sur support papier pour toutes les
enqutes, et communique aux rpondants au moment de la collecte ou avant. Sil sagit dune enqute
tlphonique sans matriel de prsentation, linformation doit tre communique de vive voix et envoye
par crit sur demande. (Voir le Chapitre 5 - Conception du questionnaire qui donne linformation
ajouter au questionnaire.)

STATISTIQUE CANADA

300

METHODES ET PRATIQUES DENQUTE

Voici des considrations supplmentaires sur la confidentialit :


a. Il faut protger les questionnaires pendant la collecte, leur acheminement, la sauvegarde et
lextraction des donnes.
b. Les intervieweurs ne devraient pas interviewer en public (parcs, restaurants, etc.) parce que dautres
pourraient entendre les rponses. Il faut viter dinterviewer sur des sujets caractre dlicat lorsque
dautres peuvent entendre.
c. Des particuliers sont slectionns partir dune liste pour certaines enqutes et une procdure de
reprage est applique si la personne a dmnag. Les intervieweurs doivent tre conscients du risque
de divulgation durant le reprage (au cours dune enqute de suivi qui cible les rpondants atteints
dasthme, par exemple, seul le rpondant doit tre inform de la raison du suivi).
d. Les moyens de communication lectronique, par exemple les tlphones sans fil, les tlphones
cellulaires et lInternet, utilisent une longueur donde publique et toute linformation communique
par ces moyens est accessible tous ceux qui sen donnent la peine. Il faudrait donc viter de
transmettre linformation confidentielle par ces moyens, sauf aprs chiffrage scuritaire. Il faudrait
informer les rpondants qui utilisent ces tlphones sans fil ou cellulaires pendant une interview que
ce moyen pose un risque et leur demander dutiliser un tlphone filaire si possible. Les rponses aux
enqutes faites sur Internet devraient tre chiffres. La majorit des programmes de courrier
lectronique et des navigateurs de la toile (Web) ont une capacit de chiffrage.
e. Aprs la compilation des donnes en mise en forme lisible la machine et lorsque le traitement est
achev, le questionnaire devrait tre dtruit (dchiquet, brl, etc.), si cette mesure est conforme la
politique de lorganisme statistique sur la confidentialit.

12.6 Sommaire
Lvaluation et la diffusion des donnes sont des tapes trs importantes dune enqute. Lobjectif est de
communiquer linformation aux utilisateurs pour quils soient en mesure de comprendre les rsultats de
lenqute et de prendre des dcisions. Pendant lvaluation des donnes, il faudrait valuer les rsultats
dfinitifs, compte tenu des objectifs originaux de lenqute. Ils devraient indiquer les points forts et les
points faibles de lenqute pour que les utilisateurs dterminent quel point les erreurs dans les donnes
en restreignent lutilisation.
Les mthodes de diffusion comprennent les rapports sur support papier avec tableaux et graphiques, un
fichier de microdonnes grande diffusion, ou les deux. Avant la diffusion des rsultats (ou donnes) de
lenqute cependant, il faut en faire une mise lessai approfondie pour vrifier le respect de la
confidentialit des rpondants.

Bibliographie
Ardilly, P. 1994. Les Techniques de sondage. Editions Technip, Paris.
Boudreau, J.R. 1996. valuation et rduction du risque de divulgation dans les fichiers de microdonnes
variables discrtes. Symposium 95: Des donnes linformation : mthodes et systmes : recueil..
Statistique Canada. 155-168.

STATISTIQUE CANADA

DIFFUSION DES DONNES

301

Brogan, D.J. 1998. Pitfalls of Using Standard Statistical Software Packages for Sample Survey Data.
Encyclopedia of Biostatistics. John Wiley and Sons, New York.
Brackstone, G. 1999. La gestion de la qualit des donnes dans un bureau de Statistique. Techniques
denqute, 25(2): 159-172.
Carlson, B.L., A.E. Johnson, and S.B. Cohen. 1993. An Evaluation of the Use of Personal Computers for
Variance Estimation with Complex Survey Data. Journal of Official Statistics, 9(4): 795-814.
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.
Doyle, P., Lane, J.I., Theeuwes, J.M. et L.V. Zayatz, ds. 2001. Confidentiality, Disclosure, and Data
Access Theory and Practical Applications for Statistical Agencies. North-Holland.
Dufour, J. 1996. Labour Force Survey Data Quality. Statistics Canada. HSMD-96-002E/F.
Ehrenberg, A.S.C. 1982. A Primer in Data Reduction An Introductory Statistics Textbook. John Wiley
and Sons, Great Britain.
Everitt, B.S. 1998. The Cambridge Dictionary of Statistics. Cambridge University Press. United
Kingdom.
Fink, A. et J. Kosecoff. 1998. How to Conduct Surveys: a Step-by-Step Guide. Sage Publications,
California.
Freund, J.E. et R.E. Walpole. 1987. Mathematical Statistics. Fourth edition. Prentice Hall, New Jersey.
Groves, R.M. 1989. Survey Errors and Survey Costs. John Wiley and Sons, New York.
Johnson, S., N.L. Kotz et C.B. Read. 1982. Encyclopedia of Statistical Sciences. John Wiley and Sons,
Toronto.
Levy, P.S. et S. Lemeshow. 1999. Sampling of Population: Methods and Applications. Third edition.
John Wiley and Sons, New York.
Lohr, S. 1999. Sampling: Design and Analysis. Duxbury Press, U.S.A.
MacNeill, I.B. et G.J. Humphrey, ds. 1987. Applied Probability, Statistics and Sampling Theory. Reidel,
Boston.
Mendenhall, W. 1991. Introduction to Probability and Statistics. Eighth edition. PWS-Kent Press,
Boston.
Mood, A.M., F.A. Graybill et D.C. Boes. 1974. Introduction to the Theory of Statistics. Third edition,
McGraw-Hill Series in Probability and Statistics, McGraw-Hill, U.S.A.
Travaux publics et services gouvernementaux Canada, Bureau de la traduction, 1996. Le Guide du
rdacteur. Ottawa.
Schackis, D. 1993. Manual for Disclosure Control. Eurostat, Luxembourg.

STATISTIQUE CANADA

302

METHODES ET PRATIQUES DENQUTE

Steel, R.G.D. et J.H. Torrie. 1980. Principles and Procedures of Statistics A Biometrical Approach,
Second edition. McGraw-Hill, U.S.A.
Statistique Canada. 1993. Normes et lignes directrices pour la dclaration des taux de rponse.
Statistique Canada. 2000. Politique visant informer les utilisateurs sur la qualit et la mthodologie.
Manuel des politiques, Politique 2.3
Willenborg, L. et T. de Wall. 1996. Statistical Disclosure Control in Practice. Lecture Notes in Statistics
111. Springer-Verlag, New York.
Willenborg, L. et T. de Wall. 2001. Elements of Statistical Disclosure Control. Lecture Notes in Statistics
155. Springer-Verlag, New York.
Wilson, J.R. et M. Reiser. 1993. Transforming Hypotheses for Test of Homogeneity in Survey Data.
Journal of Official Statistics, 9(4): 815-824.

STATISTIQUE CANADA

303

Chapitre 13 - Planification et gestion de lenqute


13.0 Introduction
La planification et la gestion dune enqute sont essentielles son succs. Il est impossible de bien
comprendre le but atteindre et les moyens dy parvenir sans structure de gestion claire et efficace. De
nombreuses structures peuvent tre appliques la gestion dune enqute. Une structure souvent utilise est
lapproche par quipe de projet ou denqute. La planification, la conception, la mise en uvre et lvaluation
dune enqute et de ses rsultats prvus sont confis une quipe interdisciplinaire. Celle-ci est forme de
personnes exerant les divers mtiers ncessaires la planification et la mise en uvre de lenqute. Tous
les membres de lquipe de lenqute se chargent de la planification, de la gestion et de la coordination des
activits dans leur domaine dexpertise et de responsabilit, et ils coordonnent ces activits avec toutes les
autres activits de lenqute.
La planification et la gestion sont les activits cls qui permettent datteindre les objectifs de lenqute. La
planification dtermine la stratgie que lorganisme statistique applique pour atteindre les objectifs de
lenqute. ltape de la planification dune activit statistique ventuelle, les exigences du client, les
moyens consacrer pour rpondre ces exigences et la satisfaction recherche font lobjet dun examen (voir
le Chapitre 2 - Formulation de lnonc des objectifs). Les besoins de financement et de ressources, ainsi
que lchancier des activits, sont aussi dtermins ltape de la planification. Une tape de planification de
la qualit est essentielle si lon veut dterminer la qualit et le cot du projet dans lensemble. Une certaine
planification continue pendant presque tout le cycle de lenqute et elle prend fin seulement lorsque les
donnes dfinitives demandes ont t livres la satisfaction de lutilisateur.
Une bonne planification exige une bonne gestion et des intervenants informs et chevronns. Peu importe la
structure de gestion utilise, il faudrait nommer un charg denqute et lui confier le bon fonctionnement de
tous les aspects de lactivit denqute. Ce charg denqute devrait rendre compte la direction,
habituellement un Comit directeur qui donne orientation et conseils. Les principales fonctions de gestion
comprennent lorganisation, lorientation, la surveillance et le contrle de lenqute.
Lobjectif de ce chapitre est de considrer comment planifier une enqute, laccent tant mis sur lapproche de
lquipe de lenqute. Une liste de vrification des activits ou mthodes qui devraient tre considres
pendant la planification (voir la Liste de vrification de la planification) est ajoute la fin du chapitre.

13.1 Approches de la planification et de la gestion de lenqute


Les questions lmentaires considrer lors de la planification et de la gestion dune enqute dans un
organisme statistique ressemblent beaucoup aux questions qui se posent pour tout projet dans tout organisme,
c.--d. comment identifier clairement les besoins, les communiquer efficacement et y rpondre le plus
rapidement possible, dans les limites du budget et en obtenant la meilleure qualit possible conformment aux
besoins et prix raisonnable? Les particularits sont trs diffrentes, mais les lments communs essentiels
qui permettent datteindre les objectifs de tout projet sont les mmes : communication, connaissances,
aptitudes, engagement, efficience et efficacit.
Les ressources disponibles dans lorganisme statistique, son organisation fonctionnelle, la rpartition des
responsabilits dans lorganisme et dans le systme de la statistique nationale dterminent en partie le style et
le genre de planification et de gestion dune enqute. Il faut prvoir lorganisation en tenant compte des
responsabilits, de la culture et des pratiques oprationnelles de lorganisme statistique, des bureaux de la

STATISTIQUE CANADA

304

MTHODES ET PRATIQUES DENQUTE

statistique provinciale, de lorganisation statistique dans lensemble au pays tous les chelons et des groupes
professionnels pertinents.
Une quipe de projet est une structure efficace habituellement utilise pour la planification et la gestion dune
enqute. Lengagement de la direction et des intervenants appropris permet lquipe de lenqute de mettre
en commun des connaissances et des aptitudes, dinciter lengagement, de simplifier et damliorer la
communication, et de donner loccasion daccentuer lefficience et lefficacit. Dautres structures ou
approches sont possibles et peuvent tre ncessaires dans certaines situations. Si la structure de lquipe du
projet nest pas explicitement applique cependant, il faut insister et compter davantage sur des spcifications
prcisment rdiges comme moyen de communication, mais elles laissent peu de place la modification. Il
faut aussi mettre davantage laccent sur les aptitudes particulires des participants, mais il y a moins
doccasions de surveillance et de contrle efficaces.

13.1.1 Lquipe de lenqute


Une quipe denqute interdisciplinaire est souvent charge de la planification, de la conception, de la mise en
uvre et de lvaluation de lenqute et de ses produits prvus. Elle est compose de membres ayant
diffrentes aptitudes techniques ncessaires pour planifier lenqute et la mettre en uvre. Tous les membres
de lquipe de lenqute se chargent de la planification, de la gestion et de la coordination dactivits dans
leur domaine dexpertise et de responsabilit. Ils coordonnent aussi ces activits avec toutes les autres
activits de lenqute. Chaque membre de lquipe a ses responsabilits particulires, mais tous sont chargs
datteindre les objectifs de lenqute. Chacun examine les propositions, plans, budgets, options, stratgies et
principaux instruments ou spcifications qui font ensuite lobjet dune discussion en quipe pour dterminer
le meilleur moyen de procder. Chaque membre dquipe de la plupart des enqutes obtient le soutien
dautres membres du personnel qui sont confies des activits accomplir au nom de lquipe. Dautre part,
chaque unit organisationnelle engage dans une enqute na pas besoin dtre directement reprsente
lquipe de lenqute. Il nest pas ncessaire de reprsenter lquipe du projet, par exemple, les services de
logistique, dimprimerie, de saisie des donnes ou dadministration.
Lquipe de lenqute nest pas un comit ou un ensemble de particuliers ayant chacun un objectif et un
programme distinct. Cest un groupe de personnes qui travaillent ensemble et qui collaborent un seul projet.
Exception faite du charg de projet, il ne devrait pas y avoir de hirarchie dans lquipe, seulement des
interventions. La communication, la solution de problmes et la rponse des questions avec efficacit, ainsi
que le soutien de linnovation, de lefficience, de lengagement et de la qualit, sont les caractristiques
cibles de lapproche en quipe. La discussion ouverte et constante, des commentaires constructifs, une
rtroaction positive, la souplesse et une disposition considrer toutes les exigences et les questions, et tous
les points de vue, sont des lments essentiels. Lquipe doit aussi tre minutieuse, rflchie, autonome et
dtermine. Les questions, problmes et diffrends doivent tre rsolus correctement, sans quivoque, au
moment opportun, les propositions doivent tre considres de la mme manire, et il faut bien comprendre
les rpercussions des dcisions.
Les quipes denqute sont habituellement composes dun charg denqute, dun expert de la matire
ltude, dun statisticien denqute, dun analyste des systmes informatiques et dun spcialiste des
oprations et de la collecte des donnes.

STATISTIQUE CANADA

PLANIFICATION ET GESTION DE LENQUTE

i.

305

Charg denqute

La gestion de lenqute est confie au charg denqute. Il ou elle veille ce que chacun se conforme aux
objectifs, au budget et lchancier. Le charg denqute doit habituellement dterminer les ressources
ncessaires lenqute, tracer un plan prliminaire, coordonner la prparation et la mise jour du plan,
prparer le budget et surveiller lutilisation des ressources et ltat davancement. Il tablit aussi la liaison
avec la direction et le client, et leur fait rapport sur ltat davancement. Il veille au respect des engagements
envers les dispositions rglementaires, lgislatives et juridiques du Bureau, et lapplication de ses politiques,
normes, lignes directrices et rglements. Le charg denqute prside les runions de lquipe et y reprsente
le client, peu importe ses relations fonctionnelles ou organisationnelles avec ce client.
ii.

Coordonnateur de la matire

Le coordonnateur de la matire est charg du contenu de lenqute. Sil y a plus dun domaine ltude
(p. ex., une enqute visant tudier les donnes sur la dmographie, la scolarit, la population active et le
revenu), le coordonnateur se charge des activits et des entres de ceux qui participent la matire, mais qui
ne sont pas membres de lquipe de lenqute. Il ou elle veille ce que la matire soit clairement et
correctement reprsente, ce que les utilisations des donnes prvues soient videntes dans lnonc des
objectifs, ainsi qu la conception et la mise en uvre, par lintermdiaire de discussions avec le client et
lquipe. Le coordonnateur de la matire se charge en particulier de la prparation des dfinitions et des
concepts, de la collecte et de lanalyse des donnes chronologiques pertinentes (pour la planification et
llaboration), de llaboration de la matire et de la mise lessai du questionnaire, de la prparation de toute
matire qui exige la collecte des donnes et des spcifications de traitement, de la conception des sorties
statistiques, de llaboration et de lapplication de lanalyse des donnes, et de la prparation du texte
analytique, ou il coordonne ces activits. Il coordonne aussi la validation ou lattestation des rsultats de
lenqute et donne son expertise en la matire pour lvaluation de la qualit des donnes et la prparation de
la documentation pertinente la matire.
iii.

Coordonnateur de la mthodologie statistique

Un statisticien denqute chevronn (ou un spcialiste de la mthodologie) est charg dorienter et de


coordonner la conception et llaboration de la mthodologie statistique qui sera applique lenqute. Il ou
elle est charg(e) en particulier du plan dchantillonnage, de la pondration et de lestimation, de la
conception de mthodes de contrle qualitatif, de la conception et de mesures de lvaluation de la qualit des
donnes, de la conception de mcanismes ou de stratgies dimputation et de vrification, et des aspects
statistiques de la diffusion et de lanalyse des donnes. Le spcialiste des techniques denqute intervient
aussi titre de consultant et de conseiller auprs de tous les autres membres de lquipe sur les questions de
mthodologie statistique et garantit lapplication constante de mthodes statistiques efficientes et logiques.
iv.

Coordonnateur des systmes informatiques

Lanalyste des systmes est charg de la conception et de la mise au point de programmes et de systmes
informatiques, ainsi que de lidentification, lintgration et la modification des logiciels commerciaux ou de
ceux dj sur place qui sont ncessaires pour procder lenqute. Il ou elle veille ce que ces systmes
fonctionnent selon les spcifications dautres participants et membres de lquipe. Lanalyste des systmes
intervient aussi titre de consultant ou de conseiller auprs de tous les autres membres de lquipe de
lenqute sur des questions dinformatique et veille lapplication constante de mthodes efficientes,
vrifiables, compatibles et logiques pendant tout lexercice. Il coordonne aussi certains aspects du traitement
statistique (p. ex., vrification et imputation, pondration et estimation, tabulation), ou en garantit la mise en
uvre efficace, compte tenu de lintervention du charg des oprations.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

306

v.

Charg des oprations et de la collecte des donnes

Le charg des oprations et de la collecte des donnes veille llaboration de la collecte des donnes, la
saisie et au codage des spcifications et procdures. Il est aussi charg de la planification et de la coordination
du recrutement, de la formation, de la surveillance et du contrle du personnel de la collecte des donnes,
notamment les intervieweurs et les surveillants, ainsi que du personnel de codage et de saisie des donnes, le
cas chant. Ses responsabilits comprennent llaboration, la mise en uvre et la gestion des oprations de
collecte et des programmes de relations publiques, la prparation du matriel (p. ex., les manuels et les cartes)
et les besoins de soutien logistique. Il ou elle intervient titre de consultant et de conseiller auprs de tous les
autres membres de lquipe de lenqute sur des questions oprationnelles pertinentes son expertise et il
veille ce que les spcifications et exigences que dautres membres de lquipe ont labores, p. ex., les
spcifications sur la vrification et le suivi de lintervieweur, soient correctement intgres aux procdures.
Lintervention du charg des oprations peut englober la collecte sur place par lintermdiaire des bureaux
rgionaux, des oprations distinctes de saisie et de codage des donnes, ainsi que le droulement dactivits
oprationnelles manuelles ou automatises accomplies au Bureau central. Ces interventions peuvent tre
confies deux personnes pour les plus grands projets, un charg de la collecte des donnes et un charg du
traitement.
vi.

Autres membres

Un bon nombre de chargs de tches ou de coordonnateurs peuvent tre ncessaires pour les grands projets,
par exemple, un recensement de la population. Dans ce genre de projets, des chargs de tches distincts
peuvent tre affects aux communications ou la publicit, aux donnes dentre et de sortie gographiques
(lies la base de sondage, aux produits et variables gographiques) et aux rsultats de lenqute. Les grandes
enqutes ou les recensements peuvent aussi tre subdiviss en tches (p. ex., laboration et conception du
questionnaire, collecte des donnes, vrification et imputation) et en sous-tches particulires (p. ex., contrle
qualitatif de la collecte, codage, etc.). Une quipe est affecte chaque tche et sous-tche. Les
caractristiques des membres des quipes peuvent tre diffrentes, mais chaque quipe a un chef dquipe qui
fait rapport un chef lchelon suprieur de la structure de lquipe de lenqute.
La gestion a deux dimensions. Lquipe de lenqute donne une dimension, la gestion des ressources. Elle est
habituellement intitule gestion matricielle. Lorganisation fonctionnelle donne lautre, laide de la
prestation de services contrat ou de produits intermdiaires, de laffectation de membres de lquipe, de
lexamen technique et de la supervision de leur contribution lenqute.

13.1.2 Comits supplmentaires de planification et de gestion de lenqute


La structure de la gestion et de la planification exige plus quune quipe de projet ou denqute pour tre
efficace. Dans les grandes enqutes ou les groupes denqutes qui forment un programme statistique cohrent,
un certain nombre de comits peuvent servir orienter et conseiller.
i.

Un comit de gestion de lorganisme statistique (il peut avoir divers noms, p. ex., Comit stratgique)
veille ce que lenqute soit pertinente dans le contexte global du programme statistique de
lorganisme et ce que la gestion en soit efficace. Ce comit (ou un chef fonctionnel dun chelon
quivalent) approuve en dfinitive le lancement de lenqute, ainsi que la rpartition du budget et des
ressources de lenqute.

ii.

Un Comit directeur, compos dintervenants chargs dun groupe denqutes semblables, affecte
aux enqutes des services ou des ressources techniques ou spcialiss. Le Comit directeur approuve
lnonc des objectifs, lchancier, la rpartition des ressources dans les limites du budget approuv,

STATISTIQUE CANADA

PLANIFICATION ET GESTION DE LENQUTE

307

la matire dtaille, les sorties et la mthodologie. Il donne aussi lorientation gnrale et des conseils
lquipe de lenqute, surveille ltat davancement et rgle les problmes hors de la capacit de
solution de lquipe. Peu importe le commanditaire ultime de lenqute, le Comit directeur est
souvent considr comme le client pour lquipe du projet. Le charg denqute devrait tre membre
de ce comit ou lui faire rapport directement et assister aux runions. Si un ministre ou un organisme
externe finance lenqute, il peut tre utile quun reprsentant de cet organisme sige au comit.
iii.

Un comit spcialis donne des conseils et lorientation sur la matire, les concepts, les dfinitions et
les classifications. Ce comit coordonne les fonctions entre les programmes statistiques pour
promouvoir luniformit et les normes de la matire. En labsence dun tel comit, le coordonnateur
de la matire devrait nouer des liens avec ses collgues techniciens pour obtenir une orientation et un
contexte.

iv.

Dans certains cas, un comit consultatif ayant des membres rgionaux, provinciaux ou de divers
ministres peut donner des conseils sur des questions gnrales, priorits, matires, exigences des
utilisateurs et sorties particulires. Ce comit reflte lintrt dvolu des membres envers lenqute ou
ses rsultats. En labsence dun tel comit, le charg de projet et le coordonnateur de la matire
doivent garantir la liaison efficace avec les utilisateurs et les groupes qui peuvent avoir un intrt
dvolu envers lenqute.

v.

Un comit consultatif professionnel form dexperts autonomes ( lexterne) peut finalement donner
des conseils caractre technique et faire un examen constant des mthodes statistiques et des sorties.
En labsence dun tel comit, le spcialiste de la mthodologie denqute devrait demander des
conseils, et vrifier sil procde une recherche et des essais des mthodes appropris.

Ces comits peuvent servir ltape du processus de planification et de gestion. Leur engagement reflte et
concrtise le soutien du programme et dtermine la priorit de lenqute dans le programme statistique de
lorganisme dans lensemble. Voil qui garantit lengagement tous les paliers de la direction de lenqute et
laccs aux ressources spcialises ncessaires. Limportance de lenqute, la structure du systme statistique
national et les pratiques de gestion de lorganisme statistique dterminent le genre de structure des comits.
Lorganisation fonctionnelle et de linfrastructure de lorganisme statistique donne lquipe un soutien trs
vari. Lorganisation fonctionnelle devrait tre charge de la surveillance technique, de la conception et de
llaboration, c.--d. que les surveillants des secteurs fonctionnels examinent les contributions des subalternes
qui travaillent en quipe. Les membres de lquipe, pour leur part, devraient demander une orientation ou des
conseils techniques leur surveillant fonctionnel et aux collgues dans leur infrastructure. Le chef de lquipe
devrait tre en mesure de supposer que les entres obtenues pour son projet ont lapprobation et le soutien du
surveillant des membres (en supposant que lorganisation fonctionnelle prvoit la surveillance selon une
expertise technique ou professionnelle) ou refltent une certaine forme dvaluation et de soutien de la part
des pairs.
Lquipe devrait aussi demander de laide ou des services qui peuvent tre disponibles dans lorganisme,
p. ex., services et installations de collecte et de saisie des donnes, services informatiques, dimprimerie, de
communication publique ou avec les mdias, services et installations de formation, des services de liaison
interministrielle ou fdrale-provinciale, etc. Il serait inhabituel que lquipe se charge de tous ces aspects
dune enqute. Le surveillant ou chef fonctionnel noue des liens avec le membre appropri de lquipe de
lenqute et lui fait rapport sur des questions lies lenqute, mais la gestion de ces oprations se fait
habituellement dans lunit ou lorganisme fonctionnel.

STATISTIQUE CANADA

308

MTHODES ET PRATIQUES DENQUTE

13.1.3 Autres approches de la gestion


Lapproche de lquipe de lenqute est extrmement efficace pour llaboration de nouvelles enqutes et les
grandes modifications des plans denqute. Tous les organismes ne sont cependant pas en mesure de
fonctionner ainsi, en particulier pour les trs grands projets statistiques. Plusieurs variantes sont dcrites
ci-dessous :
i.

Grande enqute ou recensement

Si le projet est un recensement de la population ou si lorganisme statistique a peu de sources centralises ou


de centres dexpertise technique, la structure de lquipe de lenqute peut permettre seulement la gestion, et
non la gestion, la conception et la mise en uvre. Dans ces situations, lquipe de lenqute doit compter sur
plusieurs quipes de projets de composantes importantes, des quipes charges de tches et des quipes
charges de sous-tches pour procder la planification, la conception et la mise en uvre dtailles. Une
consquence probable de cette structure est que lquipe serait compose de chargs de projets de
composantes qui veilleraient en majeure partie la gestion dune srie doprations ou de modules de
lenqute globale (p. ex., la collecte des donnes). Les interventions des coordonnateurs des systmes
informatiques et spcialiss, et de la mthodologie statistique, pourraient tre accomplies seulement
lchelon du projet de composante ou de lquipe charge dune tche. Une perte de communication,
defficience et de qualit en serait le rsultat, mais cette perte doit tre value du point de vue des exigences
de contrle et de gestion efficaces. La perte ventuelle est beaucoup plus importante dans le cas dune
nouvelle enqute. Cette perte devrait tre moindre pour une enqute en cours, par exemple un recensement de
la population, sil y a une valuation suffisante et une longue priode dlaboration intercensitaire.
ii.

Fournisseur de comptences et de services lexterne

Si lorganisme na pas linfrastructure ou les installations techniques ncessaires pour tous les aspects de
lenqute, il devra obtenir ces comptences de sources externes, par exemple, laide dun contrat court
terme ou en impartissant les fonctions un organisme lexterne. Si lorganisme na pas le personnel ou les
installations appropries pour limpression des questionnaires et des manuels de lintervieweur, ou pour la
saisie des donnes, par exemple, il devra chercher des services lexterne pour accomplir ces activits. Les
intervenants du projet devront prparer les spcifications des fonctions ou services obtenir, et prciser les
conditions et attentes, et lentrepreneur devra les accepter. Lorganisme externe est ensuite charg de
lapplication de ces spcifications conformment aux modalits du contrat. Dans la majorit des enqutes,
certains volets sont impartis linterne (hors de lquipe du projet) ou des fournisseurs de services
lexterne.
Certaines enqutes nouvelles sont suffisamment simples du point de vue oprationnel pour que ses
intervenants appliquent des mthodes habituelles ou des tablissements commerciaux peuvent faire le travail
sans avoir vraiment besoin dun engagement direct avec lquipe de lenqute (par exemple, pour
limpression). Sil sagit de fonctions complexes, denqutes plus vastes et de recensements, limpartition
ajoute un risque et exige des contrles particuliers. Dans le cas dun organisme statistique national,
lentrepreneur lexterne peut tre un ministre, une institution, un organisme du secteur priv ou un
particulier. Il faut appliquer les rgles et rglements de lorganisme statistique, ainsi que ceux du
gouvernement, y compris les rgles et rglements des marchs publics et de limpartition. Lquipe du projet
doit vrifier attentivement si elle a accs la gestion interne, lexprience et aux connaissances
administratives et juridiques qui lui seront ncessaires. Il faut faire preuve dun empressement
proportionnellement appropri limportance et au risque lors de la slection de lentrepreneur, de la
prparation et de lapprobation des spcifications et exigences, de la surveillance et de la gestion de la mise en
uvre et de laccomplissement de ces activits.

STATISTIQUE CANADA

PLANIFICATION ET GESTION DE LENQUTE

iii.

309

Prestation de services particuliers au comit du projet

La planification et la gestion de certaines enqutes pourraient tre faites par lintermdiaire dun comit
directeur ou de projet et les participants llaboration, au plan denqute et sa mise en uvre pourraient
travailler distinctement par lintermdiaire des membres dsigns du comit qui nont pas dintervention en
quipe. Lenqute est habituellement un volet seulement du mandat du comit et ne fait pas directement partie
de son objectif. Les enqutes faites par un ministre qui nest pas un organisme statistique (mais lorganisme
peut apporter un certain soutien au plan denqute) sont souvent organises ainsi. Dans ces cas, le comit est
lintrieur du ministre daccueil. Les enqutes qui exigent des aptitudes spcialises la mesure et
lobservation directe (p. ex., les analyses du sang ou dautres mesures mdicales ou dentaires) peuvent aussi
fonctionner de cette faon.
iv.

Modification limite du plan denqute

Dans de nombreuses situations, le travail de conception englobe seulement une composante dune enqute en
cours, par exemple, la modification de la conception du questionnaire ou du plan dchantillonnage. Ces cas
sont souvent rgls sans avoir recours une quipe denqute, mme si de nombreux aspects de lenqute
peuvent exiger une mise jour ou une amlioration. Le temps et le cot expliquent habituellement pourquoi
lactivit est accomplie sans quipe denqute.
Dans tous ces cas, les diverses aptitudes et connaissances ncessaires pour planifier et faire lenqute ou
planifier et appliquer une composante en particulier sont obtenues contrat. La majorit des organismes
statistiques fonctionnent ainsi pour divers projets, par exemple, pour donner des services consultatifs des
ministres, afin quils procdent leurs propres enqutes uniques (par exemple, sur la satisfaction des
clients utilisateurs employs ou sur lopinion publique) ou des projets de modification partielle de la
conception ou du plan denqute.
Limpartition peut tre lapproche la plus rentable pour les composantes qui peuvent tre prcises
exactement si une unit organisationnelle ou un entrepreneur lexterne a les connaissances et les ressources
techniques ncessaires pour concevoir, laborer ou produire temps la composante demande. La
communication doit cependant tre efficace, et la capacit, les aptitudes, ltat davancement et le respect des
spcifications devront tre vidents.
v.

Le chef fonctionnel est le charg denqute

Dans certains cas, la majorit des comptences ncessaires sont disponibles dans lunit fonctionnelle qui a
lanc lenqute. Mme sil y a une distinction significative, le charg denqute est aussi le chef fonctionnel
de la majorit des participants, sinon tous. Lquipe des participants devrait nanmoins fonctionner comme
une quipe denqute dcrite ci-dessus. Nombre des attributs positifs de lquipe denqute, par exemple la
volont de collaboration, louverture desprit, la responsabilit partage, lautonomie et lobjectivit,
pourraient cependant se rvler peu ralistes. Les divers genres dexpriences et de connaissances peuvent
tre diffrents et les diffrences aux niveaux fonctionnels peuvent se traduire plus souvent en conflits. Les
participants hors du secteur fonctionnel peuvent avoir moins dinfluence, une cible de responsabilit plus
troite peut leur tre confie et ils peuvent avoir moins dinterventions en quipe.

13.2 Planification de lenqute


Il est vident, esprons-le, que diverses dcisions doivent tre prises pendant la prparation et la mise en
uvre du plan denqute pour garantir quelle atteint ses objectifs. Lenqute fait aussi partie dun systme
statistique plus large. Elle doit donc atteindre aussi des objectifs plus larges et respecter les exigences plus
STATISTIQUE CANADA

310

MTHODES ET PRATIQUES DENQUTE

grandes de lorganisme statistique, compte tenu notamment des mrites des objectifs de lenqute, du
programme et du mandat de lorganisme dans lensemble et du cot de loption de la production des donnes
ou des renseignements. Ces objectifs et exigences forment cinq ensembles lmentaires de critres quil faut
respecter lors de la planification, de la conception et de la mise en uvre de toute enqute ou projet
statistique.
i.

Les donnes de lenqute doivent tre aptes lutilisation .

Il ny a pas de dfinition communment accepte entre les organismes statistiques de ce qui constitue
laptitude lutilisation . On peut cependant valuer si les donnes de lenqute et linformation statistique
sont aptes lutilisation, selon les six caractristiques suivantes : pertinence, exactitude, actualit,
accessibilit, intelligibilit et cohrence (pour une dfinition de ces termes, voir lAnnexe B - Contrle
qualitatif et assurance de la qualit).
ii.

Il faut justifier le fardeau de rponse impos ou la raction probable du public.

Combien de temps faut-il pour remplir le questionnaire? Combien de temps faut-il au rpondant pour vrifier
ses dossiers et obtenir linformation dautres membres du mnage ou de lentreprise? quel point les
questions sont-elles indiscrtes? La priode de collecte de lenqute empitera-t-elle sur le travail du
rpondant (p. ex., faire une enqute en milieu rural pendant les semailles ou la rcolte)? Les dfinitions
lmentaires sont-elles diffrentes de celles dautres enqutes qui appliquent des concepts semblables? La
population a-t-elle trop souvent fait lobjet dune enqute auparavant? Lenqute nuira-t-elle la rputation de
lorganisme ou aura-t-elle des rpercussions ngatives sur dautres enqutes (p. ex., taux de rponse rduit
cause de la controverse ou parce que lenqute se droule simultanment une autre)? La valeur sociale
inhrente des donnes qui seront tires de lenqute justifiera-t-elle le fardeau de rponse et le cot de
lenqute, et sera-t-il possible de le dmontrer aux rpondants et au public?
iii.

Les rsultats diffuss de lenqute devraient reflter tous les rsultats valides.

Lanalyse de lorganisme statistique et la diffusion ne doivent pas tre limites au point de reflter, supposer
ou soutenir indment en fait une perspective, une intention, une conclusion ou un point de vue en particulier.
(Voil des rpercussions de la diffusion incomplte ou des rsultats analytiques limits qui ne sont pas
inhabituels et involontaires.) Les rsultats de lenqute ne devraient pas servir soutenir une perspective, un
point de vue ou une conclusion en particulier, sauf si dautres rsultats plausibles ou contraires, ou si dautres
conclusions ont t mis lessai ou rejets laide de vrifications et de preuves statistiques videntes. La
vraisemblance ou la fiabilit statistique de ces essais, ainsi que les rsultats ou les conclusions, doivent aussi
tre prsents clairement avec les rsultats.
iv.

Il faut respecter les exigences des politiques, rglements, procdures administratives, normes et
lignes directrices de lorganisme et du gouvernement, et appliquer des mthodes et pratiques
logiques.

Diverses rgles sappliquent au droulement dune enqute, partir de lautorisation officielle de la


collecte des donnes en particulier, jusqu lapplication de mthodes valides et efficientes du point de vue
statistique. Des mthodes et pratiques logiques sont ncessaires pour viter de gaspiller les ressources, pour
rpondre plus efficacement et de toute vidence aux critres d aptitude lutilisation et pour soutenir en
fait la rputation professionnelle de lorganisme.

STATISTIQUE CANADA

PLANIFICATION ET GESTION DE LENQUTE

v.

13.2.1

311

Une enqute qui rpond tous ces critres doit tre ralisable dans les limites du budget convenu et
approuv, laide des moyens et ressources disponibles.

tapes du plan denqute

La planification de lenqute devrait se drouler par phases dexactitude et de dtails croissants. ltape
prliminaire, ou tape de proposition de lenqute, seule la notion de faisabilit et les besoins de donnes de
lenqute les plus gnraux peuvent tre connus. En consultation avec les utilisateurs et le client, lquipe
prcise davantage les concepts analytiques et les besoins de donnes, et elle commence considrer le choix
de la base de sondage, la taille gnrale de lchantillon et la prcision ncessaires, les options de collecte des
donnes, lchancier et le cot. Elle se fait simultanment une ide des limites que le client imposera au cot
et lchancier, et elle en apprend davantage sur les ressources qui peuvent tre disponibles pour lenqute.
Les plans sont rviss, labors et peaufins, et des aspects plus dtaills sont examins pendant les tapes
ultrieures. Un certain genre de plan pour la conception, llaboration et la mise en uvre est ncessaire pour
chaque activit et opration. La planification continue quand mme. Il faut faire des ajustements et apporter
des modifications, et il peut tre ncessaire dtablir des mesures correctives et des plans durgence.
Une enqute ou un projet statistique passe par les cinq tapes de planification suivantes :
i.

formulation de la proposition denqute,

ii.

tablissement du plan denqute et dtermination de la faisabilit,

iii.

prparation de plans pour les composantes de lenqute,

iv.

touche finale apporte aux plans pendant la conception et llaboration,

v.

ajustement des plans et ajout pendant la mise en uvre et lvaluation.

13.2.1.1 Premire tape : proposition denqute


La premire tape de la planification dune enqute est le reprage dune lacune dinformation et la
prparation dune proposition denqute. Le passage dun besoin identifi une enqute exige dabord
lapprobation ou laccord pour procder la planification prliminaire. Les membres du Comit de direction
de lorganisme ou certains membres du Comit directeur affecteront probablement un charg denqute par
intrim qui donnera linformation initiale sur les solutions de rechange lenqute (p. ex., des donnes dune
autre enqute ou dune source administrative sont disponibles), le cot et la faisabilit de lenqute. Ltape
prliminaire de la modification dun plan denqute ou dune demande denqute dun organisme lexterne
serait semblable.
Il faudra peut-tre faire rapidement ces tudes initiales et le rsultat pourrait tre un peu superficiel. Lexamen
prliminaire devrait nanmoins tre ax sur la consultation avec des experts de diverses disciplines qui
participeraient probablement lquipe de lenqute ventuelle (mme si ces intervenants pourraient, en bout
de ligne, ne pas tre membres de lquipe relle de lenqute). Il faudrait entreprendre un processus dentente
et de soutien de ces experts avant le processus de prise de dcisions, mais qui en ferait partie, pour dterminer
sil faut procder une laboration plus substantielle aux fins de lnonc des objectifs et, si oui, prciser
comment. Il faut aussi faire une tude complte de faisabilit et un plan denqute.

STATISTIQUE CANADA

312

MTHODES ET PRATIQUES DENQUTE

Lorsquune proposition denqute a t prpare, examine et fait lobjet dune discussion, la direction est en
position de dcider si elle procde la planification et llaboration ultrieures. Si oui, lquipe de lenqute
doit laborer lnonc des objectifs et confirmer rapidement la faisabilit, ainsi que certaines grandes options
ou solutions de rechange.
13.2.1.2 Deuxime tape : dtermination de la faisabilit et tablissement du plan denqute
Voil une tape critique de la planification parce quil faut dterminer le cot de lenqute (de trs prs). Cest
particulirement important si le cot estim approche ou dpasse le cot maximal que lorganisme de
financement a tabli. Voici les principaux buts de cette tape de la planification :
i.

formuler (la version prliminaire de) lnonc des objectifs, dterminer les plafonds des cots et les
cibles de qualit, et donner un aperu de lchancier,

ii.

dterminer et valuer la pertinence et laccessibilit des sources concrtes de donnes et reprer les
lacunes dinformation (donnes administratives et enqutes dj ralises),

iii.

choisir la base de sondage, les units statistiques ventuelles pour lchantillonnage (le cas chant)
et la mthode de collecte des donnes,

iv.

prciser les approches mthodologiques appliques dautres enqutes sur la mme population cible
et aux enqutes dautres organismes statistiques sur le mme sujet gnral,

v.

donner une valuation prliminaire du cot, de lchancier, de la faisabilit et du fardeau de rponse,


ainsi quune valuation de la pertinence et des rpercussions de lchantillonnage du point de vue du
cot et des exigences de qualit,

vi.

rdiger un rapport de faisabilit et de planification, y compris les options, ainsi que les questions,
besoins et limites en particulier (p. ex., du point de vue des politiques et rglements, ainsi que des
pratiques, limites et exigences juridiques), qui couvrira chaque tape du droulement de lenqute, y
compris lnonc des objectifs, ainsi que les options pour la base de sondage, le plan
dchantillonnage, la collecte des donnes, le traitement, le contrle de la divulgation, les mises
lessai, la diffusion, le budget, etc.

Il est possible, chaque volet de cette tape, de faire rapport au Comit directeur et de mettre fin au processus
si lquipe dtermine, selon une indication suffisante, quune enqute ne serait pas raliste, compte tenu des
modalits de la version prliminaire de lnonc des objectifs. Si la planification continue jusqu la
formulation dun rapport de faisabilit et de planification, le Comit directeur devrait examiner et valuer la
proposition denqute. Une dcision sur le droulement de lenqute ou non, ainsi que sur ses paramtres et le
plan gnral, est prise en tenant compte de la proposition denqute. Toute dcision prise pour entreprendre
dautres activits de planification ou de conception aboutit habituellement la troisime tape.
13.2.1.3 Troisime tape : prparation des plans des composantes
Chaque membre de lquipe prpare les composantes du plan li sa responsabilit dans lquipe. Chacun
donne aussi une rtroaction sur les plans des autres et y exerce son expertise. Les quipes de tche et de soustche prparent aussi des plans et les coordonnent avec le membre responsable de lquipe de lenqute.
Celle-ci examine et approfondit tous les plans. Voici les tapes de la prparation de ces plans :

STATISTIQUE CANADA

PLANIFICATION ET GESTION DE LENQUTE

313

i.

voir llaboration, la conception, la mise en uvre et lvaluation des plans dactivits, des
chanciers, des estimations des besoins de ressources et des estimations dtailles des cots aux fins
de la mise en uvre pour chaque composante et tape de lenqute ou du projet statistique,

ii.

examiner tous les plans des composantes, identifier les entres et les sorties pour chaque composante
et les dpendances,

iii.

procder llaboration ncessaire comme principale entre aux plans des autres composantes,

iv.

nouer les liens et tablir luniformit lintrieur des composantes et entre celles-ci,

v.

modifier les chanciers au besoin,

vi.

prparer les principales tapes et lchancier gnral,

vii.

formuler la version dfinitive de la proposition et du plan pour la mise lessai,

viii.

rviser les budgets et ajuster les plans au besoin.

La planification devient plus complexe au cours de cette tape. Afin de planifier les composantes
oprationnelles (collecte, saisie et traitement des donnes), il faut accomplir un travail significatif intgr la
planification pour le plan dchantillonnage (il faudrait dterminer la taille et la rpartition), la matire du
questionnaire, la mthodologie dtaille de la collecte et les exigences de vrification et dassurance de la
qualit. Les plans de collecte nont aucun sens, par exemple, sans une estimation prcise de la longueur de
linterview.
la fin de cette tape, et en supposant que le Comit directeur ait donn son approbation, lquipe prend des
dispositions, ou apporte la touche finale aux dispositions prises, pour obtenir les ressources ncessaires. Il
faudrait maintenant dterminer la date de rfrence, la date de collecte des donnes, le budget et les besoins de
ressources.
13.2.1.4 Quatrime tape : achvement des plans pour la conception, llaboration et la mise en uvre
cette tape, il ne sagit plus de dcider que faire, mais plutt de passer laction. Les questions de
planification en instance devraient donc tre de menus dtails seulement et bien se situer dans les limites des
plans concrets (pour le cot, le temps et les ressources). La touche finale peut tre apporte aux plans de mise
lessai et de mise en uvre cette tape seulement. Nous avons mentionn auparavant que divers aspects de
la conception et de llaboration commencent des moments diffrents, et les mthodes, procdures et
systmes qui seront utiliss sont dtermins des degrs distincts de certitude. Dans certains cas, ceux qui
obtiennent les spcifications et qui doivent les appliquer peuvent avoir une comprhension gnrale seulement
de ce quils doivent transformer en spcifications, procdures ou systmes informatiques plus dtaills.
Quelques modifications de dernire minute apportes aux spcifications pendant llaboration ou la suite de
la mise lessai sont toujours possibles. Il faut faire des compromis pour sen tenir au cot convenu, compte
tenu des contraintes de temps et de ressources.
13.2.1.5 Cinquime tape : ajustements et plans supplmentaires
Au cours de la conception, de la mise en uvre et de lvaluation de la qualit, il est possible de dcouvrir que
tous les aspects de lenqute ne se droulent pas comme prvu. Les taux de rponse peuvent tre suprieurs ou
STATISTIQUE CANADA

314

MTHODES ET PRATIQUES DENQUTE

infrieurs. Le pistage peut coter plus cher. Une proportion plus leve du travail des intervieweurs peut tre
rejete pendant le contrle qualitatif, ce qui cause des retards. Le taux de rejet la vrification dune variable
en particulier peut tre excessivement lev. ltape de lattestation de la qualit des donnes, il est possible
de dcouvrir que de nombreux rpondants ont mal interprt une question, etc. Lquipe de lenqute devrait
examiner ces situations et prparer rapidement des plans.
Si le cot augmente, si des ressources supplmentaires sont ncessaires, si un retard ou des rpercussions sur
les objectifs de lenqute ou les exigences de qualit sont prvus, le plan supplmentaire devrait comprendre
des options et des consquences. Il faut aussi obtenir lapprobation du Comit directeur.
Mme sans ces problmes graves, il peut tre ncessaire dapporter des ajustements quotidiens aux plans.
mesure que lcart se referme entre la date de rfrence et la date dachvement de lenqute, les petits
problmes deviennent rapidement normes.

13.2.2 Estimation du temps, des cots et des ressources ncessaires


Pendant la planification de lenqute, lestimation des cots (budget) et des besoins de ressources et de temps
(chancier) est faite par tapes de plus en plus dtailles et prcises. Les estimations sont faites au dpart
selon des hypothses gnrales sur la mthodologie qui sera applique, le nombre et le genre de membres du
personnel et dautres ressources ncessaires pour planifier, concevoir, mettre en uvre et valuer lenqute,
ainsi que les besoins logistiques, de matriel, darticles, de transport, etc. Ces estimations doivent tre plus
exactes et dtailles chaque tape de la planification.
Les experts de secteurs fonctionnels particuliers qui fournissent des ressources ou des services doivent
prparer ou examiner et soutenir les estimations. Celles-ci devraient cibler linformation chronologique sur
lutilisation des ressources, la dure, le cot (denqutes prcdentes ou courantes, lutilisation jusqu
maintenant dans lenqute en laboration) et linformation administrative sur les cots actuels lunit. Cette
information doit ensuite servir lapplication particulire de lenqute en laboration.
Les activits ou mthodologies pertinentes parmi celles numres dans la Liste de vrification de la
planification (voir la fin de ce chapitre) reprsentent au moins une liste partielle des entres qui sont
relatives aux cots et qui ont besoin de ressources et de temps pour prparation, achvement ou prestation.
Aux volets ressources, temps et estimation des cots, cependant, il faudrait considrer les points suivants :
- les principales utilisations des donnes et les exigences sur la qualit,
- les caractristiques de la population cible et la matire de lenqute,
- la longueur et la complexit du questionnaire et de lentrevue (le cas chant),
- la complexit du plan dchantillonnage et le genre de base de sondage (p. ex., base arolaire, liste,
composition alatoire ou listes tlphoniques),
- la taille et la rpartition de lchantillon,
- la mthode de collecte des donnes (interview sur place, interview tlphonique, questionnaire envoy
par la poste, etc.),
- les procdures sur place (interview avec sans substitut, stratgie et exigences de pistage et de suivi),
- le nombre et la complexit des vrifications intgres,
- le taux de rponse prvu,
- le personnel avec sans exprience, les besoins de recrutement et de formation,
- le matriel informatique et le logiciel, ainsi que les frais dinformatique,
- les spcifications, procdures et systmes quil faut concevoir, laborer et mettre lessai, lesquels
peuvent tre rutiliss ou modifis,
- les besoins de ressources (matriel et personnel, cot par type et niveau de personnel),
- les exigences de rapport administratif et de gestion,

STATISTIQUE CANADA

PLANIFICATION ET GESTION DE LENQUTE

315

la frquence et la dure des runions (quipe et Comit directeur, etc.).

Les besoins aux volets cots, chanciers et ressources doivent intgrer les activits du charg denqute, des
membres de lquipe et de tous les autres participants. Les estimations devraient comprendre toutes les
activits, depuis le dbut jusqu la prestation du dernier produit et rapport.

13.3 Gestion de lenqute


Peu importe la structure de gestion applique, la gestion dune enqute, aprs la planification, comprend
lorganisation, lorientation, la surveillance et le contrle de lenqute.
i.

Organisation

Lorganisation est la fonction de gestion qui permet de runir les intervenants, les fonctions et les lments
physiques pour atteindre les objectifs de lorganisme. Le charg denqute est responsable de la gestion de
lenqute et il a lobligation de rendre compte, mais il doit aussi faire appel lquipe de lenqute (et aux
chefs des groupes fonctionnels de prestation des services) pour partager cette responsabilit. Les membres de
lquipe participent cette fin laffectation des responsabilits et ils en conviennent. Les responsabilits
devraient tre affectes selon lexpertise, lexprience et les ensembles particuliers dactivits ou de
composantes compatibles de lenqute. Il faut couvrir toutes les activits en collaboration avec les
intervenants respectifs chargs des entres et des sorties de chaque activit de lenqute. Lune des
interventions du charg denqute est de veiller ce quil ny ait ni lacunes ni conflits.
ii.

Orientation

Lorientation de lenqute, ou plus particulirement du travail des participants, comprend la prise de


dcisions, la prestation de conseils et lacquisition ou la prestation daide au besoin. Les chefs doivent faire
preuve de leadership, offrir des occasions de formation et de perfectionnement, susciter et maintenir de
bonnes communications. Il faut rsoudre les conflits clairement et rapidement. Si le chef commence avec un
bon plan, la confiance, une bonne comprhension vidente des objectifs, le personnel motiv et bien form
garantira quil atteindra les objectifs de lenqute.
iii.

Surveillance et contrle

La surveillance et le contrle sont une fonction de la gestion qui demande dtre constamment bien inform et
de ragir tous les problmes pour maintenir ltat davancement de lenqute selon le plan. Lquipe de
lenqute doit vrifier si les ressources affectes lenqute sont disponibles et si elles sont utilises avec
efficience et efficacit. Elle doit vrifier si les plans denqute sont appliqus correctement et apporter les
corrections et les ajustements ncessaires. Le charg denqute doit vrifier si les plans, politiques et
procdures sont appliqus la lettre, et si les participants ciblent toujours les objectifs. Il formule et
communique les instructions et en vrifient lapplication, dtermine les normes de rendement et le suivi pour
accomplir les tches, et vrifie le respect des chanciers.
La surveillance est faite par lintermdiaire de runions rgulires de lquipe, de discussions, de
communications quotidiennes avec les participants, et laide de plans et de divers rapports dinformation de
gestion. Le rapport de planification, le budget et lchancier sont les principales rfrences. Il faut reprer
lutilisation des ressources, les dpenses et ltat davancement, et faire rapport. Chaque membre de lquipe
devrait rgulirement prsenter un rapport (de vive voix ou par crit, selon la situation) sur ltat
davancement, lutilisation et les dpenses. Il faudrait faire rapport sur les donnes oprationnelles, par
exemple les taux de rponse, les taux dachvement de lintervieweur, les taux de suivi, linformation des
STATISTIQUE CANADA

316

MTHODES ET PRATIQUES DENQUTE

rapports de production et les oprations de contrle qualitatif et dassurance de la qualit, et examiner toutes
ces donnes. La frquence des runions et des rapports devrait tre dtermine selon lurgence ventuelle de
lintervention en cas de problme.
Les prvisions aux volets de lchancier et des cots pour les activits critiques dun chancier strict, par
exemples les interviews, devraient tre rparties jusquau niveau le plus bas des tapes de la composante. Ces
tapes devraient tre inscrites un calendrier quotidien et surveilles si possible et si cette mesure est logique.
Il serait autrement difficile de dterminer combien de temps il faudra pour raliser les activits, si ltat
davancement correspond lchancier et si des mesures correctives, ajustements ou modifications des plans
sont ncessaires.
iv.

Communication, coordination et examen

Lquipe de lenqute, et en particulier le charg denqute, est responsable de la coordination et de la


communication. Lquipe de lenqute et les chefs fonctionnels sont chargs des examens et des
communications dans leur secteur dactivit et de la prestation dune rtroaction lquipe et au charg
denqute. Les plans, budgets, chanciers, noncs de responsabilit et mandats sont les principaux outils de
communication et de coordination. Une trousse complte devrait tre la disposition de tous les participants.
Ceux-ci doivent tre informs de leurs interventions et des objectifs de celles-ci, et ils doivent connatre leur
position exacte dans lenqute en gnral. Lquipe de lenqute doit aussi intervenir pour recevoir les
communications appropries aux fins de la surveillance et de lobligation de rendre compte.
Lhoraire de lquipe devrait comprendre les principales tapes de lenqute pour faciliter la communication
et la coordination. Il devrait y avoir un dossier des dcisions (une liste des dcisions pertinentes prises en
quipe). Il faudrait prvoir une procdure davis de problme pour les oprations et systmes les plus
importants (un bref rapport sur les erreurs, les incohrences et les solutions qui exigent des modifications
apporter aux procdures, oprations ou systmes, ou dautres changements qui ne sont pas reflts dans les
plans ou spcifications approuvs). Il faut distribuer largement le dossier des dcisions et les avis de
problme. Il faudrait prparer et remettre aux chefs et aux membres dquipe des graphiques de cheminement
ou des articles semblables qui affichent lchancier et les liens entre les activits.
Nous avons mentionn auparavant que le surveillant ou le chef fonctionnel devrait examiner les entres de son
personnel dans lenqute. Lquipe de lenqute a aussi sa responsabilit. Elle doit vrifier si les entres (les
spcifications, procdures et manuels, le questionnaire, etc.) correspondent aux besoins de lenqute, afin de
garantir que toutes les composantes atteignent leurs objectifs particuliers, sont harmonieuses et conformes aux
objectifs de lenqute et aux plans.
13.3.1 Fonctions du charg denqute
Le charg denqute a des responsabilits hirarchiques et de coordination quil ne partage pas avec lquipe
de lenqute dans lensemble. Outre les tches numres la section prcdente, quelquun doit tre en
charge et il faut lui confier lobligation de rendre compte et la responsabilit gnrale pour quil prenne au
moment opportun des dcisions conformes au mandat dtermin au Comit directeur. Quelquun doit avoir
une interaction directe avec le Comit directeur. Il doit reprsenter lquipe de lenqute auprs des
utilisateurs en gnral et des utilisateurs qui versent les fonds en particulier. Ces fonctions sont des volets du
rle de gestion du charg denqute.
Le charg denqute et dautres membres de lquipe collaborent avec le client et les utilisateurs pour
dterminer leurs besoins analytiques et de donnes. Le charg denqute doit cependant veiller ce que les
dcisions prises pendant le droulement de lenqute ne compromettent pas laptitude lutilisation

STATISTIQUE CANADA

PLANIFICATION ET GESTION DE LENQUTE

317

fondamentale des donnes dfinitives. Il rpond aux questions du client sur ltat davancement, justifie les
dcisions, communique les prfrences du client lquipe de lenqute et vrifie si largent du client est
rparti correctement et dans les limites du budget. Il est aussi un intermdiaire entre le client et lquipe de
lenqute. Lquipe du projet peut donc faire son travail sans interruption ou interfrence. Le charg
denqute a la mme intervention auprs du Comit directeur. Si le client nest pas membre du Comit
directeur, le charg denqute doit garantir quil y a communication trilatrale efficace des exigences,
dcisions et rsultats.
Il est essentiel que le charg denqute soit inform personnellement et directement en tout temps que le client
et les principaux utilisateurs savent ce quils veulent, comprennent ce quils obtiennent, connaissent les
limites et dterminent comment les donnes rpondront ou non leurs besoins. Les cots, consquences et
solutions de rechange appropries doivent aussi tre vidents. Une condition semblable sapplique au Comit
directeur.
Le charg denqute coordonne les activits de lquipe de lenqute et vrifie si les plans, spcifications,
dcisions, etc., sont correctement communiqus aux membres de lquipe. Il ragit tout problme imprvu et
veille ce que les intervenants appropris soient informs pour prendre les mesures ncessaires. Le charg
denqute doit garantir quil est possible de surveiller ltat davancement et la qualit, et de reprer les
nouveaux problmes. Il ou elle doit avoir suffisamment dinformation en tout temps pour pouvoir soutenir
personnellement la crdibilit de lenqute et de ses rsultats, et en comprendre les limites.
Le charg denqute doit veiller ce que les activits de lquipe de lenqute soient correctement
coordonnes avec les groupes fonctionnels et de linfrastructure ou les fournisseurs de services de lorganisme
statistique ou lexterne. Il doit aussi tre inform des enqutes semblables et des nouvelles techniques et
mthodes. Il doit veiller ce que les participants soient conscients de la porte et de l-propos de leur
engagement dans lenqute et ce quils soient rapidement informs de toute modification apporte au plan. Il
doit surveiller leur engagement et obtenir des preuves videntes du rendement demand. Une bonne partie de
ce genre dactivits peut tre dlgue aux membres de lquipe de lenqute, mais le charg denqute
devrait tre en mesure de procder une vrification autonome de ltat davancement, habituellement par
lintermdiaire de communications mensuelles avec les chefs correspondants.
Le charg denqute peut reprsenter lorganisme auprs du public et prendre la parole sur lenqute. Il est la
personne-ressource dfinitive pour les rpondants de lenqute, ceux qui veulent obtenir davantage
dinformation sur lenqute et ceux qui portent plainte ou qui ont des questions. Lorsque les donnes de
lenqute sont diffuses, le charg denqute est une personne-ressource (ainsi que le coordonnateur de la
matire) qui rpond aux questions des mdias, des analystes des donnes et des chercheurs.
Le charg denqute a surtout la responsabilit non exclusive de prvoir, dempcher et de rsoudre les
problmes. Il doit avoir judicieusement recours son exprience et ses connaissances. Il ne doit jamais
oublier dtre sceptique, raliste et favorable simultanment. Il doit tre pragmatique pour prendre des
dcisions ou adopter des positions qui ne sont pas toujours idales du point de vue des relations avec le
personnel et des demandes des utilisateurs. Il doit viter dajuster ou de modifier ce qui ne tourne pas rond,
car il ne ferait que perptuer, voiler ou aggraver les problmes. Il doit viter le rafistolage, la perturbation et
linterfrence.
Le charg denqute doit surveiller la participation des membres de lquipe. Afin dviter les problmes, il
doit essayer de maintenir la cohsion dans lquipe pendant la dmarche aussi longtemps que cette
collaboration aide obtenir le succs de lenqute. Il ne doit cependant pas supposer que tous les participants
resteront en poste jusqu la fin de lenqute. Le charg denqute devrait considrer une stratgie de relve
non officielle et rflchir certaines options ou mesures de rechange. Il faut tre dispos prendre des
mesures en cas dabsence dun participant ou dun membre de lquipe cause dune maladie prolonge,
STATISTIQUE CANADA

318

MTHODES ET PRATIQUES DENQUTE

dune promotion, dune nouvelle affectation ou dun dpart de lorganisme. Il faut aussi prendre des
dispositions pour remplacer le membre ou le participant qui perturbe lenqute ou dont la contribution est
inapproprie.

13.3.2 Comprhension des complications


Le charg denqute devrait en dfinitive avoir lexprience et les connaissances suffisantes pour comprendre
les complications. En voici quelques-unes quil ne faudrait pas oublier (sans ordre particulier) :
-

les membres de lquipe nont pas les mmes niveaux relatifs daptitudes ou la mme exprience et
certains nont pas les aptitudes appropries,

la rpartition des responsabilits dans lquipe peut tre inapproprie ou disproportionne,

des communications mdiocres ou des lacunes marques dans les communications sont possibles
loccasion,

le prsident du Comit directeur et le charg denqute mnent lenqute (lquipe nest pas clairement
informe sur lorientation, ils ne consultent pas certains membres de lquipe avant de prendre des
dcisions, ils ragissent aux problmes ou aux questions rsoudre sans obtenir dinformation
contextuelle de lquipe de lenqute),

les objectifs changent ou sont vagues (le client ou lutilisateur ne sait pas ce quil veut ou ne comprend
pas les questions, il ajoute des exigences par la suite, il essaie den faire trop dans une seule enqute),

les mthodes, concepts ou questions sont excessivement complexes,

les mises lessai sont inappropries,

il y a des erreurs de planification (imposer ou accepter un plan rigide, avoir un chancier irraliste ou
affecter des ressources inappropries, omettre les examens suffisamment dtaills des plans et des
spcifications (examen seulement si quelque chose ne tourne pas rond), tre trop optimiste pour
dterminer combien de temps prendront les activits ou quelles sont les complications possibles, ou
navoir aucune ide sur la question, constater que les ressources disponibles sont moindres que celles
prvues),

il y a interfrence de lexterne,

la comprhension des causes et effets manque lors de lvaluation des problmes et de la conception de
solutions,

laccent est mis sur la mthodologie (comme une fin en soi) et non sur les objectifs,

lengagement ou la participation manque lorsque le Comit directeur ou la direction en a besoin,

il ny a pas dengagement des membres de lquipe (les affectations engagements des participants sont
trop nombreux ou ils sont distraits par dautres activits hors de lenqute ou des activits
supplmentaires imposes dans lenqute, par exemple, dpannage ou rponse aux demandes
dinformation hors du champ prvu de lenqute, des membres de lquipe considrent des affectations

STATISTIQUE CANADA

PLANIFICATION ET GESTION DE LENQUTE

319

ultrieures ou acceptent des affectations avant lachvement de lenqute en cours, il est impossible
dobtenir des participants pour faire ce quils ne veulent pas faire ou ce dont ils doutent entirement).

13.4 Sommaire
Ce chapitre couvre les principaux sujets de la planification et de la gestion dune enqute, notamment :
i.

Les mthodes dorganisation de la planification et de la gestion de lenqute

Nous avons t particulirement attentifs lapproche de lquipe de lenqute cause de sa capacit de


mettre en commun des connaissances et aptitudes, de susciter lengagement, de simplifier et damliorer les
communications, et de donner ainsi une occasion dobtenir une meilleure efficience et efficacit.
ii.

Les tapes et le processus de la planification

La planification de lenqute doit tre faite par phases de plus en plus dtailles et prcises, partir de la
formulation de la proposition de lenqute pour en dterminer la faisabilit et tablir le plan de lenqute, en
passant par la prparation de plans de composantes de lenqute et la touche finale apporte aux plans pendant
la conception et llaboration, jusqu lajustement et aux plans complmentaires pendant la mise en uvre et
lvaluation.
iii.

La mthode de gestion de lenqute pour atteindre ses objectifs

Une bonne planification exige une bonne gestion, ainsi que des intervenants chevronns et bien informs. Il
faudrait nommer un charg denqute responsable du fonctionnement appropri de tous les aspects de
lactivit de lenqute. Les principales fonctions de gestion comprennent lorganisation, lorientation, la
surveillance et le contrle de lenqute.

Bibliographie
Amabile, T.M. 1998. How to Kill Creativity. Harvard Business Review. September-October 1998: 65-74.
Biemer, P.P., R.M. Groves, L.E. Lyberg, N.A. Mathiowetz et S. Sudman, ds. 1991. Measurement Errors in
Surveys. John Wiley and Sons, New York.
Brackstone, G.J. 1993. Data Relevance: Keeping Pace with User Needs. Journal of Official Statistics, 9: 4956.
Brackstone, G. 1999. La gestion de la qualit des donnes dans un bureau statistique. Techniques denqute,
25(2): 159-172.
Cialdini, R., M. Couper et R.M. Groves. 1992. Understanding the Decision to Participate in a Survey. Public
Opinion Quarterly, 56: 475-495.
Collins, J. 1999. Turning Goals into Results: The Power of Catalytic Mechanisms. Harvard Business Review.
July-August 1999: 71-82.
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995. Business
Survey Methods. John Wiley and Sons, New York.
STATISTIQUE CANADA

320

MTHODES ET PRATIQUES DENQUTE

Dinsmore, P.C., d. 1993. The American Management Association Handbook of Project Management.
AMACON, American Management Association, New York.
Drucker, P.F. 1999. Managing Oneself. Harvard Business Review. March-April 1999: 65-74.
Early, J.F. 1990. La gestion de la qualit dans les programmes statistiques nationaux. Symposium 1990:
Mesure et amlioration de la qualit des donne, Ottawa.
Eisenhardt, K.M., J.L. Kahwajy et L.J. Bourgeois III. 1997. How Management Teams Can Have a Good
Fight. Harvard Business Review. July-August 1997: 77-85.
Fellegi, I.P. 1992. Planning and Priority Setting the Canadian Experience. Statistics in the Democratic
Process at the End of the 20th Century; Anniversary publication for the 40th Plenary Session of the
Conference of European Statisticians. Federal Statistical Office, Federal Republic of Germany,
Wiesbaden.
Fellegi, I.P. 1996. Characteristics of an Effective Statistical System. International Statistical Review, 64(2).
Freedman, D.H. 1992. Is Management Still a Science? Harvard Business Review. November-October 1992:
26-38.
Goleman, D. 1998. What Makes a Leader? Harvard Business Review. November December 1998: 93-102.
Groves, R.M. 1989. Survey Errors and Survey Costs. John Wiley and Sons, New York.
Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.
Linacre, S.J. et D.J. Trewin. 1989. Evaluation of Errors and Appropriate Resource Allocation in Economic
Collections. Proceedings of the Annual Research Conference. U.S. Bureau of the Census. 197-209.
Lyberg, L., P. Biemer, M. Collins, E. de Leeuw, C. Dippo, N. Schwarz and D. Trewin, ds. 1997. Survey
Measurement and Process Quality. John Wiley and Sons, New York.
Pinto, J.K., d. 1998. The Project Management Institute Project Management Handbook. Jossey-Bass Inc,
San Francisco.
Project Management Institute. 2000. A Guide to the Project Management Body of Knowledge. 2000 Edition.
Project Management Institute, Newton Square, PA.
Smith, T.M.F. 1995. Problmatique de laffectation des ressources.Symposium 95, Des donnes
linformation: mthodes et systmes: recueil. 115-122.
Statistique Canada. 2000. Politique visant informer les utilisateurs de la qualit des donnes et de la
mthodologie. Manuel des poliqitues. Politique 2.3.
Statistics Canada. 1987. Quality Guidelines. Deuxime dition.
Statistique Canada. 1998. Lignes directrices concernant la qualit. Troisime dition. 12-539-XIF.
Statistique Canada. 2002. Le Cadre dassurance de la qualit.

STATISTIQUE CANADA

PLANIFICATION ET GESTION DE LENQUTE

321

Sull, D.N. 1999. Why Good Companies Go Bad? Harvard Business Review. July-August 1999: 42-52.
Wang, R.Y. et D.M. Strong. 1996. Beyond Accuracy: What Data Quality Means to Data Consumers. Journal
of Management Information Systems, 12(4): 5-34.

STATISTIQUE CANADA

322

MTHODES ET PRATIQUES DENQUTE

Liste de vrification de la planification


Voici certaines considrations ne pas oublier lors de la planification des tapes de lenqute :
1. Formulation de lnonc des objectifs
-

besoins dinformation de lenqute,


principales utilisations et principaux utilisateurs des donnes,
dfinitions et concepts oprationnels,
matire de lenqute,
plan danalyse (c.--d. la structure et le niveau de dtail des rsultats de lenqute).

Voir le Chapitre 2 - Formulation de lnonc des objectifs.


2. Slection dune base de sondage
-

dfinition de la population cible,


dfinition de la population observe selon les bases de sondage disponibles,
base de sondage arolaire, liste ou base de sondage multiple,
utilisation des bases de sondage dj cres,
cot dtablissement dune nouvelle base de sondage,
donnes disponibles pour tablir une nouvelle base de sondage,
units de la base de sondage,
qualit de la base de sondage,
- sous-dnombrement,
- surdnombrement,
- doubles,
base de sondage jour?

Voir le Chapitre 3 - Introduction au plan denqute.


3. Choix du plan dchantillonnage
-

recensement ou chantillon,
chantillonnage probabiliste ou non probabiliste pour lenqute-chantillon,
si lchantillonnage probabiliste est choisi :
- chantillonnage alatoire simple,
- chantillonnage alatoire simple stratifi,
- chantillonnage par grappes,
- chantillonnage plusieurs degrs,
- chantillonnage plusieurs phases,
si lchantillonnage stratifi est choisi :
- variables de stratification,
- mthode de rpartition de lchantillon en strates,
taille de lchantillon,
mthode destimation,
degr de prcision voulu (variance) des estimations,
enqute unique ou ritre?

Voir le Chapitre 6 Plans dchantillonnage, le Chapitre 7 - Estimation et le Chapitre 8 Calcul de la


taille de lchantillon et rpartition.

STATISTIQUE CANADA

PLANIFICATION ET GESTION DE LENQUTE

323

4. Conception du questionnaire
-

mthodes de collecte :
- assiste par intervieweur, autodnombrement ou observation directe,
si la mthode assiste par intervieweur est applique :
- interview sur place ou tlphonique,
si la mthode par autodnombrement est applique :
- mthode de distribution et de collecte des questionnaires,
utilisation de certaines donnes administratives pour une partie de la collecte des donnes?
recours des substituts titre de rpondants?
matire du questionnaire,
formulation des questions,
genres de questions :
- rponses ouvertes ou fermes,
ordre des questions.

Voir le Chapitre 4 Mthodes de collecte des donnes et le Chapitre 5 Conception du questionnaire.


5. Collecte des donnes
-

comment situer les units slectionnes et communiquer avec elles,


slection des intervieweurs,
formation des intervieweurs,
supervision des intervieweurs,
contrle des documents (numro de reprage des questionnaires complts, etc.),
procdures de travail sur place,
contrle de la qualit du travail sur place :
- observation des intervieweurs,
- nouvelles interviews,
vrifications sur place,
suivi des non-rponses.

Voir le Chapitre 9 Oprations de collecte des donnes.


6. Saisie et codage des donnes
-

saisie des donnes,


codage des donnes :
- mthode de classification appliquer,
mthodes de mesure, de contrle et de correction des erreurs :
- assurance de la qualit,
- contrle qualitatif.

Voir le Chapitre 10 Traitement et lAnnexe B Contrle qualitatif et assurance de la qualit.


7. Vrification et imputation
-

vrifications faire sur place,


vrifications faire aprs la collecte sur place (vrifications manuelles et automatises),
genre de vrifications faire :
- vrifications de la validit,
STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

324

- vrifications de luniformit,
uniformit des vrifications,
mthodes dimputation appliquer,
uniformit de limputation,
prparation et mise lessai des systmes dimputation et de vrification.

Voir le Chapitre 10 Traitement.


8. Estimation
-

calcul des pondrations du plan dchantillonnage,


ajustements possibles pour :
- le total des non-rponses,
- les donnes auxiliaires,
paramtres estimer (estimations ponctuelles) :
- totaux,
- ratios,
- proportions, etc.,
estimateurs pour les estimations ponctuelles,
estimateurs pour la variance dchantillonnage des estimations ponctuelles.

Voir le Chapitre 7 Estimation.


9. Analyse des donnes et prsentation des rsultats de lenqute
-

mesures de lerreur dchantillonnage,


mesures de lerreur non due lchantillonnage :
- erreur de couverture,
- non-rponses (p. ex., taux de non-rponses),
- erreur de mesure,
- erreur de traitement (p. ex., taux de rejets la vrification),
mthodes de mesure, de contrle et de correction des erreurs :
- assurance de la qualit,
- contrle qualitatif,
valuation de toutes les oprations de lenqute,
type danalyses faire,
totalisation des donnes,
rapports produire,
mthodes de contrle de la divulgation,
suppression ou modification de donnes.

Voir le Chapitre 11 Analyse des donnes de lenqute, le Chapitre 12 Diffusion des donnes et
lAnnexe B Contrle qualitatif et assurance de la qualit.
10. Diffusion des donnes
-

utilisateurs et utilisations,
moyens de diffusion :
- publication sur support papier,
- discours ou prsentation en public,
- interview la radio ou la tlvision,

STATISTIQUE CANADA

PLANIFICATION ET GESTION DE LENQUTE

325

- microfiches,
- mdias lectroniques :
- internet;
- fichier de microdonnes,
mthodes de contrle de la diffusion.

Voir le Chapitre 12 Diffusion des donnes.


11. Documentation
-

auditoire cible :
- direction,
- personnel technique,
- planificateurs dautres enqutes,
- etc.,
rapport denqute,
rapports sur la mthodologie,
rapports dvaluation de la qualit des donnes,
manuels de formation (p. ex., pour les interviews),
rapports de rendement des intervieweurs,
manuels dinstruction (p. ex., pour les rpondants),
chancier des activits,
spcifications pour les programmes des systmes,
rapport de faisabilit,
rapports dtat davancement,
rapport denqute (qui documente lapplication de toutes les tapes de lenqute),
rapport danalyse des donnes,
rapport gnral ou rapports techniques.

Voir le Chapitre 9 Oprations de collecte des donnes pour la documentation des oprations sur place et
le Chapitre 12 Diffusion des donnes pour la documentation en gnral.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

326

Liste de vrification des cots


Il faut tenir compte de certains lments pour valuer les cots de lenqute, notamment :
-

la planification,
la conception et llaboration :
- le plan denqute,
- les procdures de lenqute (p. ex., la collecte des donnes),
- le traitement aprs lenqute,
lvaluation de lenqute,
la documentation,
la formation du personnel.

Les cots du traitement de lenqute comprendraient le temps du personnel, lachat ou la location du


matriel et des logiciels, et dautres services, p. ex., les bureaux, les meubles, les articles.
Les critres suivants dterminent la conception et llaboration dune application de linterview assiste par
ordinateur (IAO) :
-

la longueur et la complexit des questionnaires,


le nombre et la complexit des vrifications intgres,
le progiciel utilis,
les exigences dentre pralable de linformation tire dun cycle prcdent,
les fonctionnalits ncessaires, par exemple les rapports de gestion, de pistage, etc.,
le systme dchantillonnage, c.--d. les listes tlphoniques ou la composition alatoire, etc.,
la trousse de formation intgrer lapplication,
le nombre de rvisions apporter aux spcifications,
la priode de rfrence pour llaboration,
les exigences de la mise lessai,
la taille de lchantillon (c.--d. si des mesures spciales sont ncessaires cause du nombre important de
donnes).

Les lments suivants dterminent le cot de la formation du personnel :


-

le genre de formation (en classe, tudes domicile, etc.),


les degrs de formation (qui forme qui),
la dure (heures, jours),
lendroit,
le nombre dintervieweurs forms,
la location de matriel (p. ex., tlphone, ordinateurs, visualiseur dOP).

Les lments suivants dterminent le cot de la collecte des donnes :


-

la taille de lchantillon,
la rpartition de lchantillon,
la base dchantillonnage,
la dure de linterview,
la mthode de collecte des donnes (sur place, au tlphone, par la poste, etc.) :
- p. ex., le nombre dintervieweurs sil sagit dune enqute assiste par intervieweur,
le taux de rponses prvu,
la stratgie de suivi,

STATISTIQUE CANADA

PLANIFICATION ET GESTION DE LENQUTE

la population cible (interview de substituts ou non),


exigences de pistage,
chancier de la collecte des donnes,
vrifications manuelles et codage,
exigences de la saisie des donnes et de la vrification,
location de matriel (tlphone, ordinateurs),
location de superficies,
cot des dplacements des intervieweurs.

STATISTIQUE CANADA

327

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

329

Annexe A - Donnes administratives


1.0

Introduction

Les demandes de statistiques sur de nombreux aspects de la socit se maintiennent la hausse. Une
mthode appliquer pour obtenir des donnes statistiques est, bien entendu, lenqute. Les contraintes
budgtaires et les proccupations que suscite le fardeau des rpondants ont cependant incit les
organismes statistiques examiner des mthodes de rechange pour obtenir des donnes statistiques.
Lutilisation des donnes administratives est une mthode de rechange. Les donnes administratives sont
celles qui ont t obtenues des fins administratives (p. ex., pour administrer, rglementer ou percevoir
des impts auprs des entreprises ou des particuliers) et non des fins statistiques (pour tudier des
groupes de particuliers, dentreprises, dexploitations agricoles ou fermes, etc.).

2.0

Utilisation des donnes administratives

Voici les principales utilisations statistiques des donnes administratives :


i.

Totalisation directe ou analyse

Les donnes administratives sont, dans ce cas, la principale source de donnes pour les units de
lchantillon, en tout ou en partie. Les donnes sont agrges, analyses et diffuses de la mme faon
que les donnes denqute. Si des donnes administratives sont utilises au lieu dune enqutechantillon, lorganisme statistique doit franchir certaines tapes de lenqute tudies dans ce manuel,
mais pas toujours. Lorganisme administratif ferait normalement, par exemple, la collecte, la saisie et le
codage des donnes, mais lorganisme statistique devrait quand mme procder la vrification,
limputation et lanalyse des donnes. Dans certains cas, les donnes administratives peuvent tre la
seule source pratique (p. ex., information dtaille sur les frais des soins de sant).
ii.

Estimation indirecte

Lestimation indirecte comprend lutilisation de donnes administratives comme entres dans le systme
destimation par lintermdiaire de la rgression, de lestimation, du calibrage, etc., par exemple,
lutilisation de donnes administratives comme variables auxiliaires dun modle, comme on la vu au
Chapitre 7 - Estimation. Elle comprend aussi la combinaison de donnes de plusieurs sources
administratives pour produire des estimations.
iii.

Bases de sondage

Les donnes administratives servent souvent crer, complter ou mettre jour des bases de sondage
(voir le Chapitre 3 - Introduction au plan denqute).
iv.

valuation de lenqute

Les donnes administratives peuvent servir valuer les donnes de lenqute lchelon des
microdonnes ou des donnes agrges (consulter le Chapitre 12 - Diffusion des donnes).

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

330

Il y a six principales sources de donnes administratives :


i.

Les enregistrements maintenus pour rglementer le cheminement des biens et des particuliers qui
franchissent les frontires, y compris les dossiers dimportation, dexportation, dimmigration et
dmigration.

ii.

Les dossiers exigs par la loi pour enregistrer des vnements, notamment les naissances, dcs,
mariages, divorces, constitutions en personne morale, octrois de permis, etc.

iii.

Les dossiers ncessaires pour administrer les avantages sociaux ou les obligations, notamment les
impts, lassurance-emploi, les rgimes de retraite, lassurance-sant, les prestations familiales,
les listes lectorales, etc.

iv.

Les dossiers ncessaires pour administrer les tablissements publics, par exemple les coles,
universits, tablissements de sant, tribunaux, prisons, etc.

v.

Les dossiers ouverts la suite de la rglementation dune branche dactivit par le gouvernement,
notamment les transports, les activits bancaires, la radiotldiffusion, les tlcommunications,
etc.

vi.

Les dossiers ouverts pour la prestation de services publics, par exemple llectricit, le tlphone,
leau, etc.

Les concepts, les dfinitions, la couverture (et la mesure dans laquelle ces lments restent constants), la
qualit de la dclaration et du traitement des donnes, ainsi que la rapidit de leur disponibilit
dterminent lutilit des donnes administratives. Ces lments peuvent varier normment selon la
source administrative et le genre dinformation. Avant de dcider dutiliser les donnes administratives, il
est ncessaire de les valuer minutieusement, en prenant en compte les considrations suivantes :
i.

Rapidit

Compte tenu de la source dinformation, les intervenants dune enqute qui utilisent seulement des
donnes administratives peuvent tre en mesure de produire des rsultats plus rapidement que sils avaient
recours une enqute-chantillon. Dautre part, le programme administratif peut produire les donnes
plus lentement quune enqute-chantillon (surtout si les donnes administratives constituent un
recensement ou si elles sont tires de plusieurs secteurs de comptence gouvernementale). Le traitement
des donnes administratives aprs rception peut tre particulirement lent sil faut combiner de
nombreux fichiers.
ii.

Cot

De nombreuses tapes de lenqute peuvent tre limines (en particulier la collecte des donnes) et les
cots diminuent donc.
iii.

Fardeau de rponse

Il ny a pas de fardeau de rponse si on utilise des donnes administratives au lieu dadministrer un


questionnaire.

STATISTIQUE CANADA

ANNEXE A - DONNES ADMINISTRATIVES

iv.

331

Couverture

Les exigences administratives, qui peuvent tre diffrentes des exigences statistiques, dfinissent la
population cible.
v.

Matire

tant donn que les exigences administratives dfinissent la matire, les donnes administratives ne
couvrent peut-tre pas tous les sujets dintrt.
vi.

Concepts et dfinitions

Le programme administratif, conu aux fins dautres objectifs, peut utiliser des dfinitions et concepts
diffrents de ceux que le ralisateur de lenqute aurait choisis. Les concepts de la source administrative
pourraient en fait ne pas convenir au problme de la recherche.
vii.

Erreur dchantillonnage

Si les donnes administratives couvrent la population cible au complet (c.--d. quelles constituent un
recensement), il ny a donc pas derreur dchantillonnage. Si les donnes administratives remplacent
certaines donnes dun chantillon de la population, lerreur dchantillonnage est toujours possible.
viii.

Erreurs non dues lchantillonnage

Il est souvent plus difficile de contrler les erreurs non dues lchantillonnage que dans le cas dune
enqute-chantillon. Il peut y avoir davantage derreurs ou domissions dans les donnes administratives
que dans les donnes denqute (la vrification et limputation sont donc essentielles). Lorsque des
particuliers ou des entreprises sont avantags ou dsavantags, selon linformation fournie la source
administrative, linformation peut aussi tre biaise. Dans certains cas, les donnes administratives
peuvent contenir moins derreurs que les donnes denqute, par exemple, lorsque lerreur de mmoire
peut amenuiser la capacit du rpondant de rpondre prcisment aux questions ou lorsquil pourrait
arrondir sa rponse une question denqute (revenu).
ix.

Contrle qualitatif

Le contrle exerc sur le programme administratif dtermine la qualit de la collecte, de la saisie et du


codage des donnes, et il peut tre moins strict que celui dun organisme statistique. Il faut donc procder
des valuations continues ou priodiques de la qualit des donnes reues.
x.

Fiabilit de la source administrative

La source administrative nest peut-tre pas fiable du point de vue de la prestation uniforme des donnes
lorsquon en a besoin. La couverture, la matire et les concepts peuvent aussi changer avec le temps. Il
faudrait donc collaborer avec les concepteurs du systme administratif et maintenir la communication
pour se tenir jour sur les modifications proposes des concepts, des dfinitions, de la couverture, de la
frquence et de lactualit qui peuvent avoir des rpercussions sur leur utilisation statistique, et il faudrait
intervenir en faveur de modifications apporter qui amlioreront au lieu damenuiser leur utilisation
statistique.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

332

xi.

Mise en forme des donnes

La mise en forme des donnes nest peut-tre pas pratique. Les donnes pourraient tre agrges
seulement, par exemple, et lorganisme statistique prfrerait des enregistrements individuels pour chaque
unit. Les donnes peuvent provenir de plus dune source, un problme ventuel de correspondance et
duniformisation des donnes entre diffrentes mises en forme. Les fichiers ne sont peut-tre pas bien
documents non plus.
xii.

Questions de renseignements personnels

Lutilisation des donnes administratives peut susciter des proccupations au sujet de la protection des
renseignements personnels dans le grand public, surtout si les dossiers administratifs sont lis dautres
sources de donnes. Il faudrait donc considrer les rpercussions de la protection des renseignements
personnels et les problmes de contrle de la divulgation, surtout lorsque les donnes sont lies dautres
fichiers.

Bibliographie
Brackstone, G.J. 1987. Utilisation des dossiers administratifs des fins statistiques. Techniques
denqute, 13(1): 35-51.
Brackstone, G.J. 1988. Utilisations statistiques des donnes administratives: questions et dfis.
Symposium 87: Les utilisations statistiques des donnes administratives: recueil. 5-18. Ottawa
Cox, L.H. et R.F. Boruch. 1988. Record Linkage, Privacy and Statistical Policy. Journal of Official
Statistics, 4: 3-16.
Hidiroglou, M.A., M. Latouche, B. Armstrong et M. Gossen. 1995. Improving Survey Information Using
Administrative Records: The Case of the Canadian Employment Surveys. Proceedings of the
Annual Research Conference. U.S. Bureau of the Census. 171-197.
Internal Revenue Service. 1999. Statistics of Income: Turning Administrative Systems into Information
Systems. Washington, D.C.
Internal Revenue Service. 2000. Statistics of Income Bulletin, 19(4). Washington, D.C.
Kilss, B. et W. Alvey, ds. 1984. Statistical Uses of Administrative Records: Recent Research and
Present Prospects. 1. Department of the Treasury. Internal Revenue Service. Statistics of Income
Division.
Kilss, B. and W. Alvey, ds. 1984. Statistical Uses of Administrative Records: Recent Research and
Present Prospects. 2. Department of the Treasury. Internal Revenue Service. Statistics of Income
Division.
Konschnik, C.A., J.S. Johnson et J.N. Burton. 1998. The Use of Administrative Records in Current
Business Surveys and Censuses. Proceedings of the Section on Survey Research Methods.
American Statistical Association. 202-207.

STATISTIQUE CANADA

ANNEXE A - DONNES ADMINISTRATIVES

333

Michaud, S., D. Dolson, D. Adams et M. Renaud. 1995. Combining Administrative and Survey Data to
Reduce Respondent Burden in Longitudinal Surveys. Proceedings of the Section on Survey
Research Methods. American Statistical Association. 11-20.
Monty, A. et H. Finlay. 1994. Strengths and Weaknesses of Administrative Data Sources: Experiences of
the Canadian Business Register. Statistical Journal of the United Nations, ECE 11: 205-210.
Singh, M.P., J. Gambino et H.J. Mantel. 1994. Les petites rgions: problmes et solutions. Techniques
denqute, 20(1): 3-15.
Statistique Canada 1996. Politique dinformation des rpondants aux enqutes. Manuel des politiques.
Politique 1.1
Statistique Canada 1996. Politique relative au couplage denregistrements. Manuel des politiques.
Politique 4.1
Statistique Canada. 1998. Lignes directrices concernant la qualit. Troisime dition. 12-539-XIF.
Sweet, E.M. 1997. Using Administrative Record Persons in the 1996 Community Census. Proceedings of
the Section on Survey Research Methods. American Statistical Association. 416-421.
Wolfson, M., S. Gribble, M. Bordt, B. Murphy et G. Rowe. 1987. La base de donnes de simulaiton de
politique sociale: un exemple dintgration de donnes denqute et de donnes administratives.
Symposium 87: Les utilisations statistiques des donnes administratives: recueil. 233-268.

STATISTIQUE CANADA

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

335

Annexe B - Contrle qualitatif et assurance de la


qualit
1.0 Introduction
Sils ne sont pas prvus et matriss pendant le droulement de lenqute, un bon nombre de problmes
peuvent ajouter des erreurs non dues lchantillonnage au point o les rsultats de lenqute seront
inutiles. Rserver une partie du budget global de lenqute aux programmes de contrle qualitatif et
dassurance de la qualit est une bonne pratique pour minimiser et contrler les erreurs qui peuvent tre
ajoutes diverses tapes de lenqute.
Le contrle qualitatif est une technique employe pour garantir que la qualit est suprieure un seuil
dtermin en mesurant les caractristiques dintrt de la qualit, en les comparant une norme et en
appliquant des mesures correctives si la norme nest pas atteinte.
Lassurance de la qualit comprend toutes les activits qui visent obtenir la qualit. Le but de
lassurance de la qualit est dempcher, de rduire ou de limiter loccurrence derreurs dans une
enqute pour obtenir les rsultats voulus la premire fois. Lassurance de la qualit applique une
approche holistique pour obtenir la qualit ncessaire la planification, la mise lessai et la
surveillance appropries de tous les processus et systmes, afin quils fonctionnent comme prvu.
Lassurance de la qualit aide donc prvoir les problmes et le contrle qualitatif, rpondre aux
problmes observs.
Nous devons dfinir la qualit avant dexpliquer plus en dtail les procdures de contrle qualitatif et
dassurance de la qualit. Statistique Canada considre que laptitude lusage des donnes dfinit la
qualit. Laptitude lusage comprend non seulement les concepts statistiques de variance et de biais,
mais aussi dautres aspects comme la pertinence et lactualit qui dterminent dans quelle mesure les
informations statistiques peuvent jouer pleinement leur rle.
Statistique Canada dfinit la qualit, ou laptitude lusage de linformation statistique en fonction de
six paramtres : la pertinence, lexactitude, lactualit, laccessibilit, lintelligibilit et la cohrence
(Statistique Canada, 2002).
Par pertinence des donnes statistiques, on entend la mesure dans laquelle les besoins rels des clients
sont satisfaits. Pour tre qualifies de pertinentes, les donnes doivent clairer les utilisateurs sur les
questions les plus importantes leurs yeux. Lvaluation de la pertinence est subjective, car celle-ci
dpend des divers besoins des utilisateurs. Le dfi du Bureau est de jauger les besoins conflictuels des
utilisateurs actuels et potentiels afin de concevoir un programme qui rponde le mieux aux principaux
besoins compte tenu des contraintes en matire de ressources.
Par exactitude des donnes statistiques, on entend la mesure dans laquelle linformation dcrit bien le
phnomne quelle doit mesurer. Elle est habituellement exprime en terme derreur dans les estimations
statistiques et est traditionnellement dcompose en biais (erreur systmatique) et variance (erreur
alatoire). On peut aussi la dfinir par rapport aux sources principales derreurs susceptibles de mener
des donnes imprcises (par exemple, couverture, chantillonnage, non-rponse, rponse).
Lactualit des donnes statistiques correspond au dlai entre le point de rfrence (ou la fin de la priode
de rfrence) auquel se rapporte linformation et la date laquelle les donnes sont disponibles. Il doit
souvent y avoir compromis entre lactualit et lexactitude de linformation. Lactualit influera sur la
pertinence.
STATISTIQUE CANADA

336

MTHODES ET PRATIQUES DENQUTE

Par accessibilit des donnes statistiques, on entend la facilit avec laquelle on peut se les procurer
Bureau. Il sagit notamment de la facilit avec laquelle on peut constater que linformation existe
mme que le caractre appropri de la prsentation de linformation ou du mdia au moyen duquel
peut avoir accs aux donnes. Pour certains utilisateurs, le cot peut galement tre un aspect
laccessibilit.

du
de
on
de

Par intelligibilit des donnes statistiques, on entend la disponibilit de renseignements supplmentaires


et de mtadonnes ncessaires linterprtation et lutilisation approprie de ces donnes. Il sagit en
gnral de renseignements sur les variables, les classifications et les concepts sous-jacents utiliss, sur les
mthodes de collecte et de traitement des donnes et sur les indicateurs de lexactitude des donnes
statistiques.
Par cohrence des donnes statistiques, on entend la mesure dans laquelle celles-ci peuvent tre jumeles
dautres renseignements statistiques dans un vaste cadre analytique au fil du temps. Lutilisation de
concepts, de classifications et de populations cibles types favorise la cohrence, tout comme lutilisation
de mthodes denqutes communes. Par cohrence, on nentend pas ncessairement la concordance
numrique parfaite.
Ces lments de la qualit se chevauchent et sont interrelis. Il est trs difficile de construire un modle
statistique efficace qui permettrait dintgrer toutes les caractristiques de la qualit en un seul indicateur.
Il ny a eu que quelques essais (par exemple, Linacre et Trewin, 1993), sauf dans les cas simples ou
unidimensionnels, de dveloppement de modles statistiques pour dterminer si un ensemble de
caractristiques de la qualit obtenues en particulier donnerait en gnral une qualit suprieure un autre
ensemble.
Considrer, grer et quilibrer dans le temps les divers facteurs ou lments qui constituent la qualit
permettent dobtenir un degr acceptable de qualit, mais il faut tre attentif aux objectifs du programme,
aux principales utilisations des donnes, aux cots, ainsi quaux conditions et circonstances, qui ont des
rpercussions sur la qualit et les attentes des utilisateurs. Les lments de la qualit nouent des liens
complexes et toute intervention visant considrer ou modifier un aspect de la qualit aura donc tendance
avoir des rpercussions sur les autres lments de la qualit. Lquilibre de ces facteurs peut donc
changer de faons qui ne peuvent tre facilement modlises ou quantifies correctement davance. Les
dcisions et les interventions qui permettent dobtenir cet quilibre sont bases sur les connaissances,
lexprience, les examens, la rtroaction, la consultation et, invitablement, le jugement.

2.0 Contrle qualitatif


On a recours au contrle qualitatif pour mesurer le rendement rel, le comparer aux normes et ragir
lcart. Ainsi, le contrle qualitatif se concentre sur un aspect de la qualit : lexactitude. Le contrle
qualitatif est gnralement appliqu, ltape du traitement de lenqute, au travail habituellement
accompli par des personnes ayant divers niveaux de formation et de capacit, et lorsque la tche est
rptitive et manuelle. Il sapplique donc certaines activits, notamment, le codage, la saisie des
donnes, les corrections manuelles (pendant ou aprs la collecte) et la vrification.
Le contrle qualitatif ne se proccupe de ce qui peut tre mesur et jug acceptable ou non; si on ne peut
pas mesurer, on ne peut pas faire de contrle qualitatif. Parfois, bien que la mesure soit possible, il peut
tre trop onreux, en temps et en argent, de faire un contrle qualitatif (p. e. dterminer si la rponse une
question ouverte a t code correctement).

STATISTIQUE CANADA

ANNEXE B - CONTRLE QUALITATIF ET ASSURANCE DE LA QUALIT

337

Le nombre et limportance des erreurs varient habituellement entre les activits et les particuliers qui
travaillent la mme activit. Le contrle qualitatif peut servir identifier les lments importants qui
contribuent lerreur et garantir des degrs de qualit acceptables la sortie.
Le contrle qualitatif statistique est lapplication des techniques statistiques aux fins de la comparaison
avec des normes et pour obtenir un degr donn de qualit. Les programmes de contrle qualitatif
statistique permettent de limiter aux taux prciss les erreurs ajoutes la suite dune opration denqute,
sous inspection minimale.
Les extrants dune activit de travail peuvent tre considrs selon deux perspectives diffrentes de la
qualit. Dune part, les extrants reprsentent les produits individuels (ou services) conformes aux normes
ou non. Dautre part, le travail peut tre considr comme une squence de tches accomplies dans des
conditions relativement stables pour produire les extrants voulus (c.--d. une perspective du processus).
Les deux points de vue sont valables et ncessaires selon les hypothses formules sur le processus et
lobjectif de la procdure du contrle qualitatif. Ces deux points de vue donnent lieu deux mthodes
principales de contrle qualitatif : le contrle du produit statistique et le contrle du processus statistique.

2.1

Contrle statistique du produit

Le contrle statistique du produit utilise lchantillonnage et des rgles de prise de dcisions pour
dterminer les lots de travail acceptables et ceux qui ne le sont pas. Lobjet du contrle du produit est le
lot individuel et non le processus. Lobjectif du contrle qualitatif est de dterminer quelles units
individuelles ou lots dunits sont conformes aux exigences de qualit tablies. Le contrle du produit est
une mesure corrective parce que les lots tiquets mdiocres sont amliors (retravaills). De plus, les
erreurs trouves dans le lot dont on a mesur la qualit sont corriges. (Les erreurs dans les lots
accepts ne sont pas toujours corriges, par exemple les erreurs de collecte qui demanderaient une
relance auprs du rpondant.) Bien que ce soit une bonne pratique, il nest pas toujours ncessaire
didentifier et de corriger les causes de la qualit mdiocre. Lchantillonnage dacceptation est le
principal outil du contrle qualitatif.

2.1.1

chantillonnage dacceptation

Lchantillonnage dacceptation est une technique de contrle qualitatif qui tablit le plan
dchantillonnage et les rgles de dcisions pour dterminer quels lots sont acceptables ou non. Dans
sa forme la moins complique, lchantillonnage dacceptation comprend la rpartition du travail en lots,
la slection et la vrification dun chantillon probabiliste dans chaque lot, et lacceptation ou le rejet du
lot, selon lampleur des erreurs releves dans lchantillon. Les autres lots rejets font habituellement
lobjet dune inspection complte et ils sont rectifis au besoin.
En particulier :
- la production est rpartie en lots dunits de taille N,
- un chantillon de taille n est slectionn dans chaque lot,
- les units de travail de lchantillon font lobjet dune inspection,
- le nombre total derreurs, d, de lchantillon est compar une limite dtermine et le nombre
acceptable est c,
- si d > c, le lot est rejet et il fait lobjet dune inspection complte, si d <= c, le lot est accept sans
autre inspection.

STATISTIQUE CANADA

338

MTHODES ET PRATIQUES DENQUTE

En crant les lots, on tente gnralement de faire des lots de qualit homogne. Un lot contient
habituellement le travail dune seule personne sur une courte priode de temps. Si cette personne travaille
sur plusieurs objets simultanment (en codant deux variables diffrentes pour chaque questionnaire, par
exemple), les lots ne devraient contenir quun seul objet. Cependant, plus les lots sont volumineux, moins
on les inspecte, et on doit donc arriver un compromis.
Le plan dchantillonnage est prcis par les deux nombres n et c qui peuvent tre calculs de diverses
faons, selon le but que vise le contrle qualitatif. Il y a plusieurs versions de lchantillonnage
dacceptation. Dans le contexte du traitement des donnes denqute, les valeurs de n et de c sont fixes
de sorte que le taux derreur la sortie soit infrieur une certaine borne appele qualit moyenne en
sortie ( average outgoing quality limit ou AOQL), tout en minimisant le nombre dinspections requises.
Cette mthode assure que le niveau de qualit globale sur lensemble des lots dpasse un seuil minimal.
Cest une assurance qu la fin du contrle qualitatif, le nombre dunits en erreur soit infrieur AOQL.
Les valeurs de n et de c dpendent de :
- la qualit prvue des intrants (avant linspection),
- la qualit voulue des extrants,
- la taille du lot, N,
- le risque (probabilit) de prise de dcisions errones,
- la probabilit de rejet dun bon lot (erreur du type I),
- la probabilit dacceptation dun mauvais lot (erreur du type II).
Voici dautres considrations qui ont des rpercussions sur la mthode de contrle qualitatif :
- la dfinition de lunit dchantillonnage (p. ex., une partie du questionnaire, tout le questionnaire),
- la formation des lots (p. ex., le travail dune journe),
- la mesure de la qualit (p.ex. le taux derreur, ou le nombre dunits dfectueuses par centaine
produite),
- la dfinition et la classification des erreurs,
- la mthode de slection de lchantillon (p. ex., chantillon alatoire simple (EAS), chantillonnage
systmatique ou par grappes),
- les procdures de rtroaction.
Le lecteur consultera avec profit Duncan (1986), Dodge et Romig (1959), Hald (1981) ou Smith et
Mudryk (1989) pour en savoir davantage propos de lchantillonnage dacceptation et sur
ltablissement dun plan dchantillonnage.
La rtroaction en est habituellement une partie intgrale de tout programme de contrle qualitatif officiel.
La rtroaction, de vive voix ou par crit, est habituellement faite laide de rapports, de tableaux ou de
graphiques sur les valuations et les rsultats de la qualit compils pendant le processus dinspection.
Ces rsultats sont ensuite rachemins rgulirement divers chelons du personnel affect lopration
de lenqute. La rtroaction peut participer lamlioration de la qualit, ce qui se traduit par une
diminution des taux dchantillonnage (rduction de n) et des cots.
Voici des exemples de rtroaction :
i.

Donner aux oprateurs (p. e. commis au traitement) de linformation sur le rendement du groupe
et leur rendement personnel (actuel et antrieur) et sur les causes les plus frquentes de leurs
erreurs. Les oprateurs peuvent ensuite suivre leur propre progrs, comparer leur rendement
celui de leurs pairs et dterminer explicitement o ils font des erreurs. Ce genre de rtroaction
amliore la capacit de loprateur, le moral et la productivit.

STATISTIQUE CANADA

ANNEXE B - CONTRLE QUALITATIF ET ASSURANCE DE LA QUALIT

339

ii.

Donner aux surveillants une rtroaction sur le rendement des oprateurs. Linformation comprend
les taux derreur, les taux dinspection et de rejet, ainsi que les estimations de la qualit des
donnes de sortie. Cette information aide les surveillants grer efficacement les oprateurs,
attribuer les ressources et rpartir le travail, identifier les oprateurs et les secteurs problme, et
dterminer les besoins de formation.

iii.

Remettre la direction des sommaires des principaux indicateurs de qualit. Cette mesure aide la
direction reprer le progrs de lapplication du point de la qualit et des cots, recommander
des modifications apporter aux objectifs oprationnels et obtenir une assurance de la qualit
pour le processus de lenqute. Au cours dune priode soutenue, cette mesure peut inciter
modifier la mthodologie, les procdures ou les plans dchantillonnage pour diminuer ensuite le
nombre dinspections.

2.2

Contrle statistique du processus (CSP)

Un processus est une squence dactivits planifie oriente vers un rsultat ou un but voulu, par
exemple, la fabrication dune pice dautomobile. Chaque tape du droulement dune enqute peut tre
considre comme un processus, par exemple, la slection dune base dchantillonnage, la slection de
lchantillon, la collecte des donnes, le traitement des donnes, etc. Tout processus comprend des
intrants et des extrants. Les intrants peuvent comprendre des gens, du matriel, des mthodes, de
lquipement, un milieu, la direction. Les extrants du processus sont le produit ou le service.
Lors du contrle statistique du processus, on suppose que les extrants sont les rsultats dun processus
uniforme, bien dfini, raisonnablement prvisible du point de vue de ces extrants, et qui produit des biens
qui atteignent ou dpassent le niveau de qualit vis. Un tel processus est dit sous contrle . Selon cette
approche, lobjectif du contrle qualitatif est dchantillonner occasionnellement le processus qui
fonctionne bien (c.--d. des intervalles dtermins) pour vrifier si quelque chose a chang dans le
processus (c.--d. sil sest dtrior).
Le contrle statistique du processus est lapplication de techniques statistiques pour mesurer et
analyser la variation dans les processus. Il y a toujours une variation parce que les extrants que produit
le mme processus varient dune certaine faon. Le plan dchantillonnage (hasard simple, stratifi, en
grappes, etc.) et les rgles de dcision servent surveiller la qualit du processus et lancer une
intervention lorsquil est vident que le processus est hors contrle. Les fluctuations mineures dans les
mesures qui peuvent tre dues la variabilit de lchantillonnage nont pas de rpercussions sur cette
procdure. Toutefois, lorsque les mesures dvient suffisamment, le processus est interrompu, les causes
de la dviation sont dtermines et le processus est ajust.
Le contrle du processus est une mesure prventive parce que le processus est interrompu lorsquil
devient hors contrle, ce qui vite de produire des nombres importants dextrants dfectueux. On ne fait
aucun effort visant amliorer directement la qualit en corrigeant des erreurs. Il sagit didentifier et de
tarir les sources derreurs. Si possible, tant donn la chane doprations, le processus devrait tre
interrompu jusqu ce quon ait remdi laugmentation des dfauts.
Il est habituellement possible didentifier la cause profonde de la plupart des problmes, mais il peut tre
difficile de le faire dans certains cas. Plusieurs outils disponibles aident y arriver, y compris lanalyse
Pareto, les graphiques de contrle, les diagrammes cause-effet, les sances de remue-mninges, etc. Juran
et Godfrey (1998) discutent des analyses de Pareto et des diagrammes cause-effet.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

340

Tout comme le contrle du produit, la rtroaction sur le contrle du processus devrait tre communique
aux oprateurs, aux surveillants et la direction.

2.2.1 Graphiques de contrle


Le graphique de contrle est le principal outil du contrle statistique du processus. Un graphique de
contrle trace les mesures conscutives de lchantillon tires priodiquement dun processus pour
examiner si elles sont dans les limites tablies par la variation du processus. Lensemble des limites est
intitul limites de contrle. Les limites suprieure et infrieure de contrle peuvent tre tablies en
fonction du jugement den expert, mais elles sont habituellement tablies trois carts-types de la ligne
du centre qui reprsente la valeur moyenne ou moyenne du processus. Cest lquivalent de calculer les
bornes dun intervalle de confiance (voir Chapitre 8 - Calcul de la taille de lchantillon et
rpartition). Les lignes de contrle sont les valeurs lextrieur desquelles le processus est considr
hors contrle. Laxe vertical reprsente la mesure de la qualit (p. ex., pour cent des donnes
dfectueuses) et laxe horizontal affiche la valeur de chaque observation de lchantillon en squence
chronologique.
Si toutes les observations de lchantillon sont dans les limites de contrle, le processus est considr sous
contrle. Si une observation ou plus est(sont) hors des limites de contrle, il faudrait interrompre le
processus et faire enqute pour dterminer les causes de la perte de contrle. Mme quand aucune
observation ne se pose hors des limites, mais quon observe une tendance, par exemple plusieurs lots la
suite se positionnent au-dessus de la ligne centrale, ou on observe une augmentation constante, il y aurait
lieu dinspecter le processus.
Divers graphiques de contrle sont disponibles selon la mesure de la qualit applique et la taille de
lchantillon fixe ou variable. Le graphique de contrle des attributs le plus commun est le graphique de
contrle illustr ci-dessous.
Graphique de contrle
0,08
0,07

Lim Sup

taux de dchet

0,06
0,05
0,04

LC

0,03
0,02
0,01
0
1

chantillon

STATISTIQUE CANADA

10

ANNEXE B - CONTRLE QUALITATIF ET ASSURANCE DE LA QUALIT

341

On remarquera que le graphique ne porte pas de limite infrieure; dans le traitement des donnes
denqute, la mesure dintrt est le taux derreur. Le fait que le taux derreur baisse ne constitue pas une
source dinquitude.
Pour des dtails sur dautres graphiques de contrle et dterminer comment en calculer la ligne du centre
et les limites de contrle, consulter Duncan (1986), Schilling (1982) ou Wheeler (1986).

2.3

Contrle statistique du produit et contrle statistique du processus

Le contrle statistique du produit (habituellement par chantillonnage dacceptation) se proccupe des


extrants : le produit. Dans le contexte du traitement dune enqute, le but est de dtecter et corriger assez
derreurs pour que le produit satisfasse aux exigences minimales de la qualit. Des plans de contrle
qualitatif peuvent aider minimiser la probabilit quun lot de qualit mdiocre soit nanmoins accept
(probabilit dune erreur de type II), ou que la qualit globale de lensemble des lots soit acceptable. Le
contrle statistique du processus ne cherche pas dtecter les erreurs; on part de lhypothse que la
qualit est dj acceptable on na pas corriger derreurs et on vrifie la qualit de certains lots pour
sassurer que celle-ci est toujours acceptable. Si les donnes contredisent lhypothse, il ne sagit pas de
corriger les erreurs, mais de corriger le processus.
On a rarement recours au contrle statistique du processus dans les traitements denqute parce que cela
suppose un processus qui a fonctionn avec consistance et fiabilit au niveau de qualit espr. Ce genre
de processus est rare dans les enqutes dont les oprations sont en partie manuelles. Avec lexprience,
les oprateurs deviennent davantage fiables et obtiennent des promotions des postes dencadrement,
ou passent un autre projet. De plus, quand la qualit du travail dun oprateur commence dcliner, il
est difficile de relever rapidement la qualit; la cause de la baisse de qualit est souvent lie lennui, la
fatigue, etc.
Cependant, ne serait-ce que parce quil est moins onreux, le contrle statistique du processus est
prfrable lchantillonnage dacceptation; les chantillons de contrle statistique du processus sont
plus petits que ceux exigs par lchantillonnage dacceptation.
Le contrle statistique du processus sest montr particulirement bien adapt aux oprations de saisie
automatises (ICR = Intelligent Character Recognition ou reconnaissance intelligente de caractres). On a
soumis la saisie du Recensement de lagriculture de 2001 au contrle statistique du processus. Comme le
travail est excut par une machine, une fois le niveau de qualit requis atteint, on pouvait sattendre ce
quil soit maintenu.. Si les taux derreurs augmentaient subitement, lajustement ou le remplacement
dune pice suffisait corriger la situation. La surveillance des interviews par ITAO se prte aussi au
contrle statistique du processus. Dans ce genre dapplication, on chantillonne des appels et les erreurs
(question mal pose, impolitesse, etc.) totalises. Comme il est impossible de corriger de telles erreurs,
cest--dire faire du contrle qualitatif, on doit plutt surveiller le processus, cest--dire faire du contrle
statistique de processus.

2.4

Contrle dacceptation

Voici une importante question considrer dans les oprations denqute : quand doit-on appliquer
quelles mthodes de contrle statistique de la qualit, en particulier lchantillonnage dacceptation ou le
contrle statistique du processus (CSP)? Comme on la expliqu plus haut, le dbut de plusieurs
oprations denqute commence de faon assez imprvisible parce quelles mettent en jeu beaucoup de
personnel avec un taux lev de roulement. Cependant, la formation, lexprience et la rtroaction
STATISTIQUE CANADA

342

MTHODES ET PRATIQUES DENQUTE

permettent de stabiliser ces processus. Tirer avantage de cette stabilisation et modifier les procdures
dinspection est donc souvent une bonne pratique, afin de rduire ventuellement le nombre des
inspections et les cots connexes.
Diverses stratgies dinspection sont disponibles cette fin, y compris : linspection rduite (c.--d.
prendre de plus petits chantillons et augmenter le risque daccepter un lot de moindre qualit),
linspection plus serre (c.--d. prendre des chantillons plus grands et rduire le risque daccepter des
lots mdiocres), linspection normale, linspection 100 % et les vrifications au hasard. Il peut aussi
sagir dabaisser le niveau de qualit vis si on doit lui consacrer beaucoup de temps et de ressources.
Lampleur de la stabilit du processus qui est vidente dtermine la mthode quil faudra appliquer. En
termes gnraux, plus un processus est stable et prvisible, moins linspection est ncessaire (c.--d.
quun risque plus grand lchantillonnage peut tre justifi).
Schilling (1982) a formul le postulat de lapproche du contrle dacceptation qui comprend une
stratgie continue de slection, dapplication et de modification des procdures dchantillonnage
dacceptation en milieu dinspection changeant. Les procdures dinspection modifies priodiquement
sont une fonction du degr de qualit atteint et des antcdents de la qualit disponibles. Le principe
prdominant du contrle dacceptation est dadapter continuellement les procdures dacceptation aux
conditions prsentes (qui changent gnralement avec le temps). La structure qui sert dterminer quand
changer de procdures dinspection est affiche dans le tableau suivant. Ce tableau est considr plus en
dtail au chapitre 19 de louvrage de Schilling (1982).
Tableau 1 : Contrle dacceptation Procdure dinspection laide des antcdents de la qualit
et des rsultats prcdents
Antcdents de la qualit relative
Rsultats
prcdents

Minimes

Moyens

Approfondis

< 10 lots

de 10 50 lots

> 50 lots

Excellents

Plan normal

Moyens

Plan normal

Vrifications rduites de
lots non successifs
Plan normal

Mdiocres

100 %

CSP vrifications au
hasard
Vrifications rduites
de lots non successifs
100 % vrifications
plus troites

100 % vrifications plus


troites

On peut remarquer dans le tableau ci-dessus que le processus dinspection du contrle dacceptation
devient dynamique et change mesure que le processus samliore ou se dtriore. En gnral, lorsque la
qualit samliore et que les antcdents de la qualit qui soutiennent cette constatation sapprofondissent,
les plans dchantillonnage sont modifis pour passer des plans normaux des plans avec inspections
rduites et ensuite, des plans avec inspections par sauts (skip-lot sampling chantillonnage
dacceptation o lon laisse passer des lots sans les inspecter si la qualit. des lots prcdents est leve),
des plans avec CSP, puis des vrifications priodiques au hasard. Lobjectif ultime de la stratgie du
contrle dacceptation est de rduire continuellement les inspections et les cots connexes, tout en
maintenant les degrs de qualit dtermins.

STATISTIQUE CANADA

ANNEXE B - CONTRLE QUALITATIF ET ASSURANCE DE LA QUALIT

3.0

343

Assurance de la qualit

Les erreurs peuvent coter chres et tre difficiles corriger, et il faudrait donc insister sur la prvention
des erreurs aux premires tapes de lenqute. Lassurance de la qualit couvre tous les aspects de la
qualit; son but est dempcher les erreurs de se produire en premier lieu.
Par exemple, une stratgie gnrale dassurance de la qualit aux fins du contrle des erreurs non dues
lchantillonnage est de prvoir les problmes avant quils ne se posent, et prendre les mesures pour les
empcher ou les minimiser, idalement aux tapes de la planification et de la conception de lenqute.
Voici des exemples de lassurance de la qualit :
- laborer une planification intensive,
- procder une tude de faisabilit,
- faire une enqute pilote (c.--d. mise lessai du systme denqute complet, du dbut la fin,
petite chelle),
- former les intervieweurs, les surveillants, les oprateurs de la saisie des donnes, les codeurs, etc.,
- organiser des sances dinformation,
- amliorer la base dchantillonnage,
- amliorer le plan dchantillonnage,
- amliorer la conception du questionnaire,
- modifier la mthode de la collecte des donnes (p. ex., passer de la collecte sur support papier la
collecte assiste par ordinateur),
- prvoir de meilleurs suivis de routine,
- formuler des procdures de traitement plus claires,
- faire des essais approfondis de tous les systmes de traitement avant de les utiliser,
- vrifier au hasard la collecte des donnes et les rsultats des activits dautres grandes enqutes.
Les lignes directrices concernant la qualit (1998) de Statistique Canada recommandent les activits
dassurance de la qualit suivantes pendant ltape de la conception et de la mise en uvre dune
enqute :
i.

Limplantation dun rgime comprenant un comit directeur et une direction du projet pour
garantir que les programmes statistiques se droulent selon leur mandat. Cette mesure donne un
mcanisme dexamen, de surveillance et de rapport sur ltat davancement, les problmes et les
questions, elle garantit linterprtation approprie du mandat et de lobjectif, ainsi que
lexpression de jugements appropris.

ii.

Lapplication dune approche par direction du projet-quipe de projet interdisciplinaire pour la


conception et la mise en uvre, afin de garantir que les considrations sur la qualit obtiennent
lattention approprie.

iii.

Lorsque des mthodes particulires sont appliques, elles devraient correspondre lensemble des
pratiques statistiques acceptes et justifiables, compte tenu des circonstances. Il faudrait favoriser
le recours de nouvelles technologies et aux innovations pour amliorer la qualit et lefficience
aprs les avoir mis lessai pour minimiser le risque. Il faudrait mettre les questionnaires lessai
pour vrifier si les rpondants comprennent les questions et peuvent donner les rponses voulues,
selon un degr de qualit acceptable. Il est important de surveiller la qualit, dintervenir
efficacement en cas de problmes imprvus, de vrifier ou de soutenir la crdibilit des rsultats
et den comprendre les limites.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

344

iv.

ltape de la conception ou de la nouvelle conception et dans le cadre des examens en cours, il


devrait y avoir des valuations techniques des mthodes proposes ou appliques, ainsi que de
lefficacit oprationnelle et des cots par rapport au rendement. Cette mesure permettra de
vrifier si les pratiques ou les propositions techniques sont convenables. Elle aidera aussi
amliorer et orienter la mise en uvre de composantes particulires de la mthodologie et des
oprations dans les programmes et entre eux.

v.

Lanalyse des donnes sert dcrire les phnomnes statistiques, informer en ce sens, et
dcouvrir les lacunes des donnes, mais elle devrait aussi tre un moyen dvaluer ou de mesurer
lexactitude et la convergence des donnes. Dans ce contexte, les rsultats de lanalyse peuvent
dboucher, par exemple, sur des procdures supplmentaires ou modifies de vrification, des
changements apports la conception du questionnaire, des procdures de collecte de donnes
supplmentaires, dautres sances de formation du personnel, lapplication de nouvelles
mthodes, procdures ou systmes, ou une nouvelle conception.

Du point de vue du travail, il est important de favoriser un milieu qui suscite lintrt pour la qualit et
latteinte de la meilleure qualit possible dans les limites oprationnelles et budgtaires. Ce volet
comprend :
- le recrutement de personnes talentueuses et leur perfectionnement pour quelles apprcient les
questions de qualit,
- un rseau de communication interne ouvert et efficace,
- des mesures explicites pour laborer des partenariats et approfondir la comprhension des
fournisseurs de lorganisme (en particulier les rpondants),
- llaboration et le maintien de dfinitions, classifications, structures et outils mthodologiques
standard pour soutenir lintelligibilit et la cohrence.
Il faudrait enfin documenter toutes les procdures de contrle qualitatif et dassurance de la qualit. Cette
documentation devrait comprendre :
i.

Les options, le choix ventuel et la justification : Le choix des procdures de contrle qualitatif et
de lassurance de la qualit en particulier nest pas vident pour toute opration et les lments
pris en considration devraient faire lobjet dune discussion.

ii.

Les procdures : Il faudrait prvoir des instructions ou un manuel lintention des surveillants et
des vrificateurs.

iii.

Les rapports : Il faudrait produire des rapports priodiques sur les rsultats des procdures de
contrle qualitatif et sur le rendement de chaque oprateur, afin de faire rapport sur la qualit ou
didentifier les oprateurs qui ont besoin davantage de formation.

Bibliographie
Brackstone, G. 1999. La gestion de la qualit des donnes dans un bureau statistique. Techniques
denqute, 25(2): 159-172.
Dodge, H.F. et H.G. Romig. 1959. Sampling Inspection Tables: Single and Double Sampling. Second
edition. John Wiley and Sons, New York.
Dufour, J. 1996. Labour Force Survey Data Quality. Statistics Canada. HSMD-96-002E/F.
Duncan, A.J. 1986. Quality Control and Industrial Statistics. Fifth edition. R.D. Irwin Inc., Illinois
STATISTIQUE CANADA

ANNEXE B - CONTRLE QUALITATIF ET ASSURANCE DE LA QUALIT

345

Fellegi, I.P. 1996. Characteristics of an Effective Statistical System. International Statistical Review,
64(2).
Groves, R.M. 1989. Survey Errors and Survey Costs. John Wiley and Sons, New York.
Hald, A. 1981. Statistical Theory of Sampling Inspection by Attributes. Academic Press, New York.
Juran, J.M. et A.B. Godfrey. 1998. Jurans Quality Handbook. Fifth Edition. McGraw-Hill, New York.
Linacre, S.J. et D.J. Trewin. 1989. Evaluation of Errors and Appropriate Resource Allocation in
Economic Collections. Proceedings of the Annual Research Conference. U.S. Bureau of the
Census. 197-209.
Linacre, S.J. et D.J. Trewin. 1993. Total Survey Design An Application to a Collection of the
Construction Industry, Journal of Official Statistics, 9(3): 611-621.
Lyberg, L. 1997. Survey Measurement and Process Quality. John Wiley and Sons, New York.
Mudryk, W. 2000. Note de cours STC446 Mthodes statistiques pour le contrle de la qualit. Ottawa.
Mudryk, W., M.J. Burgess et P. Xiao. 1996. Quality Control of CATI Operations in Statistics Canada.
Proceedings of the Section on Survey Research Methods. American Statistical Association. 150159.
Schilling, E.G., 1982. Acceptance Sampling in Quality Control. Marcel Dekker, New York.
Smith, J., W. Mudryk, et R. Stankewich. 1989. Standardization of QC Sampling Plans for Survey
Operations, Part 1: Guidelines and Rationale, Quality Control Section, Business Survey
Methods Division, Statistics Canada.
Statistique Canada. 1998. Lignes directrices concernant la qualti. Troisime dition. 12-539-XIF.
Wheeler, D.J. et D.S. Chambers. 1986. Understanding Statistical Process Control. SPC Press, Knoxville,
TN.
Williams, K,C. Denyes, M. March et W. Mudryk. 1996. Mesure de la qualit durant le traitement des
donnes denqute. Symposium 96: Erreurs non dues lchantillonnage : recueil. Statistique
Canada. 131-142.

STATISTIQUE CANADA

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

Mthodes et Pratiques denqute - tude de cas

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

TUDE DE CAS

Prface
Cette tude de cas propose une enqute fictive conue pour suivre pas pas le dveloppement dune
enqute gnrale auprs de mnages. On y retrouvera les mthodes et principes noncs dans les chapitres
correspondants des Mthodes et pratiques denqute. De cette faon, un seul exemple suffit illustrer
toute la matire du livre. Le processus dlaboration de lenqute de ltude de cas est dcrit du point de
vue de lquipe de projet qui lon en aurait confi la responsabilit.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

Table des matires


1. Introduction aux enqutes ........................................................................................................................... 351
2. Formulation de lnonc des objectifs ....................................................................................................... 354
3. Introduction au plan denqute .................................................................................................................. 364
4. Mthodes de collecte de donnes................................................................................................................ 367
5. Conception du questionnaire....................................................................................................................... 369
6. Plans dchantillonnage. ............................................................................................................................. 377
7. Estimation ................................................................................................................................................... 380
8. Calcul de la taille dchantillon et rpartition ............................................................................................. 385
9. Oprations de collecte de donnes .............................................................................................................. 392
10. Traitement ................................................................................................................................................. 397
11. Analyse des donnes ................................................................................................................................. 401
12. Diffusion des donnes............................................................................................................................... 405
13. Planification et gestion de lenqute ......................................................................................................... 408

STATISTIQUE CANADA

TUDE DE CAS

351

Chapitre 1 - Introduction aux enqutes


1.0 Introduction
Un changement conomique rapide est remarqu depuis quelques annes au pays de Belleterre qui passe
par un processus de rforme conomique. Le Bureau de statistique de Belleterre (BSB) est bien conscient
quil est de plus en plus urgent dobtenir de linformation jour sur ltat de lconomie et la situation
socioconomique de la population. Il a entrepris des efforts pour moderniser plusieurs aspects de son
programme statistique.
Le BSB convient en particulier quil faut obtenir de linformation pertinente, objective et prcise sur la
situation des mnages en milieu rural et urbain. Il veut cette fin obtenir des ressources pour lancer une
enqute permanente sur les mnages qui pourrait tre intitule Enqute gnrale sur les mnages (EGM).
Le gouvernement national affirme soutenir lenqute et dtermine actuellement les ressources quil
faudrait rserver cet effort.
Les tudes prliminaires des demandes dinformation de divers ministres utilisateurs indiquent que
lEGM devrait avoir lieu une fois par anne et tre reprsentative de la population lchelon du pays,
des importants centres urbains et des rgions conomiques infranationales. Au nombre des grands sujets
cibls par lenqute, on compte :
-

les caractristiques sociodmographiques,


lactivit du march du travail,
les caractristiques des revenus et dpenses,
les indicateurs des conditions de vie.

Un certain nombre dimportants ministres nationaux veulent aussi obtenir de linformation de lEGM. Le
ministre de la Sant apprcierait de linformation dtaille sur la sant de la population et le ministre de
lAgriculture a demand des donnes sur les activits agricoles des mnages en milieu rural et urbain.
Plusieurs ministres conomiques voudraient de linformation sur les petites entreprises. Toutes ces
activits supplmentaires sont considres, mais aucune dcision dfinitive na encore t prise sur les
points, sil en est, qui seront ajouts lEGM.
Dans le contexte de ces grands objectifs, une quipe de projet est forme pour concevoir et mettre en
uvre la nouvelle enqute. Vous avez t choisi membre de lquipe du projet et commencerez bientt
participer llaboration de lenqute. La premire runion de lquipe aura lieu sous peu et vous
rservez du temps pour examiner linformation disponible sur Belleterre partir du dernier recensement
et dautres enqutes sur les mnages. Vous ralisez rapidement que la majeure partie de linformation,
non seulement nest plus jour, mais quelle est aussi insuffisante, parce que les donnes disponibles ne
refltent pas les nouvelles ralits conomiques. Voir lAnnexe 1.1 pour un aperu de Belleterre.
Questions de rcapitulation :
Pourquoi une enqute a-t-elle t propose?
Quels sont les points lmentaires considrer dans lenqute?

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

352

Annexe 1.1 : Profil statistique de Belleterre


Voici un sommaire de linformation disponible sur la situation conomique et dmographique de
Belleterre. Les donnes sont tires des recensements de 1970 et de 1994. Les notes comprennent certaines
projections et estimations prliminaires formules laide du recensement de 1994.
La population de Belleterre slve actuellement environ 44 millions de personnes, comparativement
30 millions environ en 1970 et un peu moins de 41 millions lors du recensement de 1994. Le taux de
croissance modr de la population se maintient et elle devrait atteindre 55 millions de personnes dici
20 ans. Cette croissance de la population, ainsi que le taux lev de la migration du milieu rural en milieu
urbain, ont acclr les rcents changements dans la structure conomique du pays.
Lurbanisation est la hausse depuis deux dcennies Belleterre o la migration de la campagne vers les
centres urbains est importante, en particulier dans les trois plus grandes villes. Environ 40 % seulement de la
population habitent maintenant en milieu urbain.
La capitale, Ville A, est tablie dans la rgion de la valle centrale. Sa population en croissance rapide devrait
atteindre prs de quatre millions de citoyens au milieu 2005. Dans les deux autres principaux centres urbains,
Ville B au sud du pays et Ville C au nord, le rythme de croissance de chacune est semblable et infrieur
celui de Ville A. Ces trois villes qui englobaient un peu moins du douzime de la population de Belleterre en
1970 comprennent maintenant prs du cinquime dun total plus lev et elles continuent dattirer un dbit
constant de migrants de la campagne proximit.
Lconomie du pays est toujours largement axe sur les ressources naturelles et agricoles, les principaux
produits agricoles tant le riz et le caf. Lexploitation minire, en particulier le cuivre et le charbon,
favorisent les changes avec ltranger et contribuent ainsi lconomie. Linfrastructure de la fabrication est
en expansion rapide, en particulier pour les textiles et les composantes lectroniques, et les produits sont
exports ltranger en majeure partie. Le revenu par personne dans lensemble, selon les estimations, a
augment de 6,4 % par anne en moyenne depuis 1990.
Les tableaux suivants affichent un sommaire des indicateurs conomiques et dmographiques importants.
Tableau 1.1 : Population de Belleterre
Anne
1970
1994
2000
2005

Population (au milieu de


lanne)
30 110 000
40 850 000
43 840 000
47 200 000

2010

50 000 000

2015

52 800 000

2020

55 300 000

STATISTIQUE CANADA

Source
Recensement de 1970
Recensement de 1994
Estimation du BSB
Projection dmographique
du BSB
Projection dmographique
du BSB
Projection dmographique
du BSB
Projection dmographique
du BSB

TUDE DE CAS

353

Tableau 1.2 : Belleterre : Population (en milliers de personnes), par rgion


Rgion
Ville A
Ville B
Ville C
District D
District E
District F
District G
District H
District I
District J
District K
Total

Recensement de
1970
1 760
925
2 145
1 885
3 400
3 670
3 085
2 300
3 200
4 260
3 480
30 110

Source
Recensement de
1994
3 250
1 675
3 189
2 467
4 450
4 800
3 975
2 965
4 120
5 480
4 470
40 850

Estimation 2000 du
BSB
4 080
2 060
3 625
2 600
4 690
5 045
4 160
3 080
4 320
5 640
4 540
43 840

Tableau 1.3 : Belleterre : Produit intrieur brut par personne


Anne
1990

PIB par personne (prix de 1990)


5150

1994

6175

2000

9600

STATISTIQUE CANADA

Source
Estimation intercensitaire
(BSB)
Donnes corriges du
recensement
Estimation prliminaire

354

MTHODES ET PRATIQUES DENQUTE

Chapitre 2 - Formulation de lnonc des objectifs


2.0 Formulation de lnonc des objectifs
Lquipe de projet charge de llaboration de la nouvelle Enqute gnrale sur les mnages (EGM) est
officiellement nomme et se runit pour la premire fois pour commencer son travail. Elle fera rapport au
Comit directeur form de reprsentants de la direction et de professionnels chevronns, et elle doit
prparer rapidement un plan de travail dtaill pour prsentation au Comit directeur.
Lquipe sait que lEGM doit couvrir un large ventail de sujets et donner de linformation au moment
opportun plusieurs fois par anne. Elle convient aussi quil y a des millions de personnes au pays et
constate rapidement quil ne serait pas raliste ou ncessaire de faire un recensement. Une enqutechantillon sera suffisante et probablement prfrable un recensement (voir le Chapitre 3 de ltude de
cas), mme si le genre et la taille de lchantillon ne sont pas encore prcis.
Lquipe dcide quil faut rserver les premires runions llaboration dun nonc dobjectifs pour
approbation au Comit directeur avant dentreprendre llaboration dtaille de lenqute.

2.1

Dtermination des besoins dinformation

Lquipe de projet commence travailler lnonc des objectifs pendant la deuxime runion. Compte
tenu de la longue liste de demandes dinformation dont lquipe est consciente, lobjectif gnral de
lEGM pourrait tre nonc librement comme suit : tudier les conditions conomiques et sociales de la
population. Cet nonc est beaucoup trop vague pour lappliquer directement en pratique et vous ne
pouvez certainement pas esprer obtenir de linformation utile en posant simplement des questions aux
gens sur leurs conditions conomiques et sociales .
Lquipe doit donc relever deux dfis. Le premier est de convertir lnonc gnral vague des besoins en
sujets particuliers pour ltude et le deuxime est de dterminer lesquels de ces sujets peuvent et devraient
tre couverts dans lenqute.
Les quatre grands thmes de linformation sociodmographique, de lactivit du march du travail, des
caractristiques des revenus et dpenses, et des conditions de vie sont dj considrs comme des priorits
leves. Divers ministres ont aussi demand des donnes sur la sant, la production agricole et lactivit
des petites entreprises.
Lquipe doit vrifier sil est possible ou ncessaire dintgrer une telle varit de sujets dans une seule
enqute, et elle doit faire des recommandations au Comit directeur sur la faisabilit, les avantages et les
risques de lintgration de chacun des principaux domaines.
Lquipe doit essayer didentifier et de consulter les principaux utilisateurs des donnes et de sinformer
sur les dfinitions et les concepts pertinents de la matire pour dterminer les besoins particuliers
dinformation.

STATISTIQUE CANADA

TUDE DE CAS

2.2

355

Utilisateurs et utilisations des donnes

Une liste des principaux utilisateurs des donnes est dresse partir de conseils des membres du Comit
directeur. Certains dentre eux sont au BSB et travaillent dans des domaines spcialiss, notamment les
divisions de la statistique du secteur de la fabrication, de lanalyse dmographique et des comptes
nationaux. Dautres sont des analystes de politiques des ministres des programmes centraux qui
sintressent certains domaines, notamment, la politique industrielle et de lemploi, la politique de la
construction des logements et rsidences, le secteur de lenseignement et lexpansion des transports.
Un membre de lquipe est affect chaque thme propos de lenqute, afin de consulter le plus grand
nombre possible des principaux utilisateurs des donnes dans son domaine et de prparer un sommaire de
ses discussions pour la prochaine runion. Aprs les discussions prliminaires avec les utilisateurs des
donnes, lquipe du projet se runit pour tudier les rapports sur chaque consultation. Les membres en
ont tellement appris en fait quil faudra prvoir trois autres runions.
Le membre de lquipe affect aux caractristiques sociodmographiques fait rapport en premier et
affirme que les principaux utilisateurs sont les experts intresss avant tout aux vnements
dmographiques lmentaires de la famille, notamment, les naissances, dcs et mariages, la composition
de la famille et la migration (p. ex., limmigration, lmigration et la migration entre rgions et milieux
urbain et rural). Il est convenu aprs discussion que le membre de lquipe essaiera dobtenir de
linformation plus dtaill sur chacun de ces sujets, en particulier sur la disponibilit de renseignements
pertinents dans les sources actuelles, par exemple, les registres de ltat civil.
Le deuxime membre informe lquipe que les principaux sujets pertinents lactivit du march du
travail comprennent le statut de la population active (employ, sans emploi, hors de la population active),
le travail salari ou le travail autonome, le travail plein temps ou temps partiel, la branche dactivit, la
profession, le nombre dheures travailles, etc. Plusieurs utilisateurs, en particulier les planificateurs des
ministres de lEmploi, de lducation et de la Construction, soutiennent fermement quaucune des
enqutes actuelles ne rpond suffisamment aux besoins dinformation sur le march du travail dans le
contexte des changements rapides actuels dans la structure conomique du pays. Ils ont donc besoin, par
exemple, destimations prcises et objectives du nombre de personnes qui travaillent dans des activits en
particulier, notamment la construction de btiments, dans chaque rgion ou ville du pays. Les analystes
veulent aussi dterminer le nombre de travailleurs qui ont plus dun emploi, leurs heures relles de travail
et leurs gains. Le membre de lquipe est charg de franchir ltape suivante et dobtenir de linformation
plus dtaille sur les besoins de donnes et dessayer dobtenir les donnes ventuellement disponibles,
par exemple, celles des enqutes prcdentes.
Votre rapport porte sur les revenus et dpenses des mnages. Vous avez appris que la dfinition de revenu
des mnages peut comprendre tous les revenus (bruts ou nets) en espces ou en nature de tous les
membres du mnage au cours dune priode de rfrence, par exemple, le mois prcdent ou lanne
dernire. Les dpenses peuvent comprendre les sommes verses pour les aliments, les vtements, le
logement, les transports, la scolarit, les soins de sant, etc., ainsi que les biens ou services changs
directement (troc) pour dautres biens et services reus. Lactif et le passif du mnage peuvent aussi tre
considrs pertinents aux fins analytiques de lenqute.
Vous avez aussi constat quil y a de nombreux utilisateurs ventuels des donnes sur ces sujets. Le BSB
voudrait obtenir des donnes plus dtailles sur les revenus et dpenses pour renforcer certaines
composantes des comptes nationaux. Les comptes actuels sont moins complets au chapitre des revenus du
secteur priv, en particulier pour la main-duvre et les entreprises. Ceux qui sintressent la mesure du
commerce de dtail, du pouvoir dachat et de la construction rsidentielle prvue veulent en apprendre
davantage sur lvolution des revenus de la famille et les changements des caractristiques des dpenses

STATISTIQUE CANADA

356

MTHODES ET PRATIQUES DENQUTE

pour renforcer les rapports quils prsentent aux dcideurs de lconomie. On a aussi constat que les
estimations du revenu disponible intressent beaucoup le secteur de la fabrication et les administrations
du tourisme. Il reste beaucoup de travail faire pour en arriver au niveau de dtails appropri et vous
convenez dentreprendre le deuxime volet de lenqute dans le domaine. Vous examinerez donc de plus
prs la disponibilit des donnes pertinentes actuelles.
Le quatrime membre de lquipe fait rapport et, selon lui, les plus importants indicateurs des conditions
de vie semblent faire rfrence aux conditions du logement, laccs et au recours aux transports,
laccs aux services denseignement, ces volets tant tous trs importants pour les planificateurs de
linfrastructure municipale et nationale. Une nouvelle phase de recherche est lance sur ce sujet.
Le charg de projet a dj eu certaines discussions prliminaires sur les thmes supplmentaires
ventuels, et il fait aussi brivement rapport :
i.

Le recours aux services de soins de sant des mnages lan dernier pourrait comprendre lachat de
produits pharmaceutiques, les visites aux cliniques ou aux mdecins locaux, les soins en milieu
hospitalier, par exemple, la chirurgie dans les hpitaux. Ces sujets intressent particulirement le
ministre de la Sant qui veut mesurer le taux de changement de la demande pour les diffrents
types de services de soins de sant.

ii.

Lintrt pour lactivit agricole du mnage peut comprendre les cultures ou llevage du btail
sur une terre loue ou qui appartient au mnage, ou sur une terre communautaire, que la
production soit pour la vente au march ou la consommation personnelle. Les analystes du
ministre de lAgriculture veulent de linformation jour sur les genres et les quantits de
produits agricoles envoys aux marchs urbains, afin de faciliter la planification et la formulation
de politiques.

iii.

Lactivit des entreprises domicile (autres que la vente de produits agricoles) peut comprendre
la fabrication petite chelle, les restaurants non officiels, la coiffure et un grand nombre dautres
activits, par exemple, la boulangerie et la fabrication de chaussures. Les analystes de la
planification conomique sont intresss obtenir cette information pour comprendre la structure
de lconomie et reprer le taux de mouvement vers les petites entreprises du secteur priv.

Les ministres qui sintressent des thmes supplmentaires ont obtenu une estimation gnrale du cot
de lintgration de leurs sujets dans une grande enqute polyvalente et, aux dernires nouvelles, ils
semblent hsiter librer les ressources ncessaires, au moins pour cette anne. Intgrer tant de sujets
dans la premire dition de lEGM inquite aussi lquipe cause de lnorme fardeau de rponse et des
rpercussions ngatives ventuelles sur la qualit des donnes. Lquipe informe le Comit directeur qui
lui conseille de cibler la dfinition de lnonc des objectifs selon les quatre principaux thmes et de
rserver les ajouts ventuels aux occasions denqute ultrieures.
Lquipe continuera donc dapprofondir lnonc des objectifs pour chacun des quatre principaux sujets
(caractristiques sociodmographiques, activits du march du travail, revenus et dpenses, conditions de
vie), tout en considrant lutilit des sources de donnes actuelles.
Compte tenu des discussions prolonges au cours des rcentes runions de lquipe, vous continuez votre
recherche dans la matire qui vous est confie, c.--d. les revenus et dpenses des mnages. Plusieurs
utilisateurs et diverses utilisations des donnes sont dj identifis. Les ministres centraux ont aussi
besoin davantage dinformation jour sur les revenus des familles, et en particulier sur les dpenses pour
les aliments, afin de dterminer si des subventions de ltat sont ncessaires pour protger les familles
faible revenu. Dautres utilisateurs voudraient des donnes pour tablir des modles conomtriques, afin
destimer les hausses de demandes de biens de consommation, de denres alimentaires superflues et de
STATISTIQUE CANADA

TUDE DE CAS

357

logements amliors. Ces estimations donneraient aux secteurs de la fabrication et de la construction de


linformation qui les aiderait planifier de nouveaux projets et prendre des dcisions sur lembauche de
travailleurs supplmentaires.
Vous navez cependant pas eu le temps daller de lavant cette deuxime tape de la dfinition et dj,
lquipe est convoque une runion imprvue avec le Comit directeur. Lquipe est informe que le
budget prvu pour la premire dition (premire anne) de lEGM est rduit de beaucoup (plus de 50 %).
Lquipe devra cibler les thmes essentiels les plus importants, tout en continuant de prparer une
infrastructure denqute qui pourrait immdiatement prendre de lexpansion pendant la deuxime anne si
les ressources ncessaires sont disponibles.
Le Comit directeur et lquipe du projet considrent linformation obtenue ce jour et tirent les
conclusions suivantes :
i.

Presque toutes les mesures dmographiques demandes, mme imparfaites, peuvent tre
produites avec satisfaction partir des donnes actuelles, notamment les statistiques de ltat civil
et les registres du logement, directement ou autrement, pour au moins une autre anne.

ii.

Plusieurs ministres affirment quaucune des sources actuelles ne donne de linformation


approprie sur le march du travail dans le contexte des circonstances conomiques changeantes.

iii.

Plusieurs membres du Comit directeur soutiennent que linformation sur les revenus et dpenses
tire des enqutes actuelles peut servir moyen terme, surtout si elle est renforce laide de
lEGM par de meilleurs renseignements sur lvolution du march du travail.

iv.

Au volet de linformation demande sur les conditions de vie, il faut obtenir de meilleures
donnes sur le march du travail pour amliorer les projections sur les besoins de logements, de
transports et de services denseignement, afin de rpondre aux principaux besoins immdiats.

Il devient vident que la conception initiale de lEGM devra tre axe sur la composante march du
travail et quil faudra reporter plus tard les autres sujets de la liste initiale.

2.3

Concepts et dfinitions oprationnelles

La porte de lEGM est maintenant dfinie de plus prs et la prochaine tche de lquipe est de prciser
les concepts et les dfinitions oprationnelles pour les sujets de lenqute, afin de dtailler la matire de
lenqute. La charge de travail est de nouveau rpartie entre les membres de lquipe.
Lquipe commence dfinir certains des concepts essentiels la description de lactivit du march du
travail de Belleterre : population active, employ, sans emploi. Les membres de lquipe rflchissent aux
concepts, mais formulent davantage de questions que de rponses, par exemple :
i.

Population active

Qui doit-elle englober? Le concept de la population active sapplique-t-il galement en milieu urbain et
rural? Que faire avec ceux qui travaillent ou rsident dans une rgion, mais dont la rsidence permanente
est ailleurs? des fins pratiques, faudra-t-il considrer que cette personne fait partie de la population
active de son lieu de rsidence permanente ou de la rgion o elle travaille actuellement? Comment
classer les personnes qui peuvent travailler, qui ne sont pas encore la retraite, mais qui ne travaillent pas
ou ne cherchent pas de travail?

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

358

ii.

Employ

La dfinition de lemploi comprend-elle seulement le travail rmunr en argent ou faudrait-il ajouter le


travail en change de biens et services? Comment dfinir le travail plein temps et temps partiel? Une
personne peut-elle avoir un emploi plein temps et un autre temps partiel, si oui, est-ce le nombre
dheures travailles ou un autre critre qui dtermine la dfinition? Y a-t-il des dfinitions convenables
demployeur, demploy et de travailleur autonome? De nouveau, les dfinitions de lemploi devraientelles tre diffrentes si la personne habite en milieu rural ou urbain? Si une personne travaille ailleurs que
dans le secteur de sa rsidence permanente, faudrait-il considrer quelle y est employe, et faudrait-il
tablir quelle est employe, sans emploi, ou simplement absente de son lieu de rsidence permanente?
iii.

Sans emploi

Une personne est-elle considre sans emploi simplement parce quelle ne travaille pas? Quen est-il si
elle ne veut pas travailler? Ou si elle a cherch du travail tellement longtemps quelle a abandonn,
dcourage de ne jamais trouver un emploi?
Lquipe a beaucoup de difficults rpondre toutes ces nouvelles questions. Certains membres
cherchent des dfinitions utilises dans dautres pays et dcouvrent les dfinitions standard suivantes de
lOrganisation internationale du travail (OIT) :
i.

Population active : Une personne est considre membre de la population active si elle est
employe ou sans emploi (voir ci-dessous).

ii.

Employ : La personne employe est celle qui, au cours de la priode de rfrence :


a. accomplit nimporte quelle tche un poste ou dans une entreprise, cest--dire un travail
rmunr dans le contexte dune relation employeur-employ, ou qui est travailleur
autonome. Cette catgorie comprend aussi le travail non rmunr dans la famille,
cest--dire selon la dfinition, un travail non rmunr qui contribue directement au
fonctionnement dune exploitation agricole, dune entreprise ou dune pratique
professionnelle exploite par un parent du mme mnage et dont il est propritaire,
ou
b. a un emploi, mais nest pas au travail pour certaines raisons, notamment une maladie ou une
incapacit de sa personne, des responsabilits personnelles ou familiales, les congs annuels,
un diffrend employeur-employs ou pour dautres raisons ( lexception de la personne mise
pied, entre deux emplois occasionnels ou qui a un emploi commenant une date
ultrieure).

iii.

Sans emploi : La personne sans emploi est celle qui, au cours de la priode de rfrence :
a. est mise pied temporairement, sauf si elle sera rappele au travail et si elle est disponible
pour travailler,
ou
b. est sans travail, a activement cherch du travail depuis quatre semaines et est disponible pour
travailler,
ou
STATISTIQUE CANADA

TUDE DE CAS

359

c. a un nouvel emploi qui commencera dans les quatre semaines suivant la priode de rfrence
et est disponible pour travailler.
iv.

Hors de la population active : La personne hors de la population active est celle qui, au cours de
la priode de rfrence, nest pas dispose offrir ou fournir des services de main-duvre, ou est
incapable de le faire, compte tenu des conditions de son march du travail, cest--dire quelle
nest ni employe ni sans emploi.

Lquipe dcide de concevoir le questionnaire de sorte que les donnes obtenues serviront estimer les
mesures selon les concepts de lOIT. Il sera donc possible de comparer avec les mesures internationales
appliques lactivit du march du travail. Lquipe remarque que les dfinitions de lOIT restreignent
lanalyse aux personnes ges de 15 ans et plus. Elle dcide dappliquer cette norme en gnral.
Lquipe remarque aussi quil est difficile de dfinir certains concepts essentiels, par exemple, le
logement, le mnage et la famille. Aprs une certaine recherche, lquipe dcide dadopter les dfinitions
standard suivantes :
v.

Logement : tout ensemble de pices dhabitation de structure distincte comprenant une entre
prive lextrieur de ldifice ou qui donne sur un vestibule ou un escalier commun dans
ldifice.

vi.

Mnage : toute personne ou groupe de personnes qui habitent dans un logement. Un mnage peut
comprendre tout ensemble des lments suivants : une personne qui vit seule, une famille ou plus,
un groupe de personnes sans lien de parent, mais qui partagent le mme logement.

vii.

Famille : un groupe de deux personnes ou plus qui habitent dans le mme logement et qui sont
lies par le sang, le mariage (union libre comprise) ou ladoption. Une personne qui habite seule
ou qui na de lien avec aucune autre personne dans le logement o elle habite est classe hors
famille .

Lquipe constate quune enqute ciblant strictement les activits de la population active ne permettra pas
aux analystes de tracer un profil trs dtaill de la population active Belleterre. Elle ralise quil faudra
faire la collecte de donnes, non seulement sur lactivit, mais aussi sur la dmographie, la scolarit, les
revenus, etc., aux fins de la classification.

2.4

Matire de lenqute et plan danalyse

Lquipe commence tracer certains tableaux prliminaires de donnes de sortie pour aider prciser la
matire de lenqute demandant chaque tape quelles questions analytiques elle peut aider rpondre. Il
semble vident, par exemple, que lEGM devra permettre de produire certains tableaux, par exemple, La
population active selon le degr de scolarit et l Emploi selon lge et le sexe . Il faut donc faire la
collecte de renseignements sur lemploi et les caractristiques dmographiques du mnage.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

360

Vous tracez un tableau fictif de la premire rubrique :


Tableau 2.1 : Situation vis--vis de lactivit selon le degr de scolarit
Degr de
scolarit

Employ

Situation vis--vis de lactivit


Sans emploi
Population
Hors de la population
active
active

Sous la
moyenne
Au-dessus de la
moyenne
Total
Rsultat tout fait insuffisant. Dans le cas des tiquettes sous la moyenne et au-dessus de la
moyenne de la colonne Degr de scolarit, sagit-il du degr de scolarit moyen qui sera dtermin
partir des donnes de lenqute ou dun certain concept exogne de la moyenne du degr de scolarit .
Quelles valeurs seront inscrites dans les cases du tableau? Sagira-t-il dun calcul (nombre estim de
personnes), de proportions, de pourcentages?
Vous navez pas oubli que des questions plus dtailles (dans le fichier des donnes videmment)
peuvent toujours tre regroupes pour totalisation et vous considrez lautre extrme :
Tableau 2.2 : Situation vis--vis de lactivit selon le nombre dannes de scolarit (nombre de
personnes)
Annes de
scolarit

Employ

Situation vis--vis de lactivit


Sans emploi
Population
Hors de la
active
population active

Total

1
2
3

99
Total
La collecte dautant de dtails et linterprtation sense seront difficiles. Vous dcidez que les degrs de
scolarit devraient tre regroups de faon significative pour la totalisation, mme si le nombre exact
dannes de scolarit est demand pour permettre lanalyse dtaille de la variable de la scolarit. Dans le
tableau ci-dessus, les degrs de scolarit pourraient tre regroups ainsi : tudes primaires, tudes
secondaires de premier cycle, tudes secondaires de deuxime cycle, tudes collgiales techniques et
tudes universitaires (la question pourrait cibler le nombre de plus lev dannes dtudes suivies ou
acheves).
Il a t suggr que des estimations fiables sont ncessaires pour chacune des 11 rgions de Belleterre
(trois villes et huit districts). Vous oubliez pour linstant le besoin ventuel de dtails plus approfondis et
vous considrez des totalisations qui permettront dafficher distinctement les 11 rgions prcises.

STATISTIQUE CANADA

TUDE DE CAS

361

Tableau 2.3 : Situation vis--vis de lactivit selon la rgion, pour la population adulte de Belleterre,
(donnes pondres)
Rgion
Employ

Situation vis--vis de lactivit


Sans emploi
Population
Hors de la
active
population active

Total

Ville A
Ville B
Ville C
District D
District E
District F
District G
District H
District I
District J
District K
Total
Vous ne savez pas vraiment comment prsenter ce tableau le plus efficacement, mais cette dcision peut
tre reporte parce quelle naura pas de rpercussions sur les questions poser.
Vous tracez plusieurs tableaux semblables et essayez dans chaque cas de dterminer les dtails
appropris. Vous tes enfin prt pour la prochaine runion de lquipe o les suggestions de chaque
membre feront lobjet dune discussion et seront compares. Lquipe a prpar prs de 20 tableaux, par
exemple :
- situation vis--vis de lactivit selon lge et le sexe,
- situation vis--vis de lactivit selon le degr de scolarit,
- emploi par branche dactivit,
- situation vis--vis de lactivit par rgion,
- nombre moyen dheures habituelles de travail des employs selon quelques caractristiques choisies,
- traitements moyens des employs selon quelques caractristiques choisies.
La liste dtaille des sujets prend maintenant forme et lquipe commence rdiger lnonc des objectifs
qui comprend son interprtation des besoins dinformation pour lenqute, lidentification des principaux
utilisateurs connus, les dfinitions provisoires des principaux concepts et la proposition dun certain
nombre de tableaux pour lanalyse descriptive prliminaire. Lquipe na pas limpression dtre
actuellement en position de faire des commentaires sur la prcision parce que ni le plan dchantillonnage
ni la frquence de lenqute nont t dtermins.
Lquipe envoie lAnnexe 2.1 aux membres du Comit directeur pour discussion la prochaine runion.
(Il est convenu de la prsenter avec mention quil sagit l dune version prliminaire.) Voil qui donnera
du temps aux membres du Comit directeur pour prparer des commentaires dtaills et, simultanment,
lquipe du projet continuera de travailler aux dtails de la matire de lenqute propose.
Questions de rcapitulation :
Donnez des dfinitions de la population cible et de la population observe.

STATISTIQUE CANADA

362

MTHODES ET PRATIQUES DENQUTE

Expliquez dans vos propres mots pourquoi lEGM couvrira une matire beaucoup plus restreinte que
celle considre au dpart.
Essayez de formuler un nonc plus explicite des besoins de donnes et de leurs utilisations pour la
Division de la dmographie et le ministre de la Planification conomique.
Proposez cinq tableaux y ajouter.
Quelles dfinitions de population active, employ et sans emploi proposeriez-vous au Comit directeur?
Auraient-elles des rpercussions sur les sujets proposs?
Annexe 2.1 : bauche de lnonc des objectifs de lEnqute gnrale sur les mnages de Belleterre
Introduction
la demande et sous la direction du Comit directeur de lEnqute gnrale sur les mnages (EGM),
lquipe de projet a prpar lbauche suivante de lnonc des objectifs pour la premire dition de
lEGM qui se droulera lan prochain.
Lenqute portera sur les activits du march du travail (emploi et autres activits gnratrices de revenu,
recherche demploi, heures de travail, traitements, etc.), ainsi que sur certaines caractristiques
sociodmographiques. Il faudra mentionner en contexte que le but original tait dlaborer une enqute
ayant une couverture thmatique plus large, y compris de nombreux indicateurs lis la dmographie,
aux revenus et dpenses des mnages, aux activits des entreprises, et qui comprendrait ventuellement
des donnes supplmentaires sur la sant et lagriculture. Ce genre denqute est toujours lobjectif
moyen terme du BSB. Le projet initial sera cependant moins ambitieux et plus troitement cibl.
La recherche prliminaire a rvl que les domaines spcialiss de la dmographie et des revenus et
dpenses peuvent tre couverts correctement laide des sources actuelles (registres de ltat civil et
enqutes sur les mnages en milieu urbain et rural, respectivement) pour au moins une autre anne.
Linformation sur les domaines priorit leve des autres sujets dimportance peut au moins tre
renforce laide des donnes obtenues avec cette version de lEGM. Voil pourquoi les objectifs
noncs visent surtout les activits du march du travail.
Principaux utilisateurs des donnes
Les principaux utilisateurs des donnes de lEGM sont la Division de lanalyse de la population active du
BSB et les planificateurs conomiques des ministres de lEmploi, de lducation et de la Construction
du secteur des mnages. Dautres utilisateurs comprendront la Division de la dmographie du BSB, le
ministre de la Planification conomique et la Commission nationale du travail. Des exemples de
communication avec ces utilisateurs sur leurs besoins de donnes sont joints en Annexe A (non insre).
Principaux concepts et dfinitions
Nous aurons recours des dfinitions normalises de certains concepts, notamment le logement, le
mnage et la famille, afin de maintenir luniformit avec dautres produits statistiques du BSB.
Lquipe du projet recommande dadopter les dfinitions largement utilises de population active,
employ, sans emploi et hors de la population active de lOrganisation internationale du travail (OIT)
pour faciliter la comparaison internationale.

STATISTIQUE CANADA

TUDE DE CAS

363

Proposition de contenu
Les sujets suivants seront ajouts lenqute :
Logement mnage
Mode doccupation (proprit ou location)
Composition du mnage
ge
Sexe
Scolarit acheve (degr et nombre dannes dtudes)
Activit et Population active
Situation vis--vis de lactivit (employ, sans emploi, hors de la population active),
Branche dactivit (secteur primaire, fabrication, ventes, services, etc.),
Profession (directeur, superviseur, professionnel, manuvre, etc.),
Nombre dheures travailles,
Revenu demploi,
Autre activit conomique,
Emploi autonome,
Secteur officiel,
Secteur non officiel (c.--d. conomie clandestine ).
Plan danalyse prliminaire
La premire analyse comprendra les tableaux des nombres et des pourcentages estims pour chacun des
principaux articles numrs ci-dessus, ainsi quun certain nombre de totalisations croises. Environ 20
totalisations principales sont proposes en Annexe B (non insre).
Il faut encore apporter dautres dtails de lanalyse, mais ils comprendront probablement la production de
tableaux de rpartitions rgionales et de branches dactivit plus dtailles.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

364

Chapitre 3 - Introduction au plan denqute


3.0 Introduction
Le Comit directeur a approuv lbauche de lnonc des objectifs et lquipe du projet se runit
maintenant pour entreprendre le travail substantiel de conception de lEGM.
La premire question, savoir sil faut faire un recensement ou une enqute-chantillon, est dj rsolue.
Un recensement serait hors de prix, mme un seul par anne. De plus, mme si largent tait disponible,
lopration serait si norme et complique, et il y aurait tant de problmes logistiques et de gestion que les
erreurs non dues lchantillonnage (comme les erreurs de traitement) surpasseraient les avantages tirs
de la prvention de lerreur dchantillonnage (que donnerait un plan denqute-chantillon appropri).
Seule une enqute-chantillon donnera de linformation annuelle ou infra-annuelle sur une population de
prs de 44 millions de personnes. Vous avez en fait t inform que le plan denqute devrait tre conu
pour application quatre fois par anne, afin dobtenir des estimations utiles chaque trimestre de lanne
civile. Lquipe prparera donc un plan dchantillonnage pratique, compte tenu de ces chanciers,
laide dun chantillon suffisamment large pour obtenir des rsultats fiables chaque trimestre.

3.1

Populations cible et observe

premire vue, la population cible semble facilement dfinie et lquipe considre quil sagit
provisoirement de la population adulte de Belleterre. Lquipe du projet identifie cependant plusieurs
problmes :
i.

Rsidents temporaires

Faut-il inclure dans la population active ceux qui ont emmnag temporairement au pays? Ils ne font pas
officiellement partie de lconomie, mais ils ont un emploi qui se traduit par des produits. Dautre part,
ceux qui ont dmnag dans un autre pays ont un emploi qui se traduit par des produits dans ce pays. Il
peut tre impossible de communiquer avec eux et il nest pas vident quils devraient faire partie de
lactivit conomique de Belleterre, mme si nombre dentre eux peuvent envoyer une partie de leur
revenu au pays.
O faudrait-il dnombrer ceux qui sont passs dun milieu rural un milieu urbain au pays? (Ils habitent
habituellement dans des logements temporaires.) Ils ont des rpercussions importantes et croissantes sur
la dynamique sociale et conomique des secteurs urbains au pays au chapitre des augmentations ou
diminutions imprvues de la main-duvre disponible dans un secteur urbain comparativement un autre
(et, pourrait-on ajouter, des rpercussions sur les secteurs ruraux quant la diminution de la population
active agricole disponible).
Lquipe dcide de considrer membres du mnage ceux qui habitent habituellement dans le logement,
autrement dit, chacun qui considre que le logement est son lieu habituel de rsidence. Lquipe constate
quil faudra dfinir beaucoup plus clairement ce concept pour lappliquer, mais cest au moins un point de
dpart.

STATISTIQUE CANADA

TUDE DE CAS

ii.

365

Logements collectifs

Lenqute devrait-elle couvrir seulement les rsidents des logements individuels ou ceux des logements
collectifs aussi (cest--dire les logements o habitent plus dun mnage)? Les logements collectifs
peuvent tout englober, partir des petites maisons de chambres ou des pensions, jusquaux hpitaux et
aux prisons. Voil des situations videmment trs diffrentes. Dans les grands instituts logements
collectifs, notamment les hpitaux, les prisons, les bases militaires, etc., mme si lquipe dcidait que
lenqute devrait comprendre ces rsidents, serait-il raliste de faire des interviews avec eux? Dautre
part, les petits logements collectifs ressemblent de prs aux logements privs et lquipe se demande sil
ne faudrait pas les traiter comme des logements privs aux fins de la collecte des donnes.
iii.

Rgions loignes

Lquipe considre maintenant ceux qui habitent dans certains rgions loignes et inaccessibles, car il
coterait beaucoup trop cher de les intgrer lenqute. (Ce groupe est cependant minime Belleterre,
cest--dire moins de 1 % de la population.)
Lquipe tablira provisoirement que la population cible est la population adulte dont le lieu habituel de
rsidence est Belleterre. Ceux qui habitent dans des rgions loignes seront exclus, ainsi que les
rsidents des instituts logements collectifs, notamment les hpitaux, les prisons, les bases militaires, etc.
Lquipe ralise que la base dchantillonnage utilise influera sur la priode de rfrence, aidera
dterminer les crneaux de la population quil faudrait exclure pour des raisons pratiques (p. ex., rgion
trop loigne, cot trop lev, enqute trop difficile faire), etc., et dterminera la dfinition de la
population cible.

3.2

Base de sondage

Les enqutes sur les mnages Belleterre ont habituellement t faites laide des listes des registres des
mnages et de la population qui ont servi de base dchantillonnage. tant donn lampleur de la
documentation administrative sur les mouvements de la population, ces listes ont gnralement t
considres trs compltes et jour. Les augmentations rcentes des taux dmigration et de migration
dans les rgions et entre elles signifient cependant que cette considration nest peut-tre plus exacte.
tant donn que les listes des registres disponibles sont largement maintenues lchelon local et dans
des bureaux publics de la ville, il pourrait y avoir chevauchement jusqu un certain point et il nest pas
vident que les listes sont mises jour aussi souvent ou prcisment partout. Il faudrait intgrer toutes ces
listes en une seule grande base de sondage pour liminer le chevauchement entre les bases. Bien entendu,
il faudrait ensuite tenir cette base jour et, cette fin, obtenir continuellement de linformation de mise
jour de plusieurs de centaines de bureaux diffrents, chaque trimestre au moins. Dautre part, lquipe
remarque que ltablissement de nouvelles listes pour tout le pays coterait trs cher.
Compte tenu de ces lments, lquipe convient quelle doit tudier dautres sources possibles
dinformation pour tablir la base de lEGM.
Certains pays qui ont de bons registres de la population utilisent des bases dchantillonnage arolaire
pour leurs enqutes sur les mnages. Lquipe fait des recherches sur la documentation disponible dans
dautres pays pour dterminer si cette approche lui permettrait ventuellement de couvrir une population
plus entirement reprsentative.

STATISTIQUE CANADA

366

MTHODES ET PRATIQUES DENQUTE

Les membres de lquipe savent quune base arolaire peut offrir, en thorie, une couverture presque
complte, mais la prparer peut aussi coter cher. tant donn quils devraient commencer au point de
dpart, ils ne sont pas certains de pouvoir laborer temps une bonne base arolaire et un plan
dchantillonnage connexe pour la premire dition de lenqute. Au cours de leurs discussions avec des
reprsentants de plusieurs autres quipes denqute du BSB, lquipe de lEGM a cependant appris quils
ont rcemment dcid de faire lexprience des bases arolaires. Ils ont dj fait une recherche
substantielle sur la question. tant donn que les rsultats de cette recherche prliminaire semblent trs
prometteurs, lquipe de lEGM propose aux autres quipes denqute et au Comit directeur de combiner
leurs efforts pour produire et appliquer une base arolaire. Le Comit directeur approuve lide parce que
les cots de limplantation et de la mise jour de la base seraient partags avec dautres enqutes.
Il est dcid dappliquer cette approche et lquipe entreprend donc lvaluation de ltat actuel des cartes
ncessaires et dautres renseignements cartographiques pour commencer prparer la base arolaire et
obtenir une estimation raisonnable des ressources ncessaires pour achever cette tche temps pour
lenqute.
Les cartes topographiques grande chelle et jour gnralement en trs bonne condition dtermineront
les niveaux plus levs de la base arolaire (c.--d. qui dfinissent les units dchantillonnage primaires).
Les niveaux infrieurs (c.--d. qui dfinissent les units dchantillonnage au deuxime et troisime
degr) devront tre dtermins partir de lidentification des rues et, ventuellement, des logements en
milieu urbain, et des logements et villages en milieu rural. Lquipe convient que la maintenance de la
base exigera un effort permanent, ventuellement par roulement, et il faudra tre particulirement attentif
aux secteurs croissance leve.
Lquipe doit donc commencer laborer une suite dtapes pour dlimiter les units dchantillonnage
divers chelons de la hirarchie gographique, partir de lidentification des limites naturelles grande
chelle comme les principales rivires, jusquaux plans formuler pour tablir la liste invitable des
logements dans les secteurs slectionns. Lquipe nest videmment pas encore en mesure de passer aux
dtails de ces tapes parce quil faut auparavant prendre des dcisions sur le plan dchantillonnage
concret.
Questions de rcapitulation :
Pourquoi une enqute-chantillon est-elle la seule solution pratique pour rpondre aux besoins de
donnes?
Expliquez pourquoi ceux qui habitent dans les logements collectifs devraient ou non tre intgrs la
population cible. Ajoutez des considrations sur laccs ces personnes, ainsi que sur la pertinence et la
qualit ventuelle de leurs rponses.
Expliquez les autres diffrences possibles entre la population cible et la population dfinitive observe.
Si lapproche de la liste tait maintenue, quelles auraient t les sources et les rpercussions ventuelles
de lerreur non due lchantillonnage?
Quelles sont, votre avis, les trois plus importantes sources probables derreurs non dues
lchantillonnage lies lutilisation dune base arolaire? Suggrez un moyen ou deux de rduire ou de
contrler chacune delle.
Combien de cartes ou de tracs distincts lchelle faudrait-il, votre avis, pour raliser le plan
dchantillonnage de la base arolaire?
STATISTIQUE CANADA

TUDE DE CAS

367

Chapitre 4 - Mthodes de collecte des donnes


4.0 Mthode de collecte des donnes
Lquipe du projet se runit pour choisir une mthode de collecte des donnes. Les membres de lquipe
discutent des avantages et inconvnients des trois mthodes lmentaires : linterview sur place,
linterview tlphonique et lautodnombrement (p. ex., envoi et retour du questionnaire par la poste).
Linterview tlphonique ne semble pas trs pratique parce que le pourcentage de mnages sans tlphone
est trs lev, surtout en milieu rural. La population nest pas habitue traiter avec les autorits
gouvernementales au tlphone et de nombreuses personnes hsiteraient beaucoup rpondre une
enqute du genre. De plus, certains concepts considrer dans lenqute sont complexes et les gens
pourraient avoir de la difficult comprendre les explications au tlphone. Il ny a pas non plus
dannuaire tlphonique complet et jour couvrant les mnages abonns parce que la couverture
tlphonique augmente rapidement dans certaines rgions. Voil pourquoi lquipe dcide de ne pas
donner suite loption tlphonique.
tant donn que lapproche par base arolaire dpendra ncessairement de linformation sur ladresse des
logements, lquipe considre brivement la possibilit de faire une enqute par la poste. Lquipe a
cependant appris que les quelques tudes de march faites par la poste ont donn des taux de rponse trs
faibles et les questionnaires retourns comprenaient de nombreuses rponses incompltes ou incohrentes.
Ces problmes saggravent si les formules denqute sont simplement envoyes au chef du mnage et
non une personne en particulier. tant donn que lEGM comprendra beaucoup plus de questions et que
certains sujets sont trs complexes, lenvoi par la poste ne semble pas en mesure de fournir des donnes
de qualit convenable.
Linterview sur place pourrait tre la seule possibilit, malgr le cot lev de laffectation dun grand
nombre dintervieweurs lenqute. Lquipe commence discuter de la logistique de lembauche et de
la formation dun nombre suffisant dintervieweurs, planifier la prparation des manuels de soutien
ncessaires et tudier les besoins de vhicules ou autre matriel.
Mme si le plan dchantillonnage nest pas encore trs avanc, le mthodologiste denqute recommande
de rpartir les interviews des mnages slectionns sur plusieurs trimestres pour obtenir de bonnes
estimations du changement de la situation vis--vis de lactivit. Lquipe considre la possibilit de faire
une premire interview sur place et dutiliser ensuite le tlphone ou lenvoi par la poste pour les autres
interviews. Le problme du sous-dnombrement persiste cependant pour linterview tlphonique et il est
craindre que les taux de rponse des retours par la poste seront plutt faibles, mme aprs la
communication personnelle de la premire interview. Lquipe continue nanmoins de considrer loption
de lenvoi et retour par la poste comme stratgie possible dinterviews ultrieures.
Un autre lment incite lquipe reconsidrer loption de lautodnombrement. Il est craindre que les
rpondants jugent certaines questions trs personnelles ou caractre dlicat et ils peuvent donc hsiter
rpondre lintervieweur. Un questionnaire par la poste pourrait obtenir des rponses ces questions.
Dautre part, les rpondants devraient mieux rpondre la majorit du questionnaire pendant une
interview sur place. Un membre de lquipe suggre une approche en mode mixte : faire une interview sur
place pour la majeure partie du questionnaire, mais demander au rpondant dinscrire dans une page
distincte les rponses aux questions caractre dlicat, en priv, et de la dposer dans une bote scelle
dont disposera lintervieweur ou de la retourner par la poste. Lquipe dcide que la mise lessai du
questionnaire et de la mthode de collecte des donnes sera ncessaire pour rsoudre la question.

STATISTIQUE CANADA

368

MTHODES ET PRATIQUES DENQUTE

Il reste encore prendre une importante dcision, savoir sil faut utiliser un questionnaire sur supportpapier (interview papier et crayon ou PAPI) ou appliquer une approche informatique (c.--d. interview sur
place assiste par ordinateur, IPAO). On connat les principaux avantages de la mthode PAPI: il nest
pas ncessaire dacheter du matriel trs cher et cette approche est bien matrise parce que cette mthode
a t applique toutes les enqutes du BSB jusqu maintenant. Dautre part, les membres de lquipe de
lEGM ralisent quils pourraient fournir faible cot un ordinateur de poche aux intervieweurs et, avec
un minimum de programmation, quils pourraient liminer une tape distincte de saisie des donnes et
garantir quune grande partie de la vrification des donnes est faite au moment de linterview (lorsque
les corrections sont le plus facile faire).
Les membres de lquipe dcident de calculer le cot ventuel de chacune de ces approches, ils essaient
simultanment dvaluer les amliorations possibles de la qualit des donnes sils choisissent lIPAO et
les rsultats sont pondrs par rapport la complexit supplmentaire de llaboration dune application
informatique de lIPAO. Des renseignements concrets sur la qualit des donnes seront bien entendus
disponibles seulement aprs avoir fait lenqute. Certaines approximations sont quand mme possibles
maintenant pour aider prendre la dcision approprie.
Aprs examen de linformation disponible (le cot et la priode de prparation, la possibilit de changer
le questionnaire aprs le premier cycle), lquipe dcide de procder la premire dition de lEGM
laide de PAPI et de rexaminer la question ultrieurement.
Questions de rcapitulation :
Lquipe aurait-elle d considrer la possibilit dappliquer une approche en mode mixte, y compris
linterview tlphonique dans les rgions des principales villes o les abonns au tlphone sont trs
nombreux? Discutez des avantages et des inconvnients de ce genre dapproche.
Discutez des avantages et des inconvnients des diffrentes possibilits suggres pour rgler le problme
des questions caractre dlicat.
Considrez les mesures de scurit qui seront ncessaires pour protger le matriel si lIPAO est
applique.
Considrez les mesures ncessaires dans chaque cas pour protger la scurit et la confidentialit des
donnes (questionnaires ou fichiers lectroniques).

STATISTIQUE CANADA

TUDE DE CAS

369

Chapitre 5 - Conception du questionnaire


5.0 Conception du questionnaire
Lquipe du projet de lEGM est consciente que la conception du questionnaire demandera beaucoup de
travail et elle se runit pour rpartir les responsabilits de la rdaction de la premire version des diverses
sections.
Elle examine dabord lnonc des objectifs parce quil contient dj le noyau de chaque question ou
groupe de questions. Il faut maintenant formuler chaque point en une question claire qui aura la meilleure
possibilit dinciter les rpondants rpondre correctement.
Le premier groupe de questions portera sur les caractristiques du mnage et linformation
dmographique voulue. Un membre de lquipe (A) est affect la prparation de la premire version de
cette section et il comptera normment sur le genre de questions poses dans les enqutes dj ralises
sur les mnages.
La principale section du questionnaire portera sur les activits dans la population active des membres
admissibles du mnage, cest--dire toutes les personnes ges de 15 ans et plus. La matire de cette
partie est tendue et la responsabilit est donc rpartie entre plusieurs membres de lquipe :
i.

Un membre (B) se chargera des questions visant dterminer le situation vis--vis de lactivit
(employ, sans emploi ou hors de la population active). Il faudra bien entendu poser plus dune
question.

ii.

Un autre membre (C) formulera les versions prliminaires dune srie de questions sur le genre
dactivits de la personne employe.

iii.

Le membre D prparera des questions sur dautres activits conomiques, par exemple, le travail
autonome (y compris lagriculture) et le travail dans le secteur non officiel de lconomie.

iv.

Le membre E sintressera aux questions secondaires de lactivit dans la population active qui
visent les heures travailles et les gains.

5.1

Structure du questionnaire

Avant que le travail sur le questionnaire ne soit trop avanc, le membre A demande une runion de
lquipe du projet pour discuter de certaines questions releves pendant llaboration des questions
dmographiques. Il souligne que lquipe doit dterminer comment structurer le questionnaire avant de
formuler la version prliminaire des questions dfinitives. Devrait-il y avoir un questionnaire pour chacun
dans le mnage? Qui devrait rpondre aux questions? Devrait-il y avoir un questionnaire diffrent pour
les logements collectifs?
Un membre de lquipe suggre quil devrait y avoir deux questionnaires diffrents, un pour le logement
et un pour les rpondants du logement. Un autre affirme quil devrait y en avoir trois : un pour le
logement, un autre pour chaque famille et un troisime pour chaque personne.
Ces approches suscitent un certain dbat. Dune part, il est jug important de comprendre la structure
familiale dans le logement, cette information tant pertinente pour dterminer combien de personnes
STATISTIQUE CANADA

370

MTHODES ET PRATIQUES DENQUTE

comptent sur le revenu de chaque travailleur. Dautre part, il est vital didentifier tous ceux qui habitent
dans le logement et certains membres de lquipe craignent que lidentification des familles dbouche sur
lomission de personnes qui forment le mnage, mais qui ne sont pas membres dune famille.
Il est ventuellement dcid dessayer dutiliser deux formules : une pour le logement (intitule
Formule F1) et une pour chaque personne ge de 15 ans et plus (F2).
La Formule F1 permettra dobtenir de linformation sur le logement, de dresser une liste complte de tous
ceux qui habitent dans le logement, de dterminer quelle est lunit familiale de chacun et dobtenir
linformation dmographique sur ces personnes. Ces renseignements serviront dcider qui devrait
recevoir le questionnaire destin la personne. La Formule F2 servira la collecte de linformation sur
lactivit de la personne dans la population active que lquipe veut obtenir pour lenqute. Celle-ci
dcide que toutes les questions de la Formule F1 seront poses une personne bien informe sur le
mnage et celles de la Formule F2 seront poses la personne cible. Lquipe remarque quil faut
appliquer un identificateur de logement chaque formule, afin de lier linformation sur le logement
linformation sur la personne aprs la collecte.
Un membre de lquipe souligne que, dans un grand mnage (ou dans un logement collectif) la personne
qui rpond la Formule F1 pourrait ne pas connatre les renseignements dmographiques de chacun dans
le mnage. Lquipe discute de cette question et dcide quune personne de chaque unit familiale sera
consulte pour complter linformation si celui qui rpond la formule na pas les renseignements
dmographiques pour tout le mnage.
Les membres de lquipe discutent pour dterminer si les rponses par procuration devraient tre permises
dans le questionnaire destin la personne et ils dcident que les intervieweurs devraient dabord tenter
de communiquer avec chacun qui doit remplir une Formule F2, mais sils ny arrivent pas, ils peuvent
procder linterview dun substitut qui rpondra au nom de la personne choisie.
Lquipe considre ensuite la cration de questionnaires distincts pour les logements collectifs et les
logements privs. Il est dj dcid que lenqute ne couvrira pas les grands logements collectifs
(tablissements militaires, hpitaux, prisons, etc.). Lquipe a donc limpression que le questionnaire pour
les logements privs englobera correctement les plus petits logements collectifs de litinraire des
intervieweurs. De plus, si cette information est ncessaire, une variable peut tre tire des logements
privs-collectifs aprs la collecte, compte tenu du nombre de familles ou de personnes sans liens de
parent qui habitent dans le logement.

5.2

bauche du questionnaire

Chaque membre de lquipe continue la consultation et la recherche entreprises pendant la prparation de


lnonc des objectifs, communique avec les principaux utilisateurs des donnes et consulte des
questionnaires existant. Lquipe prvoit prparer une bauche raisonnablement complte de tout le
questionnaire avant dentreprendre une mise lessai approfondie ou une recherche cognitive sur
nimporte quelle section. Cette mesure est ncessaire parce que lordre des questions ne sera pas vident
avant que la majeure partie des questions soient inscrites au moins sous forme prliminaire. Les membres
ont nanmoins limpression quune mise lessai de certaines questions pourrait tre ncessaire plus tt
sil devient difficile de dcider comment les formuler.
Lquipe se runit bientt pour commencer lexamen de lbauche des questions de la Formule F2.

STATISTIQUE CANADA

TUDE DE CAS

371

Les membres B et D de lquipe, confiants que leurs questions seraient trs faciles, se sont ports
volontaires pour entreprendre plusieurs tches lies la base et au plan dchantillonnage qui demandent
beaucoup de temps. Leurs bauches sont donc trs incompltes. La discussion sur leurs sections est
reporte jusqu la prochaine runion.
Lquipe considre les questions de C sur le genre dactivits des gens dans la population active :
Si vous tes identifi employ
C1 Votre employeur est-il (veuillez cocher une seule option)?
P une socit dtat
P un tablissement public (p. ex., hpital, cole, etc.)
P une entreprise prive non familiale
P un membre de la famille
P autre (veuillez prciser)_____________________________
C2 Quel est le titre de votre poste (p. ex., balayeur, ingnieur, grant des ventes, conducteur)?
_______________________________
C3 Dans quel secteur se droule la principale activit conomique de votre employeur?
P Agriculture, pches et foresterie
P Industries de lextraction
P Fabrication
P Transports
P Construction
P Vente au dtail
P Vente en gros
P Tourisme
P Secteur des arts et de la culture
P Autres services
P Administration publique (y compris la scurit)
C est videmment un expert de la classification des professions et des branches dactivit.
Malheureusement pour lbauche du questionnaire, les autres membres de lquipe ne le sont pas et ils
posent rapidement des questions. Presque tous sinterrogent sur la question C3 ou sy opposent, ils
affirment que les rpondants ne comprendront pas le terme secteur ou lexpression principale
activit conomique , mais ils conviennent que la question Que fait votre employeur? est trop vague.
Lquipe ajoute que les activits numres sont la pierre angulaire dun systme de classification que
seuls quelques spcialistes connaissent bien aprs des annes de travail. Quest-ce que lindustrie de
lextraction? Lexpression peut voquer un dentiste pour certains, alors quil sagit en fait de lexploration
et de lexploitation minires et ptrolires. De mme, un journaliste peut dclarer que son employeur fait
partie de la branche des arts et de la culture, mais loprateur de presses imprimer qui travaille pour la
mme entreprise rpondra probablement fabrication . Plusieurs membres de lquipe soutiennent quil
faudrait poser une question ouverte et la coder au bureau. C nest pas contre lide, mais il ne sait
comment formuler la question pour donner suffisamment de dtails aux codeurs pour quils fassent leur
travail prcisment. Le dbat sur la formulation de la question ou des questions continue pendant des
heures.
Lbauche des questions du membre E de lquipe sur les heures de travail et les traitements fait ensuite
lobjet dun examen.
STATISTIQUE CANADA

372

MTHODES ET PRATIQUES DENQUTE

E1 Avez-vous un travail
P plein temps (35 heures par semaine ou plus)
P temps partiel (moins de 35 heures par semaine)
P saisonnier
E2 Combien tes-vous rmunr?
__________
E3 Lemployeur offre-t-il les avantages suivants?
a. Assurance-sant ou soins de sant
b. Subvention du loyer
c. Rgime de retraite

P Oui
P Oui
P Oui

P
P
P

Non
Non
Non

La question E2 soulve plusieurs objections. La question Combien tes-vous rmunr? est non
seulement vague, mais elle semble aussi indiscrte, et de nombreuses personnes hsiteront y rpondre,
mme si elle est bien formule. Les membres de lquipe mentionnent des exemples constats auparavant
et soutiennent quil faut prciser davantage. La question devrait porter sur le revenu total de lemploi
dune personne, en argent, avant retenues la source pour participation des programmes frais partags
(p. ex., rgimes de retraite cotisation partage). Comment englober le tout en une seule question
cependant? Il est vident quune mise lessai est ncessaire pour cette question.
Un membre de lquipe a limpression que le revenu est une question caractre trop dlicat et quil faut
ajouter une incitation, par exemple, Nous posons la question suivante tous les rpondants de cette
enqute pour mieux comprendre la situation de lemploi au pays. Il suggre aussi de dplacer la question
la fin du questionnaire.
Un autre membre est davis que la formulation de la question E1 est trop vague, mais il ne peut suggrer
damlioration. Un autre encore affirme que la catgorie travail saisonnier ne fait pas partie de la
distinction entre lemploi plein temps et temps partiel, et quil faudrait poser une question distincte.

5.3

Examen linterne

La prochaine runion avec le Comit directeur est maintenant annonce et les discussions tenues jusqu
maintenant y sont prsentes. Le Comit directeur convient de lapproche gnrale visant utiliser les
Formules F1 et F2. Il fait aussi des commentaires dtaills sur les questions qui sont conformes la
rtroaction prcdente de lquipe du projet.
Compte tenu des commentaires de lquipe du projet et du Comit directeur, lquipe rvise le
questionnaire comme suit. (Nota : seules les sections des membres C et E feront lobjet dun suivi par
lintermdiaire dun processus dexamen.)
Si vous tes identifi employ
C1 Quel est le titre de votre poste (p. ex., balayeur, ingnieur, grant des ventes, conducteur)?
_______________________________
C2 Quel est le genre dentreprise, de branche dactivit ou de service?
_____________________________

STATISTIQUE CANADA

TUDE DE CAS

373

E1 Pendant combien dheures par semaine travaillez-vous habituellement?


__________
Je vais maintenant poser quelques brves questions sur vos revenus.
E2 Quel est votre taux horaire de rmunration (avant impts et autres retenues la source)?
__________
E3 Lemployeur offre-t-il les avantages suivants?
a. Assurance-sant ou soins de sant
b. Subvention du loyer
c. Rgime de retraite

5.4

P Oui
P Oui
P Oui

P
P
P

Non
Non
Non

Mise lessai du questionnaire

Lquipe dcide danimer un groupe de discussion pour la mise lessai du questionnaire actuel, afin de
dterminer si les rpondants le comprennent facilement et sils peuvent donner les rponses exactes.
Le BSB nengage pas danimateurs qualifis de groupes de discussion et lquipe du projet dcide de
retenir les services dun expert de la mise lessai en groupe de discussion, M. F. Il a une formation
spcialise en animation de groupes de discussion et il devrait pouvoir intgrer la mise lessai son
horaire.
Plusieurs intervieweurs chevronns sont dtachs des bureaux rgionaux pour administrer le
questionnaire aux rpondants du groupe de discussion. Lquipe du projet slectionne des dizaines de
rpondants typiques et il y aura plusieurs sances en groupe de discussion pendant une semaine.
Lquipe slectionne ceux qui reprsenteront lventail complet des rpondants, certains en milieu urbain,
dautres en milieu rural, ainsi que des travailleurs, tudiants et retraits.
Les intervieweurs administrent le questionnaire aux rpondants avant le dbut des discussions en groupe.
M. F oriente ensuite des discussions distinctes avec les intervieweurs et les rpondants pour leur poser des
questions sur le questionnaire et les problmes quils ont rencontrs.
Compte tenu des discussions en groupe, lquipe dcouvre que les questions sur les heures de travail
posent les problme suivants :
i.

Plusieurs rpondants dclarent quils ont de la difficult rpondre la question sur le nombre
dheures de travail hebdomadaires habituelles parce que les heures varient dune semaine
lautre.

ii.

De nombreux rpondants demandent sil faut ajouter le temps supplmentaire aux heures
habituelles.

iii.

Les questions sment la confusion chez les rpondants qui ont plus dun emploi.

Les questions sur les revenus posent les problmes suivants :


i.

De nombreux rpondants ne sont pas rmunrs taux horaire, ils affirment donc souvent ne pas
connatre leur taux horaire et ils donnent plutt leur traitement pour une priode de rfrence
diffrente. Les intervieweurs inscrivent habituellement une note en ce sens en marge du
questionnaire.
STATISTIQUE CANADA

374

ii.

MTHODES ET PRATIQUES DENQUTE

De nombreux rpondants ne savent pas si lemployeur offre des avantages sociaux. Cette question
nest pas trs sense non plus pour les personnes qui ont un travail autonome.

Lquipe est cependant trs heureuse de constater que les questions sur la profession ou la branche
dactivit ne semble pas poser de difficult aux rpondants ou aux intervieweurs. C dcide cependant, par
mesure de prcaution, denvoyer les rponses aux codeurs forms au codage des professions et des
branches dactivit. Il constate aprs plusieurs heures que les rponses sont trop gnrales, quelles ne
donnent pas suffisamment dinformation et que les codeurs ne peuvent les coder en dtail. Il faudra
ajouter plusieurs questions sur la profession et la branche dactivit pour donner suffisamment
dinformation aux codeurs, afin quils prennent une dcision sur le code exact attribuer.
Lquipe a, de toute vidence, encore beaucoup de travail faire sur le questionnaire.

5.5

bauche dfinitive

Aprs intgration au questionnaire des commentaires dcoulant de la mise lessai en groupe de


discussion, voici lbauche dfinitive des sections de C et de E (nota : ces questions seront poses
seulement aux rpondants employs) :
DESCRIPTION DE FONCTIONS
Les questions suivantes concernent votre emploi principal (cest--dire que vous accomplissez la majeure
partie de vos heures de travail ce poste).
JD1

tes-vous employ ou avez-vous un travail autonome?


P Employ (passez JD5)
P Travail autonome

JD2

Avez-vous une entreprise constitue en personne morale?


P Oui
P Non

JD3

Avez-vous des employs?


P Oui
P Non

JD4

Quelle est la raison sociale de votre entreprise? (Passez JD6)


______________________

JD5

Pour qui travaillez-vous?


______________________

JD6

De quel genre dentreprise, branche dactivit ou service sagit-il? (p. ex.., voirie, cole
primaire, riziculture, magasin de chaussures, garage)
______________________

JD7

Quel est votre travail ou profession? (p. ex., secrtaire juridique, plombier, guide de pche,
enseignant)
______________________

STATISTIQUE CANADA

TUDE DE CAS

JD8

375

Quelles sont vos principales activits ou tches ce poste? (p. ex., prparation de documents
juridiques, installation de plomberie rsidentielle, orientation de groupes de pche,
enseignement des mathmatiques)
______________________

HEURES DE TRAVAIL (EMPLOI PRINCIPAL)


Les questions suivantes portent sur les heures de travail votre emploi principal (le poste o vous
travaillez le plus grand nombre dheures).
WH1

Le nombre dheures de travail varie-t-il dune semaine lautre?


P Oui
P Non (passer WH3)

WH2

Combien dheures par semaine travaillez-vous habituellement en moyenne? (Passez la


section suivante)
__________

WH3

Pendant combien dheures avez-vous travaill la semaine dernire?


__________

WH4

Pendant combien dheures rmunres en temps supplmentaire avez-vous travaill ce


poste la semaine dernire?
__________

WH5

Pendant combien dheures supplmentaires non rmunrs avez-vous travaill ce poste la


semaine dernire?
__________

TRAITEMENT
Je vais maintenant poser quelques brves questions sur votre traitement.
E1

tes-vous rmunr taux horaire?


P Oui (passez E2)
P Non (passez E3)

E2

Quel est votre taux horaire? (Passez la section suivante)


__________

E3

Comment pouvez-vous le plus facilement exprimer votre traitement ou rmunration, avant impt
et autres retenues la source? Est-ce par anne, par mois, par semaine ou autrement? Quel est
votre traitement ou rmunration?
__________/par anne
OU
__________/par mois
OU
__________/par semaine
OU
__________/autre (prcisez la priode de rfrence ___________)

STATISTIQUE CANADA

376

MTHODES ET PRATIQUES DENQUTE

Questions de rcapitulation :
tant donn quil sagit de la premire version du questionnaire de lEGM destin une enqute
complte, quel genre de mises lessai proposeriez-vous?
Proposez dautres versions des questions prsentes la Section 5.5.

STATISTIQUE CANADA

TUDE DE CAS

377

Chapitre 6 - Plans dchantillonnage


Nota au lecteur : Les chapitres 6, 7 et 8 couvrent respectivement le choix du plan dchantillonnage, de
la mthode destimation et le calcul de la taille et la rpartition de lchantillon. Ces composantes dun
plan denqute sont troitement lies entre elles et leur laboration est en fait une seule opration trs
complexe. Les trois sujets sont considrs distinctement dans ce document pour respecter lordre de
prsentation de la matire dans les chapitres correspondants.

6.0 Plan dchantillonnage


Il ny a pas de liste jour de la population de Belleterre, il serait exorbitant de dresser cette liste et une
base arolaire est donc choisie. Avec une base arolaire, lchantillonnage des logements est un pralable
la slection des membres des mnages (c.--d. que lunit dchantillonnage ultime est le mnage et que
linterview se droulera avec un membre du mnage qui fera rapport pour chacun dans le mnage).
La formule exacte de slection des logements nest pas immdiatement vidente, mais afin dviter le
listage de tous les logements, il semble logique dutiliser un plan dchantillonnage par grappes deux ou
trois degrs (et dnumrer seulement les logements dans les secteurs chantillonns au dernier degr).
Lquipe ralise que lchantillonnage trois degrs, bien quconomique, peut tre trs compliqu en
pratique, et elle fait donc tous les efforts pour identifier les units convenables qui permettront un plan
deux degrs.
Lquipe convient dappliquer la stratification gographique plusieurs niveaux de dtail dans le plan
dchantillonnage. Belleterre est naturellement rparti en 11 rgions, cest--dire trois principales villes et
huit districts supplmentaires. Les districts sont rpartis en plusieurs autres villes et grandes municipalits
considres milieux urbains et en un bon nombre de villages et rgions priphriques qualifis de milieu
rural (voir la description au Chapitre 1 de ltude de cas).
tant donn les changements rcents dans la dynamique de la population active et de la population du
pays, et les diffrences entre les principales villes et le reste du pays, le Comit directeur a fait savoir quil
veut obtenir le mme degr de prcision dans lEGM (variance dchantillonnage) pour chaque grande
ville et chaque district. Compte tenu de cette exigence, il plus efficient de traiter les trois villes et les huit
districts comme domaines planifis, cest--dire de faire un plan dchantillonnage par strates, et de
prvoir un chantillon suffisant dans chacun deux. Le rsultat est en fait 11 strates de premier niveau et
pour lesquelles il faut obtenir la mme prcision.
Lquipe veut aussi avoir un chantillon le plus reprsentatif possible pour les secteurs raisonnablement
larges dans chaque ville et district, afin de stratifier davantage. Ces strates secondaires auront des
populations de taille peu prs semblables et elles seront tablies selon les limites de la municipalit ou
du comt.
Des raisons administratives pratiques motivent aussi cette stratification gographique parce que les strates
proposes correspondent en majeure partie aux diffrents chelons des units administratives, notamment,
les villes, districts et comts.
Il y a dautres variables de stratification souhaitables, tant dmographiques quconomiques, mais il ne
semble pas raliste de les utiliser dans ce plan dchantillonnage parce quelles ne seront pas disponibles
dans la base arolaire avant la slection de lchantillon. La possibilit de la stratification a posteriori
ltape de lestimation sera cependant considre plus tard et les intervenants examineront la situation de
prs pour garantir la collecte des variables voulues dans le questionnaire de lenqute.
STATISTIQUE CANADA

378

MTHODES ET PRATIQUES DENQUTE

Un plan dchantillonnage par grappes stratifi deux degrs est donc propos, les trois principales villes
et les huit districts sont chacun une strate et des sous-strates seront cres dans chacune. Lidentification
de sous-strates relativement petites facilitera la conformit au plan dchantillonnage deux degrs.
Afin dviter la confusion entre les diffrents niveaux, il est convenu dintituler les principales strates
rgion (Villes A, B, C et les huit districts) et de rserver le terme strate aux sous-strates
infrieures. Les 11 rgions sont identifies comme suit pour faciliter la rfrence :
Tableau 6.1 : Strates rgionales
Rgion
1
2
3
4
5
6
7
8
9
10
11

Ville A
Ville B
Ville C
District D
District E
District F
District G
District H
District J
District K
District L

Un nombre dunits primaires dchantillonnage (UP), ou grappes, sera dfini dans chaque strate et, au
premier degr de lchantillonnage, une UP ou plus sera(ont) slectionne(s) dans la strate. Les UP ne
devraient pas tre trop grandes par souci defficience. Il serait en fait souhaitable quelles soient dune
taille convenable pour que lquipe des intervieweurs les couvre efficacement, compte tenu du temps
prvu pour la collecte des donnes. Les UP devraient donc tre de tailles peu prs gales et contenir
plusieurs centaines de logements.
Au deuxime degr de lchantillonnage, tous les logements de lUP seront lists et chantillonns (un
membre du mnage sera interview). Le nombre de logements chantillonns par UP devrait tre
raisonnable pour une quipe dinterview. la suite de discussions avec les bureaux rgionaux, la taille a
t dtermine 40 logements.
Lquipe sait quil est souhaitable de slectionner au moins deux grappes par strate pour permettre
lestimation exacte de la variance dchantillonnage et que, selon les ouvrages classiques, cette estimation
devient plus complexe si lon slectionne plus de deux grappes laide de lchantillonnage avec
probabilit proportionnelle la taille (PPT), ce quelle considre ncessaire. Elle prend donc des
dispositions pour slectionner deux grappes dans chaque strate.
Il faut ensuite lister les logements dans les grappes slectionnes et tirer un chantillon de logements au
deuxime degr. Lorsque les listes sont compiles, les logements peuvent tre slectionns laide de
lchantillonnage alatoire simple (EAS) ou de lchantillonnage alatoire systmatique (SYS). Lquipe
dcide de recommander le SYS pour des raisons pratiques, par exemple, essayer de rpartir lchantillon
le mieux possible entre toutes les grappes slectionnes.
Les dtails des taux de sondage ne sont pas encore dtermins, mais il semble dj vident quils seront
raisonnablement faibles dans les grappes slectionnes (peut-tre 40 sur 400 logements, ou un sur dix) et
le SYS est donc trs pratique. Simultanment, mme si cette mesure rpartit lchantillon dans un certain
secteur, le territoire couvert par une seule grappe ne devrait pas tre trs vaste en gnral et les cots de

STATISTIQUE CANADA

TUDE DE CAS

379

dplacement lintrieur dune grappe slectionne ne seront donc pas trs importants comparativement
au cot quil faudrait engager pour y arriver en premier lieu.
Aprs un certain travail prliminaire, il devient vident que la taille des grappes variera probablement
beaucoup sil faut respecter les limites naturelles. Ces limites naturelles sont cependant trs importantes
pour le contrle efficace des oprations sur place et la slection des grappes et des logements appropris
selon les cartes et les listes.
Il est ventuellement dcid de slectionner les grappes laide de lchantillonnage avec probabilit
proportionnelle la taille (PPT) en utilisant les estimations de la population les plus rcentes pour chaque
grappe comme mesure de la taille. Dans chaque grappe slectionne, un nombre dtermin de logements
sera choisi laide du SYS. (On verra au Chapitre 7 que cette mesure signifie que toutes les units de la
mme strate ont la mme probabilit de slection.)
Ayant tabli la structure gnrale du plan dchantillonnage, lquipe commence tracer les dtails du
plan pour la rgion 1 (Ville A) et la rgion 4 (district D), prvoyant appliquer la mme approche aux
autres rgions.
Questions de rcapitulation
Y a-t-il une solution de rechange raliste la stratification deux niveaux (rgion et strate) qua
labore lquipe de lEGM?
Un plan dchantillonnage trois degrs, y compris des UP plus larges et un degr intermdiaire
dunits secondaires dchantillonnage (US) comme grappes, aurait-il t plus efficient? Aurait-il t
raliste en pratique?
Le plan dchantillonnage appliquera la mthode dchantillonnage avec PPT pour la slection des
grappes. Lequel serait le plus appropri : lchantillonnage alatoire ou systmatique avec PPT? Si vous
choisissez lchantillonnage systmatique avec PPT, comment suggrez-vous de trier les listes des
grappes?
tant donn quil est considr dutiliser le SYS pour la slection des logements dans les grappes
slectionnes, faites des commentaires sur les inconvnients ventuels de cette approche en milieu
vraiment rural. Suggrez une stratgie de rechange dans ces secteurs.
Le plan dchantillonnage est autopondr dans chaque strate. Est-il raisonnablement possible que
lchantillon soit autopondr lchelon rgional, c.--d. de garantir que tous les logements
slectionns dans une rgion complte aient la mme pondration du plan dchantillonnage? Est-ce un
objectif souhaitable?

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

380

Chapitre 7 Estimation
7.0 Estimation
Lquipe de lEGM cible maintenant les procdures ncessaires pour obtenir des estimations denqute
sur les caractristiques obtenues laide du questionnaire.
Lchantillon comprendra de plusieurs milliers de mnages (voir le Chapitre 8 de ltude de cas pour les
dtails), mais linformation tire des interviews de ces mnages devraient reprsenter la population entire
de prs de 11 millions de mnages au pays.
Compte tenu du plan dchantillonnage probabiliste labor au Chapitre 6 de ltude de cas, de la taille de
lchantillon et de la rpartition dcrite au Chapitre 8, les rsultats de lchantillon donneront en fait des
estimations reprsentatives de la population du pays, et ils auront la variance dchantillonnage minime
voulue, dans la mesure o les non-rponses ne posent pas de problmes graves.

7.1

Pondration

LEGM doit donner des estimations pour un grand nombre de variables, mais toutes ces estimations
seront bases sur un ensemble de pondrations lies chaque enregistrement de donnes des mnages qui
rpondent lenqute, et elles seront dtermines selon le rsultat de trois calculs assez simples :
- la pondration du plan dchantillonnage dtermine selon la probabilit de slection des mnages,
- un lment dajustement pour les non-rponses,
- un ajustement de la stratification a posteriori selon les donnes dmographiques comparatives.

7.1.1

Pondration du plan dchantillonnage

La premire tape est de calculer la pondration du plan dchantillonnage obtenue directement, comme
lexpression le suggre, du plan dchantillonnage, cest--dire que la pondration du plan
dchantillonnage est linverse de la probabilit de slection. Le plan dchantillonnage dans ce cas est un
plan stratifi deux degrs dont les UP sont slectionnes laide de la PPT au premier degr et les
US (logements) sont slectionns laide de lchantillonnage systmatique au deuxime degr.
La pondration du plan dchantillonnage est calcule pour le logement slectionn. La mme
pondration du plan dchantillonnage sera attribue au mnage qui habite dans ce logement et chaque
personne du mnage. Dans un plan dchantillonnage probabiliste plusieurs degrs, la probabilit de
slection dune unit au dernier degr est simplement le rsultat des probabilits de slection chaque
degr. De mme, la pondration du plan dchantillonnage peut-tre considre comme le rsultat des
pondrations chaque degr parce que chacune delle est linverse de la probabilit correspondante.
La pondration complte du plan de lEGM est donc simplement le rsultat des pondrations au premier
et au deuxime degr. Chaque logement i slectionn dans la grappe j de la strate h a donc une
pondration du plan dchantillonnage quivalente :

wd , hji =

1, hj

2, hji

STATISTIQUE CANADA

TUDE DE CAS

381

o 1,hj est la probabilit de slection de la grappe j dans la strate h au premier degr et 2,hji est la
probabilit de slection du logement i dans la grappe j de la strate h au deuxime degr (si la grappe j est
slectionn au premier degr).
Noubliez pas que le numrotage de la strate a deux niveaux. Le premier numro est lidentification de la
ville ou du district (strate du premier niveau) et le deuxime est le numro didentification de la strate
dans cette ville ou ce district. Cette particularit est indique pour des raisons pratiques par un seul
indice h.
tant donn que les grappes sont slectionnes avec une probabilit proportionnelle la taille (PPT), ces
probabilits doivent tre calcules en mesures de la taille utilises la conception du plan denqute. La
mesure de la taille utilise est le nombre de logements dans la grappe, cette mesure sera reprsente par z
et la grappe j de la strate h a une taille zhj. Voici la mesure de la taille totale de toute strate h :
mh

z h = z hj
j

o mh est le nombre de grappes dans la strate h.


Si kh grappes sont slectionnes dans la strate h, la probabilit de slection de la grappe j est khzhj/zh, et la
pondration du plan dchantillonnage au premier degr pour cette grappe est donc :

wd 1,hj =
=

1,hj
zh
k h z hj

Au deuxime degr, 40 logements sont slectionns, cest--dire que tous les logements de la grappe j ont
une probabilit de slection au deuxime degr de 40/zhj. La pondration du plan au deuxime degr pour
les logements slectionns est donc :
wd 2, hji =
=

2 ,hji
z hj
40

La mesure de taille zhj se rapporte la taille de la grappe, le nombre de logements, au moment de la


cration de la base. La taille observe au listage peut tre diffrente. La quantit zhj/40 est le pas de
sondage utilis pour le tirage systmatique au dernier degr du plan. Lutilisation de ce pas fixe la taille
relle de la grappe donnera un chantillon de taille alatoire quon espre proche de 40.
Lquipe de lEGM convient que les grappes devront tre slectionnes laide des tailles estimes parce
quil est impossible de dnombrer tout le pays. Les membres de lquipe devront ensuite garder ces
mesures de la taille pour le calcul de la pondration au deuxime degr. Cela signifie en fait que les
estimations postcensitaires de la population par strate servent dancrage, ce qui est logique si les mmes
chiffres sont utiliss pour la stratification posteriori explicite (voir ci-dessous).

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

382

Nous obtenons donc :


wd ,hji =

1,hj 2,hji

z
zh
hj
k h z hj 40

zh
k h 40

et lexpression peut tre reprsente simplement par wdh.


Noubliez pas que tous les logements slectionns dans les grappes slectionnes de la strate h ont la
mme pondration du plan dchantillonnage et que le plan est autopondr lchelon de la strate.

7.1.2

Pondration ajuste pour les non-rponses

La composante suivante de la pondration est lajustement pour le total des non-rponses. Mme si un
taux de rponse lev est prvu, il ne sera certainement pas 100 % et lomission dun ajustement pour le
nombre rel de non-rponses donnerait des sous-estimations des totaux.
Un groupe de non-rpondants pourrait aussi, bien entendu, tre diffrent des rpondants du point de vue
de certaines des variables importantes de lenqute et, dans ce cas, ajuster les pondrations des rpondants
pour reprsenter les non-rpondants pourrait donner un biais.
Lquipe de lEGM tudie ce risque attentivement. Le mthodologiste de lquipe fait remarquer que le
biais de non-rponse dans toute estimation est essentiellement un rsultat de deux lments : le nombre de
non-rponses et lampleur de la diffrence entre les rpondants et les non-rpondants.
Lquipe prvoit un taux de non-rponse raisonnablement faible et elle espre quune composante de ce
produit sera suffisamment petite. Les membres de lquipe se demandent si les non-rpondants pourraient
vraiment tre trs diffrents des rpondants en ce qui a trait la majorit des variables importantes de
lenqute. Il semble trs probable que les non-rpondants pourraient en fait avoir des caractristiques trs
diffrentes de celles des rpondants. Lquipe craint, par exemple, que les personnes mises pied, les
migrants rcents et ceux qui sont trs mobiles pourraient en fait tre beaucoup moins nombreux
rpondre que les personnes qui ont un emploi rgulier et stable dans leur secteur denregistrement
permanent. Voil qui se traduirait par une contribution marque au biais de non-rponse.
Lquipe na cependant pas de preuve tangible et dcide quelle doit pour linstant prvoir un ajustement
des pondrations comme si les non-rponses taient alatoires. Les membres conviennent simultanment
de recommander des tudes de suivi dun sous-chantillon de non-rpondants pour essayer dobtenir une
mesure de la taille du biais quil ne faudrait pas ignorer simplement, leur avis. Ils considrent aussi
quune autre tude devrait tre prvue pour examiner les non-rponses partielles (lorsque certaines
questions seulement obtiennent une rponse), afin de dterminer sil est possible de tracer ainsi un profil
des rpondants rticents.
Il y a plusieurs mthodes possibles dajustement de la pondration pour les non-rponses, selon le plan
dchantillonnage utilis. Il peut tre fait lchelon de la grappe, de la strate ou de la ville du district. Il
semble peu raisonnable dapporter un seul ajustement pour tout le pays parce quon sait que la population
nest pas homogne et, en fait, mme lajustement lchelon de chaque district ou principale ville
STATISTIQUE CANADA

TUDE DE CAS

383

semble peu conseill pour la mme raison. Le choix peut tre important parce que les strates sont
habituellement des comts et les grappes sont trs petites. Les grappes peuvent tre plus homognes que
la strate complte, mais elles sont si petites que les ajustements pourraient tre peu stables cause des
tailles dchantillon minimes et des taux de rponse qui peuvent tre trs variables cet chelon.
Lchantillon de la strate englobe plusieurs fois celui de chaque grappe, la pondration du plan
dchantillonnage est la mme pour les deux grappes dans chaque cas et lquipe est donc davis quil est
plus logique dappliquer lajustement lchelon de la strate.
Si le nombre de mnages rpondants dans la strate est nrh, la pondration ajuste pour les non-rponses
sera quivalente :
wnr ,h = wd ,h

nh
nrh

zh
k 40
h
kh 40
nrh

zh
nrh

et toutes les personnes et tous les mnages rpondants dans la strate ont de nouveau la mme pondration.
Soulignons que cette affirmation sera strictement vraie seulement si toutes les personnes admissibles dans
un mnage rpondant sont galement des rpondants. Lquipe de lEGM considre que lhypothse sera
vraie aux fins de la planification, mais elle est dispose proposer un autre ajustement des pondrations
des personnes si elles ne rpondent pas toutes.
Lquipe remarque que les valeurs numriques des pondrations du plan varieront considrablement
dune strate lautre parce que les tailles des strates varient et k ne sera peut-tre pas semblable dans
toutes les strates. Ltendue des valeurs nest peut-tre pas trs large, mais elle lest suffisamment pour
quil soit impossible de considrer que le plan est autopondr un chelon suprieur celui de la strate.

7.1.3

Pondration dfinitive stratifie a posteriori

Lquipe propose dajouter un ajustement aux pondrations pour garantir que les estimations reproduisent
les totaux importants connus et amliorer la prcision des estimations par stratification a posteriori selon
des groupements homognes. Les plus importants de ceux-ci du point de vue de la participation la
population active sont la taille de la population pour chaque sexe et pour les principaux groupes dge
pertinents (les 15 24 ans, les 25 49 ans, les 50 64 ans et les 65 ans et plus) parce que ces groupes ont
des profils trs diffrents dans la population active.
Les estimations postcensitaires de la population par ge et par sexe sont ancres sur les donnes tires du
recensement le plus rcent, mises jour laide des registres des logements et des statistiques de ltat
civil sur les naissances et les dcs. Ces donnes sont considres trs prcises pour chaque grande ville
ou district, mais elles tiennent peu compte de la migration interne, elles ont t projetes pendant prs de
10 ans et lquipe de lEGM nest pas convaincue quelles sont bonnes lchelon de la strate.
Les membres de lquipe consultent les reprsentants de la Division des tudes dmographiques du BSB
et concluent quils devraient recommander lajustement lchelon du district ou de la ville seulement,

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

384

mais que lajustement devrait tre fait lchelon de la strate lorsque les rsultats du prochain
recensement seront disponibles.
La pondration dfinitive pour chaque personne qui rpond lenqute sera donc :
w f ,hza = wnr ,h

N za
N za

o Nza est lestimation postcensitaire de la population pour le groupe dge-sexe a de la ville ou du


district z, N za est la somme des pondrations (ajustes pour les non-rponses) pour tous les rpondants du
secteur z qui appartiennent au groupe dge-sexe a, et elle correspond lestimation directe de la
population de ce groupe dge-sexe.
Remarquez que vous obtenez maintenant diffrentes pondrations pour les personnes dun mme mnage.
Lchantillon est cependant autopondr dans le groupe dge-sexe et la strate.

7.2

Estimation de la variance dchantillonnage

Certains ouvrages standard contiennent les formules destimation de la variance pour les plans
dchantillonnage stratifis deux degrs qui sont autopondrs lchelon de la strate, mme si elles
sont relativement complexes. tant donn les ajustements proposs pour les totaux de non-rponse et par
groupe dge-sexe cependant, les expressions algbriques deviendront complexes et lquipe convient de
faire une recherche sur lapplication dune mthode par rchantillonnage, par exemple, la mthode du
jacknife ou du bootstrap . Elle na pas encore fait beaucoup de travail sur cet aspect jusqu
maintenant.
Questions de rcapitulation :
Lquipe de lEGM est-elle justifie de supposer quun biais de non-rponse est peu potable? Considrez
les taux de rponse probables pour les mnages privs comparativement ceux des mnages collectifs, en
particulier ceux qui comptent de nombreux travailleurs de passage ou migrants rcents. Serait-il possible
de stratifier par type de mnages (logements) avant dapporter lajustement pour les non-rponses dans
ces strates?
Faites un commentaire sur le choix de lchelon o est apport lajustement pour les non-rponses.
Lquipe a-t-elle pris la bonne dcision, votre avis, sur lajustement de la pondration pour les nonrponses? Vaudrait-t-il mieux ajuster les pondrations lchelon de la grappe, de la strate ou de la
ville du district? Expliquez.
Faites la mme chose pour lajustement stratifi a posteriori pour lge et le sexe.

STATISTIQUE CANADA

TUDE DE CAS

385

Chapitre 8 - Calcul de la taille de lchantillon et


rpartition
8.0 Calcul de la taille de lchantillon et rpartition
Lquipe a tabli la structure gnrale du plan dchantillonnage et commence examiner les dtails du
plan, cest--dire la taille de lchantillon, la rpartition de lchantillon entre les strates et le nombre de
grappes par strate.
Lquipe considre les plus importantes variables mesurer : les pourcentages ou proportions, par
exemple, la proportion dadultes dans la population active, la proportion de ceux qui ont un emploi, la
proportion des personnes ges de 55 ans et plus qui sont toujours conomiquement actives.
En consultation avec le Comit directeur, lquipe considre les facteurs dont il faudrait tenir compte pour
dterminer la taille de lchantillon et sa rpartition entre les rgions. Le Comit directeur prcise quun
degr lev de prcision est ncessaire lchelon national, mais quil est trs important de contrler la
prcision pour chaque rgion parce que les dcisions sur la planification seront dabord prises lchelon
rgional.
Lquipe discute du recours une fonction de rpartition optimale pour tenir compte de lcart des cots
ou des variances entre les rgions. Il ny a cependant pas de bonnes indications des diffrences relatives
dans les variances et lquipe a limpression que les cots de la collecte des donnes, composante la plus
importante du cot total de lenqute, ne varieront pas normment dune rgion lautre. De plus, la
rpartition optimale ne garantit pas ncessairement la prcision suffisante des estimations rgionales. Il
est donc dcid de cibler la mme marge derreur pour toutes les rgions.
Le reprsentant de la mthodologie au Comit directeur souligne que si nous obtenons une bonne
prcision pour chacune des 11 rgions, cest--dire une petite marge derreur pour les estimations les plus
importantes, la marge derreur des estimations nationales ne sera donc pas suprieure un tiers des
marges derreur rgionales, cest--dire que le degr de prcision devrait tre trs bon.
Les besoins de prcision noncs indiquent que la marge derreur ( un niveau de confiance de 95 %)
devrait tre de 2,5 % au plus pour les principales variables dans chacune des 11 rgions. tant donn que
chaque rgion a une grande population, cela signifie que la taille de lchantillon devrait tre la mme
dans chaque rgion.

8.1

Calcul de la taille de lchantillon par rgion

1. Taille initiale de lchantillon dans chaque rgion


Voici une estimation prliminaire de la taille de lchantillon, n1, :

n1 =

z 2 P (1 P )
e2

o e est la marge derreur (0,025) et P est la proportion cible (supposons que P=0,5).

STATISTIQUE CANADA

386

MTHODES ET PRATIQUES DENQUTE

n1 =

(1.96)2 [.5(1 .5)]


(0.25)2

= 1 537
2. Le mthodologiste souligne quil nest probablement pas ncessaire dajuster la taille de lchantillon
selon la taille de la population parce que la plus petite rgion la Ville B est trs large (plus de deux
millions de personnes).
3. La meilleure estimation de leffet du plan dchantillonnage dans lensemble est deff=2 (selon des
enqutes semblables faites dans dautres pays) :

n3 = deff n2
= 2 1,537
= 3,074
4. La taille de lchantillon est ajuste pour le taux de non-rponse qui ne devrait pas tre suprieur
20 % (de nouveau, compte tenu denqutes semblables qui se sont droules ailleurs). Ce taux de
non-rponse reprsente un modeste pourcentage de logements libres ou inoccups et un nombre
raisonnable de non-rponses cause des familles temporairement absentes ou simplement difficiles
reprer. Voici lestimation de la taille dfinitive de lchantillon par rgion :
n3
r
3,074
=
.8
= 3,843

n=

Sur lensemble des rgions, la taille de lchantillon total est donc 11 x 3 843 = 42 473 personnes cibles
dans lenqute. Lquipe suppose quil y a environ deux adultes par mnage, cest--dire 21 237 mnages
Belleterre, soit 1 922 par rgion.
Plusieurs membres de lquipe ne comprennent pas pourquoi il est important de supposer quil y a deux
adultes par mnage. Le mthodologiste explique que lunit dchantillonnage pour lenqute est le
logement, mais que toutes les estimations seront faites pour la population adulte au pays parce que ce sont
les adultes, et non les logements, qui forment la population active. tant donn que les besoins de
prcision sont lis aux adultes, ces calculs doivent donc dabord tre faits selon le nombre dadultes
ncessaires traduits ensuite en nombre de logements ncessaires dans lchantillon.
Le mthodologiste confirme quil nest pas ncessaire de considrer la correction dchantillonnage pour
population finie parce quelle est de 3 843 divis par deux millions, soit 0,0019 pour la Ville B (la plus
petite rgion).
Lquipe prvoit surveiller les taux de rponse pour chaque grappe slectionne, inscrire le genre de
mnage et tout autre renseignement pertinent, afin de reprer les diffrences dans les taux de rponse par
genre de mnage ou par rgion, ou dautres variables dont on pourrait tenir compte pour modifier la
stratgie dajustement de la pondration pour les non-rponses au cours des annes ultrieures.

STATISTIQUE CANADA

TUDE DE CAS

8.2

387

Dfinition de la stratification au deuxime degr et des grappes

On estime que la population du pays atteindra environ 44 millions de personnes vers 2005 et lquipe est
informe quelle devrait supposer une moyenne de quatre personnes par logement (compte tenu des
enfants, des parents gs et un petit pourcentage de logements ayant plus dun mnage sans tre des
logements collectifs). Le rsultat est un total denviron 11 millions de logements considrs, aux fins de la
planification, comme correspondant 11 millions de mnages.
Compte tenu de la taille de lchantillon de 21 237 mnages, cela signifierait un taux dchantillonnage
moyen de 1 sur 518. Cela peut sembler trs faible, mais la taille de lchantillon est trs grande. Les
populations varient normment lchelon rgional et les taux dchantillonnage exigs par la taille de
lchantillon rgional cibl de 1 922 logements varient donc aussi beaucoup. Les taux dchantillonnage
entre les rgions varieront de 1 sur 268 environ dans la Ville B 1 sur 754 dans la rgion la plus
populeuse, le District J.
Le plan dchantillonnage a t tabli pour permettre la dfinition dun grand nombre de strates dont
chacune aura un nombre substantiel dunits primaires dchantillonnage (UP) intitules grappes. Deux
( loccasion trois) grappes seront slectionnes par strate pour faciliter lapplication de techniques
destimation de la variance simple.
Les tailles des grappes et des strates afficheront bien entendu des diffrences dans chaque rgion et les
taux dchantillonnage dans chaque strate dune rgion varieront donc aussi relativement. Lquipe
noublie pas non plus quil nest pas souhaitable que les taux dchantillonnage dans les grappes
deviennent trop petits parce quils susciteraient une dispersion gographique indue, au moins en milieu
rural.
Nous lavons mentionn auparavant, les strates dans chaque rgion ont t dfinies selon les limites
administratives ou municipales.
Tableau 8.1 : Stratification
Rgion
Ville A
Ville B
Ville C
District D
District E
District F
District G
District H
District I
District J
District K
Total

Comts
3
3
3
11
11
13
10
7
11
13
11
96

Municipalits
21
17
16
23
26
29
26
21
26
34
28
267

Strates
21
17
19
23
26
28
26
23
26
34
30
273

Rpartition proportionnelle N entre les strates dans chaque rgion


Lchantillon rgional sera fractionn entre les strates laide de la rpartition proportionnelle N.
Noubliez pas que, selon la rpartition proportionnelle N,

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

388

nh = n

Nh
N

o n=1 922.
Des grappes sont cres dans chaque strate. Les considrations lies lefficience des oprations sur place
limitent les tendues des options lorsquon dtermine les tailles des grappes. Une quipe de trois
intervieweurs et dun surveillant devrait pouvoir faire entre 75 et 100 interviews par semaine. Compte
tenu des circonstances imprvues, il est dcid que la taille de lchantillon dans chaque strate sera de 40,
pour que lquipe puisse couvrir les deux grappes prvues dans une strate en une semaine de travail, pour
un total de 80 interviews si le taux de rponse atteint 100 %. Si trois grappes sont slectionnes dans une
strate, il est prvu daffecter quatre intervieweurs lquipe ou de prendre une journe ou deux de plus
pour accomplir la tche.
La cration des grappes et la rpartition de lchantillon pour la Ville A donne ceci :
Tableau 8.2 : Rpartition de lchantillon entre les strates de la Ville A
Strate

Comt

1
2
3
4
5

21
Total

1
1
2
2
3

Population
de
logements
(Nh)
39 836
42 481
58 411
52 039
55 800

50 900
1 020 600

Nombre de
grappes
dans la
strate
52
50
43
45
48

52
1 092

Taille
moyenne de
la grappe
(logements)
766
849,6
1 358,4
1 156,4
1 162,5

978,8
934,6

Taille de
lchantillon
de logements
(nh)
75
80
110
98
105

96
1 922

Remarquez que les taux dchantillonnage dans chaque strate sont peu prs gaux (parce que les strates
sont de tailles peu prs gales). Les taux dchantillonnage varient de 1 sur 529 1 sur 535 dans la
Ville A.
tant donn que lchantillon prvu dans chaque grappe est de 40 logements et que nous pouvons
slectionner seulement un nombre entier de grappes, la taille de lchantillon prvue dans la Ville A est de
2 000 (c.--d. 50 grappes de 40 mnages par grappe), selon le tableau ci-dessous.

STATISTIQUE CANADA

TUDE DE CAS

389

Tableau 8.3 : Nombre de grappes chantillonner selon les caractristiques ci-dessus


Strate

1
2
3
4
5

21
Total

Population
de logements
(Nh)
39 836
42 481
58 411
52 039
55 800

50 900
1 020 600

Nombre de
grappes par
strate
52
50
43
45
48

52
1 092

Nombre de
grappes
chantillonnes
2
2
3
3
3

3
50

Taille de lchantillon
de logements
(nh)
80
80
120
120
120

120
2 000

Le District D a 11 comts et 23 strates ont t dfinies au total. La structure est relativement plus
complique que celle de la Ville A parce que les populations des comts varient largement et il est
souhaitable que les limites des strates nempitent pas sur les limites du comt. Deux petits comts ont t
fusionns dans un cas pour faire une seule strate et, dans un autre, le comt lui-mme est une strate. Les
comts sont devenus deux ou trois strates dans la plupart des cas (rparties selon les limites municipales).
Un conomiste membre de lquipe a indiqu que dans un comt, les caractristiques conomiques et de
la population active en milieu urbain et rural seront probablement trs diffrentes et que lchantillonnage
par grappes peut tre trs peu efficient. Aprs tude, le mthodologiste suggre de former deux ou trois
strates dans un comt, afin que lune contienne les secteurs les plus urbains et lautre (ou les deux autres),
les secteurs les plus ruraux. Deux ou trois grappes seront ensuite slectionnes dans chaque strate et les
autres membres de lquipe conviennent que lchantillon devrait tre raisonnablement bien quilibr.
Les tailles des strates sont maintenant de 19 400 37 600 logements, la moyenne tant de 28 300
logements par strate. Les grappes sont en moyenne relativement plus petites que celles de la Ville A, le
nombre de grappes par strate est de 24 44 et, de nouveau, deux ou trois grappes seront slectionnes par
strate pour donner 80 ou 120 logements par strate.
Le tableau suivant affiche lchantillon du District D rparti entre ces 23 strates laide de la rpartition
proportionnelle N.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

390

Tableau 8.4 : Rpartition de lchantillon entre les strates dans le District D


Strate

Comt

1 urbain
2 rural
3 urbain
4 rural
5 rural

9 urbain
10 rural
11 rural
12 rural
13 rural
14 urbain
15 rural
,
22 urbain
23 rural
Total

1
1
2
2
2

4
4
4
5
6+7
8
8

Population de
logements
(Nh)
22 400
26 200
30 200
24 400
30 600

Nombre de
grappes dans la
strate
25
32
25
28
38

Taille moyenne de
la grappe
(logements)
896
818,8
1 208
871,4
805,3

21 800
28 900
32 200
19 400
24 200
28 900
29 400

26
32
36
24
26
34
41

838,5
903,1
894,4
808,3
930,8
850
717,1

Taille de
lchantillon de
logements (nh)
66
77
89
72
90

64
85
95
57
72
85
87

30 800
22 900
650 100

44
29
856

700
789,7
759,4

91
68
1 922

11
11

Tableau 8.5 : Rpartition de lchantillon entre les strates du District D


Strate

1
2
3
4
5

9
10
11
12
13
14
15
.
22
23
Total

Population de
logements
(Nh)
22 400
26 200
30 200
24 400
30 600

Nombre de grappes
dans la strate

Nombre de grappes
chantillonnes

25
32
25
28
38

2
2
3
2
3

21 800
28 900
32 200
19 400
24 200
28 900
29 400

26
32
36
24
26
34
41

Taille de lchantillon
de logements
(nh)
80
80
120
80
120

80

3
2
2
3
3

120
80
80
120
120

30 800
22 900
650 100

44
29
856

3
2
50

120
80
2 000

La taille de lchantillon des adultes prvue dans lensemble est donc de 4 000 pour la Ville A et le
District D. Le mthodologiste procde la rpartition pour toutes les villes et districts, et constate que la
taille prvue de lchantillon dans lensemble est de 22 000.
STATISTIQUE CANADA

TUDE DE CAS

391

Questions de rcapitulation :
Discutez de lhypothse de lquipe de lEGM, cest--dire un mnage, deux adultes . Lquipe peutelle faire mieux avant dobtenir des donnes de la premire dition de lEGM?
Quelles seront les rpercussions de lajout des logements collectifs sur lhypothse formule au point
prcdent et quelle est votre raction?
Pouvez-vous donner certaines raisons pratiques expliquant pourquoi la taille de lchantillon dans la
grappe devrait tre plus large, ou plus petite, que celle suggre par lquipe de lEGM? (Considrez les
conditions sur place dans lesquelles travailleront les quipes dintervieweurs). Ne vaudrait-il pas mieux
former de plus petites grappes et ensuite, de plus petits chantillons de logements dans les grappes en
combinant plusieurs grappes slectionnes, afin de composer une tche pour lquipe dintervieweurs?
Faites des commentaires sur les avantages et les inconvnients de ce genre de modification.
tant donn que le choix de la taille de lchantillon cible une marge derreur de 2,5 % pour chacune des
11 rgions dont les populations varient beaucoup, quelle marge derreur approximative obtiendrez-vous
lchelon national, votre avis?
Exprimez-vous sur lhypothse tablissant en moyenne quatre personnes par mnage. Comment cette
hypothse variera-t-elle en milieu rural et en milieu urbain?

STATISTIQUE CANADA

392

MTHODES ET PRATIQUES DENQUTE

Chapitre 9 - Oprations de collecte des donnes


9.0 Oprations de collecte des donnes
Lquipe du projet a commenc prparer les oprations de collecte des donnes immdiatement aprs
avoir dcid dappliquer linterview sur place pour la collecte des donnes de lEGM.
Le recours un plan dchantillonnage deux degrs exige que la dfinition des grappes et la rpartition
de la taille de lchantillon entre les strates et les grappes soit statistiquement efficientes, mais aussi
rentables et ralistes dun point de vue oprationnel. tant donn ces considrations, la majeure partie du
travail prparatoire aux oprations de collecte des donnes a t fait paralllement llaboration du plan
dchantillonnage.

9.1

Organisation rgionale du projet de lEGM

Le BSB est charg de la conception et de la gestion de lEGM dans lensemble. Il a cependant besoin de
la collaboration active des organismes statistiques lchelon des districts et des sous-districts pour faire
la collecte et le traitement des donnes.
Il y a un bureau de la statistique du district dans les trois principales villes. Ces bureaux seront
intensivement engags dans la collecte des donnes et les premires tapes du traitement des donnes, et
ils travailleront sous lorientation gnrale du BSB. Chacune des huit autres rgions (Districts D K) a
aussi au moins un bureau de district et, dans certains cas, de sous-district. Chaque district regroupe de sept
treize comts et ces comts correspondent en majeure partie deux ou trois strates. Il est donc toujours
pratique dorganiser les quipes de collecte des donnes lchelon du comt, sous la coordination du
bureau du district et, bien entendu du BSB. Les cots de la collecte des donnes seront rduits parce que
les membres des quipes dintervieweurs seront probablement rsidents dans les secteurs o ils seront
affects, ou ils habiteront proximit.
Le BSB, qui sera le Bureau central de lenqute, est charg avant tout de ltablissement de lchancier
de la collecte des donnes et des taux de rponse cibles. Le BSB, en collaboration avec les bureaux de la
statistique du district, labore aussi les systmes de rapport et les formules de contrle ncessaires pour
garantir le listage et la slection exacts des units dchantillonnage, ainsi que lacheminement au
moment opportun des questionnaires remplis aux bureaux de la statistique.
Lquipe du BSB prpare, de la mme faon, les manuels des oprations et de formation des
intervieweurs et des surveillants, et elle remet les bauches de ces documents aux bureaux de district pour
commentaires et rvisions. Le BSB prpare galement des exercices de formation et dautre matriel,
mme si la majorit des sances de formation se drouleront dans les bureaux de district ou de sousdistrict. Aprs avoir apport la touche finale aux manuels et autres formules, le BSB les imprimera et les
distribuera par lintermdiaire des bureaux de district et de sous-district.
tant donn lampleur des activits accomplir et coordonner, chaque bureau de district a nomm un
charg de projet rgional de lEGM. Celui-ci est charg de la majeure partie de lorganisation du travail
du bureau pertinent lEGM et il est la principale personne-ressource de lquipe charge de lEGM au
BSB. Il a t dcid que la saisie des donnes se droulera aux bureaux de district et le charg de projet
rgional est aussi responsable de la coordination de ces activits (voir le Chapitre 10 de ltude de cas).
Les chargs de projet rgionaux seront responsables de la circulation du matriel entre le BSB et les
bureaux locaux, ainsi que du retour des questionnaires remplis leur propre bureau pour la saisie des
STATISTIQUE CANADA

TUDE DE CAS

393

donnes et lenvoi des fichiers lectroniques au BSB pour traitement final (vrification et imputation,
reprage des valeurs aberrantes).
laide des lignes directrices labores en collaboration avec lquipe du BSB, les chargs de projet
rgionaux travailleront avec leurs homologues locaux pour identifier des candidats convenables quils
embaucheront et formeront titre dintervieweurs et de surveillants. Lquipe du BSB surveillera et
observera ces tapes pour garantir luniformit et recevra aussi des rapports dtat davancement rguliers
des chargs de projet rgionaux.
Dans la plupart des cas, une quipe dun surveillant et de trois ou quatre intervieweurs embauchs
lchelon du comt (ou du bureau du sous-district) sera charge de la collecte des donnes dans les
grappes de sa strate de lEGM. Dans certains cas, une quipe dintervieweurs couvrira plus dune strate,
mais cette situation devrait tre rare tant donn quil est prvu de faire toutes les interviews en un peu
plus dune semaine. Lquipe travaillera dans une grappe jusqu ce quelle soit acheve et passera la
suivante.
Lquipe du projet de lEGM remarque quil faudra donc environ 275 surveillants au total (un pour
chacune des 25 strates dans chacune des 11 rgions) et prs de 900 intervieweurs.

9.2

Relations publiques

LEGM est une nouvelle enqute importante et le BSB a lintention dobtenir les donnes de la meilleure
qualit possible, y compris les donnes des groupes de la population qui peuvent avoir des raisons dtre
rticents rpondre aux questions, et lquipe dcide donc, avec lapprobation du Comit directeur de
lEGM, de lancer une vaste campagne de relations publiques au pays.
Un membre du personnel de la Division des communications du BSB est affect cette fin lquipe du
projet de lEGM pour prparer du matriel dinformation convenable. Il comprendra une lettre de
prsentation expliquant les objectifs et limportance de lEGM. Le directeur gnral du BSB signera la
lettre, ainsi quune personnalit approprie dans la collectivit, soit le chef du bureau de la statistique du
district ou du sous-district, ou encore un reprsentant bien connu de ladministration municipale.
Voici la premire bauche de la lettre :
Monsieur, Madame,
Votre mnage a t slectionn pour participer lEnqute gnrale sur les mnages de Belleterre. Cette
nouvelle enqute publique importante donnera de linformation essentielle sur les activits de la
population de notre pays et sur la situation familiale en priode actuelle de changement conomique
rapide.
Le Bureau de la statistique de Belleterre se charge de lenqute. La confidentialit de linformation
obtenue dans lenqute est protge en vertu de la loi. Vos rponses aux questions de lenqute seront
strictement confidentielles. Toutes les donnes obtenues dans cette enqute serviront des fins
statistiques seulement. Vos rponses seront combines celles de nombreux autres citoyens pour tracer
un profil statistique fiable des conditions au pays.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

394

Il faudra environ 20 minutes pour achever linterview. Sil nest pas pratique de rserver ce temps
lorsque lintervieweur communiquera avec vous la premire fois, il(elle) prendra volontiers un rendezvous pour procder linterview au moment qui vous convient le mieux.
Le Bureau de la statistique de Belleterre reconnat votre importante contribution et celle dautres
citoyens qui prennent le temps de nous faire part de ces renseignements essentiels. Nous vous remercions
davance de votre collaboration prcieuse.
Si vous avez des questions auxquelles lintervieweur ne peut rpondre, nhsitez pas communiquer avec
le reprsentant local de lEGM au Bureau de la statistique de la direction du comt situ -------------------------, ou en composant le numro 1-23-456-7899.
M. Untel
Directeur, BSB

C. Lacase
Agent responsable
(Nom du bureau local)

Un communiqu soigneusement formul est aussi prpar et sera envoy aux journaux locaux, stations de
radio, bureaux de police et bureaux de ladministration municipale les informant des activits prochaines
de lEGM et demandant leur collaboration pour informer le grand public. Plusieurs des principaux
paragraphes sont rdigs pour faciliter cette tche et ils seront lus en ondes ou imprims intgralement
dans les journaux. Le mme message sera ainsi diffus partout au pays.

9.3

Prparation pour la collecte

Lquipe de lEGM doit laborer trois manuels : un pour le listage des logements, un pour linterview et
un pour les surveillants qui superviseront les deux oprations.
Lquipe de lEGM consulte des manuels utiliss dans des enqutes prcdentes sur les mnages pour
rdiger les manuels de lintervieweur et du surveillant, et elle en tire des sections compltes intgrer aux
manuels de lEGM. La majeure partie du manuel de listage doit cependant tre labore au complet parce
que le BSB na pas fait de listage auparavant. Lquipe peut consulter des manuels dautres pays qui
utilisent souvent des bases arolaires pour laborer le manuel.
Les surveillants seront embauchs et forms en premier lieu, comme nous lavons mentionn ci-dessus.
Ils devraient de prfrence avoir une exprience pralable de lenqute. Ils doivent aussi avoir les qualits
et les aptitudes personnelles ncessaires pour orienter efficacement une quipe de plusieurs intervieweurs
pendant les activits de listage et dinterview et pour intervenir en prsence de rpondants difficiles, tout
en garantissant la communication fiable et temps des donnes et dautres renseignements au bureau de
la statistique responsable. Tout le personnel embauch doit tre srieux et digne de confiance pour que le
travail soit accompli selon les directives et pour protger la confidentialit des donnes obtenues.
Les chargs de projet rgionaux formeront les 275 surveillants environ dont ils auront besoin. Lquipe de
lEGM prvoit faire un effort norme pour former suffisamment les chargs de projets rgionaux aux
volets des procdures de collecte, des concepts, des objectifs de lenqute, etc., pour quils soient en
mesure de travailler avec des petits groupes de reprsentants de district ou de sous-district, afin
dinterviewer les candidats aux postes de surveillant et de former ensuite ceux qui sont embauchs.
Ceux-ci collaboreront avec les reprsentants des bureaux de district et de sous-district sous lorientation
de lquipe de lEGM et des chargs de projets rgionaux pour interviewer et embaucher un nombre
suffisant dintervieweurs qualifis.
STATISTIQUE CANADA

TUDE DE CAS

395

Lquipe de lEGM prfrerait affecter au projet des membres du personnel actuel de la surveillance et de
linterview si possible. Cependant, si certains postes ne peuvent tre dots linterne en collaboration
avec les divers bureaux rgionaux, des annonces seront diffuses la radio, dans les journaux locaux et
les salles communautaires pour numrer les qualifications essentielles au travail et obtenir des
candidatures.
Les intervieweurs auront une formation approfondie pour les prparer leurs tches. Chacun deux doit
dabord tudier les manuels domicile et rdiger plusieurs exercices. Ils auront ensuite plusieurs jours de
formation en classe, y tudieront les techniques dinterview et les aptitudes cette fin, et ils seront trs
bien informs du questionnaire. Les surveillants discuteront des exercices des intervieweurs rdigs
domicile et y apporteront des corrections pendant la formation, et il y aura des interviews fictives aux fins
de la pratique avec dautres intervieweurs et des rpondants qui ne feront pas partie de lchantillon de
lEGM.

9.4

Listage

tant donn que le plan dchantillonnage utilise des grappes dlimites sur les cartes, la premire tche
des quipes dintervieweurs est didentifier les grappes slectionnes et daller sur place pour lister les
logements dans chaque grappe en ajoutant une description suffisamment dtaille pour que chacun soit
identifi uniquement et facilement repr sil est slectionn pour linterview. Les quipes se dplacent
pied, bicyclette ou en automobile, selon la taille gographique de la grappe.
Lorsque les listes sont compltes, le surveillant et le reprsentant du bureau du district ou du sous-district
(selon les instructions obtenues de lquipe de lEGM par lintermdiaire du charg de projet rgional)
slectionnent le nombre appropri de logements laide de lchantillonnage systmatique des listes
lorsque le charg de projet rgional leur a communiqu les origines choisies au hasard et les intervalles
dchantillonnage.

9.5

Collecte des donnes

La collecte des donnes commence aprs lidentification des logements slectionns. Les intervieweurs
communiquent avec les mnages ou les citoyens qui habitent ces logements et, si possible, interviewent
les membres admissibles du mnage. Si aucun membre admissible linterview nest prsent domicile,
lintervieweur demande quand il(elle) peut communiquer de nouveau et, si personne nest prsent, il
laisse une note prcisant quil communiquera de nouveau plus tard. Si quelquun est prsent, mais sil ne
peut passer linterview, lintervieweur essaie de prendre des dispositions pour procder linterview dans
les jours suivants et insiste de nouveau sur limportance de la contribution de cette personne lenqute.
Si le chef du mnage refuse carrment linterview, lintervieweur essaie de le persuader une fois de plus,
mais se retire ensuite et mentionne le cas au surveillant charg du suivi pour convertir un refus en rponse
complte.
Lintervieweur vrifie si tous les documents dinterview sont complets et si le statut de chaque interview
est correctement entr dans les formules de contrle la fin de chaque journe. Certaines vrifications sur
place sont faites et si des erreurs sont dtectes, il y a communication avec le mnage le jour suivant pour
rgler les incohrences ou les omissions. Les formules sont retournes au bureau lorsquelles sont
compltes.
Le surveillant observe une certaine partie des interviews de chaque intervieweur, en particulier au dbut
de la priode de collecte des donnes, pour obtenir des donnes de trs bonne qualit. Les membres du
STATISTIQUE CANADA

396

MTHODES ET PRATIQUES DENQUTE

personnel du bureau municipal et de lquipe de lEGM du BSB observent aussi certaines interviews dans
divers secteurs du district. Les surveillants donnent une rtroaction aux intervieweurs pour corriger les
erreurs et amliorer leurs aptitudes linterview.
Lquipe de lEGM applique aussi un programme de r-interviews, communique de nouveau avec un
sous-chantillon des units chantillonnes une semaine aprs la collecte des donnes pour vrifier des
renseignements critiques du questionnaire. Des prcisions sont apportes en collaboration avec le
rpondant sil y a des diffrences par rapport linformation originale. Les donnes tires de la rinterview serviront estimer lampleur des divers types derreurs non dues lchantillonnage (par
exemple, lerreur de couverture, de mesure, de non-rponse ou de traitement) dans les donnes.
Les surveillants vrifient galement si les questionnaires ont t remplis correctement et si les codes de
statut attribus sont exacts. Ils doivent aussi garantir que tous les questionnaires et autres formules sont
reprs et en ordre avant de les envoyer au bureau pour traitement.
Le surveillant et le personnel du bureau municipal organisent des sances dinformation lintention des
intervieweurs lorsque les interviews sont acheves, afin dobtenir une rtroaction prcieuse pour le
traitement des donnes et la rvision du questionnaire et des manuels en vue de la prochaine dition de
lEGM.
Questions de rcapitulation :
Est-il pratique dembaucher un aussi grand nombre dintervieweurs et de surveillants qui travailleront
pendant une priode aussi brve chaque trimestre? Quelles seraient les rpercussions si lon faisait
appel moins dquipes et si lon rpartissait les interviews sur plusieurs semaines? (Considrez divers
aspects, par exemple, les cots, la qualit des donnes et les autres oprations lies la collecte des
donnes, notamment le listage et le dnombrement.)
Pouvez-vous suggrer des amliorations apporter lbauche de la lettre aux rpondants pour les
aider comprendre quel point lenqute est importante et pour les convaincre que leurs rponses
seront confidentielles?
Il a t mentionn que la saisie des donnes serait faite aux bureaux de district. Est-ce la disposition la
plus efficace ou serait-il prfrable de faire la saisie des donnes au Bureau central?

STATISTIQUE CANADA

TUDE DE CAS

397

Chapitre 10 - Traitement
10.0 Traitement
Ds leur retour aux bureaux de la direction des districts ou des sous-districts, les questionnaires sont
traits pour obtenir un fichier de donnes do seront dresss des tableaux et les rsultats de lenqute
feront lobjet dune analyse. Les tapes franchir ce volet de lenqute comprennent le codage, la saisie
des donnes, la vrification et limputation, la dtection et le traitement des valeurs aberrantes, ainsi que
la cration dune base de donnes. Diverses procdures de contrle qualitatif et dassurance de la qualit
sont aussi labores et appliques.

10.1 Saisie des donnes et codage


Les questions fermes sont codes davance sur le questionnaire et les oprateurs de la saisie des donnes
entrent simplement les numros de code inscrits ct des cercles ou des cases qui correspondent la
rponse. Les rponses aux questions ouvertes qui portent sur les nombres (ge du rpondant en annes,
heures travailles, traitement, etc.) peuvent aussi tre saisies directement partir du questionnaire.
Dautre part, le questionnaire contient plusieurs questions, par exemple le genre de travail accompli, qui
ont tellement de rponses possibles que les catgories et les codes ne peuvent tre ajouts au
questionnaire. Dans ces cas, une liste de code a t prpare et remise au personnel du bureau qui inscrit
le code appropri sur le questionnaire avant la saisie des donnes. La question JD6 demande, par
exemple, au rpondant dans quelle branche se droule la principale activit conomique de son
employeur. Une liste de codes de secteurs conomiques a donc t remise au personnel du bureau qui
attribuera la valeur la plus approprie la rponse avant la saisie des donnes.
Il y a aussi quelques questions avec case autre, veuillez prciser qui ne peuvent tre codes davance.
Lquipe de lEGM a labor pour ses cases une liste prliminaire des sujets les plus probables qui sont
inscrits en rponse et y ont attribu des codes. Un membre de lquipe tudie un certain nombre de
questionnaires (peut-tre 100 environ) pour dterminer si dautres sujets deviennent assez frquents pour
mriter un code. Toutes les rponses qui peuvent tre codes laide de la liste rvise le sont. (On a
demand aux oprateurs de la saisie des donnes dentrer la rponse donne dans une zone de texte pour
toutes les rponses qui ne peuvent tre codes avant la saisie des donnes.) Ces cases sont tudies aprs
la saisie des donnes et le personnel essaie de nouveau dlaborer une liste complte de codes. Toutes les
cases qui ne peuvent toujours pas tre codes reoivent le code implicite pour autre .
la conclusion du codage, les lots de questionnaires sont envoys aux oprateurs de la saisie des donnes
qui entrent les rponses codes dans lordinateur pour crer un fichier de donnes prliminaires. Lquipe
de soutien informatique de lquipe de lEGM a prpar des crans de saisie des donnes cette fin.
Au cours de lenqute, partir de la collecte des donnes jusqu la prparation des tableaux, lquipe
applique un certain nombre de procdures de contrle qualitatif et dassurance de la qualit. Le
programme de contrle qualitatif sert vrifier un pourcentage du travail de chaque oprateur de lentre
des donnes et examiner de nouveau son travail si le nombre derreurs est suprieur une limite
dtermine. Une procdure semblable est applique pour vrifier le codage. Lchantillonnage
dacceptation est fait dans les deux cas et la production quotidienne de chaque oprateur est traite
comme un lot.

STATISTIQUE CANADA

398

MTHODES ET PRATIQUES DENQUTE

Une rtroaction tire des rsultats de lchantillonnage dacceptation est communique chaque oprateur
et, si ncessaire, une formation supplmentaire est offerte (ou, si les cibles ne sont pas atteintes,
loprateur est libr de sa tche). Les surveillants et les chargs denqute sont aussi informs des
indicateurs pertinents.

10.2 Vrification
La vrification commence lorsque les intervieweurs, et ensuite les surveillants, ont prtrait les
questionnaires pour vrifier sils sont correctement remplis et si le suivi auprs du rpondant est
ncessaire. Un autre prtraitement est fait au bureau avant la saisie des donnes et le codage.
Dautres vrifications sont faites pendant la saisie des donnes parce que les crans sont programms pour
dtecter certaines erreurs lentre au clavier. Elles comprennent les vrifications de validit pour les
codes inadmissibles. Si loprateur entre une valeur de trois huit pour le sexe du rpondant, par
exemple, lordinateur met un signal sonore et attend une correction parce que cette variable devrait tre
code 1 pour homme, 2 pour femme ou 9 pour une non-rponse.
Les programmes de saisie des donnes comprennent aussi des vrifications de convergence pour les
caractristiques errones de linstruction passez . la section de la description de fonctions, par
exemple, seuls les travailleurs autonomes sont senss rpondre aux questions JD2 JD4. Si le rpondant
nest pas un travailleur autonome, il devrait passer outre les questions JD2 JD4 et il faudrait entrer un
code (p. ex., 8 ) indiquant que les questions ne sappliquent pas. Si loprateur de la saisie des donnes
essaie dentrer une rponse lune de ces questions pour une personne qui nest pas travailleur autonome,
lcran de saisie des donnes met un signal sonore pour que loprateur vrifie la donne.
Une vrification plus complte est faite lorsque les donnes sont sur support lectronique. Ds que la
touche finale est apporte au questionnaire, lquipe commence formuler des rgles de vrification des
combinaisons inacceptables de codes pour les groupes de questions connexes (deux ou trois questions ou
plus). Un enregistrement serait rejet lapplication dune rgle de vrification, par exemple, si le
traitement semble trop lev ou trop faible tant donn le nombre dheures travailles. Ces rgles de
vrification sont appliques automatiquement au fichier de donnes. Lquipe a cependant t informe
des risques de la survrification et de la ncessit dapporter seulement les modifications minimales
ncessaires aux donnes du rpondant, et les rejets la vrification seront imputs seulement si
lenregistrement a des rpercussions importantes sur lestimation. Des zones de signalisation
particulires sont donc prvues pour chaque question, afin dindiquer si la zone a t rejete la
vrification et si elle devrait tre entre dans le systme dimputation.
tant donn les tapes de prtraitement et de vrification manuelle, trs peu denregistrements ont encore
tellement de rejets la vrification cette tape quils doivent tre dclars inutilisables. Ces cas sont
traits comme une non-rponse totale. Ils sont traits comme les refus et dautres occurrences de nonrponse totale ltape de la collecte des donnes, et un ajustement est apport aux pondrations de
lenqute pour redressement.

10.3 Imputation
Les zones rejetes lapplication dune rgle de vrification et les non-rponses une question des
enregistrements utilisables du questionnaire sont analyses pour imputation ventuelle. La mthode
dimputation varie selon le genre de question.

STATISTIQUE CANADA

TUDE DE CAS

399

La redondance dans les questions de quelques zones permet limputation dterministe. La section sur la
composition des mnages comprend, par exemple, une zone pour la taille totale du mnage, ainsi que le
nom, lge, etc. de tous les membres du mnage. Si ces zones sont toujours incohrentes malgr la
vrification prcdente, la taille totale du mnage est signale inexacte et limputation dterministe est
applique la valeur qui devient le nombre de personnes inscrites dans les autres zones.
Dautre part, si un rpondant dclare un revenu de la vente de produits agricoles, mais ninscrit pas une
somme, la valeur est impute laide de la mthode hot-deck (donneur de lenqute) alatoire en utilisant
comme donneurs ventuels tous les autres rpondants dans la mme strate qui tirent un revenu de cette
activit. Sil ny a pas de donneur convenable, le groupe de donneurs ventuels est largi pour
comprendre tous les rpondants de la mme rgion.
Lorsque limputation est acheve, les programmes de vrification peuvent de nouveau tre appliqus aux
fichiers de donnes pour garantir que les donnes sont entirement cohrentes. Il faut appliquer de
nouveau limputation au fichier pour liminer les quelques enregistrements toujours rejets aprs
lapplication de rgles de vrification et le fichier est ensuite vrifi de nouveau pour en dterminer la
cohrence.
Les indicateurs de diagnostic, par exemple, le nombre de cases imputes dans chaque zone, le genre
dimputation applique, le nombre de donneurs admissibles, la frquence de leur utilisation et dautres
mesures, sont simultanment enregistrs comme entres au processus dvaluation de lenqute. Ces
indicateurs serviront ltape de lvaluation pour calculer les taux de rejet la vrification et les taux
dimputation pour les principales variables de lenqute et les variables qui affichent le plus grand nombre
de problmes. Les signalisations dimputation et de vrification sont aussi maintenues au fichier pour
aider dterminer la qualit de la base de donnes dfinitive dans lensemble.

10.4 Dtection et traitement des valeurs aberrantes


tant donn le genre de questions, relativement peu de zones du fichier de donnes de lEGM sont des
valeurs aberrantes, cest--dire des observations extrmes ou influentes. Il y a cependant plusieurs
variables, par exemple les traitements et mme les heures travailles, auxquelles peuvent tre attribues
des valeurs extrmes, mais possibles. Une personne dclare, par exemple, avoir travaill 96 heures la
semaine dernire, information qui peut en fait tre vraie. Un autre rpondant dclare un traitement de
75 000 $ la semaine dernire, ce qui peut aussi tre vrai, mais le cas serait trs rare, surtout si cette
personne inscrit lentre profession quelle est enseignante lcole lmentaire. Son revenu rel serait
probablement plus prs de 750 $ dans ce cas. Mme si la rponse tait vraie, elle pourrait avoir une
influence indue sur les estimations de lenqute si, pour une certaine raison, son mnage avait une
pondration de lchantillonnage inhabituellement leve (par exemple, cause dajustements de la
pondration pour les non-rponses).
Afin de dtecter et de rgler les cas du genre, lquipe de lEGM a labor des approches systmatiques
de la dtection et du traitement des valeurs aberrantes axes sur les quantiles de lchantillon (quartiles et
mdiane). Les membres de lquipe ntant pas certains du choix des valeurs critiques, ils ont prfr des
valeurs relativement faibles (cest--dire qui permettront probablement de dtecter les valeurs
aberrantes trop nombreuses . Les analystes examinent ensuite toutes les valeurs signales pour mieux
comprendre les rpartitions des donnes avant de prendre des dcisions dfinitives, savoir quels cas
devraient tre dfinis comme valeurs aberrantes et comment il faudrait les traiter. Compte tenu de cette
exprience, lquipe laborera ensuite une approche plus systmatique de la dtection et du traitement des
valeurs aberrantes pour la deuxime dition de lEGM.

STATISTIQUE CANADA

400

MTHODES ET PRATIQUES DENQUTE

10.5 Cration de la base de donnes


Les dernires tapes du traitement sont la cration dun fichier non hirarchique qui servira de fichier
lmentaire de donnes de lenqute, le calcul des pondrations et leur ajout au fichier. Lquipe de
lEGM entre les rsultats au fichier et le sauvegarde ensuite en une prsentation qui convient au principal
logiciel de traitement statistique du BSB (afin dacclrer la prparation des tableaux et dautres sorties de
lenqute).
Questions de rcapitulation :
Il est mentionn ci-dessus que les questions qui ont de nombreuses catgories de rponses possibles
doivent tre codes la main avant la saisie des donnes. Pouvez-vous suggrer un autre moyen de
traiter ces cas? Serait-il ventuellement plus ou moins efficient que le codage manuel? Expliquez.
Est-il raliste dappliquer lchantillonnage dacceptation suggr pour le contrle qualitatif du codage
et de lentre des donnes dcrit ci-dessus, tant donn que 300 codeurs et oprateurs de lentre des
donnes environ sont rpartis entre les divers bureaux de district? Pouvez-vous suggrer une autre
approche du traitement des donnes et du contrle qualitatif qui serait plus efficace? Quels en seraient
les inconvnients?
Suggrez dautres approches de limputation qui pourraient servir lEGM.
Quelles variables auxiliaires faudrait-il considrer lors de la cration des classes dimputation?

STATISTIQUE CANADA

TUDE DE CAS

401

Chapitre 11 - Analyse des donnes


11.0 Analyse des donnes
Lquipe de lEGM a maintenant une base de donnes complte et pure quelle doit analyser pour
communiquer de linformation utile aux utilisateurs, afin de les aider rpondre aux questions qui ont
motiv lenqute.

11.1 Mesures sommaires


Lanalyse prliminaire est surtout descriptive et comprend les distributions de frquence une variable
(tris plat), ainsi que les moyennes, proportions et totaux estims, pour toutes les variables produites
directement partir du questionnaire ou qui en sont tires pendant le traitement. Les estimations sont
accompagnes de leurs erreurs-types estimes. Il y a aussi un nombre substantiel de totalisations croises
(tris croiss), nombre dentre elles sont planifies, mais dautres sont labores la suite de lanalyse
prliminaire des donnes. Aprs lanalyse prliminaire, par exemple, un analyste dcide dtudier le genre
demplois des hommes et des femmes. Voici un extrait de son analyse :
Quels genres demplois occupent les hommes et les femmes?

Il y a une grande diffrence de rpartitions des professions entre les hommes et les femmes. Malgr
un dplacement apparent des femmes vers les professions de gestion et des hommes vers les secteurs
des ventes et services, les structures professionnelles traditionnelles des hommes et des femmes se
maintiennent :
i.

Il y a plus de femmes que dhommes qui travaillent dans les secteurs suivants : ventes et
services, affaires, finances et administration, sciences sociales, enseignement, service
gouvernemental et religion, arts, culture, loisirs et sports, sant.

ii. Dautre part, il y a plus dhommes que de femmes affects des postes de col bleu, de
gestion, de sciences naturelles et appliques.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

402

Tableau 11.1a : Emploi par profession et sexe


Profession

Gestion
Affaires, finances et administration
Sciences naturelles et appliques
Sant
Sciences sociales, enseignement, service gouvernemental et
religion
Arts, culture, loisirs et sports
Ventes et services
Commerce, transport et fonctionnement du matriel
Industrie primaire
Traitement, fabrication et services publics
Total

Rpartition entre les


professions (%)
Hommes
Femmes
11,9
8,6
9,5
26,9
8,6
2,4
2,0
9,1
4,8
8,9

2,4
19,6
24,5
6,0
10,5
100,0

3,2
31,5
2,2
2,0
5,2
100,0

Tableau 11.1b : Emploi par profession et par sexe


Profession

Gestion
Affaires, finances et administration
Sciences naturelles et appliques
Sant
Sciences sociales, enseignement, service gouvernemental et
religion
Arts, culture, loisirs et sports
Ventes et services
Commerce, transport et fonctionnement du matriel
Industrie primaire
Traitement, fabrication et services publics
Total

Rpartition entre les


hommes et les femmes (%)
Hommes
Femmes
62,6
37,4
29,8
70,2
81,4
18,6
20,7
79,3
39,5
60,5

47,4
42,6
93,0
78,1
70,7
54,5

52,6
57,4
7,0
21,9
29,3
45,5

11.2 Tests dhypothses sur la population


Mme si des mesures sommaires sont ncessaires comme point de dpart de lanalyse, la majorit des
utilisateurs et des analystes veulent tester certaines hypothses sur la population. Une analyste veut, par
exemple, tudier la diffrence de traitement des employs de 15 65 ans selon le sexe. Les hommes sont
mieux rmunrs que les femmes, selon son hypothse. Elle examine dabord lestimation des taux
horaires moyens des deux et remarquent une diffrence substantielle : 19 $ pour les hommes et 15 $ pour
les femmes. Elle trace un graphique des donnes et constate aussi que les rpartitions affichent une
asymtrie marque, cest--dire que la mdiane pour les hommes est de 17 $ et celle des femmes est de
13 $. Ceci est reprsent la Figure 11.1.

STATISTIQUE CANADA

TUDE DE CAS

403

Figure 11.1 Taux horaires des hommes (1) et des femmes (2)
80

traitements

60

40

20

0
1

2
se xe

Lanalyste teste lhypothse nulle selon laquelle les traitements moyens des hommes et des femmes sont
les mmes, comparativement lhypothse alternative, selon laquelle ils sont diffrents. Elle constate
qu un niveau de confiance de 95 %, ils sont diffrents.
Aprs avoir rflchi au lien entre les traitements et le sexe cependant, lanalyste se demande si dautres
variables pourraient aussi avoir des rpercussions. Elle souponne que lge, la scolarit, la branche
dactivit et la profession peuvent aussi tre lis aux gains. Elle dcide de faire une analyse de variance de
la variable traitements pose comme variable dpendante, mais elle doit dabord dcider comment
traiter certaines variables indpendantes.
Premirement, lge nest pas le bon genre de donnes utiliser dans une analyse de la variance et, avant
de faire cette analyse, lanalyste doit dabord grouper la variable dge. Elle dcide de la grouper en
tranches de 10 ans et dintgrer une variable calcule la base de donnes intitule groupe dge qui
comprendra la valeur 1 pour une personne ge de moins de 25 ans, 2 pour une personne ge de 25
34 ans, etc.
Elles doit ensuite dterminer que faire des variables profession et branche dactivit. Celles-ci sont
tablies laide des systmes de classification type qui comprennent un code quatre chiffres. Le premier
chiffre indique la branche dactivit gnrale ou le groupe de professions et chaque chiffre suivant prcise
davantage. Il y a des milliers de groupes au total pour chaque systme de codage et ils sont trop nombreux
pour les utiliser dans une analyse de la variance. Il y a trop peu de rpondants dans certains groupes pour
donner des rsultats significatifs. Les systmes de codage sont aussi trs subjectifs et lon a impression
que les taux derreur sont trs levs au niveau de quatre chiffres. Compte tenu de tous ces points,
lanalyste dcide de tronquer les codes au seul premier chiffre pour lanalyse.
Aprs avoir calcul les variables ncessaires, lanalyste fait lanalyse de la variance laide des
traitements comme variable dpendante et du groupe dge, du sexe, de la scolarit, de la branche
dactivit et de la profession comme variables indpendantes. Le modle se rvle significatif, cest--dire
quil explique une variation marque dans les traitements et chacune des variables indpendantes devient
aussi un lment important de la variation des traitements.

STATISTIQUE CANADA

404

MTHODES ET PRATIQUES DENQUTE

Lanalyste souponne cependant quil peut y avoir une certaine interaction entre les variables
indpendantes. Quen est-il, par exemple, si lge de la personne dtermine les rpercussions du sexe sur
les traitements? Afin dtudier ces questions, lanalyste dcide dajouter toutes les rpercussions de
linteraction au modle pour examiner leur influence sur les traitements. Elle constate que toutes les
rpercussions de linteraction sont importantes lexception du groupe dge par branche dactivit. Cela
signifie que, non seulement le groupe dge, le sexe, la scolarit, la branche dactivit et la profession
dterminent les traitements, mais que la plupart des combinaisons de ces variables ont aussi des
rpercussions sur les traitements.
Lanalyste ralise que la question est trs complique et quil faut faire davantage de recherche.

11.3 Autre analyse


Outre lanalyse dj faite, lanalyste de lEGM veut aussi analyser certaines caractristiques dans le temps
et apporter ventuellement des corrections en fonction des variations saisonnires lorsque suffisamment
de donnes seront disponibles.
Questions de rcapitulation :
Quel genre de donnes sont les variables ge et groupe dge?
Quelles autres variables peuvent servir lanalyse de la variance?
Quels autres genres danalyses suggreriez-vous?

STATISTIQUE CANADA

TUDE DE CAS

405

Chapitre 12 - Diffusion des donnes


12.0 Diffusion des donnes
Lquipe de lEGM a analys les donnes et elle doit maintenant faire rapport sur les rsultats aux
utilisateurs pour les aider rpondre aux questions qui ont motiv lenqute. Lquipe valuera
simultanment les donnes selon les objectifs de lenqute.

12.1 Principal rapport de lenqute


Le corps du rapport commence par une introduction donnant une brve description des objectifs de
lEGM, les divers organismes engags dans le plan denqute et lexcution, les principaux utilisateurs
prvus et un aperu de la mthodologie utilise.
La majeure partie du principal rapport de lenqute comprend des tableaux prvus tirs directement de la
base de donnes des rponses au questionnaire. Cependant, afin que ces tableaux soient le plus utile
possible pour les utilisateurs, lquipe prpare un rapport textuel rsumant les plus importants rsultats,
des considrations sur leur signification selon les objectifs originaux de lenqute et un commentaire sur
les points forts et les points faibles des donnes. Le texte du rapport comprend un certain nombre de
graphiques et de tableaux pour illustrer les principaux points. Le rapport comprend aussi des
commentaires sur des points autres que les donnes de la principale base de donnes, par exemple, il
mentionne les problmes particuliers relevs pendant le travail de terrain ou les questions dont les
rponses ont exig des taux particulirement levs dimputation. Dautres rapports, qui seront diffuss
plus tard, sont aussi mentionns (Section 12.3).
La dernire section du rapport principal tire des conclusions sur la situation du march du travail dans
lensemble Belleterre et comprend des recommandations pour tudier davantage plusieurs points
importants qui ne sont pas approfondis dans cette premire dition de lEGM.
Les tableaux des annexes affichent les distributions de frquence une variable (tris plat), ainsi que les
moyennes, proportions et totaux estims, pour toutes les variables produites directement partir du
questionnaire ou qui en sont tires pendant le traitement. Les estimations sont accompagnes de leurs
erreurs-types estimes.

12.2 Rapport sur la qualit des donnes


Lquipe du projet de lEGM prpare aussi un rapport complet sur la qualit des donnes de la premire
dition de lenqute, afin de faciliter llaboration de lenqute pour les annes ultrieures. Le rapport
comprendra des mesures de la variabilit de lchantillonnage, notamment, les coefficients de variation ou
les effets du plan dchantillonnage. Il comprendra aussi les taux dinoccupation, les taux de rponse
(totale et partielle) et un bon nombre de mesures et dindices obtenus chaque tape du contrle qualitatif
appliqu au codage, la saisie des donnes et dautres phases de lenqute. Il dcrira le processus de
vrification et dimputation, et considrera les taux dimputation et tout autre problme dcouvert dans les
donnes pendant ce processus. Il y aura de plus un commentaire sur l-propos de la comparaison des
rsultats de lEGM avec dautres sources de donnes disponibles, laccent tant mis sur la comparabilit
ou les diffrences des concepts et des outils de mesure utiliss et on prcisera si ltalonnage, selon une
source plus fiable, a t utilis pour certaines des donnes.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

406

Voici une liste de certaines des valeurs examines dans le rapport :


- coefficients de variation par rgion,
- effets du plan dchantillonnage par rgion,
- taux dinoccupation par milieu urbain rural,
- taux de non-rponse par rgion et milieu urbain rural dans la rgion,
- taux de non-rponse par genre de non-rponse,
- donnes utilises pour la stratification a posteriori,
- taux de rejet la vrification par question,
- taux dimputation par question,
- taux derreur de codage,
- taux derreur de saisie des donnes,
- nombre moyen de communications pour conclure un cas de rponse,
- nombre moyen de communications pour conclure un cas de non-rponse,
- dure moyenne de linterview des cas de rponse.

12.3 Autres rapports


Lquipe de lEGM produira probablement plusieurs rapports supplmentaires, y compris :
i.

Rapport dvaluation de lenqute. Il comprendra les recommandations de lquipe sur les


amliorations apporter au processus de lenqute pour que ldition suivante de lEGM
fonctionne encore mieux et avec davantage defficience.

ii.

Rapports danalyse dtaille. Lquipe de lEGM prvoit produire une srie de rapports
analytiques rdiger en collaboration avec divers organismes utilisateurs.

iii.

Rapports techniques. Ces rapports donneront des dtails sur la mthode denqute, le plan
dchantillonnage, la mthode destimation, les procdures de collecte et de traitement des
donnes, etc.

12.4 Confidentialit et contrle de la divulgation


Le contrle de la divulgation des rsultats dfinitifs de lenqute est une question importante. Il ny aura
pas de fichier de microdonnes grande diffusion et le contrle de la divulgation cible donc les tableaux
diffuss et les autres mesures sommaires. (Le BSB pourrait cependant donner laccs aux microdonnes
certains analystes autoriss qui auront prt serment comme sils taient employs du BSB. Toutes les
pnalits pour divulgation non autorise de renseignements confidentiels peuvent donc sappliquer ces
personnes.)
Dans le cas des donnes publies dans le principal rapport de lenqute, lquipe tudie des mthodes
axes sur la restriction qui sont disponibles pour les donnes en tableau. La majorit des donnes de
lEGM sont discrtes, mais certaines variables sont continues et il est donc plus difficile de les traiter.
Plusieurs mthodes sont ltude, mais lquipe na pas encore tir de conclusion, savoir laquelle
adopter. tant donn cependant que lun des principaux objectifs de la premire dition de lEGM est
dobtenir de linformation amliore pour peaufiner lEGM en cours, la stratgie gnrale adopte doit
tre trs conventionnelle. Lquipe est donc dispose supprimer un nombre trop lev de
renseignements si ncessaire en faisant des valuations dtailles de la qualit des donnes et du risque de
divulgation pour lapplication ultrieure de rgles sur la divulgation qui maximiseront le nombre de
renseignements qui peuvent tre diffuss lavenir.
STATISTIQUE CANADA

TUDE DE CAS

407

Voil pourquoi lquipe a dtermin une rgle limite prliminaire prcisant quil doit y avoir au moins dix
rpondants dans une case dun tableau avant de le diffuser. Lquipe considre que cette mesure et la
suppression rsiduelle connexe sont suffisantes dans la plupart des cas et probablement trs
conventionnelles dans lensemble. Lquipe prfre regrouper les cases caractre dlicat avec les cases
voisines lorsque cest possible, au lieu de simplement les supprimer, parce que cette mesure aidera
minimiser les nombres autrement levs de suppression de cases complmentaires.
Questions de rcapitulation :
Le principal rapport de lenqute devrait-il tre mis la disposition du grand public et tre ainsi ajout
aux sries rgulires de publications du BSB ou le rapport de la premire dition devrait-il tre restreint
au personnel du BSB et aux utilisateurs de donnes connus dans dautres ministres?
Recommandez dautres mthodes de contrle de la divulgation possible qui pourrait tre considres
pour lEGM.

STATISTIQUE CANADA

408

MTHODES ET PRATIQUES DENQUTE

Chapitre 13 - Planification et gestion de lenqute


Enqute gnrale sur les mnages (EGM) de Belleterre
valuation personnelle des pratiques de planification et de gestion du charg de projet

13.0 Introduction
Lobjectif de ce rapport est de dcrire et dvaluer les pratiques de planification et de gestion appliques
lEnqute gnrale sur les mnages (EGM) de Belleterre, afin de tirer des leons de lexprience. Il sagit
de notes personnelles qui ne seront pas distribues lquipe du projet ou au Comit directeur. titre de
charg de projet, jajouterai cependant certains points considrs dans ce rapport au rapport officiel
dvaluation de lenqute aux fins de lamlioration du questionnaire et des procdures pour la prochaine
dition de lEGM.

13.1 Contexte
Pleinement conscient du besoin de plus en plus urgent dinformation jour sur ltat de lconomie et de
la situation socioconomique de la population, le Bureau de la statistique de Belleterre (BSB) a dcid
damliorer son programme statistique. Le BSB convient en particulier de la ncessit dobtenir des
donnes pertinentes sur la situation des mnages en milieu urbain et rural au pays.
Lquipe du projet, avec le soutien du gouvernement national, a donn suite une proposition denqute
sur les conditions socioconomiques des mnages en milieu urbain et rural au pays. Les grands sujets
considrs dans lenqute taient les caractristiques sociodmographiques, le march du travail, les traits
communs des revenus et dpenses, ainsi que les indicateurs des conditions de vie. Un certain nombre
dimportants ministres nationaux ont demand lquipe de lEGM dobtenir de linformation
supplmentaire sur ltat de sant de la population, les activits agricoles des mnages en milieu rural et
urbain et les petites entreprises.
Dans le contexte de ces objectifs, un Comit directeur a t nomm pour surveiller le droulement de
lenqute. Le Comit directeur comprenait des directeurs reprsentant les domaines de la statistique sur la
main-duvre et les mnages, de la mthodologie, de linformatique et de la collecte des donnes. Le but
du Comit directeur tait de donner suite aux besoins dinformation du BSB et dapprouver dimportantes
dcisions, notamment, lnonc des objectifs, le budget, lchancier, etc.
Lune des premires tapes du processus de planification a t lidentification des domaines propos
desquels peu ou pas dinformation existait et la prparation dune proposition denqute. Un charg de
projet intrimaire a t nomm et celui-ci a trouv de linformation initiale sur les solutions de rechange
une enqute (p. ex., les donnes disponibles dune autre enqute ou source administrative), ainsi que sur
le cot et la faisabilit dune enqute. Cet examen prliminaire tait axe sur la consultation dexperts de
diverses disciplines qui pourraient tre engags dans lquipe de lenqute (bien que ces experts naient
pas, en dfinitive, t nomms membres de lquipe de lenqute). Le Comit directeur a considr la
proposition denqute et dcid de procder une laboration plus substantielle en vue de formuler un
nonc des objectifs et de tracer un plan denqute.

STATISTIQUE CANADA

TUDE DE CAS

409

13.2 Planification de lEGM


Le Comit directeur a ensuite dcid de maffecter titre de charg du projet de lEGM. Jai obtenu les
grands objectifs de lenqute et le nom des personnes-ressources dorganismes lexterne qui
sintressaient linformation (p. ex., le ministre de la Sant). On ma demand par la suite de former
une quipe de projet, dlaborer rapidement un nonc approximatif des objectifs et de tracer un plan
denqute.
La composition de lquipe du projet a t une tape importante. Mon but, comme tout charg de projet,
tait de trouver des gens dexprience avec qui javais collabor avec succs certaines occasions. Jai
communiqu avec le directeur de la Division de la mthodologie pour demander les services de M. X qui
avait servi titre de mthodologiste dune quipe de projet que javais dirige auparavant. Jai t
inform que M. X avait quitt le BSB et, compte tenu des conditions changeantes du march, que la
dotation tait non seulement insuffisante la division, mais quelle manquait aussi en particulier de
personnel dexprience. Jai obtenu un mthodologiste (M. M) qui avait seulement quelques annes
dexprience. Jai t inform que le surveillant du mthodologiste examinerait toutes ses dcisions. Jai
eu plus de succs lors du recrutement des autres membres de lquipe :
- une coordonnatrice de la matire (Mme S) et une quipe dexperts en la matire dans les domaines de
la statistique sur la main-duvre, lconomie, etc.
- un expert des systmes informatiques (M. P), quon ma prsent comme un programmeur chevronn,
- un agent des oprations et de la collecte des donnes (Mme D) avec qui jai travaill auparavant.
Lquipe de lenqute maintenant forme a commenc laborer lnonc des objectifs et confirmer la
faisabilit de lenqute. La premire runion de lquipe du projet a t convoque, le but tant de
prsenter les membres de lquipe du projet lun lautre, dexpliquer leurs rles et la structure de
lobligation de faire rapport, et de discuter des buts du projet. Jai prcis, lintention des novices de
lquipe du projet, que les surveillants hirarchiques examineraient leur travail.
Le but de la deuxime runion de lquipe du projet tait de commencer le travail sur lnonc des
objectifs. Il est devenu vident, aprs une certaine discussion, que nous ne pourrions obtenir de
linformation dtaille sur de nombreux sujets divers en une seule enqute. Il faudrait cette fin imposer
un fardeau trop lourd aux rpondants et compromette ventuellement la qualit des donnes. De retour au
Comit directeur, jai suggr quil considre la possibilit de diminuer la porte de lenqute ou de
procder une tude officielle de faisabilit pour mettre lessai les procdures de collecte avant de
procder une enqute complte. Le Comit a rpondu quil tudierait mes suggestions.
Lquipe a entrepris simultanment lidentification des besoins particuliers dinformation des divers
utilisateurs. Jai communiqu avec les ministres de la Sant et de lAgriculture et les ministres
vocation conomique qui avaient demand des renseignements pour dfinir leurs besoins dinformation.
Jai aussi commenc peaufiner lbauche du budget et de lchancier prpar pour la proposition
denqute. laide de lexprience acquise et aprs consultation avec divers membres de lquipe du
projet, jai estim les ressources ncessaires pour planifier, laborer, mettre en uvre et valuer lenqute.
Les ressources ncessaires estimes taient trs leves tant donn la porte de lenqute. Celle-ci avait
cependant un caractre permanent et lon pourrait considrer que les cots de planification et
dlaboration pourraient tre amortis sur plusieurs annes (mme si les ressources taient ncessaires
immdiatement). Seuls les cots de la mise en uvre et de lvaluation de lenqute (et des modifications
occasionnelles du plan) seraient rguliers. Jai rencontr de nouveau les reprsentants des ministres
intresss pour les informer des cots estims et leur enthousiasme envers le projet a considrablement
diminu.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

410

De retour au Comit directeur au nom de lquipe du projet, jai prsent lbauche du budget, de
lchancier (Tableau 13.1) et de lnonc des objectifs. Le Comit directeur a dcid que la planification
devrait continuer seulement pour les quatre principaux thmes et quon pourrait communiquer de nouveau
avec les autres ministres intresss aprs le premier cycle de lenqute. Le budget, lchancier et
lnonc des objectifs en taient seulement ltape dune bauche approximative, mais le Comit
directeur a approuv le budget et approuv officiellement llaboration et le plan de lenqute.
Ayant vcu lexprience du processus de planification de nombreuses occasions, je savais que lnonc
des objectifs demanderait encore beaucoup de travail (ainsi que le budget et lchancier) avant
dentreprendre le plan denqute en soi. Lquipe du projet a donc continu dlaborer lnonc des
objectifs. Jai rencontr les ministres intresss pour les informer que lEGM serait plus troitement
cible au cours du premier cycle et quils seraient invits, au cours des annes ultrieures, proposer des
ajouts lenqute.
Le Comit directeur a inform peu aprs lquipe du projet que le budget tait rduit de moiti et quelle
devrait concentrer ses efforts sur lun des principaux thmes, tout en prparant une infrastructure
denqute qui pourrait immdiatement prendre de lexpansion au cours de la deuxime anne. Le Comit
directeur et lquipe du projet ont considr les leons apprises jusqu maintenant, dcid de cibler la
composante du march du travail et de reporter lan prochain les autres sujets de la liste. La situation
tait dcevante pour les membres de lquipe du projet, en particulier ceux qui avaient travaill sur les
thmes retranchs), mais ils ont vite ralis que la dcision tait la meilleure long terme. Les membres
auraient maintenant davantage de temps pour concentrer leurs efforts sur la production dun bon produit
aux fins de la collecte de donnes de qualit. La touche finale a rapidement t apporte lnonc des
objectifs qui ont t prsents au Comit directeur pour approbation.
Lquipe du projet a ensuite entrepris la rdaction dune bauche de rapport de planification, afin de
prsenter les options de base de sondage, de plan dchantillonnage, de collecte des donnes, de
traitement, danalyse, de diffusion, etc., et den discuter. Ce rapport de planification a t prsent au
Comit directeur et lquipe du projet a demand des conseils sur plusieurs questions, y compris la
dfinition des populations cible et observe, la base dchantillonnage utiliser, les mthodes de collecte
des donnes, etc. Le Comit directeur a donn peu de conseils dimportance et, en majeure partie, a
demand lquipe du projet de prendre ces dcisions.

13.3 Conception et laboration


Lorsque les principales dcisions ont t prises, chaque membre de lquipe a commenc prparer des
plans de composante pertinents sa responsabilit dans lquipe.
i.

Contenu

Mme S a entrepris llaboration du questionnaire aprs avoir formul les concepts et dfinitions pour
lnonc des objectifs. Elle surveillait de nouvelles recrues et voulait bien entendu que le groupe acquire
une exprience en milieu dquipe de projet. Les experts en la matire de son quipe navaient aucune
exprience prcdente de lenqute, mais ils taient enthousiastes, mme si leurs attentes taient parfois
peu ralistes. Il y a eu de nombreuses runions de lquipe du projet (et beaucoup de temps perdu) pour
discuter des propositions des membres subalternes de lquipe des spcialistes du contenu. Il aurait t
plus efficace que ces experts discutent entre eux et, aprs avoir tabli le consensus sur loption prfre,
quils laient prsente lquipe du projet. Jen suis arriv suggrer cette procdure et la conception du
questionnaire, ainsi que les tapes ultrieures, se sont droules beaucoup plus facilement et rapidement.

STATISTIQUE CANADA

TUDE DE CAS

ii.

411

Mthodologie

Le mthodologiste denqute navait pas dexprience, mais il a achev son travail rapidement et
efficacement. Il tait aussi charg de la conception des systmes de contrle qualitatif pour la saisie et le
codage des donnes. M. M. ntait pas dispos au dpart faire des compromis sur le nombre
dinspections de contrle qualitatif ncessaires. Il soutenait que les taux derreur des sorties pour la saisie
et le codage des donnes devraient tre prs de 0 %. Jai pu le convaincre aprs plusieurs discussions de la
ncessit dun compromis entre le cot et la qualit.
iii.

Programmation

Lanalyste des systmes a obtenu toutes les spcifications temps, mais les systmes ntaient pas prts
la mise lessai au moment opportun. Je ne sais toujours pas quel a t le problme exactement. Le
programmeur avait une autre charge de travail trop lourde, mon avis, et il na pu rpartir son temps avec
efficacit. La situation a eu des rpercussions importantes sur ltape de la mise en uvre (considre la
section suivante).
iv.

Oprations et collecte des donnes

Lagent des oprations et de la collecte des donnes a efficacement pris en charge le recrutement, la
formation, la surveillance et le contrle du personnel de la collecte des donnes, notamment les
intervieweurs et les surveillants, ainsi que les oprateurs de la saisie et les codeurs des donnes. Tous les
manuels ont t produits temps et ils taient dexcellente qualit. Lagent des oprations et de la collecte
des donnes a visit plusieurs bureaux de la statistique rgionale pour observer le recrutement et la
formation.
Au cours de ltape de la conception et de llaboration de lenqute, les runions de lquipe du projet
ont t moins frquentes pour donner davantage de temps aux membres de travailler leurs plans de
composante et pour examiner les plans des autres membres de lquipe. Le Comit directeur a t inform
de toutes les dcisions de lquipe du projet, mais la rtroaction a t rare.

13.4 Mise en uvre


Au cours de la mise en uvre, la cible est passe de la prise de dcisions laction. Le questionnaire a t
imprim, lchantillon a t slectionn, la formation sest droule dans les rgions, les grappes ont t
listes et les interviews ont eu lieu. Au retour des donnes aux bureaux, elles ont t saisies, codes,
vrifies et imputes. Lestimation et lanalyse ont suivi. Les runions de lquipe du projet ont t plus
frquentes pour considrer tous les problmes remarqus pendant la mise en uvre.
Il y a eu plusieurs problmes pendant ltape de la mise en uvre.
i.

Le taux de rponse obtenu tait infrieur celui que nous avions prvu. Le taux de rponse prvu
tait de 80 %, mais le taux rel a atteint 68 % seulement. Ce rsultat a suscit deux
proccupations.
a. Premirement, le taux lev de non-rponse pourrait ajouter un biais aux rsultats de
lenqute. Une tude de suivi des non-rponses est prvue pour examiner la question et les
caractristiques des non-rpondants, comparativement celles des rpondants. Cette tude
servira planifier les procdures de suivi des non-rponses pour les enqutes ultrieures.

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

412

b. Deuximement, la prcision des estimations rgionales tait infrieure la cible tablie


ltape du choix de la taille de lchantillon. Il a donc fallu calculer de nouveau la prcision
atteignable, compte tenu du taux de rponse, et prsenter le rsultat au Comit directeur et
aux utilisateurs. Il a t dcid daffecter davantage de ressources au suivi des non-rponses
et la conversion des refus en rponses pour essayer daugmenter le taux de rponse et, si
ncessaire, des donnes plus agrges seraient diffuses.

ii.

tant donn la livraison tardive des applications informatiques (mentionnes ci-dessus), en


particulier pour la saisie des donnes, un groupe de commis navait rien faire pendant que
lquipe du projet faisait lessai des programmes informatiques. Conscient que nous avions des
commis assis ne rien faire (mais quand mme rmunrs), je dois admettre que jai exerc des
pressions sur lquipe du projet pour quelle acclre la mise lessai des applications. Il y avait
donc malheureusement toujours des erreurs lorsquelles ont finalement t mises en uvre. Les
dlais et les interruptions qui ont dcoul des erreurs critiques du programme ont probablement
cot beaucoup plus de temps et dargent que si nous avions rserv suffisamment de temps la
mise lessai du programme avant son application.

iii.

Il est devenu vident lexamen des commentaires la section Autre (veuillez prciser) de la
Question E3 que les rpondants ou les intervieweurs nont pas compris les catgories de rponse.
Ces commentaires ayant fait lobjet dun examen pendant la collecte, il a t possible denvoyer
des instructions aux intervieweurs pour prciser les questions et les catgories de rponse, afin
dobtenir des donnes exactes par la suite. Dans le cas des questionnaires dj reus, les experts
en la matire ont examin les donnes de la question et chang les codes au besoin.

13.5 valuation
Jai plusieurs observations faire sur lvaluation de la planification et de la gestion de lEGM :
i.

Il est assez rapidement devenu vident que le Comit directeur ntait pas suffisamment engag
dans le processus de prise de dcisions. Il semblait satisfait de laisser lquipe du projet prendre
toutes les dcisions, mme celles qui avaient de grandes consquences. Jaurais d exprimer ma
proccupation ce sujet au Comit directeur. Jen ai plutt discut avec lquipe du projet, mais
certains membres navaient pas suffisamment dexprience pour faire des commentaires utiles.

ii.

En rtrospective, jaurais pu intervenir diffremment pour rgler le problme de la livraison


tardive du systme de saisie des donnes. Jaurais d surveiller de plus prs lchancier pour
reconnatre le problme question plus tt. Aprs en avoir constat lexistence, jaurais pu
intervenir immdiatement pour remplacer le programmeur ou obtenir des ressources de
programmation supplmentaires. Jai hsit ce moment-l, tant davis quil y aurait de nouveau
trop de temps perdu pour apprendre aux nouveaux programmeurs les spcifications et les
programmes en place. Jaurais aussi d donner suffisamment de temps pour la mise lessai
approprie.

iii.

Lchancier original tait trop serr. Nous aurions d attribuer davantage de temps entre les
produits livrer pour viter les problmes. tant donn le manque dexprience et la lourde
charge de travail de plusieurs membres de lquipe du projet, jaurais d tablir un chancier
plus conventionnel. Dautre part, jaurais pu maintenir lchancier constant et affecter davantage
de personnes certaines des principales tches, notamment la programmation.

STATISTIQUE CANADA

TUDE DE CAS

413

iv.

Les non-rponses sont un problme de lEGM quil faut rgler. Il faudra valuer la possibilit de
biais de non-rponse (en particulier dans certains sous-groupes de la population) dans lEGM
actuel. Aux fins des ditions ultrieures de lEGM, je recommanderais lapplication de
procdures amliores de suivi des non-rponses pour obtenir un taux de rponse lev. Nous
avons actuellement des donnes trs agrges seulement la disposition des utilisateurs. Elles
seraient beaucoup plus utiles si elles pouvaient tre plus dtailles.

v.

Un grand nombre de migrants rcents occupaient des logements temporaires. La situation peut
causer certains problmes si les mmes logements sont inclus dans plus dune phase de lenqute.
Tableau 13.1 : chancier de lEGM

tapes
nonc des objectifs
Plan denqute
Budget
Conception du questionnaire
Plan danalyse
Spcifications Plan dchantillonnage
Spcifications Mthode de collecte des
donnes
Spcifications Vrification et
imputation
Spcifications Contrle qualitatif
Spcifications Saisie des donnes
Spcifications Estimation, variance
laboration du systme informatique
Mise lessai du systme informatique
Manuels sur place
Relations publiques

Formation des intervieweurs


Listage
Collecte des donnes
Formation Codage
Codage
Formation Saisie des donnes
Saisie des donnes
Vrification et imputation
Estimation
Analyse
valuation de la qualit des donnes
Contrle de la divulgation
Diffusion
Documentation

Responsable
Direction, matire
Tous
Direction
Matire
Matire
Mthodologie
Collecte des donnes

Dbut
1er janvier
1er fvrier
1er janvier
1er mars
1er avril
1er mars
1er mars

Fin
31 janvier
28 fvrier
31 janvier
31 mars
30 avril
30 avril
31 mars

Mthodologie, matire

1er avril

30 avril

Mthodologie
Collecte des donnes
Mthodologie
Programmation
Tous
Collecte des donnes
Direction, Collecte des
donnes
Collecte des donnes
Collecte des donnes
Collecte des donnes
Collecte des donnes
Collecte des donnes
Collecte des donnes
Collecte des donnes
Collecte des donnes
Mthodologie, matire
Matire
Mthodologie, matire
Mthodologie
Direction, matire
Tous

1er mai
1er avril
1er juin
1er juin
15 juillet
1er juin
1er aot

31 mai
30 avril
30 juin
15 aot
31 aot
31 juillet
31 aot

15 aot
1er septembre
15 septembre
26 septembre
1er octobre
10 octobre
15 octobre
1er novembre
15 novembre
1er dcembre
1er dcembre
15 dcembre
31 dcembre
1er janvier

31 aot
12 septembre
30 septembre
30 septembre
14 octobre
14 octobre
31 octobre
14 novembre
30 novembre
14 dcembre
25 dcembre
25 dcembre
31 dcembre
31 dcembre

STATISTIQUE CANADA

P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES

w w w. s t a t c a n . g c . c a

415

Index
-

Aberrantes (donnes ) : 10.5

Analyse de donnes: 1.1.9 , 11.0


o Mesures de rcapitulation: 11.3
Donnes denqute simple: 11.3.1
dispersion (variance de population et dchantillonnage,
tendue, intervalle interquartile): 11.3.1.3, 7.3.1.
emplacement (moyenne, mdiane, mode, quartiles, centiles):
11.3.1.2
estimation et prsentation des distribution de frquences:
11.3.1.1
o diagrammes et schmas: 11.3.1.1.1, 12.2.2, 12.2.3 .
Donnes denqute complexe: 11.3.2
mdiane: 11.3.2.1
dispersion (variance de population et dchantillonnage,
tendue, intervalle interquartile): 11.3.2.2
o Rapport danalyse: 12.3
o Tests dhypothse pour donnes continues:11.4
Donnes denqute complexe: 11.4.3
plusieurs moyennes (ANOVA et rgression): 11.4.3.2
une moyenne: 11.4.3.1
Donnes denqute simple: 11.4.2
deux moyennes: 11.4.2.2
plusieurs moyennes: 11.4.2.3
o analyse de variance (ANOVA): 11.4.2.3.1
o rgression linaire: 11.4.2.3, 11.4.2.3.2
une moyenne: 11.4.2.1
o Tests dhypothse pour donnes discrtes: 11.5
Donnes denqute complexe: 11.5.2
tests dindpendance et dhomognit: 11.5.2
Donnes denqute simple: 11.5.1
modles log-linaires: 11.5.1.3.
test dhomognit: 11.5.1.2
test dindpendance: 11.5.1.1

Analyse de variance (ANOVA): 11.4.2.3.1

Autodnombrement: 4.1.1

Base arolaire: 3.3.1.2

Base de liste: 3.3.1.1

Base de sondage: 3.3


o Base arolaire: 3.3.1.2, 9.3.3
o Base de liste: 3.3.1.1
o Bases multiples: 3.3.1.3

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

416

o
o

Dfauts dune base de sondage: 3.3.2


Qualits dune bonne base de sondage: 3.3.3

Bases multiples: 3.3.1.3

Biais: 6.2.1, 7.3.1, 11.3.2.2.1

Bootstrap: 7.3.4

Calibration et rgression gnralise : 7.1.4.3

CAPI/CASI/CATI: 4.2.

Codage: 10.1

Coefficient de variation (CV): 7.3.2.1

Collecte assiste par interviewer: 4.1.2

Collecte des donnes: 1.1.5; 4.0


o Assiste par intervieweur: 4.1, 4.1.2
Par tlphone: 4.1, 4.1.2.2
Sur place: 4.1, 4.1.2.1
o Assiste par ordinateur: 4.1; dtails 4.2
Au tlphone (CATI): 4.1
Autodnombrement (CASI): 4.1
En personne (CAPI): 4.1
o Autodnombrement: 4.1, dtails 4.1.1
o Autres mthodes de collecte:
Dclaration lectronique de donnes (DED): 4.3.2
Donnes administratives: 4.3.3, Annexe A
Enqutes omnibus et supplmentaires: 4.3.5
Mthodes combines: 4.3.4
Observation directe: 4.3.1
o Comparaison des mthodes de collecte: tableau 2 du Chapitre 4.
o Papier: 4.1
Entrevue papier crayon (PAPI): 4.1
o Oprations de collecte: Chapitre 9
Droulement des interviews: 9.4
approfondissement: 9.4.4
conclusion de linterview: 9.4.5
interview efficace: 9.4.8
prparation des interviews et tablissement de lhoraire:
9.4.1
procuration / substitut: 9.4.7
refus et autres situations dlicates: 9.4.6
techniques de prsentation: 9.4.2
utilisation du questionnaire: 9.4.3
Organisation de la collecte: 9.1
Prparation des procdures de collecte: 9.3

STATISTIQUE CANADA

INDEX

417

dpistage: 9.3.4
embauche et formation des interviewers: 9.3.2
listage: 9.3.3,3.3.1.2
manuel des interviewers: 9.3.1.1
manuel du superviseur: 9.3.1.2
Relations avec les rpondants: 9.2.2
Relations publiques: 9.2
Surveillance de la qualit et du rendement: 9.5.1
gestion des tches dintervieweurs: 9.5.2
surveillance des surveillants: 9.5.3

Composition alatoire de numros (RDD): 4.1.2.2.1

Confidentialit: 5.1.3, 5.5.1, 9.2.2; 9.3.1.1; 9.4; 9.4.2; 12.5.2

Contrle dacceptation: Annexe B : 2.4

Contrle statistique du processus: Annexe B

Contrle statistique du produit : Annexe B

Cycle de vie dune enqutes: 1.2


o Conception:1.2.2
o valuation: 1.2.4
o Mise en oeuvre:1.2.3
o Planification: 1.2.1, 13.1

Dpistage: 9.3.4

Diffusion des donnes: 1.1.10 et 12.1 (dtails au Chapitre 12)


o Divulgation: 1.1.10 et 12.5.1
Protection des fichiers grande diffusion: 12.5.2.2
identification des enregistrements dlicats: 12.5.2.2
traitement des enregistrements dlicats (rduction /
perturbation des donnes): 12.5.2.2
Protection des tableaux: 12.5.2.1
identification des cases dlicates (limite / rgle (n,k) / rgle
p-pour cent): 12.5.2.1
traitement des cases dlicates (rduction / perturbation des
donnes): 12.5.2.1
o Rapport danalyse des donnes: 12.3
o Rapport principal: 12.2
Lignes directrices sur la rdaction: 12.2.1
o Rapport sur la qualit des donnes: 12.4
o Tableaux / graphiques: 12.2.2, 12.2.3, 11.3.1.1.1

Divulgation (contrle): 12.5.1

Documentation: 1.1.11, 12.2

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

418

Donnes administratives: 4.3.3 et Annexe A;


o Sources de donnes administratives: Annexe A
o Utilisation des donnes administratives: Annexe A
o Utilit des donnes administratives: Annexe A

chantillonnage: 6.0

chantillonnage plusieurs degrs: 6.2.7

chantillonnage plusieurs phases: 6.2.8

chantillonnage avec probabilit proportionnelle la taille (PPT): 6.2.4

chantillonnage dacceptation: Annexe B : 2.1.1

chantillonnage double / chantillonnage deux phases: 6.2.8

chantillonnage non probabiliste: 6.1

chantillonnage par grappes: 6.2.5

chantillonnage par quota 6.1.4.

chantillonnage par rpliques: 6.2.9

chantillonnage probabiliste: 6.2

chantillonnage stratifi: 6.2.6

chantillonnage systmatique : 6.2.3

Effet de plan (deff): 7.3.3

Enqutes longitudinales: 6.3.1

Erreurs dans une enqute:


o Erreur dchantillonnage: 3.1, 7.3
o Erreurs non dues lchantillonnage: 3.1
Couverture: 3.4.2.1
Erreurs systmatiques / alatoires: 3.4.2
Mesure / rponse: 3.4.2.2; 5.4
sources de lerreur de rponse: 5.4.1
techniques de rduction des erreurs de rponse: 5.4.2
Non-rponse: 3.4.2.3
Traitement: 3.4.2.4

Erreur dchantillonnage : 4.1, 7.3

Erreurs non dues lchantillonnage: 3.1

chantillonnage alatoire simple : 6.2.2

STATISTIQUE CANADA

INDEX

419

Erreur quadratique moyenne (EQM, MSE): 11.3.2.2.1.

Estimateur: 6.2.1,7 et 11.1


o Distribution dchantillonnage dun estimateur: 6.2.1 et 11.1.
o Estimateur exact: 6.2.1
o Estimateur prcis: 6.2.1, 7.3
o Estimateur robuste : 10.5.2
o Estimateur sans biais: 6.2.1

Estimation: 1.1.8; 7.0


o Estimation dun total: 7.2.1
o Estimation dune moyenne: 7.2.1
o Estimation dune proportion: 7.2.1
o Estimation de la variance de la population: 7.3.1, 7.3.1.1 et 7.3.2.3
o Estimation de la variance dchantillonnage: 3.4.1; 7.3.1, 8.1.3, 10.4.4,
11.3.1.3, 11.3.2.2
estimation dun coefficient of variation (CV): 7.3.2.1
estimation dintervalles de confiance: 7.3.2.2
en prsence de biais: 11.3.2.2.1
estimation dun effet de plan (deff): 7.3.3 , Chapitre 8 et 11.5.2
estimation de la marge derreur: 7.3.2.2.
estimation de lerreur type: 7.3.2.1; 7.3.2.4
estimation de la variance par rpliques / jackknife / bootstrap: 7.3.4;
facteurs affectant la prcision: 3.4.1 et 8.1.2
o Estimation par le quotient / ratio: 7.1.4.2
o Estimation pour petits domaines: 7.2.3.1

tapes dune enqutes: 1.1

Exactitude: 6.2.1

Famille: 2.1.3

Gestion dune enqute 1.2.1, Chapitre 13

Graphique de contrle: Annexe B : 2.2.1

Groupe de discussion (focus group): 5.1.5.3

Khi carr : 11.4.1, 11.5.1.1, 11.5.1.2, 11.5.1.3, 11.5.2.

Imputation: 10.4

Infrence: 11.4.

Interview: 4.1.2 , 9.4

Jackknife: 7.3.4

Listage: 9.3.3

STATISTIQUE CANADA

MTHODES ET PRATIQUES DENQUTE

420

Logement: 2.1.3

Mnage: 2.1.3

Modles log-linaires: 11.5.1.3.


Objectifs dune enqute : Chapitre 2

Paramtre : .2.1 et 11.1

Plans dchantillonnage: 1.1.3; Chapitre 6


o chantillonnage non probabiliste: 6.1
laveuglette: 6.1.1
Au jug: 6.1.3
Boule de neige / rseau: 6.3.3
Probabiliste modifi: 6.1.5
Quota: 6.1.4
Volontaires: 6.1.2
o chantillonnage probabiliste: 6.2
Alatoire simple: 6.2.2
plusieurs degrs: 6.2.7
plusieurs phases: 6.2.8
Avec probabilit proportionnelle la taille: 6.2.4
Efficacit compare: 6.2.1
En grappes: 6.2.5
Entre / sortie: 6.3.2
Par rpliques: 6.2.9.
Rpt / longitudinal: 6.3.1
Stratifi: 6.2.6
Systmatique: 6.2.3

Planification dune enqute 1.2.1, Chapitre 13.

Poids
o Ajustement pour non-rponse: 7.1.3
o Information auxiliaire: 7.1.4
Calibration et rgression gnralise: 7.1.4.3
Estimation par le ratio: 7.1.4.2
Stratification a posteriori: 7.1.4.1
o Poids du plan: 7.1
Pour un plan avec probabilits ingales: 7.1.2
Pour un plan quiprobable: 7.1.1

Population cible: 3.2

Population denqute : 3.2

Prcision: 6.2.1

Qualit: Annexe B
o Assurance de qualit: Annexe B : 3.0
o Contrle de qualit: Annexe B

STATISTIQUE CANADA

INDEX

Contrle statistique du produit: Annexe B: 2.1; 2.3


chantillonnage dacceptation: Annexe B 2.1.1
Contrle Statistique du processus: Annexe B: 2.2; 2.3
graphique de contrle: Annexe B 2.2.1
Contrle dacceptation: Annexe B 2.4

Questionnaire: 1.1.4; 5.0


o Conception: 5.1
o Erreur de rponse: 5.4
o Formulation des questions: 5.3
o Mise lessai: 5.1.5
Compte rendu dinterviewers: 5.1.5.4
chantillons fractionns: 5.1.5.6
Enqutes pilotes : 5.1.5.7
Groupes de discussion: 5.1.5.3
Mthodes cognitives: 5.1.5.2
Pr-test: 5.1.5.1
o Prsentation: 5.5
o Types de questions
Questions fermes: 5.2, 10.1.2
choix multiples: 5.2.2
dichotomiques: 5.2.1
chelles: 5.2.3, 5.2.4
Questions ouvertes: 5.2 , 10.1.1

Recensement: 6.1

Rgression linaire: 11.4.2.3

Rgle (n,k): 12.5.2.1.

Rgle p-pourcent: 12.5.2.1

Rpartition
o CV gaux 8.2.1.2
o De Neyman: 8.2.2.2.5
o gale 8.2.1.1
o En puissance: 8.2.2.2.3
o Optimale 8.2.2.2.4
o Proportionnelle ( N) 8.2.2.1
o Proportionnelle Y, N , Y 8.2.2.2

Saisie des donnes: 10.2

Stratification a posteriori 7.1.4.1

Tableaux de contingence: 11.5

Taille dchantillon: chapitre 8


o Exigences de prcision : 8.1.1

STATISTIQUE CANADA

421

MTHODES ET PRATIQUES DENQUTE

422

Formules: 8.1.3

Tlphone (RDD): 4.1.2.2.1

Test dhypothse: 11.4

Traitement: 3.4.2.4 et 10.0;


o Codage: 1.1.6 et 10.1; 3.4.2.4
Questions fermes 10.1.1
Questions ouvertes 10.1.3
o Donnes aberrantes: 7.2.3.2 et 10.5
Estimateurs robustes: 10.5.2
Identification : 10.5.1
Traitement : 10.5.2
o Imputation: 1.1.7 et 10.4 (dtails in 10.4); 3.4.2.4
Cold-deck: 10.4.1.5
Dterministe avec rsidus alatoires: 10.4.1.7
Estimation de la variance sous imputation: 10.4.4
valuation 10.4.6
Hot-deck: 10.4.1.4
Lignes directrices 10.4.5
Par dduction: 10.4.1.1
Par la moyenne: 10.4.1.2
Par le plus proche voisin: 10.4.1.6
Par ratio/rgression: 10.4.1.3
Par donneur: 10.4.3
o Saisie: 1.1.5, 3.4.2.4 et 10.2
o Vrification: 1.1.7 , 3.4.2.4 et 10.3

Units:
o Unit dchantillonnage, de rfrence, denqute 3.3

Vrification: 10.3

STATISTIQUE CANADA

Vous aimerez peut-être aussi