Vous êtes sur la page 1sur 434

Mthodes et

pratiques d'enqute




N
o
12-587-X au catalogue
Comment obtenir dautres renseignements
Pour toute demande de renseignements au sujet de ce produit ou sur lensemble des donnes et des services de
Statistique Canada, visiter notre site Web www.statcan.gc.ca. Vous pouvez galement communiquer avec nous par courriel
infostats@statcan.gc.ca ou par tlphone entre 8 h 30 et 16 h 30 du lundi au vendredi aux numros suivants :
Centre de contact national de Statistique Canada
Numros sans frais (Canada et tats-Unis) :
Service de renseignements 1-800-263-1136
Service national dappareils de tlcommunications pour les malentendants 1-800-363-7629
Tlcopieur 1-877-287-4369
Appels locaux ou internationaux :
Service de renseignements 1-613-951-8116
Tlcopieur 1-613-951-0581
Programme des services de dpt
Service de renseignements 1-800-635-7943
Tlcopieur 1-800-565-7757
Comment accder ce produit
Le produit n
o
12-587-X au catalogue est disponible gratuitement sous format lectronique. Pour obtenir un exemplaire, il suft de
visiter notre site Web www.statcan.gc.ca et de parcourir par Ressource cl > Publications .
Normes de service la clientle
Statistique Canada sengage fournir ses clients des services rapides, ables et courtois. cet gard, notre organisme sest
dot de normes de service la clientle que les employs observent. Pour obtenir une copie de ces normes de service, veuillez
communiquer avec Statistique Canada au numro sans frais 1-800-263-1136. Les normes de service sont aussi publies sur le
site www.statcan.gc.ca sous propos de nous > Notre organisme > Offrir des services aux Canadiens .
Statistique Canada


Mthodes et pratiques d'enqute


Note de reconnaissance
Le succs du systme statistique du Canada repose sur un partenariat bien tabli entre
Statistique Canada et la population, les entreprises, les administrations canadiennes et les
autres organismes. Sans cette collaboration et cette bonne volont, il serait impossible de
produire des statistiques prcises et actuelles.
Publication autorise par le ministre responsable de Statistique Canada
Ministre de lIndustrie, 2010
Tous droits rservs. Le contenu de la prsente publication lectronique peut tre reproduit en tout
ou en partie, et par quelque moyen que ce soit, sans autre permission de Statistique Canada, sous
rserve que la reproduction soit effectue uniquement des ns dtude prive, de recherche, de
critique, de compte rendu ou en vue den prparer un rsum destin aux journaux et/ou des ns
non commerciales. Statistique Canada doit tre cit comme suit : Source (ou Adapt de , sil y
a lieu) : Statistique Canada, anne de publication, nom du produit, numro au catalogue, volume
et numro, priode de rfrence et page(s). Autrement, il est interdit de reproduire le contenu de
la prsente publication, ou de lemmagasiner dans un systme dextraction, ou de le transmettre
sous quelque forme ou par quelque moyen que ce soit, reproduction lectronique, mcanique,
photographique, pour quelque n que ce soit, sans lautorisation crite pralable des Services
doctroi de licences, Division des services la clientle, Statistique Canada, Ottawa, Ontario,
Canada K1A 0T6.
Publie pour la premire fois en octobre 2003
N
o
12-587-X au catalogue
ISBN 978-1-100-95206-2
Priodicit : hors srie
Ottawa
This publication is also available in English.
Donnes de catalogage avant publication de la Bibliothque nationale du Canada

Vedette principale au titre:

Mthodes et pratiques denqute

Publi aussi en anglais sous le titre : Survey methods and practices
ISBN 0-660-96826-6
CS12-587-XPF

1. Enqutes Mthodologie. 2. Mnages (Statistique) Enqutes Mthodologie.
3. Questionnaires Design. 4. chantillonnage (Statistique) Mthodologie.
I. Statistique Canada. II. Statistique Canada. Division des mthodes denqutes. III. Title.

HA37.C3 S8714 2003 001.433
C2003-988001-X


Prface


Je suis trs fier de la publication des Mthodes et Pratiques denqute de Statistique Canada. Ce
rel accomplissement couronne les efforts dun grand nombre demploys de Statistique Canada,
en particulier des divisions de mthodologie denqute, auxquels je souhaite exprimer ma
gratitude.

Cette publication a profit de cours donns aux employs de Statistique Canada, dateliers offerts
nos clients, et de cours sur les recensements et sondages prsents aux statisticiens dAfrique et
dAmrique latine. Le Cours de base sur les enqutes, unique et innovateur, dj offert plus de
80 reprises quelque 2000 employs de Statistique Canada et des employs dautres agences
statistiques nationales, a t une influence notable sur cette publication. Finalement, la ralisation
du Survey Skills Development Manual pour le compte du Bureau national de la statistique de
Chine sous les auspices du Programme de coopration statistique Canada - Chine (Canada
China Statistical Co-operation Program) a donn une impulsion particulire ce projet.

Cette publication servira de support au Cours de base sur les enqutes et je crois quelle
deviendra une lecture oblige et une rfrence pour tous les employs de Statistique Canada
associs de prs ou de loin une enqute. Je souhaite quelle soit aussi utile aux statisticiens
dautres agences nationales et aux tudiants de cours sur la mthodologie denqute qui y
trouveront un aperu de la pratique.



Ottawa Dr. Ivan P. Fellegi
Octobre 2003 Statisticien en chef du Canada


Avant-propos

Ce manuel est avant tout un guide pratique pour la planification, la conception, et la ralisation
denqutes. Il aborde les nombreux concepts denqute et de nombreuses mthodes lmentaires
qui peuvent tre utilises profit lors de la conception et la ralisation dune enqute. Ce manuel
ne remplace cependant pas le jugement clair et lexpertise; il vise plutt y contribuer en
donnant un aperu de ce qui est ncessaire la conception denqutes efficientes et de grande
qualit, et de la faon dutiliser les donnes denqute de faon efficace et pertinente pour
lanalyse.
Ce manuel prend sa source dans le Programme de coopration statistique Canada Chine, financ
par lAgence canadienne de coopration internationale. La manuel qui avait t prpar pour ce
programme en vue de contribuer au programme national de formation statistique du Bureau
national de la Statistique de Chine. Une tude de cas accompagnait le manuel, en en illustrant les
principaux points laide dune enqute fictive. Ces deux documents ont t revus et modifis
afin de mieux rpondre aux besoins de Statistique Canada, particulirement comme outil de
rfrence pour son Cours de base sur les enqutes.

Bien que ce manuel se concentre sur les aspects fondamentaux des enqutes utiles tous les
lecteurs, certains chapitres sont plus techniques. Le gnraliste pourra tudier ces chapitres en
passant outre les points techniques souligns ci-dessous.

Les cinq premiers chapitres couvrent les aspects gnraux du plan denqute, notamment :
- une introduction aux concepts de lenqute et ses tapes (Chapitre 1),
- la formulation des objectifs dune enqute (Chapitre 2),
- des considrations gnrales sur le plan denqute (Chapitre 3), par exemple,
- le choix entre une enqute - chantillon et un recensement,
- la mthode de dfinition de la population qui sera observe,
- les divers genres de base de sondage,
- les sources derreurs dans une enqute,
- les mthodes de collecte des donnes de lenqute (Chapitre 4), par exemple,
- lautodnombrement, linterview sur place ou linterview tlphonique,
- les questionnaires sur support papier ou lectronique,
et
- la conception dun questionnaire (Chapitre 5).
Les Chapitres 6, 7 et 8 couvrent les points plus techniques du plan de lenqute - chantillon :
- comment choisir un chantillon (Chapitre 6),
- comment estimer les caractristiques de la population (Chapitre 7),
- comment dterminer la taille de lchantillon et rpartir lchantillon entre les strates
(Chapitre 8).
Au Chapitre 7, la matire technique plus approfondie commence la Section 7.3 Estimation de
lerreur dchantillonnage des estimations de lenqute. Au chapitre 8, la formule utilise pour
dterminer la taille de lchantillon fait appel une comprhension plus technique et elle
commence la Section 8.1.3 Formule de calcul de la taille de lchantillon.
Le Chapitre 9 couvre les principales oprations de collecte des donnes et prcise comment
organiser les oprations de collecte.

Le Chapitre 10 traite de la transformation des rponses un questionnaire denqute en un fichier
complet de donnes denqute. La matire technique plus approfondie commence la
Section 10.4.1 Mthodes dimputation.
Le Chapitre 11 porte sur lanalyse des donnes. La matire technique plus approfondie commence
la Section 11.4 Vrification des hypothses au sujet dune population : variables continues.
Le Chapitre 12 traite la diffusion des donnes aux utilisateurs et le contrle de la divulgation de
donnes individuelles ou dun groupe dindividus.
Le Chapitre 13 traite de questions pertinentes la planification et la gestion dune enqute. Ce
chapitre non technique vise les gestionnaires denqute ventuels ou ceux qui participent la
planification et la gestion dune enqute, ou qui sintressent ces sujets.
Deux annexes sont ajoutes ces 13 chapitres. LAnnexe A porte sur lutilisation de donnes
administratives dont la collecte a t faite par des organismes gouvernementaux, des hpitaux,
des coles, etc., des fins administratives plutt que statistiques. LAnnexe B couvre le contrle
qualitatif et lassurance de la qualit, deux mthodes qui peuvent tre appliques diverses tapes
de lenqute pour minimiser et vrifier les erreurs.

Remerciements

Nous remercions les nombreux employs de Statistique Canada qui ont collabor la prparation
de Mthodes et pratiques denqute, en particulier:
ditrices : Sarah Franklin et Charlene Walker.
Rviseurs : Jean-Ren Boudreau, Richard Burgess, David Dolson, Jean Dumais, Allen
Gower, Michel Hidiroglou, Claude Julien, Frances Laffey, Pierre Lavalle, Andrew Maw,
Jean-Pierre Morin, Walter Mudryk, Christian Nadeau, Steven Rathwell, Georgia Roberts,
Linda Standish, Jean-Louis Tambay.

Rviseur de la traduction franaise: Jean Dumais.

Nous remercions aussi tous ceux qui ont collabor la prparation de la version originale du
China Survey Skills Manual (Manuel des notions lmentaires denqute en Chine), et en
particulier :
quipe du projet : Richard Burgess, Jean Dumais, Sarah Franklin, Hew Gough, Charlene
Walker.
Comit directeur : Louise Bertrand, David Binder, Geoffrey Hole, John Kovar, Normand
Laniel, Jacqueline Ouellette, Bla Prigly, Lee Reid, M.P. Singh.

Rdacteurs (membres de lquipe du projet et ) : Colin Babyak, Rita Green, Christian Houle,
Paul Kelly, Frances Laffey, Frank Mayda, Dave Paton, Sander Post, Martin Renaud, Johanne
Tremblay.

Rviseurs : Benot Allard, Mike Bankier, Jean-Franois Beaumont, Julie Bernier, Louise
Bertrand, France Bilocq, Grard Ct, Johanne Denis, David Dolson, Jack Gambino, Allen
Gower, Hank Hofmann, John Kovar, Michel Latouche, Yi Li, Harold Mantel, Mary March,
Jean-Pierre Morin, Eric Rancourt, Steven Rathwell, Georgia Roberts, Alvin Satin, Wilma
Shastry, Larry Swain, Jean-Louis Tambay.
Mise en page: Nick Budko et Carole Jean-Marie.
Nous remercions aussi le Statistical Education Centre (Centre de lenseignement de la statistique)
du NBS (Bureau national de la statistique) pour leurs apports et rtroaction, et nous apprcions le
travail prliminaire de Jane Burgess, Owen Power, Marc Joncas et Sandrine Prasil.
Finalement, nous souhaitons souligner le travail de Hank Hofmann, Marcel Brochu, Jean Dumais
et Terry Evers, lquipe responsable du dveloppement et du lancement du Cours de base sur les
enqutes lautomne 1990 en anglais et lautomne 1991 en franais.

Des publications et des documents varis de Statistique Canada ont servi llaboration de ce
manuel. Voici certains documents importants :
- Lchantillonnage, Un guide non mathmatique, par A. Satin et W. Shastry,
- Statistique Canada, Lignes directrices concernant la qualit,
- Matriel de cours pour Enqutes : du dbut la fin (416),
- Matriel de cours pour Introduction aux techniques dchantillonnage (412),

- Matriel de cours pour Cours de base sur les enqutes (CBE).
Dautres documents de Statistique Canada sont numrs la fin de chaque chapitre, le cas
chant.

www. statcan. gc. ca
P U B L I C AT I O N S L E CTRONI QUE S
D I S P O N I B L E S

Table des matires


1. Introduction aux enqutes . 1

2. Formulation de lnonc des objectifs .. 11

3. Introduction au plan denqute . 21

4. Mthodes de collecte des donnes .... 41

5. Conception du questionnaire 63

6. Plans dchantillonnage 97

7. Estimation.. 133

8. Calcul de la taille de lchantillon et rpartition ... 165

9. Oprations de collecte des donnes .. 191

10. Traitement.. 217

11. Analyse des donnes de lenqute. 247

12. Diffusion des donnes.... 283

13. Planification et gestion de lenqute.. 303

Annexe A: Donnes administratives 329

Annexe B: Contrle qualitatif et assurance de la qualit ..... 335

tude de cas . 351

Index 415



www. statcan. gc. ca
P U B L I C AT I O N S L E CTRONI QUE S
D I S P O N I B L E S

STATISTIQUE CANADA
1
Chapitre 1 - Introduction aux enqutes

1.0 Introduction

Quest-ce quune enqute? Une enqute est une activit organise et mthodique de collecte de donnes
sur des caractristiques dintrt dune partie ou de la totalit des units dune population laide de
concepts, de mthodes et de procdures bien dfinis. Elle est suivie dun exercice de compilation
permettant de prsenter les donnes recueillies sous une forme rcapitulative utile. Une enqute
commence habituellement sil y a un besoin dinformation et sil ny a pas de donnes ou si elles sont
insuffisantes. Cest parfois lorganisme statistique lui-mme qui en a besoin ou un client lexterne, peut-
tre un ministre, un organisme gouvernemental ou un organisme priv. Lorganisme statistique ou le
client veut habituellement tudier les caractristiques dune population, assembler une base de donnes
des fins analytiques ou vrifier une hypothse.

Une enqute comprend plusieurs tapes lies entre elles, notamment, la dfinition des objectifs, la
slection dune base de sondage, le choix du plan dchantillonnage, la conception du questionnaire, la
collecte et le traitement des donnes, lanalyse et la diffusion des donnes, et la documentation de
lenqute.
La dure dune enqute peut tre rpartie en plusieurs phases. La premire est la planification, viennent
ensuite les phases de la conception et de llaboration puis, celle de la mise en uvre. En bout de ligne,
tout le processus de lenqute est examin et valu.
Lobjectif de ce chapitre est de donner un aperu des activits comprises dans le droulement dune
enqute statistique, et les dtails seront verss aux chapitres suivants et en annexes. Afin daider illustrer
les points pertinents lenseignement dans ce manuel, le lecteur est invit lire le manuel de ltude de
cas qui est un cheminement de la planification jusqu la conception et la mise en uvre dune enqute
statistique fictive.

1.1 tapes dune enqute
premire vue peut-tre, le droulement dune enqute consiste simplement poser des questions et
compiler les rponses pour obtenir des statistiques. Il faut cependant faire une enqute tape par tape,
appliquer des procdures et des formules prcises pour que les rsultats donnent de linformation exacte
et significative. Il faut bien connatre les tches particulires, leurs liens et leur pertinence pour
comprendre le processus complet.
Voici les tapes dune enqute :
- formulation de lnonc des objectifs,
- slection dune base de sondage,
- choix dun plan dchantillonnage,
- conception du questionnaire,
- collecte des donnes,
- saisie et codage des donnes,
- vrification et imputation,
- estimation,
- analyse des donnes,
- diffusion des donnes,
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
2
- documentation.
Voici maintenant une brve description de chaque tape.

1.1.1 Formulation de lnonc des objectifs
La formulation de lnonc des objectifs est lune des plus importantes tches dune enqute. Elle tablit
non seulement les besoins dinformation de lenqute dans lensemble, mais aussi les dfinitions
oprationnelles utiliser, les sujets considrer en particulier et le plan danalyse. Cette tape de
lenqute dtermine ce quelle comprendra ou non, ce que le client a besoin de savoir plutt que ce qui
serait intressant dapprendre.
Le Chapitre 2 - Formulation de lnonc des objectifs explique comment formuler les objectifs et
dterminer la matire de lenqute.

1.1.2 Slection dune base de sondage
La base du sondage donne les moyens didentifier les units de la population de lenqute et de
communiquer avec elles. La base prend la forme dune liste, par exemple,
- une liste physique, notamment, un fichier de donnes, un imprim dordinateur ou un annuaire
tlphonique,
- une liste conceptuelle, par exemple une liste de tous les vhicules qui entrent au stationnement dun
centre commercial entre 9 h et 20 h pendant une journe en particulier,
- une liste gographique dont les units correspondent des secteurs gographiques et dont les units
composantes sont des mnages, des fermes, des entreprises, etc.
Un organisme statistique peut habituellement utiliser, approfondir ou crer une base de sondage. La base
choisie dtermine la dfinition de la population de lenqute et peut avoir des rpercussions sur les
mthodes de collecte des donnes, de slection et destimation de lchantillon, ainsi que sur le cot de
lenqute et la qualit des rsultats. Les bases de sondage sont prsentes au Chapitre 3 - Introduction
au plan denqute.

1.1.3 Choix dun plan dchantillonnage
Il y a deux genres denqute : lenqute-chantillon et le recensement. Au cours dune enqute-
chantillon, la collecte des donnes est faite pour une partie seulement (habituellement trs petite) des
units de la population, mais lors dun recensement, la collecte des donnes est faite pour toutes les
units de la population. Il y a deux types dchantillonnage : lchantillonnage non probabiliste et
probabiliste. Lchantillonnage non probabiliste est un moyen rapide, facile et bon march de slectionner
des units de la population, mais la mthode de slection est subjective. Afin de faire des dductions sur
la population partir dun chantillon non probabiliste, lanalyste des donnes doit supposer que
lchantillon est reprsentatif de la population. Cette supposition est souvent risque cause de la
mthode de slection subjective. Lchantillonnage probabiliste est plus complexe, demande plus de
temps et cote habituellement plus cher que lchantillonnage non probabiliste. tant donn cependant
que la slection des units de la population est alatoire et que la probabilit de slection de chaque unit
peut tre calcule, des estimations fiables sont possibles, ainsi que des estimations derreur
dchantillonnage et des dductions sur la population. Lchantillonnage non probabiliste est
INTRODUCTION AUX ENQUTES
STATISTIQUE CANADA
3
habituellement inappropri pour un organisme statistique et le prsent manuel cible donc
lchantillonnage probabiliste.
Il y a de nombreuses mthodes de slection dun chantillon probabiliste. Il faut tenir compte de certains
lments pour choisir le plan dchantillonnage, notamment, la base de sondage, la variabilit des units
de la population et les cots de lenqute sur la population. Le plan dchantillonnage dtermine en partie
la taille de lchantillon qui a des rpercussions directes sur les cots de lenqute, le temps et le nombre
dintervieweurs ncessaires pour conclure lenqute et sur dautres considrations oprationnelles
importantes. Il ny a ni solution magique ni recette parfaite pour dterminer la taille de lchantillon. Il
sagit plutt dessayer de rpondre au plus grand nombre de besoins possibles dont lun des plus
importants est la qualit des estimations, tout en tenant compte des contraintes oprationnelles.
Les points forts et les points faibles relatifs de lenqute-chantillon et du recensement sont expliqus au
Chapitre 3 - Introduction au plan denqute. Les plans dchantillonnage non probabiliste et
probabiliste sont prsents au Chapitre 6 - Plans dchantillonnage. Les lignes directrices formules
pour dterminer la taille ncessaire dun chantillon sont inscrites au Chapitre 8 - Calcul de la taille de
lchantillon et rpartition.
1.1.4 Conception du questionnaire
Un questionnaire (ou un formulaire) est un groupe ou une squence de questions formules pour
obtenir dun rpondant de linformation sur un sujet. Les questionnaires sont au cur du processus de
collecte des donnes parce quils ont des rpercussions importantes sur la qualit des donnes et une
incidence sur limage de marque que projette lorganisme statistique dans le grand public. Les
questionnaires sont sur support papier ou lectronique.
La conception dun questionnaire suscite des interrogations : quelles questions poser, comment les
formuler au mieux et comment organiser les questions pour obtenir linformation voulue? Le but est
dobtenir de linformation et, cette fin, les rpondants doivent comprendre les questions et donner
facilement les rponses exactes en un format qui convient au traitement ultrieur et lanalyse des
donnes. Il y a des principes bien tablis de conception dun questionnaire, mais la cration dun bon
questionnaire est un art qui demande de lingniosit, de lexprience et des mises lessai. Si les besoins
de donnes ne sont pas transforms correctement en un instrument de collecte des donnes structur de
qualit leve, un bon chantillon peut donner de mauvais rsultats.
Ce sujet est approfondi au Chapitre 5 - Conception du questionnaire.
1.1.5 Collecte des donnes
La collecte des donnes est le processus appliqu pour obtenir linformation ncessaire de chaque
unit slectionne dans lenqute. Les mthodes lmentaires de collecte des donnes sont
lautodnombrement, cest--dire que les rpondants remplissent le questionnaire sans laide dun
intervieweur, et lintervention de lintervieweur (par lintermdiaire de linterview tlphonique ou sur
place). Dautres mthodes de collectes de donnes comprennent lobservation directe, la dclaration
lectronique des donnes et lutilisation des donnes administratives.
La collecte des donnes peut tre faite sur support papier ou lectronique. Si une mthode de collecte sur
support papier est privilgie, les rponses sont inscrites dans des questionnaires imprims. Si on opte
plutt pour une mthode assiste par ordinateur, le questionnaire est affich lcran de lordinateur et les
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
4
rponses sont entres directement au clavier. Les mthodes assistes par ordinateur ont un avantage : la
saisie des donnes ou transformation des rponses en format lisible par la machine est faite pendant la
collecte, liminant ainsi cette activit du traitement aprs la collecte. Autre avantage : les donnes non
valables ou incohrentes peuvent tre identifies plus rapidement que celles des questionnaires sur
support papier.
Les mthodes de collecte des donnes sont considres au Chapitre 4 - Mthodes de collecte des
donnes. Le recours aux donnes administratives est examin en Annexe A - Donnes administratives.
Les activits de collecte des donnes, y compris certaines interventions de lintervieweur, notamment
lnumration, le reprage et les mthodes dorganisation de la collecte des donnes, sont prcises au
Chapitre 9 - Oprations de collecte des donnes.

1.1.6 Saisie et codage des donnes
Si les donnes nont pas t collectes au moyen dune mthode assiste par ordinateur, elles doivent tre
codes et saisies . Le codage est le processus daffectation dune valeur numrique aux rponses pour
faciliter la saisie et le traitement des donnes en gnral. Certaines questions sont parfois prcodes sur
le questionnaire mme, mais dautres sont codes aprs la collecte pendant le traitement manuel ou
automatis. La saisie et le codage des donnes sont des activits qui cotent cher et qui demandent
beaucoup de temps, mais elles sont essentielles la qualit des donnes parce que les erreurs entres
peuvent avoir des rpercussions sur les rsultats finals de lenqute. Il faut donc mettre laccent sur la
prvention des erreurs ds les premires tapes. Lassurance de la qualit et le contrle qualitatif sont
deux mthodes de surveillance et de vrification des erreurs. Lobjectif de lassurance de la qualit est de
prvoir et dempcher les problmes, et celui du contrle qualitatif est de garantir que le nombre derreurs
est restreint aux limites acceptables.
Le Chapitre 10 - Traitement porte sur la saisie et le codage des donnes. Les questions de qualit sont
considres en Annexe B - Contrle qualitatif et assurance de la qualit.
1.1.7 Vrification et imputation
La vrification est lapplication de mesures pour reprer les entres manquantes, non valables ou
incohrentes qui indiquent des enregistrements de donnes ventuellement errones. Lobjectif de la
vrification est de mieux comprendre les processus et les donnes de lenqute pour garantir que les
donnes finales de lenqute sont compltes, convergentes et valables. Les vrifications peuvent tre de
simples mesures de contrle manuel quappliquent les intervieweurs sur place ou des vrifications
compltes excutes par un programme informatique. Limportance de la vrification faite est un
compromis entre lobjectif, cest--dire que tous les enregistrements sont parfaits , et une somme
raisonnable de ressources affectes (temps et argent) pour atteindre cet objectif.
Certaines lacunes de vrification sont combles laide dun suivi auprs du rpondant ou dun examen
manuel du questionnaire, mais il est peu prs impossible de corriger toutes les erreurs ainsi, et
limputation est souvent utilise pour rgler les autres cas. Limputation est un processus appliqu pour
dterminer et attribuer des valeurs de remplacement, afin de rsoudre les problmes de donnes
manquantes, non valables ou incohrentes.
Limputation peut amliorer la qualit des donnes finales, mais il faut choisir prudemment une
mthodologie dimputation approprie. Certaines mthodes dimputation ne protgent pas les liens entre
les variables ou peuvent en fait susciter une distorsion des liens sous-jacents des donnes. Il faut tenir
INTRODUCTION AUX ENQUTES
STATISTIQUE CANADA
5
compte du genre denqute, de ses objectifs et des caractristiques de lerreur pour choisir la mthode
convenable.
Le Chapitre 10 - Traitement reprend en dtail la vrification et limputation.


1.1.8 Estimation
Aprs la collecte, la saisie, le codage, la vrification et limputation des donnes, ltape suivante est
lestimation. Il sagit dun moyen que lorganisme statistique applique pour obtenir des valeurs de la
population dintrt et tirer des conclusions sur cette population partir de linformation obtenue dun
chantillon seulement de la population. Une estimation peut tre un total, une moyenne, un ratio, un
pourcentage, etc.
Le fondement de lestimation dans une enqute-chantillon est la pondration qui indique le nombre
moyen dunits de la population reprsente par une unit de lchantillon. Un total de la population peut
tre estim, par exemple, en additionnant les valeurs pondres des units de lchantillon. Le plan de
sondage dicte la pondration initiale. Des modifications sont parfois apportes cette pondration pour
compenser, par exemple, pour les units qui ne rpondent pas lenqute (c.--d. non-rponses totales) ou
pour tenir compte de linformation secondaire. Les modifications apportes pour les non-rponses
peuvent aussi sappliquer aux donnes dun recensement.
Une enqute-chantillon peut accuser une erreur dchantillonnage parce quune partie seulement de la
population est dnombre et que les units chantillonnes nont pas exactement les mmes
caractristiques que toutes les units de la population reprsente. Il faudrait toujours ajouter une
estimation de lampleur de lerreur dchantillonnage pour chaque estimation, afin dindiquer aux
utilisateurs la qualit des donnes.
Le Chapitre 7 - Estimation traite de lestimation des statistiques simples. Lestimation de lerreur
dchantillonnage est couverte au Chapitre 7- Estimation et au Chapitre 11 - Analyse des donnes de
lenqute.


1.1.9 Analyse des donnes
Lanalyse des donnes comprend le sommaire des donnes et linterprtation de leur signification pour
obtenir des rponses claires aux questions qui ont motiv lenqute. Lanalyse des donnes devrait nouer
un lien entre les rsultats de lenqute et les questions et problmes mentionns dans lnonc des
objectifs. Il sagit de lune des tapes les plus cruciales de lenqute parce que la qualit de lanalyse peut
avoir des rpercussions substantielles sur lutilit de lenqute dans lensemble.
Lanalyse des donnes peut tre restreinte aux donnes de lenqute ou tablir une comparaison entre les
estimations de lenqute et les rsultats dautres enqutes ou sources de donnes. Elle consiste souvent
examiner des tableaux, des graphiques et diverses mesures sommaires, par exemple, les moyennes et les
rpartitions des frquences pour rsumer les donnes. Linfrence statistique peut servir vrifier les
hypothses ou tudier les liens entre des caractristiques, par exemple, laide de tests de rgression,
danalyses de lcart ou du chi au carr.
Le Chapitre 11 - Analyse des donnes de lenqute reprend ce sujet en dtail.


MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
6
1.1.10 Diffusion des donnes
La diffusion des donnes est la distribution des donnes de lenqute aux utilisateurs par
lintermdiaire de divers mdias, par exemple, un communiqu, une interview radio ou tldiffuse, une
rponse tlphonique ou tlcopie une demande spciale, la publication dun document, une
microfiche, un mdia lectronique, y compris Internet, ou un fichier de microdonnes sur CD, etc.
La prestation et la prsentation des rsultats finaux sont trs importantes. Les utilisateurs devraient
trouver, interprter, comprendre et utiliser correctement et facilement les rsultats de lenqute. Il faudrait
rsumer les rsultats de lenqute, indiquer les points forts et les points faibles des donnes, et mettre en
vidence les dtails importants dans un rapport crit qui comprend des tableaux et des graphiques.
Avant de diffuser les donnes, il faudrait en valuer la qualit pour aider considrer et interprter les
rsultats et la qualit de lenqute, et informer les utilisateurs, afin quils jugent par eux-mmes de lutilit
des donnes. Cette activit peut aussi donner des renseignements prcieux pour amliorer lenqute (si
elle est prvue de nouveau) ou dautres enqutes. Cette valuation et le rapport subsquent devraient
comprendre une description de la mthodologie de lenqute, ainsi que les mesures et les sources derreur.
Au volet du processus de diffusion, la loi oblige de nombreux organismes statistiques protger la
confidentialit de linformation des rpondants. Le contrle de la divulgation englobeles mesures
appliques pour protger les donnes diffuses, afin dempcher toute infraction la vie prive des
rpondants. Il sagit, notamment, didentifier et dliminer (ou de modifier) les cases des tableaux qui
risquent de rvler de linformation sur une personne. Certaines donnes doivent habituellement tre
supprimes ou modifies. Avant de choisir une mthode de contrle de la divulgation, il faudrait
comparer diverses mthodes, compte tenu de leurs rpercussions sur les rsultats de lenqute et du risque
de divulgation pour une personne.
De nombreux autres aspects de la diffusion sont couverts au Chapitre 12 - Diffusion des donnes.


1.1.11 Documentation
La documentation donne un dossier de lenqute et devrait comprendre chaque tape et phase de
lenqute. Elle peut comprendre divers aspects de lenqute et cibler diffrents groupes, notamment, la
direction, le personnel technique, les concepteurs dautres enqutes et les utilisateurs. Un rapport sur la
qualit des donnes, par exemple, donne aux utilisateurs un contexte pour lutilisation informe des
donnes. Un rapport denqute qui comprend, non seulement les dcisions prises, mais aussi leurs
justifications, donne la direction et au personnel technique de linformation utile pour llaboration et
lapplication ultrieures denqutes semblables. Au cours de la mise en uvre, la documentation des
procdures lintention du personnel aide garantir un droulement efficace.
Le Chapitre 12 - Diffusion des donnes prcise comment organiser un rapport et donne des lignes
directrices sur la rdaction.
1.2 Cycle de vie utile dune enqute

Les tapes de lenqute prsentes ci-dessus ne sont pas ncessairement squentielles : certaines se
droulent en parallle, dautres, par exemple la vrification, sont ritres divers moments pendant le
INTRODUCTION AUX ENQUTES
STATISTIQUE CANADA
7
processus de lenqute. Chaque tape doit dabord tre planifie, conue et labore, mise en uvre
ensuite et value en bout de ligne. Les phases de la vie utile dune enqute sont dcrites ci-dessous.


1.2.1 Planification de lenqute
La planification est la premire phase du processus de lenqute. Il faut cependant slectionner et
appliquer auparavant une structure de planification et de gestion. Une structure habituellement utilise est
lapproche de lquipe de lenqute ou du projet, cest--dire quune quipe interdisciplinaire est charge
de la planification, de la conception, de la mise en uvre et de lvaluation de lenqute et de ses
aboutissants prvus. Lquipe interdisciplinaire est forme de membres qui ont des aptitudes techniques
diffrentes, par exemple, un statisticien, un programmeur, un expert dans le domaine de ltude, un expert
de la collecte des donnes, etc.
La planification dune enqute devrait se drouler par tapes dexactitude et de dtails croissants.
ltape prliminaire ou de proposition de lenqute, seules les notions les plus gnrales des besoins de
donnes du client peuvent tre connues. Lorsque la proposition denqute a t formule, il est important
de dterminer si une nouvelle enqute est ncessaire, sans oublier les options, les cots et les priorits du
client et de lorganisme statistique. Il est parfois possible dobtenir, en tout ou en partie, linformation
voulue dans les dossiers administratifs dadministrations publiques, dinstitutions et dorganismes.
Autrement, il peut tre possible dajouter des questions un questionnaire denqute existant ou de
refondre une enqute existante.
Sil est dtermin que les sources de donnes de rechange ne peuvent rpondre aux besoins
dinformation, lquipe passe la formulation dun nonc des objectifs et elle approfondit sa
comprhension des choix de base de sondage, de la taille gnrale de lchantillon, des besoins de
prcision, des options de collecte des donnes, de lchancier et des cots. La faisabilit de lenqute est
habituellement dtermine cette tape.
Lorsque les objectifs de lenqute sont vidents, chaque membre de lquipe prpare les plans de la
composante pertinente sa responsabilit dans lquipe. La planification devient plus complexe au cours
de cette tape. Les avantages et inconvnients des mthodologies de rechange devraient tre examins et
compars, compte tenu des points suivants : couverture, mode de collecte des donnes, frquence, dtails
gographiques, fardeau de la rponse, qualit, cot, ressources ncessaires et rapidit dexcution.
Au cours des tapes ultrieures du processus de lenqute, les plans sont labors, rviss et amliors, et
des aspects plus dtaills sont examins. Chaque activit et opration exige un certain plan de conception,
dlaboration et dapplication. La planification continue pendant tout le processus de lenqute et des
modifications sont apportes au besoin.
Les dtails de la planification sont expliqus au Chapitre 13 - Planification et gestion de lenqute.


1.2.2 Conception et laboration
Aprs avoir tabli un grand cadre mthodologique, il est possible daccomplir un travail dtaill sur les
diverses tapes dune enqute la phase intitule conception et laboration. Lobjectif gnral de cette
phase est de dterminer lensemble des mthodes et procdures qui permettront dtablir un quilibre
appropri entre les objectifs de qualit et les limites des ressources.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
8
Au cours de cette phase, les essais prliminaires ou les enqutes pilotes ncessaires sont excuts pour
valuer, par exemple, si le questionnaire est appropri, si la base de sondage convient, si les procdures
oprationnelles sont bien choisies, etc. Tout le matriel sur place (p. ex., manuels dinstruction et de
formation des intervieweurs, documents de contrle des chantillons) est prpar pour ltape de la
collecte des donnes. Les programmes logiciels pour les questionnaires administrs par ordinateur sont
labors, modifis ou mis lessai. La touche finale est apporte aux procdures de slection et
destimation de lchantillon pour tablir des spcifications. Les spcifications sur le codage, la saisie des
donnes, la vrification et limputation sont prpares pour le traitement des donnes.
Des procdures devraient tre conues pour contrler et mesurer la qualit chaque tape de lenqute par
souci defficacit ( laide de procdures de contrle qualitatif et dassurance de la qualit) et pour valuer
la qualit des produits statistiques en bout de ligne.


1.2.3 Mise en uvre
Aprs avoir vrifi si tous les systmes sont en place, lenqute peut maintenant tre lance. Cest la
phase de la mise en uvre. Les manuels et les formules de contrle de lenqute sont imprims, ainsi que
le questionnaire (sil sagit dun questionnaire sur support papier). Les intervieweurs sont forms,
lchantillon est slectionn, la collecte de linformation est faite, et tout est ralis comme prvu pendant
la phase de llaboration. Le traitement des donnes commence aprs ces activits. Il comprend la saisie,
le codage, la vrification et limputation des donnes. Le rsultat est un ensemble de donnes complet
bien structur qui permet de produire les totalisations ncessaires et danalyser les rsultats de lenqute.
Ces rsultats sont ensuite vrifis aux fins de la confidentialit puis, diffuss. chaque tape, la qualit
des donnes devrait tre mesure et surveille laide des mthodes conues et labores au cours de
ltape prcdente.


1.2.4 valuation de lenqute
Lvaluation est un processus continu au cours de lenqute. Chaque tape de lenqute devrait tre
value pour dterminer lefficience, lefficacit et les cots, en particulier dans le cas des enqutes
ritres, afin dapporter avec le temps des amliorations sa conception et la mise en uvre. Ce
processus comprend des examens des mthodes appliques, ainsi que des valuations de lefficacit
oprationnelle et de la rentabilit. Ces valuations sont un test pour dterminer si les pratiques techniques
sont convenables. Elles servent aussi amliorer et orienter lapplication de concepts particuliers ou de
composantes de la mthodologie et des oprations au cours dune enqute et dune enqute lautre. Elles
soutiennent les activits et fournissent des mesures et des examens des limites de la qualit des donnes
du programme. Chaque tape de lenqute est aussi value pour donner un aperu des lacunes ou des
problmes dautres tapes de lenqute. La vrification et limputation peuvent donner, par exemple, de
linformation sur les problmes que posent les questionnaires.
Les valuations denqutes prcdentes ou denqutes pilotes sont importantes lors de la planification
dune nouvelle activit statistique : elles peuvent aider formuler des objectifs denqute ralistes, donner
une ide de la qualit des donnes que lon veut obtenir et de linformation essentielle la conception de
lenqute et au traitement des donnes.


INTRODUCTION AUX ENQUTES
STATISTIQUE CANADA
9
1.3 Sommaire
Quest-ce quune enqute? Toute activit organise et mthodique de collecte dinformation est une
enqute. Elle est habituellement motive par le besoin dtudier les caractristiques dune population,
dimplanter une base de donnes des fins analytiques ou de vrifier une hypothse.
Quelles sont les tapes de lenqute? Une enqute est une procdure beaucoup plus complexe que la
simple activit de poser des questions et de compiler les rponses pour produire des statistiques. Il faut
franchir de nombreuses tapes et appliquer des mthodes et procdures prcises pour que les rsultats
donnent de linformation exacte. Ces tapes comprennent la formulation des objectifs de lenqute, le
choix de la conception de lchantillon, la conception du questionnaire, la collecte, le traitement et la
totalisation des donnes puis, la diffusion des rsultats.
Comment les tapes sont-elles franchies? Lexcution dune enqute peut tre dcrite comme un cycle de
vie utile quatre phases. La premire est la planification qui permet dtablir les objectifs de lenqute, la
mthodologie, le budget et lchancier des activits. La deuxime est la conception et llaboration des
tapes de lenqute. La troisime consiste franchir les tapes de lenqute. La qualit est mesure et
surveille pendant la troisime phase pour garantir que le processus fonctionne comme prvu. En dernier
lieu, les tapes de lenqute sont examines et values.


Bibliographie

Cochran, W.G. 1977. Sampling Techniques. John Wiley and Sons, New York.

Des Raj. 1972. The Design of Sample Surveys. McGraw-Hill Series in Probability and Statistics, New
York.
Moser C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.
Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.
Satin, A. et W. Shastry. 1993. chantillonnage statistique : un guide non mathmatique Deuxime
dition. Statistique Canada. 12-602F.
Statistique Canada. 1987. Lignes directrices concernant la qualit. Deuxime dition.
Statistique Canada. 1998. Statistique Canada Lignes directrices concernant la qualit. Troisime
dition. 12-539-X1F.

www. statcan. gc. ca
P U B L I C AT I O N S L E CTRONI QUE S
D I S P O N I B L E S

STATISTIQUE CANADA
11
Chapitre 2 - Formulation de lnonc des objectifs

2.0 Introduction

La premire tche de la planification dune enqute est de prciser les objectifs le mieux et le plus
clairement possible. Un nonc clair des objectifs oriente toutes les tapes ultrieures de lenqute. Ces
tapes devraient tre planifies de faon garantir que les rsultats en bout de ligne correspondent aux
objectifs originaux.

Supposons que vous prvoyez une enqute sur la pauvret. Il nest pas suffisant dindiquer que lobjectif
de lenqute est dobtenir, par exemple, de linformation sur les conditions de logement des pauvres .
Ce genre dnonc vague peut tre une description globale du thme gnral de lenqute, mais en bout de
ligne, il faut approfondir en une formulation plus spcifique. Que signifie conditions de logement ?
Sagit-il de ldifice, de lge du btiment, de la ncessit de rnover ou de la densit (p. ex., le nombre de
personnes par mtre carr)? Que signifie prcisment le terme pauvre ? La pauvret est-elle mesure
selon les revenus, les dpenses, les dettes, ou les trois?

Lorganisme statistique, en consultation avec le client, doit dabord dfinir les besoins dinformation, les
principaux utilisateurs et les principales utilisations des donnes plus compltement et prcisment. En
gnral, quels renseignements sont ncessaires sur les conditions de logement des pauvres? Qui a besoin
des donnes et pourquoi? Supposons que le client qui demande lenqute soit le conseil municipal.
Celui-ci a limpression que les conditions de logement des pauvres laissent dsirer et prvoit quil devra
btir de nouveaux logements subventionns. Il voudra peut-tre savoir combien de nouvelles rsidences
seront ncessaires et combien elles coteront. Il pourrait demander aux pauvres o ils veulent les
nouveaux logements. La Ville devra peut-tre modifier la subvention, compte tenu de la pauvret de la
famille, et elle aura donc besoin de donnes sur les divers niveaux de pauvret.

Il faut ensuite formuler des dfinitions oprationnelles particulires, y compris une dfinition de la
population cible. Ces dfinitions indiquent qui (ou quoi) sera observ et ce qui sera mesur. Dans le cas
des pauvres , la dfinition peut comprendre toutes les familles dont le revenu brut est infrieur un
certain seuil. Il faut aussi dfinir les termes famille et revenu . Il faut prciser la couverture de la
population : quel secteur gographique intresse le client, quels secteurs de la ville? Quelle est la priode
de rfrence, la semaine dernire, lanne dernire?

Lorganisme statistique doit aussi connatre les sujets particuliers qui seront examins dans lenqute. Le
client veut-il de linformation sur le revenu par tranche, le genre de logement (p. ex., immeubles
dappartements, maisons individuelles, etc.), lge du logement, le nombre de personnes qui y habitent,
etc.? quel point chaque sujet doit-il tre dtaill et quelle sera la mise en forme des rsultats? Le tout
fait habituellement lobjet dune proposition de tableaux danalyse. Dans une enqute-chantillon, le
niveau de dtail possible est fonction de la taille de lerreur dchantillonnage dans les estimations, ainsi
que des contraintes oprationnelles, notamment, le temps, le budget, le personnel et le matriel
disponibles. Ces cibles de qualit et contraintes oprationnelles auront des rpercussions profondes sur la
porte de lenqute.
Lorganisme statistique, en consultation avec le client, peut rviser plusieurs fois lnonc des objectifs
pendant la planification, la conception et llaboration de lenqute.
Lobjectif de ce chapitre est dillustrer comment formuler lnonc des objectifs.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
12
2.1 Processus dlaboration de lnonc des objectifs par tapes successives
Llaboration de lnonc des objectifs est un processus itratif qui engage lorganisme statistique, le
client et les utilisateurs (sils ne sont pas le client). Les tapes du processus visent dterminer :
- les besoins dinformation,
- les utilisateurs et les utilisations des donnes,
- les principaux concepts et les dfinitions oprationnelles,
- la matire de lenqute,
- le plan danalyse.
Considrons lexemple suivant pour illustrer ces tapes. Le conseil municipal a demand la Rgie des
transports en commun de la rgion (RTCR) dappliquer des mesures pour faciliter lutilisation des
transports en commun par les citoyens gs (c.--d. les personnes ges ). La RTCR na pas
dinformation jour sur les besoins ou les habitudes de dplacement des personnes ges et elle a donc
communiqu avec lorganisme statistique pour obtenir de laide la collecte de nouvelles donnes. Le
paragraphe suivant est lnonc initial de la RTCR sur la situation :
La RTCR considre modifier son service actuel pour faciliter lutilisation des transports en
commun par les personnes ges. Les changements possibles comprennent, par exemple, lachat
dautobus spciaux, la modification des autobus actuels, lajout de nouveaux itinraires ou peut-
tre des tarifs subventionns. Avant de procder des achats et des modifications qui cotent
cher, la RTCR demande de linformation sur les besoins de transport des personnes ges pour
tablir un budget et apporter des amliorations selon leurs besoins.
2.1.1 Besoins dinformation (noncer le problme)
La premire tape est la description en termes gnriques des besoins dinformation du client.
Lorganisme statistique devrait commencer par identifier le problme et lnoncer en termes gnraux.
Pourquoi lenqute a-t-elle t suggre? Quelles sont les questions sous-jacentes et dans quel contexte
sont-elles poses?
Dans lexemple de la RTCR, le conseil municipal lui a demand dappliquer des mesures pour faciliter
lutilisation des transports en commun par les personnes ges . Dans lnonc initial, la RTCR a
interprt cette demande comme un besoin de modifier le service actuel pour faciliter lutilisation des
transports en commun par les personnes ges . Quel est en fait lobjectif quil faut considrer
directement pour aider la RTCR atteindre cet objectif?
La RTCR demande de linformation sur les besoins de transport des personnes ges, et veut
savoir si lon rpond actuellement ces besoins et comment.
Les besoins dinformation de lenqute dans lensemble sont maintenant identifis. Il est important de
revenir cet nonc chaque tape de lenqute pour garantir que les objectifs de lenqute sont atteints.
2.1.2 Utilisateurs et utilisations des donnes
Les deux questions suivantes se posent : Qui sont les principaux utilisateurs des donnes? quoi servira
linformation? Lorganisme statistique a besoin de savoir qui sont les utilisateurs parce que leur
rtroaction est trs importante pendant la phase de planification de lenqute. (Les utilisateurs des
donnes en bout de ligne ne sont pas toujours le client, mais cest souvent le cas.) Il faut dterminer les
FORMULATION DE LNONC DES OBJECTIFS

STATISTIQUE CANADA
13
utilisations des donnes pour prciser davantage les besoins dinformation. Cette tape est franchie en
consultation avec le client et les utilisateurs des donnes. Quel genre de questions stratgiques faut-il
considrer? Linformation de lenqute servira-t-elle dcrire une situation ou analyser des relations?
Quel genre de dcisions peuvent tre prises laide des donnes et quelles peuvent tre les consquences?
Il faudrait aussi consulter les rpondants ventuels si possible parce quils pourraient mentionner des
questions et des proccupations importantes pour eux et qui pourraient avoir des rpercussions sur la
matire de lenqute.
son avis, la RTCR demande de linformation sur les besoins de transport des personnes ges pour
tablir un budget et apporter des amliorations selon leurs besoins . Linformation peut servir en
particulier aux planificateurs des transports de la RTCR aux fins suivantes :
- achat dautobus spciaux,
- modification des autobus actuels,
- ajout de nouveaux itinraires,
- subvention des tarifs.
Les besoins dinformation de lenqute sont maintenant identifis, ainsi que les utilisateurs et les
utilisations des donnes. Voil qui est particulirement important. Supposons, par exemple, que la RTCR
prvoit quil faudra ajouter de nouveaux itinraires, elle voudra peut-tre demander aux personnes ges
o devraient tre amnags ces itinraires. Si la RTCR prvoit modifier les autobus actuels, elle voudra
peut-tre savoir quelles modifications prfrent les personnes ges. Si la RTCR considre acheter des
autobus spciaux, elle voudra peut-tre savoir de quel genre dautobus ont besoin les personnes ges. Si
la RTCR compte percevoir des tarifs subventionns, elle voudra peut-tre demander aux personnes ges
quels tarifs elles considrent raisonnables. Les rsultats prvus et les consquences de ces rsultats
dterminent donc la matire de lenqute.
2.1.3 Dfinitions oprationnelles et des concepts
Lorganisme statistique a besoin de dfinitions prcises et claires pour dterminer les donnes ncessaires,
afin datteindre les objectifs de lenqute. Ces dfinitions peuvent prciser des exclusions, notamment, les
personnes sans abri ou qui habitent dans des institutions, etc. Il faudrait utiliser des dfinitions standard
reconnues dans la mesure du possible. Elles faciliteront la communication entre les utilisateurs des
donnes et les rpondants et garantiront luniformit entre les enqutes. Lorganisme statistique devra
peut-tre laborer certaines dfinitions standard, par exemple, pour le logement, le mnage, la famille, etc.
Il faut poser trois questions pour dterminer les dfinitions oprationnelles : Quoi ou quoi? O? et Quand?
Lun des premiers concepts dfinir est la population cible de lenqute. La population cible est la
population dont on veut obtenir de linformation. Cest lensemble des units que le client est intress
tudier. Selon les caractristiques et lobjectif de lenqute, ces units sont habituellement des personnes,
des mnages, des coles, des hpitaux, des fermes, des entreprises, etc. Reprenons lexemple de la RTCR.
Il faudrait poser les questions suivantes pour dfinir la population cible de lenqute:
i. qui ou quoi le client sintresse-t-il?
Lorganisme statistique doit, dans ce cas, considrer le genre dunits que comprend la population cible et
les caractristiques qui dfinissent les units. Aux fins de lenqute de la RTCR, il est tabli que le client
sintresse lutilisation des transports en commun par les personnes ges et leurs besoins. Des
dfinitions explicites de personnes ges, transport en commun et utilisation sont ncessaires. Supposons
que les personnes ges sont les 65 ans ou plus selon la dfinition. (Le client doit vrifier auprs de la
RTCR quelle est sa dfinition de personnes ges pour les transports urbains). Il peut y avoir divers
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
14
transports en commun : autobus, train, mtro et vhicules pour besoins spciaux. Supposons que le client
sintresse seulement aux autobus. Autre question : le client sintresse-t-il seulement aux personnes
ges qui utilisent actuellement les autobus ou toutes les personnes ges? Le client peut sintresser
toutes les personnes ges.
ii. Quelles sont les units dintrt?
La question cible le lieu gographique des units (c.--d. les personnes ges). Le client sintresse peut-
tre seulement lutilisation des autobus de transport en commun qui se dplacent dans le secteur
mtropolitain de la ville (selon la dfinition dun recensement rcent, par exemple, et de nouveau, une
dfinition claire est ncessaire) ou peut-tre mme au territoire de la RTCR (c.--d. le territoire que sert le
rseau actuel des itinraires des autobus de transport en commun). Le client doit donc dcider si toutes les
personnes ges font partie de la population cible ou si celle-ci comprend seulement celles qui habitent
dans une rgion en particulier.
iii. Quelle est la priode de rfrence de lenqute? (Quand?)
Sur quelle priode les donnes portent-elles? (Quand?) La rponse semble tre maintenant parce que
lnonc de la RTCR cible les besoins actuels. Voil qui pourrait signifier en pratique que des questions
seront poses aux personnes ges sur leur utilisation des autobus de transport en commun pendant une
priode de rfrence rcente (semaine, mois, etc.). Faudrait-il faire enqute auprs des personnes ges
pour plus dune priode ou leur poser des questions sur plusieurs priodes de rfrence diffrentes?
Une importante considration sur la priode de rfrence est la saisonnalit. Certaines activits seront
lies une priode en particulier de la semaine, du mois ou de lanne. Les conclusions peuvent donc
viser une priode en particulier, mais elles ne sont pas ncessairement valables pour dautres priodes. Si
la RTCR pose des questions aux personnes ges dans son questionnaire, par exemple, sur leur utilisation
du rseau de transport en commun en semaine, les rsultats de lenqute ne seront peut-tre pas valables
pour les fins de semaine.
Aprs la population cible, de nombreux autres concepts doivent tre dfinis. Voici les exemples de trois
concepts connexes habituellement utiliss dans les enqutes auprs des mnages Statistique Canada :
Un logement est un ensemble de pices dhabitation structurellement distinctes qui a une
entre prive lextrieur de ldifice ou partir dun couloir commun ou dun escalier
lintrieur de ldifice.
Un mnage est une personne ou un groupe de personnes qui habitent un logement. Un mnage
peut tre une personne qui habite seule, une famille ou plus, un groupe de personnes sans lien
de parent, mais qui habitent le mme logement.
Une famille est un groupe de deux personnes ou plus qui habitent le mme logement et qui ont
des liens de parent par le sang, le mariage (y compris lunion libre) ou ladoption. Une
personne qui habite seule ou qui na de lien avec personne dautre dans le logement o elle
habite est classe comme personne hors famille.
Le Chapitre 3 - Introduction au plan denqute donne davantage de dtails pour dfinir la population
cible et celle du sondage.
FORMULATION DE LNONC DES OBJECTIFS

STATISTIQUE CANADA
15
2.1.4 Matire du sondage
Un nonc des objectifs vident garantit que la matire de lenqute est approprie et clairement dfinie.
Aprs avoir dtermin les besoins dinformation dans lensemble, les utilisateurs et les utilisations, ainsi
que les dfinitions oprationnelles, lorganisme statistique doit ensuite considrer le genre de sujets en
particulier qui seront tudis dans lenqute. Il sagit souvent dun processus itratif. Le processus de
prcision de la matire de lenqute rvle souvent que les besoins dinformation et les utilisations sont
incomplets, ou mme quil est impossible de rpondre certains besoins pour des raisons oprationnelles
ou cause des dfinitions.
Revenons lexemple de la RTCR. Linformation ncessaire un chelon raisonnablement gnral a t
identifie. Lorganisme statistique doit maintenant en apprendre davantage ce sujet.
Le client voudra peut-tre aussi dterminer diverses caractristiques des personnes ges, notamment :
- lge,
- le sexe,
- les incapacits,
- le revenu du mnage,
- le lieu gographique (les personnes ges habitent-elles surtout dans des secteurs restreints en ville,
notamment un foyer de retraite, ou sont-elles rparties sur tout le territoire de la ville?),
- le genre de logement (p. ex., maisons de retraite, appartements, rsidences),
- la composition du mnage (avec qui habitent-elles?).
Le client peut avoir besoin de renseignements sur les points suivants pour dterminer les besoins de
transport :
- nombre de dplacements la semaine dernire,
- frquence des dplacements (par heure de la journe, en semaine et en fin de semaine),
- modes de transport utiliss,
- problmes dutilisation des autobus de transport en commun,
- nombre de dplacements locaux.
Vouloir de linformation sur les caractristiques des dplacements peut susciter des questions sur les
points suivants :
- raison des dplacements,
- point de dpart gographique et la destination des dplacements,
- limites au dplacement,
- aides spciales ou lassistance ncessaire,
- nombre de dplacements annuls cause du manque de transport.
Le client devra peut-tre comprendre certains points, pour dterminer si les besoins sont satisfaits ou non,
notamment :
- laccs (combien de personnes ges ont une automobile, une bicyclette, etc.?),
- lutilisation des autobus de transport en commun,
- la somme dpense pour les autobus de transport en commun,
- les moyens damliorer le service,
- les moyens dinciter les personnes ges utiliser (ou utiliser plus souvent) les autobus de transport
en commun.
Tus les concepts qui ne sont pas dj dfinis devront ltre. Que signifie, par exemple, une incapacit?
Quest-ce quun dplacement?
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
16
Les sujets couvrir en particulier dterminent les variables obtenir, la conception du questionnaire et
mme le plan dchantillonnage. Ces points ont aussi des rpercussions sur le choix de la mthode de
collecte des donnes, par exemple, faudrait-il retenir les services dintervieweurs ou non, et quels seront
donc les cots de lenqute?
Lorganisme statistique doit couvrir tous les aspects des besoins dinformation, mais si elle veut viter des
frais superflus ou un fardeau de rponse excessif pour la population de lenqute, il devrait liminer tous
les articles qui ne sont pas directement lis aux objectifs de lenqute.
Au cours dune tape ultrieure, cette description de la matire de lenqute doit tre formule en
questions et mise en forme dans un questionnaire. Ce sujet est couvert en dtail au Chapitre 5 -
Conception du questionnaire.
2.1.5 Plan danalyse (totalisations proposes)
Lorsque tous les articles mesurer sont identifis, la tche suivante consiste dterminer combien de
dtails seront ncessaires pour chaque article et la mise en forme des rsultats. Quelles mesures, calculs,
indices, etc., sont ncessaires? Faut-il obtenir des estimations pour les sous-populations? Le plan dtaill
de la mthode danalyse et la prsentation des donnes est le plan danalyse, et aux analyses prvues
sajoute la cration ncessaire de totalisations proposes. Un plan danalyse facilite normment la
conception du questionnaire.
Dans le cas des dtails des rsultats finaux, par exemple, est-il ncessaire de faire une distinction entre les
divers groupes dge des personnes ges? Le client doit-il faire la diffrence entre les hommes et les
femmes, ou entre divers types de transport (autobus, automobile, bicyclette, etc.)? Faut-il utiliser des
donnes nominales ou en continu? Le client a-t-il besoin de savoir, par exemple, le revenu exact dune
personne ge ou le revenu par tranche est-il suffisant? (Si le client est intress calculer les moyennes,
le revenu exact est plus appropri.)
Remarquez que le plan danalyse peut comprendre le retour et des retouches aux dfinitions
oprationnelles et la matire de lenqute. Dans lexemple de la RTCR, voici certaines possibilits pour
le genre de dtails des rsultats, par ordre croissant de dtail :
Revenu du mnage :
- tranches de revenu du mnage (p. ex., moins de 15 000 $, de 15 000 $ 29 999 $, de 30 000 $
49 999 $, etc.),
- revenu total exact du mnage,
- revenu exact de chaque source (traitement ou rmunration, rgime de retraite, investissements).
Incapacits :
- une seule question pour dterminer si la personne ge a une condition physique qui limite sa capacit
de dplacement local,
- une seule question sur plusieurs incapacits distinctes,
- une srie de questions poser pour dterminer la prsence, les caractristiques et la gravit de chaque
incapacit.
Composition du mnage :
- personnes ges qui vivent seules qui ne vivent pas seules,
- nombre de personnes dans les mnages,
FORMULATION DE LNONC DES OBJECTIFS

STATISTIQUE CANADA
17
- catgories de mnage (personne seule, couple, deux adultes ayant des liens autres que ceux dun
couple, trois adultes ou plus ayant des liens, etc.),
- ge de chaque adulte et sa relation avec la personne de rfrence pour dterminer la composition
exacte du mnage.
Nombre de dplacements la semaine dernire :
- tranches (p. ex., de 0 3, de 4 6, etc.),
- nombre exact,
- nombre exact par jour et heure du jour.
Frquence des dplacements :
- pourcentage de dplacements en semaine ou en fin de semaine,
- nombre exact de dplacements chaque jour de la semaine.
Modes de transport utilis :
- mode de transport utilis le plus souvent pendant la priode de rfrence (p. ex., la semaine dernire),
- tous les modes de transport utiliss (transport en commun et vhicule priv),
- nombre de dplacements en autobus de transport en commun seulement,
- mode de transport utilis pour chaque dplacement.
Problmes dutilisation des autobus de transport en commun :
- lment qui cause la plus importante difficult,
- tous les lments qui causent une difficult,
- numration des lments par ordre de difficult cause,
- cote de la difficult que pose chaque lment.
Dans les cas prsents ci-dessus, la premire rpartition la moins dtaille peut tre suffisante, ou elle ne
contient pas suffisamment de dtails pour rpondre aux besoins dinformation du client. La dernire
rpartition la plus dtaille peut donner exactement le bon niveau de dtails, ou elle peut tre trop
dtaille et, en fait, trop difficile rpondre. Linformation dtaille donne une plus grande souplesse
pour lanalyse et permet la comparaison avec dautres sources dinformation, mais lorganisme statistique
devrait toujours essayer de demander linformation suffisamment dtaille pour rpondre aux besoins de
lanalyse, et sans plus, afin dviter un fardeau excessif aux rpondants.
Il est bon de prparer un ensemble prliminaire de totalisations proposes et dautres principaux rsultats
voulus. Dterminer comment les rsultats seront prsents aide dfinir non seulement le niveau de
dtail, mais aussi la porte complte de lenqute. Sans un plan danalyse clair, il peut tre possible la
fin de lenqute de produire des centaines de tableaux danalyse, mais seulement quelques-uns pourraient
tre directement lis aux objectifs de lenqute.
Les totalisations proposes devraient prciser chaque variable qui sera prsente dans un tableau et ses
catgories. Lobjectif de cette tape est de crer et de retenir des spcimens de ces tableaux qui formeront
lanalyse. La spcification ce niveau permet lorganisme statistique de commencer formuler la
version prliminaire des questions du questionnaire de lenqute.
Aux fins de lenqute de la RTCR, par exemple, la population devrait tre rpartie en deux groupes ou
plus (p. ex., pour comparer les personnes ges ayant une incapacit celles qui nen nont pas).
Des sommaires darticles distincts (rpartitions des frquences, moyennes, mdianes, etc.) peuvent tre
produits, notamment,
- le pourcentage de dplacements chaque jour de la semaine (Tableau 1),
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
18
- le nombre moyen de dplacements en transport en commun,
- la somme moyenne dpense pour les transports la semaine dernire,
- le pourcentage de personnes ges par raison de dplacement la plus frquente.
Tableau 1 : Dplacements par jour de la semaine

Jour de la semaine Nombre de dplacements % du total des
dplacements
Dimanche
Lundi
Mardi
Mercredi
Jeudi
Vendredi
Samedi
Total

Les totalisations croises dintrt ventuel peuvent comprendre :
- le nombre de dplacements par mode de transport (Tableau 2),
- le nombre dautobus utiliss par points de dpart et darrive,
- la rpartition des raisons pour ne pas utiliser le transport en commun par caractristique de personne
(p. ex., personne ayant une incapacit, etc.).
Dautres liens peuvent faire lobjet dune enqute, notamment :
- la somme moyenne dpense pour les transports par tranche de revenu,
- le revenu mdian des personnes ges confines la maison.
Tableau 2 : Nombre de dplacements par mode de transport

Mode de transport Nombre de
dplacements
% du total des
dplacements
Transport en commun
Autobus
Mtro
Autre
Transport priv
Automobile camion
Bicyclette
Marche
Autre
Total

2.2 Contraintes ayant des rpercussions sur lnonc des objectifs
De nombreuses exigences et contraintes peuvent avoir des rpercussions sur lnonc des objectifs de
lenqute. Lune est lie la qualit des estimations. quel point les rsultats de lenqute devraient-ils
tre prcis? La question fait rfrence lampleur de lerreur dchantillonnage acceptable pour les
variables les plus importantes. Les rsultats dtaills et prcis exigent souvent de trs larges chantillons
qui sont parfois au-del des moyens du client. Celui-ci peut donc dcider dexiger moins de prcision ou
dobtenir des donnes plus agrges, moins dtailles.
FORMULATION DE LNONC DES OBJECTIFS

STATISTIQUE CANADA
19
Les lments qui ont des rpercussions sur la prcision et donc, sur la taille de lchantillon comprennent
ceux-ci :
- la variabilit de la caractristique dintrt de la population,
- la taille de la population,
- le plan dchantillonnage et la mthode destimation,
- le taux de rponse.
Les contraintes oprationnelles ont aussi des rpercussions sur la prcision. Ces lments sont parfois les
plus influents :
- Quelle taille dchantillon le client a-t-il les moyens dutiliser?
- Combien de temps peut tre rserv au travail dlaboration?
- Combien de temps peut tre rserv au droulement de lenqute au complet?
- Les rsultats sont-ils rapidement ncessaires aprs la collecte?
- Combien dintervieweurs sont ncessaires? Combien sont disponibles?
- Combien dordinateurs sont disponibles? Combien de membres du personnel de soutien informatique
sont disponibles?
La prcision est labore davantage au Chapitre 3 - Introduction au plan denqute, au Chapitre 6 -
Plans dchantillonnage, au Chapitre 7 - Estimation et au Chapitre 8 - Calcul de la taille de
lchantillon et rpartition.
Voici dautres lments qui ont des rpercussions sur lnonc des objectifs :
- Les variables ncessaires peuvent-elles tre mesures laide des techniques disponibles?
- Faudra-t-il imposer aux rpondants un fardeau trop lourd pour obtenir les rsultats voulus?
- La vie prive du rpondant sera-t-elle compromise cause du niveau de dtail des rsultats diffuss?
- Lenqute aura-t-elle des rpercussions ngatives sur la rputation de lorganisme denqute?
Toutes ces considrations sont des points de la planification dune enqute. Les diffrents aspects de la
gestion dune enqute sont couverts au Chapitre 13 - Planification et gestion de lenqute.
2.3 Sommaire
Sil na pas une ide claire des besoins dinformation, lorganisme statistique risque de cibler un problme
diffrent, dobtenir des rsultats incomplets ou hors de propos, et de perdre du temps et des ressources.
Les activits de lenqute pourraient simplement ennuyer ou perturber de nombreux rpondants sans
donner de renseignements utiles. Les objectifs de lenqute doivent donc tre clairement dfinis pendant
la phase de planification.
Voici un rsum des questions les plus importantes et des points considrer lors de llaboration des
besoins dinformation et des objectifs de lenqute :
- Quels sont les besoins dinformation de lenqute dans lensemble?
- Qui utilisera les donnes et comment?
- Quelles dfinitions serviront lenqute?
- Quel genre de sujets en particuliers seront considrs pendant lenqute?
- Un plan danalyse a-t-il t prpar avec totalisations proposes?
- quel point les estimations doivent-elles tre prcises?
- Quelles sont les contraintes oprationnelles?
La formulation des objectifs de lenqute peut tre peaufine davantage pendant la conception et
llaboration du questionnaire en particulier (voir le Chapitre 5 - Conception du questionnaire).
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
20
Bibliographie
Brackstone, G.J. 1991. Shaping Statistical Services to Satisfy User Needs. Statistical Journal of the
United Nations. ECE 8: 243-257.
Brackstone, G.J. 1993. Data Relevance: Keeping Pace with User Needs. Journal of Official Statistics. 9:
49-56.
Fink, A. 1995. The Survey Kit. Sage Publications, California.
Fowler, F.J. 1984. Survey Research Methods. 1. Sage Publications, California.
Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.
Levy, P. et S. Lemeshow. 1991. Sampling of Populations. John Wiley and Sons, New York.
Moser C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.
Satin, A. et W. Shastry. 1993. chantillonnage statistique : un guide non mathmatique Deuxime
dition. Statistique Canada. 12-602F.
Statistique Canada. 1998. Politique sur les Normes. Manuel des politiques. 2.10.


STATISTIQUE CANADA
21
Chapitre 3 - Introduction au plan denqute

3.0 Introduction

Lorsque les objectifs de lenqute sont clairement dfinis, il faut considrer le plan denqute. Voici les
questions importantes : faut-il faire une enqute-chantillon ou un recensement? La population qui
intresse le client peut-elle faire lobjet dune enqute? Quelles peuvent tre les principales sources
derreur dans lenqute et leurs rpercussions sur les rsultats?

De nombreux lments aident dterminer sil faut faire une enqute-chantillon ou un recensement,
notamment, le budget et les ressources disponibles, la taille de la population et des sous-populations
dintrt, et lchancier des rsultats de lenqute.
La base de sondage dfinit en bout de ligne la population observe qui peut tre diffrente de celle que
cible le client. Avant de choisir une base de sondage en particulier, il faut valuer la qualit de diverses
bases ventuelles pour dterminer en particulier laquelle couvre le mieux la population cible.
Une enqute peut prsenter deux genres derreur : lerreur dchantillonnage et lerreur non due
lchantillonnage. Lerreur dchantillonnage est possible seulement dans lenqute-chantillon. Lerreur
non due lchantillonnage est possible dans lenqute-chantillon et le recensement, et un certain
nombre de raisons peuvent lexpliquer : la base de sondage est incomplte, certains rpondants nont pas
dclar correctement les donnes, des donnes de certains rpondants peuvent manquer, etc.
Lobjectif de ce chapitre est de prsenter ces considrations importantes pour le plan denqute.
Davantage dinformation propos de la planification dune enqute-chantillon est donne au
Chapitre 6 - Plans dchantillonnage.
3.1 Recensement et enqute-chantillon
Il y a deux genres denqute, lenqute-chantillon et le recensement. La diffrence est que le
recensement cible la collecte de renseignements pour toutes les units de la population, mais lenqute-
chantillon retient cette fin une partie seulement (habituellement trs petite) des units de la
population. Dans les deux cas, linformation sert tablir des statistiques pour la population dans
lensemble et, habituellement, pour des sous-groupes de la population.
La principale raison de prfrer lenqute-chantillon au recensement est que lenqute - chantillon est
souvent un moyen plus conomique et rapide dobtenir de linformation de qualit suffisante pour les
besoins du client. tant donn quune enqute-chantillon est une opration plus petite chelle quun
recensement, elle est aussi plus facile contrler et surveiller. Dans certains cas cependant, un
recensement peut tre prfrable ou ncessaire. (Pour une dfinition formelle de la qualit, voir lAnnexe
B - Contrle qualitatif et assurance de la qualit).

La liste suivante englobe les lments les plus importants considrer avant de choisir un recensement ou
une enqute par chantillonnage :

i. Erreurs denqute
Il y a deux genres derreurs denqute, lerreur dchantillonnage et lerreur non due lchantillonnage.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
22
Lerreur dchantillonnage est propre toute enqute-chantillon. Il y a erreur dchantillonnage
lorsquon estime une caractristique en mesurant seulement une partie de la population au lieu de la
population au complet.
Lerreur dchantillonnage est habituellement mesure en dterminant dans quelle mesure les estimations
de lchantillon sont diffrentes lune de lautre, compte tenu de tous les chantillons possibles de la
mme taille et en appliquant la mme mthode dchantillonnage (plan dchantillonnage). Lampleur de
lerreur dchantillonnage peut tre limite par la taille de lchantillon (elle diminue dans la mesure o
augmente la taille de lchantillon), le plan dchantillonnage et la mthode destimation.
Il ny a pas derreur dchantillonnage dans un recensement parce que tous les membres de la population
sont dnombrs. Les rsultats du recensement devraient donc tre plus prcis, semble-t-il, que ceux de
lenqute-chantillon. Toute enqute peut cependant comporter des erreurs non dues
lchantillonnage, c.--d. toutes les erreurs qui ne sont pas lies lchantillonnage, et le recensement,
encore plus que lenqute-chantillon, parce quil est possible daffecter davantage de ressources
lenqute-chantillon pour rduire les erreurs non dues lchantillonnage. Ces erreurs peuvent donner
des rsultats denqute biaiss. Les erreurs de mesure et de traitement sont des exemples derreurs non
dues lchantillonnage.
La Section 3.4 donne des dtails sur les sources derreur denqute, alors que le Chapitre 7 - Estimation
et le Chapitre 11 - Analyse des donnes de lenqute abordent la mthode de calcul de lerreur
dchantillonnage.
ii. Cot
tant donn que tous les membres de la population font lobjet de lenqute, le recensement cote plus
cher que lenqute-chantillon (la collecte des donnes est lactivit la plus chre de lenqute). Dans le
cas dune grande population, il est habituellement possible dobtenir des rsultats prcis partir
dchantillons relativement modestes. LEnqute sur la population active canadienne, par exemple, est
faite chaque mois auprs de 130 000 rsidents environ. La population canadienne compte
approximativement 30 millions de citoyens et la taille de lchantillon est donc de moins de 0,5 % de la
population. Un recensement coterait considrablement plus cher.
iii. Rapidit dexcution
Il faut souvent obtenir et traiter les donnes, puis diffuser les rsultats, au cours dune priode
relativement brve. tant donn que le recensement saisit des donnes pour toute la population, la collecte
et le traitement des donnes dun recensement demandent considrablement plus de temps que pour une
enqute-chantillon.
iv. Taille de la population
Le recensement peut tre prfrable pour une petite population. En effet, pour faire des estimations ayant
une petite erreur dchantillonnage, il peut tre ncessaire de tirer un large chantillon de la population.
Dans ce cas et pour des frais supplmentaires minimes, les donnes peuvent tre disponibles pour toute la
population, au lieu dune fraction seulement. Le recensement dune grande population dautre part cote
trs cher et lenqute-chantillon est donc habituellement prfrable.
Les lments qui ont des rpercussions sur la taille de lchantillon sont repris au Chapitre 8 - Calcul de
la taille de lchantillon et rpartition.
INTRODUCTION AU PLAN DENQUTE
STATISTIQUE CANADA
23
v. Estimation pour un petit domaine
Compte tenu du point prcdent, le recensement peut tre prfrable lorsque des estimations denqute
sont ncessaires pour des secteurs gographiques restreints ou des secteurs ayant une petite population.
Une enqute nationale peut tre ncessaire, par exemple, pour obtenir des statistiques sur chaque ville au
pays. Lenqute-chantillon peut donner des statistiques nationales dont lerreur dchantillonnage est
minime, mais, compte tenu de la taille de lchantillon, il peut y avoir trop peu de rpondants pour donner
des estimations dont lerreur dchantillonnage est minime pour toutes les villes. tant donn que le
recensement cible chacun et quil ny a pas derreur dchantillonnage, il peut donner des estimations
pour tous les sous-groupes possibles de la population.
Il nest pas toujours ncessaire de faire le recensement ou lenqute-chantillon. Il est parfois possible de
combiner les deux. Si vous voulez des estimations sur de petits domaines, par exemple, lenqute-
chantillon peut se drouler dans les plus grandes villes et le recensement, dans les plus petites.
vi. Prdominance des attributs
Si lobjectif de lenqute est destimer la proportion de la population ayant une certaine caractristique, et
si la caractristique est commune, une enqute-chantillon devrait tre suffisante. Si la caractristique est
rare cependant, le recensement peut tre ncessaire. La taille de la sous-population ayant la caractristique
dtermine le choix.
Supposons, par exemple, que le client veut dterminer le pourcentage de personnes ges dans la
population et que ce pourcentage, son avis, est denviron 15 %. Lenqute-chantillon devrait permettre
destimer ce pourcentage avec une petite erreur dchantillonnage. Si les attributs sont plus rares
cependant, et sils touchent moins de 1 % de la population, le recensement peut tre plus appropri.
(Lhypothse est que la base du sondage na pu identifier ces personnes auparavant.)
Il est bien entendu possible quavant de procder lenqute, absolument personne nait de donne sur la
prdominance de lattribut en question. Il est conseill dans ce cas de procder une tude prliminaire,
c.--d. une tude de faisabilit ou une enqute pilote.
vii. Besoins spcialiss
Il arrive que linformation voulue par enqute ne peut tre demande directement au rpondant ou elle
peut tre un fardeau pour lui. Une enqute sur la sant, par exemple, peut demander des donnes sur la
tension artrielle, le groupe sanguin et la condition physique des rpondants, donnes qui peuvent tre
dtermines avec prcision par un professionnel de la sant seulement. Si le genre de donnes vises
demande du personnel chevronn, du matriel de mesure qui cote cher, ou sil faut imposer un fardeau
relativement lourd aux rpondants, il peut tre impossible de faire un recensement. Dans certains
domaines en particulier (contrle qualitatif dun processus de fabrication par exemple), le caractre
destructif de certains tests peut indiquer que lenqute-chantillon est la seule option logique.
viii. Autres lments
Il y a dautres raisons de faire le recensement. La cration dune base de sondage en est une. De
nombreux pays, par exemple, font le recensement quinquennal ou dcennal de la population. Les donnes
tires de ce genre de recensement peuvent servir de base de sondage une enqute-chantillon ultrieure
qui cible la mme population.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
24
Obtenir de linformation comparative est une autre raison de faire le recensement. Linformation
comparative peut tre le dnombrement connu de la population, par exemple, le nombre dhommes et de
femmes. Linformation peut servir amliorer les estimations de lenqute-chantillon (voir le
Chapitre 7 - Estimation).
3.2 Population cible et population denqute
Au Chapitre 2 - Formulation de lnonc des objectifs, nous avons expliqu comment formuler les
dfinitions oprationnelles et des concepts. Lun des premiers concepts dfinir, y est-il mentionn, est la
population cible, c.--d. la population dont on veut obtenir de linformation.
Les lments suivants sont essentiels la dfinition de la population cible et aux dfinitions
oprationnelles en gnral :
- genre dunits que comprend la population et caractristiques particulires de ces units (qui ou
quoi?),
- localisation des units (o?),
- priode de rfrence considre (quand?).
Lorganisme statistique commence avec une population conceptuelle, pour laquelle il ny a peut-tre
aucune liste concrte, afin de dfinir la population cible. La population conceptuelle peut tre, par
exemple, lensemble des agriculteurs. Il faut dfinir le terme agriculteur pour cerner la population
cible. Celui qui a un petit jardin dans la cour arrire est-il un agriculteur? Quelle est la distinction entre un
agriculteur et un jardinier occasionnel? Quen est-il si un exploitant agricole na vendu aucun de ses
produits? La dfinition de la population cible peut englober, en bout de ligne, tous les agriculteurs au
Canada dont les revenus sont suprieurs un certain seuil au cours dune anne de rfrence en
particulier.
La population denqute est en fait la population que couvre lenqute. Elle peut tre diffrente de la
population cible, mais idalement, les deux devraient tre trs semblables. Il est important de souligner
que les conclusions tires des rsultats de lenqute sappliquent seulement la population de lenqute.
Voil pourquoi la population denqute devrait tre clairement dfinie dans la documentation de
lenqute.
Diverses raisons peuvent expliquer les diffrences entre les deux populations. La difficult et le cot lev
de la collecte des donnes dans les rgions isoles, par exemple, peut motiver la dcision dexclure ces
units de la population denqute. De mme, les membres de la population cible qui vivent ltranger ou
qui sont dans des institutions peuvent tre exclus de la population denqute sil est trop difficile ou
coteux de les intgrer.
Les exemples suivants illustrent les diffrences possibles entre la population cible et la population
denqute.
Exemple 3.1 :
Enqute sur les revenus et les dpenses des mnages
Population cible : Toute la population rsidant au Canada le 30 avril 1997.
Population denqute : La population du Canada au 30 avril 1997, lexception de ceux qui
habitent dans des institutions ou qui nont aucune adresse permanente.
INTRODUCTION AU PLAN DENQUTE
STATISTIQUE CANADA
25
Aux fins de cette enqute, il a t dcid quil serait trop difficile de faire enqute auprs des gens sans
adresse permanente (les expriences prcdentes ont eu peu de succs). De plus, ceux qui habitent en
institution peuvent tre mentalement ou physiquement incapables de rpondre aux questions. Nombre de
ces gens peuvent tre indisposs rpondre, et mme sils ltaient, souvent, les questions poses ne
sappliquent pas leur situation, et il faudrait donc laborer des instruments denqute modifis. Il
faudrait aussi prvoir des dispositions particulires pour avoir accs certaines institutions en particulier.
3.3 Base de sondage
Lorsque la dfinition de la population cible satisfait le client et lorganisme statistique, certains moyens
daccs aux units de la population sont ncessaires. La base de sondage donne les moyens didentifier
les units de la population denqute et de communiquer avec elles. Cette base de sondage dfinit en
bout de ligne la population denqute : si la base de sondage ne comprend pas les numros de tlphone
non publis, par exemple, ils sont aussi exclus de la population denqute.
Exemple 3.2 :
Recensement du secteur de la fabrication
Population cible : Tous les tablissements de fabrication en exploitation au Canada en
avril 2002.
Population denqute : Tous les tablissements de fabrication o des employs travaillaient au
Canada en avril 2002.
Le propritaire peut exploiter un tablissement de fabrication, avec employs ou non. Dans cet exemple,
la seule base de sondage disponible sapplique aux tablissements qui ont des employs et ceux qui nen
nont pas sont donc exclus de la population denqute.
(La population cible est souvent redfinie pour correspondre la population qui peut en pratique faire
lobjet dune enqute. Voil lapproche dornavant applique dans ce manuel : la population cible fait
rfrence la population que lenqute prvoit couvrir, compte tenu des contraintes oprationnelles et
pratiques et de la base de sondage utilise.)
Une base de sondage est ncessaire, non seulement comme vhicule daccs aux units de la population
denqute, mais aussi parce que dans certaines enqutes, lorganisme statistique doit tre en mesure de
calculer la probabilit dinclusion que prsente une unit de la population dans lchantillon. Si on a
recours lchantillonnage probabiliste, ces probabilits permettent de tirer des conclusions sur la
population observe, et cest lobjectif de lenqute. (Consulter le Chapitre 6 - Plans dchantillonnage
pour obtenir une dfinition de lchantillonnage probabiliste.)
On a dj fait rfrence aux units de lenqute dont on peut distinguer trois types :
- lunit dchantillonnage (lunit qui fait lobjet de lchantillonnage),
- lunit de rfrence (lunit sur laquelle linformation est fournie),
- lunit dclarante (lunit qui donne linformation).
Dans certaines enqutes, ces units sont toutes les mmes, mais il en est souvent autrement. Dans le cas
dune enqute auprs des enfants, par exemple, il nest peut-tre pas pratique que lunit de rfrence, un
enfant, soit lunit dclarante. Un plan dchantillonnage commun pour les enqutes auprs des mnages
est le recours une base de sondage qui numre les mnages dans la population de lenqute (une telle
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
26
base peut donner la meilleure couverture de tous les enfants de la population cible). Dans une enqute qui
applique ce genre de base de sondage, on procderait lchantillonnage des mnages et demanderait
un parent de rpondre au nom de lunit de lanalyse, cest--dire lenfant.
La base de sondage devrait comprendre les renseignements suivants, en tout ou en partie :
i. Donnes didentification
Des donnes didentification sont les renseignements de la base de sondage qui identifient sans ambigut
chaque unit de lchantillon, par exemple, le nom, ladresse exacte et un numro didentification unique.
ii. Donnes de communication
Les donnes de communication sont les renseignements ncessaires pour situer les units de lchantillon
pendant la collecte, par exemple, ladresse postale ou le numro de tlphone.
iii. Donnes de classification
Les donnes de classification servent la slection de lchantillon et, ventuellement, lestimation. Si
les gens qui habitent dans des appartements, par exemple, font lobjet dune enqute diffrente de ceux
qui habitent dans des rsidences, la base de sondage doit donc classer diffrents types de logement (c.--d.
appartements, maisons individuelles, etc.). Les donnes de classification peuvent aussi comprendre une
mesure de la taille utiliser pour lchantillonnage, par exemple, le nombre demploys qui travaillent
dans une entreprise ou le nombre dacres dune ferme. Voici dautres exemples de donnes de
classification : classification gographique (p. ex., province, division ou subdivision du recensement),
classification type des professions (CTP) ou classification type des industries (p. ex., CTI ou Systme de
classification des industries de lAmrique du Nord, SCIAN).
iv. Donnes de mise jour
Les donnes de mise jour sont ncessaires si lenqute doit tre ritre, par exemple, dates des ajouts
ou des modifications apportes aux donnes de la base de sondage.
v. Donnes de couplage
Les donnes de couplage sont utilises pour lier les units de la base de sondage une source de donnes
plus jour, par exemple, pour mettre jour la base de sondage.
La base de sondage est en rsum un ensemble de renseignements qui donnent le moyen davoir accs
aux units slectionnes de la population de lenqute. Les donnes didentification et de communication
sont le minimum ncessaire pour faire lenqute. Les donnes de classification, de mise jour et de
couplage sont cependant aussi souhaitables. Les donnes de la base de sondage sont un outil
dchantillonnage, mais nous constaterons aussi dans les chapitres ultrieurs quelles peuvent servir
vrifier et imputer des donnes manquantes ou incohrentes, et amliorer lchantillonnage et
lestimation.
Les diffrents aspects des plans dchantillonnage sont repris au Chapitre 6 - Plans dchantillonnage et
au Chapitre 7 - Estimation. Le Chapitre 10 - Traitement porte sur la vrification et limputation.
INTRODUCTION AU PLAN DENQUTE
STATISTIQUE CANADA
27
3.3.1 Types de base de sondage
Il y a deux principales catgories de base de sondage : les listes et les bases arolaires. Si aucune base de
sondage nest approprie, des bases multiples peuvent tre utilises.
3.3.1.1 Liste
Une liste peut tre dfinie comme une liste conceptuelle ou physique de toutes les units de la
population de lenqute. Une liste conceptuelle est souvent utilise pour une population qui existe
seulement au cours de lenqute. Un exemple serait la liste de tous les vhicules qui entrent dans le
stationnement dun centre commercial entre 9 h et 20 h pendant une journe en particulier.
Il est possible dobtenir des listes physiques, ou listes relles des units de la population, de diffrentes
sources. Divers organismes et paliers de ladministration publique maintiennent des listes des fins
administratives. Ces donnes administratives sont souvent les sources les plus efficientes de donnes de
mise jour de la base de sondage. Voici des exemples de liste :
- registre des statistiques de ltat civil (p. ex., une liste de toutes les naissances ou de tous les dcs
dans la population, ou les deux),
- registre des entreprises (p. ex., une liste de toutes les entreprises en exploitation),
- registre des adresses (p. ex., une liste des mnages et des adresses municipales),
- annuaire tlphonique (c.--d. une liste de tous les mnages dont le numro de tlphone est publi),
- listes de clients (c.--d. une liste de tous les clients dune entreprise),
- listes de membres (c.--d. une liste de tous les membres dun organisme).
Il faut tenir compte des lments suivants lorsquon utilise des donnes administratives pour tablir une
liste :
i. Cot
Les sources administratives offrent souvent un point de dpart bon march pour tablir la base de
sondage. Elles sont aussi une source dinformation pour la mise jour de cette base.
ii. Couverture
La source administrative devrait couvrir correctement la population cible.
iii. Mise jour
Il est important de dterminer quel point une information administrative est jour. Il faudrait considrer
le temps ncessaire pour traiter les mises jour et le dlai de communication des donnes lorganisme
statistique parce quils peuvent tre des critres dcisifs pour dterminer sil faut utiliser ou non une
source administrative en particulier.
iv. Dfinitions
Les dfinitions quutilise la source administrative devraient correspondre le plus possible aux concepts de
lenqute. La dfinition dun logement ou dune entreprise, par exemple, peut tre diffrente de celle de
lenqute.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
28
v. Qualit
La qualit des donnes que fournit la source administrative devrait correspondre lensemble des normes
de qualit de lenqute. (Si les donnes administratives ont un taux de rejet lev la vrification, par
exemple, lorganisme statistique peut dcider que les donnes sont de qualit insuffisante. La vrification
est couverte en dtail au Chapitre 10 - Traitement.)
vi. Stabilit de linformation de la source
Lorsque les sources administratives sont utilises pour tablir une base de sondage, lensemble des
variables que fournit la source devrait tre aussi stable que possible dans le temps. Les modifications des
concepts, des classifications ou de la matire la source peuvent causer des problmes graves de mise
jour de la base de sondage.
vii. Relations officielles et juridiques
Il devrait idalement y avoir une relation (par exemple, un contrat sign) entre lorganisme statistique et
la source de linformation administrative. Voil qui peut tre important pour garantir la confidentialit des
donnes. Il est aussi important davoir un dialogue ouvert et de favoriser la collaboration entre les deux
partenaires.
viii. Documentation
Les dossiers de donnes devraient tre documents du point de vue des variables quils contiennent et de
leur configuration. Cest particulirement important si les dossiers sont tenus dans diffrents secteurs de
comptence.
ix. Accessibilit facilit dutilisation
Linformation est-elle disponible sur support lectronique? Comment linformation est-elle organise?
Faut-il combiner diffrentes listes avant de pouvoir les utiliser?
Pour en savoir davantage propos de lutilisation des donnes administratives, on peut consulter
lAnnexe A - Donnes administratives.
3.3.1.2 Base arolaire
Une base arolaire est une liste spciale dont les units sont des secteurs gographiques. La population
observe est situe dans ces secteurs gographiques. Les bases arolaires peuvent servir lorsque lenqute
a un caractre gographique (mesurer les peuplements de la faune, par exemple, en comptant le nombre
danimaux par kilomtre carr) ou lorsquune liste approprie nest pas disponible, auquel cas la base
arolaire peut tre un moyen de crer une liste. Une liste inapproprie est souvent un problme. Cest
parce que les populations peuvent changer avec le temps, des units naissent, meurent, dmnagent ou
changent de nom, de composition ou de caractre, et nimporte quelle liste peut devenir dsute. Les
limites gographiques sont cependant plus stables et il est souvent plus facile de maintenir une base
arolaire.
Les bases arolaires sont habituellement composes dune hirarchie dunits gographiques. Des units
de base de sondage un niveau peuvent tre subdivises pour former des units au niveau suivant. Les
grandes rgions gographiques comme les provinces peuvent tre composes de districts ou de
INTRODUCTION AU PLAN DENQUTE
STATISTIQUE CANADA
29
municipalits qui peuvent aussi tre diviss en plus petits secteurs, par exemples, les lots dune ville.
Dans les plus petits secteurs gographiques chantillonns, la population peut tre liste pour
chantillonner les units de ce secteur.
Lchantillonnage partir dune base arolaire est souvent effectu en plusieurs tapes. Supposons, par
exemple, quil faut tirer un chantillon des logements dune ville en particulier pour lenqute, mais quil
ny a pas de liste jour. Une base arolaire peut servir crer une liste jour des logements, comme suit :
la premire tape de lchantillonnage, des secteurs gographiques sont chantillonns, par exemple, les
lots dune ville. Ensuite, pour chaque lot slectionn, une liste est tablie en numrant tous les
logements des lots chantillonns en ville. la deuxime tape de lchantillonnage, un chantillon de
logements est ensuite slectionn. Ce genre dapproche a un avantage : elle maintient les cots de cration
dune base de sondage dans des limites raisonnables et elle restreint lchantillon un nombre limit de
secteurs gographiques, moyen rentable de faire des enqutes par interview sur place.
Il est important que les units gographiques chantillonner dans une base arolaire soient identifiables
uniquement sur une carte et que les intervieweurs puissent reprer facilement les limites. Voil pourquoi
les lots des villes, les routes principales et les rivires sont souvent utiliss pour dlimiter les units
gographiques dune base arolaire.
Lexamen de lchantillonnage partir des bases arolaires est plus approfondi au Chapitre 6 - Plans
dchantillonnage. Ltablissement dune liste pour une base arolaire est expliqu au Chapitre 9 -
Oprations de collecte des donnes.
3.3.1.3 Base de sondage multiple
Une base de sondage multiple est une combinaison de deux bases ou plus (des listes et des bases
arolaires ou deux listes ou plus).
Les bases de sondage multiples sont habituellement utilises lorsquaucune base unique ne peut fournir la
couverture ncessaire de la population cible. Pendant lEnqute sur la sant dans les collectivits
canadiennes (ESCC), on utilise la base arolaire de lEnqute sur la population active (EPA) et une base
de composition alatoire (CA).
Le principal avantage dune base multiple est que la couverture de la population cible peut tre meilleure.
Lun des principaux inconvnients cependant est que la mme unit dchantillonnage peut paratre
plusieurs fois dans la base de sondage. Idalement, une unit devrait paratre une fois seulement dans les
bases utilises pour tablir la base de sondage multiple. En pratique toutefois, une unit est souvent entre
dans plus dune de ces bases. Il y a plusieurs moyens de traiter le chevauchement entre les bases de
composantes :
- liminer le chevauchement pendant la cration de la base de sondage,
- rsoudre le problme pendant la slection de lchantillon (ou sur place),
- corriger le problme ltape de lestimation.
Bankier (1986) approfondit ce sujet. La composition alatoire est tudie au Chapitre 4 - Mthodes de
collecte des donnes.



MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
30
3.3.2 Dfauts de la base de sondage

Plusieurs dfauts de base ventuels sont dcrits ci-dessous :

i. Sous-dnombrement
Le sous-dnombrement est le rsultat de lexclusion de la base de sondage de certaines units qui font
partie de la population cible. Cest souvent d au laps de temps entre la collecte et le traitement des
donnes utilises pour implanter la base de sondage. Entre le moment o la base est acheve et celui o se
droule lenqute, certaines units sont nes dans la population. Toute unit qui arrive dans la
population cible aprs lachvement de la base de sondage na aucune chance dtre slectionne pour
lenqute. Il en rsulte une sous-estimation de la taille de la population cible et les estimations peuvent
tre biaises. Des procdures sont ncessaires pour mesurer lampleur du sous-dnombrement et corriger
au besoin.
ii. Surdnombrement
Le surdnombrement est le rsultat de lajout la base de sondage de certaines units qui ne font pas
partie de la population cible. Cest souvent d un laps de temps lors du traitement des donnes de la
base de sondage. Entre le moment o la base est acheve et celui o se droule lenqute, certaines units
de la population meurent (une unit est morte si elle ne fait plus partie de la population cible). Toute
unit qui est dans la base de sondage, y compris ces units mortes hors du champ de lenqute, peuvent
tre slectionnes pour lenqute. Si ces units ne sont pas correctement classes hors du champ de
lenqute dans la base de sondage, la stratgie dchantillonnage peut tre moins efficiente du point de
vue statistique et les rsultats peuvent tre biaiss.
iii. Rptition
Il y a rptition lorsque la mme unit parat plus dune fois dans la base de sondage. Dans une base
dentreprise, par exemple, la mme entreprise peut tre numre une fois sous sa raison sociale et une
fois sous son nom commercial. Voil un problme frquent des bases de sondage multiples. La rptition
a tendance donner une surestimation de la taille de la population cible et les estimations peuvent tre
biaises. Souvent, les units en double sont repres seulement ltape de la collecte des donnes de
lenqute.
iv. Classification errone
Les erreurs de classification sont des valeurs inexactes attribues des variables de la base de sondage.
Un homme est inscrit par erreur la catgorie femme, par exemple, ou une entreprise de dtail est classe
grossiste. Le rsultat peut tre un chantillonnage inefficient, ou se traduire par le sous-dnombrement (ou
le surdnombrement) parce que si lchantillon comprend seulement des dtaillants, par exemple, ceux
qui auront t classs grossistes par erreur seront oublis. Les erreurs de donnes didentification ou de
communication peuvent susciter des difficults de reprage du rpondant pendant la collecte.
Le Chapitre 6 - Plans dchantillonnage donne davantage dinformation sur lefficience statistique et
les plans dchantillonnage.

INTRODUCTION AU PLAN DENQUTE
STATISTIQUE CANADA
31
3.3.3 Qualits dune bonne base de sondage
Quatre critres dterminent la qualit dune base de sondage :
i. Pertinence
La pertinence devrait tre mesure en dterminant quel point la base de sondage correspond et permet
laccs la population cible. Plus elle est diffrente de la population cible, plus lcart slargit entre la
population denqute et la population cible. Il faudrait aussi valuer quel point elle permet la
comparaison des rsultats des donnes entre divers programmes denqute. Lutilit de la base de sondage
pour dautres enqutes qui couvrent la mme population cible est aussi une mesure essentielle de sa
pertinence.
ii. Prcision
Il faudrait valuer la prcision en tenant compte de diffrentes caractristiques. Il faudrait dabord valuer
les erreurs de dnombrement (sous-dnombrement, surdnombrement et rptition). Quelle est
limportance des units manquantes, hors du champ de lenqute ou en double dans la base de sondage? Il
faudrait ensuite vrifier les erreurs de classification. Les units sont-elles toutes classes? Si oui, le sont-
elles correctement? Il faudrait tre trs attentif aux donnes de communication. Sont-elles compltes? Si
oui, sont-elles exactes et prcises? Les rpercussions de la prcision des donnes se manifesteront pendant
les tapes de la collecte et du traitement dans lenqute. La prcision des donnes de la base de sondage a
des rpercussions profondes sur la qualit des rsultats de lenqute.
iii. Actualit/ Fracheur
Il faudrait mesurer lactualit / la fracheur des renseignements en vrifiant quel point la base est jour,
compte tenu de la priode de rfrence de lenqute. Si linformation de la base est loin dtre jour (
cause de la source des donnes utilise pour implanter la base de sondage ou de la priode ncessaire pour
tablir la base), il faut alors appliquer certaines mesures pour amliorer la rapidit dexcution.
iv. Cot
Les cots peuvent tre calculs de diffrentes faons. Il faudrait dabord dterminer le total des frais
engags pour obtenir et implanter la base de sondage. Il faudrait ensuite comparer le cot de la base de
sondage et le cot total de lenqute. Il faudrait enfin comparer les frais de mise jour de la base de
sondage au total du budget du programme denqute. Les bases de sondage servent souvent plusieurs
enqutes pour accentuer la rentabilit.
Les caractristiques souhaitables suivantes sajoutent ces importants critres :
a. Procdures et concepts normaliss
Il faudrait appliquer linformation entre dans la base de sondage des dfinitions, procdures,
classifications et concepts normaliss que comprennent le client et lutilisateur des donnes. Voil qui est
particulirement important si ces dfinitions, procdures, classifications et concepts servent dautres
enqutes. La base de sondage devrait aussi permettre une stratification efficiente (du point de vue
statistique et des frais de collecte).
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
32
b. La base de sondage devrait tre facile mettre jour laide des sources administratives et de
lenqute.
Cest un moyen de garantir quelle est tenue jour et que la couverture est complte.
c. La base de sondage devrait tre facile utiliser
Les bases de sondage qui rpondent toutes les exigences ci-dessus sont peu nombreuses. Le but est de
choisir la base qui rpond le mieux ces critres. Il est important de savoir que la base de sondage a des
rpercussions directes sur de nombreuses tapes de lenqute. Elle a, notamment, des rpercussions sur la
mthode de collecte des donnes. Si la base de sondage ne donne pas les numros de tlphone, il ne peut
y avoir dinterviews tlphoniques. Elle a aussi des rpercussions sur la mthode dchantillonnage. La
qualit de la base de sondage a donc, bien entendu, des rpercussions sur les rsultats finals de lenqute.
3.3.4 Conseils et lignes directrices
Voici des conseils et lignes directrices utiles pour choisir et utiliser au mieux la base de sondage :
i. Lorsquil faut choisir une base de sondage (si plusieurs sont disponibles), valuer diffrentes
bases possibles ltape de la planification de lenqute pour dterminer leur pertinence et leur
qualit.
ii. viter les bases de sondage multiples si possible. Lorsquaucune base unique nest approprie,
cependant, considrer une base multiple.
iii. Utiliser la mme base de sondage pour les enqutes qui ont la mme population ou le mme sous-
ensemble de la population cible. Voil qui vitera les rsultats non convergents entre les enqutes
et qui diminuera les cots lis la mise jour et lvaluation de la base de sondage.
iv. Intgrer des procdures pour liminer les rptitions, mettre jour les naissances, les dcs et les
units hors du champ de lenqute, ainsi que les modifications apportes tout autre
renseignement de la base de sondage pour amliorer ou maintenir la qualit de la base de
sondage.
v. Intgrer les mises jour de la base de sondage le plus rapidement possible.
vi. Insister sur limportance de la couverture et appliquez des procdures dassurance de la qualit
efficaces aux activits lies la base de sondage. Voil qui aidera minimiser les erreurs dans
cette base.
vii. Surveiller priodiquement la qualit de la couverture de la base de sondage en nouant des liens
avec dautres sources ou en vrifiant linformation pendant la collecte des donnes.
viii. Dterminer et surveiller la couverture des sources administratives par lintermdiaire de la
communication avec le gestionnaire de la source, en particulier lorsque ces sources sont hors du
contrle de lenqute.
ix. Ajouter des descriptions de la population cible et de celle de lenqute, de la base de sondage et
de la couverture dans la documentation de lenqute.
INTRODUCTION AU PLAN DENQUTE
STATISTIQUE CANADA
33
x. Procder des vrifications cartographiques pour les bases arolaires laide de vrifications sur
place ou dautres sources cartographiques pour obtenir une dlimitation claire et sans
chevauchement des secteurs gographiques utiliss dans le plan dchantillonnage.
3.4 Erreurs denqute
Dans un monde parfait, il serait possible de slectionner un chantillon parfait, de concevoir un
questionnaire parfait, davoir des intervieweurs parfaits qui obtiendraient de linformation parfaite de
rpondants parfaits. Il ny aurait donc pas derreurs de saisie de linformation ou de conversion en une
mise en forme traitable par ordinateur.
videmment, le monde nest pas parfait et mme lenqute la plus simple pose des problmes. Sils ne
sont pas prvus et contrls, ces problmes peuvent intgrer de telles erreurs, que les rsultats de
lenqute seront inutiles. Il faut donc faire tous les efforts possibles au cours des phases de planification,
de conception et dlaboration de lenqute pour prvoir les erreurs denqute et appliquer les mesures
ncessaires pour les viter. Au cours de la phase de mise en uvre, il faudrait utiliser des techniques de
contrle qualitatif pour cerner et minimiser les rpercussions des erreurs denqute. On peut consulter
cette fin lAnnexe B - Contrle qualitatif et assurance de la qualit.
Diverses sources expliquent les erreurs denqute. Elles peuvent tre classes en deux principales
catgories : erreur dchantillonnage et erreur non due lchantillonnage.
3.4.1 Erreur dchantillonnage
Lerreur dchantillonnage a dj t dfinie. Elle est le rsultat de lestimation dune caractristique de la
population en mesurant une partie au lieu de toute la population. tant donn que toute enqute-
chantillon peut comprendre une erreur dchantillonnage, lorganisme statistique doit donner une
certaine indication de la porte de lerreur aux utilisateurs ventuels des donnes de lenqute. Des
mthodes de calcul de lerreur dchantillonnage sappliquent lenqute-chantillon probabiliste. Ces
mthodes dcoulent directement du plan dchantillonnage et de la mthode destimation de lenqute.
La mesure applique le plus souvent pour quantifier lerreur dchantillonnage est la variance
dchantillonnage. La variance dchantillonnage dtermine quel point lestimation dune
caractristique de divers chantillons possibles de mme taille et de mme conception est diffrente
lune de lautre. Dans le cas des plans dchantillonnage qui utilisent lchantillonnage probabiliste,
lampleur de la variance dchantillonnage dune estimation peut tre dtermine en tenant compte des
diffrences de la caractristique observes entre les units de lchantillon (c.--d. compte tenu des
diffrences observes dans lchantillon obtenu). La variance dchantillonnage estime est donc fonction
de lchantillon slectionn et varie dun chantillon lautre. Le point principal est lampleur de la
variance dchantillonnage estime dune estimation relativement la taille de lestimation de lenqute :
si la variance est relativement grande, la prcision de lestimation est donc mdiocre et nest pas fiable.
Les lments qui ont des rpercussions sur lampleur de la variance dchantillonnage comprennent :
i. La variabilit de la caractristique dintrt dans la population
Plus la caractristique dans la population est variable, plus la variance dchantillonnage est grande.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
34
ii. La taille de la population
En gnral, la taille de la population a des rpercussions sur la variance dchantillonnage seulement pour
les populations de petite taille ou de taille moyenne.
iii. Le plan dchantillonnage et les mthodes destimation
Certains plans dchantillonnage sont plus efficients que dautres parce que, pour la mme taille
dchantillon et la mme mthode destimation, un plan peut donner une variance dchantillonnage
moindre que lautre.
iv. Le taux de rponse
La variance dchantillonnage augmente dans la mesure o la taille de lchantillon diminue. tant donn
que les non-rpondants diminuent en fait la taille de lchantillon, les non-rponses augmentent la
variance dchantillonnage. Les non-rponses peuvent aussi biaiser les rsultats (voir 3.4.2.3).
Les dtails sur les plans dchantillonnage et lchantillonnage probabiliste sont couverts au Chapitre 6 -
Plans dchantillonnage. La mthode destimation de la variance dchantillonnage, le biais et lerreur
quadratique moyenne sont tudis au Chapitre 7 - Estimation, au Chapitre 8 - Calcul de la taille de
lchantillon et rpartition et au Chapitre 11 - Analyse des donnes de lenqute.
3.4.2 Erreurs non dues lchantillonnage
Outre lerreur dchantillonnage, un large ventail derreurs qui ne sont pas lies au processus
dchantillonnage peuvent tre repres dans une enqute. Ces erreurs sont habituellement intitules
erreurs non dues lchantillonnage. Les erreurs non dues lchantillonnage peuvent tre dfinies
comme des erreurs possibles pendant peu prs toutes les activits denqute, mis part
lchantillonnage. Ces erreurs se retrouvent dans lenqute-chantillon et le recensement (contrairement
lerreur dchantillonnage qui est prsente seulement dans lenqute-chantillon). Les erreurs non dues
lchantillonnage peuvent tre rparties en deux groupes :
i. Erreurs alatoires
Les erreurs alatoires ont des rpercussions qui sliminent approximativement si lchantillon est
suffisamment grand, le rsultat tant une variabilit accrue.
ii. Erreurs systmatiques
Les erreurs systmatiques ont tendance avoir la mme orientation, elles saccumulent donc dans tout
lchantillon et les rsultats finaux sont biaiss. Contrairement la variance dchantillonnage et aux
erreurs alatoires, ce biais ne diminue pas malgr laugmentation de la taille de lchantillon. Les erreurs
systmatiques sont la principale cause de proccupation au chapitre de la qualit des donnes de
lenqute. Malheureusement, les erreurs non dues lchantillonnage sont souvent trs difficiles et parfois
mme impossibles mesurer.
Voici les principales sources derreurs non dues lchantillonnage :
- couverture,
- mesure,
- non-rponse,
INTRODUCTION AU PLAN DENQUTE
STATISTIQUE CANADA
35
- traitement.
3.4.2.1 Erreur de couverture
Les erreurs de couverture sont des omissions, des ajouts errons, des rptitions et des erreurs de
classification dunits dans la base de sondage. Elles ont des rpercussions sur chaque estimation de
lenqute et sont donc lun des plus importants types derreur. Elles peuvent mme tre la principale
source derreurs du recensement. Les erreurs de couverture peuvent susciter des estimations biaises et les
rpercussions peuvent varier pour diffrents sous-groupes de la population. Ces erreurs ont tendance
tre systmatiques et sont habituellement dues au sous-dnombrement. Voil pourquoi les organismes
statistiques essaient den diminuer lincidence le plus possible.
3.4.2.2 Erreur de mesure
Lerreur de mesure est la diffrence entre la rponse inscrite une question et la vraie valeur. Le
rpondant, lintervieweur, le questionnaire, la mthode de collecte des donnes et loutil de mesure
peuvent susciter ce genre derreur.
Lune des principales causes de lerreur de mesure est lincomprhension du rpondant ou de
lintervieweur. Voici des sources possibles dincomprhension :
- recours au jargon technique,
- manque de clart des concepts (c.--d. utilisation de concepts non standard),
- formulation mdiocre des questions,
- formation inapproprie de lintervieweur,
- communication de renseignements errons (c.--d. erreur de mmoire ou manque de sources
dinformation disponibles),
- problme de langue,
- traduction mdiocre (si lenqute est multilingue).
La mthode de collecte des donnes peut aussi avoir des rpercussions sur lerreur de mesure. Les
mthodes assistes par intervieweurs (recours des intervieweurs bien forms), par exemple, peuvent
donner des erreurs de mesure plus petites que les mthodes denqute par autodnombrement qui ne
donnent pas daide aux rpondants pour remplir le questionnaire.
Dans les enqutes avec mesure directe, les intervieweurs font la collecte des donnes par observation ou
en prenant les mesures (p. ex., enqutes sur les prix). Lerreur de mesure peut tre due lintervieweur ou
loutil de mesure. Lors dune enqute sur le poids des gens, par exemple, si la balance nest pas bien
calibre, les poids ne seront pas correctement dtermins.
Les erreurs de mesure parpilles alatoirement autour de la vraie valeur auront des rpercussions sur la
prcision des estimations de lenqute : la prcision diminue dans la mesure o augmente la variabilit. Si
les erreurs de mesure refltent systmatiquement certaines valeurs ou catgories , un biais se glissera et
les estimations de lenqute seront trompeuses. Il y a erreur systmatique, par exemple, si lintervieweur
doit mesurer la taille des enfants lcole et si les enfants portent des souliers pendant la mesure, auquel
cas, toutes les tailles sont systmatiquement surestimes.
Les expressions erreur de mesure et erreur de rponse sont souvent utilises sans distinction. Les
mthodes de collecte des donnes sont considres au Chapitre 4 - Mthodes de collecte des donnes.
Lerreur de rponse fait lobjet dun examen dtaill au Chapitre 5 - Conception du questionnaire.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
36
3.4.2.3 Erreur due la non-rponse

Il y a deux genres de non-rponse : la non-rponse partielle ( une ou quelques questions) et la non-
rponse totale. Il y a non-rponse partielle lorsque linformation est disponible pour certaines questions
seulement, notamment, parce que le rpondant rpond une partie seulement du questionnaire. Il y a
non-rponse totale en labsence de toutes les donnes ou presque dune unit dchantillonnage.

La non-rponse peut causer plusieurs problmes dans une enqute. Le principal problme est que les non-
rpondants ont souvent des caractristiques diffrentes de celles des rpondants, et les estimations de
lenqute seront biaises si les non-rponses ne sont pas corriges. Lors dune enqute sur
lalphabtisation, par exemple, les rsultats de lenqute peuvent tre biaiss si la majorit des non-
rpondants sont analphabtes. Si le taux de non-rponse est lev, le biais peut tre suffisamment marqu
pour que les rsultats de lenqute soient inutiles. La non-rponse totale pose un deuxime problme : elle
diminue la taille relle de lchantillon parce quil tait prvu que davantage dunits rpondraient
lenqute. La variance dchantillonnage augmente donc au dtriment de la prcision des estimations. Sil
est possible de prvoir le taux de rponse, la taille initiale de lchantillon devrait augmenter pour en tenir
compte. Laugmentation de la taille de lchantillon diminue la variance de lchantillonnage et permet
donc dapporter une correction pour les non-rponses qui sont rparties au hasard, mais elle ne diminue
pas le biais de la non-rponse systmatique.
Certaines raisons peuvent expliquer la non-rponse totale : il ny avait personne la maison, la personne
slectionne a refus ou tait incapable de participer lenqute. Une explication mdiocre de lobjectif
de lenqute ou de son utilisation prvue peut aussi susciter une non-rponse. Des donnes de base de
sondage mdiocres ou primes sont un autre lment : les donnes didentification de lunit de
lenqute peuvent tre inappropries et ne permettent pas de la situer. De plus, une unit en particulier est
parfois slectionne pour de nombreuses enqutes diffrentes ou pour une enqute ritre et, la longue,
lunit en vient refuser de rpondre aux enqutes cause du fardeau de rponse. Enfin, si les donnes du
rpondant sont considres inutilisables, elles peuvent tre traites comme une non-rponse.
Il peut y avoir non-rponse une question si le rpondant ne connat pas la rponse, refuse de rpondre,
oublie de rpondre ou adopte un cheminement erron pendant le questionnaire. Parfois, le rpondant ne
peut rpondre parce quil est malade ou parce quil prouve des difficults communiquer dans la langue
de lenqute. La conception mdiocre du questionnaire peut aussi favoriser la non-rponse certaines
questions. Les concepts prsents au rpondant dans le questionnaire ou pendant linterview peuvent tre
difficiles comprendre ou mal dfinis. Linterview peut se prolonger inutilement ou le dbit des questions
peut tre illogique. Les rpondants peuvent donc se dcourager et cesser de rpondre avant la fin de
linterview ou ils peuvent simplement suivre un cheminement erron dans le questionnaire.
Les intervieweurs peuvent aussi avoir une incidence sur la non-rponse totale ou partielle. Des techniques
dinterview mdiocres empchent certains intervieweurs dtablir une bonne relation avec le rpondant
qui peut donc refuser de participer ou, sil le fait, perdre rapidement tout intrt pour lenqute. Certains
intervieweurs indiquent des erreurs dues la non-rponse une question parce quils ne suivent pas les
instructions ou ne lisent pas les questions telles quelles sont formules.
Enfin, les mthodes de collecte des donnes peuvent tre une source de non-rponse. Les intervieweurs
font souvent le suivi dune non-rponse pour obtenir certaines rponses (p. ex., renverser un refus). Le
suivi inappropri des non-rpondants ou le suivi au mauvais moment peut empcher de corriger la non-
rponse. La perte des donnes dun fichier ou dun questionnaire peut aussi donner des erreurs dues la
non-rponse . (Les donnes perdues, mme si le nombre rel de cas est mince, sont une importante
source de proccupations cause de linfraction ventuelle la confidentialit des donnes du rpondant.)
INTRODUCTION AU PLAN DENQUTE
STATISTIQUE CANADA
37
Le Chapitre 5 - Conception du questionnaire rvlera les dtails de la conception du questionnaire. Le
traitement de la non-rponse totale est couvert au Chapitre 7 - Estimation alors que la non-rponse
partielle est traite au Chapitre 10 - Traitement. Les procdures sur le terrain sont prcises au
Chapitre 9 - Oprations de collecte des donnes.


3.4.2.4 Erreur de traitement

Le traitement transforme les rponses de lenqute obtenues pendant la collecte en une mise en forme
qui convient la totalisation et lanalyse des donnes. Il comprend toutes les activits de manutention
des donnes aprs la collecte et avant lestimation. Il sagit dun ensemble dactivits manuelles et
automatises qui demandent beaucoup de temps et de ressources, et ce volet est donc une source
ventuelle derreurs. Des erreurs de traitement peuvent se produire, par exemple, pendant le codage ou la
saisie des donnes, la vrification ou limputation. Elles peuvent tre alatoires comme toutes les autres
erreurs et accrotre ainsi la variance des estimations de lenqute, ou elles peuvent tre systmatiques et
ajouter un biais.

Le codage est le processus daffectation dune valeur numrique aux rponses pour faciliter la saisie
des donnes et le traitement en gnral. Le codage comprend lattribution dun code (p. ex., le code de
profession) une rponse donne ou la comparaison de la rponse avec un ensemble de codes et la
slection de celui qui dcrit le mieux la rponse.
Dans le cas des questions fermes (questions ayant des catgories de rponses prdtermines), les codes
sont souvent attribus avant linterview. Quant aux questions ouvertes (le rpondant rpond dans ses
propres mots), le codage peut tre manuel ou automatis. Lintgralit et la qualit de la rponse une
question ouverte, ainsi que la mthode de codage de la rponse, dterminent la qualit du codage. Le
codage manuel des questions ouvertes demande linterprtation et du jugement, et lerreur est donc
possible. Deux codeurs diffrents peuvent coder la mme rponse diffremment. Les codeurs de peu
dexprience et de formation mdiocre sont particulirement exposs aux erreurs de codage. Au cours
dune opration de codage automatis, un problme de programmation peut susciter des erreurs ou il est
possible que le programme ne tienne pas compte correctement de toute linformation disponible. Si le
codage est programm et excut automatiquement, un problme de programmation sera
systmatiquement rpt et introduira un biais (p. ex., erreur de classification de la profession).
La saisie des donnes est la mise en forme des rponses lisible la machine. Il y a erreur de saisie des
donnes si elles ne sont pas entres lordinateur exactement comme elles paraissent dans le
questionnaire. La complexit des donnes alphanumriques et le manque de clart des rponses fournies
peuvent expliquer ce problme. La prsentation physique du questionnaire ou les documents de codage
peuvent susciter des erreurs de saisie des donnes. La mthode de saisie des donnes peut aussi
occasionner des erreurs (la saisie des donnes peut tre une activit manuelle ou automatise, par
exemple, laide dun lecteur optique de caractres).
La vrification consiste inscrire des coches pour identifier des entres manquantes, errones ou
incohrentes qui rvlent lenregistrement de donnes ventuellement errones. Limputation est un
processus qui dtermine et attribue des valeurs de remplacement, afin de rsoudre les problmes de
donnes manquantes, errones ou incohrentes. Les erreurs de vrification et dimputation sont souvent
simultanes parce que les deux processus sont trs troitement lis.
La structure complexe ou la qualit mdiocre des donnes originales peut expliquer les erreurs de
vrification et dimputation. Lorsque les processus de vrification et dimputation sont automatiss, les
dfaillances des programmes insuffisamment mis lessai peuvent aussi expliquer les erreurs. Le choix
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
38
dune mthode dimputation inapproprie peut susciter des biais. La modification inexacte des donnes
considres errones ou la modification errone de donnes exactes peuvent aussi expliquer les erreurs.
Les activits de traitement sont expliques en dtail au Chapitre 10 - Traitement. Les erreurs de
traitement sont souvent surveilles et contrles laide de techniques de contrle qualitatif.
LAnnexe B - Contrle qualitatif et assurance de la qualit donne davantage de dtails.


3.5 Sommaire

Ce chapitre a prsent certains points importants considrer lors de la planification de lenqute. La
distinction entre une enqute et un recensement a t explique, ainsi que les avantages et les
inconvnients de chacun. La diffrence entre la population cible et la population de lenqute a ensuite t
prcise. Une section sur les bases de sondage a expos les divers types de bases qui peuvent tre utilises
dans une enqute, les qualits dune bonne base, ainsi que les dfauts souvent manifestes et des moyens
de les liminer. Enfin, les diffrents types et les sources diverses derreurs dans une enqute ont t
considrs. Lerreur dchantillonnage a t brivement dfinie (la question sera approfondie dans les
chapitres ultrieurs) et laccent a t mis sur les erreurs non dues lchantillonnage : erreurs de
couverture, de mesure ou de traitement et erreur due la non-rponse.

Comment planifier et grer une enqute en gnral, quelles sont les tapes de la planification de
lenqute? Cest le sujet du Chapitre 13 - Planification et gestion de lenqute. Quelle est la conception
qui permettra de dterminer comment slectionner lchantillon de la population cible? Le Chapitre 6 -
Plans dchantillonnage rpond cette question.


Bibliographie

Bankier, M. 1986. Estimators Based on Several Stratified Samples with Applications to Multiple Frame
Surveys. Journal of the American Statistical Association. 81-396.
Biemer, P.P., Groves, R.M., Lyberg, L.E., Mathiowetz, N.A. et S. Sudman, ds. 1991. Measurement
Errors in Surveys. John Wiley and Sons, New York.
Cialdini, R., M. Couper et R.M. Groves. 1992. Understanding the Decision to Participate in a Survey.
Public Opinion Quarterly. 56: 475-495.
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge, P.S. Kott, ds. 1995. Business
Survey Methods. John Wiley and Sons, New York.

Food and Agriculture Organization of the United Nations (FAO). 1996. Multiple Frame Agriculture
Surveys. Volume 1: Current Surveys Based on Area and List Sampling Methods. FAO, Rome.
Fuller, W. 1987. Measurement Error Models. John Wiley and Sons, New York.
Gosselin, J.-F., B.N. Chinnappa, P.D. Ghangurde et J. Tourigny. 1978. Coverage. A Compendium of
Methods of Error Evaluation in Censuses and Surveys. Statistics Canada. 13-546E: 7-9.
Groves, R.M. 1989. Survey Errors and Survey Costs. John Wiley and Sons, New York.
INTRODUCTION AU PLAN DENQUTE
STATISTIQUE CANADA
39
Hartley, H.O. 1962. Multiple Frame Surveys. Proceedings of the Social Statistics Section. American
Statistical Association. 203-206.
Laniel, N. et H. Finlay. 1991. Data Quality Concerns with Sub-Annual Business Survey Frames.
Proceedings of the Section on Survey Research Methods. American Statistical Association. 202-
207.
Lessler, J.T. et W.D. Kalsbeek. 1992. Nonsampling Errors in Surveys. John Wiley and Sons, New York.
Linacre, S.J. et D.J. Trewin. 1989. Evaluation of Errors and Appropriate Resource Allocation in
Economic Collections. Proceedings of the Annual Research Conference. U.S. Bureau of the
Census. 197-209.
Lyberg, L., P. Biemer, M. Collins, E. de Leeuw, C. Dippo, N. Schwarz et D. Trewin, ds. 1997. Survey
Measurement and Process Quality. John Wiley and Sons, New York.
Statistique Canada. 1998. Statistique Canada - Lignes directrices concernant la qualit. Troisime
dition. 12-539-XIF.
Swain, L., J.D. Drew, B. Lafrance et K. Lance. 1992. La Cration dun registre des adresses rsidentielles
pour amliorer la couverture du recensement du Canada de 1991. Techniques denqute. 18(1):
139-156.
Swain, L. et D. Dolson. 1997. Current Issues in Household Survey Nonresponse at Statistics Canada.
Statistics in Transition. 3: 439-468.
www. statcan. gc. ca
P U B L I C AT I O N S L E CTRONI QUE S
D I S P O N I B L E S

STATISTIQUE CANADA
41
Chapitre 4 - Mthodes de collecte des donnes

4.0 Introduction

La collecte des donnes est le processus qui permet dobtenir linformation ncessaire pour chaque
unit slectionne de lenqute. Pendant la collecte des donnes, les intervenants de lenqute
dterminent o sont les membres de la population, cest--dire des particuliers ou des organismes, ils
communiquent avec eux et leur demandent de participer lenqute. Un questionnaire est ensuite
administr et les rponses sont enregistres. Ce processus cote cher, demande beaucoup de temps et
normment de ressources, et il a des rpercussions directes sur la qualit des donnes. tant le principal
moyen de communication du grand public avec lorganisme statistique, il contribue limage de marque
de lorganisme et a de grandes rpercussions sur la pertinence de lorganisme et la qualit de ses donnes.
Au cours de la phase de planification de lenqute, il faut prendre de nombreuses dcisions sur la mthode
de collecte des donnes. Un intervieweur devrait-il administrer le questionnaire? Si oui, faut-il faire une
interview tlphonique ou sur place? Faut-il appliquer une combinaison de mthodes, les rpondants
devraient-ils remplir le questionnaire eux-mmes et faut-il faire le suivi auprs des non-rpondants au
cours dune interview tlphonique? Le questionnaire devrait-il tre sur support papier ou lectronique?
Faut-il utiliser des donnes administratives pour obtenir certaines donnes de lenqute? La collecte des
donnes pour plusieurs enqutes devrait-elle tre combine?
La mthode de collecte des donnes choisie devrait donner un taux de participation lev et les donnes
obtenues devraient tre les plus compltes et prcises possibles, mais la mthode devrait aussi minimiser
le fardeau pour les rpondants et tenir compte du budget et des limites oprationnelles du client.
Lobjectif de ce chapitre est de prsenter les diverses mthodes de collecte des donnes, y compris
lenqute par autodnombrement, les mthodes assistes par intervieweur ou ordinateur et le recours aux
donnes administratives, ainsi que les critres qui aident dterminer quelle mthode est la plus
approprie. Les oprations de collecte des donnes en gnral (laccent est mis sur les mthodes assistes
par intervieweur), par exemple, comment reprer les units de lchantillonnage, susciter la collaboration
et saisir les rponses sont exposes au Chapitre 9 - Oprations de collecte des donnes.
4.1 Mthodes lmentaires de collecte des donnes
Voici les mthodes lmentaires de collecte des donnes :
i. Autodnombrement
Le rpondant remplit le questionnaire denqute par autodnombrement sans laide dun intervieweur.
Divers moyens peuvent servir envoyer le questionnaire au rpondant et le retourner lexpditeur : le
service postal, le tlcopieur, un moyen lectronique (y compris Internet) ou un enquteur. (Si le
questionnaire est retourn par tlcopieur ou sur support lectronique, une ligne scuritaire ou le chiffrage
est alors ncessaire pour garantir la confidentialit des donnes du rpondant). La mthode sur support
papier est intitule interview papier et crayon (IPC) et la mthode sur support lectronique est intitule
auto-interview assiste par ordinateur (AIAO).
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
42
ii. Questionnaire assist par intervieweur (interviews tlphoniques ou sur place)
a. Interviews sur place
Un intervieweur aide le rpondant remplir le questionnaire. Linterview se droule sur place,
habituellement la rsidence du rpondant ou en milieu de travail, mme si elle peut avoir lieu dans un
endroit public (p. ex., aroport, centre commercial). La mthode sur support papier est intitule interview
papier et crayon (IPC) et la mthode assiste par ordinateur est intitule interview sur place assiste par
ordinateur (IPAO).
b. Interviews tlphoniques
Un intervieweur aide le rpondant remplir le questionnaire au tlphone. La mthode sur support papier
est intitule interview papier et crayon (IPC) et la mthode assiste par ordinateur est intitule interview
tlphonique assiste par ordinateur (ITAO).
Ce chapitre commence par un expos des mthodes lmentaires de collecte des donnes, et surtout de la
collecte sur support papier (mme si de nombreux commentaires ciblent aussi les mthodes assistes par
ordinateur). Les avantages et les inconvnients de la collecte assiste par ordinateur sont expliqus la
Section 4.2. Dautres mthodes de collecte des donnes, notamment lutilisation de donnes
administratives, sont dfinies la Section 4.3. Le tableau la fin du chapitre prsente une comparaison
des mthodes de collecte des donnes.
4.1.1 Autodnombrement
Les mthodes denqute par autodnombrement exigent un questionnaire trs bien structur, facile
suivre et donnant des instructions claires au rpondant. Il peut y avoir un numro de tlphone pour
obtenir de laide, afin de remplir le questionnaire. Celui-ci a habituellement une prsentation visuelle plus
labore quun questionnaire assist par intervieweur et ce, pour susciter la participation du rpondant.
(Le Chapitre 5 - Conception du questionnaire donne davantage de dtails sur la mthode de conception
du questionnaire.)
Comparativement la gestion des interviews, ladministration de lenqute par autodnombrement est
relativement facile. Elle cote aussi habituellement moins cher que les mthodes assistes par
intervieweur et des chantillons de plus grande taille peuvent tre slectionns. Cette mthode est utile
pour les enqutes qui exigent de linformation dtaille parce que le rpondant peut consulter des dossiers
personnels. Voil qui peut diminuer les erreurs de rponse parce que le rpondant na pas faire appel
uniquement la mmoire. Lune des applications de lautodnombrement comprend le journal ou le
carnet de notes. Au cours dune enqute par journal, le rpondant prend des notes pendant la priode de
rfrence de lenqute, par exemple, un journal dauditeur pour les enqutes sur la radio et la tlvision
pendant une semaine en particulier, ou un carnet de notes sur les achats dessence pour une enqute sur la
consommation dessence des vhicules. Lautodnombrement est aussi utile pour les questions caractre
dlicat parce que le questionnaire peut tre rempli en priv, sans intervieweur.
Lun des inconvnients de lenqute par autodnombrement est que les rpondants doivent avoir des
connaissances ou une bonne scolarit, ou le sujet denqute doit tre trs simple. Autre inconvnient : les
taux de rponse sont habituellement plus faibles que ceux des mthodes assistes par intervieweur parce
quil ny a pas de pression exerce pour que le rpondant rponde entirement au questionnaire. Le taux
de rponse aux enqutes par autodnombrement Statistique Canada est habituellement infrieur 70 %.
(Le Recensement de la population est une exception, le taux de retour par la poste tant de 85 %, cause
MTHODES DE COLLECTE DES DONNES

STATISTIQUE CANADA
43
dune vaste campagne de publicit et du caractre obligatoire de lenqute.) On a souvent recours de
nombreux suivis, pour demander aux rpondants de remplir entirement le questionnaire, ou des
intervieweurs au tlphone pour obtenir un bon taux de rponse (voir la Section 4.3.4). De plus, mme si
le questionnaire peut contenir beaucoup de matriel de rfrence sur les concepts de lenqute et des
guides pour aider remplir le questionnaire, le rsultat nest habituellement pas aussi bon quen prsence
dun intervieweur parce que de nombreux rpondants ne lisent pas les instructions. La qualit peut donc
tre mdiocre, comparativement aux mthodes assistes par intervieweur, parce que le rpondant peut
manquer les instructions passez , mal interprter linformation, etc. Voil pourquoi lenqute par
autodnombrement exige le suivi aprs la collecte pour corriger les erreurs.
Il y a plusieurs moyens de livrer et de reprendre les questionnaires denqute par autodnombrement. Il
faut examiner de prs le choix du moyen de livraison et de ramassage des questionnaires, considrer
attentivement la qualit des donnes, les cots de la collecte, la dure de la priode de collecte, les taux de
rponse, etc., avant de choisir la combinaison qui convient le mieux. La base de sondage utilise et
linformation de la collecte disponible dans la base auront des rpercussions sur ce choix : pour envoyer
les questionnaires par la poste, il faut avoir le nom et ladresse postale, et le systme postal doit tre
fiable. La base de sondage doit contenir les numros de tlcopieur des rpondants pour utiliser ce moyen.
Voici les moyens les plus habituels de livraison et de retour des questionnaires :
- livraison ramassage du questionnaire sur support papier en personne,
- envoi par la poste ramassage du questionnaire sur support papier en personne,
- livraison en personne retour du questionnaire sur support papier par la poste,
- envoi retour du questionnaire sur support papier par la poste.
Lorsquun questionnaire sur support papier est livr et retourn par la poste, lenqute par
autodnombrement demande une longue priode de collecte parce que cest la mthode la plus lente de
collecte des donnes. Au Canada, cest aussi la mthode la moins onreuse.
4.1.2 Mthodes assistes par intervieweur
Le principal avantage des mthodes assistes par intervieweur est que linterview est personnalise, les
questions et les concepts de lenqute peuvent tre interprts, et lintervieweur peut augmenter le taux de
rponse et la qualit des donnes dans lensemble. Les mthodes assistes par intervieweur sont
particulirement utiles pour les populations denqute dont les taux dalphabtisation sont modestes,
lorsque le questionnaire ou les concepts sont complexes, ou chaque fois que lenqute par
autodnombrement serait difficile.
Lintervieweur peut augmenter le taux de rponse en suscitant lintrt pour lenqute et il peut rpondre
aux questions du rpondant sur la confidentialit des donnes, lobjectif de lenqute, ce qui lui est
demand pendant linterview, la longueur de linterview, lutilisation des rsultats de lenqute, etc.
Certains rpondants peuvent avoir limpression, par exemple, que linformation quils donnent pourra tre
utilise leur dtriment, ils peuvent soutenir que la matire du sujet a un caractre dlicat ou ils peuvent
craindre de ne pas avoir la bonne rponse. Lintervieweur peut garantir au rpondant que les donnes
seront en scurit et que lorganisme statistique respectera toutes les procdures de scurit pour
maintenir la confidentialit.
La qualit des donnes dans lensemble peut tre amliore parce que lintervieweur peut obtenir une
formation approfondie sur les concepts et les dfinitions de lenqute et aider le rpondant en cas de
problme dinterprtation du questionnaire. Lenquteur peut empcher les erreurs de rponse et la non-
rponse partielle en reprant immdiatement les erreurs et en les corrigeant en prsence du rpondant.
Cette intervention diminue aussi le nombre de suivis qui peut demander beaucoup de temps lorganisme
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
44
qui fait enqute et reprsenter un fardeau pour le rpondant. Enfin, lintervieweur peut amliorer la
qualit des donnes en vrifiant sil y a eu communication avec lunit dchantillonnage choisie et si
cest bien elle qui est interviewe.
Autre avantage de linterview : elle permet des priodes de collecte plus souples. Si la collecte des
donnes est trop lente et sil faut acclrer le processus, dautres intervieweurs peuvent tre engags.
Cette solution ne sapplique pas aux mthodes denqute par autodnombrement parce quil est
pratiquement impossible de dterminer quand le rpondant remplit et retourne le questionnaire.
Voici les deux principaux inconvnients des mthodes assistes par intervieweur : elles peuvent coter
cher et la gestion peut tre difficile. Certaines dpenses comprennent la rmunration de lintervieweur, sa
formation, les frais de transport et dhbergement (pour les interviews sur place) ou la superficie de
bureau et les tlphones pour les interviews tlphoniques centralises. Autres inconvnients des
mthodes assistes par intervieweur : la formation mdiocre de lintervieweur peut occasionner des
erreurs de rponse et, dans le cas des sujets caractre dlicat, le rpondant peut hsiter rpondre aux
questions (mme si linterview tlphonique permet un certain anonymat). Si un intervieweur bien form
nest pas disponible et quun biais li un intervieweur devient un problme srieux, lenqute par
autodnombrement peut tre prfrable.
Les erreurs de rponse ont t tudies au Chapitre 3 - Introduction au plan denqute; le sujet est
repris au Chapitre 5 - Conception du questionnaire. Les sections suivantes exposent les avantages et les
inconvnients des interviews tlphoniques et sur place.
4.1.2.1 Interviews sur place
Linterview sur place se droule en prsence du rpondant. Celle-ci est habituellement faite la rsidence
de la personne ou en milieu de travail. Cest la seule mthode raliste de collecte des donnes pour
certaines populations cibles, par exemple, lorsque linterview tlphonique est impossible ou que
lenqute exige une visite pour chantillonner ou reprer des membres de la population (p. ex., pour
achever le listage dune base arolaire).
Les interviews sur place donnent souvent les taux de rponse les plus levs (habituellement, de 80 %
95 % pour Statistique Canada), mais cest la mthode de collecte la plus onreuse dhabitude, compte
tenu des frais de transport et dhbergement des intervieweurs. Cette mthode de collecte peut donc
inciter slectionner des chantillons de plus petite taille que celle des interviews tlphoniques ou
denqute par autodnombrement. Linterview sur place pose un autre problme : il peut tre difficile de
rencontrer la personne la maison ou au travail et lintervieweur devra peut-tre visiter la rsidence ou le
lieu de travail plusieurs fois avant de russir communiquer avec le rpondant. Celui-ci est parfois
prsent, mais lheure ne convient pas, et lintervieweur doit convenir dune nouvelle rencontre pour
linterview.
Voici dautres avantages de linterview sur place :
- lintervieweur peut faire des observations directes (qui sont impossibles pendant linterview
tlphonique),
- lintervieweur russit gnralement mieux convaincre une personne qui refuse de rpondre,
- lintervieweur peut inspirer confiance en montrant au rpondant ses pices didentit officielles.
Voici dautres inconvnients de linterview sur place :
- il est parfois difficile de retenir les services dun intervieweur raisonnablement qualifi dans tous les
domaines enquts,
MTHODES DE COLLECTE DES DONNES

STATISTIQUE CANADA
45
- il est difficile de confier des charges de travail des intervieweurs moins dbords,
- il est difficile dappliquer un programme de contrle qualitatif au processus de linterview.
4.1.2.2 Interviews tlphoniques
Linterview tlphonique offre un taux de rponse raisonnable un cot raisonnable. Ce genre
dinterviews donne des taux de rponse de moyens levs au Canada, infrieurs ceux de linterview
sur place, mais suprieurs ceux de lenqute par autodnombrement (le taux de rponse habituel est de
70 % 85 % Statistique Canada). Certaines enqutes par autodnombrement comprennent linterview
tlphonique de suivi pour obtenir un meilleur taux de rponse. Linterview tlphonique cote
habituellement moins cher que linterview sur place parce quil ny a pas de frais de dplacement de
lintervieweur et la collecte est habituellement plus rapide que celle de linterview sur place ou de
lenqute par autodnombrement. Linterview tlphonique permet aussi de poser des questions
caractre dlicat, mais cette mthode nest pas aussi anonyme que celle de lenqute par
autodnombrement. Cette mthode de collecte est plus scuritaire que linterview sur place parce que
lintervieweur na pas besoin daller dans des endroits dangereux ou isols. Si le rpondant est absent ou
sil veut reporter linterview, la communication avec celui-ci demande aussi moins de temps que dans le
cas de linterview sur place. Enfin, le contrle qualitatif du processus de linterview peut tre appliqu
facilement parce que la surveillance de linterview tlphonique est moins difficile.
Lenqute tlphonique a un inconvnient : la longueur de linterview et la complexit du questionnaire
sont limites parce que le rpondant a moins de patience pendant une longue interview complexe au
tlphone. Il est mieux dispos pendant une interview sur place. Comme un intervieweur administre le
questionnaire, celui-ci peut donc tre plus complexe que celui de lenqute par autodnombrement. Les
observations directes sont impossibles au tlphone, et cest un autre inconvnient.
Voici dautres inconvnients de linterview tlphonique :
- il peut tre difficile dtablir une base de sondage avec une bonne couverture des numros de
tlphone,
- lchantillonnage des numros de tlphone est souvent inefficiente (c.--d. quil est possible de
tlphoner de nombreuses units hors du champ de lenqute),
- la confidentialit peut tre un problme si une autre personne peut entendre les rponses du rpondant
(p. ex., lignes tlphoniques partages),
- linterview tlphonique est moins personnelle que linterview sur place et il peut tre plus difficile
de convaincre les gens de limportance de lenqute,
- linterview tlphonique peut coter cher en interurbains.
Lchantillonnage des numros de tlphone, y compris la composition alatoire, est approfondi au
Chapitre 6 - Plans dchantillonnage.
4.1.2.2.1 chantillonnage des interviews par tlphone
Le processus de linterview tlphonique comprend souvent le processus de slection de lchantillon :
lintervieweur slectionne souvent lchantillon la premire tape de linterview. Nous dcrirons
maintenant des questions pertinentes lchantillonnage des interviews au tlphone qui peuvent
dterminer si linterview tlphonique est la mthode de collecte des donnes approprie pour une
enqute en particulier.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
46
Lchantillonnage des interviews par tlphone et linterview tlphonique sont souvent choisis pour les
enqutes auprs des mnages comme compromis pratique entre les chantillons de base arolaire avec
interviews sur place plus onreuses, mais de qualit suprieure, et les enqutes par questionnaire
dautodnombrement envoi-retour par la poste moins onreuses, mais de qualit infrieure. Le recours
lchantillonnage des interviews par tlphone et linterview tlphonique permet dviter les cots
levs de mise jour des bases arolaires et du temps de dplacement pour les interviews sur place, tout
en obtenant des taux de rponse raisonnablement levs. Il est important que la population dont on tire
lchantillon soit reprsentative de la population cible, au moins du point de vue des caractristiques
dintrt pour lenqute, comme cest toujours le cas pour toute mthode dchantillonnage. Lenqute
tlphonique peut poser un problme en ce sens si un pourcentage important de la population cible na
pas le tlphone ou sil y a des carts importants entre les sous-populations. (Certains biais ventuels
cause des carts des taux de service tlphonique peuvent tre diminus de la mme faon que les taux
diffrentiels de non-rponse peuvent tre pris en compte.)
Un exemple de biais que peut susciter lutilisation dune base de sondage non reprsentative est le cas
maintenant classique de lenqute dopinion du Literary Digest effectue pendant les lections
prsidentielles de 1936 aux .-U. Le sondage soutenait que le candidat rpublicain Alf Landon
lemporterait sur le prsident Roosevelt :
Landon 55 %,
Roosevelt 41 %.
Les rsultats ont cependant t trs diffrents :
Landon 37 %,
Roosevelt 61 %.
La base utilise pour cette enqute-chantillon par envoi et retour par la poste tait axe surtout sur les
adresses trouves dans les rpertoires tlphoniques et les listes denregistrement des automobiles. Les
Amricains propritaires dautomobiles et de tlphones en 1936 taient gnralement bien nantis et
votaient pour le Parti rpublicain. Un pourcentage important de llectorat navait cependant ni tlphone
ni automobile et ces citoyens avaient tendance voter pour le Parti dmocratique. (Au Canada, aux tats-
Unis et dans de nombreux pays dEurope de nos jours, peu prs tous les mnages ont le service
tlphonique, et la possibilit dobtenir des rsultats biaiss pour de nombreuses estimations des enqutes
auprs des interviews par tlphone est beaucoup moindre que ce nest le cas dans cet exemple de 1936.)
Le choix de la base de sondage est une importante question lors de la slection dun chantillon des
interviews par tlphone. La base de sondage de lenqute par tlphone serait complte si elle
comprenait tous les numros de tlphone utiliss et, pour quelle soit efficiente, elle devrait contenir le
moins possible de numros non utiliss. Lamlioration de lexhaustivit dune base de sondage
denqute par tlphone en rduit gnralement lefficience. Il est important dessayer dobtenir autant
lefficience que lexhaustivit. Le recours aux annuaires tlphoniques (en direct ou sur support papier)
comme base de slection dchantillons dinterviews par tlphone peut tre trs efficient, mais le
manque dexhaustivit augmente le risque de rsultats biaiss. Les numros de tlphone non publis ne
sont pas dans ces annuaires et cest vident, les annuaires sont toujours prims depuis plusieurs mois, ou
mme plusieurs annes, et les gens qui ont de nouveaux numros ny sont pas inscrits non plus. Des
techniques de composition alatoire (CA) sont habituellement appliques pour amliorer lexhaustivit de
la couverture dun chantillon dinterviews par tlphone. Voici un exemple de ce qui peut tre fait au
Canada pour obtenir lefficience et lexhaustivit.
MTHODES DE COLLECTE DES DONNES

STATISTIQUE CANADA
47
La composition des numros de tlphone varie dun pays lautre, mais au Canada, le modle nord-
amricain est utilis, c.--d. le numro de tlphone dix chiffres : un indicatif rgional trois chiffres,
suivi dun prfixe trois chiffres auxquels sajoutent quatre chiffres supplmentaires. Il y a actuellement
21 indicatifs rgionaux utiliss au Canada, et une seule base de sondage consisterait en lannexion de
10 millions de numros sept chiffres possibles pour chacun des 21 indicatifs rgionaux, le rsultat
donnant 210 millions de numros de tlphone dans la base de sondage. Celle-ci serait absolument
complte (jusqu ce quun nouvel indicatif rgional soit ajout), mais, au Canada actuellement, environ
13 millions de numros de tlphone seulement sont attribus aux mnages, cest--dire que 94 % des
numros slectionns au hasard dans cette base de sondage ne permettraient pas de communiquer avec les
mnages. Il serait donc peu efficient dutiliser la base. Il est cependant possible de lamliorer. Il est
possible dacheter une liste de toutes les combinaisons dindicatifs rgionaux et de prfixes utiliss en
Amrique du Nord. Il y en a actuellement 8 600 au Canada, partir desquelles une base peut tre tablie
en annexant chacun les 10 000 numros quatre chiffres possibles pour obtenir une base de 86 millions
de numros dont 85 % seulement ne permettraient pas de communiquer avec les mnages. La mthode
Mitofsky-Waksberg peut tre applique pour amliorer davantage lefficience oprationnelle de cette base
de sondage au risque de compliquer les procdures de terrain et de diminuer ventuellement lefficience
statistique en ayant recours aux grappes. Statistique Canada amliore davantage la base dchantillonnage
des interviews par tlphone laide des donnes administratives.
Une banque de centaine comprend les 100 numros de tlphone dont lindicatif rgional, le prfixe et les
deux numros suivants sont identiques. laide des listes administratives de numros de tlphone
publis, il est possible didentifier toutes les banques de centaine qui contiennent au moins un numro de
tlphone de mnage publi. Il y a environ 260 000 de ces banques actives qui donnent une base de
sondage contenant 26 millions de numros de tlphone dont environ la moiti seulement ne permettent
pas de communiquer avec les mnages. Les deux premires bases de sondage sont compltes un
moment donn (et elles le sont jusqu ce que de nouveaux indicatifs rgionaux ou de nouvelles
combinaisons dindicatifs rgionaux et de prfixes soient activs), mais la base de sondage fonde sur les
banques de centaine actives peut tre incomplte. Si une banque de centaine ne contient pas de numros
de mnage publis, mais si elle contient certains numros de mnage non publis, cette caractristique ne
paratra pas dans la base comme elle le devrait. Les socits de tlphone utilisent aussi de nouvelles
banques de centaine beaucoup plus souvent que des indicateurs rgionaux et des prfixes nouveaux, et les
nouveaux indicatifs rgionaux et prfixes sont publis avant dtre activs. Cette dernire mthode de CA
est intitule troncation des banques sans numros lists ou limination des banques inutiles.
Mme si les banques inutiles sont limines pour amliorer lefficience, environ la moiti des numros de
tlphone dun chantillon obtenu par CA pour une enqute auprs des mnages au Canada seront des
numros hors du champ de lenqute. Avant de faire une interview au tlphone, lintervieweur doit donc
confirmer que le numro est dans le champ de lenqute. Dans le cas des enqutes par CA au Canada,
lintervieweur passe de quatre six minutes de son temps sur des numros hors du champ de lenqute
pour chaque interview acheve. Ces minutes peuvent reprsenter un pourcentage important du temps total
que lintervieweur passe chaque interview si le questionnaire est bref. Cest nanmoins relativement
peu, comparativement au temps de dplacement ncessaire pour les interviews sur place.
Le plan dchantillonnage par composition alatoire est moins souple que les plans de base arolaire du
point de vue de la stratification. (La stratification rpartit la population de lenqute en sous-populations,
par exemple, en provinces. Trois principales raisons justifient la stratification : faire en sorte que la
stratgie dchantillonnage soit efficiente, garantir des tailles dchantillon appropries pour les sous-
populations particulires qui font lobjet de lanalyse et viter de tirer un chantillon erron .) Les
bases arolaires donnent une souplesse pour le choix de la strate gographique, mais pour les enqutes par
CA, la gographie de la stratification doit tre axe sur lindicatif rgional et le prfixe (ou des concepts
semblables pour les rseaux tlphoniques hors de lAmrique du Nord). Des secteurs gographiques
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
48
correspondent gnralement ces indicatifs et prfixes, mais ils ne correspondent peut-tre pas aux
limites municipales ou dautres limites dimportance pour lenqute. Lchantillonnage par CA permet
la slection dchantillons de mnages non constitus en grappe pour compenser et donne des chantillons
qui ont tendance tre plus efficients du point de vue statistique (effets de plan moindres ) que les
chantillons des bases arolaires.
Dillman (1978), Groves et coll. (1979), Groves et coll. (1988) et Lavrakis (1987) donnent davantage
dinformation sur lchantillonnage des mnages par tlphone. Les problmes de couverture de la base
de sondage ont t vus au Chapitre 3 - Introduction au plan denqute. Le Chapitre 6 - Plans
dchantillonnage expose des considrations dtailles sur les plans dchantillonnage. Le Chapitre 7 -
Estimation donne de linformation sur les corrections apporter pour les non-rponses.


4.1.3 Choix dune mthode denqute par autodnombrement ou assiste par intervieweur

Il faut considrer diverses questions pour slectionner une mthode de collecte des donnes :
- linformation pour la collecte disponible dans la base de sondage,
- les caractristiques de la population cible,
- le genre de questions poses,
- les ressources disponibles (p. ex., les intervieweurs),
- la facilit remplir le questionnaire,
- les considrations sur la vie prive,
- les exigences de qualit des donnes.
Linformation pour la collecte disponible dans la base de sondage est un lment important pour
dterminer la mthode de collecte des donnes la plus approprie. Si la base ne comprend pas les adresses
postales, les questionnaires denqute par autodnombrement ne peuvent tre envoys aux rpondants par
la poste. Si les numros de tlphone jour ne sont pas disponibles et si la composition alatoire est
considre inapproprie, les interviews ne peuvent donc tre faites par tlphone.
Les caractristiques de la population cible ont des rpercussions sur la mthode de collecte des donnes.
Si le taux dalphabtisation de la population est faible ou si les difficults de communication sont un
problme (p. ex., les immigrants), les mthodes assistes par intervieweur peuvent tre la seule option. La
rpartition gographique de la population et de lchantillon sont aussi importantes. Si la population et
lchantillon sont largement disperss au pays, les interviews sur place pourraient coter trop cher et tre
trop difficiles accomplir. (La rpartition de la population et le cot de la collecte des donnes sont des
lments qui aident dterminer la mthode dchantillonnage la plus approprie comme on lexplique au
Chapitre 6 - Plans dchantillonnage.)
Le genre de questions de lenqute a des rpercussions sur la collecte des donnes. Dans le cas de la
matire caractre dlicat, une mthode de collecte axe sur lanonymat, notamment les interviews
tlphoniques et denqute par autodnombrement, peut tre la plus approprie. Si des questions
complexes sont poses, un intervieweur peut tre ncessaire pour expliquer les questions et les concepts.
Si lintervieweur doit faire des observations ou prendre des mesures (p. ex., administration dun examen
dalphabtisation aux enfants) ou prsenter le matriel aux rpondants (p. ex., graphiques ou
diagrammes), linterview sur place peut alors tre ncessaire.
Les ressources disponibles ont des rpercussions profondes sur le choix de la mthode de collecte des
donnes, Ces ressources comprennent le budget, le personnel, le matriel et le temps disponibles.
Lapplication dune mthode assiste par intervieweur exige un budget suffisant pour lembauche, la
formation et les dplacements des intervieweurs. Lorganisme statistique doit aussi tre en mesure
MTHODES DE COLLECTE DES DONNES

STATISTIQUE CANADA
49
dobtenir le nombre dintervieweurs ncessaires. Si une mthode assiste par ordinateur est slectionne,
des programmeurs chevronns seront ncessaires, ainsi que le matriel informatique appropri.
Certaines mthodes de collecte des donnes sont plus faciles administrer que dautres. Les interviews
tlphoniques centralises (c.--d. que tous les intervieweurs sont installs au mme endroit pour
tlphoner), par exemple, sont plus faciles organiser que les interviews sur place et gographiquement
disperses. La priode limite de collecte des donnes est aussi importante : les mthodes par
autodnombrement sont habituellement plus lentes que les mthodes assistes par intervieweurs et les
mthodes manuelles sur support papier sont normalement plus lentes que celles assistes par ordinateur.
Il faudrait en bout de ligne considrer les exigences de qualit des donnes lors de la slection dune
mthode de collecte des donnes. Les intervieweurs bien forms aux concepts utiliss dans lenqute
peuvent rduire les erreurs de rponse et les non-rponses. Il faudrait considrer les exigences de
prcision : les chantillons plus nombreux donnent gnralement des estimations plus prcises (c.--d. des
estimations comprenant une erreur dchantillonnage de moindre importance), mais plus la mthode de
collecte des donnes cote cher, plus lchantillon la porte des moyens du client est rduit. Les
interviews sur place sont souvent la mthode la plus chre et les enqutes par autodnombrement, la
moins chre. La capacit de mesurer la qualit et dappliquer les procdures de contrle qualitatif peut
aussi tre importante. Il est plus facile de surveiller la qualit des interviews tlphoniques, par exemple,
que celle des interviews sur place.
Le tableau suivant affiche une comparaison entre les mthodes de collecte des donnes denqute par
autodnombrement, par interview sur place et par interview tlphonique, compte tenu du temps
ncessaire pour achever la collecte des donnes et dterminer les taux de rponse.
Tableau 1 : Mthodes de collecte des donnes denqute par autodnombrement et assiste par
intervieweur

Intervieweur Autodnombrement
Sur place Tlphonique
Cot Faible lev Raisonnable
Temps Plus long Moyen Moins long
Taux de rponse Faible lev Moyen - lev

Les dtails pour dterminer comment slectionner un plan dchantillonnage sont couverts au
Chapitre 6 - Plans dchantillonnage. Les lments qui dterminent la taille de lchantillon sont
tudis au Chapitre 8 - Calcul de la taille de lchantillon et rpartition.
4.2 Collecte des donnes assiste par ordinateur
Un lment important du plan denqute est de dterminer si la collecte comprend des mthodes assistes
par ordinateur ou une approche traditionnelle sur support papier, auquel cas les rponses sont inscrites
dans un questionnaire sur support papier. La mthode intitule interview papier et crayon (PAPI pour
paper and pencil interview
1
) est encore applique parfois, mais la collecte des donnes assiste par
ordinateur devient prdominante.

1
Dans ce manuel, on utilisera lacronyme anglais PAPI plutt que le franais IPC pour viter toute confusion avec
lIndice des prix la consommation.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
50
Si lenqute doit se drouler une seule fois, les mthodes sur support papier cotent souvent moins cher et
demandent moins de temps dlaboration que les mthodes assistes par ordinateur. La saisie des
donnes, c.--d. le transfert des rponses en une mise en forme interprtable par la machine, devient
cependant une opration distincte aprs la collecte. La saisie des donnes est une tape de lenqute
ncessaire parce que toutes les donnes denqute doivent en bout de ligne tre entres et sauvegardes
dans un ordinateur.
Voici dautres inconvnients de la collecte sur support papier :
- la collecte manuelle des donnes demande beaucoup de temps et la lecture optique du questionnaire
nest peut-tre pas une option,
- le questionnaire ne devrait pas comprendre des instructions passez ou des vrifications
compliques,
- limpression des questionnaires peut coter cher,
- lenvoi des questionnaires par la poste peut coter cher,
- les questionnaires remplis doivent tre rangs et protgs en toute scurit pour garantir la
confidentialit des donnes des rpondants.
Lavantage principal des mthodes assistes par ordinateur est la simultanit de la collecte et de la saisie
des donnes, le rsultat tant un processus de saisie et de collecte intgr, plus rapide et plus efficient.
Nimporte quelle mthode de collecte des donnes peut servir au droulement de linterview assiste par
ordinateur (IAO) :
- autodnombrement (auto-interview assiste par ordinateur, AIAO),
- tlphone (interview tlphonique assiste par ordinateur, ITAO),
- sur place (interview sur place assiste par ordinateur, IPAO).
LAIAO est une technologie relativement rcente et peu utilise. Le questionnaire, ainsi quun
programme de vrification pour reprer les entres manquantes, errones ou incohrentes, et des
caractristiques daide, sont envoys au rpondant en mise en forme lectronique. Le rpondant remplit le
questionnaire laide de son ordinateur. Cette mthode permet au rpondant qui a le matriel
informatique et le logiciel ncessaires de saisir et de vrifier directement les donnes laide de son
ordinateur pendant que le systme lincite passer dune question de lenqute lautre. Le questionnaire
sur disquette peut tre envoy par la poste ou par messager, ou le fichier lectronique peut tre achemin
par modem laide dune ligne protge.
Statistique Canada procde actuellement des projets pilotes de collecte des donnes en mise en forme
structure standard en toute scurit sur Internet. Le recours Internet a des avantages : les cots de
collecte et de saisie des donnes diminuent et la rapidit dexcution est la hausse. Internet un
inconvnient : le questionnaire doit tre compatible avec les diffrentes versions logicielles de la toile
(p. ex., Explorer, Netscape, Windows, UNIX, etc.). Autre inconvnient : le nombre dutilisateurs de
lInternet haute vitesse est relativement faible (mme si ce nombre pourrait augmenter rapidement au
cours des prochaines annes) et cette option est donc peu probable pour les enqutes auprs des mnages,
mais elle est plus raliste pour les enqutes auprs des entreprises.
LAIAO a un avantage en gnral : elle est souple et pratique pour le rpondant qui a le matriel
informatique et le logiciel, mais tous les rpondants nont pas le matriel informatique ncessaire, et cest
le principal inconvnient.
Pour lITAO et lIPAO, chaque intervieweur dispose dun ordinateur. Lintervieweur lit un scnario
affich lcran et entre les rponses directement dans lordinateur. LITAO et lIPAO deviennent
prdominantes au Canada mesure que la technologie informatique volue.
MTHODES DE COLLECTE DES DONNES

STATISTIQUE CANADA
51
LIAO a gnralement de nombreux avantages comparativement au PAPI, surtout cause de la collecte et
de la saisie simultanes des donnes. Il est plus facile de faire la surveillance et le contrle qualitatif des
donnes parce que la collecte, la vrification automatise et la saisie des donnes sont plus uniformes et
contrles que dans le cas des mthodes sur support papier. La vrification automatise signifie aussi que
les rejets la vrification peuvent tre rsolus immdiatement, ce qui diminue le fardeau de rponse et la
ncessit de suivi. Il est plus facile dappliquer le contrle qualitatif du processus dinterview et de
produire des rapports de gestion sur le statut des interviews (p. ex., taux de rponse, nombre dinterviews
acheves, nombre dinterviews en instance, dure de chaque interview, etc.). Le questionnaire peut tre
plus complexe du point de vue des instructions passez et des vrifications. Les rsultats sont souvent
plus rapides que dans le cas des enqutes sur support papier (en particulier les questionnaires envoys et
retourns par la poste).
La collecte assiste par ordinateur a un inconvnient : la personne qui remplit le questionnaire, le
rpondant ou lintervieweur, doit tre forme et bien connatre lapplication logicielle. (Sil connat bien
lapplication, lintervieweur peut cependant rserver plus de temps aux aptitudes interpersonnelles.) Les
enqutes assistes par ordinateur exigent aussi un travail de dveloppement approfondi et coteux de la
part des experts en programmation informatique (problme qui peut tre relativement amenuis sils
peuvent adapter lenqute lapplication informatique dune autre enqute). Le questionnaire doit tre
programm pour que chaque question soit affiche lcran de lordinateur selon la squence approprie.
Lapplication doit tre soigneusement mise lessai pour garantir que les crans sont affichs dans lordre
appropri et quils orientent lintervieweur ou le rpondant sur la voie prdtermine. Les vrifications,
laide en direct et les fonctions supplmentaires qui aident les intervieweurs ou les rpondants doivent
aussi tre programmes et mises lessai. Le cot du matriel est aussi un autre inconvnient des
enqutes assistes par intervieweur parce que chacun deux a besoin dun ordinateur (mme si ce cot
peut tre rparti entre les enqutes). Le rangement en toute scurit des questionnaires sur support papier
pour protger la confidentialit des donnes des rpondants nest pas ncessaire, un avantage dans ce cas,
mais il faut protger les ordinateurs contre le vol.
Llaboration et la mise lessai de mthodes assistes par ordinateur, en particulier pour une nouvelle
enqute, peut tre un long processus qui cote cher. Sil sagit denqutes comprenant un chantillon de
grande taille cependant, la collecte par ordinateur peut rduire normment les cots de saisie et de
vrification des donnes. Sil sagit denqutes ritres, la collecte assiste par ordinateur peut coter
moins cher long terme que la collecte sur support papier, compte tenu des conomies dimpression, et
parce que le cot dlaboration peut tre rparti sur plusieurs cycles de collecte.
Voici quelques autres avantages de la collecte assiste par ordinateur :
- elle est cologiquement conviviale (les questionnaires ne sont pas imprims),
- linterview connexe peut se drouler facilement pour les enqutes ritres, afin de rduire les erreurs
de rponse (c.--d. les renseignements dun rpondant fournis au cours dun cycle prcdent de
lenqute peuvent tre utiliss au cours de cycles ultrieurs)
et quelques autres inconvnients de la collecte assiste par ordinateur :
- le transfert entre ordinateurs (p. ex., de lordinateur de lintervieweur celui du bureau central) doit
tre fait laide dune ligne protge pour garantir la confidentialit des donnes des rpondants,
- elle est vulnrable aux difficults techniques (vie utile de la pile, problmes de transfert des fichiers,
etc.), il faut beaucoup de temps pour les rgler, et il est possible de perdre ou dendommager des
donnes,
- des experts informatiques sont ncessaires pour laborer le logiciel et rgler les problmes techniques.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
52
La saisie des donnes est considre plus en dtail au Chapitre 9 - Oprations de collecte des donnes.
Le Chapitre 10 - Traitement cerne le traitement des donnes, y compris la lecture optique pour la saisie
des donnes et la vrification.
4.3 Autres mthodes de collecte
Outre les mthodes assistes par intervieweur et denqute par autodnombrement, dautres mthodes de
collecte des donnes comprennent lobservation directe, la dclaration lectronique des donnes, les
donnes administratives, les mthodes combines et les enqutes omnibus ou supplmentaires.
4.3.1 Observation directe
Cette mthode consiste observer ou mesurer directement les caractristiques dintrt sur place ou en
laboratoire. Elle peut tre la seule possibilit pour certains concepts (p. ex., des donnes mdicales) et elle
est souvent applique aux enqutes sur les prix. La tldtection est une forme dobservation directe qui
interprte les images satellites. Elle est utilise dans certaines enqutes sur les exploitations agricoles pour
estimer les types et les secteurs de culture. Ce genre de collecte ne peut tre applique la majorit des
donnes parce quelles ne peuvent tre observes ou mesures directement.
La mesure directe est habituellement prcise et, lorsque seules les observations sont faites, il ny a pas de
fardeau de rponse. Dans le cas de la mesure des gens, cependant, les sujets ltude peuvent considrer
que ces mesures sont un tracas et un fardeau, par exemple, au cours dune tude mdicale lorsquil faut
prlever des chantillons de sang des patients. Les taux de participation peuvent tre faibles.
La mesure directe pose une difficult, c.--d. quelle peut coter cher parce quil faut former tous les
intervieweurs lobservation et la mesure des donnes, et il pourrait tre ncessaire dembaucher des
spcialistes (p. ex., des infirmires pour mesurer la tension artrielle). Si des spcialistes sont ncessaires
et si seulement quelques-uns peuvent tre engags, le plan dchantillonnage et la taille de lchantillon
peuvent tre normment restreints.
4.3.2 Dclaration lectronique des donnes (DED)
Certaines enqutes permettent aux rpondants de fournir des donnes lectroniques (p. ex., sur disquette,
bande dordinateur ou cartouche), selon leur propre mise en forme. La DED est une forme
dautodnombrement qui peut tre trs pratique pour le rpondant, mais elle est habituellement offerte
seulement sil ny a aucun autre moyen dobtenir les donnes. Certaines entreprises, par exemple, peuvent
fournir leurs donnes seulement de cette faon.
Lorsque les donnes sont transfres de lordinateur du rpondant celui de lorganisme statistique
laide dune ligne rserve (de modem modem), il y a transfert de donnes dordinateur ordinateur. On
vite souvent la DED si une mise en forme standard ne peut tre convenue avec le rpondant parce quil
faut normment de travail pour vrifier et traiter les donnes, afin quelles conviennent la mise en
forme utilise par lorganisme statistique.




MTHODES DE COLLECTE DES DONNES

STATISTIQUE CANADA
53
4.3.3 Donnes administratives

Il est possible dobtenir linformation ncessaire certaines enqutes partir des donnes administratives.
Les donnes administratives sont celles qui ont t obtenues des fins administratives (p. ex., pour
administrer, rglementer ou imposer des activits dentreprises ou de particuliers), et non des fins
statistiques (pour tudier des groupes de particuliers, dentreprises, dexploitations agricoles, etc.).
Les dossiers administratifs ont un norme avantage parce quils permettent dviter la majeure partie des
cots de collecte des donnes et du fardeau des rpondants. Des rsultats denqute rapides sont aussi
possibles parce que les donnes existent dj. Lobjectif du programme administratif peut cependant tre
trs diffrent de celui de lenqute, et il faut donc valuer prudemment les dfinitions et les concepts
(p. ex., la population cible et la couverture de cette population). Il y a aussi un manque de contrle
qualitatif des donnes (dtermin par ladministrateur et non lorganisme statistique). Le suivi des rejets
la vrification est habituellement impossible. Il y a aussi un travail de traitement habituellement
considrable faire pour garantir la mise en forme des donnes administratives selon les exigences de
lorganisme statistique. Enfin, la confidentialit peut susciter des proccupations quant lutilisation de
donnes administratives des fins statistiques.
LAnnexe A - Donnes administratives offre davantage de dtails ce sujet.
4.3.4 Mthodes combines
Lune des stratgies de collecte les plus satisfaisantes est doffrir aux rpondants un choix de mthode de
collecte des donnes. Les avantages des mthodes combines comprennent des taux de rponse amliors,
un nombre moins lev derreurs de rponse et une collecte plus rapide. Les mthodes combines ont un
inconvnient, c.--d. que la collecte peut tre plus complexe et coter plus cher. Autre inconvnient : elles
produisent des donnes htrognes qui peuvent compliquer le traitement et lanalyse. Si une enqute par
questionnaire postal dautodnombrement se droule, par exemple, et sil y a suivi tlphonique auprs
des non-rpondants laide dun questionnaire plus bref, les deux versions du questionnaire doivent tre
rapproches pendant le traitement. Les rsultats peuvent tre biaiss si les donnes des interviews
tlphoniques sont de meilleure qualit que celle des questionnaires denqute par autodnombrement, ce
qui compliquera lanalyse des donnes.
Lenqute mensuelle est un autre exemple de mthodes combines : il peut tre rentable de communiquer
avec le rpondant en personne pour la premire interview et au tlphone pour les interviews ultrieures.
Cest le cas de lEnqute canadienne sur la population active. Lors du recensement de la population
canadienne, la collecte des donnes est faite avant tout laide dun questionnaire envoy et retourn par
la poste. Le suivi est fait au cours dinterviews tlphoniques et sur place. Le taux de rponse des
enqutes par questionnaire postal dautodnombrement est amlior laide du suivi auprs des non-
rpondants en deux tapes, dabord au tlphone, puis sur place. Une autre solution de plus en plus
populaire : les donnes obtenues par questionnaire sont combines aux donnes administratives, afin de
rduire lerreur de mmoire, le fardeau des rpondants et les cots de lenqute.
4.3.5 Enqutes omnibus et supplmentaires

Il est parfois possible dappliquer un moyen de collecte une autre enqute, laide dune enqute
omnibus ou supplmentaire. Lors dune enqute supplmentaire, le nouveau questionnaire est ajout en
supplment au questionnaire de lautre enqute. Celle-ci est habituellement une enqute grande chelle.
Les enqutes supplmentaires sont communes dans les organismes gouvernementaux. Un exemple
Statistique Canada est lEnqute sur les voyages des Canadiens qui collecte de linformation sur les
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
54
dplacements et les caractristiques des Canadiens qui voyagent, et elle se droule en supplment
lEnqute sur la population active.
Les questions de plusieurs enqutes diffrentes sont combines en un seul questionnaire pour une enqute
omnibus. Le questionnaire de lenqute omnibus est ainsi compos de plusieurs sections, chacune traitant
dun sujet diffrent pour un client diffrent. Les clients partagent les cots de lenqute
proportionnellement leffort de collecte et de traitement faire pour les diffrentes sections de
lenqute. Ce moyen peut donc tre efficace pour rduire les cots dlaboration et lexcution de
lenqute. Des organismes statistiques et des entreprises de recherche du secteur priv procdent
rgulirement ce genre denqute qui engage plusieurs partenaires ayant divers besoins de recherche. Le
principal avantage de cette approche est la diminution des cots, souvent importante, comparativement au
droulement dune enqute distincte pour chaque sujet.
Cette approche a un inconvnient, c.--d. que le rpondant est aux prises avec un imposant questionnaire
compos dune varit de sujets qui peuvent tre dcousus et avoir parfois un caractre dlicat. Le
questionnaire peut donc tre un fardeau qui nincitera pas le rpondant y rpondre. Le manque de
contrle sur la disposition des questions du questionnaire peut aussi avoir des rpercussions sur les
rponses.
4.4 Sommaire
Il y a trois principales mthodes de collecte des donnes : les interviews denqute par
autodnombrement, les interviews sur place et les interviews tlphoniques. Lenqute par questionnaire
postal dautodnombrement est habituellement la mthode de collecte de donnes la moins chre.
Malheureusement, lenqute par autodnombrement donne souvent le taux de rponse le plus bas et peut
demander le plus de temps, surtout si le questionnaire est envoy et retourn par la poste.
Linterview sur place donne habituellement le taux de rponse le plus lev, mais elle peut aussi tre la
plus chre. Elle est souvent applique aux enqutes qui ont des questions complexes ou labores, lorsque
lchantillon demande une visite sur place pour situer et slectionner les rpondants, et en cas de
couverture mdiocre de la population cible laide du tlphone, ou lorsque le taux dalphabtisation est
faible dans la population.
Les interviews tlphoniques donnent habituellement des taux de rponse moyens, elles cotent moins
cher que les interviews sur place et cest la mthode de collecte la plus rapide. Elles peuvent tre
particulirement avantageuses si la population et lchantillon sont gographiquement parpills, si les
interviews sur place cotent trs cher et il serait difficile de les raliser. Le principal problme des
interviews tlphoniques est lchantillonnage des interviews par tlphone : les listes de numros de
tlphone sont rapidement primes (ce qui donne un sous-dnombrement dans la base) et la composition
alatoire est inefficiente.
Toutes ces mthodes de collecte des donnes peuvent tre appliques sur support papier ou lectronique.
Le principal avantage des mthodes assistes par ordinateur est que la collecte et la saisie des donnes
sont combines. Le principal inconvnient des mthodes assistes par ordinateur est lapplication
informatique qui demande du temps et des sommes considrables.
Voici dautres mthodes de collecte des donnes : lobservation directe, la dclaration lectronique des
donnes, les donnes administratives, les mthodes combines et les enqutes supplmentaires ou
omnibus. Lobservation directe peut tre prcise, mais elle ne peut tre applique toutes les donnes et
elle exige souvent le recours des spcialistes. La dclaration lectronique des donnes est pratique pour
MTHODES DE COLLECTE DES DONNES

STATISTIQUE CANADA
55
les rpondants qui peuvent dclarer leurs donnes sur support lectronique, mais elle demande un travail
considrable pour convertir les donnes du rpondant en une mise en forme voulue. Les donnes
administratives peuvent servir comme mthode de collecte des donnes indirecte pour certaines enqutes.
Cette mthode peut liminer le fardeau de rponse, rduire normment les cots de lenqute et acclrer
la rapidit dexcution, mais lorganisme statistique doit examiner attentivement les concepts utiliss par
les sources administratives et la qualit des donnes. Une combinaison des mthodes est souvent un bon
moyen de diminuer les cots, damliorer les taux de rponse et dacclrer la rapidit dexcution. La
collaboration dautres enqutes laide dune enqute supplmentaire ou omnibus est un autre moyen
de diminuer les cots.
Bibliographie
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.
Couper, M.P., R.P. Baker, J. Bethlehem, C.Z.F. Clark, J. Martin, W.L. Nicholls II et J.M. OReilly, ds.
1998. Computer Assisted Survey Information Collection. John Wiley and Sons, New York.
Dielman, L. et M.P. Couper. 1995. Data Quality in a CAPI Survey: Keying Errors. Journal of Official
Statistics, 11: 141-146.
Dillman, D.A. 1978. Mail and Telephone Surveys: The Total Design Method. John Wiley and Sons, New
York.
Dillman, D.A. 2000. Mail and Internet Surveys: The Tailored Design Method. John Wiley and Sons, New
York.
Dufour, J., R. Kaushal, C. Clark et J. Bench, eds. 1995. Converting the Labour Force Survey to
Computer-Assisted Interviewing. Statistics Canada. HSMD-95-009E.
Groves, R.M. 1989. Survey Errors and Survey Costs. John Wiley and Sons, New York.
Groves, R.M., P.P. Biemer, L.E. Lyberg, J.T. Massey, W.L. Nicholls et J. Waksberg, ds. 1988.
Telephone Survey Methodology. John Wiley and Sons, New York.
Groves, R.M. et R.L. Kahn. 1979. Surveys by Telephone: A National Comparison with Personal
Interviews. Academic Press, New York.
Kasprzyk, D., G.J. Duncan, G. Kalton et M.P. Singh, ds. 1989. Panel Surveys. John Wiley and Sons,
New York.
Lavrakis, P. J. 1987. Telephone Survey Methods: Sampling, Selection and Supervision. Applied Social
Research Methods Series. 7. Sage Publications, California.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
56
Tableau 2 : Comparaison des mthodes de collecte des donnes

Mthode Avantages Inconvnients
A. Support papier - elle peut contenir du matriel de rfrence imprim pour
rduire les erreurs de rponse
- un ordinateur nest pas ncessaire pour la collecte des
donnes
- elle peut demander moins de temps pour laborer les
procdures de collecte que les mthodes assistes par
ordinateur
- pour les enqutes uniques ou les petites enqutes, la
collecte peut coter moins cher que les mthodes
assistes par ordinateur
- la saisie des donnes est distincte de la collecte
- limpression des questionnaires peut coter cher
- les questionnaires ne peuvent avoir un cheminement des
questions des instructions passez complexes
- la collecte des donnes demande beaucoup de travail manuel
- seulement quelques vrifications manuelles simples du
questionnaire sont possibles
- linterview connexe est difficile pour les enqutes ritres
A.1 Autodnom-
brement
- elle est facile administrer
- elle peut rduire le taux derreur parce que le rpondant
peut consulter des dossiers personnels
- mthode habituellement la moins chre, le client a donc
les moyens davoir un chantillon plus important et
dobtenir une plus grande prcision
- le questionnaire peut tre rempli sans la prsence dun
intervieweur, une caractristique positive pour les
questions caractre dlicat
- il nest pas ncessaire davoir un grand nombre
dintervieweurs forms

- les erreurs de rponse peuvent augmenter parce que le
rpondant ne lira probablement pas le matriel de rfrence
- les donnes peuvent tre de moins bonne qualit que dans le
cas des mthodes assistes par intervieweur
- le questionnaire doit tre bien conu et convivial pour le
rpondant, et donner des instructions claires pour susciter la
participation et diminuer les erreurs de rponse
- le questionnaire ne peut tre trop long ou complexe
- la mthode devrait seulement tre applique pour des sujets
simples et directs, ou des populations ayant une bonne
scolarit
- les taux de rponse sont infrieurs ceux des mthodes
assistes par intervieweur (de nombreux suivis peuvent tre
ncessaires pour amliorer le taux de rponse)
- il faut faire le suivi des rejets la vrification
- si les questionnaires sont envoys par la poste, il faut rgler
laffranchissement
- les questionnaires envoys et retourns par la poste peuvent
tre la mthode de collecte des donnes la plus lente
MTHODES DE COLLECTE DES DONNES

STATISTIQUE CANADA
57
Mthode Avantages Inconvnients
A2. Assiste par
intervieweur
- les taux de rponse sont meilleurs que ceux des enqutes
par autodnombrement parce que lintervieweur peut
susciter lintrt du rpondant et tre sensibilis ses
proccupations
- lintervieweur peut amliorer la qualit des donnes en
expliquant les concepts et en aidant rgler les
problmes : il peut diminuer les erreurs de rponses et le
nombre de questionnaires rpondus en partie seulement
- lintervieweur peut garantir que lunit exacte fait
lobjet de lenqute
- il peut diminuer le fardeau de rponse parce que
lintervieweur peut vrifier immdiatement et faire le
suivi des rejets la vrification
- lintervieweur peut expliquer les mthodes utilises
pour garantir la scurit et la confidentialit des donnes
- la mthode permet une priode de collecte plus souple
que celle de lautodnombrement (davantage
dintervieweurs peuvent tre engags pour acclrer la
collecte)
- la mthode peut tre relie des populations ayant des
capacits de lecture et dcriture trs limites
- les interviews peuvent coter cher : cot de la formation des
intervieweurs, rmunration des intervieweurs, logement et
transport des intervieweurs sur place espaces de bureau
pour les interviews tlphoniques
- il faut avoir du temps pour former les intervieweurs
- de bonnes aptitudes la gestion sont ncessaires pour
coordonner toutes les interviews
- les erreurs de rponse peuvent augmenter : les intervieweurs
de formation mdiocre peuvent augmenter les erreurs de
rponse, les rpondants peuvent hsiter rpondre des
questions caractre dlicat (en particulier si lintervieweur
est engag lchelon local) ou donner simplement des
rponses socialement convenables
- il peut tre difficile dobtenir une base de sondage et une
bonne couverture de tous les numros de tlphone
- lchantillonnage des interviews au tlphone est inefficient

A2.1. Interviews sur
place
- la mthode offre une interview trs personnalise (plus
que celle des interviews tlphoniques) qui permet
habituellement dobtenir des taux de rponse plus levs
que ceux des interviews tlphoniques
- lintervieweur peut inspirer la confiance au rpondant
en lui montrant ses pices didentit officielles
- lintervieweur peut faire des observations directes
- il est possible dadministrer un questionnaire plus
complexe que celui des interviews tlphoniques et de
lenqute par autodnombrement
- cest habituellement la mthode de collecte des donnes la
plus chre et les tailles dchantillon sont donc plus petites
- il est difficile dexercer le contrle qualitatif des interviews,
comparativement aux interviews tlphoniques qui sont plus
faciles surveiller
- russir communiquer avec les gens la maison ou au
travail peut tre difficile et demander beaucoup de temps
- il peut tre difficile de dcouvrir et de maintenir en poste les
intervieweurs convenablement qualifis dans tous les
domaines de lenqute
- il est difficile de confier la charge de travail des
intervieweurs des collgues moins dbords
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
58
Mthode Avantages Inconvnients
A2.2.
Interviews
tlphoniques
- les taux de rponse sont habituellement plus levs que
ceux des enqutes par autodnombrement
- le contrle qualitatif de linterview est facile
- elles cotent moins cher que les interviews sur place (il
nest pas ncessaire de payer les dplacements et le
logement)
- on obtient les rponses plus rapidement
(comparativement aux interviews sur place ou denqute
par autodnombrement)
- il est possible de procder aux interviews dans des
rgions difficiles ou inaccessibles
- elles sont plus anonymes que les interviews sur place : il
est possible de poser des questions caractre dlicat
- elles cotent moins cher que les interviews sur place et
permettent dutiliser des chantillons plus importants, si
ncessaire
- les taux de rponse sont moins levs que ceux des
interviews sur place
- il faut payer lespace de bureau pour les intervieweurs
- il faudra peut-tre rgler les interurbains
- les questionnaires ne peuvent tre trop longs ou complexes
- des observations directes sont impossibles
- des problmes de confidentialit sont possibles si les lignes
tlphoniques sont partages
- lchantillonnage des interviews par tlphone est
inefficient : le rsultat de la composition dun numro de
tlphone peut ne donner aucune communication, produire
une non-rponse ou la communication avec une unit hors
de la porte de lenqute
- le rsultat peut tre biais cause du sous-dnombrement
lorsque lchantillonnage est fait partir dune liste
administrative de numros de tlphone
- lchantillonnage par CA a des variables de stratification
gographique limite

MTHODES DE COLLECTE DES DONNES

STATISTIQUE CANADA
59
Mthode Avantages Inconvnients
B. Assiste par ordinateur - la vrification pendant la collecte peut tre automatise,
il est donc possible de rgler immdiatement les rejets
la vrification et de diminuer le fardeau de rponse
cause du suivi
- la collecte, la vrification et la saisie des donnes sont
intgres, c.--d. plus rapides (temps de rponse plus
rapide), efficientes et faciles surveiller que celles des
mthodes sur support papier
- les donnes peuvent tre de meilleure qualit
- il est possible dadministrer des questionnaires
enchanement complexe (instructions passez )
- il est facile de produire des rapports de gestion (p. ex.,
sur les taux de rponse)
- la collecte peut tre moins chre que la collecte sur
support papier pour les grandes enqutes ou les enqutes
ritres
- il est possible de rduire les cots dlaboration en
adaptant un logiciel labor pour une enqute semblable
- la protection de la confidentialit des questionnaires
remplis est meilleure
- ces mthodes sont cologiquement conviviales (moins
de papier gaspill)
- les interviews connexes sont possibles pour les enqutes
ritres
- llaboration de lapplication informatique peut demander
beaucoup de temps et coter cher
- il faut faire lessai approfondi de lapplication informatique
- des experts en informatique seront ncessaires pour
laborer modifier lapplication informatique
- cette mthode est la merci des difficults techniques
- les intervieweurs et les rpondants doivent savoir comment
utiliser lapplication informatique
- la mthode a des exigences dinfrastructure (p. ex., il faut
remettre aux intervieweurs des ordinateurs portatifs)
- il faut tre en mesure de transmettre les donnes en toute
scurit dun ordinateur lautre (p. ex., acheminement des
donnes acquises sur place ou au bureau central)
B1. Auto-interview
assiste par ordinateur
(AIAO)
- mthode souple et pratique pour les rpondants qui ont
un ordinateur
- les rpondants doivent utiliser facilement les ordinateurs et
lapplication, avoir les logiciels et le matriel informatique
ncessaires
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
60
Mthode Avantages Inconvnients
B2. Interview assiste
par ordinateur (IAO)
- il est possible dautomatiser la gestion des interviews
(p. ex., automatisation de lordonnancement des
interviews)
- il est plus facile de grer les interviews que dans le cas
de la collecte sur support papier
- la mthode peut accentuer la qualit des donnes : les
intervieweurs qui utilisent facilement lapplication
informatique peuvent rserver plus de temps aux
aptitudes interpersonnelles
- il faut dterminer les cots du matriel informatique pour les
intervieweurs
- les intervieweurs peuvent avoir besoin dinformation
supplmentaire sur lapplication informatique
- il faut considrer les questions de scurit (p. ex.,
lordinateur peut tre vol)

C. Autres mthodes de collecte des donnes
C1. Observation
directe
- lorsque toutes les donnes sont observes, il ny a pas
de fardeau de rponse
- les donnes obtenues sont habituellement plus prcises
que celles des mthodes denqute par interview et par
autodnombrement
- la mthode peut coter trs cher si des spcialistes sont
ncessaires pour prendre des mesures, et les chantillons
pourraient donc tre assez restreints
- la mthode ne peut tre applique la plupart des enqutes
- si des mesures sont prises, les participants peuvent les
considrer comme un tracas et le taux de participation sera
faible
C2. Dclaration
lectronique des
donnes (DED)
- la mthode est pratique pour les rpondants qui ont un
ordinateur

- la mise en forme des donnes des rpondants peut varier et
le traitement peut donc coter cher et demander beaucoup de
temps



C2.1. Internet - la collecte et la saisie des donnes cotent moins cher
- la rapidit dexcution est la hausse
- le nombre dinternautes est encore faible
MTHODES DE COLLECTE DES DONNES

STATISTIQUE CANADA
61
Mthode Avantages Inconvnients
C3. Donnes
administratives
- les donnes sont rapidement disponibles et il est souvent
possible dobtenir des rsultats denqute rapides et
prix raisonnable
- le fardeau de rponse est faible
- lobjectif du programme administratif peut tre diffrent de
celui de lenqute : il faut valuer lutilit de la source
administrative du point de vue des concepts et des
dfinitions de lenqute (p. ex., problmes de population
cible et de couverture, priodes de rfrence, etc.)
- lorganisme statistique a peu de contrle sur la qualit des
donnes
- il est difficile ou impossible de faire le suivi des rejets la
vrification
- le traitement des donnes administratives peut demander
beaucoup de temps et coter cher (p. ex., il faudra peut-tre
modifier le format de lenregistrement)
- lutilisation des donnes administratives peut susciter des
proccupations de confidentialit
C4. Mthodes
combines
- taux de rponse amlior
- diminution des erreurs de rponse
- collecte des donnes plus rapide
- la collecte peut tre plus complexe et coter plus cher
- la mthode produit des donnes htrognes qui peuvent
compliquer le traitement

C5. Enqutes
supplmentaires et
omnibus
- les cots sont partags entre plusieurs enqutes - il faut dterminer les enqutes appropries avec lesquelles
travailler les auteurs de lenqute ne voudront peut-tre
pas tre lis certaines enqutes
- cette mthode peut tre un fardeau pour le rpondant et se
traduire par des taux de rponse moindres
- le manque de contrle de lordre des sections du
questionnaire peut avoir des rpercussions sur les rponses


www. statcan. gc. ca
P U B L I C AT I O N S L E CTRONI QUE S
D I S P O N I B L E S

STATISTIQUE CANADA
63
Chapitre 5 - Conception du questionnaire
5.0 Introduction
Un questionnaire (ou formule) est un groupe ou une squence de questions conues pour obtenir dun
rpondant de linformation sur un sujet. Les questionnaires comprennent les formules utilises pour les
enqutes-chantillons et les recensements, ainsi que les formules administratives. Les questionnaires sont
au coeur du processus de collecte des donnes. Ils ont des rpercussions importantes sur la qualit des
donnes parce quils constituent le moyen de collecte des donnes. Ils ont aussi des rpercussions sur
limage de marque que lorganisme statistique projette dans le public.
Les questions poses doivent tre conformes lnonc des objectifs de lenqute et permettre la collecte
dinformation utile pour lanalyse des donnes. Elles doivent rpondre tous les besoins dinformation,
mais chaque question devrait avoir une justification explicite pour tre inscrite dans le questionnaire. Il
faut savoir pourquoi chaque question est pose et quoi servira linformation. La formulation de la
question doit tre claire. Les questions doivent tre rparties en squences logiques pour le rpondant. Les
questions doivent tre formules pour tre faciles comprendre et permettre au rpondant dy rpondre
prcisment. Enfin, le questionnaire devrait tre mis lessai avant son application, laide dun essai
cognitif, de groupes de discussion, dun prtest et dautres mthodes dcrites dans ce chapitre.
Un questionnaire bien conu devrait :
- permettre la collecte des donnes avec efficience et le rsultat devrait comprendre un nombre minimal
derreurs et de donnes incohrentes,
- tre convivial pour lintervieweur et le rpondant (sil sagit dune enqute assiste par intervieweur),
- diminuer dans lensemble le cot et le temps de la collecte des donnes.
Lobjectif de ce chapitre est de donner un aperu des tapes de la conception dun questionnaire, y
compris llaboration et la mise lessai des questionnaires. Les principaux types de questions, ouvertes
et fermes, sont dcrites, ainsi que leurs avantages et inconvnients. On donnera aussi quelques lignes
directrices pour llaboration des questions. Enfin, les problmes derreur de rponse et de traitement
pertinents la conception dun questionnaire font lobjet dun examen.
5.1 Processus de conception du questionnaire
Le processus de conception du questionnaire commence par la formulation des objectifs de lenqute et
des besoins dinformation (Chapitre 2 - Formulation de lnonc des objectifs) et continue avec les
tapes suivantes :
- consultation avec les utilisateurs des donnes et les rpondants,
- examen des questionnaires prcdents,
- version provisoire du questionnaire,
- examen et rvision du questionnaire,
- mise lessai et rvision du questionnaire,
- touche finale apporte au questionnaire.


5.1.1 Consultation avec les utilisateurs des donnes et les rpondants
Le processus de consultation avec les utilisateurs des donnes commence lors de la formulation des
objectifs de lenqute au cours de la phase de planification et continue pendant la conception et
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
64
llaboration du questionnaire. Cette consultation approfondie est particulirement importante pour les
grandes enqutes, sinon toutes, dun organisme statistique. Une comprhension approfondie de
lutilisation des donnes devrait permettre lorganisme statistique dlaborer un questionnaire bien
conu qui rpond aux besoins des utilisateurs.
Il faudrait consulter non seulement les utilisateurs des donnes, mais aussi les rpondants, les experts de
la matire de ltude et ceux qui ont procd des enqutes semblables auparavant, avant de formuler la
version provisoire du questionnaire. Ils devraient pouvoir donner une rtroaction sur le genre
dinformation que les rpondants peuvent fournir et aider prciser les concepts tudier. Rencontrer les
rpondants peut aider identifier les questions et les proccupations importantes pour eux et obtenir des
rpercussions sur les dcisions pertinentes la matire du questionnaire. Cette intervention peut aussi
aider identifier les expressions et le langage quutilisent les rpondants pour dcrire les concepts de
lenqute, et donner une bonne ide de la faon dont les catgories de questions et rponses devraient tre
formules. Ces discussions peuvent se drouler pendant des consultations approfondies ou en groupe de
discussion (voir la Section 5.1.5.3).
5.1.2 Examen des questionnaires prcdents
Dautres enqutes sont une bonne source dinformation pour llaboration dune enqute. Lexamen des
questions poses dans dautres enqutes sur le mme sujet ou un sujet semblable peut tre un bon point de
dpart lorsquil faut formuler une question (c.--d. rdiger une question). Lorsque lon souhaite
comparer les rsultats de diffrentes enqutes, il est prfrable dutiliser les mmes questions. Il faudrait
aussi examiner la documentation sur la qualit des donnes de ces enqutes pour valuer lefficacit du
questionnaire (p. ex., les problmes de rdaction des questions, le fardeau de rponse, les taux de refus,
etc.).
5.1.3 Formulation du questionnaire
La prochaine tape est llaboration dune version prliminaire du questionnaire au complet. tant donn
que la conception globale et les objectifs de lenqute ont des rpercussions sur le questionnaire, il faut
considrer les volets suivants :
i. Mthode de collecte des donnes
La mthodologie de collecte des donnes a une incidence sur la longueur du questionnaire et la
formulation des questions. Les questionnaires denqute par autodnombrement devraient tre moins
complexes et plus brefs que ceux des mthodes assistes par intervieweur et ils devraient de prfrence
tre autonomes, c.--d. que toute linformation pertinente (p. ex., instructions, information sur les
personnes-ressources, exemples) est comprise dans le questionnaire. Dans le cas des mthodes assistes
par intervieweur, la formulation dune question est souvent diffrente de celle des questionnaires
denqute par autodnombrement. La question pose de vive voix devrait sembler neutre. Les interviews
sur place et les enqutes par autodnombrement permettent davantage de catgories de rponses que les
interviews tlphoniques qui devraient tre brves.
La prsentation, lorganisation et la structure denregistrement des donnes seront aussi trs diffrentes
dun questionnaire lautre, par exemple, un questionnaire denqute par autodnombrement, un
questionnaire dinterview tlphonique ou sur place, ou encore un questionnaire papier et crayon ou
assist par ordinateur.
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
65
ii. Caractristiques des rpondants
Les caractristiques des rpondants influencent la formulation des questions. Elles peuvent avoir des
rpercussions sur la terminologie ou la complexit du langage utilis pour poser les questions. Les
questions destines au grand public devraient tre faciles comprendre pour tous les rpondants, mais il
est possible, dans une enqute qui cible des professionnels, dutiliser un langage technique ou
professionnel pertinent au travail des rpondants.
iii. Fardeau de rponse
Le fardeau de rponse du questionnaire, le temps et leffort ncessaires pour rpondre aux questions et la
possibilit que le rpondant consulte des dossiers ou dautres personnes doivent tre pris en considration.
Il faudrait minimiser le nombre de questions, et chaque question inscrite au questionnaire devrait tre
justifiable. (Le but de certaines questions peut tre de faciliter la comprhension dune question ultrieure
ou elle peut servir lvaluation.)
iv. Complexit des donnes qui font lobjet de la collecte
Une formulation attentive des questions est ncessaire lors de la collecte de donnes complexes. Des
instructions devraient tre intgres aux questions qui couvrent des sujets complexes. Voil qui aidera
lintervieweur expliquer les questions, et le rpondant, y rpondre prcisment.
v. Confidentialit et caractre dlicat de linformation
Ces deux points peuvent avoir des rpercussions directes sur la formulation des questions. Le
questionnaire devrait comprendre des noncs dintroduction qui prcisent comment la confidentialit des
donnes du rpondant sera protge. Il faudrait aussi expliquer quoi serviront les donnes, qui y aura
accs, la dure de vie utile des donnes, etc. Si des questions caractre dlicat sont poses (questions qui
peuvent mettre certains rpondants mal laise), il peut tre ncessaire dappliquer des techniques qui
amenuiseront les rpercussions de ces questions. Cette mesure accentue la possibilit dune rponse (voir
la section 5.3.8 pour en apprendre davantage).
vi. Traduction
Le questionnaire devrait tre traduit dans toutes les langues couramment parles dans la population cible.
Il faut tre attentif lors de la traduction de questions formules dans une autre langue pour tenir compte,
non seulement de la langue, mais aussi des diffrentes coutumes et cultures. Une rtro-traduction (la
traduction du texte traduit dans la langue dorigine) peut souvent aider identifier des erreurs.
vii. Comparabilit des rsultats avec ceux dautres enqutes
Si les rsultats de lenqute sont compars avec ceux dautres enqutes, les questions doivent tre
rdiges de la mme faon. Chaque version de la question doit cerner le point de la mme faon et avoir
la mme signification dans le contexte de la question. Afin de garantir la comparabilit des rsultats avec
ceux dautres enqutes, il faudrait utiliser la mme formulation de la question aprs avoir confirm la
qualit des rsultats prcdents. Certaines questions peuvent aussi tre troitement lies celles qui les
prcdent immdiatement.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
66
viii. Cohrence
La formulation de la question doit avoir la mme signification pour tous les rpondants, soit celle que
cible lorganisme statistique. Si le questionnaire est traduit dans diffrentes langues, il est
particulirement important de mettre lessai chaque version dans toutes les langues.
ix. Autres lments
Voici dautres lments considrer lors de la formulation des questions :
- la disponibilit des donnes voulues,
- la disposition du rpondant rpondre,
- la possibilit dune non-rponse,
- les exigences administratives,
- le genre de questions,
- la formulation de chaque question,
- la prsentation du questionnaire,
- les sources de mesure ou derreur de rponse,
- le traitement du questionnaire.
Les exigences administratives de lorganisation de lenqute comprennent les ententes dchange des
donnes, un nonc informant les rpondants de la confidentialit de leurs rponses, des versions
bilingues du questionnaire, etc.
Les questions peuvent tre ouvertes ou fermes (les questions fermes donnent des catgories de rponse).
Les divers genres de questions sont examins en dtail la section 5.2. Les lignes directrices appliques
la formulation des questions de lenqute sont considres la section 5.3. Les sources derreur de
rponse sont mentionnes la section 5.4. Les considrations sur la prsentation et le traitement du
questionnaire sont prcises aux sections 5.5 et 5.6.
5.1.4 Examen et rvision du questionnaire
Il est essentiel que le questionnaire soit examin linterne avant la mise lessai. Cet examen devrait
identifier tous les problmes vidents du questionnaire, par exemple, les erreurs dorthographe ou de
grammaire, ou la rdaction maladroite. Il est aussi utile cette tape de demander des intervenants qui
ne sont pas directement engags dans le projet dexaminer le questionnaire. Ceux-ci peuvent comprendre
des experts du domaine ltude, des gens qui ont lexprience de la conception des questionnaires, des
intervieweurs ou des membres de la population ltude. Ils peuvent souvent faire des commentaires et
des suggestions utiles qui susciteront la rvision des questions et des catgories de rponse.
5.1.5 Mise lessai et rvision du questionnaire
Il est important de procder la mise lessai de toutes les versions (c.--d. les versions dans toutes les
langues) du questionnaire auprs de rpondants reprsentatifs bien avant le dbut de la collecte des
donnes (c.--d. reprsentatifs de la population cible, peut-tre des rpondants dun certain ge, dun sexe
ou lautre, ou ayant une scolarit en particulier). Il peut tre aussi important de faire lessai du
questionnaire auprs de sous-populations en particulier qui peuvent avoir des problmes avec certaines
questions.
Rpondre une question est un processus complexe. Les rpondants doivent dabord comprendre la
question. Ils doivent ensuite faire un effort de mmoire ou fouiller des dossiers pour extraire linformation
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
67
demande. Ils doivent aussi rflchir la rponse exacte la question et dterminer sils sont disposs
rvler linformation, en tout ou en partie. Ils rpondent alors la question. Chacun de ces processus peut
tre une source derreur. (Tourangeau et coll., 2000)
Les mthodes de mise lessai des questions visent identifier les difficults et les erreurs possibles. La
mise lessai permet aussi de dterminer si les instructions sont claires ou si lordre des questions a des
rpercussions sur linterprtation de ces questions et dobtenir les impressions des rpondants sur la
prsentation du questionnaire. Lun des avantages de la mise lessai du questionnaire est la production
dun questionnaire convivial pour le rpondant et lintervieweur qui facilite la collecte de donnes
prcises en une mise en forme propice la saisie et au codage des donnes. Enfin, la mise lessai aide
aussi minimiser les erreurs et diminuer le cot et le temps de la collecte, de la saisie et du traitement
des donnes.
Les mthodes appliques aux mises lessai des questionnaires (matire, prsentation, etc.) sont
habituellement axes sur de petits chantillons subjectifs non probabilistes de rpondants tirs de la
population cible. Voici les mthodes dcrites dans les sections suivantes :
- prtest,
- mthodes cognitives,
- groupes de discussion,
- compte rendu des intervieweurs,
- codage comportemental des interactions entre lintervieweur et le rpondant,
- essai dchantillons fractionns,
- essai pilote.
5.1.5.1 Prtest (essai prliminaire)
Le prtest (parfois intitul essai prliminaire) est facile, le cot est raisonnable, et cest une tape
fondamentale de llaboration dun questionnaire. Sil ny a pas dautres mises lessai du questionnaire,
il faudrait au moins faire un prtest. La taille de lchantillon du prtest peut varier de 20
100 rpondants ou plus. Si le principal objectif est de reprer des problmes de rdaction ou de squence,
trs peu dinterviews sont ncessaires. Il faut en faire davantage (de 50 100) pour dterminer les
catgories de rponse aux questions fermes, partir des rponses aux questions ouvertes du prtest. Le
questionnaire devrait tre administr de la mme faon que prvu pour la principale enqute (p. ex.,
assiste par intervieweur ou ordinateur, sur place, au tlphone ou sur support papier). Il faudrait
cependant avoir recours un intervieweur pour la mise lessai des questionnaires denqute par
autodnombrement.
Lors du prtest, le rpondant nest pas inform, il remplit simplement le questionnaire ou rpond
linterview pour reflter la situation lors de la collecte relle des donnes. Le prtest indique seulement l
o il y a un problme. Sans aller plus loin, il ne dtermine pas pourquoi il y a un problme ou comment le
corriger. La mise lessai non officiel nidentifiera peut-tre pas non plus tous les problmes du
questionnaire.
Voici quoi sert le prtest dun questionnaire :
- dcouvrir lordre ou la rdaction mdiocres des questions,
- reprer les erreurs de prsentation ou dinstructions du questionnaire,
- identifier les problmes dapplication logicielle dun questionnaire assist par ordinateur,
- dterminer les problmes ventuels si le rpondant ne peut ou ne veut rpondre aux questions,
- suggrer des catgories de rponse supplmentaires qui peuvent tre codes davance dans le
questionnaire,
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
68
- donner une indication prliminaire de la longueur de linterview et du taux de rponse (y compris la
non-rponse partielle).
5.1.5.2 Mthodes cognitives
Les mthodes cognitives sont particulirement utiles pour lessai des questionnaires parce quelles sont
conues pour faire enqute sur les tapes du processus de rponse. Les mthodes cognitives donnent les
moyens dexaminer les processus de rflexion du rpondant lorsquil rpond aux questions de lenqute.
Les mthodes cognitives aident donc valuer la validit des questions et identifier les sources
ventuelles derreur de rponse et de non-rponse.
Les interviews cognitives donnent loccasion dvaluer le questionnaire du point de vue du rpondant.
Elles ciblent des points comme la comprhension et les ractions la formule. Cette mesure permet
dintgrer la perspective du rpondant directement dans le processus de conception du questionnaire et
den arriver la conception dun questionnaire convivial pour le rpondant parce quil est facile
comprendre et remplir avec prcision.
Les interviews cognitives se droulent souvent en laboratoire ou dans une salle munie dun miroir
dobservation. La taille de lchantillon est relativement minime. De 12 15 interviews cognitives
seulement peuvent se drouler, mais parfois jusqu 100 et plus, pour mettre lessai la version
prliminaire dun questionnaire. tant donn la taille de lchantillon relativement minime, une approche
itrative est parfois applique et des modifications sont apportes au questionnaire aprs quelques
interviews cognitives avant de donner suite la mise lessai.
Voici certaines mthodes cognitives de mise lessai :
i. Lobservation des rpondants
Le rpondant est observ pendant quil rpond au questionnaire. Lobservation donne des renseignements
sur le comportement du rpondant, notamment :
- les sections du questionnaire quil lit,
- la squence de rponse aux questions,
- le rpondant se reporte aux instructions ou non,
- le genre de dossiers quil examine,
- le rpondant consulte quelquun ou non,
- le temps quil prend rpondre chaque section,
- les corrections ou modifications quil apporte aux rponses.
ii. Les interviews penser tout haut
Le rpondant est invit penser tout haut lorsquil rpond aux questions, faire des commentaires sur
chaque question et expliquer comment il a choisi la rponse en bout de ligne. Ce genre dinterview
penser tout haut est intitul interview simultane penser tout haut . Si le rpondant explique son
processus de rflexion aprs coup, pendant une discussion de suivi, linterview est alors intitule
interview rtrospective penser tout haut . Ces deux mthodes sont trs utiles pour la mise lessai des
questionnaires et lidentification des sources ventuelles derreur et des amliorations qui peuvent tre
apportes.
Des techniques particulires, notamment les questions dapprofondissement, la reformulation et la
notation de la confiance sont appliques pendant les interviews cognitives.
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
69
a. Questions dapprofondissement
Les questions dapprofondissement servent cibler des aspects en particulier du processus de rponse
(c.--d. comprhension, extraction, rflexion ou rponse). Lintervieweur peut demander, par exemple,
comment et pourquoi un rpondant a choisi une rponse ou comment il a interprt les concepts, les mots.
b. Reformulation
Le rpondant est invit rpter les instructions ou la question dans ses propres mots, ou expliquer la
signification des termes et des concepts. La reformulation permet de dterminer si un rpondant a lu et
bien compris les instructions et les questions.
c. Notation de la confiance
Le rpondant cote le degr de confiance en la prcision de ses rponses. Cette technique rvle quel
point le rpondant a eu de la difficult formuler une rponse une question ou sil a essay de deviner.
5.1.5.3 Groupes de discussion
Un groupe de discussion considre un sujet slectionn par les participants choisis dans la population
dintrt. Le groupe de discussion donne loccasion de consulter les membres de la population cible, les
utilisateurs des donnes ou les intervieweurs pour intgrer leur point de vue dans le processus de conception
du questionnaire. Au cours des premires tapes de llaboration du questionnaire, les groupes de discussion
peuvent aider prciser les objectifs de lenqute et les besoins de donnes, et identifier les concepts,
dfinitions et questions saillantes de la recherche. Les groupes de discussion servent aussi la mise lessai
des questionnaires. On fait appel eux pour valuer la comprhension du langage et de la rdaction des
questions et des instructions de la part du rpondant, ainsi que dautres formulations et mises en forme des
questions.
Un animateur qui connat bien les techniques dinterview des groupes et lobjectif de la discussion oriente
le groupe de discussion. Chaque groupe comprend habituellement de six douze personnes et la taille
optimale est de sept neuf personnes. Une sance en groupe de discussion demande habituellement deux
heures environ. Le groupe de discussion est enregistr sur bande sonore (et parfois sur bande vido) que
les observateurs peuvent entendre dans une salle contigu derrire un miroir dobservation. Il est
recommand que ceux qui laborent le questionnaire observent le groupe de discussion. Les observateurs
ninterviennent pas dans la discussion du groupe, mais leurs observations peuvent servir lanimateur la
fin de la sance du groupe de discussion.
Si le questionnaire de lenqute par autodnombrement est mis lessai, il peut tre achev immdiatement
avant la discussion du groupe (si le temps le permet) ou le rpondant peut le remplir davance et lapporter la
sance du groupe de discussion. Sil sagit dun questionnaire assist par intervieweur, ce dernier peut
ladministrer quelques jours avant la runion du groupe de discussion.
Lancer la discussion du groupe en demandant aux participants dexprimer leur raction au questionnaire dans
lensemble est une technique utile. Le groupe discute ensuite des questions et problmes particuliers que
suscite le questionnaire. Lanimateur du groupe de discussion examine le questionnaire au complet, question
par question, ou cible des questions dintrt en particulier. Lanimateur devrait avoir des aptitudes
approfondir la matire parce que certains participants du groupe de discussion peuvent hsiter faire des
commentaires ngatifs, mme sils sont pertinents. Lanimateur devrait aussi donner chaque membre
loccasion de sexprimer pour viter quune personne ou deux domine(nt) la discussion. La sance du groupe
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
70
de discussion peut tre conclue en demandant aux participants de recommander lamlioration la plus
importante, leur avis, quil faudrait apporter au questionnaire.
5.1.5.4 Compte rendu des intervieweurs
Le compte rendu de lintervieweur se droule souvent aprs la sance en groupe de discussion ou pendant
les prtests. Lintervieweur discute de lexprience acquise pendant linterview des rpondants et
approfondit ainsi la comprhension des rsultats du questionnaire. Sa perspective peut aider dterminer
les amliorations apporter au questionnaire. Lintervieweur fait habituellement son compte rendu dans
un groupe trs semblable au groupe de discussion. Autrement, des formules de notation ou des
questionnaires de compte rendu peuvent servir obtenir de linformation sur les problmes que posent le
questionnaire et des suggestions damlioration.
5.1.5.5 Codage comportemental des interactions entre lintervieweur et le rpondant
Le codage comportemental peut tre fait pendant que lintervieweur administre le questionnaire. Ce genre
de mise lessai comprend le codage systmatique par un tiers de linteraction entre lintervieweur et le
rpondant. Le tiers cible comment lintervieweur pose les questions et la raction du rpondant.
Linterview de mise lessai est souvent enregistre sur bande sonore et la relation entre lintervieweur et
le rpondant est ensuite analyse. Le codage comportemental aide identifier certains problmes, par
exemple, lintervieweur na pas lu les questions telles quelles sont formules ou le rpondant a demand
des prcisions. Si le codage comportemental rvle quune question pose des difficults, une mesure
corrective peut tre justifie. En gnral, le codage comportemental ne donne cependant pas
dinformation sur les raisons du problme ou la solution possible. Un large chantillon est souvent
ncessaire pour analyser les rsultats du codage comportemental, surtout si le questionnaire comprend de
nombreuses instructions passez qui orientent le rpondant dans un questionnaire cheminements
varis.
5.1.5.6 Essai dchantillons fractionns
Les mises lessai dchantillons fractionns servent dterminer les deux meilleures versions ou
plus dun questionnaire ou dune question. La mise lessai dun chantillon fractionn est parfois
intitule exprience du questionnaire deux formes ou du panel fractionn . Elle comprend un plan
dchantillonnage exprimental intgr au processus de collecte des donnes. Sil sagit dun seul plan
dchantillonnage fractionn, la moiti de lchantillon reoit une version du questionnaire et lautre
moiti, lautre version.
La mise lessai de lchantillon fractionn permet non seulement de comparer les variations des
questions, mais aussi les diffrentes mthodes de collecte des donnes pour dterminer la meilleure
mthode. Un plan dchantillonnage probabiliste et des tailles dchantillons appropries sont ncessaires
pour analyser les diffrences entre les chantillons.
5.1.5.7 Enqute pilote
Une enqute pilote se droule pour observer toutes les tapes du processus de lenqute, y compris
ladministration du questionnaire. Une enqute pilote est une simulation qui applique la version finale
du plan denqute petite chelle du dbut la fin, y compris le traitement et lanalyse des donnes. Elle
permet lorganisme statistique de considrer les rsultats du questionnaire pendant toutes les tapes de
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
71
lenqute (collecte, vrification, imputation, traitement, analyse des donnes, etc.). Le questionnaire est
habituellement soumis des essais approfondis laide des mthodes susmentionnes avant lenqute
pilote.
5.1.6 Touche finale apporte au questionnaire
La conception du questionnaire est un processus itratif : des modifications sont continuellement
apportes pendant llaboration et la mise lessai du questionnaire. Les objectifs et les besoins
dinformation sont formuls et rvalus, les rpondants et les utilisateurs des donnes sont consults, la
version prliminaire des questions proposes est formule et mise lessai, les questions sont examines
et rvises jusqu la formulation de la version finale du questionnaire. Lorsquil est dcid quil ny aura
pas dautres modifications apportes au questionnaire, ltape finale du processus est franchie. La touche
finale est alors apporte au questionnaire et il est imprim ou programm, selon la mthode de saisie des
donnes applique.
5.2 Genres de questions : ouvertes et fermes
Il y a deux genres de questions : ouvertes et fermes. Les questions ouvertes ne donnent pas les
catgories de rponse au rpondant. Le rpondant donne un chiffre exact ou une rponse la question
dans ses propres mots par crit dans le cas dun questionnaire denqute par autodnombrement ou
lintervieweur enregistre la rponse intgralement. Une question ouverte devrait comprendre un espace
suffisant pour inscrire la rponse.
Voici un exemple de question ouverte :
Quel est le plus important problme au Canada?



Les questions fermes comprennent des catgories de rponse inscrites sous la question. On rpond la
question ferme en cochant une case ou en encerclant la rponse exacte dans lnumration. Les rponses
possibles numres pour une question sont intitules catgories de rponse.
Voici un exemple de questions fermes :
Quel est le plus important problme au Canada? (Cochez une rponse seulement)
P Chmage
P conomie rcession
P Dficit fdral
P Impts
P Unit nationale
P Crime violence
P Environnement
P Autre
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
72
Une question ouverte permet au rpondant dexprimer une rponse sans linfluence des catgories de
rponse inscrites sous une question ferme. Ce choix permet cependant dinterprter la question de
diffrentes faons. Une question ouverte largit donc la porte de la question en gnral et la version
ferme donne au rpondant des indices sur la manire dinterprter la question. Une question ferme
ramne aussi le rpondant un ensemble de rponses dtermines.
Les questions ouvertes ont plusieurs applications. Lun des avantages est quelles donnent au rpondant
loccasion de sexprimer ou dlaborer. Elles sont importantes lorsquil faut examiner une question mal
comprise ou trs large. Les questions ouvertes sont donc souvent utilises pendant llaboration et la mise
lessai du questionnaire. Elles sont poses des groupes de discussion, par exemple, pour obtenir des
commentaires et des opinions sur la question pose et pour susciter la discussion. Une question ouverte
permet aussi lorganisme statistique dobtenir la formulation naturelle personnelle du rpondant.
Elle est importante lors de lexamen de la rdaction dune question et des catgories de rponse une
question ferme.
Un autre avantage des questions ouvertes est quelles peuvent servir obtenir des donnes numriques
exactes, par exemple, lge prcis du rpondant. Les intervenants des enqutes auprs des entreprises
demandent souvent les sommes exactes des revenus et dpenses dclars. Les donnes numriques
exactes sont ncessaires pour certaines analyses des donnes (p. ex., calculer une moyenne ou une
mdiane).
Les questions ouvertes ont une autre utilit, elles permettent de faire le suivi des questions fermes. Une
question ferme peut demander, par exemple :
Avez-vous des suggestions pour amliorer notre service la clientle?
P Non
P Oui
Si le rpondant coche Oui , une question ouverte de suivi pourrait tre la suivante :
Si oui, quelles sont vos suggestions?



Les questions ouvertes comme celle-ci : Avez-vous des commentaires supplmentaires? sont souvent
poses la fin des sections de questions ou la fin du questionnaire. Le rpondant a donc loccasion
dajouter tout ce qui est pertinent, son avis, aux questions considres dans le questionnaire. Certains
rpondants pourraient vouloir ajouter de linformation supplmentaire pour prciser une rponse. Il est
important de prvoir ce genre dinformation dans le questionnaire.
Les questions ouvertes dont les rponses sont rdiges (au lieu dtre numriques) ont des inconvnients.
Elles sont un fardeau parce que le rpondant doit dterminer lintention de la question et formuler une
rponse sans laide des catgories de rponse. Dans une enqute par autodnombrement, linscription de
la rponse demande du temps. Lors dune enqute assiste par intervieweur, la collecte, la saisie et le
codage des donnes sont un fardeau. Il est souvent difficile pour lintervieweur de saisir intgralement la
rponse du rpondant et, aprs la collecte, toutes les rponses diffrentes sont habituellement rparties en
catgories et un code numrique leur est attribu pour faciliter le traitement et lanalyse des donnes. Les
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
73
questions ouvertes se traduisent donc habituellement par un traitement plus cher, plus expos aux erreurs
et qui demandent plus de temps que les questions fermes.
Sil sagit de donnes numriques, Il est plus difficile de rpondre des questions ouvertes qu des
questions fermes, et la saisie des donnes est plus difficile et expose aux erreurs.
Exemples de questions ouvertes qui demandent des rponses rdiges :
Quels produits ou services offre votre entreprise?
Que pensez-vous faire dans cinq ans?
Veuillez faire davantage de commentaires sur les questions ou problmes considrs dans ce
questionnaire.
Exemples de questions ouvertes qui demandent des rponses numriques :
Quelle est votre meilleure estimation du revenu total avant impts et dductions de tous les
membres du mnage et de toutes sources depuis 12 mois?
Depuis combien dannes le propritaire actuel exploite-t-il ltablissement?
Au cours dun mois normal, combien de fois les membres de votre mnage utilisent-ils Internet
la maison?
Les questions fermes ont de nombreux avantages dont le plus important est quelles sont moins un
fardeau pour les rpondants, et la collecte et la saisie des donnes sont plus faciles et moins chres. Le
rpondant ragit plus rapidement et facilement parce quil choisit simplement la catgorie de rponse
approprie au lieu de formuler une rponse et de linscrire dans ses propres mots. Il rpondra
correctement sans doute plus souvent parce que les catgories de rponse indiquent la cible des questions.
Il est plus facile danalyser les donnes obtenues laide de questions fermes parce que les rponses sont
plus cohrentes et dj regroupes. Si une question est pose dans plusieurs enqutes, lutilisation des
mmes catgories de rponse facilite la comparaison entre les enqutes.
Les questions fermes ont plusieurs inconvnients. Pendant la formulation de la version prliminaire des
questions, il faut souvent faire des efforts pour laborer des catgories de rponse (c.--d. que le codage
est fait avant la collecte, mais lactivit peut quand mme tre difficile). Les catgories de rponse doivent
tre mutuellement exclusives et exhaustives comme dans tout codage. Si les catgories de rponse ne sont
pas clairement formules, le rpondant pourrait avoir davantage de problmes que si la question pose
tait ouverte. Les questions fermes suscitent une autre proccupation, savoir que les catgories de
rponse tant numres, le rpondant peut se sentir oblig de choisir une catgorie de rponse, peu
importe sil ou si elle a formul une rponse ou a mme les connaissances ncessaires pour rpondre la
question. Si la question demande une opinion, le rpondant peut tre oblig de choisir une catgorie qui
ne correspond pas son opinion, ou dexprimer une opinion lorsquen fait, il nen na pas. (Une catgorie
Ne sais pas ou Sans objet est parfois ajoute pour viter la situation. Dans le cas dun
questionnaire assist par intervieweur, il est pratique commune dajouter une catgorie de rponse
Refus .) Autre problme ventuel : les catgories de rponse peuvent simplifier exagrment un point
en confinant le rpondant une rponse possible.
Il y a plusieurs genres de questions fermes : les plus frquemment utilises sont les questions
dichotomiques, choix multiples, avec rponses cocher, avec classement et avec chelle dvaluation.
Elles sont dcrites ci-dessous.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
74
Le Chapitre 10 - Traitement donne davantage dinformation sur le codage des questions ouvertes et
fermes.
5.2.1 Questions dichotomiques
La question dichotomique est la version la plus simple dune question ferme. Il sagit souvent dune
question oui non et elle sert rpartir les rpondants en deux groupes distincts. La question
dichotomique permet aussi la slection pour viter de demander aux rpondants une srie de questions qui
ne sappliquent pas eux. La directive Passez la question X est ensuite inscrite immdiatement aprs
lune des catgories de rponse et les rpondants passent outre certaines questions. Cette instruction est
parfois appele aiguillage .
Par exemple :
Avez-vous fum des cigarettes hier?
P Oui
P Non ------------Passez la question 14


5.2.2 Questions choix multiples et avec rponses cocher
La question choix multiples demande au rpondant de slectionner une rponse dans une liste de choix
et la question avec rponses cocher demande au rpondant de choisir au moins une rponse dans la
liste. Dterminer sil sagit dune question choix multiples ou avec rponses cocher nest peut-tre pas
vident pour le rpondant. Il faut donc ajouter des instructions. Remarquez quune catgorie Autre
(prcisez) est habituellement ajoute pour garantir lexhaustivit de la liste.
Exemple de questions choix multiples :
De quel genre de logement sagit-il? (Cochez une rponse seulement.)
P Maison individuelle
P Maison jumele (en parallle)
P Maison sur jardin, en bande ou en range
P Duplex (superpos)
P Immeuble hauteur restreinte (moins de cinq tages)
P Crime violence
P Tour dhabitation (cinq tages ou plus)
P Autre (veuillez prciser)___________

Exemple de question avec rponses cocher :
Quel genre dhbergement avez-vous choisi pendant vos vacances? (Cochez toutes les rponses
appropries.)
P Htel (y compris maison de chambres pour touristes)
P Motel
P Camping ou parc de roulottes
P Rsidence damis ou de parents
P Cabine ou chalet louer
P Autre (centre dhbergement, universit, etc.)
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
75
Les catgories de rponse des questions choix multiples et avec rponses cocher demandent une
formulation attentive. La liste des catgories de rponse devrait tre mutuellement exclusive et
exhaustive. Les catgories de lexemple qui suit ne sont pas mutuellement exclusives, elles se
chevauchent :
Quel ge avez-vous?
P de 20 30 ans
P de 30 40 ans
P de 40 50 ans
P 50 ans ou plus

Un rpondant qui a 30, 40 ou 50 ans peut choisir deux catgories de rponse. Lanalyse des donnes serait
difficile parce quil est impossible de savoir quelle catgorie choisira ce rpondant. La liste des catgories
de rponse nest pas exhaustive et cest un autre problme. Si les moins de 20 ans font partie de la
population cible, comment rpondront-ils cette question? Voici un meilleur choix de catgories de
rponse :
Quel ge avez-vous?
P moins de 20 ans
P de 20 29 ans
P de 30 39 ans
P de 40 49 ans
P 50 ans ou plus

5.2.3 Questions avec classement
La question avec classement est un autre genre de question ferme et elle demande au rpondant dtablir
lordre des catgories de rponse, par exemple :
Voici une liste de certains moyens dont les gens se servent pour trouver un emploi. Veuillez les
classer par ordre defficacit en inscrivant 1 la mthode qui serait la plus utile, selon vous,
2 la mthode qui serait la plus utile en second lieu, et ainsi de suite.
____ Envoi de curriculum vitae par la poste
____ Annonces dans les journaux ou les revues
____ Centres demploi du gouvernement
____ Vrification auprs damis
____ Service de placement priv
____ Communication directe avec des employeurs
____ Autre (veuillez prciser) ________________________________
Les rpondants considrent souvent que le classement des catgories est un fardeau, surtout si les points
classer sont trs diffrents lun de lautre ou si linterview se droule au tlphone. Les questions avec
classement posent un autre problme : les carts dimportance des rponses classes sont inconnus et ne
sont probablement pas quivalents, cest--dire que lcart entre 1 et 2 ne peut tre considr comme
quivalent lcart entre 2 et 3. Voil qui complique lanalyse des donnes. Si trois rponses sont
inscrites pour tre classes, par exemple, le rpondant les classera 1, 2 et 3, mais il peut considrer que les
deux premires sont trs proches et que la troisime est loin derrire. Il est impossible dobtenir ce genre
dinformation simplement partir du classement. Autre inconvnient : le rpondant peut attribuer la
mme cote deux rponses ou plus. Dans lexemple ci-dessus, le rpondant peut attribuer la cote 1 la
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
76
rponse Annonces dans les journaux ou les revues et Centres demploi du gouvernement . Les
questions avec classement posent une autre difficult parce que les rpondants ne pourront peut-tre pas
classer tous les choix de la liste. Il peut tre raisonnable de prvoir quils en classeront seulement
quelques-uns (p. ex., cinq ou moins).
Voici un exemple de question avec classement qui demande au rpondant de slectionner les plus
importants lments et de classer seulement ceux qui sont importants.
Veuillez classer les cinq lments les plus importants qui influencent votre entreprise lorsquelle
choisit un transporteur. Linformation nous aidera cibler notre attention et nos ressources sur
les secteurs qui sont essentiels pour rpondre vos besoins de service.
Veuillez classer leur importance en inscrivant le chiffre 1 llment le plus important, selon
vous, 2 llment le plus important en second lieu, et ainsi de suite.
___ Transport sans dommage
___ Prix
___ Marketing et reprsentants des ventes
___ Reprsentants du service la clientle
___ Solution rapide des problmes de service
___ Traitement des rclamations de marchandise
___ Uniformit du service
___ Frquence du service
___ Priode en transit
___ Communication rapide des avis de retard de service
___ Prcision de la facturation
___ Autre (veuillez prciser)
5.2.4 Questions avec chelle dvaluation
Les questions avec lchelle dvaluation demandent au rpondant dvaluer leur rponse, par exemple :
tes-vous satisfait de notre service la clientle?
P Trs satisfait
P Satisfait
P Insatisfait
P Trs insatisfait

La formulation dune question avec chelle dvaluation demande plusieurs considrations.
Premirement, combien de catgories devrait avoir lchelle dvaluation? Elle pourrait en avoir
seulement deux daccord, pas daccord ou jusqu 10, partir de 1 (sans importance) jusqu 10
(extrmement important).
Deuximement, une question se pose, savoir si lchelle dvaluation devrait avoir ou non un choix
neutre, par exemple, ni satisfait ni insatisfait. En labsence dune possibilit neutre, le rpondant doit faire
un choix. Dautre part, les rpondants ont tendance choisir la rponse neutre si elle est ajoute. Il est
possible dajouter le choix neutre dans un questionnaire assist par intervieweur, mais sans loffrir au
rpondant. Il est alors slectionn seulement si le rpondant lexprime spontanment.

CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
77
Lexemple ci-dessus noffre pas de choix neutre comme celui ci-dessous.
tes-vous satisfait de notre service la clientle?
P Trs satisfait
P Satisfait
P Ni satisfait ni insatisfait
P Insatisfait
P Trs insatisfait

Troisimement, lors de la formulation dune question avec chelle dvaluation, il faut considrer lajout
de la catgorie Ne sais pas pas dopinion ou Sans objet , compte tenu de la question pose.
Lorsque vous posez une question sur un service en particulier que le rpondant na peut-tre jamais
utilis, par exemple, il faut ajouter la catgorie Sans objet .
Dans chacun de ces cas (nombre de catgories de lchelle dvaluation, ajout dun choix neutre, recours
la catgorie Sans objet ), la solution sera dtermine en tenant compte des objectifs de lenqute, du
point coter, de la mthode de collecte des donnes et des prfrences de lorganisme statistique.
La question avec classement prsente la section 5.2.3 sur le choix dun transporteur peut tre
reformule en question avec chelle dvaluation, comme suit :
Voici un certain nombre dlments qui influencent une entreprise lorsquelle choisit un
transporteur. Certains peuvent tre plus importants que dautres pour votre entreprise. Compte
tenu des priorits de votre entreprise, veuillez coter limportance de chaque lment de 1 10, 1
quivalant la cote Sans importance et 10 quivalant Extrmement important .
___ Transport sans dommage
___ Prix
___ Marketing et reprsentants des ventes
___ Reprsentants du service la clientle
___ Solution rapide des problmes de service
___ Traitement des rclamations de marchandise
___ Uniformit du service
___ Frquence du service
___ Priode en transit
___ Communications rapides des avis de retard de service
___ Prcision de la facturation
La version de la question avec chelle dvaluation demandera plus de temps en interview, mais il est plus
facile pour le rpondant de coter chaque catgorie de rponse au lieu de les classer. Cest particulirement
vrai pour les interviews tlphoniques.
5.3 Lignes directrices sur la rdaction des questions de lenqute
La formulation des questions devrait tre claire et significative pour les rpondants. Les donnes de
lenqute seront de qualit suprieure si les rpondants peuvent facilement comprendre la signification
des mots. Ils seront aussi davantage disposs donner de linformation, et en mesure de le faire, sils
comprennent clairement la question pose. Il est aussi essentiel que la comprhension des questions de
lenqute de la part des rpondants corresponde lintention du concepteur du questionnaire.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
78
La formulation dune question peut donner des rsultats fausss et des donnes denqute inexactes si les
rpondants :
- ne comprennent pas la signification des mots dans une question,
- ninterprtent pas les mots selon lintention du concepteur,
- ne connaissent pas les concepts vhiculs dans la formulation dune question.
Les sections suivantes dcrivent certaines lignes directrices gnrales considrer pour viter ces
problmes.
5.3.1 La simplicit est de rigueur
Le meilleur moyen de communiquer clairement avec les rpondants est dutiliser des mots simples,
quotidiens, et de vrifier si tous les termes sont appropris pour la population qui fait lobjet de lenqute.
Le langage de la question suivante nest ni simple ni quotidien.
tes-vous conscient de la fusion imminente des circonscriptions proximit de la nouvelle rgion
mtropolitaine?
De nombreux rpondants de lenqute pourraient ne pas connatre ou comprendre la signification des
termes et des expressions fusion imminente, circonscriptions ou nouvelle rgion mtropolitaine.
Il faut toujours considrer les aptitudes linguistiques des rpondants lors de llaboration des questions. IL
est prfrable de choisir des mots faciles comprendre pour tout le monde. Si lenqute cible une
population ayant une scolarit plus pousse, par exemple des avocats, des enseignants ou dautres
professionnels, il est possible davoir recours un langage plus complexe. En bout de ligne, le langage
utilis devrait correspondre la comprhension moyenne de la population cible.
Les termes techniques ou le jargon spcialis que les rpondants ne connaissent pas sont viter. Si ces
termes sont ncessaires, cependant, il faudrait ajouter des prcisions ou des dfinitions lintention des
rpondants. Il faut dfinir les concepts nouveaux ou complexes pour que tous les rpondants aient la
mme comprhension de la question. Les dfinitions peuvent tre ajoutes la question, aux instructions
lintention des rpondants imprimes ailleurs dans le questionnaire ou un cahier dinstructions distinct
(un cahier distinct a cependant moins de chance dtre lu).
Les termes de la question suivante ne sont ni simples ni communs.
Le vaccin antipneumococcique vous a-t-il t administr?
La majorit des citoyens dans la population en gnral ne connaissent probablement pas le terme mdical
antipneumococcique et il sera donc difficile de rpondre la question. De nombreuses personnes ne
pourront probablement pas donner une rponse prcise. Voici une meilleure formulation :
Avez-vous t vaccin contre la grippe?
5.3.2 Dfinition des acronymes et des abrviations
Les textes techniques et scientifiques sont souvent truffs dacronymes et dabrviations, ainsi que
dexpressions juridiques et dentreprise. Il vaut mieux les utiliser dans les contextes o les lecteurs
connaissent bien la matire. Lors des enqutes auprs du grand public, il faudrait les viter, sauf sils sont
bien connus. Il sera probablement plus facile de comprendre clairement les questions si elles comprennent
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
79
la rdaction complte du mot, du terme ou de lorganisme cibl, au lieu dune abrviation. Il faut toujours
dfinir dabord les abrviations et les acronymes utiliss.
La question suivante comprend un acronyme qui peut semer la confusion chez les rpondants.
Savez-vous o est situ le bureau de lARAP le plus prs?
De nombreux rpondants ne sauront pas que lARAP est lacronyme de lAdministration du
rtablissement agricole des Prairies.
5.3.3 Vrification de la pertinence des questions
Il est important de faire un effort pour minimiser le fardeau des rpondants. Un important moyen cette
fin est de faire en sorte que seules les questions pertinentes soient poses aux rpondants. Cette mesure
diminue la longueur des interviews, le temps de participation des rpondants et les cots de lenqute.
La question suivante, par exemple, ne sapplique pas tous les rpondants, seulement ceux qui ont un
emploi.
Quelle est votre occupation actuelle dans la population active?
Cette question devrait suivre une question de slection conue pour dterminer si un rpondant a un
emploi et elle devrait tre pose seulement ceux qui ont indiqu quils en ont un. Mme si la question
semble anodine, elle pourrait irriter ceux qui nont pas demploi.
Les concepteurs de questionnaire devraient aussi dterminer si les rpondants ont suffisamment de
connaissances pour rpondre la question pose. Sinon, ils peuvent choisir de ne pas rpondre ou donner
une rponse errone. Peu de citoyens dans le grand public ont des connaissances suffisamment
spcialises, par exemple, pour donner une rponse informe la question suivante.
Lincinration 1 600
o
C pendant 30 minutes est-elle suffisante, votre avis, pour liminer les
biphnyles polychlors?
5.3.4 La prcision est de rigueur
La rdaction des questions de lenqute doit tre aussi prcise que possible pour garantir que les
rpondants comprennent exactement ce quon attend deux. Un processus semblable celui qui est
appliqu pour dfinir les concepts, prsent au Chapitre 2 - Formulation de lnonc des objectifs, est
appliqu ici cette fin. Le concepteur du questionnaire doit demander : Qui? Quoi? O? et Quand? Il faut
prciser clairement pour chaque question :
- qui sapplique-t-elle?
- Quelle information faut-il ajouter la rponse ou y retrancher?
- Quelles units doit donner la rponse (p. ex., kg ou lb)?
- La question vise quelle priode (Quand?)?
La question suivante peut sembler simple et directe premire vue.
Quel est votre revenu?
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
80
la rflexion cependant, il nest pas si facile dy rpondre. Premirement, votre dsigne qui? Ce nest pas
vident. Il faudrait prciser sil sagit-il du revenu personnel du rpondant, de celui de la famille ou du
mnage. Deuximement, pour quelle priode de rfrence le rpondant devrait-il donner linformation sur
le revenu? La semaine dernire, le mois dernier, lan dernier? Enfin, quest-ce que le rpondant devrait
considrer comme revenu? Le salaire et les traitements seulement? Le salaire et les traitements, y compris
les gratifications? Le salaire, les traitements et les revenus dautres sources? Autre chose?
Voici deux exemples de formulation amliore de la question (si le terme mnage a t dfini pour le
rpondant).
Quel a t le revenu total de toute source de votre mnage avant impt et dductions lan
dernier?
Quel a t le revenu total de votre mnage avant dductions lan dernier? Ajoutez les revenus
tirs des traitements, des salaires et de toute autre source.
La question suivante illustre le problme possible lorsque la formulation dune question nest pas
suffisamment prcise. On a prsent au rpondant une bouteille de boisson lorange avant quil rponde
cette question dune enqute (Poursuite au civil 47LL (1945), U.S. D.C. N.J., U.S. c. 88 cas boisson
lorange Bireley).
Combien de jus dorange contient cette boisson votre avis?
Voici des exemples de nombreuses rponses diffrentes possibles :
P une orange, un peu deau et de sucre
P 25 % de jus dorange et 75 % deau gazifie
P jus dune demi-douzaine doranges
P trois onces de jus dorange
P concentration intgrale
P un quart de tasse de jus dorange
P aucun
P trs peu
P un quart de jus dorange
P trs peu de jus dorange, sinon aucun
P ne sais pas
P pas beaucoup
P de trois quatre onces de jus dorange
P une chopine
P en majeure partie
P environ un verre et demi

Voici des formulations plus prcises de la question sur le jus dorange :
Cette bouteille contient 300 ml dune boisson. Combien de mililitres de jus dorange contient-elle
votre avis? __ ml
Cette boisson contient quel pourcentage de jus dorange votre avis? ___ %
Quelle proportion de cette boisson un quart, une demie, trois quarts, ou laquelle est du jus
dorange, votre avis? ___
Chacune de ces questions demande une rponse en units particulires : mililitres, pourcentage, fraction.
Lorganisme statistique qui pose des questions ainsi formules obtiendra davantage de rponses en units
mentionnes dans la question.
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
81
5.3.5 Les questions deux volets
Une question deux volets est en fait une question qui en pose deux. Elle couvre plus dun concept en
gnral, par exemple :
Prvoyez-vous laisser votre automobile la maison et emprunter lautobus pour aller au travail
lanne prochaine?
Certaines personnes auront de la difficult rpondre cette question parce que leur situation personnelle
ne correspond peut-tre pas simplement une rponse par oui ou non. Un rpondant peut prvoir,
notamment,
- dutiliser parfois lautomobile et demprunter lautobus dautres occasions,
- de toujours laisser lautomobile la maison et daller au travail bicyclette,
- daller au travail en automobile, mais parfois bicyclette,
- de toujours laisser lautomobile la maison et de se rendre au travail par dautres moyens,
- daller au travail en automobile parfois et demprunter autrement divers moyens,
- de choisir une autre combinaison.
La question est rellement double : Prvoyez-vous laisser lautomobile la maison lanne prochaine? et
Prvoyez-vous emprunter lautobus pour aller au travail lanne prochaine? La meilleure solution peut
tre de formuler deux questions.
Les concepteurs de questionnaire devraient examiner toutes les questions qui contiennent les mots et et ou
pour vrifier si elles pourraient semer la confusion chez les rpondants. Il serait bon dexaminer lobjectif
de ces questions pour dterminer si une question unique est approprie ou sil vaudrait mieux :
- formuler au moins deux questions :
- mettre en vidence les principaux mots dans la question,
- ajouter des instructions pour prciser,
- donner des exemples,
- poser seulement les questions pertinentes aux objectifs de lenqute.
Ceci dit, il est important de savoir que les questions qui contiennent les mots et et ou ne sont pas
ncessairement toutes des questions deux volets, par exemple :
Quelle est la premire langue que vous avez apprise et que vous comprenez toujours?
Lobjectif de cette question est de dterminer, parmi les langues que comprend le rpondant, celle quil a
apprise en premier. La rponse pertinente est la langue qui rpond aux deux conditions de la question.
Voil qui peut sembler vident pour le concepteur du questionnaire, mais certains rpondants pourraient
hsiter rpondre. Il serait bon de donner des instructions avec des exemples pour aider le rpondant
comprendre ce quon lui demande, et dinsister sur le mot et dans la question, par exemple :
Quelle est la langue que vous avez apprise en premier et que vous comprenez toujours?
(Instructions au rpondant : Cette question est pose pour dterminer la langue qui rpond
aux deux conditions, la langue que vous avez apprise en premier et que vous comprenez
toujours. Une personne peut avoir appris le chinois dabord, mais ne plus le comprendre
parce quelle a immigr trs jeune au Canada. Le chinois serait donc une rponse inexacte
parce quelle ne rpond pas aux deux conditions de la question. La deuxime langue apprise
tait langlais et la personne le comprend toujours. Dans ce cas, la rponse exacte la
question est langlais, langue que le rpondant a appris en premier lieu et quil comprend
toujours.)
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
82
5.3.6 Les questions suggestives
Une question suggestive ou insidieuse suggre une certaine rponse ou incite le rpondant en choisir
une en particulier. Autrement dit, la formulation de la question a des rpercussions sur les rponses. Les
questions suggestives peuvent fausser les rponses et avoir des rpercussions sur les rsultats de
lenqute.
Question suggestive :
Veuillez prciser si vous tes daccord avec lnonc suivant, si vous ntes pas daccord ou si
vous navez aucune opinion : Le tourisme est avantageux pour le comt de Northumberland et
il faudrait donc en faire la promotion .
Question neutre :
Veuillez prciser si vous tes daccord avec lnonc suivant, si vous ntes pas daccord ou si
vous navez aucune opinion : Il faudrait faire la promotion du tourisme pour le comt de
Northumberland .
Les questions denqute devraient tre formules pour que toutes les possibilits soient videntes pour le
rpondant. Autrement, la question pourrait tre suggestive et avoir des rpercussions ngatives sur les
rsultats de lenqute. Il y a une seule rponse possible la question suivante (Payne, 1951).
Pensez-vous que la majorit des entreprises de fabrication qui mettent pied des travailleurs
pendant les priodes creuses devraient prendre des dispositions pour viter les mises pied et
donner du travail rgulier pendant toute lanne?
P Oui
P Non
P Aucune opinion

Rsultats
63 % Oui, les entreprises peuvent viter les mises pied
22 % Non, les entreprises ne peuvent viter les mises pied
15 % Aucune opinion
La seule possibilit offerte aux rpondants dans cette question est de prciser, leur avis, si les entreprises
peuvent prendre des dispositions pour viter les mises pied. Lorsquil y a une seule possibilit, les
rpondants ont souvent tendance en convenir. Dans cet exemple, 63 % des rpondants sont davis que
les entreprises peuvent viter les mises pied, et cest la seule option prsente dans la question. Voici
une autre formulation possible de la mme question.
Pensez-vous que la majorit des entreprises de fabrication qui mettent pied des travailleurs
pendant les priodes creuses pourraient prendre des dispositions pour viter les mises pied et
donner aux employs du travail rgulier pendant toute lanne, ou pensez-vous que les mises
pied sont invitables?
P Oui, les entreprises peuvent viter les mises pied
P Non, les mises pied son invitables
P Aucune opinion

Rsultats
35 % Oui, les entreprises peuvent viter les mises pied
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
83
41 % Non, les mises pied sont invitables
24 % Aucune opinion
La question comprend deux possibilits videntes : les entreprises peuvent viter les mises pied et les
mises pied sont invitables. Les rsultats de cette question sont mieux rpartis que ceux de la question
prcdente entre oui, non et aucune opinion.
La prsentation dautres rponses possibles la question incite davantage les gens, en thorie, rflchir
la rponse avant de rpondre et la rponse est donc plus fiable.
5.3.7 Les ngations doubles
Il faudrait viter les structures de phrase qui contiennent des ngations doubles parce que le rpondant ne
saura pas sil est daccord ou pas. Voici un exemple :
Seriez-vous pour ou contre linterdiction de la vente dalcool dans les dpanneurs?
Le rpondant devra dterminer, pour rpondre la question, que sil est pour linterdiction de la vente
dalcool dans les dpanneurs, il est contre lautorisation. De mme, sil est contre linterdiction de la
vente, il est donc pour lautorisation.
La question est difficile parce quelle comprend une ngation double : contre et interdiction sont deux
ngations. Les questions formules laide dune ngation double sment souvent la confusion chez les
rpondants qui, leur insu, peuvent donner une rponse qui contredit leurs convictions. Il vaut mieux
reformuler la question qui devrait contenir une seule ngation. Voici une version plus claire de la
question :
Seriez-vous pour ou contre lautorisation de la vente dalcool dans les dpanneurs?
5.3.8 Les rpercussions des questions caractre dlicat
Les questions personnelles, menaantes ou caractre dlicat, de lavis du rpondant, peuvent donner une
rponse biaise socialement convenable. Les rpondants ont tendance choisir la rponse la plus
favorable pour lestime de soi, ou qui convient aux normes sociales, au lieu dexprimer une conviction ou
de rvler la vrit. Le rsultat possible est une sous-dclaration des caractristiques ou comportements
mesurs.
Les questions suivantes, par exemple, peuvent donner des rponses biaises socialement convenables :
Y a-t-il eu une priode o vous navez pas t en mesure de garantir la subsistance de votre
famille?
Avez-vous dj conduit un vhicule automobile sous linfluence de lalcool?
Quel est votre revenu?
Combien pesez-vous?
Combien de fois avez-vous particip des groupes de discussion sur Internet le mois dernier?
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
84
Avez-vous dj considr le suicide?
Il est mentionn au Chapitre 4 - Mthodes de collecte des donnes que certaines mthodes (cest--dire
les questionnaires denqute par autodnombrement et les enqutes tlphoniques) sont plus anonymes
que dautres et les questions caractre dlicat sont donc moins menaantes pour les rpondants. Si un
intervieweur administre le questionnaire, les questions caractre dlicat, en particulier, ne devraient pas
tre poses un rpondant en prsence dautres personnes.
La formulation prudente peut aussi aider diminuer les rpercussions de questions caractre dlicat sur
les rponses de lenqute. Il y a plusieurs techniques appliquer pour poser une question caractre
dlicat de faon moins menaante. Une approche appliquer avant de poser la question est de suggrer
que le comportement caractre dlicat nest pas inhabituel. Certaines expressions, notamment de
nombreuses personnes ou la majorit des gens, peuvent aider poser la question. Si cette technique est
applique, il faut viter les biais (c.--d. que la question ne devrait pas inciter le rpondant dclarer un
comportement quil na jamais eu). Poser des questions prliminaires est une autre technique qui permet
den arriver poser la question caractre dlicat aprs un certain nombre de questions pertinentes
caractre moins dlicat. Une troisime technique est le recours une question ferme ayant un ventail de
catgories de rponses. Dans le cas des renseignements personnels, cest--dire lge, le revenu ou la
frquence du comportement indsirable notamment, le rpondant peut tre mieux dispos rpondre la
question si un ventail de rponses est ajout. Voici un exemple :
Quel a t votre revenu total avant dductions lan dernier? (Ajoutez les revenus tirs des
traitements, des salaires et de toute autre source.)
P moins de 20 000 $
P de 20 000 $ 39 999 $
P de 40 000 $ 59 999 $
P de 60 000 $ 79 999 $
P de 80 000 $ 99 999 $
P 100 000 $ ou plus


5.3.9 La lisibilit des questions
Les questions de lenqute devraient tre aussi concises que possible et en langage quotidien pour que la
population cible nait pas de problmes de comprhension. Le questionnaire devrait tre rdig la
deuxime personne (vous) pour que les rpondants le considrent moins froid, plus personnel, et il
faudrait respecter les rgles de grammaire.
Le plus important test est de vrifier la raction lorsque les questions sont lues haute voix. Elles
devraient sembler naturelles, avoir un ton de dialogue et tre faciles suivre pour celui qui coute. La
question suivante ne respecte pas cette ligne directrice.
Quelle cote attribueriez-vous lutilit de la prestation de linformation sur les caractristiques
psychologiques et sociologiques de la transition, notamment, laccs au programme informatis
dorientation professionnelle interactive quoffre le bureau rgional du ministre aux employs
qui prennent leur retraite, lorsquil est disponible et conformment la dcision de lagent du
personnel rgional?
Cette question est trop longue, le langage est complexe, la construction est complique, elle semble rigide
et bureaucratique, et il est donc difficile de la comprendre et dy rpondre cause de ces caractristiques.
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
85
5.4 Erreur de rponse
Au Chapitre 3 - Introduction au plan denqute, lune des sources derreur non due lchantillonnage
qui a t considre tait lerreur de mesure qui est la diffrence entre la rponse enregistre une
question et la vraie valeur. Dans la documentation sur la conception du questionnaire, cette erreur est
plus souvent intitule erreur de rponse. Le questionnaire tant un moyen de collecte des donnes, il est
donc une source importante derreurs de rponse. Il est donc essentiel de concevoir le questionnaire et de
le mettre lessai pour minimiser ces erreurs.
5.4.1 Sources derreur de rponse
Les erreurs de rponse sont possibles nimporte o dans le processus denregistrement des questions et
rponses. Les erreurs peuvent tre attribues au questionnaire, au rpondant, lintervieweur, la
mthode de collecte des donnes ou loutil de mesure (dans le cas dune enqute avec mesure directe).
Les sources derreur de rponse due au questionnaire ont dj t mentionnes aux sections prcdentes.
Les questions fermes, par exemple, peuvent inciter le rpondant choisir une rponse, peu importe sil a
une opinion ou non, ou sil a mme les connaissances suffisantes pour rpondre la question, et les
rponses biaises socialement convenables peuvent tre un problme dans le cas des questions caractre
dlicat. Toute question mal formule peut tre mal interprte. Voici en gnral les explications des
erreurs de rponse occasionnes par le questionnaire :
- le genre de question (ouverte ou ferme),
- la formulation de la question,
- la longueur du questionnaire (peut fatiguer le rpondant),
- la prsentation du questionnaire (p. ex., les instructions Passez compliques peuvent occasionner
des erreurs, en particulier dans les questionnaires sur support papier) (voir la Section 5.5),
- le traitement du questionnaire (voirla Section 5.6).
Le rpondant peut aussi avoir de la difficult se remmorer des comportements ou des vnements
antrieurs. Cette source derreur de rponse est intitule erreur de mmorisation. Lune des erreurs de
mmorisation est lerreur de mmoire, cest--dire que le rpondant ne se souvient pas de tous les
vnements qui se sont drouls au cours de la priode de rfrence. Le rsultat est une sous-dclaration
des comportements ou des vnements. La situation inverse est aussi possible. Le rpondant peut dclarer
des activits qui se sont droules hors de la priode de rfrence pensant quelles en faisaient partie.
Cette source derreur est intitule erreur de tlescopage et le rsultat est habituellement une
surdclaration des comportements manifests ou des vnements. La situation sexplique ainsi : le
rpondant tendance dclarer que des comportements se sont manifests ou des vnements ont eu lieu
plus rcemment que ce nest le cas en ralit. Il sagit de tlescopage en aval. Le rpondant peut dclarer
loccasion que des comportements se sont manifests ou des vnements ont eu lieu plus longtemps
auparavant que ce nest le cas en ralit. Cette erreur est intitule tlescopage en amont. En gnral, plus
la priode de rfrence est longue, plus grande est la perte de mmoire (et ainsi, la possibilit derreurs de
mmoire). Les priodes de rfrence plus brves ont cependant tendance augmenter les erreurs de
tlescopage.
Les enqutes ritres peuvent poser ce quon appelle un problme de concordance lorsquun nombre
particulirement important de changements sont dclars la lisire de deux priodes de rfrence
comparativement au nombre de changements pendant la priode de rfrence. La situation peut tre
corrige laide de linterview connexe.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
86
Voici des exemples de questions qui exigent que le rpondant se souvienne dvnements ou de
comportements antrieurs :
Combien de fois avez-vous visit le mdecin depuis 12 mois?
Quelles revues avez-vous lues le mois dernier?
Quelles missions de tlvision avez-vous coutes la semaine dernire?
Les intervieweurs peuvent aussi tre une source derreur de rponse. Chaque intervieweur doit poser la
question de la mme manire chaque interview. Sil y a plusieurs interviews et si un intervieweur
modifie la formulation dune question, la signification de la question peut alors changer. Les
intervieweurs peuvent aussi faire erreur lorsquils enregistrent la rponse, par ngligence ou dlibrment
(convaincus que le rpondant aurait d rpondre diffremment), ou en interprtant mal la rponse. Dans
les enqutes avec mesure directe, lintervieweur peut mesurer la caractristique (p. ex., tension artrielle)
et faire erreur. Lintervieweur, compte tenu de sa raction aux rponses, peut aussi influencer le
comportement du rpondant. Si lintervieweur exprime son tonnement, par exemple, lorsque le
rpondant prcise combien il dpense en vtements, celui-ci peut dclarer des montants moindres pour les
autres questions sur les dpenses.
5.4.2 Techniques de rduction des erreurs de rponse
Il est possible didentifier les sources derreur de rponse et dappliquer des techniques pour rduire les
rpercussions de ce genre derreurs.
La longueur des questions peut avoir des rpercussions sur les erreurs de rponse. Les questionnaires
couvrent souvent divers sujets. Si lintervieweur administre le questionnaire, il est difficile pour le
rpondant de prvoir la question suivante. Le recours des questions plus longues, mais quand mme
prcises, simples et claires, est une technique qui aide le rpondant cibler un nouveau sujet. Une version
plus longue dune question donne davantage de temps au rpondant pour formuler une rponse. La
recherche suggre quune question plus longue peut inciter le rpondant sexprimer davantage, ce qui
peut raviver des souvenirs. Le rpondant peut aussi avoir davantage de temps pour rflchir et donner une
rponse plus complte.
Question brve :
Quels problmes de sant avez-vous eus lan dernier?
Longue question :
La question suivante porte sur les problmes de sant lan dernier. Nous posons la question
chacun dans lenqute. Quels problmes de sant avez-vous eus lan dernier?
Afin de rduire les erreurs de rponse des intervieweurs, ils devraient tre bien forms et des procdures
de contrle qualitatif, notamment des techniques de rinterview, devraient tre appliques, pour identifier
les problmes et donner une nouvelle formation aux intervieweurs, au besoin.
Il faut faire tous les efforts possibles pour produire un questionnaire bien conu, selon la description dans
ce chapitre, afin de rduire les erreurs de rponse que peut susciter le questionnaire.
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
87
Si des problmes de mmoire sont reprs dans un questionnaire, les techniques suivantes peuvent tre
appliques, en tout ou en partie :
i. La priode de rfrence peut tre abrge sil est dtermin que le rpondant a de la difficult se
remmorer tous les vnements qui se sont drouls pendant cette priode.
Ce problme est possible quand les occurrences sont frquentes. Si la question demande le nombre de
visites du rpondant chez le mdecin lan dernier, par exemple, il peut tre difficile de se souvenir de
chaque occurrence sil a visit souvent le mdecin. Si la priode de rfrence est plus courte, les rponses
peuvent tre plus prcises. Il faut cependant viter une priode de rfrence trop brve parce que le
nombre dvnements dclars serait insuffisant. La longueur optimale de la priode de rfrence peut
tre dtermine pendant lvaluation du questionnaire.
ii. Un calendrier ou des points de repre comme les congs fris peuvent aussi aider minimiser les
erreurs de mmoire.
iii. Le rappel born est une technique de diminution des erreurs de tlescopage.
Les rpondants sont interviews au dbut et la fin de la priode de rfrence. Les vnements identifis
la premire interview peuvent tre retranchs sils sont dclars de nouveau pendant la deuxime
interview.
iv. Linterview connexe est aussi un moyen de diminuer les erreurs de rponse dans les enqutes
ritres.
Au cours de linterview connexe, linformation que le rpondant a donne pendant un cycle prcdent de
lenqute est disponible pour les cycles ultrieurs. Cette mesure peut aider le rpondant situer les
vnements dans la priode de rfrence voulue et lempcher de dclarer des vnements mentionns
auparavant.
v. Si le rpondant a de la difficult dclarer un vnement avec prcision, il peut tre possible de
consulter des dossiers.
Si la question demande au rpondant de dclarer son revenu lan dernier, par exemple, il pourrait
confirmer sa rponse en consultant sa dclaration de revenus. Le rpondant peut aussi tenir des dossiers
dans dautres situations. Certaines personnes ont des dossiers des dpenses du mnage, notamment, les
factures mensuelles de tlphone ou les reus dachat dessence. La consultation des dossiers pour
diminuer les erreurs de mmoire est probablement davantage applique au questionnaire de lenqute par
autodnombrement.
vi. Un autre moyen utile pour les questionnaires de lenqute par autodnombrement est le journal.
Lorsquil est important dobtenir de linformation dtaille sur une priode prolonge, le rpondant peut
utiliser un journal pour entrer les vnements mesure. Le journal a tendance servir aux enqutes sur
les dpenses des mnages, la consommation des aliments, lemploi du temps, lcoute de la tlvision et
de la radio.
Dans le cas des questionnaires assists par intervieweur, dautres techniques peuvent aider le participant
rpondre prcisment aux questions. Si vous demandez au rpondant de dclarer les aliments consomms
sur une priode de 24 heures, il peut tre difficile dindiquer les portions. Lintervieweur peut avoir
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
88
recours des moyens visuels qui indiqueraient la taille des diverses portions et le rpondant pourrait
slectionner celle qui convient.
Dautres points du plan denqute, notamment le dlai dexcution de la collecte des donnes, peuvent
aussi amliorer la mmoire, par exemple, lordonnancement dune enqute sur les revenus en avril.
5.5 Prsentation du questionnaire
Au genre de questions et leur formulation sajoutent lordre des questions, les noncs de transition, les
instructions et la mise en forme du questionnaire qui sont aussi des lments importants pour crer un
questionnaire de qualit.
5.5.1 Ordonnancement des questions
Lordre des questions devrait tre conu pour maintenir lintrt du rpondant et linciter remplir le
questionnaire ou rpondre linterview. La squence des questions devrait tre logique pour le
rpondant et faciliter le rappel la mmoire. Les questions devraient couler doucement de lune lautre.
Il faudrait regrouper les questions sur un mme sujet.
i. Introduction
Lintroduction lenqute, que lit le rpondant ou qui lui est lue, est trs importante parce quelle donne
le ton tout le questionnaire. Lintroduction du questionnaire devrait :
- donner le titre ou le sujet de lenqute,
- identifier le commanditaire de lenqute,
- exprimer lobjectif de lenqute,
- demander la collaboration du rpondant,
- expliquer pourquoi il est important de remplir le questionnaire,
- garantir que le rpondant comprend clairement la valeur de ses renseignements,
- souligner comment seront utilises les donnes de lenqute,
- prciser comment le rpondant peut avoir accs aux rsultats de lenqute,
- indiquer que les rponses seront confidentielles et ajouter toute entente dchange de donnes avec
dautres organismes statistiques, ministres, clients, etc.,
- donner ladresse et la date de retour pour le questionnaire denqute envoy par la poste.
ii. Questions dentre en matire
Les questions dentre en matire sont importantes pour inciter le rpondant participer lenqute. La
premire question devrait porter directement sur lobjectif de lenqute et cibler tous les rpondants,
autrement, le rpondant remettra en question la pertinence de lenqute. Les premires questions devraient
aussi tre faciles rpondre. Commencer par une question ouverte qui demande une rponse dtaille
peut donner une non-rponse si le questionnaire est considr comme un fardeau trop lourd pour y donner
suite.
iii. Rpartition des questions caractre dlicat
Il faudrait considrer attentivement o intgrer les questions caractre dlicat. Si elles sont poses trop
tt, le rpondant peut hsiter y rpondre, mais si elles sont poses la fin dun long questionnaire, la
fatigue du rpondant peut avoir des rpercussions sur la qualit des rponses. Il faudrait donc poser des
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
89
questions caractre dlicat au moment o le rpondant est probablement le plus laise pour y rpondre
et lorsquelles sont les plus significatives dans le contexte des autres questions. Les questions caractre
dlicat sur la sant, par exemple, devraient tre poses la section o sont poses les autres questions
pertinentes la sant.
iv. Rpartition des questions dmographiques et de classification
Ces renseignements sont souvent utiliss des fins de regroupement pour analyser les donnes et faire des
comparaisons entre des enqutes. Il faudrait expliquer pourquoi ce genre de questions est pose, par
exemple, les quelques questions suivantes aideront comparer linformation sur votre sant celle
dautres personnes ayant des antcdents semblables. Dans le cas des enqutes sur les mnages et
dautres enqutes sociales, linformation dmographique est reporte loccasion la fin du
questionnaire.
5.5.2 noncs de transition
Les noncs de transition des questionnaires servent prsenter des sections de questions connexes.
Ils sont importants dans les questionnaires assists par intervieweur parce quils indiquent au
rpondant quun nouveau sujet sera considr, par exemple :
Partie A - Nous voulons dabord obtenir des renseignements gnraux sur votre exploitation
agricole.
Partie B - Nous voulons maintenant obtenir de linformation sur votre superficie en culture
lan dernier.
Partie C - Les questions suivantes portent sur les dclarations de revenus de votre
exploitation agricole lan dernier.
5.5.3 Instructions
Le questionnaire assist par intervieweur ou celui de lenqute par autodnombrement devrait
comprendre des instructions claires, brves et faciles trouver. Ces instructions peuvent tre inscrites
directement au-dessus des questions cibles, au dbut du questionnaire, dans un guide distinct qui
accompagne les questions, dans un encart, etc.
Les instructions de lexemple suivant sont ajoutes en caractres gras la deuxime question.
Vous avez travaill pour qui?
De quel genre dentreprise, dindustrie ou de service sagissait-il? Donnez une description
complte. Fabrication de botes en carton, par exemple, voirie, vente de chaussures au
dtail, etc.
Si les instructions sont entres ailleurs dans le questionnaire, le rpondant ou lintervieweur doit
savoir o les trouver. La question pourrait, par exemple, prciser au rpondant que les instructions
sont dans un guide de rfrence. Les instructions sont parfois ajoutes au dbut du questionnaire ou
au dbut dune section du questionnaire, par exemple :
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
90
Nota : Les questions suivantes ciblent votre travail ou votre entreprise la semaine dernire.
Si vous naviez pas de travail ou dentreprise la semaine dernire, rpondez en tenant compte
de lemploi qui a dur le plus longtemps depuis le 1
er
janvier. Si vous avez eu plus dun
emploi la semaine dernire, rpondez selon lemploi o vous avez travaill pendant le plus
grand nombre dheures.
Dans lexemple prcdent, les directives sont inscrites avant les questions poses et elles peuvent tre
prsentes dans un style de caractres diffrent de celui des questions.
Les dfinitions devraient tre inscrites au dbut du questionnaire si elles sont pertinentes lensemble des
questions, autrement, elles peuvent tre ajoutes certaines questions en particulier, au besoin.
Lutilisation des caractres gras met laccent sur les points importants, par exemple les priodes de
rfrence ou de dclaration, et le rpondant rflchira probablement alors davantage en tenant compte de
la priode de rfrence de la question. Sil est ncessaire de prciser des points en particulier inclure ou
exclure, il vaut mieux ajouter ces remarques aux questions directement, et non dans les instructions
distinctes, par exemple :
Combien de pices y a-t-il dans ce logement?
- Comptez la cuisine, les chambres coucher, les pices habitables au grenier ou au sous-sol,
etc.
Lan dernier, un membre actif de cette exploitation agricole a-t-il t atteint dune lsion lie aux
activits agricoles qui a demand lattention mdicale dun professionnel de la sant (mdecin,
infirmire, etc.) ou qui a occasionn une perte de temps de travail?
- Comptez seulement les lsions des membres actifs de cette exploitation agricole.
- Ninscrivez pas les problmes de sant chroniques.
Quelle est la superficie totale des grandes cultures cibles pour la rcolte cette anne, mme si
elle a t cultive ou ensemence au cours dune anne prcdente?
- Comptez toutes les grandes cultures, peu importe si la superficie vous appartient, si elle est
loue ou si vous lavez loue bail.
- Comptez toutes les terres qui seront ensemences, mme si ce nest pas dj fait.
- Dclarez les secteurs seulement une fois, mme si plus dune culture sera rcolte cette anne.
Combien de semaines par anne travaillez-vous habituellement ce poste? Veuillez compter les
congs annuels et autres congs pays.
Les instructions Passez devraient tre clairement indiques dans les questionnaires sur support
papier. Des flches en gras bien situes devraient orienter le rpondant ou lintervieweur vers la question
approprie suivante. Les instructions Passez devraient tre clairement lies la case de rponse
pertinente (p. ex., laide de lignes traces directement vers la case ou le cercle de rponse). Enfin, il
faudrait minimiser les instructions Passez des questionnaires denqute par autodnombrement.
5.5.4 Considrations sur la mise en forme
Il y a de nombreuses considrations ne pas oublier lors de lorganisation des mots imprims sur support
papier ou affichs lcran. Il faudrait maintenir luniformit du style et de la police de caractres des
questions, instructions, enttes et noncs de transition. Le recours des polices et styles de caractres
diffrents pour les questions et les instructions permet au rpondant ou lintervieweur didentifier
facilement les questions. Les titres et enttes de section ont habituellement une police de caractres plus
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
91
larges que celle des questions et des catgories de rponse. Il faudrait numrer conscutivement les
questions dun bout lautre du questionnaire. Des nombres, titres ou lettres peuvent indiquer les
sections. Les codes dentre des donnes imprims dans le questionnaire ou affichs lcran devraient
tre clairement distincts des questions ou de la numrotation des questions.
Il serait bon dinscrire un titre ou une entte chaque section du questionnaire, par exemple :
INFORMATION AUX RPONDANTS

SECTION 1 : Information gnrale
SECTION 2 : Dclaration des revenus
SECTION 3 : Dpenses dimmobilisations
SECTION 4 : Population active
SECTION 5 : Commentaires
Il faut considrer toutes les caractristiques du questionnaire pertinentes sa prsentation. La couverture
avant dun questionnaire denqute par autodnombrement est extrmement importante parce quelle doit
attirer lattention du rpondant. Il faut prendre des dcisions sur le genre de papier et la taille du papier
utilis pour le questionnaire.
La couleur du questionnaire peut avoir plusieurs utilits. Diffrentes versions du questionnaire (p. ex.,
selon la langue) peuvent tre imprimes sur du papier de couleurs varies. Si le questionnaire est imprim
sur papier couleur, les cases de rponse sont blanches ou dun ton plus ple de la mme couleur. Voil qui
aide le rpondant ou lintervieweur dterminer correctement o rpondre chaque question.
Le recours des cases de rponse aux questions ouvertes et des cercles de rponse pour les questions
fermes est une convention qui aide aussi le rpondant ou lintervieweur. Il est plus facile de dterminer
o entrer la rponse laide de cette convention. Le cercle des catgories de rponse aux questions
fermes devrait tre dispos uniformment avant ou aprs la rponse. Des graphiques peuvent servir
amliorer le questionnaire. Les graphiques, sils sont appropris, peuvent aider indiquer les sujets de la
section, mais ils ne devraient pas empcher de remplir le questionnaire.
Dans le cas des applications dinterviews assistes par ordinateur, Statistique Canada a labor des
normes pour prsenter une interface commune tous les intervieweurs et rduire les cots de
dveloppement, de mise lessai et de formation. Ces normes sappliquent certains points, notamment,
- lutilisation de couleurs ou du noir et blanc,
- les polices de caractres,
- les cls de fonction,
- les cls de navigation,
- les crans de question standard,
- linterface Windows de Microsoft.
Ces normes sont donnes en dtail dans Screen Display and Functionality Standards for Social Survey
Full BLAISE Applications (2001) Normes relatives aux affichages et aux fonctions compltes des
applications BLAISE pour les enqutes sociales.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
92
5.6 Considrations sur le traitement lors de la conception du questionnaire
Le traitement est la mise en forme convenable des rponses de lenqute obtenues pendant la collecte
des donnes aux fins de la totalisation et de lanalyse des donnes. Il comprend toutes les activits de
traitement des donnes aprs la collecte et avant lestimation. Certaines activits, cest--dire la saisie, la
vrification et le codage des donnes, peuvent tre faites pendant la collecte des donnes laide dune
application assiste par ordinateur pour rationaliser le traitement.
Il faudrait considrer les tches de traitement pendant la conception et llaboration du questionnaire. Le
programme de codage devrait tre labor en mme temps que la formulation des questions. Il faudrait
imprimer les codes des questions fermes sur le questionnaire sur support papier. Il faudrait aussi
considrer la saisie des donnes lorsque les dcisions sont prises sur la prsentation du questionnaire sur
support papier.
La prsentation du questionnaire a des rpercussions sur la facilit de la saisie des donnes des
questionnaires sur support papier. Linscription uniforme de codes numriques aprs des catgories de
rponse et lalignement des questions en colonnes facilitent la saisie des donnes. Toutes les tapes de
traitement pertinentes au questionnaire (saisie des donnes, codage, etc.) devraient tre mises lessai
pour garantir lefficacit du questionnaire aux fins de ces oprations.
Il faudrait considrer les rpercussions de la formulation des questions sur la saisie des donnes. Chaque
questionnaire devrait comprendre un numro didentification unique pour faciliter la vrification de la
saisie des donnes. Il est parfois ncessaire de revenir au questionnaire original pour dterminer si
linformation a t saisie correctement. Il faudrait saisir les donnes des questionnaires sur support papier
le plus rapidement possible aprs les avoir reus. Cette mesure permet la mise en uvre de systmes
utiliss pour vrifier si linformation entre au fichier correspond celle du questionnaire.
Le Chapitre 10 - Traitement donne davantage de dtails ce sujet.
5.7 Sommaire
La conception et llaboration dun questionnaire ont t considres dans ce chapitre. La premire tape
est la formulation des objectifs de lenqute. Les rpondants et les utilisateurs des donnes sont ensuite
consults et les questionnaires denqutes semblables font lobjet dun examen. Vient ensuite la
formulation de la version prliminaire du questionnaire qui doit tre mise lessai et rvise
soigneusement avant dy apporter la touche finale. La mise lessai peut comprendre le prtest, la mise
lessai cognitif, les groupes de discussion, les comptes rendus des intervieweurs, le codage
comportemental, les mises lessai dchantillons fractionns et un essai pilote.
Il y a deux genres de questions : fermes ou ouvertes. Les questions fermes peuvent tre des questions
dichotomiques, choix multiples, avec classement ou avec chelle dvaluation. Les questions ouvertes
permettent lexpression personnelle, mais elles peuvent tre un fardeau, demander du temps et tre
difficiles analyser. Les questions fermes sont habituellement un fardeau moindre pour le rpondant, et
la collecte et la saisie des donnes cotent moins cher et sont plus faciles. Un choix mdiocre de
catgories de rponse peut cependant occasionner lerreur de rponse.
Il faudrait respecter les lignes directrices suivantes lors de la formulation dun questionnaire denqute :
- tre simple (la simplicit est de rigueur),
- dfinir les acronymes et les abrviations,
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
93
- vrifier si les questions sont pertinentes,
- tre prcis (la prcision est de rigueur),
- viter les questions deux volets,
- viter les questions suggestives,
- viter les ngations doubles,
- amenuiser les rpercussions des questions caractre dlicat,
- vrifier sil est facile de lire les questions.
Le questionnaire devrait tre conu pour minimiser les erreurs de rponse possibles. La prsentation du
questionnaire est aussi importante. Lintroduction et la rpartition squentielle des questions peuvent
susciter ou rprimer la participation des rpondants. Il faudrait utiliser des noncs de transition
prsentant les nouveaux sujets, et les instructions au rpondant ou lintervieweur devraient tre claires,
brves et faciles trouver. Il faudrait valuer la mise en forme gnrale du questionnaire pour en
dterminer les rpercussions sur le rpondant et lintervieweur : police de caractres, entte de section,
couleur du questionnaire, mise en forme des catgories de rponse, etc. Enfin, il faudrait considrer le
traitement du questionnaire : il devrait tre conu pour faciliter la collecte et la saisie des donnes.
Bibliographie
Advertising Research Foundation. 1985. Focus Groups: Issues and Approaches. Advertising Research
Foundation, Inc., New York, New York. 10022.
American Statistical Association. 1993. How to Conduct Pretesting. The Section on Survey Research
Methods. American Statistical Association.
Babyak, C., A. Gower, L. Gendron, J. Mulvihill et R.A. Zaroski. 2000. Testing of Questionnaires for
Statistics Canadas Unified Enterprise Survey. Proceedings of the International Conference on
Establishment Surveys II. American Statistical Association.
Biemer, P.P., R.M. Groves, L.E. Lyberg, N.A. Mathiowetz et S. Sudman, ds. 1991. Measurement Errors
in Surveys. John Wiley and Sons, New York.
Bishop, G.F. 1987. Experiments with the Middle Response Alternative in Survey Questions. Public
Opinion Quarterly, 51: 220-232.
Bureau of the Census. Pretesting Policy and Options: Demographic Surveys at the Census Bureau. U.S.
Department of Commerce, Washington, D.C.
Carlson, L.T., J.L. Preston et D.K. French. 1993. Using Focus Groups to Identify User Needs and Data
Availability. Proceedings of the International Conference on Establishment Surveys. American
Statistical Association. 300-308.
Converse, J.M. et S. Presser. 1986. Survey Questions: Handcrafting the Standardized Questionnaire.
Sage University Paper Series on Quantitative Applications in the Social Sciences. 07-063. Sage
Publications, Thousand Oaks, California.
Couper, M.P. 2001. Web Surveys. Public Opinion Quarterly, 64(4): 464-494.
Desvousges, W.H. et J.H. Frey. 1989. Integrating Focus Groups and Surveys: Examples from
Environmental Risk Studies. Journal of Official Statistics, 5(4): 349-363.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
94
Dillman, D.A. 1978. Mail and Telephone Surveys: The Total Design Method. John Wiley and Sons, New
York.
Dillman, D.A., M.D. Sinclair et J.R. Clark. 1993. Effects of Questionnaire Length, Respondent-friendly
Design, and a Difficult Question on Response Rates for Occupant-addressed Census Mail
Surveys. Public Opinion Quarterly, 57(3): 289-304.
Esposito, J.L., P.C. Campanelli, J.M. Rothgeb et A.E. Polivka. 1991. Determining Which Questions are
Best: Methodologies for Evaluating Survey Questions. Proceedings of the Section on Survey
Research Methods, American Statistical Association. 46-57.
Fowler, F.J., Jr. 1995. Improving Survey Questions: Design and Evaluation. Applied Social Research
Methods Series. 38. Sage Publications, Thousand Oaks, California.
Fowler, F.J., Jr. et T.W. Mangione. 1990. Standardized Survey Interviewing. Applied Social Research
Methods Series. 18, Sage Publications, Thousand Oaks, California.
Gower, A.R. 1994. Conception des questionnaires denqutes-entreprises. Tchniques denqute, 20(2):
129-142.
Gower, A.R. 1997. Prsentation des questions sous forme squentielle, matricielle, de feuillet unique et de
livret pour le questionnaire du recensement au Canada. Comptes-rendus du Symposium 97 de
Statistique Canada: nouvelles directions pour les enqutes et les recensements, Statistique
Canada. 251-256.
Gower, A.R. et G. Haarsma. 1997. A Comparison of Two Methods in a Test of the Canadian Census
Questionnaire: Think-aloud Interviews vs. Focus Groups. Proceedings of the Minimum Standards
in Questionnaire Testing Workshop. Statistics Sweden. 35-37.
Gower, A.R., B. Blanger et M.-J. Williams. 1998. Using Focus Groups with Respondents and
Interviewers to Evaluate the Questionnaire and Interviewing Procedures after the Survey Has
Taken Place. Proceedings of the 1998 Joint Statistical Meetings, Section on Survey Research
Methods. American Statistical Association. 404-409.
Gower, A.R., K. McClure, A. Paletta et M.-J. Williams. 1999. When to Use Focus Groups versus
Cognitive Interviews in the Development and Testing of Questionnaires: The Statistics Canada
Experience. Proceedings: Quality Issues in Question Testing (QUEST 99). Office for National
Statistics, England. 51-66.
Jabine, T., E. Loftus, M. Straf, J. Tanur, et R. Tourangeau, ds. Cognitive Aspects of Survey
Methodology: Building a Bridge Between Disciplines. National Academy of Science,
Washington, DC.
Kalton, G. and H. Schuman. 1982. The Effect of the Question on Survey Responses: A Review. Journal
of the Royal Statistical Society, 145(1): 42-73.
Krueger, R.A. 1997. Analyzing and Reporting Focus Group Results. Focus Group Kit. 6. Sage
Publications, Thousand Oaks, California.
Krueger, R.A. 1997. Developing Questions for Focus Groups. Focus Group Kit. 3. Sage Publications,
Thousand Oaks, California.
CONCEPTION DU QUESTIONNAIRE

STATISTIQUE CANADA
95
Morgan, D.L. 1997. Planning Focus Groups. Focus Group Kit. 2. Sage Publications, Thousand Oaks,
California.
Morgan, D.L. 1997. The Focus Group Guidebook. Focus Group Kit. 1. Sage Publications, Thousand
Oaks, California.
Oppenheim, A.N. 1992. Questionnaire Design, Interviewing and Attitude Measurement. Pinter
Publishers, London.
Payne, S.L. 1951. The Art of Asking Questions, Princeton University Press, Princeton, New Jersey
Platek, R., F.K. Pierre-Pierre et P. Stevens. 1985. laboration et conception des questionnaires
denqute. Statistique Canada. 12-519F.
Presser, S. et J. Blair. 1994. Survey Pretesting: Do Different Methods Produce Different Results?
Sociological Methodology, 24: 73-104.
Statistique Canada. 1994. Politique concernant lexamen et la mise lessai des questionnaires. Manuel
des politiques. 2.8.
Statistique Canada. 1996a. Politique dinformation des rpondants aux enqutes, Manuel des politiques.
1.1.
Statistics Canada. 2001. Screen Display and Functionality Standards for Social Survey Full BLAISE
Applications.
Statistics Canada. 2001. Standard Question Blocks for Social Survey Full BLAISE Applications.
Tourangeau, R., L.J. Rips et K. Rasinski, 2000, The Psychology of Survey Response, Cambridge
University Press, Cambridge, U.K.
www. statcan. gc. ca
P U B L I C AT I O N S L E CTRONI QUE S
D I S P O N I B L E S

STATISTIQUE CANADA
97
Chapitre 6 - Plans dchantillonnage

6.0 Introduction

Le Chapitre 3 - Introduction au plan denqute prcise quau cours de la phase de planification,
lorganisme statistique doit dterminer sil fait un recensement ou une enqute-chantillon. Si la dcision
est une enqute-chantillon, lorganisme doit donc prvoir comment slectionner lchantillon.
Lchantillonnage est un moyen de slectionner un sous-ensemble dunits dans une population aux
fins de la collecte de linformation sur ces units pour formuler des infrences sur lensemble de la
population.

Il a deux genres dchantillonnage : lchantillonnage probabiliste et non probabiliste. Il faut savoir si des
infrences fiables seront faites au sujet de la population pour choisir lun ou lautre. Dans
lchantillonnage non probabiliste considr la Section 6.1, une mthode subjective de slection des
units est applique une population. Cest un moyen rapide, facile et bon march de slectionner un
chantillon. Cependant, sil veut formuler des infrences au sujet de la population partir de
lchantillon, lanalyste des donnes doit supposer que lchantillon est reprsentatif de la population.
Cette supposition est souvent risque si lchantillon est non probabiliste.

Lchantillonnage probabiliste, considr la Section 6.2, comprend la slection dunits dans une
population selon le principe du choix alatoire ou au hasard. Lchantillonnage probabiliste est plus
complexe, demande davantage de temps et cote habituellement plus cher que lchantillonnage non
probabiliste. tant donn que les units de la population sont slectionnes au hasard, et que la probabilit
dinclusion de chaque unit peut tre calcule, il est cependant possible de faire des estimations fiables,
ainsi que des estimations de lerreur dchantillonnage, et de formuler des infrences au sujet de la
population.

Un chantillon probabiliste peut tre slectionn de plusieurs faons diffrentes. Il faut considrer un
certain nombre de facteurs pour choisir le plan, notamment, la base de sondage disponible, les
caractristiques des diffrences entre les units de la population (c.--d. leur variabilit) et les frais quil
faudrait engager pour faire enqute sur les membres de la population. Il est possible dtablir un quilibre
entre lerreur dchantillonnage, les cots et la rapidit dexcution en choisissant le plan et la taille de
lchantillon pour une population donne.

Lobjectif de ce chapitre est de prsenter diffrents facteurs considrer pour dterminer quel plan
dchantillonnage probabiliste est appropri une enqute en particulier. Le Chapitre 8 - Calcul de la
taille de lchantillon et rpartition donne des dtails sur les facteurs qui ont des rpercussions sur la
taille de lchantillon.


6.1 chantillonnage non probabiliste

Lchantillonnage non probabiliste est un moyen de slectionner des units dune population laide
dune mthode subjective (c.--d. non alatoire). Il nest pas ncessaire davoir une base de sondage
complte pour lchantillonnage non probabiliste qui est donc un moyen rapide, facile et bon march
dobtenir des donnes. Lchantillonnage non probabiliste pose un problme : il nest pas vident quil est
possible de gnraliser et dappliquer les rsultats de lchantillon toute la population. La raison de cette
constatation est que la slection dunits dans une population pour un chantillon non probabiliste peut
donner des biais dimportance.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
98
Par exemple, il est courant que lintervieweur dcide subjectivement qui doit tre chantillonn. tant
donn que lintervieweur slectionnera probablement les membres de la population les plus amicaux ou
faciles daccs, une partie importante de la population naura aucune chance dtre slectionne et celle-ci
sera peut-tre systmatiquement diffrente des membres slectionns. Non seulement la situation peut
biaiser les rsultats de lenqute, mais elle peut aussi diminuer erronment la variabilit apparente de la
population cause dune tendance slectionner des units typiques et dliminer les valeurs
extrmes. Lchantillonnage probabiliste vite justement ce genre de biais cause de la slection alatoire
des units (voir la Section 6.2).

tant donn le biais de slection et (habituellement) labsence de base de sondage, la probabilit
dinclusion dune personne ne peut tre calcule pour les chantillons non probabilistes et il est donc
impossible de faire des estimations fiables ou des estimations de leur erreur dchantillonnage. Il faut
supposer que lchantillon est reprsentatif de la population pour faire des infrences sur celle-ci. Il faut
habituellement supposer que les caractristiques de la population correspondent un certain modle ou
quelles sont galement ou alatoirement rparties dans la population. Cest souvent dangereux cause de
la difficult dvaluer si oui ou non ces suppositions sont fondes.

Les tudes de march utilisent souvent lchantillonnage non probabiliste comme mesure de rechange
rapide prix raisonnable, comparativement lchantillonnage probabiliste, mais ce nest pas un substitut
valable de lchantillonnage probabiliste pour les raisons mentionnes ci-dessus. Dans ce cas, pourquoi
choisir un chantillonnage non probabiliste? Celui-ci peut tre appliqu des tudes qui servent :
- doutil pour donner des ides,
- dtape prliminaire llaboration dune enqute par chantillonnage probabiliste,
- dtape de suivi pour aider comprendre les rsultats dune enqute par chantillonnage probabiliste.

Lchantillonnage non probabiliste peut donner, par exemple, de linformation importante au cours des
premires tapes dune enqute. Il peut servir des tudes diagnostiques ou de recherche pour acqurir un
aperu des attitudes, certitudes, motivations et comportements des gens. Lchantillonnage non
probabiliste est parfois la seule option viable; par exemple, lchantillonnage des bnvoles peut tre le
seul moyen dobtenir des donnes pour des expriences mdicales.

Lchantillonnage non probabiliste est souvent utilis pour slectionner des personnes pour des groupes
de discussion ou des interviews approfondies. Statistique Canada utilise lchantillonnage non
probabiliste, par exemple, pour faire lessai des questions du Recensement de la population, afin de
vrifier si les questions poses et les concepts utiliss sont clairs pour les rpondants. Si la matire dune
question est considre controverse, des sous-populations peuvent aussi tre slectionnes et mises
lessai. Si ces questions peuvent tre formules de sorte quelles soient acceptables pour ces personnes,
par lintermdiaire de groupes de discussion, elles peuvent tre acceptables pour tous les membres de la
population. (Les groupes de discussion sont tudis au Chapitre 5 - Conception du questionnaire.)

Les tudes prliminaires sont un autre exemple qui motive lutilisation de lchantillonnage non
probabiliste. Si une nouvelle enqute est planifie pour couvrir un domaine trs peu connu, des plans
dchantillonnage non probabilistes sont souvent utiliss dans les enqutes pilotes. Considrons, par
exemple, lindustrie relativement nouvelle de la conception des pages Web. Supposons quil ny a pas de
renseignements sur le nombre de personnes qui travaillent dans lindustrie, leurs revenus ou dautres
dtails de la profession. Une enqute pilote serait planifie et des questionnaires seraient envoys
quelques personnes qui conoivent des pages Web. Lexamen des questionnaires retourns peut donner
une ide sur leurs revenus et rvler que de nombreux concepteurs de pages Web travaillent domicile,
quils ont uniquement un numro de tlphone personnel et quils annoncent exclusivement sur Internet.
PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
99
Voici les avantages de lchantillonnage non probabiliste :

i. Il est rapide et pratique.

Rgle gnrale, les chantillons non probabilistes sont obtenus en peu de temps et lenqute est rapide : il
est trs facile de simplement sortir et poser des questions la premire centaine de personnes rencontres
dans la rue.

ii. Il est relativement bon march.

Il faut habituellement quelques heures seulement du temps dun intervieweur pour faire ce genre
denqute. De plus, les chantillons non probabilistes ne sont gnralement pas disperss
gographiquement et les frais de dplacement des intervieweurs sont donc minimes.

iii. Une base de sondage nest pas ncessaire.

iv. Il peut tre utile pour les tudes de recherche et dlaboration denqute.

Voici les inconvnients de lchantillonnage non probabiliste :

i. Il faut avoir des hypothses solides sur la reprsentativit de lchantillon pour formuler des
infrences sur la population. tant donn que tous les chantillons non probabilistes comportent
un biais de slection, il est souvent dangereux de formuler ces hypothses. Il vaudrait mieux
procder un chantillonnage probabiliste si des infrences sont ncessaires.

ii. Il est impossible de dterminer la probabilit quune unit de la population soit slectionne pour
lchantillon, et des estimations fiables et des estimations de lerreur dchantillonnage ne
peuvent donc tre faites.

Les sections suivantes dcrivent cinq diffrents types de mthodes dchantillonnage non probabilistes :
lchantillonnage laveuglette, lchantillonnage participation volontaire, lchantillonnage au jug,
lchantillonnage par quotas et lchantillonnage probabiliste modifi. Lchantillonnage de rseaux ou
boule de neige moins souvent utilis est prsent la Section 6.3.


6.1.1 chantillonnage laveuglette

Les units sont slectionnes de faon arbitraire, sans ide prconue, et la planification est minime, sinon
nulle. Celui qui fait lchantillonnage laveuglette prsume que la population est homogne : si les
units de la population sont toutes semblables, nimporte quelle unit peut tre choisie pour lchantillon.
Linterview de lhomme de la rue est un exemple dchantillonnage laveuglette parce que
lintervieweur choisit nimporte quel passant. Sauf si la population est vraiment homogne, les biais de
lintervieweur et du passant au moment de lchantillonnage peuvent malheureusement avoir des
rpercussions sur la slection.


6.1.2 chantillonnage participation volontaire

Cette mthode fait appel des rpondants volontaires. Les volontaires doivent gnralement faire lobjet
dun examen pour obtenir un ensemble de caractristiques qui convient aux objectifs de lenqute (p. ex.,
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
100
les personnes atteintes dune maladie en particulier). Cette mthode peut tre marque dun important
biais de slection, mais elle est parfois ncessaire. Pour des raisons de dontologie, on peut faire appel,
par exemple, des volontaires ayant des conditions mdicales particulires pour procder certaines
expriences mdicales.

Voici un autre exemple dchantillonnage participation volontaire : au cours dune mission radio ou
tldiffuse, une question fait lobjet dune discussion et les citoyens lcoute sont invits tlphoner
pour exprimer leurs opinions. Seuls ceux que le sujet intresse vraiment dune faon ou dune autre ont
tendance rpondre. La majorit silencieuse ne rpond habituellement pas et nous avons donc un biais de
slection marqu. Lchantillonnage participation volontaire sert souvent slectionner des particuliers
pour des groupes de discussion ou des interviews approfondies (c.--d. une mise lessai qualitative qui
exclut la gnralisation applique la population complte).


6.1.3 chantillonnage au jug

laide de cette mthode, lchantillonnage est fait en tenant compte des ides pralables sur la
composition et le comportement de la population. Un expert qui connat la population dcide quelles
units devraient tre choisies. Autrement dit, lexpert slectionne dessein ce qui est considr comme un
chantillon reprsentatif. Les biais du chercheur peuvent marquer lchantillonnage au jug qui peut tre
encore plus biais quun chantillonnage laveuglette. tant donn que les ides prconues du
chercheur sont refltes dans lchantillon, des biais importants peuvent tre intgrs si ces ides
prconues sont inexactes. Il peut cependant tre utile aux tudes de recherche, par exemple, lors de la
slection de personnes pour des groupes de discussion ou des interviews approfondies, afin de vrifier des
aspects particuliers dun questionnaire.


6.1.4 chantillonnage par quotas

Voil lun des chantillonnages non probabilistes les plus communs. Lchantillonnage est fait jusqu ce
quun nombre dtermin dunits (quotas) soient slectionnes dans diverses sous-populations.
Lchantillonnage par quotas est un moyen datteindre les objectifs de taille dchantillon pour les sous-
populations.

Les quotas peuvent tre tablis selon des proportions de population. Sil y a 100 hommes et 100 femmes
dans la population, par exemple, et sil faut tirer un chantillon de 20 personnes, 10 hommes et
10 femmes peuvent tre interviews. Lchantillonnage par quotas peut tre considr prfrable
dautres formes dchantillonnage non probabiliste (p. ex., chantillonnage au jug) parce quil faut
inclure des membres de sous-populations diffrentes.

Lchantillonnage par quotas ressemble lchantillonnage stratifi parce que des units semblables sont
regroupes (des dtails sur lchantillonnage stratifi sont donns la Section 6.2.6). La mthode de
slection des units est cependant diffrente. Les units sont slectionnes alatoirement dans
lchantillonnage probabiliste, mais dans lchantillonnage par quotas, une mthode non alatoire est
applique, cest--dire que lintervieweur dcide habituellement qui est ajout lchantillon. Les units
sollicites qui ne sont pas disposes participer sont simplement remplaces par dautres qui le sont, et
lon ignore en fait le biais de non-rponse.

Les tudes de march utilisent souvent lchantillonnage par quotas (en particulier pour les enqutes au
tlphone) au lieu de lchantillonnage stratifi pour faire enqute auprs de citoyens ayant des profils
PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
101
socioconomiques particuliers parce quil est relativement meilleur march que lchantillonnage stratifi,
il est facile administrer et il a la caractristique souhaitable de respecter les proportions de la population.
Il masque cependant un biais de slection ventuellement important.

Dans ce cas comme dans tous les autres plans dchantillonnage non probabiliste il faut prsumer que les
personnes slectionnes sont semblables aux autres pour formuler des infrences sur la population. Ces
fortes prsomptions sont rarement valables.


6.1.5 chantillonnage probabiliste modifi

Lchantillonnage probabiliste modifi est une combinaison dchantillonnage probabiliste et non
probabiliste. Les premires tapes sont habituellement axes sur lchantillonnage probabiliste (voir la
section suivante). La dernire tape est un chantillon non probabiliste, habituellement un chantillon par
quotas. Des secteurs gographiques peuvent tre slectionns, par exemple, laide dun plan
dchantillonnage probabiliste et ensuite, dans chaque rgion, un chantillon de personnes peut tre choisi
par quotas.


6.2 chantillonnage probabiliste

Lchantillonnage probabiliste est une mthode qui permet de formuler des infrences sur la population,
compte tenu des observations tires de lchantillon. Celui-ci devrait tre libre de tout biais de slection
pour formuler les infrences. Lchantillonnage probabiliste vite ce biais par la slection alatoire
dunits de la population ( laide dun ordinateur ou dun tableau de nombres alatoires). Il ne faut pas
oublier que le terme alatoire ne signifie pas arbitraire. En particulier, les intervieweurs ne choisissent pas
arbitrairement les rpondants parce que leur biais personnel aurait des rpercussions sur
lchantillonnage. Le terme alatoire signifie que la slection nest pas biaise, cest un tirage au sort.
Lchantillonnage probabiliste ne permet pas lintervieweur de dcider subjectivement qui doit tre
choisi.

Voici les deux principaux critres de lchantillonnage probabiliste : la slection des units est alatoire,
toutes les units de la population de lenqute ont une probabilit dinclusion diffrente de zro dans
lchantillon et il est possible de calculer ces probabilits. Il nest pas ncessaire que toutes les units
aient la mme probabilit dinclusion et, en fait, dans les enqutes les plus complexes, la probabilit
dinclusion varie dune unit lautre.

Il y a de nombreux types diffrents de plans dchantillonnage probabiliste. Le plus lmentaire est
lchantillonnage alatoire simple et la complexit des plans saccentue ensuite pour englober
lchantillonnage systmatique, lchantillonnage avec probabilit proportionnelle la taille,
lchantillonnage par grappes, lchantillonnage stratifi, lchantillonnage plusieurs degrs,
lchantillonnage plusieurs phases et lchantillonnage par rpliques. Chacune de ces techniques
dchantillonnage est utile dans diffrentes situations. Si lobjectif de lenqute est simplement dobtenir
des estimations de la population en gnral, et si la stratification serait inapproprie ou impossible,
lchantillonnage alatoire simple pourrait alors tre le meilleur choix. Si le cot de la collecte des
donnes de lenqute est lev et si les ressources sont disponibles, lchantillonnage par grappes est
souvent le choix. Si des estimations de sous-populations sont aussi demandes (p. ex., des estimations par
province, groupe dge ou taille dentreprise), lchantillonnage stratifi est habituellement appliqu.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
102
La majorit des plans plus complexes ont recours linformation auxiliaire de la base de sondage pour
amliorer lchantillonnage. Si la base a t cre partir dun recensement prcdent ou de donnes
administratives, il peut y avoir une mine de renseignements supplmentaires qui peuvent servir
lchantillonnage. Dans le cas dune enqute sur les exploitations agricoles (fermes), par exemple,
lorganisme statistique peut avoir la taille de chaque exploitation en hectares tire du recensement
agricole le plus rcent. Sil sagit dune enqute sur les citoyens, linformation (p. ex., ge, sexe, origine
ethnique, etc.) peut tre disponible pour chacun dans le plus rcent recensement de la population. Lors
dune enqute sur les entreprises, lorganisme statistique peut avoir de linformation administrative,
notamment, sur le genre dindustrie (p. ex., dtaillant, grossiste, fabricant), le genre dentreprise (p. ex.,
magasin daliments), le nombre demploys, etc. Linformation auxiliaire amliore lchantillonnage sil
y a corrlation entre les donnes auxiliaires et les variables de lenqute.

Voici le principal avantage de lchantillonnage probabiliste : la slection de chaque unit est alatoire,
la probabilit dinclusion de chaque unit peut tre calcule, il est possible de faire des estimations fiables
et destimer lerreur dchantillonnage de chaque estimation. On peut donc formuler des infrences sur la
population. Un plan dchantillonnage probabiliste permet en fait souvent dutiliser un chantillon
relativement petit pour formuler des infrences sur une grande population.

Voici les principaux inconvnients de lchantillonnage probabiliste : il est plus difficile, il demande plus
de temps et il cote habituellement plus cher que lchantillonnage non probabiliste. Les frais de cration
et dentretien dune base de sondage de bonne qualit sont substantiels en gnral. tant donn que les
chantillons probabilistes ont tendance tre gographiquement rpartis plus largement dans la
population que les chantillons non probabilistes, les tailles dchantillon sont habituellement plus
grandes, la collecte des donnes cote souvent plus chre et sa gestion est plus difficile. Pour un
organisme statistique, la capacit de formuler des infrences partir dun chantillon probabiliste
surpasse habituellement ses inconvnients.

On a vu au Chapitre 3 - Introduction au plan denqute les qualits dun bon plan. Lutilisation des
donnes administratives est couverte lAnnexe A - Donnes administratives.


6.2.1 Efficience statistique

Lchantillonnage alatoire simple (EAS) est une rfrence pour lvaluation de lefficience dautres
stratgies dchantillonnage. Voici certaines dfinitions pour comprendre le concept de lchantillonnage
efficient.

Un paramtre est une caractristique de la population que le client ou lutilisateur des donnes est
intress estimer, par exemple, la moyenne, la proportion ou le total de la population. Un estimateur est
une formule de calcul dune estimation du paramtre dans lchantillon et une estimation est la valeur
de lestimateur calcul laide des donnes de lchantillon obtenu. La stratgie dchantillonnage est
la combinaison du plan dchantillonnage et de lestimateur utilis.

Le paramtre dintrt peut tre, par exemple, la moyenne de la population, Y , calcule comme suit :

=
U i
i
N
y
Y

o y
i
est la valeur de la variable y de la i
e
unit, U est lensemble des units de la population et il y a
N units dans la population.
PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
103
Dans le cas dun EAS dont le taux de rponse est de 100 %, lestimateur habituel, mais il nest pas le seul,
pour la moyenne de la population est le suivant :

=
r
S i
i
n
y
Y


o S
r
est lensemble des rpondants de lchantillon qui comprend n units. La valeur que prend

r
S i
i
n
y

pour un chantillon en particulier est une estimation.

Les estimations calcules partir dchantillons diffrents sont diffrentes lune de lautre. La
distribution dchantillonnage dun estimateur est la rpartition de toutes les valeurs diffrentes que
lestimateur peut avoir pour tous les chantillons possibles du mme plan dchantillonnage de la
population. La stratgie dchantillonnage dtermine donc cette rpartition.

Les estimateurs ont certaines caractristiques souhaitables. Lestimateur devrait, par exemple, tre non
biais ou approximativement non biais. Un estimateur nest pas biais si lestimation moyenne, compte
tenu de tous les chantillons possibles, est quivalente la valeur relle du paramtre. La rpartition de
lchantillonnage le plus prs possible de la moyenne (c.--d. que lerreur dchantillonnage est minime)
est une autre caractristique souhaitable dun estimateur. Lerreur dchantillonnage dun estimateur est
mesure par sa variance dchantillonnage dtermine comme fluctuation de sa moyenne calcule en
tenant compte de tous les chantillons possibles tirs du plan dchantillonnage. Un estimateur ayant une
variance dchantillonnage minime est considr prcis. La prcision augmente quand la variance
dchantillonnage diminue. Il faut noter quun estimateur peut tre prcis et biais. Lexactitude tient
compte la fois de la variance et du biais; un estimateur exact jouit dune bonne prcision et est peu
entach de biais.

Une stratgie dchantillonnage est plus efficiente quune autre si la variance dchantillonnage de
lestimateur est plus petite que celle dune autre stratgie dchantillonnage. Afin de ne pas semer la
confusion au sujet de ce genre defficience avec dautres, par exemple le cot unitaire, cette notion sera
donc intitule efficience statistique. Lefficience statistique est une considration importante si vous
comparez divers plans dchantillonnage possibles parce que les conomies peuvent tre considrables si
un plan peut donner une prcision quivalente ou meilleure et si la taille de lchantillon est plus petite.
Les plans dchantillonnage suivants donnent une comparaison de leur efficience comparativement
lEAS. Celle-ci est formellement mesure en calculant leffet de plan es rpercussions du plan dont les
dtails sont expliqus la section 7.3.3 du Chapitre 7 - Estimation.

On trouvera au Chapitre 7 - Estimation davantage de dtails sur lestimation, les facteurs qui ont des
rpercussions sur la prcision et lestimation de la prcision.


6.2.2 chantillonnage alatoire simple (EAS)

Lchantillonnage alatoire simple (EAS) est le point de dpart de tout plan dchantillonnage
probabiliste. LEAS est une mthode de slection en une tape qui garantit que chaque chantillon
possible de taille n a une chance gale dtre slectionn. Chaque unit de lchantillon a donc la mme
probabilit dinclusion. Cette probabilit, , est gale n/N, o N est le nombre dunits dans la
population.

Lchantillonnage peut tre fait avec ou sans remise. Lchantillonnage avec remise permet une unit
dtre slectionne plus dune fois. Lchantillonnage sans remise signifie que lorsquune unit a t
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
104
slectionne, elle ne peut ltre de nouveau. Lchantillonnage alatoire simple avec remise (EASAR) et
lchantillonnage alatoire simple sans remise (EASSR) sont pratiquement identiques si la taille de
lchantillon est une trs petite fraction de la taille de la population parce que la possibilit que la mme
unit apparaisse plus dune fois dans lchantillon est minime. Lchantillonnage sans remise donne
gnralement des rsultats plus prcis et est plus pratique du point de vue oprationnel. Aux fins de ce
chapitre, lchantillonnage est suppos tre sans remise, sauf avis contraire.

Considrons une population de cinq personnes et supposons quun chantillon de trois est slectionn
(EASSR). tiquetons les personnes de la population 1, 2, 3, 4 et 5 et prcisons que la population est la
srie {1, 2, 3, 4, 5}. Il y a dix chantillons possibles de trois personnes : {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1,
3, 4}, {1, 3, 5}, {1, 4, 5}, {2, 3, 4}, {2, 3, 5}, {2, 4, 5} et {3, 4, 5}. Chacun de ces chantillons a une
chance gale dtre slectionn et chaque personne est slectionne dans six des dix chantillons
possibles, chaque personne a donc une probabilit dinclusion de 5 3 10 6 = = = N n .

Lorganisme statistique qui veut slectionner un chantillon alatoire simple a habituellement tabli une
base de sondage complte (une liste ou une base arolaire) avant lchantillonnage. Dans une liste, les
units sont gnralement numrotes de 1 N, mais la mthode daffectation dun chiffre unique chaque
unit nest pas importante. Ensuite, n units de la liste sont choisies au hasard laide dun tableau de
nombres alatoires ou de nombres alatoires produits par ordinateur et les units correspondantes forment
lchantillon.

Considrons une enqute auprs des lves dune cole pour illustrer la technique de lEASSR.
Supposons quune liste convenable dlves est disponible ou peut tre dresse partir de sources
existantes. Cette liste sert de base dchantillonnage ou de sondage. Supposons maintenant que la liste de
la population contient N=1530 lves dont un chantillon de la taille n=90 est ncessaire. La prochaine
tape est de dcider comment slectionner 90 lves.

La slection de lchantillon peut tre faite laide dun tableau de nombres alatoires (voir le tableau 1).
La premire tape comprend la slection dun nombre quatre chiffres (parce que cest le nombre de
chiffres de 1530). Commenons lchantillonnage en slectionnant un nombre nimporte o dans le
tableau et en procdant dans nimporte quelle direction. Les premiers 90 nombres quatre chiffres qui ne
sont pas suprieurs 1530 sont slectionns.

Supposons que la ligne 01 et la colonne 85 - 89 sont slectionnes au dpart. En procdant vers le bas de
cette colonne, les nombres alatoires slectionns sont 189, 256, 984, 744, 1441, 617, etc. La slection
continue jusqu ce quon obtienne 90 nombres diffrents. Le rsultat est un chantillon dlves et de
nombres correspondants dans la liste de la population. (tant donn que la mthode considre est
lEASSR, les nombres qui apparaissent plus dune fois ne sont pas retenus). Un tableau de nombres
alatoires a t utilis ci-dessus pour illustrer la slection manuelle dun chantillon alatoire simple, mais
en pratique, un programme informatique slectionnerait les units au hasard.










PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
105
Tableau 1 : Extrait dun tableau de nombres alatoires

50-54 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 95-99
00 59311 58030 52098 87024 14194 82848 04190 96574 90464 29065
01 98567 76364 77204 27062 53402 96621 43918 01896 83991 51141
02 10363 97518 51400 98342 24830 61891 27101 37855 06235 33516
03 86852 19558 64432 99612 53537 59798 32803 67708 15297 28612
04 11258 24591 36863 31721 81305 94335 34936 02566 80972 08188

05 95068 84628 35911 33020 70659 80428 39936 31855 34334 64865
06 54463 47437 73804 36239 18739 72824 83671 39892 60518 37092
07 16874 62677 57412 31389 56869 62233 80827 73917 82402 84420
08 92484 63157 76593 03205 84869 72389 96363 52887 01087 66591
09 15669 56689 35682 53256 62300 81872 35213 09840 34471 74441

10 99116 75486 84989 23476 52967 67104 39495 39100 17217 74073
11 15696 10703 65178 90637 63110 17622 53988 71087 84148 11670
12 97720 15369 51269 69620 03388 13699 33423 67453 43269 56720
13 11666 13841 71681 98000 35979 39719 81899 07449 47985 46967
14 71628 73130 78783 75691 41632 09847 61547 18707 85489 69944

15 40501 51089 99943 91843 41995 88931 73631 69361 05375 15417
16 22518 55576 98215 82068 10798 82611 36584 67466 69377 40054
17 75112 30485 62173 02132 14878 92879 22281 16783 86352 00077
18 08327 02671 98191 84342 90813 49268 95441 15496 20168 09271
19 60251 45548 02146 05597 48228 81366 34598 72856 66762 17002

20 57430 82270 10421 00540 43648 75888 66049 21511 47676 33444
21 73528 39559 34434 88596 54086 71693 43132 14414 79949 85193
22 25991 65959 70769 64721 86413 33475 42740 06175 82758 66248
23 78388 16638 09134 59980 63806 48472 39318 35434 24057 74739
24 12477 09965 96657 57994 59439 76330 24596 77515 09577 91871



45 12900 71775 29845 60774 94924 21810 38636 33717 67598 82521
46 75086 23537 49639 33595 31484 97588 28617 17979 78749 35234
47 99445 51434 29181 09993 38190 42553 68922 52125 91077 40197
48 26075 31671 45386 36583 93459 48599 52022 41330 60650 91321
49 13636 93596 23377 51133 95126 61496 42474 45141 46660 42338

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
106
LEAS a un certain nombre davantages comparativement dautres techniques dchantillonnage
probabiliste, notamment :

i. Cest la technique dchantillonnage la plus simple.

ii. Il nest pas ncessaire davoir de linformation supplmentaire (auxiliaire) dans la base de
sondage pour tirer lchantillon.

Les seuls renseignements ncessaires sont une liste complte de la population de lenqute et de
linformation permettant dentrer en communication avec les personnes choisies.

iii. Llaboration technique nest pas ncessaire.

La thorie sous-jacente lEAS est bien tablie et il y a des formules standard pour dterminer la taille de
lchantillon, les estimations de la population et de la variance, et ces formules sont faciles appliquer.

Voici les inconvnients de lEAS :

i. Linformation auxiliaire nest pas utilise mme si cette information existe dans la base de
sondage. Les rsultats peuvent donc donner des estimations statistiquement moins efficientes que
celles dun autre plan dchantillonnage.

ii. Il peut coter cher sil y a des interviews sur place parce que lchantillon peut tre largement
tal gographiquement.

iii. Lchantillon de lEAS peut tre mauvais . Tous les chantillons de taille n ont une chance
gale dtre ajouts lchantillon et il est donc possible dobtenir un chantillon qui nest pas
bien rparti et qui reprsente peu la population.


chantillon alatoire simple (illustr, n=12)



PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
107
6.2.3 chantillonnage systmatique (SYS)

Les units dun chantillonnage systmatique (SYS) sont slectionnes intervalles rguliers dans la
population. Lchantillonnage systmatique sert parfois si lorganisme statistique veut utiliser un EAS,
mais sil ny a pas de liste disponible, ou si lordre de la liste est approximativement alatoire, auquel cas,
le SYS est encore plus simple faire que lEAS. Un intervalle dchantillonnage et une origine choisie au
hasard sont ncessaires. Si une liste est utilise et si la taille de la population, N, est un multiple de la taille
de lchantillon, n, chaque k
e
unit est slectionne lorsque lintervalle k est gal N/n. Un seul nombre,
lorigine r, est choisi au hasard entre 1 et k inclusivement. Les units slectionnes sont donc : r, r+k,
r+2k, ..., r+(n-1)k. Chaque unit, comme dans lEAS, a une probabilit dinclusion, , gale n/N, mais,
contrairement lEAS, chaque combinaison de n units na pas une chance gale dtre slectionne :
dans un SYS, nous pouvons uniquement slectionner les chantillons dont les units sont spares par k.
Seulement k chantillons possibles peuvent donc tre tirs de la population laide de cette mthode.

Supposons, pour illustrer le SYS, quune population contienne N=54 units et quun chantillon de taille
n=9 units soit sectionn. Lintervalle dchantillonnage serait k = N/n = 54/9 = 6. Un nombre alatoire
entre 1 et k = 6, disons 2, est ensuite choisi. Les units de la population slectionnes pour lchantillon
sont ensuite numrotes : 2, 8, 14, 20, 26, 32, 38, 44 et 50. En prsence dun intervalle dchantillonnage
de 6 et dune population dont la taille est de 54 units, il y a seulement six chantillons SYS possibles,
mais il y a plus de 25 millions dchantillons alatoires simple de taille 6 possibles.

Un avantage de lchantillonnage systmatique est quil peut tre utilis lorsquil ny a pas de liste
disponible des units de la population. Une base de sondage peut tre tablie dans ce cas en choisissant
chaque k
e
personne jusqu la fin de la population.

Le SYS pose un problme : la taille de lchantillon, n, est connue seulement aprs la slection de
lchantillon. Il peut y avoir un autre problme si lintervalle dchantillonnage, k, correspond une
certaine priodicit dans la population. Supposons, par exemple, quune enqute sur la circulation est faite
dans un secteur et quune journe seulement de la semaine peut tre chantillonn, autrement dit, k est
chaque 7
e
jour. Les dbits de la circulation dans lenqute seront extrmement diffrents si les jours
chantillons sont toujours le dimanche au lieu dtre toujours le mardi. Bien entendu, si la priode
dchantillonnage est le 5
e
jour, chaque jour de la semaine peut alors tre vis par lenqute.
Malheureusement, dans la plupart des cas, la priodicit nest pas connue davance.

Si N ne peut tre galement divise par n, lintervalle de lchantillonnage SYS nest pas un nombre
entier. Dans cette occurrence, k peut tre considr gal au nombre entier le plus prs, mais la taille de
lchantillon variera dun chantillon lautre. Supposons, par exemple, que N=55 et n=9, alors
k=55/9=6,1. Supposons que k est 6 et r=2, lchantillon contient donc les units numrotes : 2, 8, 14, 20,
26, 32, 38, 44 et 50. Si lorigine choisie au hasard est r=1 et si chaque sixime unit est slectionne,
lchantillon comprend donc les units : 1, 7, 13, 19, 25, 31, 37, 43, 49 et 55. Dans ce cas, lchantillon
est de taille 10, et non 9. Une autre approche est darrondir chaque valeur r, r+k, r+2k, , r+(n-1)k au
nombre entier le plus prs. Dans cette approche, la taille de lchantillon obtenu est fixe. Supposons de
nouveau, par exemple, que N=55 et n=9, cest--dire que k=55/9=6,1. Si r=1, lchantillon comprend les
units 1, 7, 13, 19, 25, 31, 38, 44 et 50.

Dautre part, si N ne peut tre divis galement par n, on pourra alors faire un chantillonnage
systmatique circulaire pour viter une taille de lchantillon variable. Dans cette mthode, il est
considr que les units de la population existent sur un cercle et on y compte modulo N . La valeur
attribue k est gale au nombre entier le plus prs de N/n, mais lorigine choisie au hasard, r, peut tre
entre 1 et N, au lieu de 1 et k (c.--d. que la premire unit peut tre nimporte o dans la liste). Les units
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
108
slectionnes, comme auparavant, sont : r, r+k, r+2k, ..., r+(n-1)k. Si la j
e
unit est telle que r+(j-1)k > N,
lunit choisie est donc r+(j-1)k - N. Cela veut dire qu la fin de la liste, lchantillonnage continue au
dbut de la liste. Lavantage de la mthode circulaire est que chaque unit a une chance gale dtre dans
lchantillon. laide de lexemple suivant, supposons, par exemple, que N=55, n=9 et k=6. Une origine
choisie au hasard, r, est slectionne entre 1 et 55, disons r=42. Les units de la population slectionnes
sont donc : 42, 48, 54, 5, 11, 17, 23, 29 et 35.

Lchantillonnage SYS a un certain nombre davantages, selon les circonstances et lobjectif de
lenqute :

i. Cest un substitut de lEAS lorsquil ny a pas de base de sondage.

ii. Contrairement lEAS, linformation auxiliaire de la base de sondage nest pas ncessaire.

iii. Il peut donner un chantillon mieux rparti que celui de lEAS (compte tenu de lintervalle
dchantillonnage et de la mthode de tri de la liste).

iv. Cest une thorie aussi bien tablie que celle de lEAS et les estimations sont faciles calculer.

v. Il est plus simple que lEAS parce quun seul nombre alatoire est ncessaire.


Voici les inconvnients du SYS :

i. Il peut donner un mauvais chantillon si lintervalle dchantillonnage correspond une
certaine priodicit dans la population.

ii. Linformation auxiliaire qui peut tre disponible dans la base de sondage nest pas utilise,
comme dans le cas de lEAS, et le rsultat peut tre une stratgie dchantillonnage inefficiente.

iii. La taille de lchantillon final nest pas connue davance lorsquune base de sondage conceptuelle
est utilise.

iv. Il na pas destimateur non biais de la variance dchantillonnage. Lchantillon systmatique est
souvent trait comme un chantillon alatoire simple pour faire lestimation de variance. Cest
appropri seulement lorsque la liste est trie au hasard. (Pour davantage dinformation sur
lestimation de la variance pour un chantillon systmatique, on consultera Cochran (1977) ou
Lohr (1999).)

v. Il peut donner une taille dchantillon variable si la taille de la population, N, ne peut tre divise
galement par la taille de lchantillon voulue, n (mais il est possible dviter cela en utilisant le
SYS circulaire).

PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
109
chantillon systmatique (illustr, n=12, N=36, k=3)



LEAS et le SYS circulaire sont deux plans dchantillonnage probabiliste probabilit gale parce que
chaque chantillon possible a exactement la mme chance dtre slectionn. Les techniques
dchantillonnage ne donnent pas toutes des probabilits gales. Les plans dchantillonnage dcrits dans
les sections suivantes peuvent donner des probabilits ingales. On se rappellera que dans un
chantillonnage probabiliste, le critre nest pas que toutes les units aient la mme probabilit
dinclusion, mais plutt quelles aient une probabilit dinclusion connue diffrente de zro.
Lchantillonnage avec probabilits ingales peut souvent amliorer lefficience statistique de la stratgie
dchantillonnage.


6.2.4 chantillonnage avec probabilit proportionnelle la taille (PPT)

Lchantillonnage avec probabilit proportionnelle la taille (PPT) est une technique qui utilise des
donnes auxiliaires et donne des probabilits dinclusion ingales. Si les tailles des units de la population
varient et si ces tailles sont connues, linformation peut servir pendant lchantillonnage pour accentuer
lefficience statistique. Lchantillonnage PPT peut augmenter normment la prcision si les mesures des
tailles sont prcises et si les variables dintrt sont corrles avec la taille de lunit. Quand on dispose de
mesures de tailles moins prcises, il vaut mieux crer des groupements de tailles et procder
lchantillonnage stratifi (Section 6.2.6).

Un bon exemple dune variable de taille de lchantillonnage PPT est la superficie. Lchantillonnage
PPT est souvent utilis dans les enqutes sur les exploitations agricoles et la mesure de la taille est la taille
de lexploitation agricole (ferme) en hectares. La taille dune exploitation agricole peut, bien entendu,
augmenter (ou diminuer) si lexploitant achte ou vend une terre, mais dans la majorit des cas, la taille
de lexploitation agricole est constante danne en anne. De plus, des questions typiques aux enqutes
sur les exploitations agricoles, notamment les revenus, les rcoltes, le btail et les dpenses, sont souvent
corrles avec la proprit foncire. Dautres mesures de taille pour les enqutes sur les entreprises
comprennent le nombre demploys, les ventes annuelles et le nombre demplacements, mais ces
variables risquent davantage de changer danne en anne.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
110
Dans un chantillonnage PPT, la taille de lunit dtermine la probabilit dinclusion. Dans le cas dune
exploitation agricole ayant une superficie de 200 hectares, par exemple, la probabilit dtre slectionne
est donc deux fois celle dune exploitation de 100 hectares.

Aux fins de lillustration, supposons une population de six exploitations agricoles (fermes) et le client est
intress estimer les dpenses totales de cette population laide dun chantillon dune exploitation.
(Un chantillon de taille 1 est utilis pour illustration, mais en pratique, un organisme statistique
slectionne rarement une seule unit.) Supposons quil y a une mesure de taille stable pour chaque
exploitation agricole (la taille de lexploitation en hectares) et, pour illustrer lefficience accrue
comparativement lEAS, supposons aussi que les dpenses de chaque exploitation agricole sont
connues. (Bien entendu, en ralit, si les dpenses taient connues, il ne serait pas ncessaire de procder
lenqute.)

Considrons la liste dexploitations agricoles suivante :

Tableau 2 : Valeurs de la population

Unit dchantillonnage :
Ferme
Information auxiliaire de la base :
Taille de la ferme en hectares
Variable dintrt de lenqute :
Dpenses ($)
1 50 26 000
2 1 000 470 000
3 125 63 800
4 300 145 000
5 500 230 000
6 25 12 500
Total 2 000 947 300

Le total rel des dpenses est 947 300 $ pour cette population de six fermes. Un chantillon alatoire
simple peut tre slectionn, chaque chantillon contenant une unit et chaque unit ayant une probabilit
dinclusion de 1/6. Six chantillons dEAS diffrents de taille n=1 sont possibles. Considrons les
rsultats obtenus de lEAS. Il faut invoquer cette fin certains concepts destimation (expliqus en dtail
au Chapitre 7 - Estimation). Dans le cas dun chantillon de taille un, le total des dpenses pour la
population est estim en multipliant les dpenses de lunit chantillonne par le poids de lunit. Ce
poids est le nombre moyen dunits de la population de lenqute que lunit chantillonne reprsente et
est linverse de la probabilit dinclusion.

Tableau 3 : chantillons possibles de taille n=1 de lEAS

chantillon
(Ferme slectionne)
Probabilit
dinclusion
( )
Poids
( / 1 )
Dpenses ($) Estimation du total des
dpenses de la
population ($)
chantillon 1 (Ferme 1) 1/6 6 26 000 156 000
chantillon 2 (Ferme 2) 1/6 6 470 000 2 820 000
chantillon 3 (Ferme 3) 1/6 6 63 800 382 800
chantillon 4 (Ferme 4) 1/6 6 145 000 870 000
chantillon 5 (Ferme 5) 1/6 6 230 000 1 380 000
chantillon 6 (Ferme 6) 1/6 6 12 500 75 000
Estimation moyenne de
lchantillon
947 300

PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
111
On remarquera la grande variabilit dchantillonnage dans les estimations de lEAS qui passe de
75 000 $ 2,8 millions de dollars. Lchantillonnage PPT peut donner des estimations avec variabilit
dchantillonnage beaucoup plus petite.

Tableau 4 : chantillons PPT possibles de taille n=1

chantillon
(Ferme slectionne)
Taille
de la
ferme
Probabilit
dinclusion
( )
Poids ( / 1 ) Dpenses
($)
Estimation du total
des dpenses de la
population ($)
chantillon 1 (Ferme 1) 50 50/2 000 2 000/50 26 000 1 040 000
chantillon 2 (Ferme 2) 1 000 1 000/2 000 2 000/1000 470 000 940 000
chantillon 3 (Ferme 3) 125 125/2 000 2 000/125 63 800 1 020 800
chantillon 4 (Ferme 4) 300 300/2 000 2 000/300 145 000 966 667
chantillon 5 (Ferme 5) 500 500/2 000 2 000/500 230 000 920 000
chantillon 6 (Ferme 6) 25 25/2 000 2 000/25 12 500 1 000 000
Estimation moyenne de
lchantillon
947 300

La variabilit dchantillonnage est beaucoup plus faible pour un chantillon PPT. Les estimations tires
des six chantillons possibles passent maintenant dun seuil de 920 000 $ un plafond de 1,4 million de
dollars seulement, un rsultat meilleur que celui de lEAS. (La probabilit dinclusion de
lchantillonnage PPT est calcule ainsi : taille de lexploitation agricole divise par la taille totale de
toutes les exploitations).

Il est suppos y avoir un lien, dans cet exemple, entre les dpenses et la taille de lexploitation agricole,
une supposition valable de toute vidence dans ce cas ou lchantillonnage PPT naurait pas eu autant de
succs. En fait, si les variables dintrt et la variable de la taille navaient pas t corrles,
lchantillonnage PPT naurait peut-tre pas t meilleur que lEAS et pourrait mme avoir t pire.

Le principal avantage de lchantillonnage PPT est quil peut amliorer lefficience statistique de la
stratgie dchantillonnage laide de linformation auxiliaire. Le rsultat peut tre une diminution
importante de la variance de lchantillonnage comparativement lEAS ou mme lchantillonnage
stratifi (Section 6.2.6).

Voici les inconvnients de lchantillonnage PPT :

i. Il faut avoir une base de sondage qui contient de linformation auxiliaire jour de bonne qualit
pour toutes les units de la base qui peuvent servir de mesures de la taille.

ii. Il est inappropri si les mesures de la taille ne sont pas prcises ou stables. Dans ces
circonstances, il vaut mieux crer des groupements de tailles et faire un chantillonnage stratifi.

iii. Il nest pas toujours applicable parce que chaque population na pas ncessairement une mesure
de la taille stable mise en corrlation avec les principales variables de lenqute.

iv. Le rsultat peut tre une stratgie dchantillonnage statistiquement moins efficiente que celle de
lEAS pour les variables de lenqute qui ne sont pas corrles avec les variables de la taille.

v. Lestimation de la variance dchantillonnage dune estimation est plus complexe.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
112
vi. La cration dune base de sondage cote plus cher et est plus complexe que celle de lEAS ou du
SYS parce que la taille de chaque unit dans la population doit tre mesure et sauvegarde.


6.2.4.1 Mthodes dchantillonnage PPT

Comment obtient-on un chantillon PPT? Il y a de nombreuses mthodes dchantillonnage PPT, mais
trois techniques sont habituellement utilises sont la mthode alatoire, la mthode systmatique et la
mthode systmatique alatoire. (Il est suppos dans ce qui suit que les mesures de la taille sont des
valeurs entires.)

i. Mthode alatoire dchantillonnage PPT :

- pour chaque unit de la population, faire le calcul cumulatif des mesures de la taille des units jusqu
lunit elle-mme comprise,

- dterminer ltendue correspondant chaque unit dans la population, cest--dire partir de la
somme cumulative de lunit prcdente (mais sans linclure) jusqu la somme cumulative de lunit
courante,

- slectionner un nombre alatoire entre 0 (si les mesures de taille ne sont pas des nombres entiers) ou 1
(si les mesures de taille sont des nombres entiers) et la taille cumulative totale, et slectionner lunit
dont ltendue comprend le nombre alatoire,

- rpter ltape prcdente jusqu ce que n units soient slectionnes.

Illustrons en utilisant en exemple des exploitations agricoles :

Tableau 5 : chantillonnage PPT laide de la mthode alatoire

Ferme Taille Taille cumulative tendue
1 50 50 1-50
2 1000 1050 51-1050
3 125 1175 1051-1175
4 300 1475 1176-1475
5 500 1975 1476-1975
6 25 2000 1976-2000

Trois nombres alatoires entre 1 et 2000 sont slectionns pour obtenir un chantillon de trois units.
Supposons que ces nombres sont : 1697, 624 et 1109. Les exploitations agricoles (fermes) slectionnes
sont donc : les fermes 5, 2 et 3.

Dans le cas de la mthode alatoire dchantillonnage PPT sans remise, si plus dune unit est
slectionne, essayer de maintenir les probabilits directement proportionnelles la taille et estimer les
variances dchantillonnage des estimations de lenqute peuvent susciter des complications. La situation
devient encore plus complique si plus de deux ou trois units sont slectionnes avec PPT sans remise et,
en fait, fait lobjet dun nombre considrable de travaux de recherche. La majeure partie de cette
recherche est contenue dans les ouvrages de Horvitz et Thompson (1952), Yates et Grundy (1953), Rao,
Hartley et Cochran (1962), Fellegi (1963), Brewer et Hanif (1983).

PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
113
ii. Mthode systmatique :

- pour chaque unit de la population, faire le calcul cumulatif des mesures de taille des units jusqu
lunit elle-mme comprise,

- dterminer ltendue correspondant chaque unit dans la population, cest--dire partir de la
somme cumulative de lunit prcdente (mais sans linclure) jusqu la somme cumulative de lunit
courante,

- dterminer lintervalle dchantillonnage, k = (taille cumulative totale)/n,

- dterminer une origine choisie au hasard, r, entre 0 (si les mesures de taille ne sont pas des nombres
entiers) ou 1 (si les mesures de taille sont des nombres entiers) et k,

- slectionner les units dont ltendue contient les nombres alatoires r, r+k, r+2k, ... r+(n-1)k.


iii. Mthode systmatique alatoire :

La liste est tablie au hasard dans cette mthode avant lapplication de lchantillonnage systmatique. Si
la liste est utilise dans lordre original, comme dans le cas de lchantillonnage systmatique, certains
chantillons possibles peuvent tre limins. Lorsque la liste est tablie au hasard, le nombre
dchantillons ventuels qui peuvent tre tirs est la hausse.

On se souviendra des problmes que posent ces mthodes. Dans le cas des mthodes systmatiques
alatoires et systmatiques, par exemple, si la taille dune unit est plus grande que lintervalle, elle peut
tre slectionne plus dune fois. Ce problme peut tre rsolu uniquement en rpartissant ces grandes
units en strates distinctes et en en faisant lchantillonnage part (Section 6.2.6). La difficult
destimation des variances dchantillonnage est un autre problme.


6.2.5 chantillonnage par grappes

Lchantillonnage par grappes est le processus de slection alatoire de groupes complets (grappes)
dunits de la population dans la base de sondage. Cest habituellement une stratgie dchantillonnage
statistiquement moins efficiente que lEAS et elle est applique pour plusieurs raisons. Premirement,
lchantillonnage par grappes peut rduire normment le cot de la collecte, surtout si la population est
largement disperse et si on a recours des interviews sur place. Deuximement, il nest pas toujours
pratique dchantillonner des units distinctes de la population. Il est parfois plus facile de faire
lchantillonnage de groupes dunits de la population (p. ex., mnages complets). Troisimement, elle
permet de faire des estimations pour les grappes elles-mmes (p. ex., revenu moyen par mnage).

Lchantillonnage par grappes est un processus en deux tapes. Premirement, la population est regroupe
en grappes (il peut sagir de grappes naturelles, p. ex., mnages, coles). La deuxime tape est la
slection dun chantillon de grappes et linterview de toutes les units des grappes slectionnes.

La base de sondage peut dterminer la mthode dchantillonnage. Jusqu maintenant, la cible a t
lchantillonnage dunits individuelles de la population partir dune liste. Si les units de la population
sont naturellement regroupes, il est souvent plus facile dtablir une base de sondage pour ces groupes et
den faire lchantillonnage, plutt que dessayer dtablir une liste de toutes les units individuelles de la
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
114
population. Le client peut tre intress, par exemple, chantillonner les enseignants, mais avoir
seulement une liste des coles. Dans le cas des enqutes sur les mnages ou les exploitations agricoles, de
nombreux pays nont pas de listes compltes et jour des gens, des mnages ou des exploitations
agricoles dans aucune grande rgion gographique, mais ils ont des cartes des rgions. Il est alors possible
dtablir une base arolaire et de rpartir les secteurs gographiques en rgions (grappes), de faire
lchantillonnage des rgions et dinterviewer chacun dans la rgion. Divers plans dchantillonnage
peuvent servir pour slectionner les grappes, notamment, lEAS, le SYS ou le PPT. Un plan commun
utilise le PPT dont lchantillonnage est proportionnel la taille de la grappe.

Il ne faut pas oublier un certain nombre de considrations pour lchantillonnage par grappes. Les
estimations seront statistiquement efficientes si les units dune grappe sont aussi diffrentes que possible.
Autrement, si les units dune grappe sont semblables, elles donnent toutes de linformation semblable et
il suffirait dinterviewer une unit.

Les units dune grappe ont souvent des caractristiques malheureusement semblables et elles sont donc
plus homognes que les units slectionnes au hasard dans la population en gnral. Le rsultat est une
procdure dchantillonnage moins efficiente que celle de lEAS. Supposons, par exemple, que deux
chantillons sont tirs dune ville de 100 000 personnes. Lchantillonnage par grappes est utilis pour le
premier chantillon et un lot de la ville englobant 400 rsidents est slectionn au hasard. LEAS est
appliqu au deuxime chantillon pour slectionner 400 personnes dans une liste de 100 000 rsidents.
Lchantillon de 400 rsidents de lEAS sera probablement beaucoup plus diversifi aux volets revenus,
ge, occupation et scolarit (pour nommer seulement quelques variables) que lchantillon par grappes de
400 personnes qui habitent toutes le mme lot en ville.

La qualit de lhomognit des units des grappes, le nombre dunits de la population dans chaque
grappe et le nombre de grappes de lchantillon dterminent lefficience statistique de lchantillonnage
par grappes. Si les units voisines sont semblables, il est statistiquement plus efficient de slectionner de
nombreuses petites grappes plutt que quelques-unes plus larges. Lors des interviews sur place cependant,
plus lchantillon est dispers, plus lenqute cote cher. Lorganisme statistique doit tablir un quilibre
entre le nombre optimal et la taille des grappes et le cot.

Lchantillonnage par grappes peut poser des difficults logistiques. Si la base de sondage est une base
arolaire tire dune carte et si lunit dchantillonnage est une grappe de logements, il peut tre difficile
de dterminer si un logement est dans une grappe ou une autre. Il faudrait tablir certaines rgles
lmentaires pour dterminer quelles units font partie dune grappe. Si la rgle suivante est tablie, par
exemple, savoir que les logements font partie de la grappe o se trouve leur entre principale (porte
lavant), la majorit des problmes seraient limins (habituellement, le logement complet est lintrieur
ou lextrieur des limites dune grappe). Si un logement semble galement rparti entre plus dune
grappe, tirez au sort pour viter un biais. Dans lEnqute canadienne sur la population active (EPA), les
grappes sont dtermines en tirant une ligne au milieu de la rue. Il est donc facile de dterminer si un
logement est dans lchantillon ou non. (Le lecteur trouvera davantage dinformation sur ces
considrations pratiques au Chapitre 9 - Oprations de collecte des donnes).

Voici les avantages de lchantillonnage par grappes :

i. Il peut rduire normment le cot de la collecte parce que lchantillon est moins dispers que
celui de lEAS. Cest particulirement important si la population est largement rpartie et si
lenqute comprend des interviews sur place parce quil est possible dconomiser en diminuant
le temps de dplacement des intervieweurs, en particulier pour les populations en milieu rural.

PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
115
ii. Il est plus facile appliquer que lEAS ou le SYS aux populations regroupes naturellement par
grappes (p. ex., mnages, coles) et certaines populations conceptuelles, par exemple, les
personnes qui traversent une frontire pendant une priode dtermine. Il peut tre difficile,
coteux ou impossible dtablir une liste de toutes les units individuelles de ce genre de
population comme lexige lEAS.

iii. Il permet de faire des estimations pour les grappes elles-mmes. Les estimations du nombre
moyen denseignants par cole sont un exemple (lorsque les coles sont en grappes).

iv. Il peut tre statistiquement plus efficient quun EAS si les units des grappes sont htrognes
(diffrentes) du point de vue des variables de ltude et si les grappes sont homognes
(semblables). Ce nest cependant pas le cas en pratique, habituellement.

Voici les inconvnients de lchantillonnage par grappes :

i. Il peut tre statistiquement moins efficient que lEAS si les units des grappes sont homognes du
point de vue des variables de ltude. Cest souvent le cas parce que les units dune grappe ont
tendance avoir des caractristiques semblables. Le nombre de grappes slectionnes peut
cependant tre augment pour liminer cette perte defficience statistique.

ii. La taille finale de lchantillon nest pas connue davance parce que le nombre dunits dune
grappe est dtermin seulement la conclusion de lenqute.

iii. Lorganisation de lenqute peut tre plus complexe que dans le cas dautres mthodes.

iv. Lestimation de la variance peut tre plus complexe que celle de lEAS si les grappes sont
chantillonnes sans remise.

chantillon par grappes (illustr, quatre grappes sont chantillonnes)



MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
116
6.2.6 chantillonnage stratifi (STR)

Au cours de lchantillonnage stratifi, la population est rpartie en groupes homognes mutuellement
exclusifs intituls strates et des chantillons indpendants sont ensuite slectionns dans chaque strate.
Nimporte quel plan dchantillonnage mentionn dans ce chapitre peut servir lchantillonnage dune
strate, partir de mthodes plus simples comme lEAS ou le SYS, jusquaux mthodes plus complexes
comme lchantillonnage PPT, par grappes, plusieurs degrs ou plusieurs phases (considrs plus loin
dans ce chapitre). Dans lchantillonnage par grappes, par exemple, il est trs commun de stratifier
dabord et de tirer ensuite lchantillon par grappes. Cette mthode est intitule chantillonnage par
grappes stratifi.

Une population peut tre stratifie par nimporte quelle variable disponible pour toutes les units de la
base de sondage avant de procder lenqute. Cette information, par exemple, peut tre simplement
ladresse de lunit qui permettra la stratification par province, ou les donnes sur les revenus entres dans
la base de sondage qui permettront la stratification par groupe de revenu, les variables de stratification
souvent utilises comprennent : lge, le sexe, la gographie (p. ex., province), le revenu, les revenus de
toute source, la taille du mnage, la taille de lentreprise, le genre dentreprise, le nombre demploys,
etc.).

Trois principales raisons justifient la stratification. Premirement, elle permet dobtenir une stratgie
dchantillonnage plus efficiente que celle de lEAS ou du SYS. Deuximement, elle donne des tailles
dchantillon suffisantes pour des domaines dintrt en particulier qui motivent lanalyse effectuer.
Troisimement, elle aide viter de tirer un mauvais chantillon.

Dune part, pour une taille dchantillon et un estimateur donns, la stratification peut diminuer lerreur
dchantillonnage ou, dautre part, pour une erreur dchantillonnage donne, la taille de lchantillon
peut tre plus petite. Bien que les grappes et les strates soient toutes deux des regroupements dunits de
la population, un chantillon est tir de chaque strate mais les grappes sont enqutes intgralement. La
stratification est en gnral plus prcise que lEAS, mais lchantillonnage par grappes lest gnralement
moins (parce que les units voisines sont habituellement semblables).

Il faut observer une forte homognit dans une strate (c.--d. que les units dune strate devraient tre
semblables quant la variable dintrt) pour amliorer lefficience statistique dune stratgie
dchantillonnage de lEAS et les strates elles-mmes doivent tre diffrentes le plus possible (quant la
mme variable dintrt). On peut gnralement obtenir ce rsultat si les variables de la stratification sont
corrles avec la variable dintrt de lenqute. Cochran (1977) explique pourquoi la stratification peut
augmenter la prcision des estimations par rapport lEAS :

Si chaque strate est homogne, cest--dire si les mesures varient peu dune unit lautre, il est
possible dobtenir une estimation prcise de nimporte quelle moyenne de strate laide dun
petit chantillon de cette strate. Ces estimations peuvent tre intgres en une estimation prcise
de la population dans lensemble.

La stratification est particulirement importante si les populations sont asymtriques (c.--d. lorsque la
rpartition des valeurs dune variable nest pas symtrique et quelle affiche une tendance vers la droite
ou la gauche). Les enqutes auprs des entreprises et des exploitations agricoles, par exemple, ont souvent
des populations fortement asymtriques : quelques grandes entreprises et exploitations agricoles peu
nombreuses ont souvent de grandes valeurs pour les variables dintrt (p. ex., revenus, dpenses, nombre
demploys). Quelques units de la population peuvent alors avoir dimportantes rpercussions sur les
estimations, si elles sont slectionnes dans lchantillon, elles peuvent augmenter normment
PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
117
lestimation et, si elles ne sont pas slectionnes, lestimation peut tre beaucoup plus faible. Autrement
dit, ces units peuvent augmenter la variabilit dchantillonnage de lestimation. Ces units devraient
donc former une strate distincte pour garantir quelles ne reprsentent pas dautres units ventuellement
plus petites de la population.

Une variable de la taille, drive du nombre demploys, par exemple, est souvent utilise pour la
stratification des entreprises. Si la variable de la taille a trois valeurs, petite, moyenne et grande,
lefficience statistique est amliore si les grandes entreprises ont des ventes semblables, les moyennes
entreprises ont des ventes semblables et les petites entreprises ont des ventes semblables, et si les
moyennes et grandes entreprises, et les moyennes et petites entreprises, ont des ventes trs diffrentes. De
mme, dans un plan dchantillonnage qui utilise des bases arolaires, la reprsentation approprie des
grandes villes peut tre garantie en les intgrant dans une strate distincte et en faisant lchantillonnage de
chaque strate sparment.

Dans lexemple prcdent, il tait raisonnable de stratifier par nombre demploys parce que cest une
mesure de la taille de lentreprise et elle est probablement troitement lie aux ventes. Dautre part, si une
enqute cible lge de ces employs, il est insens de stratifier par nombre demploys parce quil ny a
pas de corrlation. De plus, la stratification statistiquement efficiente pour une variable de lenqute peut
fonctionner moins bien pour dautres. Les variables de la stratification sont habituellement choisies selon
leur corrlation avec les plus importantes variables de lenqute. Dans le cas des variables moins
importantes de lenqute qui nont pas de corrlation avec les variables de la stratification, cela signifie
que les estimations pour un chantillon stratifi peuvent tre moins efficientes que celles de lEAS.

La deuxime raison de la stratification est de garantir des tailles dchantillon appropries pour les
domaines dintrt connus. Au cours de la conception dune enqute, lobjectif gnral est souvent
destimer un total. Combien de personnes navaient pas demploi le mois dernier? Quel tait le total des
ventes au dtail le mois dernier? Souvent, le client veut, non seulement les totaux dans lensemble, mais
aussi des estimations pour les sous-groupes de la population intituls domaines.

Le client veut, par exemple, savoir combien dhommes taient sans emploi et comparer ce rsultat au
nombre de femmes sans emploi. De mme, le client veut peut-tre avoir les rsultats des ventes le mois
dernier pour les magasins de vtements ou pour tous les magasins de dtail dans une province en
particulier. tablir des estimations pour les sous-groupes est intitul estimation du domaine. Si des
estimations de domaines sont ncessaires, la capacit de les calculer laide dun chantillon
suffisamment large dans chaque domaine devrait tre intgre au plan dchantillonnage. Si linformation
est disponible dans la base de sondage, le moyen le plus facile dy arriver est de garantir que les strates
correspondent exactement aux domaines dintrt.

La troisime raison de la stratification est lapplication dune mesure de protection contre le tirage dun
mauvais chantillon. Dans le cas de lEAS, la slection de lchantillon est laisse entirement la
chance. Lchantillonnage stratifi tente de restreindre les chantillons possibles aux moins extrmes en
garantissant quau moins certaines parties de la population seront reprsentes dans lchantillon. La base
de sondage devrait tre stratifie par sexe (en supposant que cette variable auxiliaire est disponible dans la
base), par exemple, pour garantir que les hommes et les femmes sont inclus dans lchantillon.

Ajoutons ces raisons que la stratification est souvent utilise parce quelle est pratique du point de vue
oprationnel ou administratif. Elle peut permettre lorganisme statistique de contrler la rpartition du
travail sur le terrain entre ses bureaux rgionaux. Si la collecte des donnes est faite par province, par
exemple, la stratification par province est approprie et le bureau rgional provincial peut obtenir sa part
de lchantillon.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
118
Lorsque la population a t rpartie en strates, lorganisme statistique doit dterminer combien dunits il
faut chantillonner dans chaque strate. Cette tape est intitule rpartition de lchantillon et elle est
considre au Chapitre 8 - Calcul de la taille de lchantillon et rpartition.

Les probabilits dinclusion varient habituellement dune strate lautre, compte tenu de la rpartition de
lchantillon entre les strates. Il faut considrer la taille de lchantillon et la taille de la population dans
chaque strate pour calculer les probabilits dinclusion de la majorit des plans dchantillonnage.
Considrons une population de N=1000 units stratifies en deux groupes pour illustrer : une strate a
N
1
=250 units et lautre, N
2
=750 units. Supposons que lEAS est utilis pour slectionner n
1
=50 units
la premire strate et n
2
=50 units la deuxime strate. La probabilit,
1
, quune unit de la premire
strate soit slectionne est donc 5 / 1 250 50
1
= = et la probabilit,
2
, quune unit de la deuxime
strate soit slectionne est 15 1 750 50
2
= = . Les units ont donc diffrentes probabilits dinclusion,
cest--dire quune unit de la premire strate a plus de chance dtre slectionne que celle de la
deuxime.

Voici les avantages de lchantillonnage stratifi :

i. Il peut accrotre la prcision des estimations de la population dans lensemble et la stratgie
dchantillonnage est donc plus efficiente. Un chantillon plus petit peut viter une dpense
considrable pendant lenqute, en particulier lors de la collecte des donnes.

ii. Il aide garantir que les sous-groupes importants, rpartis en strates, sont bien reprsents dans
lchantillon et les estimateurs de domaines sont alors statistiquement efficients.

iii. Il peut tre pratique du point de vue oprationnel et administratif.
iv. Il aide viter la slection dun mauvais chantillon.

v. Il permet dappliquer diffrents plans dchantillonnage et diverses procdures des strates
diffrentes (p. ex., EAS pour une strate, PPT pour une autre).

Voici les inconvnients de lchantillonnage stratifi :

i. Le plan dchantillonnage doit contenir de linformation auxiliaire de haute qualit pour toutes les
units du plan, et non pas seulement celles de lchantillon, qui peuvent tre utilises pour la
stratification.

ii. Ltablissement de la base de sondage cote plus cher et est plus complexe que dans le cas de
lEAS ou du SYS parce que la base exige une bonne information auxiliaire.

iii. Il peut donner une stratgie dchantillonnage stratgiquement moins efficiente que celle de
lEAS pour les variables de lenqute qui ne sont pas corrles avec les variables de la
stratification.

iv. Lestimation est lgrement plus complexe que celle de lEAS ou du SYS.




PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
119
chantillon stratifi (illustr, quatre strates, trois units slectionnes par strate)



6.2.7 chantillonnage plusieurs degrs

Nos considrations ont t axes jusqu maintenant sur les plans dchantillonnage un degr.
Lchantillonnage plusieurs degrs est le processus de slection dun chantillon deux degrs
successifs ou plus. Les units slectionnes au premier degr sont intitules units primaires
dchantillonnage (UP), les units slectionnes au deuxime degr sont intitules units secondaires
dchantillonnage (US), etc. Les units chaque degr ont une structure diffrente et sont hirarchiques
(p. ex., les personnes qui habitent dans un logement, les logements qui forment un lot en ville, les lots
qui forment une ville, etc.). Les US sont souvent les units individuelles de la population dans un
chantillonnage deux degrs.
Un plan dchantillonnage commun plusieurs degrs comprend lchantillonnage par grappes deux
degrs laide dune base arolaire au premier degr pour slectionner des rgions (lUP) et dun
chantillon systmatique de logements (lUS) dans une rgion, au deuxime degr. Compte tenu de
lchantillonnage par grappes un degr prsent auparavant, chaque unit dune grappe chantillonne
est comprise dans lchantillon. Dans lchantillonnage deux degrs, seulement certaines units de
chaque UP slectionne sont sous-chantillonnes.

Lchantillonnage plusieurs degrs est habituellement utilis dans des bases arolaires pour pallier les
inefficiences de lchantillonnage par grappes un degr qui est en fait rarement utilis. Si les units
voisines dans une grappe sont semblables, il est statistiquement plus efficient dchantillonner quelques
US de nombreuses UP que dchantillonner de nombreuses US de moins dUP.

Les chantillons plusieurs degrs peuvent avoir nimporte quel nombre de degrs, mais, tant donn que
la complexit du plan (et de lestimation) augmente avec le nombre de degrs, les plans dchantillonnage
sont souvent restreints deux ou trois degrs. Il faut souligner que la base de sondage pour le premier
degr est gnralement trs stable. Une base arolaire qui couvre de grands secteurs gographiques, par
exemple, ne change pas rapidement avec le temps. Les bases du deuxime degr (et des degrs suivants)
ncessaires pour chantillonner des units des degrs ultrieurs sont habituellement moins stables. Ces
bases sont souvent des listes tablies sur place pendant la collecte des donnes. Dans le cas des secteurs
gographiques chantillonns au premier degr, par exemple, une liste de tous les logements des secteurs
chantillonns peut tre tablie. Moins defforts sont ncessaires pour lister seulement les secteurs
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
120
chantillonns plutt que toute la population. (Le Chapitre 9 - Oprations de collecte des donnes
couvre en dtails le listage.)

Chaque degr dun chantillon plusieurs degrs peut tre accompli laide de nimporte quelle
technique dchantillonnage. La souplesse est donc lun des principaux avantages de lchantillonnage
plusieurs degrs. Un chantillon alatoire simple peut tre tir, par exemple, dune UP slectionne au
premier degr. Il peut y avoir, pour une autre UP, une mesure de la taille corrle avec les principales
variables de lenqute et lchantillonnage PPT peut tre utilis pour cette UP.

Lchantillon de lEnqute canadienne sur la population active (EPA) est un exemple dchantillon
stratifi plusieurs degrs. Le pays est rparti en plus de 1 100 strates. Chaque strate comprend un groupe
de secteurs de dnombrement (SD). Les SD sont des secteurs gographiques dfinis dans le Recensement
de la population et la rgion couverte peut tre dnombre par un recenseur (ils sont dlimits en tenant
compte de la taille du territoire et de la densit de la population). Le premier degr de lchantillonnage
est un chantillon stratifi de grappes (SD ou groupes de SD) tir de ces strates. Au deuxime degr, les
grappes sont cartographies, tous les logements de ces grappes sont lists et le recenseur slectionne un
chantillon systmatique de logements dans chaque liste. Toutes les personnes dun logement slectionn
sont ensuite interviewes pour lenqute.

Noubliez pas que les exemples prsents jusqu maintenant appliquent une base arolaire au premier
degr, mais ce nest pas une exigence de lchantillonnage plusieurs degrs. Un exemple dchantillon
plusieurs degrs qui appliquerait un genre diffrent de base est une enqute sur les voyages dans un
aroport. Lunit dchantillonnage primaire pourrait tre le temps, les jours dans un mois, et lunit au
deuxime degr pourrait tre les voyageurs eux-mmes. Dans le cas dune enqute plus complexe sur les
voyages, lunit du deuxime degr pourrait tre les avions de passagers larrive et lunit au troisime
degr pourrait tre les siges occups dans lavion.

Voici les avantages de lchantillonnage plusieurs degrs :

i. Il peut donner une stratgie dchantillonnage statistiquement plus efficiente que celle du plan
dchantillonnage par grappes un degr lorsque les grappes sont homognes quant aux variables
dintrt (c.--d. une rduction de la taille de lchantillon).

ii. Il peut rduire normment le temps de dplacement et les cots des interviews sur place parce
que lchantillon est moins dispers que celui dautres formes dchantillonnage, notamment
lEAS.

iii. Il nest pas ncessaire davoir une liste de toute la population. Il faut simplement avoir une bonne
base chaque degr de slection de lchantillon.

Voici les inconvnients de lchantillonnage plusieurs degrs :

i. Lefficience statistique est habituellement moindre que celle de lEAS (mme sil peut tre plus
efficient quune stratgie par grappes un degr).

ii. La taille finale de lchantillon nest pas toujours connue davance parce que le nombre dunits
dune grappe est habituellement connu seulement la conclusion de lenqute. (La taille de
lchantillon peut tre contrle, cependant, si un nombre dtermin dunits est slectionn dans
chaque grappe.)

PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
121
iii. Lorganisation de lenqute est plus complexe que celle dun chantillonnage par grappes un
degr.

iv. Ses formules de calcul des estimations et de la variance dchantillonnage peuvent tre
complexes.

chantillon plusieurs degrs (illustr, plan dchantillonnage par grappes deux degrs, six UP
slectionnes et jusqu trois US slectionnes dans chaque UP)



6.2.8 chantillonnage plusieurs phases

Les appellations se ressemblent, mais lchantillonnage plusieurs phases est trs diffrent de
lchantillonnage plusieurs degrs. Lchantillonnage plusieurs phases comprend aussi la slection de
deux chantillons ou plus, mais les chantillons sont tirs de la mme base et les units ont la mme
structure chaque phase. La collecte pour lchantillon plusieurs phases cible surtout linformation dun
large chantillon dunits et ensuite, linformation plus dtaille pour un sous-chantillon de ces units.
Lchantillonnage plusieurs phases le plus commun est lchantillonnage deux phases (ou
chantillonnage double), mais trois phases ou plus sont aussi possibles. Plus il y a de phases, cependant,
plus les estimations et le plan dchantillonnage sont complexes, tout comme dans lchantillonnage
plusieurs degrs.

Lchantillonnage plusieurs phases est utile lorsque la base de sondage manque dinformation auxiliaire
qui pourrait servir stratifier la population ou en retrancher une partie. Supposons, par exemple, que
lon ait besoin dinformation sur les leveurs de bovins, mais la base de sondage comprend seulement une
liste dexploitations agricoles, sans information auxiliaire. On pourrait procder une enqute simple en
posant seulement une question : Votre exploitation agricole est-elle axe, en tout ou en partie, sur
llevage de bovins? Cette enqute une seule question devrait coter trs peu par interview (surtout si
elle est faite au tlphone) et lorganisme devrait donc pouvoir obtenir un important chantillon. Lorsque
le premier chantillon est tir, un deuxime chantillon plus petit peut tre slectionn dans la population
des leveurs de bovins et vous pouvez leur poser des questions plus dtailles. Lorganisme statistique qui
applique cette mthode vite les frais de sondage des units hors du champ de lenqute (c.--d. ceux qui
ne sont pas leveurs de bovins).
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
122
Lchantillonnage plusieurs phases peut aussi servir la collecte de linformation plus dtaille partir
dun sous-chantillon lorsque le budget nest pas suffisant pour obtenir de linformation de tout
lchantillon ou lorsque le fardeau de rponse serait excessif. LEnqute trimestrielle sur les marchandises
vendues au dtail (ETMVD) est un exemple. La premire phase de lenqute est lEnqute mensuelle sur
le commerce de gros et de dtail (EMCGD). Les enquteurs de lEMCGD demandent chaque mois deux
variables aux grossistes et aux dtaillants : les ventes et les stocks mensuels. Les enquteurs de lETMVD
sous-chantillonnent les dtaillants et leur demandent de faire rapport sur leurs ventes par produits de
dtail, par exemple, les vtements, les articles lectroniques, les denres alimentaires, etc.

Lchantillonnage plusieurs phases peut aussi servir lorsque les frais de collecte des donnes sont trs
diffrents pour diverses questions dune enqute. Considrons une enqute sur la sant qui pose des
questions lmentaires sur le rgime alimentaire, le tabagisme, lexercice et la consommation dalcool.
Supposons de plus que les enquteurs demandent aux rpondants de se prter certaines mesures directes,
notamment, marcher sur un tapis roulant, faire prendre une mesure de leur tension artrielle et de leur taux
de cholestrol. Poser quelques questions cote relativement peu, mais les examens mdicaux demandent
le temps dun praticien form en soins de sant et lutilisation dun laboratoire quip qui cotent
relativement cher. Lenqute peut tre faite laide dun chantillon deux phases, les questions
lmentaires sont poses la premire phase et les mesures directes sont prises seulement auprs de
lchantillon plus petit de la deuxime phase.

Les donnes obtenues la premire phase peuvent servir la stratification ou linformation de slection,
mais aussi pour amliorer lefficience de lestimation (p. ex., pour lestimation par rgression). Ces
notions seront reprises au Chapitre 7 - Estimation.

Voici les avantages de lchantillonnage plusieurs phases :

i. Il peut augmenter normment la prcision des estimations (comparativement lEAS).

ii. Il peut servir obtenir de linformation auxiliaire qui nest pas dans le plan dchantillonnage (en
particulier de linformation sur la stratification pour lchantillonnage la deuxime phase).

iii. Il peut tre utile si les frais de collecte pour certaines variables de lenqute sont excessifs ou si le
fardeau des rpondants est trop lourd.

Voici les inconvnients de lchantillonnage plusieurs phases :

i. Il faut plus de temps pour obtenir des rsultats que le temps ncessaire pour une enqute une
phase si les rsultats de la premire phase sont ncessaires pour procder la deuxime phase.

ii. Il peut coter plus cher quune enqute une phase parce quil faut interviewer une unit
chantillonne plus dune fois.

iii. Si la population est mobile ou si les caractristiques dintrt changent souvent, la priode
coule entre les phases peut poser des problmes.

iv. Lorganisation de lenqute peut tre complexe.

v. Ses formules de calcul des estimations et de la variance de lchantillonnage peuvent tre trs
complexes.

PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
123
chantillon plusieurs phases (illustr, 12 units slectionnes la premire phase, quatre la
deuxime)


6.2.9 chantillonnage par rpliques

Lchantillonnage par rpliques comprend la slection dun nombre dchantillons indpendants dans une
population et non dans un seul chantillon. Au lieu dun chantillon global, un certain nombre
dchantillons plus petits, de taille peu prs gale, intituls rpliques, sont slectionns
indpendamment, chacun partir du mme plan dchantillonnage. Lchantillonnage par rpliques peut
servir lorsque les rsultats prliminaires sont demands rapidement. Ces rsultats prliminaires peuvent
tre tirs du traitement et de lanalyse dune seule rplique.

La principale raison dun chantillonnage par rpliques est de faciliter le calcul de la variance
dchantillonnage des estimations dune enqute (la variance dchantillonnage est une mesure de lerreur
dchantillonnage). Il est gnralement possible de calculer la variance dchantillonnage laide
dchantillons probabilistes, mais ces calculs peuvent tre extrmement difficiles selon la complexit du
plan dchantillonnage. Certaines expressions mathmatiques pour la variance de lchantillonnage sont
difficiles dterminer, fastidieuses programmer, cotent cher, et cest un problme. Dans le cas de
lchantillonnage systmatique en particulier, les estimations de la variance ne peuvent tre calcules
directement, sauf si des hypothses sont formules sur la disposition des units dans la liste.

On obtient des mesures de lerreur dchantillonnage en examinant quel point les estimations varient
dun chantillon lautre, compte tenu de tous les chantillons possibles de la mme taille et du mme
plan dchantillonnage. Lchantillonnage par rpliques simule ce concept. Au lieu de tirer tous les
chantillons possibles (ce qui nest pas pratique), un nombre raisonnable dchantillons plus petits est
slectionn laide de mthodes identiques. Au lieu de slectionner un chantillon de taille 10 000, par
exemple, dix chantillons indpendants de taille 1 000 peuvent tre slectionns. En comparant les
estimations de chacun de ces dix chantillons, on peut obtenir des estimations de la variance
dchantillonnage. La fiabilit des estimations de la variance dchantillonnage augmente avec le nombre
de rptitions slectionnes. (Un exemple dchantillonnage par rpliques pour estimation de la variance
est donn la Section 7.3.4 du Chapitre 7 - Estimation.)

Un certain nombre dautres procdures appliquent le r-chantillonnage pour estimer la variance
dchantillonnage lorsque les plans dchantillonnage sont complexes. Ils comprennent les rpliques
quilibres (mthode BRR), la mthode du Jackknife et la mthode dauto-amorage (Bootstrap). Ces
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
124
techniques sont toutes des ramifications de lide lmentaire de lchantillonnage par rpliques, mais
elles sont diffrentes lune de lautre quant la prcision de la mesure de la variance dchantillonnage de
divers genres destimations denqute, de leur complexit oprationnelle et des situations auxquelles elles
sappliquent le mieux.

Cette approche a des inconvnients, par exemple, les estimations de la variance dchantillonnage ont
tendance tre moins prcises en gnral que si elles taient directement bases sur des expressions
statistiques qui intgrent des caractristiques de plan dchantillonnage, notamment, lchantillonnage
plusieurs degrs, la stratification, etc.

chantillonnage par rpliques (illustr, deux chantillons slectionns de taille 6)



6.3 Sujets spciaux en chantillonnage

Les plans dchantillonnage sont parfois modifis pour rpondre aux besoins spciaux dune enqute en
particulier. Cette mesure peut tre ncessaire si la population cible est particulirement difficile situer, si
la caractristique dintrt est trs rare dans la population, ou cause des besoins analytiques de lenqute
ou de la mthode de collecte des donnes. Le Chapitre 4 - Mthodes de collecte des donnes exposait
les plans dchantillonnage des interviews au tlphone, y compris la composition alatoire (CA). Les
sections suivantes dcrivent dautres applications particulires des plans dchantillonnage pour rpondre
des besoins denqute spciaux.


6.3.1 Enqutes rptes

Les enqutes uniques ont de nombreuses diffrences comparativement aux enqutes rptes. Le but
dune enqute rpte est souvent dtudier les tendances ou les modifications des caractristiques
dintrt au fil du temps.

Avant de prendre des dcisions sur le plan dchantillonnage denqutes rptes, il faudrait tenir compte
de la possibilit de dtrioration de lefficience statistique de la stratgie dchantillonnage au cours du
temps. Un organisme statistique peut choisir, par exemple, dutiliser des variables de stratification plus
PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
125
stables et dviter celles qui peuvent tre statistiquement plus efficientes court terme, mais qui peuvent
changer rapidement avec le temps.

Beaucoup de renseignements sont en gnral disponibles et utiles aux fins des plans ultrieurs, et cest
une autre caractristique de lenqute rpte. Il est possible dexaminer au cours du temps si les diverses
caractristiques du plan dchantillonnage sont suffisantes, par exemple, la pertinence des limites et des
variables de stratification, la mthode de rpartition de lchantillon et la taille des units diverses tapes
du plan dchantillonnage plusieurs degrs, afin daccentuer lefficience statistique. Linformation
ncessaire pour tablir un plan denqute unique efficient est souvent trs limite.

Quand on labore un plan denqute rpte, il faut prvoir des dispositions pour tenir compte de certains
vnements, par exemple, les naissances, les dcs et les modifications de la mesure de la taille. Les
mthodes destimation et dchantillonnage appliques aux enqutes rptes devraient intgrer ces
modifications de faon statistiquement efficiente pour interrompre le moins possible les oprations
denqute en cours.

Un type particulier denqute rpte est lchantillon constant (panel) ou enqute longitudinale, cest--
dire que les donnes sont obtenues des mmes units de lchantillon plusieurs occasions. Ces enqutes
permettent habituellement de mesurer les modifications des caractristiques dune population donne et
dobtenir une prcision plus grande que celle dune srie dchantillons indpendants de taille
comparable. Si une enqute est rpte, le recours un chantillon longitudinal a des avantages,
comparativement une srie dchantillons indpendants spciaux. Voici certains avantages :

i. Il diminue la variance dchantillonnage pour les estimations du changement (c.--d.
1 2

Y Y , o
1

Y

est une estimation du total loccasion 1 et
2

Y

est une estimation du total loccasion 2). Vous
pouvez obtenir, par exemple, une mesure du changement du nombre de personnes sans emploi
dun mois lautre.

ii. Il peut servir obtenir de linformation sur le comportement des rpondants avec le temps.

iii. Il peut diminuer les erreurs de rponse (parce que les rpondants approfondissent leur
comprhension du questionnaire).

iv. Les cots peuvent diminuer avec le temps (llaboration de lenqute, la programmation des
systmes informatiques, la formation du personnel, etc., sont faites au cours dune longue
priode).

Voici certains inconvnients de lutilisation de lchantillon longitudinal au lieu de plusieurs chantillons
indpendants :

i. Les estimations, le traitement des non-rponses, etc., sont plus complexes.

ii. Il faut que le budget de lenqute soit garanti pendant toute la vie utile de lchantillon constant.
Un engagement financier pour couvrir les cots est donc ncessaire pendant une longue priode.

iii. Il est plus difficile de maintenir la reprsentativit au cours de priodes prolonges cause des
changements qui se produisent dans la population avec le temps, notamment, lajout de nouvelles
units et le retrait dautres.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
126
iv. Le nombre derreurs de rponse peut augmenter (p. ex., la connaissance du questionnaire peut
inciter certains rpondants rpondre incorrectement aux questions pour acclrer linterview).

v. Le nombre de non-rponses peut augmenter avec le temps ( cause de la fatigue des rpondants,
la mme personne faisant lobjet dune enqute ritre dans le temps, le reprage est difficile,
etc.).

vi. Son organisation est plus complexe que celle dune enqute unique.

vii. Il peut susciter un comportement motiv par lenqute. Les questions ritres sur les visites au
mdecin, par exemple, peuvent inciter un rpondant visiter un mdecin la suite de lenqute.
viii. Il peut tre difficile de dfinir certains concepts (p. ex., la composition du mnage peut changer
avec le temps et alors, comment dfinir un mnage longitudinal?).

ix. Si lchantillon slectionn au dpart est un mauvais chantillon, lorganisme statistique peut
continuer de lutiliser.

Le plan dchantillonnage intermdiaire entre les chantillons indpendants utiliss des occasions
successives et lchantillon longitudinal est intitul plan dchantillonnage avec renouvellement, cest--
dire quune partie de lchantillon est remplace chaque fois que le sondage est fait.

LEnqute sur la population active (EPA) applique, par exemple, un plan dchantillonnage avec
renouvellement. Des mnages forment lchantillon pendant six mois conscutifs et, chaque mois, un
sixime de lchantillon est remplac par un nouveau groupe de mnages. Lchantillon de lEPA est
rparti en six panels (ou groupes de rotation). Chaque panel fait lobjet de lenqute une fois par mois
pendant six mois. la fin du sixime mois, un groupe de rotation est supprim de lenqute (renouvel) et
un nouveau est ajout. Le fardeau du rpondant est ainsi limit (linterview moyenne de lEPA demande
moins de dix minutes) et on conserve un bon chevauchement de lchantillon chaque mois. Le
renouvellement mensuel de lchantillon est un avantage supplmentaire. Si lchantillon nest jamais mis
jour, les membres de lchantillon vieillissent et les familles des nouveaux logements nont jamais la
chance dtre ajouts lchantillon. Dans ce cas, lchantillon ne reflte plus la population actuelle et
devient biais avec le temps.

Ce plan dchantillonnage a lavantage quil permet de mesurer les changements chaque mois avec une
plus grande prcision, il cote moins cher et il y a moins dinterruptions des oprations sur place,
comparativement aux chantillons indpendants. Il amenuise aussi le problme du fardeau des rpondants
li aux tudes avec chantillons constants. (Afin de reflter les changements de la taille et de la structure
de la population, ainsi que les besoins de donnes, nanmoins, des modifications priodiques sont
apportes au plan dchantillonnage de lEPA, habituellement loccasion du recensement dcennal.)

Ces plans dchantillonnage servent non seulement lEPA, mais aussi aux enqutes auprs des
entreprises. Il ne faut pas oublier que les plans dchantillonnage avec renouvellement exigent un plan
dchantillonnage lmentaire, mais aussi une mthodologie de renouvellement de lchantillon. Il sagit
de notions complexes hors de la porte de ce manuel. On trouvera dans Kalton et coll. (1992) et dans
Kasprzyk (1989) une prsentation dtaille des plans rotation partielle et des enqutes longitudinales.


PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
127
6.3.2 Enqutes entre-sortie

Les enqutes entre-sortie sappliquent aux populations qui traversent une frontire, par exemple, les gens
qui entrent dans un pays (ou qui le quittent) ou les utilisateurs dune route page. tablir une liste jour
de ces populations avec information sur les personnes-ressources pour interviewer les units ou leur
envoyer un questionnaire pose un problme. Supposons, par exemple, que le client veuille interviewer les
trangers en visite au Canada et quil soit possible dobtenir des douanes une liste de tous les visiteurs
arrivs au pays une date en particulier. Comment trouver ces gens pour les interviewer? Voil un
problme. Ds que la base de sondage est cre, les voyageurs sont probablement dj retourns chez eux
et lentrevue nest pas pratique. Sils sont toujours au Canada, il est peu probable quune adresse pour
communiquer avec eux soit disponible.

Voil pourquoi une base de sondage conceptuelle et lchantillonnage systmatique, ou lchantillonnage
par grappes deux degrs avec chantillonnage systmatique dans les grappes chantillonnes, est(sont)
souvent utilis(s) pour faire enqute sur ces populations. La base de sondage conceptuelle peut tre une
liste des units de la population numres au cours dune certaine priode certains endroits en
particulier. La base de sondage aura une couverture complte si ces endroits sont les secteurs o la
population cible est concentre. Des points dentre et de sortie sont souvent utiliss. Les points de sortie
sont plus populaires parce que la plupart des enqutes ciblent les activits de lunit avant quelle quitte le
secteur.

Il est important de tenir compte dans le plan dchantillonnage, comme dans tout plan dchantillonnage,
des procdures sur place. Le dfi relever lchelon oprationnel et du plan dchantillonnage est le
recours optimal aux travailleurs sur place, tout en maintenant un chantillon probabiliste. Lachalandage
ingal des visiteurs donne une charge de travail extrmement variable et la rpartition efficiente du
personnel est donc difficile. Lutilisation la plus efficace du temps dun intervieweur est linterview du
k
e
visiteur aprs avoir achev linterview en cours, mais le plan dchantillonnage serait alors non
probabiliste. Il est prfrable dappliquer lchantillonnage systmatique, cest--dire quune personne
compte les gens et une petite quipe dintervieweurs remet des questionnaires ou procde des
interviews. La densit de lachalandage et de la longueur de linterview, sil y a interview, dterminent la
taille de lquipe.

La collecte des donnes peut se faire par autodnombrement, interviews ou observation directe lorsque
cest appropri. Dans le cas dun questionnaire par autodnombrement, le taux de rponse est meilleur si
le rpondant remplit le questionnaire sur place au lieu de le retourner lorganisme statistique par la
poste. Les interviews demandent videmment davantage de personnel sur place, mais elles donnent des
taux de rponse plus levs. Lobservation directe est trs prcise et souhaitable, mais elle nest pas
toujours applicable.

Le principal avantage de lenqute entre-sortie est que la base de sondage pour ltape finale peut tre
cre pendant que lenquteur est sur place.

Voici les inconvnients de lenqute entre-sortie :

i. Il peut tre difficile de nouer un lien entre la population de lenqute et une population
habituellement comprise. Les enqutes entre-sortie mesurent des visiteurs, et non des personnes,
voil pourquoi. Si une enqute est faite un magasin, par exemple, celui qui visite le magasin
plus dune fois au cours de la priode sera compt plus dune fois.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
128
ii. Il peut tre difficile de grer les oprations sur place cause des dbits variables de la population.
Voil pourquoi de brves interviews sont recommandes.

iii. Les taux de rponse sont typiquement faibles.


6.3.3 chantillonnage boule de neige

Supposons que le client veut trouver des particuliers rares dans une population, quil en connat dj
certains et quil peut communiquer avec eux. Une approche possible est de communiquer avec ceux-l et
demander simplement sils connaissent quelquun comme eux, puis de communiquer avec ces personnes,
etc. Lchantillon prend de lampleur comme une boule de neige qui descend une colline pour englober
ventuellement peu prs tous ceux qui ont cette caractristique. Lchantillonnage boule de neige est
utile pour des populations petites ou spcialises, notamment, les aveugles, les sourds, dautres personnes
qui ne font peut-tre pas partie dun groupe organis ou, par exemple, des musiciens, peintres ou potes
qui ne sont pas dj identifis dans une liste de sondage. Lchantillonnage boule de neige est cependant
une mthode dchantillonnage non probabiliste : certains particuliers ou sous-groupes pourraient navoir
aucune chance dtre chantillonns. Il faut faire de solides hypothses de modlisation (qui ne se
concrtisent habituellement pas) pour formuler des infrences.

Lchantillonnage de rseaux et lchantillonnage adaptatif par grappes sont des plans dchantillonnage
semblables utiliss pour cibler des populations rares ou spcialises.


6.4 Sommaire

Ce chapitre a cibl les notions lmentaires de lchantillonnage. Les deux principaux types
dchantillonnage sont lchantillonnage probabiliste et non probabiliste. Lutilit de lchantillonnage
non probabiliste est limite pour les enqutes des organismes statistiques parce que la slection biaise
des units ne permet pas de formuler immdiatement des infrences sur la population de lenqute. Il est
cependant facile et rapide et il peut tre utile pour les tudes de recherche ou pendant la phase
dlaboration dune enqute (p. ex., pour faire lessai du questionnaire).

Lchantillonnage probabiliste devrait tre utilis lorsquil faut formuler des infrences sur la population,
compte tenu des rsultats de lenqute. Dans un chantillon probabiliste, chaque unit de la base de
sondage a une probabilit diffrente de zro dtre slectionne et la slection des units est alatoire. La
slection nest donc pas biaise et il est possible de calculer les probabilits dinclusion et la variance
dchantillonnage des estimations, puis de formuler des infrences sur la population. Voici les principaux
inconvnients de lchantillonnage probabiliste : il demande plus de temps et cote plus cher que
lchantillonnage non probabiliste, et la base dchantillonnage doit tre de qualit leve.

Les plans dchantillonnage probabiliste les plus simples sont lchantillonnage alatoire simple et
lchantillonnage systmatique qui donnent des probabilits dinclusion gales. Des plans
dchantillonnage plus complexes peuvent donner des probabilits dinclusion ingales et la majorit
dentre eux exigent de linformation auxiliaire, y compris les chantillonnages avec probabilit
proportionnelle la taille, stratifis, par grappes, plusieurs degrs et plusieurs phases. Les plans
dchantillonnage probabiliste ingaux sont typiquement utiliss pour amliorer lefficience statistique de
la stratgie dchantillonnage ou pour diminuer les cots de lchantillonnage. La base dchantillonnage
justifie parfois leur utilisation.

PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
129
Lorsque lon choisit entre divers plans dchantillonnage possibles, il faut dabord dterminer quels plans
dchantillonnage sont ralistes, compte tenu de la base de sondage, des units de la base de sondage, des
domaines dintrt, du fardeau de la rponse, de la mthode de collecte des donnes, du budget, etc.

Voici certains points considrer :
- Y a-t-il des donnes auxiliaires dans la base de sondage qui pourraient servir amliorer lefficience
de lchantillonnage (avec stratification ou PPT)?
- La base de sondage manque-t-elle dinformation auxiliaire qui pourrait servir la stratification ou
liminer certaines units? La collecte des donnes cote-t-elle cher ou est-elle un fardeau (considrez
deux phases)?
- La population est-elle naturellement rpartie par grappes ou les units de la base de sondage sont-elles
des grappes? La population est-elle rpartie gographiquement et y aura-t-il des interviews sur place
(chantillonnage un degr ou par grappes plusieurs degrs)?

En bout de ligne, plusieurs applications spciales de plans dchantillonnage sont possibles, selon les
besoins particuliers de lenqute.

Pour apprendre comment dterminer la taille de lchantillon ncessaire pour obtenir un degr de
prcision donn et comment comparer lefficience de diffrents plans dchantillonnage en comparant les
effets de plan, le lecteur consultera le Chapitre 8 - Calcul de la taille de lchantillon et rpartition.


Bibliographie

Bebbington, A.C. 1975. A Simple Method of Drawing a Sample without Replacement. Applied Statistics,
24(1).

Binder, D.A. 1998. Les enqutes longitudinales : Pourquoi ces enqutes sont-elles diffrentes de toutes
les autres ? Techniques denqute, 24(2): 107-115.

Brewer K.R.W et M. Hanif. 1983. Sampling with Unequal Probabilities. Springer-Verlag, New York.

Cochran, W.G. 1977. Sampling Techniques. John Wiley and Sons, New York.

Conner, W.S. 1966. An Exact Formula for the Probability that Two Specified Sample Units Will Occur in
a Sample Drawn with Unequal Probabilities and Without Replacement. Journal of the American
Statistical Association, 61: 385-390.

Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.

Droesbeke, J.-J., B. Fichet et P. Tassi, (1987). Les Sondages. Economica, Paris.

Fellegi, I.P. (1963). Sampling with Varying Probabilities Without Replacement Rotating and Non-
Rotating Samples. Journal of the American Statistical Association, 58: 183-201.

Fink, A. (1995). The Survey Kit. Sage Publications, California.

Fowler, F.J. 1984. Survey Research Methods. 1. Sage Publications, California.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
130
Gambino, J.G., M.P. Singh, J. Dufour, B. Kennedy et J. Lindeyer. 1998. Mthodologie de lenqute sur la
population active du Canada. Statistique Canada. 71-526.

Gray, G.B. 1971. Joint Probabilities of Selection of Units in Systematic Samples. Proceedings for the
American Statistical Association. 271-276.

Hidiroglou, M.A. 1994. Sampling and Estimation for Establishment Surveys: Stumbling Blocks and
Progress. Proceedings of the Section on Survey Research Methods. American Statistical
Association. 153-162.

Hidiroglou, M.A. et G.B. Gray. 1980. Construction of Joint Probabilities of Selection for Systematic
P.P.S. Sampling. Applied Statistics, 29(1): 663-685.

Hidiroglou, M.A. et K.P. Srinath. 1993. Problems Associated with Designing Sub-Annual Business
Surveys. Journal of Economic Statistics, 11: 397-405.

Horvitz, D.G. et D.J. Thompson. 1952. A Generalization of Sampling Without Replacement from a Finite
Universe. Journal of the American Statistical Association. 47: 663-685.

Kalton, G., J. Kordos et R. Platek, ds. 1992. Small Area Statistics and Survey Designs. Central
Statistical Office, Warsaw. 31-75.

Kasprzyk, D., G.J. Duncan, G. Kalton et M.P. Singh, ds. 1989. Panel Surveys. John Wiley and Sons,
New York.

Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.

Lavalle, P. 1998. Thorie et Applications des enqutes longitudinales, Notes de cours 411F, Statistique
Canada.

Levy, P. et S. Lemeshow. 1991. Sampling of Populations. John Wiley and Sons, New York.

Lohr, S. 1999. Sampling: Design and Analysis. Duxbury Press, U.S.A.

McLeod, A.I. et D.R. Bellhouse. 1983. A Convenient Algorithm for Drawing a SRS. Applied Statistics,
32(2).

Moser C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.

Rao, J.N.K, H.O. Hartley et W.G. Cochran. 1962. On a Simple Procedure of Unequal Probability
Sampling Without Replacement. Journal of the Royal Statistical Society, B, 27: 482-490.

Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.

Satin, A. et W. Shastry. 1993. Lchantillonnage : un guide non mathmatique Deuxime dition.
Statistique Canada. 12-602F.

Stuart, A. 1968. Basic Ideas of Scientific Sampling. Charles Griffin and Company Limited, London.
PLANS DCHANTILLONNAGE
STATISTIQUE CANADA
131

Thompson, M. 1997. Theory of Sample Surveys. Chapman and Hill, United Kingdom.

Thompson, S.K. 1992. Sampling. John Wiley and Sons, New York.

Yates, F. et P.M. Grundy. 1953. Selection Without Replacement from Within Strata with Probability-
proportional-to-size. Journal of the Royal Statistical Society. B, 15: 235-261.


www. statcan. gc. ca
P U B L I C AT I O N S L E CTRONI QUE S
D I S P O N I B L E S

STATISTIQUE CANADA
133
Chapitre 7 - Estimation

7.0 Introduction

Il est indiqu au Chapitre 1 - Introduction lenqute que ltude des caractristiques dune population
est habituellement la motivation du client. Lestimation est un moyen que lorganisme statistique utilise
pour obtenir des valeurs de la population dintrt et tirer des conclusions sur cette population partir
de linformation obtenue dun chantillon .

Le principe sous-jacent lestimation dans une enqute probabiliste est que chaque unit de lchantillon
reprsente non seulement elle-mme, mais aussi plusieurs units de la population de lenqute. Le nombre
moyen dunits de la population que reprsente une unit de lchantillon est souvent intitul poids de
base ou pondration daprs le plan pour cette unit. Dterminer la pondration est un important volet du
processus destimation. Les poids de base peuvent servir lestimation, mais la majorit des enqutes
produisent une srie de poids destimation en ajustant les poids de base. Tenir compte des non-rponses et
utiliser les donnes auxiliaires sont les deux justifications habituelles des ajustements.

Lorsque les destimation ont t calculs, ils sont appliqus aux donnes de lchantillon pour dterminer
les estimations. Des mesures sommaires de la population, par exemple les totaux, moyennes et
proportions, sont habituellement estimes pour un large ventail de caractristiques obtenues des units
de lchantillon. Ces caractristiques, souvent intitules variables en thorie statistique, peuvent tre
qualitatives, par exemple le sexe ou ltat civil, ou quantitatives, notamment lge ou le revenu.
Diffrentes formules sont appropries pour lestimation des mesures sommaires, selon le genre de
donnes.

Dterminer limportance de lerreur dchantillonnage dans lestimation est un volet important de
lestimation. Elle donne une mesure de la qualit des estimations de lenqute pour un plan
dchantillonnage en particulier. Lerreur dchantillonnage peut tre estime seulement si
lchantillonnage est probabiliste.

Lobjectif de ce chapitre est dillustrer comment calculer les poids, tablir des estimations des mesures
sommaires et des estimations de leur erreur dchantillonnage pour les enqutes avec chantillonnage
probabiliste.


7.1 Pondration

La premire tape de lestimation est lattribution dun poids chaque unit chantillonne ou chaque
unit chantillonne rpondante. La poids de base peut tre considr comme le nombre moyen dunits
dans la population de lenqute que chaque unit chantillonne reprsente et elle est dtermine par le
plan dchantillonnage. La pondration du plan, w
d
(o d reprsente le plan, design en anglais), pour une
unit de lchantillon est linverse de sa probabilit dinclusion, . On se souviendra que la probabilit de
slection dune unit, pour un plan dchantillonnage plusieurs degrs ou plusieurs phases est le
produit des probabilits de slection chaque degr ou phase. Dans un chantillon deux phases o la
probabilit de slection dune unit est
1
la premire phase et
2
la deuxime phase, la pondration du
plan pour une unit de lchantillon est donc :
2 1
1 1

=
d
w .
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
134
Les donnes de lchantillon dune enqute sont gnralement entres dans un fichier comprenant un
enregistrement pour chaque unit chantillonne. Nous savons que chaque unit de lchantillonnage
probabiliste a une probabilit connue, , dtre chantillonne. Si cette probabilit dinclusion est, par
exemple, une sur 50, chaque unit slectionne reprsente donc une moyenne de 50 units de la
population de lenqute et le poids de base est w
d
= 50. Si le poids est un nombre entier, un moyen de
produire des estimations pour la population serait de recopier chaque enregistrement pour quil y ait
50 copies de chacun et de calculer ensuite les valeurs dintrt (par exemple, les moyennes, les totaux, les
ratios, etc.) de ce fichier. La rptition devient plus difficile si le poids nest pas une valeur entire. (Si
deux units sur cinq sont slectionnes laide de lchantillonnage alatoire simple, par exemple, le
poids de base est donc w
d
= 2,5). Il est en gnral plus facile dajouter une variable de pondration
lenregistrement de chaque unit de lchantillon.

Ltude de la pondration commencera par les plans dchantillonnage avec probabilit gale qui sont le
cas de pondration le plus simple.


7.1.1 Pondration pour plans dchantillonnage avec probabilit gale

Les plans dchantillonnage sont considrs autopondrs lorsque les poids de base sont les mmes pour
toutes les units de lchantillon. Cest le cas lorsque chaque unit a la mme probabilit dinclusion.
Dans un plan dchantillonnage autopondr, si aucun ajustement ultrieur nest apport aux poids de
base (p. ex., pour les non-rponses ou les donnes auxiliaires), les poids peuvent tre ignors pour
produire certaines statistiques comme les proportions et les moyennes. Le calcul des totaux exige
simplement que le total de lchantillon soit multipli par le poids de base.

Quels plans dchantillonnage un degr sont autopondrs? Les chantillons alatoires simples (EAS) et
les chantillons systmatiques sont autopondrs parce que chaque unit a une chance gale dtre incluse
dans lchantillon. Dans un plan stratifi, un plan autopondr est obtenu, par exemple, si un EAS est
slectionn dans chaque strate et si la taille de lchantillon de chaque strate est proportionnelle la taille
de la population de la strate. La fraction dchantillonnage est donc la mme dans chaque strate et toutes
les units de la population ont la mme probabilit dinclusion. (Cette rpartition de lchantillon entre les
strates est intitule rpartition proportionnelle N et fait lobjet dune tude plus dtaille au Chapitre 8 -
Calcul de la taille de lchantillon et rpartition.)

Exemple 7.1 : EAS stratifi avec rpartition proportionnelle N

Supposons quune population de N = 1 000 personnes est rpartie en deux strates dans la base de sondage.
La premire strate est compose de N
1
= 400 hommes et la deuxime, de N
2
= 600 femmes. Un chantillon
total de n = 250 est tir des deux strates et lchantillon est rparti proportionnellement la taille de
chaque strate. La fraction dchantillonnage de chaque strate est donc quivalente
n/N = 250/1 000 = 1/4.

Tableau 1 : EAS stratifi avec rpartition proportionnelle N

Strate Taille de la population Taille de lchantillon
Homme N
1
= 400 n
1
= 100
Femme N
2
= 600 n
2
= 150
Total N = 1 000 n = 250
ESTIMATION
STATISTIQUE CANADA
135
Voici les probabilits dinclusion dans chaque strate :

Strate 1, Hommes : Strate 2, Femmes :

4
1
400
100
1
1
1
= = =
N
n

4
1
600
150
2
2
2
= = =
N
n


La probabilit dtre slectionn est donc la mme pour chacun, ainsi que le poids de base, w
d
= 1/ = 4.

Dans un plan dchantillonnage plusieurs degrs, lautopondration est obtenue en slectionnant des
grappes avec probabilit proportionnelle la taille (PPT) tous les degrs, lexception du dernier. Un
nombre dtermin dunits dans une grappe sont slectionnes au dernier degr (p. ex., choisir toujours
n=5 au dernier degr). Lchantillonnage PPT est souvent utilis dans les plans plusieurs degrs parce
quil peut donner un chantillon autopondr et permettre de contrler la taille de lchantillon.

Un exemple de plan dchantillonnage autopondr deux phases serait un EAS, un chantillon
systmatique ou un chantillon stratifi avec rpartition proportionnelle N obtenu chaque phase.

Les plans dchantillonnage ont t tudis au Chapitre 6 - Plans dchantillonnage.


7.1.2 Pondration pour plans dchantillonnage avec probabilits ingales

La simplicit des plans autopondrs est intressante, mais il nest pas toujours possible ou souhaitable de
slectionner un chantillon autopondr. Dans un plan stratifi aux fins dune enqute nationale, par
exemple, pour des rgions plus petites, la rpartition proportionnelle N peut donner des tailles
dchantillon insuffisantes et, pour les rgions plus grandes, elle peut donner des chantillons trop gros.

Lexemple suivant illustre les poids de base pour un plan dchantillonnage stratifi dont la taille de
lchantillon de chaque strate nest pas proportionnelle la taille de la population de la strate. (Le
Chapitre 8 - Calcul de la taille de lchantillon et rpartition donne davantage de dtails sur la
rpartition non proportionnelle.)

Exemple 7.2 : EAS stratifi avec rpartition non proportionnelle

Aux fins dune enqute sur les transports en commun, la population de N=1 100 personnes est rpartie en
deux strates gographiques. tant donn que les personnes qui habitent en milieu rural et urbain peuvent
tre trs diffrentes quant linformation obtenue pour lenqute, un plan dchantillonnage stratifi est
utilis. La strate urbaine est de la taille N
1
=1 000 et la strate rurale, N
2
=100. Un chantillon de n=250
personnes est slectionn : n
1
=200 dans la strate urbaine et n
2
=50 dans la strate rurale. Quelles sont les
poids de base pour les personnes chantillonnes?

Tableau 2 : EAS stratifi avec rpartition non proportionnelle

Strate Taille de la population Taille de lchantillon
Urbain N
1
= 1 000 n
1
= 200
Rural N
2
= 100 n
2
= 50
Total N = 1 100 n = 250

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
136
Les probabilits dinclusion de chaque strate sont calcules comme suit:

Strate 1, Urbain : Strate 2, Rural :

5
1
000 1
200
1
1
1
= = =
N
n

2
1
100
50
2
2
2
= = =
N
n


Dans le fichier de lchantillon, chaque rpondant de la strate du milieu urbain a un poids de base de
w
d,1
= 5 et chaque rpondant de la strate du milieu rural a un poids de base de w
d,2
= 2.

Dans un chantillonnage plusieurs degrs ou phases, la pondration du plan dans lensemble est calcule
en multipliant la probabilit de slection chaque degr ou phase et en appliquant ensuite linverse. Dans
un chantillon par grappes deux degrs, par exemple, supposons que vous slectionnez un EAS de
n
1
=10 dans un ensemble de N
1
=100 grappes au premier degr et un EAS de n
2
=30 units dans chaque
grappe au deuxime degr, le nombre dunits dans chaque grappe tant N
2
=60.

La probabilit de slection au premier degr est donne par:

,
10
1
100
10
1
1
1
= = =
N
n


et la probabilit au deuxime degr par:
.
2
1
60
30
2
2
2
= = =
N
n


Le poids de base est donc :
. 20 2 10
1 1
2 1
= = =

d
w


7.1.3 Ajustement de la pondration pour les non-rponses

Les non-rponses sont un problme dans toutes les enqutes et elles se produisent lorsque, pour certaines
raisons, linformation demande aux units chantillonnes nest pas disponible, en tout ou en partie. Il
est mentionn au Chapitre 3 - Introduction au plan denqute quil y a deux principaux types de non-
rponse, la non-rponse partielle et la non-rponse totale. Il y a non-rponse partielle lorsque
linformation est disponible pour certaines questions seulement, par exemple, lorsque la personne
rpond une partie seulement du questionnaire. Limputation des valeurs manquantes est lapproche la
plus commune dans ce cas. (Diverses approches dimputation pour les non-rponses une question ou
partielles sont considres au Chapitre 10 - Traitement.)

Cette section traite de la non-rponse totale, cest--dire lorsque toutes les donnes ou presque dune
unit chantillonne sont manquantes. Il sagit de cas o lunit de lchantillon refuse de participer, o
il est impossible dtablir un contact, o lunit ne peut tre repre ou encore si linformation obtenue est
inutile. La faon la plus facile de traiter ces non-rponses est de les ignorer. Dans certaines circonstances
exceptionnelles, des proportions ou des moyennes estimes sans ajustement pour les non-rponses totales
sont les mmes que celles produites en appliquant un ajustement pour les non-rponses. Si lon vous
nglige de compenser pour les units non rpondantes, les totaux sont gnralement sous-estims (p. ex.,
la taille dune population, le total des revenus ou le total dacres rcolts).

ESTIMATION
STATISTIQUE CANADA
137
La faon la plus commune de traiter la non-rponse totale est dajuster les poids de base en supposant que
les units rpondantes reprsentent les units rpondantes et non rpondantes. Cette mesure est
raisonnable si lon considre que les non-rpondants sont quivalents aux rpondants pour les
caractristiques mesures dans lenqute. Les poids de base pour les non-rpondants sont ensuite
redistribues entre les rpondants. Cette mesure est souvent applique laide dun facteur dajustement
pour les non-rponses qui est multipli par la poids de base, afin dobtenir une pondration ajuste pour
les non-rponses, ceci tant illustr dans lexemple 7.3 ci-dessous.

On remarquera que les donnes de recensement peuvent aussi avoir un ajustement de pondration pour les
non-rponses et les poids de base seraient alors quivalents un, w
d
= 1. Le biais de non-rponse a t
tudi au Chapitre 3 - Introduction au plan denqute et au Chapitre 5 - Conception du
questionnaire.


7.1.3.1 Facteurs dajustement de la pondration pour les non-rponses

Le facteur dajustement pour les non-rponses est habituellement dfini comme le rapport entre la somme
des poids dans lchantillon original et la somme des poids des units rpondantes. Dans un plan
dchantillonnage autopondr, il est quivalent au rapport entre le nombre dunits de lchantillon
original et le nombre dunits rpondantes, et il est illustr ci-dessous.

Exemple 7.3 : Facteur dajustement pour les non-rponses dun EAS, un groupe de non-rponses

Un EAS de n=25 personnes est slectionn dans une population de N=100 personnes. Disons que le
nombre dunits rpondantes est n
r
. Seulement n
r
=20 personnes ont donn toute linformation demande.
Quelles sont les poids ajusts pour les non-rponses des units de lchantillon?

1. La premire tape est le calcul des probabilits dinclusion pour un EAS :

.
4
1
100
25
= = =
N
n


Le poids de base pour chaque unit chantillonne est donc w
d
=4.

2. La deuxime tape est le calcul du facteur dajustement pour les non-rponses.

Seulement n
r
= 20 personnes sur n = 25 personnes slectionnes ont donn linformation demande et la
taille de lchantillon final est donc de 20 units. Si les units rpondantes reprsentent les units
rpondantes et non rpondantes, le facteur dajustement pour les non-rponses est donn par:

. 25 , 1
20
25
= =
r
n
n


3. La dernire tape est le calcul des poids ajusts pour les non-rponses.

Les poids ajusts pour les non-rponses, w
nr
, sont le produit des poids de base et du facteur dajustement
pour les non-rponses :
. 5 25 , 1 4 = = =
r
d nr
n
n
w w
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
138
Chaque rpondant reprsente donc cinq personnes dans la population de lenqute. Un poids final de 5 est
attribu chaque unit dans le fichier des donnes.

Si lhypothse selon laquelle tous les non-rpondants sont quivalents aux rpondants pour les
caractristiques mesures dans lenqute est approprie, le mme facteur dajustement pour les non-
rponses peut tre utilis pour toutes les units rpondantes (comme ci-dessus). Il y a habituellement des
sous-groupes, cependant, qui ont tendance rpondre diffremment et qui ont diffrentes caractristiques,
et un ajustement identique pour tous les rpondants peut donc biaiser les rsultats. Les mnages
unifamiliaux, par exemple, ont souvent des taux de rponse infrieurs ceux des mnages multiples et ils
ont des caractristiques diffrentes : il faudrait donc procder des ajustements distincts pour les non-
rponses.

Un facteur dajustement diffrent pour les non-rponses est appliqu dans lexemple ci-dessous chacune
des deux strates : urbaine et rurale. Des caractristiques dintrt diffrentes entre les strates justifient
cette mesure.

Exemple 7.2 (suite) : Facteur dajustement pour les non-rponses de lEAS stratifi (o le groupe
des non-rponses correspond la strate)

Seulement n
r,1
=150 personnes dans la strate du milieu urbain et n
r,2
=40 personnes dans la strate du milieu
rural ont donn linformation demande pendant la collecte des donnes. Quelles sont les poids ajusts
pour les non-rponses de ces rpondants?

Tableau 3 : EAS stratifi avec les non-rponses

Strate Taille de la
population
Taille de
lchantillon
Nombre de rpondants
Urbain N
1
= 1 000 n
1
= 200 n
r,1
= 150
Rural N
2
= 100 n
2
= 50 n
r,2
= 40

1. La pondration du plan dchantillonnage dans chaque strate est w
d,1
=5 pour la strate du milieu urbain
et w
d,2
=2 pour la strate du milieu rural.

2. Un facteur dajustement pour les non-rponses est calcul chaque strate, comme suit :

Strate 1, Urbain : Strate 2, Rural :
33 , 1
150
200
1 ,
1
= =
r
n
n
25 , 1
40
50
2 ,
2
= =
r
n
n


3. La pondration ajuste pour les non-rponses dans chaque strate est le produit de la pondration du
plan dchantillonnage et du facteur dajustement pour les non-rponses.

Strate 1, Urbain : Strate 2, Rural :
67 , 6 33 , 1 5
1 ,
1
1 , 1 ,
= = =
r
d nr
n
n
w w 5 , 2 25 , 1 2
2 ,
2
2 , 2 ,
= = =
r
d nr
n
n
w w

Dans le fichier de lchantillon, on attribue chaque rpondant de la strate du milieu urbain un poids final
de 6,67 et chaque rpondant de la strate du milieu rural, un poids final de 2,5.

ESTIMATION
STATISTIQUE CANADA
139
Lors du calcul du facteur dajustement pour les non-rponses, il est important de tenir compte du fait que
certaines units chantillonnes peuvent se rvler hors du champ de lenqute (c.--d. quelles ne font
pas partie de la population cible). Dans une enqute sur les entreprises de dtail, par exemple, certains
renseignements dans la base de sondage peuvent tre inexacts et une unit chantillonne peut en fait tre
un grossiste. Lajustement pour les non-rponses devrait tre calcul seulement pour les units
admissibles parce que les units hors du champ de lenqute reprsentent habituellement dautres units
hors du champ de lenqute dans la base de sondage. Il nest pas prvu que les units hors du champ de
lenqute rpondront au sondage et il faut donc prsumer que leur taux de non-rponse sera 100 %. Dans
lexemple ci-dessus, il est suppos que tous les non-rpondants sont admissibles, mais les facteurs
dajustement pertinents pourraient tre trs diffrents selon le nombre de non-rpondants admissibles
considr exact.

Il vaut mieux regrouper, pour toutes ces mthodes, les enregistrements semblables comme cest le cas
pour les ajustements de pondration pour les non-rponses (voir le Chapitre 7 - Estimation). Ces
regroupements sont intituls classes dimputation.

Lajustement pour les non-rponses devrait tre fait distinctement pour des groupes de rpondants
semblables lorsque chaque groupe de rpondants peut reprsenter les non-rpondants de ce groupe. Ces
groupements peuvent tre par strate ou par strate a posteriori (voir la section suivante), ou une analyse
peut tre faite pour dterminer les groupements (p. ex., test du chi au carr ou rgression logistique).
Groves et Couper (1998) couvrent en dtail la non-rponse dans les enqutes auprs des mnages. .

Le test du khi carr et la rgression logistique sont tudis au Chapitre 11 - Analyse des donnes de
lenqute.


7.1.4 Recours linformation auxiliaire pour ajuster les pondrations

Les poids de base multiplis par le facteur dajustement pour les non-rponses peuvent servir dterminer
les pondrations finales et les estimations des caractristiques voulues de lenqute. Linformation sur la
population de lenqute peut cependant tre disponible dautres sources, par exemple, la suite dun
recensement prcdent. Cette information peut aussi tre intgre au processus de pondration.

Il y a deux principales raisons pour utiliser les donnes auxiliaires lors de lestimation. Premirement, il
est souvent important que les estimations de lenqute correspondent aux totaux connus de la population
ou aux estimations dune autre enqute plus fiable. De nombreuses enqutes sociales, par exemple,
ajustent leurs estimations de lenqute pour quelles soient conformes aux estimations (ge, rpartition
des sexes, etc.) du recensement de la population le plus rcent. Linformation auxiliaire peut aussi tre
obtenue partir de donnes administratives ou dune autre enqute considre plus fiable parce que sa
taille dchantillon est plus large ou parce quil faut respecter ses estimations publies.

Deuximement, les donnes auxiliaires sont utilises pour amliorer la prcision des estimations. En effet,
un estimateur ayant une petite variance dchantillonnage, une mesure de lerreur dchantillonnage, est
considr prcis. Au Chapitre 6 - Plans dchantillonnage, nous avons considr limportance de
lutilisation des donnes auxiliaires lors de la conception de lchantillon, afin damliorer lefficience
statistique de la stratgie dchantillonnage. ltape du plan dchantillonnage cependant, linformation
auxiliaire doit tre disponible pour toutes les units de la base de sondage. ltape de lestimation, les
donnes auxiliaires peuvent servir amliorer la prcision des estimations si les variables auxiliaires ont
t mesures pour les units de lenqute et si les totaux ou les estimations de la population pour ces
variables auxiliaires sont disponibles une autre source fiable.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
140
Si lge dune personne nest pas disponible dans la base de sondage, par exemple, il ne peut servir
stratifier la population. Si cette information est obtenue lors de lenqute cependant, les estimations de
lenqute peuvent tre ajustes pour correspondre la rpartition des ges dans le recensement. Si lge
est corrl avec dautres variables obtenues pendant lenqute (p. ex., les variables sur la sant), son
utilisation comme donnes auxiliaires peut amliorer la prcision des estimations. Cette notion est
illustre aux sections suivantes.

Linformation auxiliaire peut aussi servir pour apporter dautres corrections lorsquil y a des taux de non-
rponses diffrents dans divers sous-groupes de la population. Elle peut aussi aider ajuster sil y a des
dfauts de couverture parce que la population du sondage est diffrente de la population cible.

Il y a trois exigences lmentaires pour utiliser avec succs des donnes auxiliaires ltape de
lestimation:

- les donnes auxiliaires doivent tre bien corrles avec les variables de lenqute,

- les sources externes dinformation sur la population doivent tre exactes,

- il faut faire la collecte de linformation auxiliaire pour toutes les units rpondantes de lchantillon
quand on ne connat que les totaux de la population.

Plus les variables de lenqute sont troitement corrles avec les donnes auxiliaires disponibles, plus les
estimations qui utilisent les donnes auxiliaires seront efficientes. La prcision de linformation auxiliaire
est importante. Non seulement les donnes doivent tre fiables, mais il est aussi important que la source
de donnes externe couvre la mme population cible et quelle soit tablie selon des concepts, dfinitions
et priodes de rfrence comparables, etc., ceux de lenqute.

Les sections suivantes dcrivent comment les donnes auxiliaires peuvent servir aux estimations.
LAnnexe A - Donnes administratives explore plus avant lutilisation des donnes administratives.


7.1.4.1 Stratification a posteriori

La stratification a posteriori est utilise pour ajuster les poids de lenqute laide de variables qui
conviennent la stratification, mais qui ne pouvaient tre utilises ltape de la conception du plan parce
que les donnes ntaient pas disponibles, ou parce que de linformation plus fiable et jour est devenue
disponible aprs la slection de lchantillon. La stratification a posteriori est utilise lorsque les donnes
auxiliaires sont numriques, par exemple, le nombre dhommes et de femmes dans la population. Elle est
plus efficace pour diminuer la variance dchantillonnage lorsque les moyennes des variables dintrt de
la population sont aussi diffrentes que possible entre les strates a posteriori. Il ne faut pas oublier quil
est prfrable, si possible, de stratifier ltape de la conception du plan au lieu dappliquer la
stratification a posteriori.

Lexemple suivant rvle comment utiliser la stratification a posteriori pour amliorer lestimation du
nombre de fumeurs dans une entreprise.


ESTIMATION
STATISTIQUE CANADA
141
Exemple 7.4 : Ajustement de la pondration pour stratification a posteriori de lEAS

Supposons quune enqute est faite pour obtenir de linformation sur le tabagisme des employs dans une
petite entreprise. Un EAS de n=25 personnes est slectionn dans une liste de N=78 employs. Il ny a
pas dinformation auxiliaire disponible qui peut servir la stratification ltape de la conception du plan.

La collecte de linformation est faite sur le tabagisme, et lge et le sexe de chaque rpondant sont aussi
disponibles. Sur n=25 personnes lorigine, n
r
=15 rpondent et la rpartition suivante est faite :

Tableau 4 : EAS, non-rponse et stratification a posteriori

Strate a
posteriori 1,
hommes
Strate a
posteriori 2,
femmes
Nombre de
rpondants
Tous les employs 3 12 15
Employs fumeurs 1 7 8

1. La probabilit dinclusion de chaque unit chantillonn est donne par:

32 , 0
78
25
= = =
N
n

Le poids de base est donc w
d
=1/=3,12.

2. Le facteur dajustement pour les non-rponses, en supposant que chacun dans lenqute a la mme
probabilit de rpondre au sondage (c.--d., un groupe de non-rponses) est donn par:



3. On obtient les poids ajusts pour les non-rponses en faisant:

2 , 5 67 , 1 12 , 3 = = =
r
d nr
n
n
w w

Tous les rpondants ont donc la mme pondration ajuste pour les non-rponses, w
r
=5,2. Les estimations
suivantes de lenqute sont faites laide de ces poids (consultez la section 7.2 pour obtenir des dtails et
apprendre comment faire des estimations denqute) :

Tableau 5 : Estimation de lenqute et ajustement pour les non-rponses

Hommes Femmes Total
Nombre demploys 15,6 62,4 78,0
Nombre de fumeurs 5,2 36,4 41,6
Proportion de fumeurs 0,33 0,59 0,53

Les pondrations ajustes pour les non-rponses donnent une estimation denviron 16 hommes et
62 femmes qui travaillent dans lentreprise, ainsi quune estimation de 33 % de fumeurs et de 59 % de
fumeuses dans lentreprise. Supposons que linformation auxiliaire suivante devienne disponible aprs
67 , 1
15
25
= =
r
n
n
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
142
lenqute : 42 hommes et 36 femmes travaillent dans lentreprise. Les estimations de lenqute sont trs
diffrentes de ces valeurs relles.

Lorganisme statistique veut que les estimations de lenqute soient conformes au nombre connu
dhommes et de femmes. Lorganisme souponne aussi que le tabagisme est li au sexe dune personne et
la stratification a posteriori pourrait amliorer la prcision des estimations sur le tabagisme. Si cette
information avait en fait t disponible au moment de la conception du plan, lorganisme statistique aurait
stratifi par sexe. Que faire?

Il est possible de stratifier lchantillon aprs le fait et de dterminer des pondrations stratifies a
posteriori utiliser au moment de lestimation. La pondration stratifie a posteriori, w
pst
, est le produit
de la pondration ajuste pour les non-rponses, w
nr
, et du facteur dajustement stratifi a posteriori.

Le facteur dajustement stratifi a posteriori est dtermin pour chaque strate a posteriori. Ce facteur
correspond au rapport entre le nombre dunits de la population dans la strate a posteriori, N, et le nombre
estim dunits de la population dans la strate a posteriori, N

, qui est estim laide des pondrations du


plan ajust pour les non-rponses.

4. Le facteur dajustement pour stratification a posteriori se calcule comme suit :

Strate a posteriori 1, Hommes : Strate a posteriori 2, Femmes :
69 , 2
6 , 15
42

= =
hommes
hommes
N
N
58 , 0
4 , 62
36

= =
femmes
femmes
N
N


(Remarque : Cet exemple vaut pour lEAS, mais la mme formule, N N

/ , est utilise pour des


pondrations de plan dchantillonnage plus complexes.)

Lorsquil est appliqu la pondration ajuste pour les non-rponses, il donne les pondrations stratifies
a posteriori finales :

Strate a posteriori 1, Hommes : Strate a posteriori 2, Femmes :
14 69 , 2 2 , 5

,
= = =
hommes
hommes
nr hommes pst
N
N
w w 3 58 , 0 2 , 5

,
= = =
femmes
femmes
nr femmes pst
N
N
w w

Voici maintenant les estimations de lenqute laide des pondrations stratifies a posteriori :

Tableau 6 : Estimations de lenqute avec ajustement pour les non-rponses et la stratification a
posteriori

Hommes Femmes Total
Nombre de personnes 42 36 78
Nombre de fumeurs 14 21 35
Proportion de fumeurs 0,33 0,59 0,45

Les estimations du nombre dhommes et de femmes sont maintenant conformes aux totaux connus
dhommes et de femmes dans lentreprise et, dans la mesure o le sexe est li au nombre et la
proportion de fumeurs, il est possible damliorer normment la prcision. Remarquez que la proportion
de fumeurs dans chaque strate a posteriori na pas chang, mais que la proportion de fumeurs dans la
population totale qui comprend plus dune strate a posteriori a chang.
ESTIMATION
STATISTIQUE CANADA
143
7.1.4.2 Estimation par quotient

Une mthode souvent applique dans les enqutes pour intgrer de linformation auxiliaire, afin
damliorer les estimations de lenqute, est lestimation par quotient. Lorsque les donnes sont des
nombres, lestimation par quotient correspond la stratification a posteriori. Dans le cas dune estimation
par quotient en gnral, les poids des enregistrements dans un groupe de classification sont ajustes par
un facteur multiplicatif. Ce facteur est le rapport entre lestimation tire des donnes auxiliaires et
lestimation de lenqute pour la mme variable, pour le groupe de classification.

Si lobjectif dune enqute est destimer le nombre dacres de bl dans des rgions en particulier, par
exemple, le nombre total dacres dans chaque rgion pourrait tre une variable auxiliaire utile. Si le
nombre dacres de bl est fortement corrl avec le total des terres dans la rgion, cette information
auxiliaire pourrait amliorer les estimations du nombre dacres de bl. laide de lestimation par
quotient, le facteur dajustement pour chaque rgion serait la superficie totale des terres de la rgion
divise par lestimation dans lchantillon du total de la superficie des terres de la rgion (c.--d. que le
facteur dajustement serait )

/ Y Y . Dans lexemple 7.4, les quotients sont le nombre dhommes divis par
le nombre estim dhommes et le mme quotient pour les femmes et, ceux-ci tant des nombres, ils
correspondent la stratification a posteriori. Tout comme les mthodes prcdentes, lestimation par
quotient peut tre applique distinctement par strate si linformation auxiliaire est disponible ce niveau
et si la taille de lchantillon de chaque strate est suffisante.


7.1.4.3 Ajustements de la pondration plus complexes : calibration et rgression gnralise

Lestimation par quotient est fonde sur lhypothse selon laquelle il y a une simple relation
multiplicative entre les caractristiques de lenqute et une variable auxiliaire (c.--d. que 2,7 fois plus
dhommes signifie 2,7 fois plus de fumeurs). Cette hypothse peut cependant ne pas tre vraie dans toutes
les situations. Premirement, le recours une seule variable auxiliaire peut tre insuffisant pour donner de
bonnes estimations. Deuximement, la relation entre la variable estime et la variable auxiliaire peut tre
plus complexe quune simple relation multiplicative. Dans ce cas, lestimation par rgression peut tre
utilise. Lestimation par rgression est une approche plus complexe qui permet lanalyste de considrer
des modles plus perfectionns, y compris des modles ayant plus dune variable auxiliaire.

Lestimation par quotient pose un autre problme : il peut tre ncessaire de garantir que les totaux de
lchantillon pondr correspondent aux totaux connus de la population pour plus dune caractristique.
Si les totaux de lchantillon pondr doivent correspondre aux totaux de rfrence pour plus dune
caractristique, il faut appliquer une mthode intitule calibration. La situation se produit, par exemple,
lorsque des strates a posteriori sont formes laide de plus dune variable et que seuls les totaux
marginaux de la population pour chaque variable sont connus. Si les donnes sur la population taient
disponibles en nombre par groupe dge et par sexe, par exemple, mais si le nombre dhommes et de
femmes dans chaque groupe dge est inconnu, la mthode de stratification a posteriori dcrite
auparavant ne pourrait tre applique en utilisant les deux caractristiques. (Lestimation par quotient et la
stratification a posteriori sont une calibration qui utilise une seule variable.)

Un prolongement de la mthode par quotient intitule mthode itrative du quotient permet lorganisme
statistique dtablir les pondrations ajustes pour que les estimations soient trs prs des nombres de
rfrence marginaux pour chaque caractristique. Vous obtiendrez une description de cette mthode en
consultant Deming et Stephan (1940), Arora et Brackstone (1977), Bankier (1978), Brackstone et Rao
(1978), Binder (1988).

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
144
Des procdures destimation gnralises ont aussi t labores pour obtenir des estimations qui
conviennent aux totaux de rfrence pour de nombreuses caractristiques simultanment. Lorsque ces
techniques gnrales sont appliques, le processus qui garantit que les nombres correspondent aux totaux
de rfrence est intitul calibration et les ajustements de pondration obtenus sont intituls facteurs de
calibration.

Ces techniques, comme lestimation par quotient et la stratification a posteriori, donnent des ajustements
des poids de base. Les poids finaux utiliss pour calculer les estimations deviennent le produit des poids
ajusts pour les non-rponses et des facteurs de calibration. Les procdures destimation gnralises sont
hors de la porte de ce document. Le lecteur dcouvrira la thorie de lestimation par rgression
gnralise dans Srndal, Swensson et Wretman (1992), Deville et Srndal (1992) et Hidiroglou et
Srndal (1998). Le Chapitre 11 - Analyse des donnes de lenqute prsente une introduction la
rgression linaire.


7.2 Production destimations simples (totaux, moyennes et proportions)

Les exemples ont illustr jusqu maintenant comment calculer les poids de base et les ajuster pour les
non-rponses et pour les donnes auxiliaires. Cette section explique comment obtenir des estimations
laide des poids finaux (poids destimation).

On a not au Chapitre 6 - Plans dchantillonnage quavec lchantillonnage probabiliste, il est possible
de dterminer la distribution dchantillonnage de lestimateur. Dans lchantillonnage non probabiliste,
tant donn que les probabilits de tirage des divers chantillons sont inconnues, la distribution
dchantillonnage ne peut tre calcule. Pouvoir mesurer lerreur dchantillonnage est un volet important
de lestimation de lenqute et lune des principales raisons de procder un chantillonnage probabiliste.


7.2.1 Estimateurs pour divers genres de donnes

Des statistiques descriptives simples comme les totaux, moyennes et proportions, sont produites pour
peu prs toutes les enqutes. Des statistiques et des analyses plus complexes sont aussi habituellement
ncessaires. Dans la majorit des enqutes, des donnes sont obtenues pour un large ventail de variables
qui peuvent tre qualitatives (aussi intitules nominales) ou quantitatives.

Quelques catgories seulement sont possibles pour certaines variables qualitatives, par exemple, le sexe
ou ltat civil. Quant aux questions dopinion, les rponses des participants sont souvent obtenues laide
dune chelle dagrment, par exemple, vraiment daccord, daccord, ni pour ni contre, pas daccord,
vraiment pas daccord. Remarquez quavec les donnes nominales, chaque unit correspond une seule
catgorie.

Si lunit de mesure indique des quantits comme des mtres ou des annes, les donnes sont
quantitatives. Les donnes quantitatives sont habituellement des rponses aux questions du genre quelle
quantit? ou quel nombre?, c.--d. combien? Certains exemples sont lge, le nombre denfants, le
nombre dheures travailles, les dpenses et les revenus, la tension artrielle.

Diffrents types destimateurs sont appropris pour ces divers genres de variables. On produit
habituellement des proportions et des comptes totaux pour des variables qualitatives, tandis que les
moyennes et les totaux sont estims pour des variables quantitatives. Dans cette section, les procdures
ESTIMATION
STATISTIQUE CANADA
145
appliques pour obtenir des estimations seront prsentes distinctement pour les donnes qualitatives et
quantitatives.

Outre le genre de donnes, une autre considration pendant lestimation est la caractristique
dterminante de la population que ciblent les estimations. Des estimations peuvent tre tablies pour toute
la population de lenqute ou pour des sous-groupes ou domaines de la population en particulier (p. ex.,
les provinces). Si la classification originale des units de lchantillonnage a chang pendant la priode
coule entre lchantillonnage et lestimation, la nouvelle classification devrait tre utilise pour
lestimation des domaines.

Les rponses aux questions suivantes devraient aider dterminer comment les estimations de lenqute
sont calcules :
- Quel genre de statistiques sont demandes? Un total, une moyenne, une proportion?
- Quel genre de donnes sont utilises? Qualitatives ou quantitatives?
- Quelles sont les poids finaux ?
- Quels sont les domaines dintrt?

Les procdures destimation des totaux, moyennes et proportions, pour toute la population denqute et
pour des domaines, sont dcrites ci-dessous pour les donnes qualitatives et quantitatives.

Les estimateurs suivants peuvent tre appliqus tout plan dchantillonnage probabiliste simple (p. ex.,
EAS, SYS) ou plus complexe. Il est important surtout que la pondration finale de chaque unit
corresponde au correctement le plan dchantillonnage.

i. Estimation dun total de la population

Lestimation du nombre total dunits dans la population denqute est calcule, pour les donnes
qualitatives et quantitatives, en additionnant les poids finaux (ajusts) des units rpondantes :

=
r
S i
i
w N



o i est la i
e
unit rpondante de lchantillon, w
i
, son poids final et S
r
, lensemble des units rpondantes.

Lestimation dune valeur totale pour les donnes quantitatives (p. ex., les dpenses totales) est le produit
du poids final , w
i
, et de la valeur, y
i
, pour chaque unit rpondante dont on fait la somme pour toutes les
units rpondantes :
i
S i
i
y w Y
r



ii. Estimation dune moyenne de la population

Lestimation dune valeur moyenne dans la population pour les donnes quantitatives est obtenue en
additionnant le produit de la valeur observe et du poids final pour chaque unit rpondante, et en divisant
cette somme par celle des poids. Autrement dit, lestimation de la moyenne dans la population est
lestimation de la valeur totale des donnes quantitatives divise par lestimation du nombre total dunits
dans la population.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
146
N
Y
w
y w
Y
r
r
S i
i
i
S i
i

= =



Remarque : Pour lEAS ou le SYS ayant un taux de rponse de 100 % sans ajustement pour la
pondration, lestimateur se simplifie ainsi :
n
y
Y
i
S i
r



iii. Estimation dune proportion de la population

Lestimation de la proportion des units dans la population de lenqute ayant une caractristique donne,
pour les donnes qualitatives, est obtenue en additionnant les poids des units ayant cette caractristique,
et en divisant ce total par la somme des poids pour tous les rpondants. Autrement dit, lestimation de la
proportion dans la population est lestimation du nombre total des units qui ont la caractristique donne
divise par lestimation du nombre total dunits dans la population.

N
N
w
w
P
C
S i
i
C S i
i
r
r

= =




o C est lensemble des units ayant la caractristique donne.

iv. Estimation pour les domaines de la population

Des estimations peuvent tre demandes pour certains domaines, notamment le groupe dge, le type de
logement, la taille du mnage ou la tranche de revenu.

- Lestimation de la taille de la population pour un domaine dintrt, tant pour les donnes qualitatives
que quantitatives se calcule ainsi :


=
domaine S i
i domaine
r
w N



- Lestimation dun total de domaines pour les donnes quantitatives est donne par :


=
domaine S i
i i domaine
r
y w Y



- On en dduit lestimation dune moyenne de domaines pour les donnes quantitatives :

domaine
domaine
domaine S i
i
domaine S i
i i
domaine
N
Y
w
y w
Y
r
r

= =






ESTIMATION
STATISTIQUE CANADA
147
- De faon quivalente, lestimation dune proportion de domaines pour les donnes qualitatives ou
quantitatives est donne par :
domaine
C domaine
domaine S i
i
C domaine S i
i
domaine
N
N
w
w
P
r
r




= =



Ces procdures destimation sont illustres dans les sections suivantes.


7.2.2 Estimations des totaux, moyennes et proportions

Lutilisation correcte des poids destimation est au cur du processus destimation.

Exemple 7.6 : Estimation lorsque les poids finaux sont ingaux, EAS

Une enqute est mene pour obtenir de linformation sur une population dexploitations agricoles
(fermes). Un chantillon de n=10 exploitations est slectionn laide dun plan dchantillonnage
stratifi. Les 10 exploitations agricoles rpondent et il ny a pas dajustement aux poids, le poids final
tant donc gal au poids de base. Il faut obtenir des estimations partir du fichier de donnes suivant :

Strate Pondration finale Genre de ferme Revenu ($)
1 5,67 1 75 000
1 5,67 2 15 000
1 5,67 1 125 000
1 5,67 1 67 000
1 5,67 2 80 000
1 5,67 1 40 000
2 16,5 1 30 000
2 16,5 1 14 000
2 16,5 2 48 000
2 16,5 1 22 000

Genre de ferme
1=culture ( N
1
= 34, n
1
= 6)
2=levage ( N
2
= 66, n
2
= 4)

- Le nombre dexploitations agricoles dans la population est estim :

100
5 , 16 5 , 16 5 , 16 5 , 16 67 , 5 67 , 5 67 , 5 67 , 5 67 , 5 67 , 5

=
+ + + + + + + + + =
=

r
S i
i
w N


Remarque : Si les pondrations avaient t omises, le calcul erron de lestimation aurait donn 10.

- Le nombre estim dexploitations agricoles dlevage (eae) est donne par :

28 5 , 16 67 , 5 67 , 5

= + + = =

eae S i
i eae
r
w N
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
148
- On en dduit la proportion estime dexploitations agricoles dlevage :

28 , 0
100
28

= = =


r
r
S i
i
eae S i
i
w
w
P

- Le revenu total de la population entire dexploitations agricoles est estim :

340 160 4
000 22 16,5 . 000 15 5,67 000 75 5,67

=
+ + + =
=

i
S i
i
y w Y
r


- On estime le revenu moyen pour toute la population dexploitations agricoles en faisant :

595 41
02 , 100
340 160 4

= = =

r
r
S i
i
i
S i
i
w
y w
Y

- Lestimation du revenu total des exploitations agricoles dlevage est donne par :

650 330 1
000 23 16,5 000 48 5,67 000 84 5,67

=
+ + =
=


i
eae S i
i eae
y w Y
r


- Lestimation du revenu moyen des exploitations agricoles dlevage est :

796 47
8 , 27
650 330 1
5 , 16 67 , 5 67 , 5
000 23 16,5 000 48 5,67 000 84 5,67

= =
+ +
+ +
=
=



eae S i
i
i
eae S i
i
eae
r
r
w
y w
Y


Remarque : Si les pondrations de lchantillonnage taient ignores, les estimations seraient inexactes.
Le tableau ci-dessous montre la comparaison :
ESTIMATION
STATISTIQUE CANADA
149
Tableau 7 : Comparaison des estimations calcules avec et sans pondration

Paramtre estim Estimation exacte
avec pondration
Estimation inexacte
sans pondration
N 100 10
N
eae
28 3
P 0,28 0,30
Y 4 160 340 $ 516 000 $
Y
41 595 $ 51 600 $
eae
Y


1 330 650 $ 155 000 $
eae
Y
47 796 $ 51 667 $

Il est possible dtablir des estimations pour les donnes qualitatives laide de techniques habituellement
rserves aux variables quantitatives. Une variable indicatrice peut tre dfinie pour chaque catgorie de
la variable qualitative qui prend la valeur 1 si lunit appartient la catgorie, et 0 autrement.
Lestimation du nombre total dunits ayant la caractristique est obtenue en calculant le produit de la
valeur de la variable indicatrice (1 ou 0) et du poids pour chaque unit rpondante, et ensuite, en faisant la
somme pour toutes les units rpondantes. Compte tenu de cette approche, les procdures destimation
des donnes qualitatives et quantitatives sont les mmes.


7.2.3 Questions destimation

7.2.3.1 Estimation pour les petits domaines

Le plan dchantillonnage devrait tenir compte des domaines dintrt par lintermdiaire de la
stratification lorsque cest possible. Cette mesure garantit une prcision et une taille de lchantillon
appropries. Des restrictions appliques la taille de lchantillon et dautres critres de plan
dchantillonnage (notamment linformation de la base de sondage) peuvent cependant signifier que seul
un nombre minime de strates peuvent tre formes et, pour certains domaines, en particulier les petits, la
taille de lchantillon peut donc tre insuffisante.

Une taille dchantillon insuffisante dans un domaine peut poser un problme au moment de lestimation.
Diverses techniques sont disponibles pour obtenir des estimations dans ces cas. Elles comprennent
lestimation synthtique, lestimation composite et dautres encore. Ces mthodes exigent habituellement
de linformation corrle dune autre source ou le recours de bons modles. Lapplication de ces
techniques peut devenir complexe et elle est hors de la porte de ce manuel. Le lecteur intress obtiendra
davantage dinformation sur ce sujet avanc en consultant Srndal, Swensson et Wretman (1992), Ghosh
et Rao (1994), Singh, Gambino et Mantel (1994).


7.2.3.2 Valeurs aberrantes

Selon la dfinition de Barnett et Lewis (1995), une valeur aberrante est une observation ou un sous-
ensemble dobservations qui semble(nt) tre incohrente(s), compte tenu des autres sries de donnes.
Il y a diverses mthodes disponibles pour diminuer les rpercussions des valeurs aberrantes sur les
estimations de lenqute. Les ignorer simplement peut diminuer la prcision, leur donner une pondration
de un ou de zro peut biaiser les rsultats. Dautre part, linformation auxiliaire et la stratification a
posteriori peuvent tre utilises pour garantir que les valeurs aberrantes nont pas de rpercussions
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
150
excessives sur les estimations. Les valeurs aberrantes sont abordes au Chapitre 10 - Traitement. Ce
sujet avanc est aussi tudi dans Kish (1965), et Hidiroglou et Srinath (1981).


7.3 Estimation des erreurs dchantillonnage des estimations de lenqute

Des erreurs peuvent se glisser dans les estimations dune enqute. Au Chapitre 3 - Introduction au plan
denqute, nous mentionnons deux types lmentaires derreurs, lerreur dchantillonnage et les erreurs
non dues lchantillonnage. Les erreurs non dues lchantillonnage se traduisent souvent par un biais
et sont difficiles mesurer. Lerreur dchantillonnage donne la variabilit, elle mesure quel point une
estimation de diffrents chantillons possibles de la mme taille et du mme plan dchantillonnage,
laide du mme estimateur, donne des rsultats diffrents lun de lautre.

Limportance dune estimation de la variance dchantillonnage ltape de la conception du plan, afin de
comparer lefficience statistique de diffrents plans dchantillonnage, est explique au Chapitre 6 -
Plans dchantillonnage. Le Chapitre 8 - Calcul de la taille de lchantillon et rpartition rvle
comment une estimation de la variance dchantillonnage est utilise, afin de dterminer la taille de
lchantillon ncessaire pour obtenir un niveau de prcision donn.

Lobjectif de cette section est dillustrer comment la variance dchantillonnage est mesure et
limportance de la prise en compte du plan dchantillonnage. Cette section prsente seulement les
estimateurs de la variance pour une moyenne ou un total estim pour un EAS ou un EAS stratifi en
supposant quil ny a pas dajustement des poids de base. Lestimation de la variance pour une proportion
estime dun EAS et des plans dchantillonnage plus complexes ( laide dun effet de plan) sont
expliqus au Chapitre 8 - Calcul de la taille de lchantillon et rpartition.

Chaque stratgie dchantillonnage a sa formule particulire destimation de la variance
dchantillonnage et elle peut tre complique. Il faudrait consulter un statisticien denqute qui connat
bien ce genre de problme pour estimer correctement la variance dchantillonnage pour des donnes
complexes (c.--d. pour les plans dchantillonnage plus complexes et lorsquil y a ajustements de la
pondration).

Les formules prsentes dans ce chapitre se retrouvent dans tout ouvrage dintroduction la thorie des
sondages, par exemple, Cochran (1977) ou Lohr (1999).


7.3.1 Variance dchantillonnage

Du point de vue mathmatique, la variance dchantillonnage dune estimation est la dviation
quadratique moyenne par rapport la valeur moyenne de lestimateur pour tous les chantillons possibles.
Une liste de facteurs qui ont des rpercussions sur limportance de la variance dchantillonnage a t
donne au Chapitre 3 - Introduction au plan denqute :
- la variabilit de la caractristique dintrt dans la population,
- la taille de la population,
- le taux de rponse,
- le plan dchantillonnage et la mthode destimation.

Les rpercussions de ces facteurs sur la variance dchantillonnage sont illustres ci-dessous laide de
lestimateur pour la variance dchantillonnage dune moyenne de la population estime partir de
ESTIMATION
STATISTIQUE CANADA
151
lEASSR avec un taux de rponse de 100 %. (Voir aussi le Chapitre 8 - Calcul de la taille de
lchantillon et rpartition.)

La valeur de chaque variable, y
i
, varie habituellement dune unit lautre dans la population. La variance
de la population,
2
, de toutes les units, y
i
, dans la population est dfinie comme suit :

2 2
) 1 (
S
N
N
=
o

=
U i
i
N
Y y
S
1
) (
2
2


U est lensemble des units de la population et il y a N units dans la population.

Un estimateur non biais de la moyenne de la population pour un EASSR de taille n avec un taux de
rponse de 100 % est donn par :

=
r
S i
i
n
y
Y



o S
r
est lensemble des rpondants de lchantillon et il y a n units dans lchantillon.

Lestimation, Y

, varie dun chantillon lautre. La variance dchantillonnage de Y

pour un EASSR de
taille n peut tre exprime ainsi :
n
S
N
n
Y Var
2
) 1 ( )

( =

Il est vident, compte tenu de lquation ci-dessus, quune estimation pour une caractristique ayant de
grandes diffrences dune unit lautre, c.--d. une variabilit leve dans la population, a une variance
dchantillonnage plus grande que celle dune estimation pour une caractristique ayant une faible
variabilit dans la population. Habituellement, S
2
est inconnue et doit tre estime (voir la
section 7.3.2.3.).

Il est aussi vident que la taille de la population a des rpercussions sur la variance dchantillonnage :
lquation f = n/N est appele la fraction de sondage et lquation (1-f) = 1-n/N est le facteur de correction
de la population finie (cpf, aussi parfois appel facteur dexhaustivit). La variance dchantillonnage
diminue dans la mesure o la taille de lchantillon, n, augmente et, lors dun recensement (o n=N), il
ny a pas de variance dchantillonnage. Lorsque la fraction de sondage est petite (c.--d. que la taille de
lchantillon est petite comparativement la population), on peut ignorer la cpf. (Selon Cochran (1977),
ce facteur peut tre ignor sil nest pas suprieur 5 % et, dans de nombreux cas , mme sil est aussi
lev que 10 %.) Toutefois, les non-rponses augmentent la variance dchantillonnage en diminuant en
fait la taille de lchantillon.

Il est expliqu au Chapitre 6 - Plans dchantillonnage que certaines stratgies dchantillonnage sont
plus efficientes que dautres. La stratification, par exemple, et lutilisation destimateurs par le ratio
peuvent amliorer la prcision des estimations.

Dans ltude de la variance dchantillonnage qui suit, il est suppos que lestimateur nest pas biais.
Dans certains cas cependant, il vaut mieux avoir un estimateur biais (p. ex., lorsque sa prcision est
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
152
meilleure que tout autre estimateur non biais). Sil y a un biais, peu importe la raison, cause dun
estimateur biais ou dune erreur non due lchantillonnage, les formules de variance de
lchantillonnage prsentes dans les sections suivantes permettent de calculer lerreur quadratique
moyenne (EQM) qui est une mesure de la variance dchantillonnage et du biais. Le rsultat peut susciter
des problmes dintervalles de confiance et ceci sera repris au Chapitre 11 - Analyse des donnes de
lenqute.


7.3.1.1 Calcul de la variance dchantillonnage relle

Lexemple suivant illustre comment calculer la variance dchantillonnage relle des dpenses moyennes
estimes pour les articles vido dans un EASSR de taille n=2.

Exemple 7.7 :

Les dpenses pour les articles vido dune population de quatre mnages sont inscrites ci-dessous. Dans
un EASSR de taille n=2, quelle est la variance dchantillonnage relle des dpenses moyennes estimes?

Tableau 8 : Dpenses pour articles vido par mnage

Mnage Dpenses pour articles
vido ($)
1 10
2 20
3 30
4 40

Remarquez dabord que la valeur du paramtre des dpenses moyennes de la population pour les articles
vido est la suivante :
25
4
40 30 20 10
=
+ + +
=
=

U i
i
N
y
Y


Voici lestimateur habituel pour la moyenne estime dans un EAS :



= =
r r
S i
i
S i
i
y
n
y
Y
2



Nous pouvons calculer la variance dchantillonnage relle de la moyenne estime, )

(Y Var , pour un
EASSR de taille n=2 en considrant les rsultats de tous les chantillons possibles de taille 2 de lEASSR.
Ils sont affichs au tableau ci-dessous :
ESTIMATION
STATISTIQUE CANADA
153
Tableau 9 : Calcul de la variance dchantillonnage relle de Y



chantillon Units de
lchantillon
Estimation de
lchantillon ($)
Y

( Y Y
2
)

( Y Y
1 (1,2) 15 -10 100
2 (1,3) 20 -5 25
3 (2,3) 25 0 0
4 (1,4) 25 0 0
5 (2,4) 30 5 25
6 (3,4) 35 10 100
Moyenne 25 0 41.7

1. Dabord, calculer la moyenne de toutes les moyennes possibles de lchantillon :

Y
Y Y Y Y Y Y
Y
= =
+ + + + +
=
+ + + + +
=
25
6
35 30 25 25 20 15
6

) 6 ( ) 5 ( ) 4 ( ) 3 ( ) 2 ( ) 1 (


On remarque que la valeur moyenne de lestimation pour tous les chantillons possibles est gale la
moyenne de la population, Y . Voil qui est prvisible parce que lestimateur pour Y

nest pas biais.




2. Ensuite, calculer la diffrence entre chaque estimation de lchantillon et lestimation moyenne de
tous les chantillons (c.--d. Y Y
j

pour le j
me
chantillon) inscrite dans la quatrime colonne du
tableau ci-dessus.

3. Calculer le carr de ces diffrences (c.--d.
2
)

( Y Y
j
) inscrit dans la cinquime colonne du tableau.

4. Pour lensemble, J, de tous les chantillons de la population, calculer la moyenne des diffrences au
carr :
7 . 41
6
100 25 0 0 25 100
6
)

(
)

(
2
=
+ + + + +
=

J j
j
Y Y
Y Var


La variance dchantillonnage relle des dpenses moyennes estimes pour les articles vido dun EASSR
de taille n=2 pour cette population est donc 7 , 41 )

( = Y Var .

Le problme de lapproche ci-dessus est quil nest pas pratique de slectionner tous les chantillons
possibles de la population. Une solution de rechange est de slectionner de nombreux chantillons par
rpliques, comme il est mentionn la Section 6.3.9 du Chapitre 6 - Plans dchantillonnage et la
section 7.3.4. Dautre part, lquation prsente plus tt pourrait tre utilise directement :
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
154
n
S
N
n
Y Var
2
) 1 ( )

( =
o :
7 , 166
) 1 4 (
) 25 40 ( ) 25 30 ( ) 25 20 ( ) 25 10 (
1
) (
2 2 2 2
2
2
=

+ + +
=

U i
i
N
Y y
S

donc :
7 , 41
2
7 , 166
4
2
1 1 )

(
2
= |
.
|

\
|
= |
.
|

\
|
=
n
S
N
n
Y Var

Lquation ci-dessus pose un problme : sauf sil y a eu recensement auparavant, la variabilit de la
population, S
2
, est inconnue et doit tre estime partir dun seul chantillon. Si lchantillonnage
probabiliste est utilis, la distribution dchantillonnage de lestimateur peut tre calcule et la variance de
la population peut tre estime partir dun seul chantillon.

Les formules pour
2

S se trouvent dans nimporte quel ouvrage thorique sur lchantillonnage pour les
plans dchantillonnage standard (EAS, chantillonnage stratifi, etc.). Lorsque le plan dchantillonnage
ou la procdure destimation est complexe, dautres mthodes peuvent servir, notamment celles qui sont
dcrites la Section 7.3.4.

Un estimateur sans biais de la variance dchantillonnage de la moyenne estime, Y

, pour un EASSR, est


donn par :
n
S
N
n
Y r a V
2

1 )

(
|
.
|

\
|
=
o :

=
S i
i
n
y y
S
1
) (

2
2

et o :

=
S i
i
n
y
y

Cette formule sera illustre la Section 7.3.2.3.

Un estimateur sans biais de la variance dchantillonnage du total estim, Y

, pour un EASSR, est donn


par :
.

1 )

( )

( )

(
2
2 2
n
S
N
n
N Y r a V N Y N r a V Y r a V |
.
|

\
|
= = =

On verra au Chapitre 8 - Calcul de la taille de lchantillon et rpartition lestimation de la variance
dchantillonnage dune proportion estime, P

.


ESTIMATION
STATISTIQUE CANADA
155
7.3.2 Autres mesures de lerreur dchantillonnage

Avant dillustrer comment estimer la variance dchantillonnage, dautres mesures communes de lerreur
dchantillonnage seront prsentes, notamment :
- lerreur-type,
- le coefficient de variation,
- la marge derreur,
- lintervalle de confiance.

Ce sont des expressions connexes et il est possible de passer de lune lautre en appliquant des
oprations mathmatiques simples.


7.3.2.1 Erreur-type et coefficient de variation

Lerreur-type dun estimateur est la racine carre de sa variance dchantillonnage. Cette mesure est
plus facile interprter parce quelle donne une indication de lerreur dchantillonnage laide de la
mme chelle que lestimation, tandis que la variance est base sur les diffrences quadratiques.

Mme lerreur-type peut cependant tre difficile interprter lorsquon pose la question Quelle ampleur
derreur-type est acceptable? Cest limportance de lestimation qui dtermine la largeur. Une erreur-
type de 100, par exemple, serait considre grande pour mesurer la moyenne du poids des gens, mais pas
pour estimer le revenu annuel moyen.

Il est plus utile dans de nombreuses situations dvaluer la taille de lerreur-type par rapport lestimation
de la caractristique mesure. Le coefficient de variation donne ce genre de mesure. Cest le rapport
entre lerreur-type de lestimation de lenqute et la valeur moyenne de lestimation elle-mme, pour
tous les chantillons possibles. Le coefficient de variation est habituellement calcul comme lestimation
de lerreur-type de lestimation de lenqute par rapport lestimation elle-mme. Cette mesure relative
de lerreur dchantillonnage est habituellement exprime en pourcentage (10 % au lieu de 0,1). Elle est
trs utile pour comparer la prcision des estimations de lchantillon lorsque leurs tailles ou chelles sont
diffrentes lune de lautre. Elle est cependant moins utile pour les estimateurs des caractristiques dont la
valeur relle peut tre zro ou ngative, y compris les estimations de changement (p. ex., le changement
du revenu moyen depuis lan dernier).


7.3.2.2 Marge derreur et intervalle de confiance

Il nest pas rare de lire les rsultats dune enqute publis dans un journal comme suit :

Selon une enqute rcente, 15 % des rsidents dOttawa assistent des services religieux chaque
semaine. Les rsultats, tirs dun chantillon de 1 345 rsidents, sont considrs prcis plus ou
moins 3 %, 19 fois sur 20.

Que signifie cet nonc? Il rvle que la valeur relle, le pourcentage rel des gens qui assistent des
services religieux chaque semaine, se situe probablement trois points de lestimation (15 %). Dans
lexemple ci-dessus, la marge derreur est de plus ou moins trois points, ou simplement 3 %, et
lintervalle de confiance correspond la plage de 12 % 18 %. Les marges derreur comprennent
toujours un nonc sur la confiance, cest--dire le degr de confiance que suscite lintervalle. Dans cet
exemple, lnonc sur la confiance est 19 fois sur 20. Si lenqute tait rpte de nombreuses fois, cela
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
156
signifie que 19 fois sur 20 (ou 95 % des fois), lintervalle de confiance couvrirait la valeur relle de la
population.

La thorie sous-jacente ltablissement des intervalles de confiance peut tre dcrite comme suit.
Supposons une estimation de la moyenne de la population, Y

, pour un chantillon de grande taille, et une


estimation de lerreur-type, )

Y E S . En vertu du thorme central limite et de la distribution normale, les


chances sont donc :
- de 0,10 que lerreur absolue |

| Y Y soit suprieure )

65 , 1 Y E S (ce qui correspond un intervalle


de confiance de 90 %),
- de 0,05 que lerreur absolue |

| Y Y soit suprieure )

96 , 1 Y E S (ce qui correspond un


intervalle de confiance de 95 %),
- de 0,01 que lerreur absolue |

| Y Y soit suprieure )

58 , 2 Y E S (ce qui correspond un intervalle


de confiance de 99 %).

Ces formules sappliquent tous les estimateurs normalement distribus. Il ne faut pas oublier que les
erreurs-types sont utiles, non seulement pour le calcul des intervalles de confiance, mais aussi pour
lanalyse infrentielle des donnes, par exemple, les tests d hypothse (voir le Chapitre 11 - Analyse
des donnes de lenqute).

Le lecteur intress trouvera voulez davantage de dtails sur la thorie sous-jacente aux intervalles de
confiance dans les ouvrages sur la thorie de lchantillonnage (p. ex., Cochran (1977), Lohr (1999),
Srndal, Swensson et Wretman (1992), Stuart (1968)). point superflu en anglais


7.3.2.3 Estimation de la variance dchantillonnage et autres mesures de lerreur dchantillonnage
de lEASSR

Lexemple suivant illustre comment estimer les mesures de lerreur dchantillonnage partir dun seul
chantillon ralis laide de lEASSR, (en supposant un taux de rponse de 100 % et aucun ajustement
pour les donnes auxiliaires.)

Exemple 7.8 : Estimation de la variance dchantillonnage, de lerreur-type, du coefficient de
variation, de la marge derreur et de lintervalle de confiance pour Y

, EASSR

Un EASSR de n=10 personnes (taux de rponse de 100 %) est slectionn dans une population de
N=500 personnes. Lge de chaque unit chantillonne est inscrit dans le tableau ci-dessous (tri par
ge). Quelle est la variance dchantillonnage estime de lge moyen estim? Quels sont lerreur-type et
le coefficient de variation estims? Quels sont la marge derreur et lintervalle de confiance pour un
niveau de confiance de 95 %?

ESTIMATION
STATISTIQUE CANADA
157
Tableau 10 : Calcul de la variance dchantillonnage estime de Y



Personne ge de lunit de
lchantillon, y
i

) y y (
i

2
) y y (
i

1 21 -13,4 179,56
2 26 -8,4 70,56
3 27 -7,4 54,76
4 32 -2,4 5,76
5 34 -0,4 0,16
6 37 2,6 6,76
7 38 3,6 12,96
8 40 5,6 31,36
9 42 7,6 57,76
10 47 12,6 158,76

1. Estimation de lge moyen de la population :

4 , 34
10
47 42 40 38 37 34 32 27 26 21

=
+ + + + + + + + +
=
=

r
S i
i
n
y
Y


Lge moyen estim est donc de 34,4 ans. On notera que la moyenne estime de la population est la
moyenne de lchantillon simple pour un EAS (sans facteur dajustement pour les non-rponses ou les
donnes auxiliaires).

2. Estimation de la variance dchantillonnage de Y

pour un EASSR :

n
S
N
n
Y r a V
2

1 )

(
|
.
|

\
|
=
o
2

S est :
3 , 64
1 10
76 , 158 76 , 57 36 , 31 ... 76 , 54 56 , 70 56 , 179
1
) (

2
2
=

+ + + + + +
=

r
S i
i
n
y y
S

donc :
3 , 6
10
3 . 64
500
10
1

1 )

(
2
= |
.
|

\
|
= |
.
|

\
|
=
n
S
N
n
Y r a V

La variance dchantillonnage estime est donc 6,3.

3. Estimation de lerreur-type, )

Y E S , et du coefficient de variation, : )

Y V C

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
158
5 , 2 3 , 6
)

( )

= =
= Y r a V Y E S

% 3 , 7 073 , 0
4 , 34
5 , 2 )

= =
= =
y
Y E S
Y V C


4. Calcul de la marge derreur et de lintervalle de confiance avec niveau de confiance de 95 % :

Marge derreur = 1,96 )

Y E S
= 1,96 x 2,5
= 4,9

Intervalle de confiance = )

96 , 1

Y E S Y
= 34,4 4,9
= (29,5, 39,3)

On peut donc affirmer avec un taux de confiance de 95 % que lge moyen rel de la population se situe
entre 29,5 et 39,3 ans. ( proprement parler, linterprtation exacte est que lintervalle de confiance dans
un chantillonnage rpt comprendrait la valeur relle de la population en moyenne 95 % des fois.)


7.3.2.4 Estimation de la variance dchantillonnage de lEASSR stratifi

Illustrons maintenant les rpercussions si lon nglige de prendre en compte le plan dchantillonnage rel
et que la variance dchantillonnage est simplement calcule laide de lquation pour un chantillon
alatoire simple. Le march des logiciels offre un large ventail de logiciels de statistique et de traitement
des donnes sur ordinateur personnel, mais trs peu tiennent compte correctement du plan denqute, pas
mme ceux dont la publicit soutient quils sont spcialiss en traitement des enqutes. Un certain nombre
dexamens des logiciels statistiques a t fait depuis dix ans, et il serait prudent et judicieux den lire
quelques-uns; un rpertoire est tenu jour au http://www.fas.harvard.edu/~stats/survey-soft/survey-
soft.html.

Exemple 7.6 (suite) : Estimation de la variance dchantillonnage

Si lchantillon est le rsultat dun chantillon alatoire simple de taille n=10 (taux de rponse de 100 %)
tir dune population de taille N=100, il est alors possible dobtenir les estimations suivantes du revenu
moyen et de la variance dchantillonnage du revenu moyen estim.

600 51

= =

r
S i
i
n
y
Y

(comparativement 41 595 le plan dchantillonnage est pris en compte).

La variance dchantillonnage estime (en milliers) :

2 , 112
10
247 1
100
10
1

1 )

(
2
= |
.
|

\
|
=
|
.
|

\
|
=
n
S
N
n
Y r a V
EAS

ESTIMATION
STATISTIQUE CANADA
159
et lerreur-type est (en milliers) )

( Y E S Y r a V
EAS EAS
= =10,6.

Afin destimer correctement la variance dchantillonnage de la moyenne partir dun chantillon
stratifi, il faut dterminer la variance dchantillonnage estime de chaque strate h et faire la somme des
rsultats de chaque strate pour obtenir une estimation complte (en milliers de $) :

44
4
6 , 211
66
4
1 66
6
1406
34
6
1 34
100
1

1
1
)

2 2
2
2
2
2
=
)
`

|
.
|

\
|
+ |
.
|

\
|
=
|
|
.
|

\
|
=

h
h
h
h
h
h STR
n
S
N
n
N
N
Y V


et lerreur-type est (en milliers) )

( Y E S Y r a V
STR STR
= = 6,6.

Si variance dchantillonnage avait t estime sans tenir compte du plan dchantillonnage, et que
lestimateur pour un EAS avait t utilis, la variance dchantillonnage aurait t surestime. En
revanche, si le plan dchantillonnage avait t un plan par grappes et la formule de lEAS avait t
utilise, la variance dchantillonnage relle aurait probablement t sous-estime.


7.3.3 Effet de plan

Leffet de plan compare la variance des estimateurs entre un plan dchantillonnage et un EAS. Il sagit
du rapport entre la variance dchantillonnage dun estimateur, selon un plan dchantillonnage
donn, et la variance dchantillonnage de lestimateur dun EAS de mme taille.

Il est mentionn au Chapitre 6 - Plans dchantillonnage que cette mesure est souvent applique pour
comparer lefficience des estimateurs de divers plans dchantillonnage. Si le ratio est infrieur un, le
rsultat indique que le plan dchantillonnage est plus efficient que lEAS, sil est suprieur un, le plan
dchantillonnage est moins efficient que lEAS.

Dans le cas de lexemple prsent plus tt,
39 , 0
200 112
000 44
)

(
)

(
= = =
Y r a V
Y r a V
deff
EAS
STR


cest--dire que la stratification amliore normment la prcision de la moyenne estime de lenqute.

Les effets du plan dchantillonnage aident aussi obtenir des estimations approximatives de la variance
pour des plans dchantillonnage complexes. Si une estimation de leffet du plan dchantillonnage est
disponible dans une enqute prcdente qui a utilis le mme plan dchantillonnage, elle peut servir
dterminer la taille de lchantillon ncessaire de lenqute. (Ce point sera considr au Chapitre 8 -
Calcul de la taille de lchantillon et rpartition).

On consultera Kish (1965) pour davantage dinformation sur les effets de plan.


MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
160
7.3.4 Estimation de la variance dchantillonnage laide de lchantillonnage par
rpliques

Les variances des statistiques simples, notamment les moyennes et les totaux, peuvent tre estimes
laide de procdures mentionnes auparavant pour les plans dchantillonnage simples. Si les plans
dchantillonnage ou les estimateurs sont plus complexes cependant (p. ex., des fonctions des totaux), il
peut tre difficile de dterminer la formule de la variance dchantillonnage.

Des mthodes de rechange (autres que lapplication dun effet de plan) permettent destimer la variance
dchantillonnage pour une srie slectionne de procdures destimation et de plans dchantillonnage.
Lchantillonnage par rpliques en est une. Dans un chantillonnage par rpliques, au lieu de slectionner
un chantillon de taille n, k chantillons indpendants de taille n / k sont slectionns. Une estimation de
la caractristique dintrt est faite pour chacun de ces chantillons k. La variabilit des estimations des
chantillons k sert ensuite estimer la variance dchantillonnage. Lestimation, t, de la caractristique
dintrt est obtenue laide de la moyenne des estimations faites pour chaque chantillon :

=
K j
j
k
t
t

o K est lensemble des chantillons, k est le nombre dchantillons et t
j
est lestimation du j
e
chantillon.

La variance dchantillonnage estime de t, ) ( t r a V , est le rsultat de lquation :

=
K j
j
k k
t t
t r a V
) 1 (
) (
) (
2


Exemple 7.9 : Estimation de la variance dchantillonnage de Y

laide de lchantillonnage par


rpliques, EAS

Dans lexemple 7.8, au lieu de slectionner un chantillon de taille n=10 et dappliquer lquation
prcdente pour estimer )

( ) ( Y Var t Var = , deux chantillons de taille n=5 sont slectionns. Les rsultats
sont inscrits au tableau suivant.

Tableau 11 : Calcul de la variance dchantillonnage estime de Y

laide de lchantillonnage par


rpliques

chantillon 1 ge des units de lchantillon chantillon 2 ge des units de lchantillon
1 21 1 26
2 27 2 32
3 34 3 37
4 38 4 40
5 42 5 47
ge moyen 32,4 36,4




ESTIMATION
STATISTIQUE CANADA
161
1. Lge moyen de la population est estim :
4 , 34
2
4 , 36 4 , 32

=
+
=
=

K j
j
k
Y
Y


2. Voici la variance dchantillonnage estime de lge moyen laide de la mthode dchantillonnage
ritr :
4
2
34,4) - (36,4 34,4) - (32,4
) 1 (
)

(
)

(
2 2
2
=
+
=

K j
j
k k
Y Y
Y r a V

Lerreur-type estime, )

Y E S , est 2.

Dautres mthodes de r-chantillonnage, notamment la mthode du Jackknife et celle du Bootstrap (auto-
amorage), sont aussi souvent utilises dans les enqutes ayant des plans complexes. Rust et Rao (1996),
Wolter (1985) ou Efron (1981) donnent une description de ces mthodes. Gambino et coll. (1998)
donnent un exemple de la mthode du Jackknife applique dans une enqute sur les mnages comprenant
un estimateur et un plan dchantillonnage complexes. Dautres techniques qui ne sont pas bases sur le
r-chantillonnage, notamment lapproximation par sries de Taylor, peuvent aussi servir lorsque le plan
dchantillonnage est complexe. Hidiroglou et Paton (1987), Binder (1996), Srndal, Swensson et
Wretman (1992) et Wolter (1985) constituent dexcellentes sources.


7.4 Sommaire

La liste suivante donne un aperu des points importants considrer pour estimer les donnes dune
enqute :

1. Lestimation doit tenir compte du plan dchantillonnage. Il faudrait intgrer cette fin les poids de
base au processus destimation.

2. Les poids de base devraient tre ajusts pour les non-rponses.

3. Il faudrait utiliser, si possible, linformation auxiliaire, si elle est de qualit approprie et corrle
avec les principales variables de lenqute, pour amliorer luniformit et la prcision des estimations.

4. Il faudrait utiliser le plan dchantillonnage et la rpartition des chantillons pour rpondre aux
exigences des domaines dintrt. Si ce nest pas possible ltape de la conception du plan
dchantillonnage, il faudrait considrer des mthodes destimation spciales ltape de lestimation.

5. Les valeurs aberrantes peuvent donner une grande variabilit dchantillonnage dans les estimations.
Il faudrait considrer le reprage et le traitement des valeurs aberrantes ltape de lestimation.

6. Les estimations de lenqute devraient comprendre une estimation de leur erreur dchantillonnage,
sous forme de variance dchantillonnage, derreur-type, de coefficient de variation, de marge
derreur ou dintervalle de confiance.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
162
On propose au Chapitre 11 - Analyse des donnes de lenqute des utilisation de donnes pour fins
danalyse qui vont au-del des simples statistiques descriptives..


Bibliographie

Arora, H.R. et G.J. Brackstone. 1977. An Investigation of the Properties of Raking Ratio Estimators: I,
With Simple Random Sampling. Survey Methodology, 3(1): 62-83.

Bankier, M.D. 1978. An Estimate of the Efficiency of Raking Ratio Estimators under Simple Random
Sampling. Survey Methodology. 4(1): 115-124.

Barnett, V. et T. Lewis. 1995, Outliers in Statistical Data. John Wiley and Sons, Chichester.

Binder, D.A. 1983. On the Variance of Asymptotically Normal Estimators from Complex Surveys.
International Statistical Review, 51: 279-292.

Binder, D.A. 1996. Mthodes de linarisation pour les chantillons une et deux phases: une approche de
type recette. Techniques denqute. 22(1): 17-22.

Binder, D.A. 1998. Estimating the Variance of Raking Ratio Estimators. Canadian Journal of Statistics,
16: 47-55.

Brackstone, G. et J.N.K. Rao. 1979. An Investigation of Raking Ratio Estimators. Sankhy, Series C, 42:
97-114.

Chambers, R.L. 1986. Outlier Robust Finite Population Estimation. Journal of the American Statistical
Association, 81: 1063-1069.

Cochran, W.G. 1977. Sampling Techniques. John Wiley and Sons, New York.

Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.

Deming, W.E. et F.F. Stephan. 1940. On the least squares adjustment of a sampled frequency table when
the expected marginal totals are known. Annals of Mathematical Statistics, 11: 427-444.

Deville, J.C. et C.E. Srndal. 1992. Calibration estimators in survey sampling. Journal of the American
Statistical Association, 87: 376-382.

Efron, B. 1981. The Jackknife, the Bootstrap and Other Resampling Plans. SIAM. 38. Philadelphia.

Eltinge, J.L. et I.S. Yansaneh. 1997. Mthodes diagnostiques pour la construction de cellules de
correction pour la non-rponse, avec application la non-rponse aux questions sur le revenu
dans la U.S. Consumer Expenditure Survey. Techniques denqute, 23(1): 37-45.

Estevao, V., M.A. Hidiroglou, and C.E. Srndal. 1995. Methodological Principles for a Generalized
Estimation System at Statistics Canada. Journal of Official Statistics, 11: 181-204.

Fink, A. 1995. The Survey Kit. Sage Publications, California.

ESTIMATION
STATISTIQUE CANADA
163
Fowler, F.J. 1984. Survey Research Methods. 1. Sage Publications, California.

Gambino, J.G., M.P. Singh, J. Dufour, B. Kennedy et J. Lindeyer. 1998. Mthodologie de lenqute sur la
population active du Canada. Statistique Canada. 71-526.

Ghosh, M. et J.N.K. Rao. 1994. Small Area Estimation: An Appraisal. Statistical Science, 9: 55-93.

Groves, R. et M.P. Couper. 1998. Nonresponse in Household Interview Surveys. John Wiley and Sons,
New York.

Hidiroglou, M.A. et D.G. Paton. 1987. Some Experiences in Computing Estimates and their Variances
Using Data from Complex Survey Designs. Dans Applied Probability, Stochastic Processes, and
Sampling Theory. I.B. MacNeill et G.J. Umphrey, ds. D. Riedel Publishing.

Hidiroglou, M.A. et C.-E. Srndal. 1998. Emploi de donnes auxiliaires dans lchantillonnage deux
phases. Techniques denqute, 24(1): 11-20.

Hidiroglou, M.A. et K.P. Srinath. 1981. Some Estimators of Population Total Containing Large Units.
Journal of the American Statistical Association, 47: 663-685.

Holt, D. et T.M.F. Smith. 1979. Post-Stratification. Journal of the Royal Statistical Society, A, 142: 33-
46.

Kalton, G. et D. Kasprzyk. 1986. Le traitement des donnes denqute manquantes. Techniques
denqute, 12(1): 1-17.

Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.

Kovar, J.G., J.N.K. Rao et C.F.J. Wu. 1988. Bootstrap and Other Methods to Measure Error in Survey
Estimates. Canadian Journal of Statistics, 16, Supplement: 25-45.

Lehtonen, R. et E.J. Pahkinen. 1995. Practical Methods for Design and Analysis of Complex Surveys.
John Wiley and Sons, New York.

Levy, P. et S. Lemeshow. 1999. Sampling of Populations, John Wiley and Sons, New York.

Lohr, S. 1999. Sampling: Design and Analysis. Duxbury Press, U.S.A.

Madow, W.G., H. Nisselson, I. Olkin et D.B. Rubin, ds. 1983. Incomplete Data in Sample Surveys,
Volume 1. Academic Press, New York.

Madow, W.G., I. Olkin et D.B. Rubin, ds. 1983. Incomplete Data in Sample Surveys, Volume 2.
Academic Press, New York.

Madow, W.G. et I. Olkin, ds. 1983. Incomplete Data in Sample Surveys, Volume 3. Academic Press,
New York.

Moser, C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
164
Platek, R., J.N.K. Rao, C.E. Srndal et M.P. Singh, ds. 1987. Small Area Statistics. John Wiley and
Sons, New York.
Pollock, K.H., S.C. Turner et C.A. Brown. 1994. Techniques de saisie - resaisie pour lestimation de la
taille de la population et de totaux de population lorsquon ne dispose pas dune base de sondage
complte. Techniques denqute, 20(2): 121-128.

Rancourt, E., H. Lee et C.E. Srndal. 1993. Variance Estimation Under More than One Imputation
Method. Proceedings of the International Conference on Establishment Surveys. American
Statistical Association. 374-379.

Rao, J.N.K. et C.F.J. Wu. 1988. Resampling Inference with Complex Survey Data. Journal of the
American Staistical Association, 83: 231-241.

Rao, J.N.K. 1996. On the Estimation with Imputed Survey Data. Journal of the American Statistical
Association, 91: 499-506.

Rao, J.N.K, C.F.J. Wu et K. Yue. 1992. Quelques travaux rcents sur les mthodes de rchantillonnage
applicables aux enqutes complexes. Techniques denqute, 18(2): 209-217.

Rust, K.F. et J.N.K. Rao. 1996. Variance Estimation for Complex Surveys using Replication Techniques.
Statistical Methods in Medical Research, 5: 283-310.

Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.

Satin, A. et W. Shastry. 1993. Lchantillonnage : un guide non mathmatique Deuxime dition.
Statistique Canada. 12-602F.

Schnell, D., W.J. Kennedy, G. Sullivan, H.J. Park et W.A. Fuller. 1988. Logiciel dordinateur personnel
pour lestimation de variance dans les enqutes complexes. Techniques denqute, 14(1): 63-73.

Singh, A.C. 1996. Combining Information in Survey Sampling by Modified Regression. Proceedings of
the Section on Survey Research Methods. American Statistical Association. 120-129.

Singh, M.P., J. Gambino et H.J. Mantel. 1994. Les petites rgions: problmes et solutions. Techniques
denqute, 20(1): 3-23.

Skinner, C.K., D. Holt et T.M.F. Smith. 1989. Analysis of Complex Surveys. John Wiley and Sons,
Chichester.

Stuart, A. 1968. Basic Ideas of Scientific Sampling. Charles Griffin and Company Limited, London.

Thompson, M. 1997. Theory of Sample Surveys. Chapman and Hill, United Kingdom.

Thompson, S.K. 1992. Sampling. John Wiley and Sons, New York

Wolter, K.M. 1985. Introduction to Variance Estimation. Springer-Verlag, New York.

Yung, W. et J.N.K. Rao. 1996. Linarisation des estimateurs de variance Jackknife dans un
chantillonnage stratifi degrs multiples. Techniques denqute. 22(1): 23-31.

STATISTIQUE CANADA
165
Chapitre 8 - Calcul de la taille de lchantillon et
rpartition

8.0 Introduction

Voici lune des questions les plus souvent poses un statisticien : Quelle taille devrait avoir
lchantillon? Les gestionnaires sont anxieux dobtenir une rponse cette question fondamentale
pendant la phase de la planification de lenqute parce quelle a des rpercussions directes sur les
considrations oprationnelles, notamment, le nombre dintervieweurs ncessaires.

Il ny a pas de solution magique ou de recette parfaite pour dterminer la taille de lchantillon. Il sagit
plutt dun processus de compromis au cours duquel les besoins de prcision des estimations sont
pondrs en tenant compte de diverses contraintes oprationnelles, par exemple, le budget, le temps et les
ressources disponibles.

Il faut se rappeler que les facteurs qui ont des rpercussions sur la prcision (prsents au Chapitre 7 -
Estimation) comprennent la variabilit et la taille de la population, le plan dchantillonnage, lestimateur
et le taux de rponse. Il faut tenir compte de ces facteurs pour tablir la formule de calcul de la taille de
lchantillon ncessaire pour obtenir un degr de prcision en particulier.

Des contraintes oprationnelles sajoutent ces facteurs et ont des rpercussions sur la taille de
lchantillon. Ces facteurs ont parfois davantage dinfluence. Quelle taille dchantillon le client peut-il
soffrir? Combien de temps est-il prvu pour procder lenqute au complet? Combien dintervieweurs
sont disponibles? Ces contraintes sont souvent exclues de la formule de calcul de la taille de lchantillon,
mais il faut en tenir compte.

Si un plan dchantillonnage stratifi est utilis, lorganisme statistique devra savoir, non seulement
quelle taille doit avoir lchantillon, mais aussi comment il devrait tre rparti entre les strates. Ce point
est intitul rpartition de lchantillon. Deux stratgies sont possibles. La premire est de dterminer la
taille totale de lchantillon et de la rpartir ensuite entre les strates. La deuxime est de dterminer la
prcision voulue et ensuite, la taille de lchantillon ncessaire dans chaque strate.

De nombreuses mthodes de rpartition diffrentes sont disponibles. La rpartition proportionnelle N
donne la mme proportion dunits de la population chantillonne dans chaque strate. Dans la rpartition
non proportionnelle, les strates sont chantillonnes diffrents taux. Les mthodes de rpartition non
proportionnelles comprennent la rpartition proportionnelle Y, la rpartition proportionnelle N , la
rpartition proportionnelle Y , la rpartition optimale, la rpartition de Neyman et la rpartition
optimale lorsque les variances sont gales.

Lobjectif de ce chapitre est dillustrer comment calculer la taille de lchantillon, compte tenu dun degr
cible de prcision, comment rpartir un chantillon stratifi, et de donner des conseils pour dterminer
quelle mthode de rpartition convient le mieux.


8.1 Choix de la taille de lchantillon

Nous avons expliqu au Chapitre 7 - Estimation que la prcision des estimations de lenqute et la taille
de lchantillon sont lies. tant donn que la variance dchantillonnage diminue lorsque la taille de
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
166
lchantillon augmente, plus les estimations doivent tre prcises, plus la taille dchantillon ncessaire
doit donc tre grande. La prcision cible des estimations de lenqute dtermine donc la taille approprie
de lchantillon. Cette prcision dune estimation, t, peut tre intitule erreur-type admissible, SE(t),
marge derreur, ) (t SE z , ou coefficient de variation t t SE / ) ( . Le choix de la taille de lchantillon pour
une enqute comprend souvent la spcification de la prcision voulue laide de lune ou lautre de ces
mesures.

Le choix de la taille de lchantillon vise limiter les erreurs dchantillonnage et les non-rponses
alatoires. Il ne vise pas limiter dautres erreurs non dues lchantillonnage. Pour obtenir des rsultats
denqute exacts, il faudrait minimiser le biais d aux erreurs non dues lchantillonnage lorsque cest
possible (voir le Chapitre 5 - Conception du questionnaire et le Chapitre 3 - Introduction au plan
denqute pour obtenir davantage de dtails sur les erreurs non dues lchantillonnage).

Avant de prsenter les formules de calcul de la taille de lchantillon pour un degr donn de prcision,
nous considrerons dans ce chapitre comment dterminer le degr de prcision appropri et les facteurs
ayant des rpercussions sur la prcision.


8.1.1 Considrations sur le besoin de prcision

Lorganisme statistique devrait considrer plusieurs questions pertinentes avant de dterminer le degr
appropri de prcision pour les estimations de lenqute dun client. Lorganisme et le client devraient
examiner ce qui est demand des estimations de lenqute du point de vue des totalisations des donnes,
des analyses et des dcisions qui seront prises, compte tenu des estimations de lenqute.

i. quoi serviront les estimations de lenqute? Quelle variance dchantillonnage est acceptable
dans les estimations de lenqute?

Quel degr dincertitude le client peut-il tolrer dans les estimations de lenqute? Une marge derreur de
6 % et un niveau de confiance de 95 % sont-ils convenables pour les objectifs du client, ou des
estimations plus (ou moins) prcises sont-elles ncessaires pour atteindre les objectifs de lenqute?

Si les rsultats de lenqute servent prendre des dcisions importantes qui auront de grandes
rpercussions ou qui comprennent un risque marqu, le client peut exiger des estimations denqute plus
prcises que sil veut simplement obtenir une estimation approximative dune caractristique dintrt.

ii. Des estimations sont-elles ncessaires pour des sous-groupes (domaines) de la population de
lenqute?

Les rsultats de lenqute peuvent comprendre des estimations pour de nombreux sous-groupes ou
domaines. Aprs avoir obtenu des estimations denqute lchelon national, par exemple, des
estimations provinciales ou sous-provinciales peuvent tre ncessaires, ou le client peut avoir besoin
destimations pour dautres sous-groupes importants dans la population de lenqute, selon le sexe, lge,
la scolarit, etc. Il faudrait dterminer le degr de prcision appropri pour rpondre ces besoins de
donnes. Un degr diffrent de prcision peut tre dtermin pour divers domaines. Dans une enqute
nationale par exemple, le commanditaire de lenqute peut demander une marge derreur de 3 % pour
toutes les estimations nationales, mais une marge derreur de 5 % pour les estimations provinciales peut
le satisfaire, ainsi quune marge derreur de 10 % pour les estimations sous-provinciales. Des strates
sont habituellement formes pour chaque domaine dintrt dans ce cas.

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION
STATISTIQUE CANADA
167
iii. Quelle est lampleur de la variance dchantillonnage comparativement lestimation de
lenqute?

Il faudrait dterminer les besoins de prcision aprs avoir considr la taille de lestimation. Disons par
exemple qu la suite dune nouvelle politique, les bureaux du gouvernement fdral doivent offrir un
service dans la langue officielle dune minorit si au moins P=0,05 (ou 5 %) des demandes sont
prsentes dans cette langue. Supposons que divers bureaux du gouvernement dcident de procder une
enqute auprs de leur clientle pour estimer la demande de services dans la langue officielle dune
minorit. premire vue, une marge derreur de 0,05 semble leve si une estimation de lenqute doit
se situer 0,05 environ. Il faudrait dterminer dans ce cas une plus petite marge derreur, peut-tre 0,01
ou 0,02 au plus (c.--d. que lintervalle de confiance devrait tre de 0,05 0,01 ou 0,05 0,02).

Le client devrait en fait considrer la taille de la plus petite estimation ncessaire pour dterminer les
besoins de prcision. Supposons que lenqute sert estimer des proportions. Certaines de ces proportions
pourraient tre P = 0,50 ou plus, mais dautres pourraient tre aussi minimes que P = 0,50 ou P = 0,10. Si
la plus petite proportion estimer doit tre P = 0,05 et si cette proportion est importante pour les objectifs
de lenqute, lorganisme statistique (et le client) voudront obtenir une marge derreur de moins de 0,05.

iv. Quelles sont les rpercussions pratiques du besoin de prcision? Quel degr de prcision est
obtenu si lon augmente la taille de lchantillon?

Plus la taille de lchantillon augmente, plus le degr de prcision est lev. Le gain en prcision nest
cependant pas directement proportionnel laugmentation de la taille de lchantillon. Considrons une
variable qualitative qui a deux modalits possibles, A et B (p. ex., hommes et femmes) et le client est
intress estimer la proportion de la population dans la catgorie A.

Le tableau 1 illustre la marge derreur obtenue dans la proportion estime dun chantillon alatoire
simple (EAS) pour diverses tailles dchantillon et un taux de confiance de 95 %. La proportion relle de
la population de la catgorie A est P=0,5 (ou 50 %) et la taille de la population est N=100 000. (Consultez
la Section 8.1.3 pour obtenir la formule de calcul de la variance dchantillonnage dune proportion
estime.)

Tableau 1 : Taille dchantillonnage et marge derreur dune estimation de P, laide dun EAS,
lorsque P=0,5

Taille de lchantillon Marge derreur
50 0,139
100 0,098
500 0,044
1 000 0,031

Le tableau ci-dessus montre que la taille de lchantillon double pour passer de 50 100 et la marge
derreur de lestimation de la proportion samliore pour passer de 0,14 0,10. La marge derreur na
cependant pas diminu de moiti pour stablir 0,07, comme on pourrait sy attendre. Doubler la taille
de lchantillon pour quelle passe de 500 1 000 ne diminue pas non plus la marge derreur de moiti.
Malgr limpression de la plupart des gens, il ny a pas de lien linaire entre la taille de lchantillon et la
marge derreur.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
168
Cet exemple fait valoir que lorganisme statistique et le client doivent dcider sil vaut la peine de faire
les efforts et dinvestir les ressources ncessaires pour interviewer 1 000 personnes au lieu de 500, afin
damliorer la prcision dune marge derreur de 0,045 0,032.

La meilleure solution nest peut-tre pas toujours de choisir la plus grande taille dchantillon possible
donnant la plus petite marge derreur. Il est parfois possible dobtenir des rsultats suffisamment prcis en
acceptant une marge derreur plus large et en utilisant des ressources avec plus defficience. Choisir un
chantillon de plus petite taille pour rserver de largent dautres facteurs qui ont des rpercussions sur
lexactitude des rsultats de lenqute, par exemple, pour rduire lerreur non due lchantillonnage,
peut tre plus efficace (p. ex., faire le suivi auprs des non-rpondants, faire lessai du questionnaire,
former les intervieweurs, etc.).


8.1.2 Facteurs ayant des effets sur la prcision

Nous avons prsent au Chapitre 3 - Introduction au plan denqute et au Chapitre 7 - Estimation les
divers facteurs ayant des effets sur la prcision. Cette section illustre les rpercussions de ces facteurs et
prsente des considrations lorsquil faut dterminer la taille de lchantillon pour un degr de prcision
en particulier.


8.1.2.1 Variabilit de la population

La caractristique, ou variable dintrt, est typiquement diffrente dune personne, dun mnage, dune
entreprise, dune exploitation agricole, etc., lautre dans la population de lenqute. Cette variabilit ne
peut tre contrle, mais son ampleur a des rpercussions sur la taille de lchantillon ncessaire pour
obtenir un degr de prcision en particulier pour une caractristique dintrt.

Considrez le Tableau 2 ci-dessous. Supposons quune nouvelle enqute vise estimer la proportion de
clients satisfaits des services dune certaine entreprise et quil y a seulement deux valeurs possibles pour
la variable satisfaction de la clientle : satisfait ou insatisfait. Certaines valeurs possibles servant
dterminer la proportion relle de clients satisfaits et insatisfaits sont numres ci-dessous :

Tableau 2 : Rpartition possible de la satisfaction de la clientle pour la population relle

1. 100 % Satisfaits 0 % Insatisfait
2. 90 % Satisfaits 10 % Insatisfaits
3. 80 % Satisfaits 20 % Insatisfaits
4. 70 % Satisfaits 30 % Insatisfaits
5. 60 % Satisfaits 40 % Insatisfaits
6. 50 % Satisfaits 50 % Insatisfaits
7. 40 % Satisfaits 60 % Insatisfaits
8. 30 % Satisfaits 70 % Insatisfaits
9. 20 % Satisfaits 80 % Insatisfaits
10. 10 % Satisfaits 90 % Insatisfaits
11. 0 % Satisfait 100 % Insatisfaits

Du point de vue de la variabilit de la satisfaction de la clientle dans la population, les nombres 1 et 11
dans la liste de possibilits ci-dessus sont les mmes, cest--dire quil ny a pas de variabilit, tous les
clients ont la mme opinion. Les nombres 2 et 10 de la liste refltent une trs petite variabilit, 90 % des
clients ont la mme opinion et seulement 10 % ont une opinion contraire. Chaque srie de nombres
CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION
STATISTIQUE CANADA
169
suivants, 3 et 9, 4 et 8, 5 et 7, a la mme variabilit. partir des nombres 1 6 ou, de mme, des
nombres 11 6, la variabilit de la caractristique satisfaction de la clientle augmente. Dans la situation
que reprsente le nombre 6, cest--dire une rpartition moiti-moiti, o 50 % des clients sont satisfaits
et 50 % des clients sont insatisfaits, nous avons ici le point de variabilit maximale dans la population
quant la satisfaction de la clientle. Si tous les clients taient satisfaits des services obtenus, il ny aurait
donc pas de variabilit de la satisfaction de la clientle et un chantillon dun seul client donnerait une
estimation fiable de la satisfaction de la clientle. Dans la mesure o la variabilit relle dune
caractristique dintrt augmente dans la population de lenqute, cependant, la taille de lchantillon
doit aussi augmenter pour donner une estimation de cette caractristique avec une bonne prcision.

Il est difficile de mesurer prcisment les caractristiques qui ont des taux levs de variabilit. Il faut des
tailles dchantillon de plus en plus larges pour obtenir des estimations prcises de ces variables. Si vous
considrez la prcision des estimations, la taille de lchantillon ncessaire est la plus large lorsque la
variabilit de la caractristique dintrt est son point maximal. Si la caractristique a deux valeurs
seulement, la situation se produit lorsquil y a une rpartition moiti-moiti dans la population. Si vous
voulez dterminer la taille de lchantillon pour une enqute, il faut donc obtenir auparavant une
estimation de la variabilit dune caractristique dans la population de lenqute parce que la variabilit
relle nest gnralement pas connue davance. Vous pouvez lobtenir laide dune tude prcdente sur
le mme sujet ou dune enqute pilote.

Aprs lenqute, si lorganisme statistique ralise que la caractristique dintrt varie plus que prvu au
moment de dterminer la taille de lchantillon, les estimations de lenqute seront moins prcises que
prvu. Dautre part, si la variabilit de la caractristique dintrt est moins marque que la variabilit
prvue, la taille de lchantillon ncessaire sera surestime et les estimations de lenqute seront plus
prcises que celles demandes. Pour obtenir la prcision demande pour une enqute, il est habituellement
recommand de faire une estimation raisonnable de la variabilit de la caractristique de la population
lors du calcul de la taille de lchantillon demand. Autrement dit, en pratique, si la variabilit de la
caractristique mesurer dans lenqute nest pas connue davance, supposer la plus grande variabilit est
souvent une bonne ide. Il faudrait donc supposer une rpartition moiti-moiti de la population
lorsquune variable a seulement deux modalits possibles.

Les enqutes par chantillon mesurent habituellement plus dune caractristique, chacune ayant une
variabilit diffrente. Un chantillon suffisamment large pour une caractristique peut tre trop restreint
pour une autre qui a une plus grande variabilit. Pour obtenir une taille dchantillon suffisamment grande
pour les principales caractristiques, la taille de lchantillon devrait tre dtermine selon la
caractristique ayant la plus grande variabilit votre avis, ou celle juge la plus importante.


8.1.2.2 Taille de la population

Limportance de la taille de la population sur la taille de lchantillon varie selon la taille de la
population.. Elle est trs importante pour une petite population, moyennement importante pour une
population de taille moyenne et peu importante pour une grande population.

Revenons, par exemple, lenqute sur la satisfaction de la clientle et disons que la proportion relle de
clients satisfaits est P=0,5 (50 %). Supposons que lorganisme statistique veut tirer un chantillon de la
population laide dun EAS et quil veut, pour lestimation de P, une marge derreur de 0,05 et un taux
de confiance de 95 % (c.--d., un intervalle de confiance de 0,500,05). Le tableau et le graphique
suivants illustrent la taille de lchantillon ncessaire pour diffrentes tailles de population.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
170
Tableau 3 : Taille de lchantillon ncessaire pour estimer P avec une marge derreur de 0,05 et un
taux de confiance de 95 %, laide dun EAS, lorsque P=0,5

Taille de la population Taille de lchantillon ncessaire
50 44
100 80
500 222
1 000 286
5 000 370
10 000 385
100 000 398
1 000 000 400
10 000 000 400


Graphique 1 : Taille de lchantillon ncessaire pour estimer P avec une marge derreur de 0,05 et
un niveau de confiance de 95 %, laide dun EAS, lorsque P=0,5

On constate, pour obtenir le degr de prcision demand, que la taille de lchantillon augmente un taux
qui diminue mesure quaugmente la taille de la population. Lorganisme statistique a besoin dune taille
dchantillon de 44 questionnaires remplis pour une population de 50, mais il na pas besoin de doubler la
taille de lchantillon 88 si la population de lenqute double. La taille de lchantillon ncessaire
approche rapidement n=400 pour des populations denqute de N=5 000 et plus. Pour un EAS,
400 questionnaires remplis seraient donc suffisants pour rpondre aux besoins dune prcision donne
pour des populations de plus de 5 000 lorsque la proportion de la population relle est P=0,5.

Une proportion substantielle de la population doit souvent faire lobjet dune enqute pour obtenir la
prcision voulue si la population est trs petite. Voil pourquoi, en pratique, on fait souvent le
recensement des petites populations.


0
50
100
150
200
250
300
350
400
0 1 000 2 000 3 000 4 000 5 000
Taille de la population, N
Taille de
l'chantillon, n
CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION
STATISTIQUE CANADA
171
8.1.2.3 Plan dchantillonnage et estimateur

La stratgie dchantillonnage, cest--dire le plan dchantillonnage et lestimateur utilis, ont des
rpercussions sur la prcision. Les techniques de calcul de la taille de lchantillon pour un degr donn
de prcision appliquent souvent la formule de la variance dchantillonnage pour un EAS. Nous avons
expliqu au Chapitre 6 - Plans dchantillonnage et au Chapitre 7 - Estimation que des plans
dchantillonnage plus complexes utilisant le mme estimateur et une taille dchantillon quivalente
peuvent donner des estimations plus ou moins prcises. Si la formule de calcul de la taille de lchantillon
suppose lEAS, un ajustement est donc ncessaire pour tenir compte du plan dchantillonnage.

En gnral, si la formule de calcul de la taille de lchantillon suppose un EAS, mais si un plan
dchantillonnage plus complexe est utilis, la taille de lchantillon ncessaire pour obtenir un degr
donn de prcision doit tre multiplie par un facteur intitul effet de plan (deff). Mentionnons un point
tir du Chapitre 7 - Estimation : leffet de plan est le rapport entre la variance dchantillonnage dun
estimateur, selon un plan dchantillonnage donn, et la variance dchantillonnage de lestimateur
dun EAS ayant la mme taille. Dans un plan dchantillonnage alatoire simple, deff = 1, et
habituellement, deff 1 pour un plan dchantillonnage stratifi et deff 1 pour un plan dchantillonnage
par grappes.

Il est habituellement possible dobtenir une estimation des rpercussions du plan dchantillonnage pour
les principales variables de lenqute partir dune enqute prcdente comprenant le mme plan
dchantillonnage, ou un trs semblable, et le mme genre de matire ltude. Obtenir leffet de plan
dune enqute pilote est une autre option. Si lorganisme statistique prvoit utiliser un plan
dchantillonnage stratifi et sil ny a pas destimation convenable de leffet de plan disponible et tire
dune enqute prcdente, deff = 1 peut servir calculer la taille de lchantillon (c.--d. que nous
supposons un EAS). La prcision des estimations de lenqute devrait tre de qualit comparable celle
obtenue avec un chantillon alatoire simple et, si la stratification est efficace, la prcision sera meilleure.
Il est beaucoup plus difficile de dcider quel devrait tre leffet du plan dchantillonnage si un plan
dchantillonnage par grappes est prvu et sil ny a pas de connaissances pralables des rpercussions
des grappes sur la variance dchantillonnage. Un effet de plan dau moins deux pourrait tre appliqu
dans ce cas, mais leffet de plan peut atteindre jusqu six ou sept quand les grappes sont trs homognes.


8.1.2.4. Taux de rponse lenqute

Sil veut atteindre la prcision voulue pour les estimations de lenqute, lorganisme statistique doit
ajuster la taille de lchantillon pour le taux de rponse prvu. Il slectionne cette fin un large
chantillon, compte tenu dun taux de rponse prvu et estim partir denqutes semblables ou dune
enqute pilote dans la mme population.

Si la taille de lchantillon initial calcule est de 400, par exemple, et si un taux de rponse de 75 % est
prvu, lorganisme statistique devrait alors slectionner lchantillon suivant :

. 533
75 , 0
400
= = n

Lorsque lorganisme statistique et le client ont choisi un certain taux de rponse voulu, lorganisme doit
faire tous les efforts possibles pour obtenir au moins ce taux de rponse. Sil nobtient pas le taux de
rponse prvu, il y aura des rpercussions sur la prcision des rsultats de lenqute. Un taux de rponse
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
172
infrieur donnera une taille dchantillon plus petite que celle qui est ncessaire pour atteindre la
prcision voulue et, dautre part, un taux de rponse suprieur aura leffet contraire.

Cet ajustement est appliqu en supposant que les units manquantes sont alatoires, c.--d. que les non-
rpondants ont des caractristiques semblables celles des rpondants. Simplement augmenter la taille de
lchantillon est insuffisant pour ragir correctement une non-rponse totale. Un biais ventuel est
toujours possible si les non-rpondants sont diffrents des rpondants du point de vue des caractristiques
dintrt de lenqute. (Voir le Chapitre 7 - Estimation et le Chapitre 10 - Traitement pour dterminer
comment traiter le biais d la non-rponse.)


8.1.3 Formules de calcul de la taille de lchantillon

Les formules suivantes peuvent servir calculer la taille de lchantillon ncessaire pour obtenir un degr
donn de prcision pour une moyenne ou proportion estime.

i. Prcision dune moyenne estime, Y

, pour un chantillon alatoire simple (taux de rponse de


100 %)

La marge derreur et la formule applique lerreur-type dune estimation pour un EAS servent souvent
dterminer la taille de lchantillon. Voici lquation pour une erreur-type estime dune moyenne
estime, Y

, dun EAS sans remise :


n
S
N
n
Y E S

1 )

= (1)

o S

est la racine carre de lestimation de la variance de la population de y


i
(voir aussi le Chapitre 7 -
Estimation).

Notons e la marge derreur ncessaire :
n
S
N
n
z e

= (2)

o z est dtermin selon le niveau de confiance. La solution pour n donne :

N
S z
e
S z
n
2 2
2
2 2

+
= (3)

Les tapes suivantes sont donc ncessaires pour dterminer n :
- une marge derreur voulue, e,
- une valeur correspondante un niveau de confiance voulu, z,
- la taille de la population, N,
- une estimation de la variabilit de la population,
2

S .

Ce dernier point est plus difficile obtenir et une approximation est souvent faite laide dtudes
prcdentes dune population semblable. (Il est aussi possible de calculer la taille de lchantillon
CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION
STATISTIQUE CANADA
173
ncessaire laide dun coefficient donn de variation. Ce point est considr la Section 8.2.1.2 pour un
total estim dun EAS stratifi.)

ii. Prcision dune proportion estime, P

, pour un chantillon alatoire simple (taux de rponse de


100 %)

La prcision ncessaire sera dtermine dans ce cas selon la marge derreur et la caractristique dintrt
sera la proportion de la population, P, qui fait partie de lune des deux catgories. Nous savons que la
proportion estime, P

, pour les grandes populations, est approximativement distribue normalement et la


variabilit de la caractristique binaire, y
i
, de la population peut tre estime comme suit :

)

1 (

2
P P S =

Lquation (3) devient donc :
N
P P z
e
P P z
n
)

1 (

1 (

2
2
2

=

Si une bonne estimation de la proportion, P

, est disponible avant lenqute, il faudrait lutiliser dans


lquation ci-dessus. Autrement, sil ny a pas de donnes sur la population, 5 , 0

= P peut-tre utilise, le
rsultat tant la taille dchantillon maximale, tant donn les autres suppositions.

Noues expliquerons dans la section suivante quil faut faire une estimation de leffet de plan si le plan
nest pas un EAS et une estimation du taux de rponse, r, est ncessaire si le taux de rponse lenqute
est infrieur 100 %.

iii. Approche tape par tape pour dterminer la taille de lchantillon, compte tenu de la prcision
dune proportion estime, P

, pour tout plan dchantillonnage (lorsque le taux de rponse est


<100 %)

Une approche tape par tape est applique dans les exemples suivants pour calculer la taille de
lchantillon. Une taille dchantillon initiale est dabord calcule et elle est ensuite ajuste, compte tenu
de la taille de la population, de leffet du plan dchantillonnage et du taux de rponse.

1. Taille de lchantillon initial

Remarquez lutilisation dans lquation (1) du facteur de correction dchantillonnage pour population
finie (1 n / N ), afin dapporter une correction, compte tenu de la taille de la population. Si ce facteur est
omis, une estimation prliminaire de la taille de lchantillon, n
1
, peut tre obtenue simplement comme
suit :
2
2
1
)

1 (

e
P P z
n

=

On remarquera la formule pour n
1
est aussi valable si e et P

sont exprimes en pourcentage, et non en


proportions.

2. Ajustement pour la taille de la population laide de lquation suivante (le rsultat aura des
rpercussions seulement pour les populations de petite taille ou de taille moyenne) :
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
174
1
1 2
n N
N
n n
+
=

3. Si le plan dchantillonnage nest pas un chantillon alatoire simple, la formule suivante peut servir
ajuster la taille de lchantillon pour leffet du plan dchantillonnage :

2 3
n Deff n =

o deff est leffet du plan dchantillonnage et, habituellement :
deff = 1 pour les plans dchantillonnage alatoires simples,
deff < 1 pour les plans dchantillonnage stratifis,
deff > 1 pour les plans dchantillonnage par grappes ou plusieurs degrs.

4. En bout de ligne, ajustement pour le taux de rponse, afin de dterminer la taille finale de
lchantillon, n :
r
n
n
3
=
o r est le taux de rponse prvu.


8.1.3.1 Exemples de choix de taille de lchantillon

Les exemples suivants illustrent lapproche tape par tape du calcul de la taille de lchantillon.

Exemple 8.1 : EAS

Lditeur dune revue veut obtenir une estimation de la satisfaction des lecteurs en gnral. Il serait
possible de communiquer avec les 2 500 abonns laide dun questionnaire envoy par la poste, mais
lditeur a dcid dinterviewer un chantillon alatoire simple par tlphone cause des contraintes de
temps. Combien de lecteurs faudrait-il interviewer?

Voici certaines hypothses:
- lditeur sera satisfait si la proportion de la population relle est 0,10 de la proportion de la
population estime, compte tenu des rsultats de lchantillon, c.--d. que la marge derreur
ncessaire, e= 0,10 ;
- lditeur veut obtenir un niveau de confiance de 95 % dans les estimations de lenqute (c.--d. quil y
aurait seulement une chance sur 20 dobtenir un chantillon qui donne une estimation hors de
ltendue 10 , 0

P , donc z = 1,96);
- un EAS sera utilis;
- un taux de rponse de 65 % environ est prvu, c.--d. que r=0,65;
- tant donn quil ny a pas destimation de P

disponible, le degr de satisfaction de la clientle est


donc suppos tre 5 , 0

= P .

Voici le calcul de la taille de lchantillon ncessaire :

1. Calcul de la taille de lchantillon initial, n
1
:
CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION
STATISTIQUE CANADA
175
96
) 10 , 0 (
) 50 , 0 )( 50 , 0 ( ) 96 , 1 (
)

1 (

2
2
2
2
1
= =

=
e
P P z
n


2. Ajustement de la taille de lchantillon pour tenir compte de la taille de la population :

92
) 96 2500 (
2500
96
1
1 2
=
+
=
+
=
n N
N
n n


3. Ajustement de la taille de lchantillon, compte tenu de leffet de plan :

92
2
2 3
= =
=
n
n Deff n


Dans cet exemple, deff = 1 parce quon suppose quun EAS sera utilis.

4. Ajustement pour le taux de rponse, afin de dterminer la taille de lchantillon final, n :

142
65 , 0
92
3
= =
=
r
n
n


Remarque : Si un taux de rponse dau moins 65 % nest pas ralis pendant lenqute, la taille de
lchantillon final sera plus petite que prvu et les estimations de lenqute pourraient donc tre moins
prcises que lexige la planification. Si un taux de rponse plus lev est obtenu, lchantillon sera plus
large que prvu et les estimations de lenqute pourraient tre plus prcises.

Aprs ces tapes, lditeur devrait tirer un EAS de 142 des 2 500 abonns pour estimer le niveau de
satisfaction des lecteurs de la revue avec une marge derreur de 0,10 et un niveau de confiance de 95 %,
compte tenu dun taux de rponse prvu de 65 %.

Exemple 8.2 : EAS stratifi

Une enqute dopinion publique est prvue pour dterminer la proportion de la population en faveur de
lamnagement dun nouveau parc provincial. La population comprend tous les adultes dans deux villes et
en milieu rural. Un chantillon alatoire simple des adultes dans chaque ville et un autre pour le milieu
rural seront slectionns. Il faut dterminer la taille de lchantillon ncessaire dans chaque strate.

La taille de la population est de 657 500 et la rpartition est la suivante :



MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
176
Tableau 4 : Population des trois strates

H Strate Population (N
h
)
1 Ville 1 400 000
2 Ville 2 250 000
3 Milieu rural 7 500
Total 657 500

Les besoins de donnes particuliers de lenqute dterminent la taille de lchantillon ncessaire. Les
deux options suivantes peuvent tre considres.

Option 1 : Marge derreur pour les estimations de la population dans lensemble

Supposons que des estimations prcises pour chaque strate ne sont pas ncessaires. Une estimation avec
marge derreur de 0,05 et un niveau de confiance de 95 % pour le secteur dans lensemble sont
suffisants. Une estimation prliminaire de la proportion nest pas disponible et nous supposons que
5 , 0

= P . Un taux de rponse de 50 % est prvu.



1. Calcul de la taille de lchantillon initial, n
1
:

384
) 05 , 0 (
) 50 , 0 )( 50 , 0 ( ) 96 , 1 (
)

1 (

2
2
2
2
1
= =

=
e
P P z
n


2. Calcul de la taille de lchantillon modifie, n
2
:

384
384 500 657
500 657
384
1
1 2
=
+
=
+
=
n N
N
n n


(Remarque : Si la valeur n
1
/N est ngligeable, on peut supposer que
1 2
n n = )

3. Ajustement pour leffet de plan :
384
2
2 3
= =
=
n
n Deff n


Habituellement, deff < 1 pour un chantillonnage alatoire stratifi. Dans le prsent exemple, il ny a pas
destimation disponible de deff et, si on pose que deff = 1, le rsultat devrait vous donner une estimation
plus raisonnable de la taille de lchantillon (c.--d. plus large).

4. Ajustement pour le taux de rponse, afin de dterminer la taille de lchantillon final, n :

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION
STATISTIQUE CANADA
177
768
50 , 0
384
3
= =
=
r
n
n


La taille de lchantillon ncessaire est 768. On verra la Section 8.2 comment rpartir ces 768 units
chantillonnes sur trois strates.

Option 2 : Marge derreur pour chaque estimation de strate

Supposons que le client demande des rsultats ayant une marge derreur de 0,05 et un taux de confiance
de 95 % pour chaque strate. Il faut maintenant calculer la taille de lchantillon individuel pour chaque
strate (c.--d. que chaque strate est traite comme une population en soi).

Remarquez que les Villes 1 et 2 ont de larges populations et que la taille de leur population ne devrait pas
avoir de rpercussion sur la taille de lchantillon. Compte tenu des hypothses ci-dessus, la taille de
lchantillon de chacune de ces deux strates est donc 768. La population plus petite du milieu rural devrait
cependant avoir des rpercussions sur la taille de lchantillon.

Milieu rural :
384
) 05 , 0 (
) 50 , 0 )( 50 , 0 ( ) 96 , 1 ( )

1 (

2
2
2
2
1
= =

=
e
P P z
n

366
384 500 7
500 7
384
1
1 2
=

+
=
+
=
n N
N
n n

n
3
= 366

732
50 , 0
366
3
= = =
r
n
n


La taille totale de lchantillon est donc 768 (Ville 1) + 768 (Ville 2) + 732 (milieu rural) = 2 268.

En comparant les options 1 et 2, la taille de lchantillon total de 2 268 pour loption 2 est prs de trois
fois plus grande que la taille de lchantillon de 768 pour loption 1. Autrement dit, si une seule
estimation pour la population totale des trois strates est ncessaire, la taille de lchantillon ncessaire est
infrieure celle quil faudra dterminer si des estimations prcises par strate sont demandes parce quil
faudrait alors tablir des tailles dchantillon suffisantes dans chaque strate.

Cet exemple illustre clairement limportance de lexamen des besoins de prcision pour chaque domaine
distinct. Si de nombreux domaines sont ncessaires, les rpercussions sur la taille de lchantillon total
peuvent tre importantes et donner ventuellement une taille dchantillonnage suprieure au budget et
aux ressources oprationnelles du client. En gnral, plus on demande destimations de domaines, plus la
taille de lchantillon doit tre grande. Il faut donc ventuellement en venir des compromis pour obtenir
des niveaux derreur acceptables. On peut choisir daugmenter les niveaux tolrables derreur dans
chaque strate, ou combiner deux domaines ou plus. Ceci sera repris la Section 8.2.2.2.


MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
178
8.1.4 Contraintes oprationnelles, de cots et de temps

Nous avons considr un seul aspect de la taille de lchantillon jusqu maintenant, cest--dire la taille
de lchantillon ncessaire, afin dobtenir un degr de prcision en particulier pour les estimations de
lenqute les plus importantes. En pratique, le temps, les cots et dautres restrictions oprationnelles sont
aussi au premier plan.

Dans de nombreux sondages, les fonds sont attribus et les dlais sont dtermins avant mme que les
dcisions soient prises sur les particularits de lenqute. La taille de lchantillon ncessaire pour
procder au sondage peut se rvler plus grande que lchantillon quil est possible dobtenir, compte tenu
des fonds disponibles. Sil est impossible dobtenir dautres fonds, il faudra peut-tre rduire la taille de
lchantillon et diminuer ainsi la prcision des estimations. On pourrait aussi renoncer aux estimations de
certains domaines. La question se pose aussi pour les considrations de temps. Si le temps attribu est
insuffisant, il faudra peut-tre limiter la taille et lenvergure de lenqute pour respecter les dlais.

Les contraintes oprationnelles quimpose la mthode de collecte des donnes choisie, la disponibilit du
personnel sur place, la disponibilit du personnel de codage et de vrification et les installations de
traitement ont aussi des rpercussions sur la taille de lchantillon. Il peut sagir en fait des points les plus
importants pour dterminer la taille de lchantillon. Nous avons considr au Chapitre 4 - Mthodes de
collecte des donnes, par exemple, que les interviews sur place permettent dobtenir de linformation
plus complexe et des taux de rponse plus levs, mais elles cotent cher. Il nest donc pas toujours
pratique de les appliquer de gros chantillons.


8.2 Rpartition de lchantillon pour des plans dEAS stratifi

Pour dterminer lefficience de lchantillonnage stratifi, il est important de considrer comment la taille
totale de lchantillon, n, est rpartie dans chaque strate. Nous avons expliqu au Chapitre 6 - Plans
dchantillonnage que, dans un plan dchantillonnage stratifi, le nombre total dunits de la
population, c.--d. N, est divis en L strates sans chevauchement de taille N
1
, N
2
, , N
L
, respectivement.
La taille de la population est donc gale la somme, pour toutes les strates, du nombre dunits dans la
population : N = N
1
+ N
2
+ + N
L
. Un chantillon est tir indpendamment de chaque strate. La taille de
lchantillon dans chaque strate est n
h
(h = 1, 2, , L), o n =

n
1
+ n
2
+ + n
L
.

La rpartition de lchantillon, n, en L strates est possible en appliquant lun ou lautre des critres
suivants. La taille totale de lchantillon peut tre dtermine laide des mthodes dcrites auparavant
dans ce chapitre et rpartie ensuite entre les strates (ou taille de lchantillon fixe). On peut aussi
dterminer la taille de lchantillon ncessaire dans chaque strate pour obtenir la prcision voulue et faire
la somme, afin dobtenir la taille de lchantillon total (ou coefficient de variation fixe, si la prcision
voulue est exprime en coefficient de variation).


8.2.1 Critres de rpartition

Cette section dcrit en dtail la diffrence entre les rpartitions selon une taille dchantillon fixe et un
coefficient de variation fixe.

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION
STATISTIQUE CANADA
179
8.2.1.1 Taille dchantillon fixe

Une taille dchantillon fixe n est attribue aux strates dune faon particulire dans ce cas. La proportion
de lchantillon attribue la h
e
strate est a
h
= n
h
/ n, o chaque a
h
se situe entre 0 and et 1 inclusivement
(c.--d. 0 a
h
1) et la somme des a
h
est gale 1 (c.--d.

=
=
L
h
h
a
1
1).

Dans chaque strate h, la taille de lchantillon n
h
est donc gale au rsultat de la taille de lchantillon
total n et de la proportion a
h
de lchantillon tir de cette strate en particulier :

h h
a n n = (4)

Si la strate a une proportion a
h
= , par exemple, la moiti de lchantillon complet est donc attribu
cette strate.

Compte tenu de ce critre de rpartition, la taille de lchantillon n dans lensemble tant connue, la taille
de lchantillon n
h
pour chaque strate peut tre calcule ds que la valeur a
h
est dtermine pour chaque
strate. Il y a de nombreuses faons de dterminer a
h
: lune delle consiste dterminer les valeurs de a
h

qui minimisent la variance dchantillonnage des caractristiques dintrt. La Section 8.2.2. explique
comment dterminer la valeur de a
h
.


8.2.1.2 Coefficient de variation fixe

La solution de rechange ltablissement de la taille de lchantillon, n, est le calcul de la taille de
lchantillon ncessaire dans chaque strate, n
h
, compte tenu dun certain degr de prcision pour les
estimations dans lensemble. Il faut alors trouver la taille de lchantillon n
h
(h = 1, 2, , L) pour chaque
strate, afin que le coefficient de variation des estimations dans lensemble ne soit pas suprieur la valeur
voulue CV.

Considrons, par exemple, lestimation dun total, Y

, partir dun chantillon alatoire simple stratifi.


Lquation permettant dobtenir le coefficient de variation dun total estim partir dun chantillon
stratifi peut tre exprim de la faon suivante pour la taille de lchantillon total, n
1
:

=
=
+
=
L
h
h h
L
h
h h h
S N Y CV
a S N
n
1
2 2 2
1
2 2

o :
N
h
est la taille de la strate,

2
h
S est la variabilit des units, y
i
, de la strate h de la population,
a
h
est la proportion de lchantillon attribue la strate,

1
Consulter la Section 7.3.2.4 pour obtenir de linformation sur la variance dchantillonnage dun total estim pour
un chantillon stratifi. Lquation ci-dessus peut tre obtenue en tablissant que Y Y Var Y CV / )

( ) ( = o
)

( ) (
2
Y Var N Y Var = et

=
h
h
N N .

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
180
CV est le coefficient de variation exig pour Y,
Y est le total.

Remarque : Dans la formule ci-dessus, nous supposons que
h h h
N a n n < = , c.--d. que la taille de
lchantillon attribu par strate est infrieure la taille de la population par strate. Consultez cette fin la
Section 8.2.3. La variance de la population,
2
h
S , peut tre estime laide de
2

h
S , comme suit :

( )
1

1
2
2

=

=
h
n
i
h hi
h
n
y y
S
h


o
h
y , la moyenne de la strate de lchantillon, est :
h
n
i
hi
h
n
y
y
h

=
=
1


(Remarque : Si y
hi
est une variable binaire, la moyenne de la strate est une proportion, c.--d. que
h h
P y

= ,
et )

1 (

2
h h h
P P S = ).

Substituant
h h
a n n = ,
2

h
S et Y

dans lquation prcdente pour n, on obtient le rsultat suivant pour n


h
:

=
=
+
=
L
h
h h
L
h
h h h
h h
S N Y CV
a S N
a n
1
2 2 2
1
2 2

(5)

Aprs avoir dtermin la valeur de a
h
pour chaque strate, on peut calculer chaque taille dchantillon n
h
.
Noubliez pas : nous avons expliqu auparavant dans ce chapitre comment dterminer la taille de
lchantillon et, pour trouver n
h
, il faut tablir la prcision ncessaire (sous forme de coefficient de
variation dans ce cas), la variabilit estime de la population,
2

h
S , et la taille de la population, N
h
. Il
faudrait aussi apporter un ajustement pour les non-rponses la taille dchantillon n
h
finale.

Lapproche du coefficient de variation fixe pour rpartir lchantillon est plus complique que lapproche
de la taille de lchantillon fixe et seulement cette dernire sera utilise pour illustrer la rpartition de
lchantillon.


8.2.2 Mthodes de rpartition de lchantillon

Les quations (4) et (5) sont les outils lmentaires de rpartition de lchantillon stratifi. Chaque
quation peut tre applique ds que les valeurs ont t dtermines pour chaque a
h
. Le choix dune a
h

pour chaque strate peut tre class en deux genres de mthodes : rpartition proportionnelle ou non
proportionnelle. Ces mthodes dpendent de certaines quantits : la taille de la population de la strate, une
autre mesure de la taille de la strate, la variabilit de la population de la strate ou le cot de lenqute dans
la strate.

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION
STATISTIQUE CANADA
181
8.2.2.1 Rpartition proportionnelle

Dans la rpartition proportionnelle, ou rpartition proportionnelle N, la taille de lchantillon, n
h
, de
chaque strate est proportionnelle la taille de la population, N
h
, de la strate. Une part plus importante de
lchantillon est donc attribue une strate plus grande qu une strate plus petite. On obtient ainsi un
taux de sondage, f
h
= n
h
/ N
h
, semblable dans chaque strate et gal au taux de sondage dans lensemble,
f = n / N. On obtient donc lquation suivante :
n
N
N
n
h
h
=

Le rsultat de la rpartition proportionnelle N est donc a
h
= n
h
/ n = N
h
/ N. Autrement dit, le facteur de
rpartition a
h
pour chaque strate est gal au ratio de la taille de la population de la strate la taille de la
population entire. Ce genre de rpartition est illustr au Chapitre 7 - Estimation.

La rpartition proportionnelle N est souvent utilise lorsque linformation sur les variances de strate de
la population ne sont pas disponibles. Elle nest donc pas utilise pour calculer les tailles dchantillon
pour une variance de coefficient fixe parce que lapplication de cette approche demande des
connaissances sur la variance de chaque strate. La rpartition proportionnelle N sert aussi
lautopondration du plan dchantillonnage (c.--d. que toutes les units ont la mme probabilit
dinclusion, , et la mme pondration du plan dchantillonnage, 1 / , videmment).

La rpartition proportionnelle N applique lchantillonnage stratifi est considrablement plus
efficiente que lchantillonnage alatoire simple de la population complte si les moyennes de strate,
h
Y ,
sont considrablement diffrentes lune de lautre. Si les strates sont cependant formes de sorte que leurs
moyennes,
h
Y , soient peu prs les mmes, la stratification avec rpartition proportionnelle N donne
seulement une lgre diminution de la variance dchantillonnage. La rpartition proportionnelle N nest
jamais pire que lchantillonnage alatoire simple et na donc jamais deffet du plan dchantillonnage,
deff, plus grand que 1.

Lexemple suivant illustre une rpartition proportionnelle N laide dune taille dchantillon fixe, n.

Exemple 8.2 (suite) :

Dans loption 1 de lexemple 8.2, le calcul de la taille de lchantillon n donne 768 personnes. La
rpartition proportionnelle N pour une taille dchantillon fixe est utilise, afin de dterminer comment
rpartir 768 personnes en trois strates.

1. Calcul de la valeur du facteur de rpartition a
h
pour chaque strate laide de la rpartition
proportionnelle N.

Ville 1 : Ville 2 : Milieu rural :
6084 , 0
500 657
000 400
1
1
=
=
=
N
N
a

3802 , 0
500 657
000 250
2
2
=
=
=
N
N
a

0114 , 0
500 657
500 7
3
3
=
=
=
N
N
a


2. Calcul de la taille de lchantillon n
h
pour chaque strate.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
182

Ville 1 : Ville 2 : Milieu rural :
467
6084 , 0 768
1 1
=
=
= na n

292
3802 , 0 768
2 2
=
=
= na n

9
0114 , 0 768
3 3
=
=
= na n


On constate que la majorit de lchantillon est rparti entre les strates plus larges, Ville 1 et Ville 2 o
467 et 292 personnes sont chantillonnes respectivement. La plus petite strate, le milieu rural, obtient
une plus petite portion de lchantillon complet, soit un chantillon de neuf personnes seulement. Les
rsultats sont rsums au tableau suivant.

Tableau 5 : Rpartition proportionnelle N

H Strate Population (N
h
) a
h
n
h
f
h
=n
h
/N
h

1 Ville 1 400 000 0,6084 467 0,0012
2 Ville 2 250 000 0,3802 292 0,0012
3 Milieu rural 7 500 0,0114 9 0,0012
Total 657 500 1 768 0,0012

La rpartition proportionnelle N du tableau ci-dessus donne un plan dchantillonnage autopondr
parce que le taux de sondage, f
h
, est gal 0,0012 dans les trois strates.

La diffrence entre la rpartition ci-dessus et la taille de lchantillon dtermine loption 2 de
lexemple 8.2 est remarquable : la rpartition ci-dessus rpond un besoin de prcision pour une
estimation de la population dans lensemble et loption 2 de lexemple 8.2 rpond un besoin de
prcision pour chaque strate.


8.2.2.2 Rpartition non proportionnelle

Les taux de sondage de la rpartition non proportionnelle sont diffrents dune strate lautre. Les
mthodes de rpartition non proportionnelles suivantes seront prsentes et expliques : rpartition
proportionnelle Y, rpartition proportionnelle la N , rpartition proportionnelle la Y , rpartition
optimale, rpartition de Neyman et rpartition optimale lorsque les variances sont gales. La terminologie
peut semer la confusion parce que certaines mthodes de rpartition non proportionnelles sont intitules
mthodes de rpartition proportionnelle (p. ex., rpartition proportionnelle Y). Il ne rappeler que la
mthode de rpartition est considre non proportionnelle ds que le taux de sondage est diffrent entre au
moins deux strates.


8.2.2.2.1 Rpartition proportionnelle Y

tant donn une variable denqute, y
hi
, vue comme une mesure de la taille pour la i
e
unit de la h
e
strate,
les tailles de lchantillon, n
h
, peuvent tre calcules comme proportions de Y
h
, une mesure agrge de la
taille de la strate h. Ce genre de rpartition est intitule rpartition proportionnelle Y. Dans ce cas,
a
h
= Y
h
/ Y. Cela signifie que le facteur de rpartition a
h
pour chaque strate est quivalent au ratio de la
mesure de la taille de la strate la mesure de la taille de la population entire.

La rpartition proportionnelle Y est une mthode trs populaire pour les enqutes sur les entreprises o
lon trouve souvent que la distribution des y
hi
est asymtrique (c.--d. quelle a des valeurs extrmes une
CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION
STATISTIQUE CANADA
183
queue de la distribution). Des exemples typiques sont lemploi dans les industries de fabrication et les
ventes dans les industries de dtail. Dans chaque cas, un petit nombre dentreprises peuvent reprsenter un
pourcentage lev du total de lemploi ou du total des ventes. Dautre part, les autres entreprises en plus
grand nombre peuvent reprsenter seulement une petite fraction de lemploi total ou du total des ventes.

Dans les enqutes sur les entreprises, les strates sont habituellement tablies selon la mesure de la taille
disponible (p. ex., le nombre demploys, le revenu brut de lentreprise, les ventes nettes). La mesure de
la taille peut servir, notamment, crer trois strates pour les petites, moyennes et grandes entreprises. La
strate qui comprend le plus grand nombre dunits est souvent plus variable que dautres. Dans un cas
extrme, la rpartition proportionnelle Y se traduit par lchantillonnage avec certitude des plus
importantes units dune population asymtrique.

La rpartition proportionnelle Y donne une meilleure prcision que la rpartition proportionnelle N
pour les estimations denqute qui sont plus fortement corrles avec Y
h
quavec la taille de la strate, N
h
.


8.2.2.2.2 Rpartition proportionnelle N

Toutes les mthodes de rpartition prsentes jusqu maintenant ciblent uniquement la prcision de
lestimation globale Y

. Le client peut cependant tre intress obtenir aussi une bonne prcision pour
les estimations de la strate,
h
Y

. Si les strates sont des provinces, par exemple, les estimations provinciales
sont probablement aussi importantes que les estimations nationales. La rpartition par strate laide de la
rpartition proportionnelle la N peut amliorer la prcision des estimations de la strate. Le paramtre
de rpartition a
h
est alors calcul ainsi :

=
=
L
h
h
h
h
N
N
a
1


Autrement dit, le paramtre de rpartition a
h
est gal au ratio de la racine carre de la taille de la
population de la strate la somme de la racine carre de la taille de la population de toutes les strates.

La rpartition proportionnelle N nest pas aussi efficace que dautres mthodes de rpartition quant
la prcision maximale dans lensemble. Elle peut cependant donner de meilleures estimations au niveau
de la strate. Elle est souvent utilise comme compromis entre la rpartition optimale (voir 8.2.2.2.4) et la
rpartition pour rpondre toutes les contraintes des domaines (o les domaines sont dfinis comme des
strates). La rpartition optimale pour les estimations nationales, par exemple, peut donner de grandes
variances dchantillonnage pour des domaines dintrt plus petits (p. ex., provinces) et la rpartition de
lchantillon total pour rpondre aux contraintes des domaines (comme dans loption 2 de lexemple 8.2)
peut donner une rpartition inefficiente de lchantillon total. La rpartition proportionnelle la N est
un compromis entre la rpartition dans lensemble et au niveau des domaines.

Lexemple suivant illustre lapplication de la rpartition proportionnelle la N pour une taille
dchantillon fixe, n.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
184
Exemple 8.2 (suite) :

Dans lexemple prcdent, un chantillon fixe de 768 personnes a t rparti en trois strates laide de la
rpartition proportionnelle N. La rpartition par strate ci-dessous est faite laide de la mthode de la
rpartition proportionnelle la N .

1. Calcul de la valeur du facteur de rpartition a
h
pour chaque strate laide de la rpartition
proportionnelle la N .

Ville 1 : Ville 2 : Milieu rural :
5188 , 0
06 , 219 1
46 , 632
3
1
1
1
=
=
=

= h
h
N
N
a

4102 , 0
06 , 219 1
500
3
1
2
2
=
=
=

= h
h
N
N
a

0710 , 0
06 , 219 1
60 , 86
3
1
3
3
=
=
=

= h
h
N
N
a


2. Calcul de la taille de lchantillon n
h
pour chaque strate.

Ville 1 : Ville 2 : Milieu rural :
398
5188 , 0 768
1 1
=
=
= na n

315
4102 , 0 768
2 2
=
=
= na n

55
0710 , 0 768
3 3
=
=
= na n


Le tableau suivant rsume les rsultats et compare la rpartition proportionnelle N et la rpartition
proportionnelle la N .

Tableau 6 : Comparaison de la rpartition proportionnelle N et de la rpartition proportionnelle
N

Rpartition proportionnelle N
Rpartition proportionnelle la N
h Strate Population (N
h
) A
h
n
h
f
h
h
N
a
h
n
h
f
h

1 Ville 1 400 000 0,6084 467 0,0012 632,46 0,5188 398 0,0010
2 Ville 2 250 000 0,3802 292 0,0012 500 0,4102 315 0,0013
3 Milieu
rural
7 500 0,0114 9 0,0012 86,60 0,0710 55 0,0073
8.2 Total 657 500 1 768 0,0012 1 219,06 1 768 0,0012

La rpartition proportionnelle la N donne une taille dchantillon plus petite pour la Ville 1 que la
rpartition proportionnelle N. Dautre part, elle donne un chantillon plus grand pour la Ville 2 et le
Milieu rural. La prcision de lestimation pour la Ville 2 et le Milieu rural est donc meilleure avec la
rpartition proportionnelle la N quavec la rpartition proportionnelle N parce que la taille de
lchantillon est plus grand. (Il serait difficile dobtenir une bonne estimation du milieu rural partir de
neuf units seulement.) La diminution de la taille de lchantillon de la Ville 1 aura de lgres
rpercussions sur la prcision de lestimation. Laugmentation de la taille de lchantillon de la Ville 2
CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION
STATISTIQUE CANADA
185
aura simplement une rpercussion lgrement positive sur la prcision des rsultats. Laugmentation de la
taille dchantillon du Milieu rural amliore cependant beaucoup la prcision des estimations. La
prcision la hausse en Milieu rural surpasse la perte de prcision dans la Ville 1.


8.2.2.2.3 Rpartition proportionnelle Y

Un autre moyen de garantir que lestimation dans lensemble et les estimations de la strate sont
raisonnablement fiables est le recours la rpartition proportionnelle la Y , o y
hi
est une mesure de la
taille. Il sagit dune autre mesure plus prcise que la rpartition proportionnelle la N pour les
estimations de lenqute corrles davantage avec la variable de la taille, Y
h
, quavec la taille de la strate,
N
h
. Voici le paramtre de rpartition a
h
:

=
=
L
h
h
h
h
Y
Y
a
1


Cela signifie que le paramtre de rpartition a
h
est gal au rapport entre la racine carre de la mesure de la
taille de la strate et la somme de la racine carre de la mesure de la taille de toutes les strates.
Tout comme dans le cas de la rpartition proportionnelle la N , le recours la rpartition
proportionnelle la Y pour calculer les valeurs de a
h
(et ultrieurement les valeurs de n
h
) nest pas
aussi efficient que lapplication dautres mthodes de rpartition quant la prcision dans lensemble.
Cette rpartition donne cependant des estimations plus prcises lchelon de la strate.

Les rpartitions proportionnelles la N et la Y sont parfois intitules rpartitions par puissance o
lattribution dune puissance Y, par exemple, est dfinie plus gnralement comme suit :

=
=
L
h
p
h
p
h
h
Y
Y
a
1


o p est habituellement une fraction (p. ex., ). On trouvera dans Bankier (1988) davantage de dtails sur
les rpartitions par puissance.


8.2.2.2.4 Rpartition optimale

Lorsque le cot de linterview par unit est diffrent dune strate lautre et que les variances de la
population, S
h
2
, varient normment, une mthode de rpartition non proportionne intitule rpartition
optimale peut tre considre. Cest la seule mthode de rpartition prsente ici qui tient compte des
cots.

Afin dutiliser la rpartition optimale, lorganisme statistique a besoin dune fonction pour modliser le
cot. La plus simple fonction du cot total est exprime comme suit :

=
+ = =
L
h
h h o
n c c C Cot
1

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
186
o c
h
est le cot par unit de sondage dans la strate h (h = 1, 2, , L) et c
0
est un cot gnral fixe. Cette
fonction cot est meilleure lorsque le principal article du cot est celui de linterview ou de la mesure de
chaque unit.

Le paramtre de rpartition a
h
utilis pour la rpartition optimale est calcul comme suit :

=
=
L
h
h h h
h h h
h
c S N
c S N
a
1


La rpartition optimale minimise la variance de lestimation pour un cot donn et, de mme, elle
minimise le cot de lchantillon total pour une variance globale en particulier. Afin datteindre ce but,
lchantillonnage est augment dans les strates qui ont de grandes variances ou tailles de population et il
est diminu dans les strates dont les interviews cotent cher. Rgle gnrale pour la rpartition optimale,
un grand chantillon est slectionn dans une strate donne si :
- la strate est plus nombreuse,
- la strate tmoigne dune plus grande variabilit interne,
- le droulement de lenqute cote moins cher dans la strate.

Il faut obtenir de linformation prcise sur les variances par strate et les cots lunit pour appliquer la
rpartition optimale. En pratique, les variances et les cots peuvent tre inconnus. Un moyen de surpasser
cette limite est destimer les variances et les cots dun chantillon prliminaire ou dune enqute
prcdente. Une difficult de la rpartition optimale est que les variances et les cots estims de la strate
peuvent tre imprcis. En pratique donc, le plan dchantillonnage nest peut-tre pas optimal.

Lorsque les variances et les cots sont gaux pour toutes les strates, la rpartition optimale se rduit la
rpartition proportionnelle N. La variance de lestimation est minimise pour cette rpartition. Si
seulement les cots sont quivalents pour toutes les strates, la rpartition optimale est ramene ce qui est
gnralement intitul rpartition de Neyman explique ci-dessous.


8.2.2.2.5 Rpartition de Neyman

Cette rpartition optimale particulire intitule rpartition de Neyman est applique lorsque le cot dune
interview est identique chaque strate. Cest une rpartition de la taille de lchantillon total en strates qui
minimise la variance de lestimation dans lensemble. La rpartition de Neyman attribue davantage
dunits de lchantillon aux strates plus larges, aux strates qui affichent les variances les plus leves, ou
aux deux. De nouveau, comme dans le cas de la rpartition optimale, les variances peuvent tre inconnues
et des estimations sont habituellement utilises.

Voici lexpression du paramtre de rpartition a
h
:

=
=
L
h
h h
h h
h
S N
S N
a
1
.

Cest--dire que le paramtre de rpartition a
h
est gal au ratio du rsultat de la taille de la strate et de la
racine carre de la variance au rsultat de la taille de la strate et de la racine carre de la variance de toutes
les strates.

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION
STATISTIQUE CANADA
187
Sil est impossible dobtenir une valeur prcise pour les variances, le ratio de la variance de la strate la
moyenne de la strate (
h h
Y S ) peut tre considr constant entre les strates. Cette supposition ramne la
rpartition de Neyman une rpartition proportionnelle Y. La rpartition de Neyman pose une
difficult, comme la rpartition optimale, cest--dire que lestimation des variances de la strate nest
peut-tre pas prcise, et ainsi, le plan dchantillonnage nest peut-tre pas optimal.


8.2.2.2.6 Rpartition optimale lorsque les variances sont gales

La rpartition optimale, occurrence particulire, est faite si les variances sont gales dans toutes les
strates, ce qui est inhabituel, et cette rpartition est donc rarement applique. Elle lest cependant sil ny a
pas dinformation sur les variances de la population ou lorsquon peut supposer que ces variances sont
approximativement gales et que le facteur de rpartition prdominant est le cot, auquel cas, ce genre de
rpartition attribue davantage dunits de lchantillon aux strates plus larges, celles qui cotent moins
cher, ou les deux. Le paramtre de rpartition a
h
est dfini comme suit :

=
=
L
h
h h
h h
h
c N
c N
a
1
.


8.2.3 Considrations particulires pendant la rpartition

Il ne faut pas oublier les proccupations suivantes pendant la rpartition :

i. Utilisation des donnes auxiliaires pour la rpartition proportionnelle la Y et Y

Lors de la mise en uvre dun plan dchantillonnage stratifi et de la rpartition proportionnelle Y ou
la racine carre de Y, en pratique, la valeur de Y est inconnue pour toutes les units de la population et, si
elle tait connue, il ne serait pas ncessaire de procder un sondage pour cette variable. Lorsque ces
mthodes de rpartition sont appliques, des donnes auxiliaires fortement corrles avec Y sont donc
utilises et elles sont habituellement tires denqutes prcdentes ou de donnes administratives. Il nest
pas vident que le coefficient de variation prcis pour la variable de lenqute sera obtenu parce que
lorganisme statistique applique une mesure auxiliaire de la taille. La puissance de la corrlation entre la
variable de lenqute et la variable auxiliaire utilise dterminent donc lefficience taille-stratification et
la prcision de la rpartition.

ii. Rpartition excessive

Dans un plan dchantillonnage stratifi qui applique la rpartition optimale, la rpartition de Neyman, la
rpartition proportionnelle Y ou la rpartition proportionnelle la Y , il est possible que la valeur n
h

attribue dpasse la taille de la population N
h
. Il sagit dune rpartition excessive. Il faudrait alors
procder un recensement des strates qui demandent des chantillons excessifs. La taille de lchantillon
globale obtenue la suite de ce genre de rpartition excessive sera ensuite plus petite que la taille de
lchantillon original et il serait possible de ne pas obtenir la prcision demande dans lensemble. La
solution est daugmenter lchantillon dans les autres strates o n
h
est plus petit que N
h
laide du surplus
dans les tailles dchantillon tir des strates recenses.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
188
iii. Taille minimale de lchantillon de la strate

Il est habituellement recommand dattribuer au moins deux units chaque strate. Ces deux units sont
en fait le nombre minimal possible pour obtenir une estimation non biaise de la variance des estimations.
Remarquez que la taille minimale de lchantillon de la strate devrait tre suprieure deux, compte tenu
de la non-rponse totale.

Malheureusement, toutes les mthodes de rpartition de lchantillon examines la Section 8.2.2
peuvent donner des tailles dchantillon infrieures deux, ou mme un. La solution la plus habituelle
dans ce cas est daugmenter la taille de lchantillon deux dans les strates qui posent ce problme. Cette
mesure augmentera la taille totale de lchantillon. Une autre solution serait de rpartir un chantillon de
taille deux toutes les strates et dattribuer ensuite la taille de lchantillon qui reste toutes les strates
laide de lune des mthodes de rpartition prsentes plus tt. Cette solution a lavantage de ne pas
augmenter la taille totale de lchantillon.

iv. Rpartition selon plusieurs variables

La rpartition qui convient une variable pourrait ne pas convenir une autre variable de lenqute. Afin
de rpartir lchantillon selon plus dune variable, il faut appliquer une rpartition intermdiaire. Des
mthodes de rpartition multidimensionnelle (certaines dentre elles appliquent la programmation
linaire) ont t labores pour rsoudre ce genre de problme (Bethel (1989)).

Il ne faut surtout pas oublier que lorganisme statistique veut rpartir lchantillon afin de rpondre aux
besoins de prcision pour les principales variables dintrt de lenqute. Cela signifie habituellement que
les estimations pour les variables moins importantes de lenqute ne seront pas aussi prcises que celles
des principales variables.


8.3 Sommaire

Dterminer la taille de lchantillon est un processus de compromis et de choix pratiques entre des
besoins de prcision souvent concurrents et des contraintes oprationnelles, par exemple le budget dans
lensemble, le cot de lenqute pour chaque strate, le temps disponible et le nombre dintervieweurs
ncessaires et disponibles. Les dcisions prendre sur la taille de lchantillon peuvent demander un
nouvel examen et une modification ventuelle des objectifs, des besoins de donnes, des degrs de
prcision, des lments du plan denqute, des activits sur place, etc., dtermins au point de dpart.
Lorganisme statistique et le client ciblent souvent la rentabilit pour que le client puisse obtenir la taille
de lchantillon ncessaire. Ils prvoient, notamment, des interviews plus brves, appliquent une autre
mthode de collecte des donnes, oublient certains domaines dintrt ou considrent un autre plan
dchantillonnage.

Si lchantillonnage stratifi est utilis, lchantillon doit tre rparti entre les strates. Il y a deux faons
dy arriver : dterminer la taille de lchantillon total et la rpartir entre les strates pour minimiser la
variabilit ou, compte tenu dune prcision demande, dterminer la taille de lchantillon ncessaire dans
chaque strate. Il faut une formule de rpartition, a
h
, dans chaque strate pour ces deux mthodes. Il y a
diverses mthodes diffrentes de rpartition. La rpartition proportionnelle N est la mthode de
rpartition proportionnelle qui donne des fractions dchantillonnage gales dans chaque strate. Les
mthodes de rpartition non proportionnelles distribuent lchantillon entre les strates, compte tenu de la
taille de la population dans la strate ou dune autre mesure de la taille de la strate, de la variabilit de la
population de la strate ou du cot de lenqute dans la strate.

CALCUL DE LA TAILLE DE LCHANTILLON ET RPARTITION
STATISTIQUE CANADA
189
Bibliographie

Bankier, M. 1988. Power Allocations: Determining Sample Sizes for Subnational Areas. The American
Statistician, 42: 174-177.

Bethel, J. 1989. Rpartition de lchantillon dans les enqutes plusieurs variables. Techniques
denqute, 15(1):49-60.

Cochran, W.G. 1977. Sampling Techniques. John Wiley and Sons, New York.

Fink, A. 1995. The Survey Kit. Sage Publications, California.
Fowler, F.J. 1984. Survey Research Methods. 1. Sage Publications, California.

Hidiroglou, M. 1986. The Construction of a Self-Representing Stratum of Large Units in Survey Design.
The American Statistician, 40: 27-31.

Hidiroglou, M. 1993. Quelques mthodes pour calculer les tailles dchantillon ainsi que leur allocation
pour les enqutes-entreprises. Statistique Canada.

Glasser, G.J. 1962. On the Complete Coverage of Large Units in a Statistical Study. Review of the
International Statistical Institute, 30: 28-32.

Gower, A. et K. Kelly. 1993. How Big Should the Sample Be? Statistics Canada.

Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.

Latouche, M. 1988. Dtermination, allocation et slection de lchantillon. Statistique Canada. 88-021F.

Lavalle, P. et M.A. Hidiroglou. 1988. Sur la stratification des populations asymtriques. Techniques
denqute, 14(1): 35-45.

Lehtonen, R. et E.J. Pahkinen. 1995. Practical Methods for the Design and Analysis of Complex Surveys,
Statistics in Practice. John Wiley and Sons, New York.

Levy, P. et S. Lemeshow. 1999. Sampling of Populations. John Wiley and Sons, New York.

Lohr, S. 1999. Sampling: Design and Analysis. Duxbury Press, U.S.A.

Moser C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.

Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.

Satin, A. et W. Shastry. 1993. Lchantillonnage : un guide non mathmatique Deuxime dition.
Statistique Canada. 12-602F.

Sethi, Y.K. 1963. A Note on Optimum Stratification of Populations for Estimating the Population Means.
Australian Journal of Statistics, 5: 20-33.

Thompson, M. 1997. Theory of Sample Surveys. Chapman and Hill, United Kingdom.
Thompson, S.K. 1992. Sampling. John Wiley and Sons, New York.
www. statcan. gc. ca
P U B L I C AT I O N S L E CTRONI QUE S
D I S P O N I B L E S

STATISTICS CANADA
191
Chapitre 9 - Oprations de collecte des donnes

9.0 Introduction

La collecte des donnes est habituellement le volet dune enqute qui cote le plus cher. Cest pour cette
raison, et parce quil cote trs cher de rsoudre les problmes qui surviennent durant la collecte et qui
peuvent faire chouer tout le projet quil faut bien rflchir cette tape de lenqute et la planifier
attentivement. Les diverses mthodes de collecte des donnes sont considres au Chapitre 4 - Mthodes
de collecte des donnes. Ce chapitre expose les diverses activits qui se droulent pendant la collecte des
donnes et explique comment elles devraient tre organises et accomplies. Les enqutes assistes par
intervieweur sont cibles parce quelles ont les exigences oprationnelles les plus compltes.

La collecte des donnes devrait tre organise le plus efficacement possible, tout en maintenant des
pratiques dinterview uniformes pour tous les intervieweurs. Une mthode dorganisation, applique
Statistique Canada et prsente dans ce chapitre, fait appel aux bureaux rgionaux qui font rapport au
Bureau central.
La collaboration des rpondants sobtient souvent au prix dimportantes relations publiques. Lorganisme
statistique doit notamment maintenir une bonne rputation. Il faut aussi organiser des campagnes
publicitaires et utiliser divers outils, par exemple, des lettres de prsentation, des brochures sur lenqute
et du matriel denqute prpar pour radiotldiffusion et publication dans les journaux, afin de susciter
un intrt pour lenqute et dencourager la participation des rpondants.
Retenir les services de bons intervieweurs et dautres membres du personnel est essentiel au succs de la
collecte des donnes. La persvrance et la qualit de ces travailleurs dterminent la qualit de la collecte
des donnes et des rsultats de lenqute. La formation et les manuels sont donc aussi importants.
On procde parfois au listage et au dpistage avant de faire les interviews ou de distribuer les questionnaires
par autodnombrement. Le listage est ncessaire quand on a recours des bases arolaires. Lobjectif du
listage est dtablir une liste dunits chantillonner (p. ex., logements ou entreprises) dans un secteur
gographique en particulier. Le dpistage est fait si une unit de lchantillon ne peut tre repre laide de
linformation de la base de sondage. Les numros de tlphone ne sont peut-tre plus jour, par exemple,
dans la base de sondage.
Linterview ou lautodnombrement peut commencer lorsque le rpondant a t repr et quon a pu
tablir le contact avec lui. Il ne sagit pas simplement de poser des questions, il faut aussi tablir le
calendrier des interviews, obtenir la collaboration des rpondants, minimiser les erreurs de rponse, faire
le suivi des rejets la vrification, coder les rponses, contrler les documents et surveiller la qualit de la
collecte des donnes. Celle-ci est considre complte seulement la conclusion de ces activits.
9.1 Organisation de la collecte des donnes
Il y a de nombreuses mthodes dorganisation des activits de collecte des donnes, mais lune des plus
habituelles est la rpartition du pays en rgions, chacune ayant un bureau rgional qui fait rapport au
Bureau central. Les bureaux rgionaux peuvent tirer pleinement avantage des connaissances locales
laide de cette structure pour amliorer les relations avec les rpondants et augmenter lefficacit en
diminuant le cot du suivi des questionnaires incomplets, des refus, des non-rponses, etc. Les bureaux
rgionaux sont chargs de la gestion des activits de collecte et de saisie des donnes dans leurs secteurs
(la saisie des donnes consiste transformer les rponses pour les rendre lisibles la machine; ce
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
192
propos, on peut consulter le Chapitre 4 - Mthodes de collecte des donnes et le Chapitre 10 -
Traitement). Le Bureau central veille ce que des procdures et concepts normaliss et uniformes soient
appliqus dans toutes les rgions. Il est aussi charg de la gestion de lenqute dans lensemble et de la
conception des procdures de collecte des donnes.
Il faut considrer un certain nombre de points pour structurer les bureaux rgionaux. Sil sagit dune
grande enqute ou dun recensement, il peut tre ncessaire douvrir des bureaux de district qui feront
rapport un bureau rgional. Les points suivants influenceront le nombre de rgions ou de bureaux :
- la taille de lenqute,
- la taille de lchantillon et le lieu o sont situes les units de lchantillon,
- lloignement de lendroit,
- la difficult de communiquer avec les rpondants,
- la collaboration des rpondants qui peut tre difficile obtenir,
- la langue des rpondants,
- la structure des administrations locales, rgionales ou provinciales,
- la population active (p. ex., disponibilit du personnel, scolarit, profils linguistiques),
- les moyens de transport (p. ex., autoroutes, ports, centres dexpdition).
9.1.1 Bureau central
Le Bureau central est gnralement charg de la conception et de la planification des activits et outils
suivants :
i. Procdures de collecte des donnes
Le Bureau central conoit et labore habituellement des manuels pour les intervieweurs, les surveillants et
les autres membres du personnel de la collecte des donnes. Ces procdures comprennent les interviews,
le listage des units chantillonnes et la mise jour de la base de sondage, le dpistage des rpondants, le
suivi auprs des non-rpondants, ainsi que la vrification et le codage sur place. Certaines de ces tches
sont dtailles au Chapitre 10 - Traitement.
ii. Traitement des donnes
Le traitement transforme les rponses du sondage obtenues pendant la collecte pour quelles
conviennent la totalisation et lanalyse des donnes. Les activits de traitement comprennent le
codage et la saisie des donnes, la vrification et limputation. Le Bureau central est charg de
llaboration de procdures et programmes de traitement, ainsi que des procdures de contrle qualitatif et
dassurance de la qualit qui seront appliques dans les bureaux rgionaux. Les activits de traitement
sont considres au Chapitre 10 - Traitement. Le contrle qualitatif et lassurance de la qualit sont
approfondis lAnnexe B - Contrle qualitatif et assurance de la qualit.
iii. Procdures de formation
Elles comprennent llaboration dexercices, de scnarios dinterview simule, de matriel audiovisuel et
de guides de formation.
OPRATIONS DE COLLECTE DES DONNES

STATISTIQUE CANADA
193
iv. chancier de la collecte des donnes
Un calendrier de collecte des donnes est tabli, les tapes de lenqute et les priodes de rapport sont
prcises, afin datteindre la date vise. Lchancier comprend les taux cibls de cas rsolus pour chaque
priode de rapport, ainsi que les taux de rponse voulus (voir les dtails la Section 9.5.3).
v. Systmes de contrle et de rapport
Des formules de contrle sont labores pour lchantillon au complet et pour chaque intervieweur (la
formule est intitule tche de lintervieweur), et des procdures de rapport rgulier sont appliques pour
mettre jour ltat de chaque unit chantillonne, afin de garantir que toutes les activits de collecte des
donnes se droulent comme prvu. Cet outil est habituellement intitul Systme dinformation de
gestion (SIG). Le reprage de ltat dune unit et la prparation de rapports de surveillance appropris
sont programms dans un logiciel pour linterview assiste par ordinateur.
Le SIG devrait avoir la capacit de suivre les mesures de la qualit, les dpenses et dautres mesures du
rendement pendant la collecte des donnes. Il faudrait suivre tous les cots de la collecte des donnes, par
exemple, laffranchissement postal, les appels tlphoniques, les dplacements, linformatique et la
consommation par personne par jour. Il faudrait valuer et surveiller dimportantes mesures de la qualit
pendant le processus de la collecte, y compris les taux de rponse, les taux de suivi et le calcul des non-
rponses totales pour chaque raison. Des mesures de la qualit et de la productivit peuvent servir
simultanment dterminer les pointes logiques de la collecte des donnes (p. ex., lorsque le taux de
rponse a atteint une cible prvue ou lorsque lamlioration du taux de rponse pour obtenir un taux
suprieur dtermin coterait trop cher) et les modifications apporter sil est impossible de respecter la
date limite de la collecte. Ces mesures de la qualit servent aussi valuer les mthodes qui pourraient
tre appliques dautres enqutes et obtenir de linformation pour lvaluation de la qualit des
donnes.
vi. Campagne de relations publiques
LA campagne de relations publiques comprend llaboration et la production de brochures, daffiches,
etc. Certains lments de la campagne de relations publiques sont pris en charge directement au Bureau
central pour les grandes enqutes. tant donn cependant que limpression du public peut varier
considrablement dune rgion lautre dans un grand pays, les bureaux rgionaux sont chargs de la
majeure partie de ce travail.
9.1.2 Bureau rgional
La collecte et la saisie des donnes, ainsi que les relations publiques sont les principales responsabilits
des bureaux rgionaux. Ceux-ci font souvent la saisie des donnes parce quil est plus facile de contrler,
grer et tlcharger au Bureau central des fichiers lectroniques que denvoyer des questionnaires sur
support papier. Il est aussi plus facile pour un bureau rgional de faire la saisie de ses lots restreints de
questionnaires, comparativement au Bureau central qui devrait faire la saisie des donnes de toutes les
rgions.
Le recours linfrastructure des bureaux rgionaux permet de faire la gestion quotidienne des activits de
collecte des donnes le plus prs possible de la scne des oprations, et il est plus facile didentifier et de
rsoudre les problmes au fur et mesure.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
194
La hirarchie suivante des employs de la collecte des donnes est tablie pour la plupart des enqutes qui
se droulent partir des bureaux rgionaux :
i. Chef de projet rgional
Le chef de projet rgional veille dans lensemble ce que la collecte des donnes soit acheve temps et
quelle rponde aux normes de qualit dtermines. Il est aussi charg du budget rgional. Il adopte
habituellement lchancier de lenqute globale et y ajoute les tapes et les points de repre rgionaux
dtaills qui sont ncessaires pour maintenir lenqute dans la bonne voie. Le chef de projet rgional est la
personne-ressource du Bureau central et lintervenant charg de toutes les expditions du Bureau central
et vers celui-ci. La distribution du matriel et la prestation de linformation aux surveillants lui sont aussi
confies. Sil sagit de trs grandes enqutes, par exemple le Recensement de la population canadienne,
des chefs rgionaux adjoints et des chefs de district sont ajouts lquipe.
ii. Surveillant
Sil y a plus dun surveillant cause de la taille de lenqute, chacun supervise une quipe
dintervieweurs. Le ratio de surveillants intervieweurs varie selon les points suivants :
- la complexit de lenqute,
- lexprience des surveillants et du personnel charg des interviews,
- lendroit o est situ lchantillon,
- les difficults de dplacement,
- la facilit dutilisation du Systme dinformation de gestion.
Le surveillant retient les services des intervieweurs, les forme, obtient et distribue le matriel et les
articles, en collaboration avec le chef de projet rgional. Le surveillant est charg de la gestion
quotidienne de la collecte des donnes, y compris la supervision des intervieweurs et la surveillance
troite de ltat davancement et de la qualit. Le suivi des refus (voir la Section 9.4.6) est une autre tche
importante du surveillant.
iii. Intervieweur
Lintervieweur procde la collecte des donnes en soi et fait rapport rgulirement au surveillant sur les
problmes et ltat davancement. Le rle de lintervieweur est tudi la Section 9.4.
9.2 Relations publiques
Lobjectif de la campagne de relations publiques est de sensibiliser la population lenqute, afin
dliminer la mfiance des gens envers les trangers qui frappent leurs portes dans le quartier, de
susciter leur intrt, daccrotre ainsi le taux de rponse et de rehausser la prcision des rponses.
La meilleure stratgie de relations publiques dans un organisme statistique est lacquisition et le maintien
dune rputation professionnelle indniable. Il faut garantir cette fin que les donnes obtenues sont
fiables, tout fait disponibles, utilises et apprcies, et que le respect de la confidentialit des rponses
des rpondants est incontestable.
Lorganisme doit, non seulement avoir bonne rputation si elle veut obtenir un bon taux de rponse, mais
il doit aussi donner aux intervieweurs les outils ncessaires pour rpondre aux questions et aux plaintes.
Dautres outils sont aussi utiles, notamment, une lettre de prsentation, une brochure de lenqute et une
OPRATIONS DE COLLECTE DES DONNES

STATISTIQUE CANADA
195
brochure sur lorganisme en gnral. Des campagnes de publicit sont aussi frquentes pour les grandes
enqutes.
Cette section sur les relations publiques couvre seulement la communication avec le grand public. Il
faudrait aussi prvoir dautres communications avec les gens lextrieur de lquipe pendant le
processus de lenqute. Au dbut de la phase de la planification, par exemple, les planificateurs de
lenqute devraient dterminer des questions que lenqute propose pourrait ventuellement susciter,
prvoir comment y rpondre et dcider de procder ou non lenqute. Un sujet propos de lenqute
peut, par exemple, avoir un caractre trop dlicat pour une partie des rpondants. Il est aussi important,
pendant le processus de planification, de consulter des intervenants, des rpondants, des reprsentants
dadministrations locales et dautres intresss pour garantir llaboration dune matire approprie dans
le questionnaire. Il faudrait consulter ces intresss ou les informer des rsultats la fin du processus de
lenqute.
La confidentialit et la planification dune enqute sont dtailles au Chapitre 12 - Diffusion des
donnes et au Chapitre 13 - Planification et gestion de lenqute, respectivement.
9.2.1 Campagnes publicitaires
Les campagnes publicitaires peuvent comprendre les points suivants, en tout ou en partie, selon le sujet de
lenqute, le budget et la population cible :
- des relations actives avec les mdias (messages dintrt public, faits et porte-parole pour les journaux
et les stations de radio et de tlvision) et des relations avec les mdias pendant la collecte des
donnes pour rgler les problmes qui se posent pendant le processus,
- la communication avec des groupes qui feront la promotion de lenqute pendant la collecte des
donnes et avec ceux qui se prononceront contre,
- des lettres aux importants reprsentants du public (ou aux reprsentants dassociations ou
dtablissements qui ont un lien avec la population cible de lenqute) pour demander leur soutien et
leur fournir des encarts pour un discours, un bulletin, etc. (ces reprsentants prendront souvent la
parole pour soutenir activement lenqute),
- des lettres aux reprsentants des forces de lordre pour les informer de lenqute au cas o des
rpondants communiqueraient avec eux sils se mfient du personnel de lenqute,
- des affiches dans les endroits publics, notamment les bureaux de poste et les bibliothques, ou dans
des lieux o la population cible les remarquera probablement.
9.2.2 Relations avec les rpondants
Les campagnes de relations publiques ciblent habituellement les rpondants pour les sensibiliser
davantage et obtenir leur collaboration. Voici les articles utiliss le plus souvent :
i. Lettre de prsentation
Cette lettre prcise lobjectif, les dates et la mthode de collecte, et explique limportance de lenqute. Le
premier reprsentant rgional suprieur (directeur rgional) signe gnralement les lettres de prsentation.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
196
Celles-ci (et les brochures si elles sont appropries) sont envoyes avec les questionnaires dans les
enqutes par la poste. On envoie habituellement les lettres (et les brochures le cas chant) une semaine
lavance si des intervieweurs font lenqute. Les rpondants ne seront donc pas surpris et collaboreront
probablement davantage lorsque lintervieweur se prsentera leur domicile.
ii. Brochure de lenqute
Il sagit simplement de renseignements qui dcrivent limportance de lenqute pour le bien public. Elle
devrait comprendre des exemples dutilisation des donnes et une source prcisant o obtenir les donnes.
Les brochures peuvent tre envoyes tous les rpondants ou utilises seulement si les rpondants sont
rticents.
iii. Brochure gnrale de lorganisme
Document gnral distribuer qui illustre la varit des donnes que lorganisme obtient et diffuse, la
brochure accentue la crdibilit de lorganisme et sert souvent aussi aux relations avec les rpondants.
iv. Soutien pendant la collecte pour rgler les problmes imprvus avec des rpondants
v. Manuel de lintervieweur
Un manuel de lintervieweur bien labor devrait donner les rponses aux questions et objections prvues.
vi. Spcialistes forms pour convaincre ceux qui refusent de rpondre
Les intervieweurs confient habituellement les refus leurs surveillants qui sont forms pour appliquer des
mthodes, afin de convertir les refus en rponses.
Voici un exemple de lettre de prsentation que Statistique Canada a utilis pour le British Columbia Farm
Resource Management Survey (Enqute sur la gestion des ressources agricoles en Colombie-Britannique)
en 1998. La lettre prcise en vertu de quelle loi ou quelle autorit lenqute se droule, donne une garantie
de confidentialit et insiste sur limportance de la participation du rpondant. Le nom et le numro de
tlphone dune personne-ressource sont ajouts la fin de la lettre au cas o le rpondant aurait des
questions, et elle porte la signature approprie, dans ce cas, celle du directeur rgional.
Monsieur, Madame,
Votre exploitation agricole a t slectionne au hasard pour participer lEnqute sur la gestion des
ressources agricoles en Colombie-Britannique, une importante tude sur les pratiques de gestion agricole
visant trois principales ressources : le sol, leau et le fumier lengrais. Cette enqute participation
volontaire cible en particulier llevage du btail, et cest la premire dune srie denqutes dtailles
qui produiront en dfinitive des donnes uniformes pour tous les groupes de produits dans la province.
Cette tude se droule en collaboration avec le ministre de lAgriculture et de lAlimentation de la
Colombie-Britannique pour veiller ce que les programmes agricoles refltent les mthodes changeantes
de la gestion des ressources la ferme aujourdhui.
Entre le 5 et le 24 octobre, un intervieweur de Statistique Canada vous tlphonera pour procder une
interview de cinq dix minutes au tlphone. Aucune question financire dtaille ne sera pose et vous
naurez pas besoin de consulter vos dossiers. Nous demanderons cependant le nombre de ttes et le genre
de btail dans votre exploitation pour obtenir une perspective sur les pratiques de gestion appliques.
OPRATIONS DE COLLECTE DES DONNES

STATISTIQUE CANADA
197
Toute information obtenue Statistique Canada est strictement confidentielle et protge par la loi. Elle
sera utilise uniquement pour dresser des tableaux statistiques qui ne permettent pas didentifier un
rpondant en particulier ou ses renseignements.
Statistique Canada reconnat leffort norme que font les rpondants du secteur agricole pour rpondre
aux questionnaires des enqutes. Cette collaboration signifie que des donnes pertinentes et jour sont
disponibles sur ce secteur en changement rapide. Japprcie sincrement votre collaboration aux
enqutes prcdentes et je vous remercie davance de votre participation cette importante tude.
Si vous voulez davantage dinformation sur cette enqute, veuillez tlphoner M
me
Unetelle,
gestionnaire des enqutes sur lagriculture, Bureau de la rgion du Pacifique (Vancouver), en composant
le numro sans frais 1 800 555-5555.
Le directeur,
Rgion du Pacifique


Jean Ixe

9.3 Prparation des procdures de collecte des donnes
Il y a de nombreuses tches accomplir avant la collecte des donnes, par exemple :
- rdiger des manuels,
- embaucher et former du personnel,
- concevoir des procdures de listage,
- concevoir des procdures de dpistage.
Ces tches sont considres dans cette section.


9.3.1 Manuels
Des intervieweurs et dautres membres du personnel de qualit sont la cl du succs de la collecte des
donnes. De bons intervieweurs et membres du personnel de lenqute doivent avoir les capacits et les
qualits personnelles ncessaires pour tre efficaces. Luniformit et la qualit de leur travail dterminent
la qualit des rsultats de lenqute. Des manuels dcrivent les procdures normalises et donnent des
instructions pour rgler des problmes imprvus. Lquipe de lenqute prpare gnralement un manuel
de lintervieweur, un manuel du surveillant et, si ncessaire, des instructions de listage pour les bases
arolaires.


9.3.1.1 Manuel des intervieweurs
Le manuel des intervieweurs est la principale et parfois la seule source dinformation que lintervieweur
peut consulter pour obtenir des renseignements sur son travail. Il est rparti en sections ou chapitres sur
les sujets suivants :
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
198
i. Information gnrale
Cette section nonce lobjectif et limportance de lenqute, les utilisations prvues des donnes et les
rgles de collecte des donnes de lorganisme (confidentialit, langue de lintervieweur, mandat de
lorganisme, etc.). Une copie de la lettre de prsentation envoye aux rpondants y est habituellement
ajoute, ainsi que de linformation lmentaire sur la mthode de slection de lchantillon.
ii. Prsentation
Cette section explique comment tablir la premire communication avec un rpondant, vrifier sil sagit
du rpondant voulu, examiner ou corriger linformation de la base de sondage (numro de tlphone, etc.)
et les lignes directrices dinterview des substituts (Section 9.4.7).
iii. Matire du questionnaire
Cette section comprend une copie du ou des questionnaire(s), la dfinition des concepts de lenqute et la
terminologie. Il est important que lintervieweur comprenne la signification et lobjectif de chaque
question. Cette section porte aussi sur les questions des rpondants, les problmes ventuels et les
interventions appropries.
iv. Vrification sur place prtraitement des questionnaires
Les vrifications sont des rgles appliques pour identifier les entres manquantes, invalides ou
incohrentes qui indiquent des donnes ventuellement errones. Les intervieweurs doivent faire des
vrifications sur place (c.--d. vrifications faites pendant linterview ou peu aprs). Les rgles de
vrification doivent tre clairement dcrites et prciser comment les appliquera lintervieweur.
v. Gestion des units dchantillonnage
Cette section porte sur le rejet la vrification, le suivi des non-rponses et le nombre de tentatives que
doit faire lintervieweur pour essayer dobtenir une rponse. Elle prcise aussi comment attribuer un code
dtat dfinitif chaque questionnaire (p. ex., questionnaire rempli, refus, etc.). Vous obtiendrez
davantage de dtails la Section 9.5.2.
vi. Gestion des tches
Cette section couvre certains dtails administratifs, par exemple, comment les intervieweurs font rapport
sur ltat davancement de leurs questionnaires, comment ils retournent les questionnaires au bureau
rgional, comment ils prsentent les documents des dpenses sur place (p. ex., dpenses de dplacement,
dhbergement, etc.), comment ils sont rmunrs et comment le matriel et les articles sont distribus et
retourns.
vii. Sret et scurit sur place
Cette section porte sur la sant et la scurit au travail, ainsi que sur les systmes de contrle efficaces
pour garantir la scurit des questionnaires et du transfert des donnes des bureaux rgionaux au Bureau
central.
OPRATIONS DE COLLECTE DES DONNES

STATISTIQUE CANADA
199
viii. Questions et rponses
Cette dernire section comprend une liste des questions que posent habituellement les rpondants (par
exemple : Comment ai-je t choisi pour lenqute?) et les rponses appropries.
Les aptitudes linterview et les techniques dinterview en gnral peuvent aussi tre intgres au manuel
des intervieweurs avec exemples pertinents lenqute en particulier.


9.3.1.2 Manuel des surveillants
Les surveillants doivent trs bien connatre la matire du manuel des intervieweurs. Un manuel spcial
des surveillants est aussi prvu pour donner des instructions sur la gestion de lenqute.
Les sujets suivants sont habituellement ajouts au manuel des surveillants :
- embauche et formation des intervieweurs,
- conception des tches des intervieweurs,
- sant et scurit au travail,
- contrle de la qualit et du rendement (c.--d. observation des interviews, surveillance de ltat
davancement de lenqute comparativement des mesures dtermines de la qualit, des dpenses et
des dlais dexcution),
- logistique (p. ex., distribution et retour des articles, rmunration des intervieweurs, retour et
prsentation des questionnaires pour la saisie des donnes, etc.),
- scurit et protection des renseignements personnels,
- autres mthodes de collecte des donnes pour tenir compte des personnes ayant une incapacit, des
problmes de langue, des cas dont linclusion la population cible est ambigu (p. ex., trangers,
visiteurs), etc.,
- intervention pour convaincre ceux qui refusent de rpondre au questionnaire.
9.3.2 Embauche et formation des intervieweurs
Les intervieweurs sont essentiels au succs dune enqute assiste par intervieweur. Il est important de
vrifier si ceux qui sont engags ont les qualits personnelles et les capacits ncessaires, et sils ont la
formation et les outils appropris.
Lorganisme statistique devrait tenir jour une liste dintervieweurs dexprience qui servira au moment
de lembauche. Si les besoins de lenqute sont nombreux ou trs importants, il peut tre ncessaire
dobtenir du personnel supplmentaire. Des avis peuvent tre affichs ou des annonces peuvent tre
diffuses dans les journaux locaux ou la radio pour inviter les candidats ventuels, ou le personnel
appropri peut tre recrut (par exemple, le personnel de la livraison du courrier).
Il faut prciser les qualifications ncessaires pour faire lenqute et tablir les critres dembauche. La
scolarit, les aptitudes interpersonnelles, la capacit de sexprimer dans les langues locales, les aptitudes
lorganisation et lintgrit sont des lments importants considrer lors de lembauche des
intervieweurs (il y a habituellement une vrification de scurit). Sil sagit dinterviews sur place,
lendroit et la connaissance du secteur peuvent aussi tre importants. Une quipe, comprenant
habituellement le surveillant et le chef rgional principal, interviewe les candidats ventuels.
La formation des intervieweurs doit tre soigneusement planifie pour quils aient tous un rendement
uniforme et la mme comprhension des concepts de lenqute. Les surveillants sont habituellement
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
200
forms en premier. Ceux-ci forment ensuite les intervieweurs. Des reprsentants du Bureau central
observent souvent la formation et donnent des conseils. Plusieurs jours de formation intensive sont
gnralement offerts laide des techniques numres ci-dessous :
i. tudes domicile
Les intervieweurs examinent attentivement les manuels et (ventuellement) font les exercices crits.
ii. Formation en classe
Les surveillants et les intervieweurs tudient en classe ce quils peuvent faire pour tablir de bonnes
relations avec les rpondants et obtenir ainsi des rponses. De bonnes techniques et pratiques dinterview,
ainsi que des aptitudes linterview sont prsentes. Les surveillants examinent et corrigent les erreurs
dans les exercices faits domicile. Les intervieweurs examinent ensuite la matire complte du
questionnaire pour bien comprendre les concepts et les questions (cran par cran pour linterview
assiste par ordinateur). Les cas spciaux et problmes sont revus en classe afin de laisser suffisamment
de temps pour les questions et les prcisions.
iii. Interviews simules
Les interviews simules donnent loccasion aux intervieweurs de mettre en pratique leurs techniques
avant dintervenir sur place. Elles donnent aussi aux intervieweurs loccasion dobserver les aptitudes et
les techniques appliques par leurs pairs et de faire des commentaires. Le surveillant ou un autre
intervieweur intervient cette tape titre de rpondant. Divers scnarios sont mis lessai, y compris les
cas typiques et problmes.
iv. Interviews concrtes
Quand cela est possible, on fait aussi des interviews avec des rpondants rels avant de procder
lenqute sur le terrain. Les rpondants sont parfois des membres du personnel de lorganisme qui ne sont
pas informs de lenqute, ou autrement, ce sont des rpondants chantillonns dans la population cible
(mais qui ne font pas partie de lchantillon qui servira lenqute relle). Les interviews concrtes
devraient aussi tre un volet dun essai pilote (voir le Chapitre 5 - Conception du questionnaire).
v. Examen des premires interviews
Le surveillant aura avantage rencontrer chaque intervieweur pour examiner les premires interviews
acheves. Si lintervieweur a des problmes, ils peuvent tre identifis et corrigs rapidement.
Les procdures administratives (p. ex., rapports hebdomadaires, formules de contrle, etc.) pour la gestion
des tches sont habituellement le dernier sujet couvert pendant la formation. la conclusion de la
formation, chaque intervieweur se voit confier sa tche.


9.3.3 Listage
Le listage est ncessaire lorsquune base arolaire sert lchantillonnage. On a vu au Chapitre 6 - Plans
dchantillonnage quun plan dchantillonnage habituel pour une base arolaire est un plan
dchantillonnage par grappes deux degrs, les secteurs gographiques tant chantillonns au premier
degr dans une base arolaire (ce sont les units primaires dchantillonnage ou UP). On peut ensuite
tirer de ces UP un chantillon systmatique de logements (units secondaires dchantillonnage ou
OPRATIONS DE COLLECTE DES DONNES

STATISTIQUE CANADA
201
US). Afin dchantillonner les logements, il faut dabord tablir une liste de tous les logements dans le
champ de lenqute de lUP (c.--d. que les logements admissibles lchantillonnage doivent tre
lists, ladmissibilit tant dfinie selon la population cible de lenqute).
Il est avantageux de bien connatre le secteur gographique (UP) pour faire les interviews et le mme
groupe dintervieweurs est donc souvent charg du listage et des interviews dans lUP. Le listage est
dautant plus exact quil est fait peu de temps avant les interviews.
Avant le listage, chaque intervieweur (ou celui qui fait le listage) devrait obtenir les articles suivants et la
formation ncessaire pour les utiliser :
i. Une carte de lUP aux limites clairement dfinies
Les limites de chaque UP doivent tre clairement dfinies pour viter le chevauchement des UP ou les
segments manquants. La carte devrait tre la plus dtaille et jour qui soit disponible et comprendre des
points de rfrence bien inscrits (voies ferres, ponts, cours deau, noms de rue, etc.). Ces donnes
viennent parfois de sources municipales ou darpentage.
ii. Instructions sur le listage
Elles comprennent des instructions sur la mthode appliquer pour tracer litinraire dune UP, afin de
couvrir le secteur complet sans rebrousser chemin (pour viter les risques de ddoublement) ou oublier
des secteurs. Il y a aussi des instructions sur la mthode appliquer pour identifier une unit
dchantillonnage dans le champ de lenqute. Si lunit de lchantillon est un logement, par exemple, il
devrait y avoir des instructions prcisant comment trouver et identifier des logements confins ou dans un
immeuble units multiples, ainsi que la dfinition de logement inoccup, etc.
iii. Une formule de listage et linformation obtenir pour chaque unit de lchantillon dans le
champ de lenqute
Le genre denqute dtermine la dfinition dune unit dans le champ de lenqute et le nombre de
renseignements obtenir. Les donnes obtenues pendant le listage sont habituellement limites
linformation ncessaire pour situer lunit (adresse ou endroit sur la rue, nom, numro de tlphone, etc.)
et toute donne ncessaire pour passer ltape suivante de lchantillonnage.
Lorsque le listage est achev, les donnes des formules de listage sont gnralement saisies
lectroniquement et envoyes au Bureau central pour passer ltape suivante de lchantillonnage.
Pour illustrer le listage, on trouvera ci-dessous une carte de grappe de lEnqute sur la population active
de Statistique Canada; on y trouve les limites de lUP traces en ligne continue, un X inscrit au point
de dpart du listage et une ligne de tirets (---) trace litinraire. On demande lintervieweur de
commencer lintersection nord-ouest, de procder dans le sens des aiguilles dune montre autour de
chaque lot et de lister tous les logements habitables sa droite. La mme mthode gnrale de listage (
partir dun point de dpart dtermin en continuant dans le sens des aiguilles dune montre pour lister les
units droite) est applique en milieu rural. Le listage est plus compliqu si le logement est une
exploitation agricole parce quelle peut empiter sur les limites de lUP, et la solution est alors de lister
lexploitation agricole dans lUP qui englobe la voie ou lentre principale.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
202

Si la mthode dchantillonnage est trs simple, lintervieweur peut parfois faire le listage,
lchantillonnage et les interviews simultanment. Lors du Recensement de la population canadienne, par
exemple, quatre mnages sur cinq dans un secteur de dnombrement (SD) reoivent un bref questionnaire
et le cinquime mnage obtient un questionnaire plus long et plus dtaill. laide de lchantillonnage
systmatique avec origine choisie au hasard dans chaque SD, lenquteur liste les mnages et remet le
long questionnaire au cinquime mnage de chaque tranche de cinq mnages.
On a vu au Chapitre 3 - Introduction au plan denqute et au Chapitre 6 - Plans dchantillonnage
les dtails sur les bases arolaires.


9.3.4 Dpistage
Le dpistage est ncessaire quand linformation disponible dans la base de sondage est insuffisante pour
situer le rpondant. Dans les enqutes tlphoniques, par exemple, certains numros de tlphone dans la
base de sondage ne sont peut-tre plus jour. Dans les sondages par la poste, le bureau de poste peut
retourner certains questionnaires parce que ladresse est incomplte ou inexacte, ltablissement nexiste
plus ou le rpondant a dmnag. Le dpistage peut tre fait avant de procder lenqute si lon
souponne que linformation dans la base de sondage nest plus jour.
Voici donc lobjectif du dpistage :
- situer lunit chantillonne,
- mettre jour linformation didentification lmentaire dans la base de sondage (p. ex., nom, adresse,
numro de tlphone, personne-ressource ou, dans une base arolaire, indiquer le lieu gographique
dune exploitation agricole sur une carte, etc.),
- dterminer si lunit est toujours dans le champ de lenqute (p. ex., Ltablissement a-t-il ferm ses
portes? Le rpondant a-t-il dmnag hors du champ gographique de lenqute?).
Les outils de dpistage les plus souvent utiliss comprennent ceux-ci :
- annuaires tlphoniques jour, rpertoires dentreprises, assistance-annuaire,
- information tire dautres bases de sondage plus jour,
- dossiers dautres organismes gouvernementaux (p. ex., listes de permis dentreprise dans une
municipalit en particulier, listes de permis de conduire dans une province, etc.),
OPRATIONS DE COLLECTE DES DONNES

STATISTIQUE CANADA
203
- pour les enqutes ritres, reprage de linformation que lunit chantillonne a donne une
occasion prcdente (p. ex., adresse ou numro de tlphone de parents qui peuvent aider reprer le
rpondant).
Les intervieweurs peuvent faire le dpistage jusqu un certain point, mais il est souvent plus efficace
pour le bureau rgional davoir une quipe demploys affects au dpistage et qui ont accs tous les
rpertoires et dossiers ncessaires. Aprs le dpistage, linformation de communication dans la base de
sondage peut tre mise jour ou, si le dpistage est fait aprs le lancement de la collecte, les units
dpistes peuvent tre retournes aux intervieweurs originaux, ou elles peuvent tre confies un
intervieweur de rappel en particulier.
La qualit de linformation auxiliaire dans la base de sondage, ainsi que le talent et lesprit dinitiative du
dpisteur, dterminent le succs du dpistage. Statistique Canada procde, par exemple, une enqute sur
les diplms duniversit deux ans aprs la collation des grades. La base de sondage comprend ladresse
et le numro de tlphone les plus rcents de chaque tudiant selon les dossiers des universits. tant
donn que les diplms rcents sont extrmement mobiles, nombre dentre eux ont dmnag depuis. Si
les donnes auxiliaires comprennent aussi le nom et ladresse des parents, lintervieweur peut dpister
ltudiant en communiquant avec eux. Il est trs important de veiller ce que les intervieweurs ne
donnent pas dinformation confidentielle pendant le dpistage.
9.4 Droulement des interviews
Aprs avoir planifi toutes les activits de collecte des donnes, prpar les manuels, embauch et form
le personnel, fait le listage et le dpistage prliminaire, les interviews peuvent commencer. Cette tape ne
se limite pas communiquer simplement avec les rpondants et poser des questions. Lintervieweur est
charg des activits suivantes :
- prparer les interviews et en tablir le calendrier,
- veiller ce que linformation soit obtenue de lunit dchantillonnage choisie,
- susciter la collaboration des rpondants pour minimiser les non-rponses,
- poser les questions et inscrire les rponses prcisment pour viter les erreurs,
- vrifier les rponses,
- appliquer toutes les procdures de scurit pour garantir la confidentialit des donnes.
Lintervieweur et dautres membres du personnel de la collecte des donnes sont aussi chargs des tches
suivantes :
- faire le suivi des rejets la vrification et des non-rponses,
- coder les donnes (si les questionnaires ne sont pas entirement cods davance),
- exercer un contrle sur les documents (formules de reprage pour le cheminement pendant le
processus, par exemple, le nombre de questionnaires envoys par la poste, retourns, en instance,
etc.),
- surveiller la qualit de la collecte des donnes.
Les Sections 9.4.1 9.4.8 suivantes ciblent la prparation des interviews et ltablissement du calendrier,
ainsi que les techniques dinterview appliquer, y compris les techniques de prsentation, dutilisation du
questionnaire, dapprofondissement pour obtenir des rponses, de conclusion de linterview, de raction
aux refus ou dautres situations caractre dlicat et dinterview dun substitut. La surveillance de la
qualit de la collecte des donnes est tudie la Section 9.5.
La vrification et le codage des donnes sont approfondis au Chapitre 10 - Traitement.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
204
9.4.1 Prparation des interviews et tablissement de lhoraire
Lintervieweur est plus efficace sil a planifi la journe de travail, sil a tabli lhoraire des appels ou des
visites et sil a une connaissance approfondie du questionnaire, des formules de contrle et du matriel de
lenqute. Voici certaines lignes directrices utiles pour lorganisation de la tche de lintervieweur :
i. Organisation du temps
Lintervieweur qui organise le travail chaque jour sait exactement combien dappels il prvoit faire. Il doit
rserver suffisamment de temps entre les appels pour complter les notes ncessaires prises pendant
linterview et ajouter les corrections au besoin pour les questionnaires sur support papier.
ii. Entre des commentaires
Lintervieweur devrait entrer tous les commentaires lcran appropri de lordinateur ou les inscrire
dans lespace prvu au questionnaire. Il devrait ajouter certains renseignements, notamment, le meilleur
moment pour tlphoner au rpondant, le genre de suivi convenu, quand il sera achev et le nom de la
personne la mieux ou la plus informe avec qui il pourra communiquer.
iii. Rendez-vous prvoir
Lintervieweur devrait toujours avoir la main un calendrier ou un journal pour inscrire lheure des
interviews et il devrait entrer le rendez-vous lcran appropri de lordinateur ou linscrire au questionnaire.
Lintervieweur ne devrait pas inscrire lheure et la date des rendez-vous prvus sur des morceaux de papier
quil perdrait probablement.
Lorsquil tablit le calendrier des interviews, lintervieweur ne devrait pas oublier les points suivants :
a. vitez les appels trs tt ou trs tard quand vous communiquez avec un mnage. Nombre de
personnes naiment pas recevoir des appels tlphoniques ou rpondre la porte tard en soire
(certains rpondants seront effrays si vous frappez la porte en soire). Pour les interviews sur
place, lintervieweur peut dposer une lettre de prsentation dans la bote aux lettres et une note
personnelle prcisant quil prvoit revenir, ou il peut ajouter un numro de tlphone que le rpondant
peut composer pour confirmer lheure de linterview ou en prvoir une autre. Si lintervieweur
drange quelquun pendant lheure du repas, prsenter des excuses est un bon moyen de susciter une
raction positive de la part du rpondant.
b. Les rpondants dans les entreprises sont souvent occups lorsque lintervieweur tlphone la premire
fois et il peut tre ncessaire de prvoir une heure qui convient ou de laisser un numro de tlphone
que le rpondant pourra composer pour dterminer une heure propice avec lintervieweur. Le
rpondant ne devrait pas avoir de difficult communiquer avec lintervieweur qui devrait donner un
numro de tlphone o il est toujours possible de le rejoindre ou prciser les heures pendant
lesquelles il nest pas disponible.
c. Si le rpondant nest pas disponible lorsque lintervieweur tlphone la premire fois, ce dernier
devrait tablir une relation amicale avec la personne qui rpond lappel et dterminer le moment
propice pour communiquer avec le rpondant.
d. Sil ne peut communiquer avec un rpondant, lintervieweur devrait tlphoner un autre jour et une
heure diffrente. Si lintervieweur a tlphon deux fois pour les interviews sur place et sil ne peut
reprer le rpondant, il ou elle peut demander un voisin quel est le moment propice pour
OPRATIONS DE COLLECTE DES DONNES

STATISTIQUE CANADA
205
communiquer avec quelquun au logement slectionn. Il faut essayer de communiquer au moins trois
fois pour les enqutes par interviews sur place Statistique Canada et jusqu dix fois pour les
enqutes tlphoniques.


9.4.2 Techniques de prsentation
Il est important que lintervieweur tablisse une bonne relation avec le rpondant au dbut de linterview.
La premire impression que donne lintervieweur influence normment le rsultat de linterview. Il est
essentiel davoir une attitude professionnelle, mais amicale, pour donner la meilleure impression. Cette
disposition aidera nouer un lien qui incitera le rpondant donner des rponses compltes et prcises.
La prsentation est la pierre angulaire dune bonne relation entre lintervieweur et le rpondant. La
prsentation devrait tre brve (en particulier au tlphone) et sincre. Elle devrait comprendre ce qui
suit :
- le nom de lintervieweur et de lorganisme,
- le titre et lobjectif de lenqute,
- lutilisation des donnes (pour tablir limportance de lenqute),
- la loi en vertu de laquelle les donnes sont demandes,
- une garantie de confidentialit.
Sil sagit dinterviews sur place, une lettre de prsentation, une brochure sur lenqute, ou les deux,
livre(s) avant linterview sont un bon moyen de prsenter lenqute et den tablir la lgitimit. Au
moment de linterview, les rpondants se souviennent alors avoir reu quelque chose au sujet de
lenqute. Lintervieweur devrait porter et prsenter sa carte didentit dintervieweur lorsquil visite un
rpondant.
Il est essentiel dtablir une bonne relation au dpart pour le succs de linterview. Lintervieweur doit
couter le rpondant et tre prt rpondre ses questions (le manuel de lintervieweur devrait
comprendre les rponses aux questions habituelles). Si le rpondant hsite aller de lavant,
lintervieweur devrait essayer de dterminer les principales proccupations du rpondant et y rpondre.
Les proccupations exprimes peuvent tre lune des suivantes :
i. Pourquoi mavez-vous choisi?
Donner une explication simple de la slection alatoire convaincra le rpondant quil a t choisi au
hasard et que ses rponses sont importantes parce quil reprsente en fait dautres personnes dans la
population.
ii. Qui consultera mes donnes? Comment utiliserez-vous mes rponses?
La principale proccupation est maintenant la confidentialit de linformation que peut donner le
rpondant. Lintervieweur devrait informer le rpondant que ses rponses et celles dautres rpondants
seront agrges et utilises uniquement pour produire des tableaux statistiques ou des rsultats agrgs
(sommaires). Les tableaux statistiques peuvent aider les auteurs de politiques et les dcideurs dterminer
si la situation considre dans lenqute est satisfaisante ou si une certaine intervention est ncessaire.
iii. Je nai pas le temps maintenant.
Lintervieweur doit prciser honntement la dure de linterview. Il devrait tre dispos faire linterview
immdiatement. Il ne devrait jamais supposer que le rpondant na pas le temps. Si le rpondant ne peut
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
206
rpondre immdiatement linterview, lintervieweur devrait suggrer une autre heure et prendre des
dispositions fermes pour dterminer le moment de linterview. Certains refuseront de participer sils ne
comprennent pas clairement limportance de lenqute et lutilisation des donnes. Lintervieweur devrait
tre certain que ces points sont clairement expliqus pendant la prsentation.


9.4.3 Utilisation du questionnaire
La collecte des donnes doit tre uniforme pour toutes les interviews, cest--dire quil faut poser les
mmes questions de la mme faon tous les rpondants. Les lignes directrices suivantes expliquent
comment utiliser le questionnaire pour faire la collecte uniforme des donnes :
i. Il faut respecter la formulation lorsque vous posez les questions.
La recherche rvle que la modification, mme trs lgre ou par mgarde, de la formulation peut changer
la rponse obtenue.
ii. Il faut poser les questions dans lordre.
La squence des questions est planifie aux fins de la continuit. La squence est aussi dispose de faon
ce que les premires questions naient pas de rpercussions ngatives sur les rponses du rpondant aux
questions ultrieures.
iii. Il faut poser chaque question pertinente.
Lorsque le rpondant rpond une question, il rpond aussi parfois une autre question ultrieure dans
linterview. Il est quand mme important que lintervieweur pose la question ultrieure au moment
opportun. Le rpondant peut affirmer : Vous mavez dj dit quelque chose ce sujet, mais la situation
indique que lintervieweur est conscient de la rponse prcdente et quil demande la collaboration du
rpondant pour rpondre de nouveau la question.
iv. Il faut poser les questions positivement.
Un intervieweur peut tre mal laise lorsquil pose certains questions et sembler sexcuser, par
exemple : Vous refuserez peut-tre de rpondre cette question, mais . . .ou Cette question vous semblera
probablement insense . . . Ces affirmations ont des rpercussions ngatives sur le dbit de linterview et
elles ont tendance modifier les rponses du rpondant. Si lintervieweur pose la question sur un ton
positif ou neutre, le rpondant comprend quil sagit simplement dune autre question et quil peut y
rpondre sans crainte dtre jug.
v. Il faut expliquer les dlais entre les questions, en particulier pendant les interviews tlphoniques.
Le temps dentre est plus long pour certaines rponses. Lintervieweur peut expliquer au rpondant en
ajoutant : Veuillez excuser le dlai, jinscris jentre votre rponse.
vi. Il faut poser de nouveau les questions mal comprises ou interprtes.
Les questions devraient tre formules de faon ce que chacun les comprenne et la majorit des
rpondants les comprendront (si le questionnaire est bien conu). loccasion cependant, un rpondant
peut mal comprendre ou interprter une question. Lintervieweur doit alors rpter la question en
OPRATIONS DE COLLECTE DES DONNES

STATISTIQUE CANADA
207
respectant la formulation. Si la rponse est toujours inapproprie, lintervieweur devra peut-tre
approfondir (voir la Section 9.4.4).
vii. Il faut tre attentif en particulier aux instructions passez .
Une question filtre ou passez dtermine si les questions ultrieures sappliquent et dtermine le
cheminement de linterview. Lintervieweur doit tre particulirement attentif aux questions filtres et
remarquer les instructions lintervieweur dans le questionnaire. Linstruction passez est
programme pour linterview assiste par ordinateur (IAO), mais lintervieweur doit quand mme bien
connatre les caractristiques du cheminement.
viii. Il faut avoir une attitude neutre, peu importe linformation obtenue.
Le rpondant peut donner des rponses socialement acceptables, son avis, sil a limpression que
lintervieweur porte un jugement. Le rpondant ne doit pas avoir limpression que certaines rponses sont
plus acceptables que dautres. Rien dans lattitude de lintervieweur ou dans son ton ne devrait laisser
souponner la critique, la surprise, lapprobation ou la dsapprobation, laccord ou le dsaccord lorsque la
personne rpond aux questions. Lintervieweur accepte la rponse du rpondant si elle correspond
lventail des rponses acceptables.
La conception du questionnaire et les erreurs de rponse ont t tudies au Chapitre 5 - Conception du
questionnaire.


9.4.4 Approfondissement
Lapprofondissement est une technique utilise lorsque lintervieweur remarque que la rponse natteint
pas lobjectif de la question. Le rpondant ne sait peut-tre pas la rponse ou peut mal interprter ou
comprendre la question et sa rponse est donc incomplte, obscure ou incohrente, compte tenu dautres
renseignements. Lintervieweur doit donc approfondir sur un ton neutre pour obtenir linformation
ncessaire.
Avant dapprofondir cependant, il faut poser de nouveau la question en respectant sa formulation au cas
o le rpondant naurait simplement pas entendu la question. Lintervieweur devrait utiliser les dfinitions
sil doit prciser la question. Sil nobtient toujours pas une rponse satisfaisante, il peut utiliser un
nonc neutre pour demander davantage dinformation, notamment :
Je ne suis pas certain de ce que vous voulez dire
ou
Pouvez-vous men dire un peu plus?
ou
Autre chose?
Lintervieweur peut aussi aider le rpondant en ciblant la catgorie de rponse exacte :
Quel nombre est le plus prs, selon vous?
ou
Est-il plus grand, ou moins grand que? (pour les rponses numriques)
ou
tait-ce le printemps, lt, lautomne ou lhiver?
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
208
Il est possible de reformuler la question, mais il faut tre trs prudent. Les questions ne devraient pas tre
reformules de faon suggrer une rponse. Si la question est Combien de semaines avez-vous travaill
lan dernier?, par exemple, il ne faudrait pas la reformuler ainsi : Avez-vous travaill toute lanne?, mais
plutt comme suit : Avez-vous travaill lan dernier? et si oui, Pendant combien de semaines?


9.4.5 Conclusion de linterview
La dernire tape du processus de linterview est de vrifier si vous avez obtenu toute linformation
ncessaire et si elle est crite lisiblement. la fin de chaque interview, lintervieweur examine le
questionnaire attentivement et apporte les vrifications ncessaires. Il ou elle naura peut-tre pas
suffisamment de temps pour le faire en prsence du rpondant. Il est donc important de remercier
poliment le rpondant pour toute linformation donne, mais dajouter quun suivi tlphonique est
possible si une prcision est ncessaire. Lintervieweur devrait offrir de rpondre aux questions du
rpondant sur lenqute, sil en a dautres. Il est important que le rpondant ait limpression davoir bien
rempli son temps et que sa participation lenqute est importante et valable.


9.4.6 Refus et autres situations dlicates
Un manque dinformation sur lenqute ou lorganisme statistique, ou un moment inopportun, expliquent
habituellement le refus de participer dun rpondant. Les lignes directrices suivantes peuvent aider
lintervieweur intervenir en cas de refus ou dans une situation dlicate :
i. Dans le cas denqutes auprs dentreprises ou dinstitutions, le charg denqute devrait
sassurer que lintervieweur communique avec la personne approprie dans lorganisme au
moment opportun et que linformation est facilement disponible. Dans la mesure du possible, on
peut offrir ces rpondants de fournir les donnes selon une mthode et une prsentation qui leur
convient.
ii. Si lheure de linterview ne convient pas, lintervieweur devrait prsenter des excuses (au lieu de
risquer un refus) et suggrer une heure pour tlphoner de nouveau.
iii. Il est peut-tre possible de ngocier avec un rpondant rticent. Lintervieweur peut suggrer que
le rpondant rponde quelques questions et, lorsque linterview est lance, le rpondant peut
dcider de continuer. Lintervieweur peut informer le rpondant, par souci de courtoisie, quil ou
quelle peut refuser de rpondre des questions en particulier sil considre quil essuierait
autrement un refus total.
iv. Si lintervieweur obtient un refus catgorique de vive voix, il devrait se retirer poliment et
dclarer lincident au surveillant pour suivi. Insister sur linterview peut remettre en question le
succs du surveillant qui tentera de convertir un refus en rponse.
v. Ne demandez pas au rpondant de rpondre devant dautres personnes. Lintervieweur devrait
prendre des dispositions pour tlphoner de nouveau au moment opportun si le rpondant le
prfre ou rserver un moment en priv pour linterview.
vi. Si le rpondant a une difficult linguistique et accepte le recours un interprte, un membre de la
famille peut parfois interprter chaque question et rponse.
OPRATIONS DE COLLECTE DES DONNES

STATISTIQUE CANADA
209
vii. Si le rpondant prouve un problme personnel, par exemple une maladie grave ou un deuil,
lintervieweur doit valuer la situation et dterminer sil continue linterview, prend des
dispositions pour tlphoner de nouveau un moment opportun ou met fin linterview sil tait
dplac de continuer ou sil na aucune chance de succs.
viii. Communiquer avec un rpondant dans une tour dhabitation pose parfois un problme parce que
linterphone nest pas un bon moyen dobtenir une interview. Lintervieweur peut essayer
dtablir la communication avec le surintendant, le bailleur ou le propritaire de limmeuble pour
expliquer le but de la visite et demander la permission dentrer dans limmeuble pour pouvoir
faire une prsentation sur place.
ix. Lintervieweur ne doit jamais argumenter avec un rpondant ou le menacer, directement ou
implicitement. Linformation complte et fiable exige la collaboration de plein gr.
Lintervieweur ne doit jamais se lancer dans des sujets de conversation controverss, par
exemple, la politique.
x. Lintervieweur ne doit jamais avoir recours des pratiques qui contreviennent lthique pour
procder une interview. Si le rpondant nest pas domicile, lintervieweur (aprs stre
identifi) peut demander un voisin quel moment serait opportun pour tlphoner.
Lintervieweur devrait cependant tre prudent, viter de susciter la mfiance et limiter ses
questions lorsquil demande quand communiquer avec le rpondant.
xi. En bout de ligne, et cest aussi important, lintervieweur ne devrait pas oublier ses droits. Sil est
menac de mauvais traitements, victime de menaces de vive voix, de harclement physique ou de
violence, lintervieweur devrait quitter immdiatement et dclarer lincident au surveillant.


9.4.7 Interview dun substitut (par procuration)
Lintervieweur peut obtenir linformation pour un rpondant absent, dans certaines enqutes, en
interviewant une autre personne informe, et cette mesure est intitule rponse dun substitut ou rponse
par procuration. La rponse par procuration convient aux enqutes qui collectent des donnes
gnralement connues dautres personnes que le rpondant cibl, et elle est donc habituellement
inapproprie pour les questions personnelles, dopinion personnelle ou caractre dlicat.
Il faudrait informer lintervieweur pendant la formation si linterview de substituts est permise et, si oui, il
faudrait prciser qui sont les substituts acceptables. Lintervieweur devrait supposer en gnral quun
substitut ne convient pas linterview, sauf avis contraire. Si un substitut ne convient pas et si que le
rpondant prouve des difficults communiquer dans lune ou lautre des langues officielles, dautres
membres de la famille peuvent intervenir titre de traducteurs avec la permission du rpondant.
Linterview sans substitut exige gnralement un effort plus grand que celui de linterview avec substitut
et le taux de rponse est moins lev. Lintervieweur ne doit pas oublier que le nombre de rappels et de
rendez-vous ncessaires pour procder des interviews sans substitut devrait tre soigneusement
dtermin pour viter le fardeau de rponse et limiter les cots de lenqute.


9.4.8 Principaux points de linterview efficace
Voici les principaux points de linterview efficace :
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
210
i. Confiance
Lintervieweur doit avoir confiance en ses capacits. Il peut y arriver seulement sil comprend bien
lenqute et le rle de lintervieweur.
ii. Aptitudes couter
Lintervieweur devrait attendre que le rpondant ait fini de parler avant de cesser de lcouter.
Lintervieweur peut indiquer quil coute en ajoutant loccasion Oui, je vois. Lintervieweur ne devrait
cependant pas supposer quil sait ce que dira le rpondant et finir la phrase sa place. Il vaut mieux poser
des questions sil a limpression que le rpondant ou lui-mme est pass ct de la question.
iii. Compassion
Lintervieweur devrait tre sensibilis la situation du rpondant au moment de la visite ou de lappel
tlphonique. Si le rpondant dcrit un incident personnel, lintervieweur devrait faire preuve dintrt
(sans juger) et essayer ensuite dorienter de nouveau le rpondant vers linterview.
iv. locution
Lexpression de vive voix est importante, en particulier pour linterview tlphonique. Lintervieweur
devrait sexprimer trs clairement, un rythme modr. Si lintervieweur sexprime trop rapidement, le
rpondant peut manquer une partie de la question. Sil sexprime trop lentement, le rpondant peut
commencer rpondre avant quil ait fini de poser la question. Baissez la tte et le ton de la voix baisse.
Un ton de voix plus bas est plus clair et sentend mieux, en particulier au tlphone. Il faudrait donner des
exemples du rythme et du ton appropris pendant la formation.
v. Connaissance du questionnaire
Lintervieweur doit connatre le questionnaire, les concepts et la terminologie utiliss dans lenqute. Il
naura pas le temps pendant linterview de consulter les dfinitions ou les rponses aux questions dans le
manuel. Rien ne peut rompre la communication plus rapidement que de longues pauses, en particulier
pendant les interviews tlphoniques.


9.5 Surveillance de la qualit et du rendement
Dans les enqutes avec interview assiste par ordinateur (IAO), la gestion des tches de lintervieweur,
ainsi que la surveillance de ltat davancement dans lensemble, et de nombreux indicateurs de la qualit
et du rendement sont automatiss laide dun logiciel. Les mesures de la qualit et du rendement sont
intgres la programmation de lIAO, mais les principes sont les mmes que ceux des enqutes sur
support papier. Nous utilisons dans cette section les exigences des enqutes sur support papier pour
illustrer les contrles ncessaires appliquer dans toute enqute. Le lecteur trouvera davantage de dtails
au Chapitre 10 - Traitement et lAnnexe B - Contrle qualitatif et assurance de la qualit.


9.5.1 Surveillance de la qualit de la collecte des donnes
Le surveillant devrait surveiller la qualit de la collecte des donnes comme suit :
OPRATIONS DE COLLECTE DES DONNES

STATISTIQUE CANADA
211
i. Surveillance troite des intervieweurs
Le surveillant coute les interviews concrtes, en particulier celles des nouveaux intervieweurs et des
premires tapes de la collecte, pour vrifier si le questionnaire est utilis correctement et si les
techniques dinterview sont efficaces et uniformes dune interview lautre. tant donn que les
intervieweurs peuvent donner une rtroaction valable sur les procdures de collecte des donnes et la
conception du questionnaire, il faudrait les inviter suggrer des amliorations apporter lenqute.
ii. Vrification (ou vrification au hasard) des questionnaires achevs
Cette mesure garantit que lintervieweur applique correctement les vrifications sur place et que
linformation manquante peut tre obtenue des rpondants, en temps opportun, pendant que lenqute se
droule toujours sur le terrain. Si le surveillant rvise les vrifications des donnes, lquipe charge de
lenqute peut obtenir davance des renseignements sur le genre de rejets la vrification possibles
pendant ltape de la vrification informatique aprs la collecte.
iii. Surveillance des mesures de la qualit et du rendement
Ce point est considr en dtail en 9.5.3. Ces mesures donnent une ide de la qualit pendant la collecte
des donnes. Si le surveillant repre et rgle les problmes le plus tt possible, il peut grer la collecte des
donnes de faon atteindre, ou mieux, dpasser les taux de rponse et les autres indicateurs de qualit
cibles.
iv. Contrle strict des documents
Il faut exercer un contrle sur chaque questionnaire chaque tape de la collecte des donnes laide de
certaines entres, par exemple, reu de lintervieweur le (date) , envoy au dpistage le (date) ,
envoy la saisie le (date) , etc. La formule de contrle de lchantillon du surveillant (et son lien avec
les identificateurs de chaque intervieweur) est essentielle au contrle efficace des documents et de
lchantillon. Les intervieweurs peuvent inscrire ltat davancement de leurs tches sur papier, mais
lautomatisation du contrle de lchantillon dans lensemble est recommande pour simplifier le travail
du surveillant. Un code dtat dfinitif (p. ex., achev, refus, etc.) doit tre appliqu chaque
questionnaire la fin de la collecte.
v. Sance dinformation des intervieweurs
Une sance dinformation du personnel de lenqute la fin de la collecte des donnes peut aider
dcouvrir les problmes du processus de collecte des donnes. Ces problmes peuvent tre des
renseignements importants pour le traitement aprs la collecte (c.--d. identifier les vrifications qui sont
ncessaires aprs la collecte). Des amliorations peuvent aussi tre apportes au Systme dinformation
de gestion, aux campagnes de relations publiques, etc., dans le cas des enqutes ritres.
vi. Reprage des modifications apportes aux donnes
Le charg denqute voudra peut-tre reprer les modifications apportes aux donnes pendant les
processus denqute ultrieurs. La frquence des rejets la vrification aprs la collecte, ainsi que le
nombre et le genre de corrections apportes aux donnes, peuvent se traduire par des renseignements
utiles sur la qualit et servir dindications prcisant que les outils ou les procdures de collecte devraient
tre modifis au cours des cycles ultrieurs de lenqute.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
212
9.5.2 Gestion des tches de lintervieweur
Priodiquement pendant la collecte (habituellement une fois par semaine), lintervieweur doit faire
rapport sur ltat davancement dans lensemble sur une feuille de contrle des tches. Le code dtat en
instance (rparti ensuite en deux catgories : tentative faire et tentative faite ) est attribu aux
units de lchantillon toujours en cours ou avec lesquelles lintervieweur na pas encore communiqu.
Lorsque lintervieweur a trait une unit de lchantillon au mieux de sa capacit, un code dtat
rsolu lui est attribu comme suit :
ii. Achev : Lintervieweur a entirement achev linterview.
iii. Achev en partie : Le rpondant na pas rpondu tout le questionnaire, mais il a rpondu aux
principales questions. Avant denvoyer les intervieweurs sur le terrain, on identifie lensemble
minimal de questions auxquelles les rponses constituent un questionnaire utilisable.
iv. Incomplet non-rponse totale pour lune des raisons suivantes :
- refus,
- absent pendant toute la priode de lenqute,
- dpistage impossible,
- hors du champ de lenqute (p. ex., dcd, nest plus en affaires, logement dmoli),
- temporairement hors du champ de lenqute (p. ex., logement inoccup),
- pas de communication (p. ex., personne domicile).
Les cas de refus et de dpistage impossible peuvent tre rfrs pour suivi. Les rapports sommaires
des tches permettent de surveiller le nombre total dunits de lchantillon dans chaque catgorie.
Lintervieweur remet des rapports sommaires hebdomadaires et envoie aussi au bureau rgional tous les
questionnaires rsolus chaque semaine pour permettre le suivi des refus et la saisie des donnes en temps
opportun.


9.5.3 Surveillance des surveillants
Les cibles de qualit et de rendement sont tablies au dbut de la collecte des donnes. Les surveillants
devraient se charger de la surveillance et de la gestion de leurs oprations, autant du point de vue des
tches de lintervieweur que dans lensemble, pour garantir que les cibles sont atteintes.
La cible de rendement est dtermine selon la proportion denregistrements rsolus :
instance) en rsolues d. - - (c. n total chantillo
rsolues units d' nombre
rsolues units d' taux
+
=
Ce taux donne une indication de la somme de travail prvu qua achev lintervieweur. Le taux dunits
rsolues chaque semaine est compar au taux cible pour vrifier si lenqute sera conclue temps. Les
dpenses sont habituellement intgres dans cette valuation pour dterminer si lenqute est toujours
dans les limites du budget. Deux mesures habituelles du rendement par rapport au cot sont le cot par
unit rsolue et le solde du budget par unit non rsolue.
Le taux de rponse est un autre indicateur de rendement. Les rpercussions des non-rponses sont
considres au Chapitre 3 - Introduction au plan denqute et au Chapitre 7 - Estimation. Dans la
plupart des enqutes, la non-rponse est un lment important de lerreur non due lchantillonnage
(sous forme de biais) et de lerreur dchantillonnage (qui se traduit par une perte de prcision des
OPRATIONS DE COLLECTE DES DONNES

STATISTIQUE CANADA
213
estimations). La qualit cible est axe surtout sur le taux de rponse qui peut tre dtermin comme suit
pendant la collecte :
rsolues non units s admissible rsolues units
) partielles compltes d. - - (c. s rpondante units d' nombre
rponse de taux
+
+
=
1

Supposons, par exemple, quun chantillon de 1 000 units a t slectionn dont 800 sont rsolues
(compltes, partielles, refus, hors du champ de lenqute, etc.) aprs une semaine de collecte des donnes.
Du nombre dunits rsolues, 700 sont dans le champ de lenqute. Du nombre dunits dans le champ de
lenqute, 550 rpondent au questionnaire (rponse complte ou partielle). Le taux de rponse aprs la
premire semaine de lenqute est donc 550/(700+200)= 61,1 %.
Un facteur dajustement est parfois appliqu aux units non rsolues, tant donn que certaines pourraient
tre hors du champ de lenqute. Cela signifie dans lexemple ci-dessus que, des 200 units non rsolues,
environ 175 seraient probablement dans le champ de lenqute (si lon retient la mme proportion que
celle des units rsolues). Le taux de rponse ajust serait donc 550/(700+175) = 62,9 %.
Outre les taux de rponse et la proportion denregistrements rsolus, les surveillants devraient aussi
surveiller dautres indicateurs qui peuvent rvler dventuels problmes de qualit. Des taux levs de
refus ou de non-communication dans une tche peuvent indiquer que lintervieweur a des problmes. Si
certains codes (en particulier inoccup ) sont plus frquents chez certains intervieweurs, il peut y avoir
un problme (p. ex., le logement tait-il vraiment inoccup ou les rsidents taient-ils temporairement
absents? Lintervieweur ne fait peut-tre pas la diffrence entre les deux). Des taux levs de refus dans
un chantillon complet rvlent la rsistance du public et il peut tre difficile dobtenir la qualit de
donnes voulue compte tenu de la priode de lenqute et de lenveloppe budgtaire. Un nombre plus
lev que prvu dunits hors du champ de lenqute peut rvler des problmes de base de sondage.
Dans le cas des enqutes-entreprises, les grandes entreprises peuvent tre surveilles distinctement parce
quelles peuvent avoir des rpercussions sur les estimations dfinitives de lenqute.
Pour plus dinformation sur les normes et lignes directrices de mesure des non-rponses de Statistique
Canada, consulter les Normes et lignes directrices de dclaration des taux de non-rponse (2001).


9.5.4 Techniques perfectionnes de mesure de la qualit
Les taux de rponse et certaines des autres mesures considres ci-dessus sont les seuls indicateurs de la
qualit de la collecte des donnes dans de nombreuses enqutes. Dans les trs grandes enqutes ritres,
il est possible de concevoir des expriences pour essayer de mesurer lampleur du biais que suscitent les
activits de collecte des donnes. Voici les tudes les plus habituelles :
Vrifications du listage : Les units admissibles (dans le champ de lenqute) des UP ont-elles t toutes
listes? Tous les membres admissibles dun mnage ont-ils t lists? Y a-t-il des rptitions? Quelles
sont les caractristiques des units manquantes ou ritres? Voil une tentative de mesure des erreurs de
couverture.

1
Ce rsultat est quivalent au nombre total dunits dans lchantillon moins le nombre dunits hors du champ de
lenqute.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
214
i. Vrifications des logements inoccups
Les units listes inoccupes (ou hors du champ de lenqute) taient-elles rellement inoccupes ou y
a-t-il eu erreur de classification? Quelles sont les caractristiques des units classes par erreur? On essaie
ainsi de mesurer le sous-dnombrement dans la base de sondage.
ii. Nouvel interview pour mesurer les erreurs de rponse
Un intervieweur diffrent (parfois un surveillant) interviewe de nouveau un sous-chantillon de
rpondants pour dterminer si les rponses originales aux principales questions sont exactes. Les rponses
la nouvelle interview sont compares aux rponses originales. Si les rponses sont diffrentes, certains
cas, sinon tous, sont rapprochs pour dterminer lesquels sont corrects.
iii. Suivi des non-rponses
Une tude spciale des non-rponses peut tre faite pour valuer le biais qui dcoule de la non-rponse
totale laide dinterviews spciales de suivi avec des non-rpondants de lenqute (c.--d. essayer
dobtenir des rponses dun sous-ensemble de non-rpondants).
tant donn que leur objectif est de mesurer le biais que suscite lerreur non due lchantillonnage, ces
tudes sont des enqutes complexes en soi, elles peuvent coter cher, et il faut les concevoir selon les
principes considrs aux chapitres prcdents.
Les erreurs non dues lchantillonnage ont t tudies au Chapitre 3 - Introduction au plan
denqute.


9.6 Sommaire
Ce chapitre explique comment les oprations de collecte des donnes peuvent tre organises, ainsi que
les divers chelons de responsabilit, dorganisation et de contrle. Une attention spciale a t apporte
aux interventions respectives du surveillant et de lintervieweur. Les questions de relations publiques ont
t considres, y compris les campagnes publicitaires de lenqute et les relations avec les rpondants et
le grand public. La prparation de la collecte des donnes, notamment les manuels pertinents, lembauche
et la formation des intervieweurs, le listage, le dpistage et les mises jour de la base de sondage, ainsi
que les techniques dinterview, ont fait lobjet dun examen. Les mthodes de surveillance de la qualit et
du rendement ont t considres en dfinitive.
Il faudrait appliquer les lignes directrices suivantes pour garantir que les donnes obtenues pendant
lenqute sont compltes et prcises, le plus possible :
i. Les intervieweurs sont essentiels au succs des enqutes assistes par intervieweur. Ceux qui sont
embauchs devraient avoir les capacits et les qualits personnelles ncessaires, ainsi que la
formation et les outils appropris.
ii. Les procdures de collecte des donnes devraient tre appliques uniformment toutes les units
chantillonnes et les erreurs devraient tre extraites le plus possible de ces procdures : tous les
intervieweurs devraient recevoir la mme formation et les mmes manuels, tous les codeurs
devraient recevoir les mmes instructions, etc.
OPRATIONS DE COLLECTE DES DONNES

STATISTIQUE CANADA
215
iii. Il faudrait appliquer les procdures de contrle de lchantillon appropries toutes les oprations
de collecte des donnes. Ces procdures permettent de reprer ltat davancement des
questionnaires, partir du dbut jusqu la conclusion de la collecte et de lentre des donnes.
iv. Afin doptimiser les taux de rponse et la qualit de linformation obtenue des entreprises et des
tablissements, le charg denqute devrait veiller ce quun intervenant communique avec la
personne approprie dans lorganisme, au moment opportun, pour que linformation soit
facilement disponible. Il faudrait permettre ces rpondants de communiquer les donnes selon
une mthode et une prsentation qui leur conviennent, lorsque cest possible.
v. Il faudrait tablir des systmes de contrle efficaces pour garantir la scurit des questionnaires et
de la communication des donnes des bureaux rgionaux au Bureau central.
vi. Il faudrait implanter un Systme dinformation de gestion pour reprer les mesures de la qualit,
les dpenses et dautres mesures du rendement pendant la collecte des donnes.
vii. Le charg denqute voudra peut-tre reprer les modifications apportes aux donnes pendant les
processus ultrieurs de lenqute. La frquence des rejets la vrification aprs la collecte, ainsi
que le nombre et le genre de corrections apportes aux donnes, peuvent donner de linformation
utile sur la qualit et servir dindication rvlant que les outils et procdures de collecte devraient
tre modifis dans les cycles ultrieurs de lenqute.


Bibliographie

Cialdini, R., M. Couper et R.M. Groves. 1992. Understanding the Decision to Participate in a Survey.
Public Opinion Quarterly, 56: 475-495.
Couper, M.P. et R.M. Groves. 1992. Le rle de l'intervieweur dans la participation aux enqutes,
Techniques d'enqute, 18(2): 279-294.
Statistique Canada. 2001. Normes et lignes directrices pour la dclaration des taux de non-rponse.
Statistique Canada. 1995. Les techniques d'interview d'une enqute : un guide pour mener des interviews
efficaces. 12F0047XPF.
Statistique Canada.1998. Politique dinformation des rpondants aux enqutes. Manuel des politiques.
1.1.
Statistique Canada. 1998. Lignes directrices concernant la qualit. 12-539-XIF.
www. statcan. gc. ca
P U B L I C AT I O N S L E CTRONI QUE S
D I S P O N I B L E S

STATISTIQUE CANADA
217
Chapitre 10 - Traitement

10.0 Introduction

Le traitement transforme les rponses du questionnaire obtenues pendant la collecte pour quelles
conviennent la totalisation et lanalyse des donnes. Il comprend toutes les activits de traitement
des donnes, automatis et manuel, aprs la collecte et avant lestimation. Le traitement demande
beaucoup de temps et de ressources, et il a des rpercussions sur la qualit et le cot des donnes
dfinitives. Il est donc important de bien le planifier, de surveiller la qualit de sa mise en uvre et
dapporter des mesures correctives au besoin.

Le genre de donnes obtenir, la mthode de collecte, le budget et les objectifs de lenqute du point de
vue de la qualit des donnes, notamment, dterminent la porte et lordre des activits de traitement. Le
codage, par exemple, peut tre fait avant ou aprs la saisie des donnes, mais la vrification est
habituellement faite tout au long de lenqute. Voici un exemple des activits de traitement dun
questionnaire sur support papier :
i. Vrification des donnes du questionnaire aprs la collecte. Cette tape garantit que toute
linformation ncessaire a t obtenue et enregistre lisiblement, que les notes de lintervieweur
ont t examines et que certaines vrifications prliminaires ont t faites pour dterminer sil y
a des incohrences et des erreurs grossires.
ii. Codage de toutes les donnes du questionnaire qui doivent tre codes (p. ex., rponses aux
questions ouvertes rdiges la main).
iii. Saisie des donnes. Dautres activits de codage peuvent suivre la saisie des donnes.
iv. Vrification dtaille et ensuite, imputation. Les questionnaires rejets aprs une vrification ou
plus sont retirs du lot pour examen ultrieur, suivi auprs des rpondants ou imputation.
v. Dtection des valeurs aberrantes pour identifier les valeurs extrmes ou suspectes.
vi. Sauvegarde dans une base de donnes pour faciliter lutilisation des donnes pendant les activits
aprs le traitement.
Plusieurs activits ci-dessus, notamment la saisie, la vrification et le codage, peuvent tre intgres par
automatisation laide de mthodes de collecte assiste par ordinateur pour rationaliser le traitement.
tant donn que des erreurs sont probables chaque tape du traitement, en particulier pour les activits
rptitives et manuelles, par exemple le codage, la saisie et la vrification, il faudrait surveiller le
traitement et apporter des mesures correctives au besoin pour maintenir ou amliorer la qualit. Cette
intervention est possible en appliquant les procdures de contrle qualitatif et dassurance de la qualit.
Lobjectif de ce chapitre est de couvrir les principales activits de traitement : codage, saisie des donnes,
vrification, imputation, dtection des valeurs aberrantes, traitement et implantation dune base de
donnes. Le lecteur obtiendra des dtails sur le contrle qualitatif et lassurance de la qualit en consultant
lAnnexe B - Contrle qualitatif et assurance de la qualit.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
218
10.1 Codage
Le codage est le processus dattribution dune valeur numrique aux rponses pour faciliter la saisie
des donnes et le traitement en gnral. Il est mentionn au Chapitre 3 - Introduction au plan
denqute que le codage comprend lattribution dun code une rponse donne ou la comparaison de la
rponse un ensemble de codes et la slection de celui qui dcrit le mieux la rponse.
Dterminer un ensemble de catgories de rponse une question pose des difficults qui ont t
considres au Chapitre 5 - Conception du questionnaire. Les catgories de rponse sont dtermines
avant la collecte pour les questions fermes et le code numrique est habituellement affich sur le
questionnaire ct de chaque catgorie de rponse. Le codage des rponses aux questions ouvertes est
fait aprs la collecte, et il peut tre manuel ou automatis. Le codeur doit interprter et faire preuve de
jugement pour le codage manuel et les rsultats peuvent varier dun codeur lautre.
Lorsque vous choisissez la mthode de codage, lobjectif devrait tre de classer les rponses en un
ensemble significatif de catgories exhaustives et mutuellement exclusives qui font ressortir les
caractristiques essentielles des rponses. Le codage de certaines questions peut tre direct (p. ex., tat
matrimonial). Autrement, un autre systme de codage standard peut exister, par exemple pour la
gographie, la branche dactivit et la profession. Il ny a cependant pas de systme de codage standard
appliqu de nombreuses autres questions et le choix dune bonne mthode de codage nest pas une tche
triviale. La mthode de codage devrait tre uniforme et logique. Il faut dterminer quel point les codes
doivent tre dtaills, compte tenu de lobjectif de lenqute, des totalisations et des analyses de donnes
faire. Il vaut mieux commencer avec une liste assez large parce quun nombre insuffisant de catgories
peut tre trompeur et une grande catgorie autre peut tre dmunie dinformation. Les catgories peuvent
toujours tre regroupes, mais il est difficile de les ventiler aprs coup.
Nous avons prcis au Chapitre 5 - Conception du questionnaire quil faudrait considrer le genre
dinterview pour dterminer les catgories de rponse une question ferme. Remettre une liste de
50 catgories sur support papier aux rpondants est faisable (mais pas idal) pour les enqutes par
autodnombrement, mais ce nest pas pratique dnumrer les 50 catgories de rponse pendant une
interview tlphonique. Idalement, toutes les questions dun questionnaire seraient fermes et il y aurait
une brve liste de catgories de rponse pour simplifier le codage. Ce nest pas toujours possible en
pratique et les questions ouvertes sont parfois ncessaires.


10.1.1 Codage pralable des questions fermes
Les catgories de rponse aux questions fermes peuvent tre codes davance dans le questionnaire. Des
cases pour les codes peuvent tre disposes ct de la rponse coder ou dans la marge pour les
questionnaires sur support papier. Voil qui amliore normment lefficacit de la saisie des donnes
aprs la collecte : au lieu de dactylographier la catgorie de rponse slectionne, un code numrique est
entr (il est aussi plus facile danalyser des codes numriques quune suite de mots). Les codes des
mthodes de collecte assiste par ordinateur sont automatiquement saisis lorsque lintervieweur ou le
rpondant choisit une rponse.
Le systme de codage suivant, par exemple, a t utilis dans le Sondage auprs des fonctionnaires
fdraux en 2002 :

TRAITEMENT
STATISTIQUE CANADA
219
Combien de promotions avez-vous eues depuis trois ans?
P aucune
P une
P plus dune

Les avantages des questions fermes ont t considrs au Chapitre 5 - Conception du questionnaire :
elles sont un fardeau moindre pour les rpondants, et la collecte, la saisie et lanalyse des donnes cotent
moins cher, elles sont plus rapides et faciles que les questions ouvertes. La formulation naturelle du
rpondant est cependant inconnue, un inconvnient des questions fermes. Il peut donc tre difficile de
vrifier la qualit du codage. Si une question ouverte est pose pour dterminer la profession dune
personne, par exemple, la description du travail du rpondant peut donner un code de profession diffrent
de celui que le rpondant ou lintervieweur aurait slectionn dans une numration de codes de
profession ajoute une question ferme.


10.1.2 Codage manuel des questions ouvertes
Lors du codage manuel des questions ouvertes, le codeur (habituellement aprs la collecte) doit lire,
interprter et convertir la main une rponse par crit une question ouverte en un code numrique. Ce
code numrique est ensuite inscrit dans le questionnaire ou entr lordinateur. Le codeur devra peut-tre
simplement remarquer si la rponse contient un mot cl ou une rfrence un lment en particulier pour
attribuer un code. Parfois le codage est dtermin partir de la rponse une question seulement, parfois
partir des rponses plusieurs questions connexes. La clart et lexhaustivit de la rponse crite, la
qualit de la vrification initiale, la logique de la mthode de codage et laptitude du codeur influencent
normment la qualit du codage dans ce cas.
Les codeurs doivent tre bien forms parce quil faut tenir compte des points suivants pour appliquer la
mthode de codage :
- le nombre de rponses possibles,
- la complexit (jugement),
- lambigut possible de la rponse (c.--d. la qualit de la rponse).
La variabilit entre les codeurs est invitable. Une vrification dtaille du premier lot de questionnaires
dun codeur est ncessaire pour reprer les erreurs et dterminer si une formation supplmentaire est
ncessaire. On peut ensuite faire des vrifications priodiques de la qualit du codage et apporter des
mesures correctives au besoin. Cette mesure est souvent applique laide des mthodes de contrle
qualitatif (voir lAnnexe B - Contrle qualitatif et assurance de la qualit).


10.1.3 Codage automatis des questions ouvertes
Le codage des questions ouvertes est habituellement une opration manuelle. Compte tenu de lvolution
technologique, des ressources restreintes et, plus encore, des exigences de rapidit et de qualit, le
processus de codage est cependant de plus en plus automatis.
Deux fichiers sont habituellement entrs dans un systme de codage automatis. Un fichier contient les
rponses de lenqute quil faut coder, intitul fichier de rponse en lettres. Le deuxime fichier est
intitul fichier de rfrence et contient les rponses (ou phrases) crites typiques et leurs codes
numriques correspondants.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
220
Le parsage est le plus souvent la premire tape du codage automatis. Le parsage est le processus de
normalisation dune phrase pour permettre lordinateur de reprer les phrases quivalentes. Le parsage
comprend habituellement la suppression des caractres superflus, par exemple la ponctuation, les mots en
double, les mots sans importance, certains suffixes et prfixes, etc. Le parsage est appliqu aux fichiers de
rfrence et de rponses en lettres avant daller de lavant.
Ltape suivante comprend la recherche dune entre dans le fichier de rfrence qui correspond
exactement une rponse en lettres dans le fichier de lenqute. Sil y en a une, le code du fichier de
rfrence est copi dans le fichier de lenqute et lenregistrement
1
est considr cod. Sil ny a pas de
correspondance exacte cependant, on essaie de trouver les enregistrements du fichier de rfrence qui
correspondent le plus possible. Une cote est attribue chaque enregistrement du fichier de rfrence
pour indiquer quel point la phrase du fichier de rfrence est semblable la rponse du questionnaire.
Les cotes sont values selon des paramtres dtermins (lesquels sont prciss pour rduire le risque
derreur) et si une cote est suffisamment leve, le code est transfr la rponse du questionnaire et
lenregistrement est considr cod.
Plusieurs enregistrements du fichier de rfrence ayant des cotes semblables sont parfois reprs, mais
parfois aussi, le fichier de rfrence ne contient aucun enregistrement qui correspond suffisamment la
rponse du questionnaire. Dans ces situations, les enregistrements sont gnralement envoys une petite
quipe de codage manuel dote de codeurs experts chargs de coder les enregistrements non cods la fin
de ltape automatise et de vrifier la qualit du produit du systme automatis (voir lAnnexe B -
Contrle qualitatif et assurance de la qualit).


10.2 Saisie des donnes
La saisie des donnes consiste transformer les rponses pour les rendre lisibles la machine. La
saisie est faite aprs la collecte (habituellement aprs le prtraitement et certaines vrifications
prliminaires du questionnaire) pour les mthodes de collecte sur support papier. Dans ce cas par
exemple, un commis (un oprateur de saisie des donnes) entre au clavier de lordinateur les valeurs
dclares dans le questionnaire. La saisie se fait au moment de la collecte pour les mthodes de collecte
par ordinateur.
Il y a plusieurs moyens damliorer lefficacit de la saisie des donnes. Les mthodes de collecte des
donnes assistes par ordinateur sont un moyen. La collecte et la saisie tant simultanes, le processus de
collecte et de saisie des donnes est donc plus rapide et efficace que celui des mthodes sur support
papier. Cependant, les programmes des logiciels demandent beaucoup de dveloppement et de mises
lessai. (Les avantages et les inconvnients de la collecte des donnes assiste par ordinateur sont tudies
au Chapitre 4 - Mthodes de collecte des donnes.)
Le codage pralable des questions fermes peut amliorer normment lefficacit de la saisie des
donnes manuelle pour les mthodes de collecte sur support papier. La lecture optique des questionnaires
remplis est une autre option. La lecture optique fonctionne au mieux pour les questions fermes et elle est
moins fiable pour la saisie des rponses aux questions ouvertes. La lecture optique peut rduire les erreurs
de saisie des donnes comparativement la saisie manuelle, mais les erreurs de lecture optique sont
possibles et doivent tre values et minimises. La logistique de la lecture optique demande plus de
travail pour les longs questionnaires parce quil faut enlever les agrafes, ajouter des identificateurs de
questionnaire chaque page, rinitialiser les lecteurs pour lire les diffrentes pages, etc. Coder toutes les

1
Dans ce chapitre, le questionnaire est gnralement le document sur support papier et lenregistrement est la
version lectronique du questionnaire rempli.
TRAITEMENT
STATISTIQUE CANADA
221
rponses sur une seule feuille de papier est une autre option. La lecture optique est simplifie, mais
lintervieweur devra faire davantage defforts pour lire une question sur une feuille et inscrire la rponse
sur une autre. Cette mthode est aussi restreinte aux questions fermes et, si lintervieweur a en main une
grande feuille remplie de cases de rponse, il est plus facile de coder la mauvaise rponse ou de coder la
rponse dans la mauvaise case. Lintervieweur aura aussi de la difficult consulter une rponse dun
rpondant parce que les questions et rponses sont inscrites sur des feuilles distinctes.
Il est particulirement important dappliquer les procdures de contrle qualitatif et dassurance de la
qualit aux mthodes de collecte sur support papier pour minimiser et corriger les erreurs pendant la saisie
des donnes (voir lAnnexe B - Contrle qualitatif et assurance de la qualit).


10.3 Vrification
Dans un monde idal, chaque questionnaire serait rempli sans erreur. Les rponses certaines questions
peuvent malheureusement tre absentes, incompltes ou inexactes. La vrification est lexamen des
rponses pour identifier les entres manquantes, non valables ou incohrentes qui indiquent des
enregistrements de donnes ventuellement errones. La vrification permet habituellement didentifier
les erreurs non dues lchantillonnage que suscitent les erreurs de mesure (rponses), les non-rponses
ou le traitement. La vrification vise :
- mieux comprendre les processus et les donnes de lenqute,
- reprer les donnes errones ou manquantes,
- faire le suivi auprs du rpondant,
- acheminer un enregistrement pour imputation,
- supprimer un enregistrement.
Des rgles de vrification sont appliques pour identifier les enregistrements errons. Voici des exemples
de rgles de vrification :
- chaque question doit avoir une rponse et seulement une,
- les rponses valides la question X sont 1 ou 2,
- la somme des parties pour la question X ne peut tre moindre que la rponse la question Y.
Des vrifications peuvent tre faites plusieurs tapes pendant le processus de lenqute et elles passent
des simples vrifications prliminaires des intervieweurs sur place aux vrifications automatises plus
complexes excutes par un programme informatique aprs la saisie des donnes. Les rgles de la
vrification sont gnralement formules selon ce qui peut tre logique ou valide, compte tenu :
- des connaissances de lexpert en la matire,
- dautres enqutes ou donnes connexes,
- de la structure du questionnaire et de ses questions,
- dune thorie statistique.
Les experts en la matire devraient savoir comment les variables sont lies lune lautre et quelles
rponses sont raisonnables. Leur intervention est importante pour prciser le genre de rgles appropries.
Ces analystes ont habituellement lexprience du genre de donnes vrifies. Un analyste des transports,
par exemple, peut tre conscient de ltendue des valeurs acceptables pour les taux de consommation
dessence des divers modles et marques de vhicule. Lanalyse dautres enqutes ou ensembles de
donnes pertinents aux mmes genres de variables que celles qui sont vrifies peut tre utile pour tablir
certaines rgles de vrification.
Point tout aussi important, la configuration et la structure du questionnaire ont des rpercussions sur les
rgles de la vrification. Les vrifications devraient dterminer si les rponses correspondent au
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
222
cheminement logique des questions. Il est souvent rvl laide des instructions sur lenchanement des
questions ou passez qui sous-entendent que certaines questions du questionnaire ne sappliquent pas
certaines catgories de rpondants et le rpondant doit alors passer une autre question.
Il y a trois principales catgories de vrification : les vrifications de validit, de cohrence et de
distribution. Les vrifications de validit et de cohrence sont appliques un questionnaire la fois. Les
vrifications de validit ciblent la syntaxe des rponses et comprennent la vrification des caractres non
numriques entrs dans les champs numriques et le reprage des valeurs manquantes. Les deux premiers
exemples de rgles de vrification ci-dessus correspondent des vrifications de validit. Celles-ci
peuvent aussi dterminer si les donnes codes sinscrivent dans ltendue permise des valeurs. Une
vrification de ltendue peut tre faite, par exemple, pour lge dclar dun rpondant, afin de vrifier
sil se situe entre 0 et 125 ans.
Les vrifications de cohrence dterminent si les liens entre les questions sont respects. Le troisime
exemple de rgle de vrification ci-dessus est la vrification de cohrence. Les vrifications de cohrence
peuvent utilisent des liens logiques, juridiques, comptables ou structurels entre les questions ou entre les
volets dune question. Le lien entre la date de naissance et ltat matrimonial est un exemple auquel la
vrification de cohrence peut tre applique : ltat matrimonial dune personne de moins de 15 ans
peut seulement tre jamais mari . Les vrifications de cohrence peuvent aussi porter sur le
cheminement logique des questions, par exemple, si le rpondant inscrit non la question X, il ne peut
rpondre la question Y . Les vrifications de cohrence peuvent aussi comprendre le recours aux
donnes chronologiques (p. ex., les ratios dune anne lautre). Dans le cas des enqutes-mnages, les
vrifications peuvent tre faites entre les membres du mnage.
Les vrifications de distribution sont faites en observant les donnes entre les questionnaires. Elles tentent
de dterminer les enregistrements qui sont des valeurs aberrantes du point de vue de la distribution des
donnes. Les vrifications de distribution sont parfois considres comme des vrifications statistiques
(Hidiroglou et Berthelot, 1986) ou la dtection de valeurs aberrantes (voir la Section 10.5). Les erreurs
non dues lchantillonnage sont considres au Chapitre 3 - Introduction au plan denqute.
10.3.1 Vrifications pendant la collecte des donnes


Les vrifications pendant la collecte des donnes sont souvent intitules vrifications sur le terrain (sur
place), ce sont en gnral des vrifications de validit et, parfois, de simples vrifications de cohrence.
Voici pourquoi la vrification est faite pendant la collecte des donnes :
- dterminer sil faut amliorer la mthode de collecte des donnes,
- dcider sil faut davantage de formation,
- dtecter les erreurs videntes et faire le suivi immdiat auprs du rpondant,
- purer les entres.
Les intervenants suivants peuvent faire la vrification pendant la collecte des donnes :
- le rpondant (enqute par autodnombrement),
- lintervieweur pendant linterview,
- lintervieweur immdiatement aprs linterview,
- le surveillant de lintervieweur,
- le personnel de bureau.
Les vrifications sur place sont faites pour dterminer les problmes que posent les procdures de collecte
des donnes et la conception du questionnaire, ainsi que le besoin dapprofondir la formation de
TRAITEMENT
STATISTIQUE CANADA
223
lintervieweur. Elles servent aussi dtecter les erreurs que lintervieweur ou le rpondant ont commises
pendant linterview, ainsi que linformation manquante pendant la collecte, afin damenuiser le besoin de
suivi ultrieur. La vrification pendant la collecte est beaucoup plus facile faire si elle est incorpore
une mthode de collecte assiste par ordinateur.
Les rpondants peuvent vrifier leurs propres rponses un questionnaire dautodnombrement. Presque
toutes les enqutes assistes par intervieweur comprennent une certaine vrification pendant linterview,
les intervieweurs ont des instructions et sont forms pour examiner les rponses quils inscrivent dans un
questionnaire immdiatement la fin de linterview, aprs avoir quitt le logement ou raccroch le
combin du tlphone. Ils ont ainsi loccasion de dtecter et de traiter les enregistrements rejets aprs
lapplication des rgles de la vrification, soit parce quils ont toujours linformation exacte la mmoire,
soit parce quils peuvent facilement faire le suivi peu de frais auprs du rpondant pour dterminer les
valeurs exactes. Les rejets la vrification toujours non rsolus sont habituellement rgls plus tard par
imputation.
Les vrifications sur place servent aussi purer des rponses. Lintervieweur inscrit souvent de brves
notes en marge du questionnaire pendant linterview ou dans la section des notes de lapplication de
lITAO. Lintervieweur prend des notes parce quil ne connat pas le programme de codage des questions
ouvertes ou il veut consulter le manuel de lintervieweur pour interprter une rponse. Lintervieweur
vrifie alors ces questionnaires aprs linterview pour purer ces notes.
Lune des tches confies aux surveillants est la vrification du travail de ces intervieweurs pour dtecter
les erreurs et les en informer. Les genres de rejets dtects sont habituellement semblables ceux que
pourrait reprer lintervieweur immdiatement aprs linterview et lintervieweur a habituellement
loccasion de faire le suivi auprs du rpondant pour dterminer les valeurs exactes. Les surveillants
devraient aussi chercher les caractristiques des erreurs commises. Il faudrait communiquer toute
lquipe les leons apprises dun intervieweur.
Dans de nombreuses enqutes, le rpondant ou lintervieweur envoie les questionnaires remplis au bureau
rgional pour tlchargement et prtraitement par les prposs aux activits de bureau. Ce prtraitement
comprend souvent les mmes vrifications des intervieweurs ou des surveillants, ou des vrifications
supplmentaires. Le prtraitement comprend le dchiffrage des rponses inscrites la main,
linterprtation des remarques de lintervieweur, la normalisation des chelles de mesure (p. ex., calculer
en mtres une valeur inscrite en pieds), etc. Il permet aussi de vrifier si lintervieweur a rempli tous les
champs administratifs du questionnaire, notamment, les codes dtat des rponses (p. ex., qui indiquent si
le questionnaire est rempli en tout ou en partie). Ce processus donne une vrification ou un examen
autonome systmatique des donnes du questionnaire avant de les envoyer la saisie des donnes. La
vrification des codes didentification du questionnaire peut aussi tre un lment important de cet
exercice parce que les questionnaires ne peuvent tre entrs ou les donnes ne peuvent tre saisies sans
identification complte. Lampleur des vrifications dpend du budget disponible et jusqu quel point le
personnel de bureau affect la vrification peut reprer et rsoudre les problmes. Ce genre de
vrification est intgr, si possible, au codage, au pointage ou la rpartition en lots des questions du
questionnaire qui peuvent tre ncessaires avant de lancer la saisie des donnes. Le personnel du bureau
rgional peut faire le suivi auprs du rpondant, dans certains cas, pour rsoudre dimportants rejets la
vrification.


10.3.2 Vrifications aprs la collecte des donnes
Les vrifications les plus dtailles et compliques sont faites au cours dune tape distincte de
vrification et dimputation aprs la collecte des donnes. Les oprateurs de la saisie des donnes peuvent
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
224
faire des vrifications pendant la saisie, ou des programmes informatiques sen chargent
automatiquement, ou cest lapplication informatique qui les fait dans le cas des mthodes de collecte
assistes par ordinateur. Sil sagit de la saisie manuelle des donnes des questionnaires sur support
papier, il est conomique de profiter de loccasion pour appliquer les rgles et purer les donnes
suffisamment, afin que les tapes de traitement ultrieures soient plus efficientes. La vrification pendant
la saisie des donnes est gnralement minimise parce que lintervention aprs un rejet la vrification
ralentit la saisie des donnes. cette tape du traitement, ce sont surtout des vrifications de validit et de
simples vrifications de cohrence.
Les rgles de vrification plus complexes sont gnralement rserves ltape distincte de vrification
aprs la saisie des donnes, ainsi que des vrifications de validit et des vrifications plus complexes de la
cohrence souvent faites en mme temps que la vrification slective et la dtection des valeurs
aberrantes (voir la Section 10.5).
Au volet des rejets la vrification aprs la collecte des donnes, la procdure habituelle est dindiquer le
champ rejet la vrification et de limputer, ou dextraire lenregistrement du traitement ultrieur.
La majorit des rejets la vrification cette tape sont marqus pour imputation. Il est utile dentrer un
code spcial pour les valeurs rejetes la vrification, afin dindiquer quune valeur inacceptable ou un
blanc invalide a t repr. Ces indications sont particulirement utiles pour valuer la qualit des
donnes de lenqute. Dans certains cas, lenregistrement ou le questionnaire peut tre rejet aprs avoir
appliqu tellement de rgles de vrification (ou un petit nombre de vrifications critiques) quil devient
inutile au traitement ultrieur. Lenregistrement est alors habituellement considr comme celui dun non-
rpondant, il est retir du circuit du traitement et il y a ajustement de la pondration pour non-rponse
(consulter le Chapitre 7 - Estimation pour obtenir des dtails sur les ajustements de la pondration).


10.3.3 Vrification slective
En vrification, il faut faire un compromis entre la perfection voulue pour chaque enregistrement et
laffectation de ressources raisonnables (c.--d. temps et argent) pour bien purer les donnes. Beaucoup
de temps et defforts ont t investis auparavant pour identifier toutes les erreurs denqute. La
survrification des donnes est non seulement une utilisation mdiocre des ressources, mais elle peut
aussi donner des rsultats biaiss. Les donnes doivent habituellement correspondre un modle dfini
davance ou sinon, elles sont rejetes la vrification. Si les donnes sont modifies chaque fois quelles
sont rejetes la vrification, elles peuvent devenir normment biaises comparativement au modle et
ne plus reflter la situation relle. La survrification et les suivis ritrs auprs des rpondants peuvent
aussi accrotre le fardeau de rponse et miner la collaboration des rpondants lavenir.
Des pratiques de vrification slective sont recommandes, en particulier pour les enqutes-entreprises
(c.--d. si la population est asymtrique et si quelques entreprises dominent les estimations), afin dviter
de rserver trop de temps et dpuiser des ressources pour vrifier des donnes qui ont peu de
rpercussions sur les estimations dfinitives. Lapproche de la vrification slective repose sur lide
selon laquelle seuls les rejets critiques la vrification doivent tre traits. La vrification slective
sapplique en gnral aux donnes quantitatives. Une procdure qui modifie les enregistrements
individuels selon leurs rpercussions ventuelles sur les estimations de lenqute, ou par lintermdiaire
de lanalyse des donnes agrges, est un exemple de lapplication de la vrification slective. Les
rsultats ventuels de la vrification slective des rejets sont le suivi auprs du rpondant, le retrait de
lenregistrement du traitement ultrieur ou une indication des enregistrements cibls pour imputation.
TRAITEMENT
STATISTIQUE CANADA
225
La vrification slective permet une :
- diminution des cots,
- amlioration de la qualit des donnes si les ressources sont rachemines vers les enregistrements
ayant des rpercussions importantes ou vers dautres activits,
- amlioration de la rapidit dexcution lorsque diminue le temps de traitement,
- diminution du fardeau de rponse lorsque diminue le nombre de suivis.
Cependant, avec la vrification slective :
- la qualit des donnes obtient moins dattention au niveau de lunit individuelle,
- il peut rester des donnes incohrentes et les utilisateurs pourraient avoir limpression que la qualit
des donnes est mdiocre,
- lerreur non due lchantillonnage pour les petits domaines peut tre plus grande si tous les
questionnaires ne sont pas vrifis individuellement,
- les prposs au traitement des donnes, les experts en la matire, la direction ou les utilisateurs des
donnes peuvent tre rticents et faire moins confiance aux donnes.
Voici certaines approches de la vrification slective :
i. Approche descendante
Si cette mthode est applique, les valeurs des donnes pondres les plus influentes sont listes de haut
en bas pour un domaine destimation donn et elles sont examines une par une. La vrification et
lexamen des donnes prennent fin lorsque la valeur suivante de la donne la plus influente na pas de
rpercussions importantes sur lestimation du domaine. Considrons, par exemple, un chantillon de cinq
entreprises tires dune population de 100 si on veut estimer dans lenqute le nombre total demploys
dans la population. Lestimation du nombre total demploys dans lenqute est 737. Lanalyste a
limpression que cette estimation est trop leve (parce quil prvoit que le nombre moyen demploys
par entreprise est de trois). Lanalyste examine la contribution relative de chaque enregistrement
lestimation totale. On peut constater au tableau 1 que le premier enregistrement atteint 81,4 % de
lestimation du total. Compte tenu de son influence sur lestimation, cet enregistrement est examin de
plus prs. Il devient vite vident que le nombre demploys dclars dans cette entreprise est plus lev
que prvu et la pondration est plus leve que celle des autres enregistrements (peut-tre cause dun
ajustement pour les non-rponses). Cet enregistrement est donc trait comme une observation influante
(voir la Section 10.5). tant donn que les autres valeurs pondres reprsentent seulement une petite
proportion du total dans lensemble, elles ne sont pas examines de plus prs.
Tableau 1 : Exemple de vrification descendante

Enregistrement Nombre demploys Pondration Proportion du total
1 12 50 81,4 %
2 7 8 7,6 %
3 3 12 4,9 %
4 2 15 3,3 %
5 1 15 2,0 %

ii. Mthode agrge
La mthode agrge permet didentifier les estimations pour un domaine qui paraissent suspectes. Les
donnes pondres de tous les enregistrements du domaine sont ensuite examines. Dans une enqute
estimant la taille moyenne des mnages, par exemple, si la taille moyenne dans un village en particulier
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
226
est de 23, tous les enregistrements individuels pondrs de ce village seraient examins pour dterminer si
certaines valeurs semblent tre substantiellement plus leves que les autres.
iii. Mthode graphique
Les donnes sont disposes en graphique pour identifier les valeurs suspectes. La distribution des donnes
peut tre prsente en graphique, par exemple, pour identifier les queues improbables de la distribution.
iv. Cote du questionnaire
Berthelot et Latouche (1992) proposent lutilisation dune fonction de cotation, cest--dire quune cote
est attribue chaque rpondant selon une certaine mesure de la taille, le nombre dlments de donnes
suspects dans le questionnaire et limportance relative des variables. Seuls les enregistrements ayant une
cote leve sont examins.


10.3.4 Vrifications manuelle et automatise
La vrification peut tre automatise au moyen dun programme informatique. Lampleur de la
vrification faire (cest--dire le nombre dlments de donnes ou de questionnaires), les
caractristiques et la complexit des rgles de vrification appliques, les rpercussions de lunit,
limportance des variables et ltape du traitement du questionnaire laquelle sappliquent les rgles de la
vrification dterminent si le traitement manuel ou automatis est appropri. Plus les rgles de la
vrification sont complexes, plus le traitement manuel est difficile et expos aux erreurs. Dans certaines
enqutes dautre part (p. ex., sur support papier), il est difficile, sinon impossible, dintgrer les
vrifications automatises pendant la collecte des donnes. Dautres lments qui ont des rpercussions
sur le choix de la vrification manuelle ou automatise comprennent la ncessit de surveiller les
interviews et de laisser une piste de vrification. La vrification aprs la saisie des donnes est cependant
automatise dhabitude. Selon un principe gnralement accept pour cette tape de vrification, et
ltape dimputation connexe, il ne devrait pas tre ncessaire de revenir au questionnaire individuel sur
support papier pour rfrence, sauf si cette intervention est absolument ncessaire. Autrement dit, les
enregistrements lectroniques obtenus aprs la saisie des donnes devraient contenir tous les
renseignements ncessaires pour faire la vrification et limputation ultrieures.


10.3.5 Contraintes de la vrification
La vrification des donnes est assujettie :
- aux ressources disponibles (temps, budget et personnes),
- au logiciel disponible,
- au fardeau du rpondant,
- lutilisation prvue des donnes,
- la coordination avec limputation.
i. Ressources (temps, budget et personnes)
Avec une approche de vrification manuelle, le processus de vrification peut coter cher en main-
d'uvre. Il faut :
- laborer et documenter les rgles de vrification appliquer et les interventions ncessaires en
prsence dun rejet la vrification,
- former les vrificateurs,
TRAITEMENT
STATISTIQUE CANADA
227
- tablir un mcanisme de surveillance et dexamen du travail des vrificateurs (c.--d. appliquer les
procdures de contrle qualitatif et dassurance de la qualit),
- appliquer une mthode dvaluation des rpercussions de la vrification sur les donnes originales.
En milieu informatique, les rpercussions aux volets temps, cots et ressources pour llaboration au
premier plan peuvent tre normes. Les tches comprennent celles-ci :
- laboration et documentation des rgles de la vrification,
- rdaction dun programme informatique ou adaptation dun logiciel pour identifier les rejets la
vrification,
- mise lessai du programme informatique,
- vrification des donnes de lenqute en excutant le programme.
Il est important de dterminer dans les deux cas si linvestissement en vrification vaut la peine. Des
ressources sont gaspilles si on applique une stratgie de vrification qui cote cher et demande beaucoup
de temps pour reprer quelques enregistrements dont les rpercussions sur les rsultats de lenqute sont
ngligeables. Il est risqu dautre part dappliquer uniquement une stratgie rudimentaire de vrification
pour dcouvrir en bout de ligne des erreurs et des incohrences majeures dans les rponses au
questionnaire. Combien denregistrements seront probablement rejets aprs lapplication des rgles de
vrification? Quelles seront les rpercussions de ces rejets sur la qualit des donnes obtenues? Les
enregistrements ont-ils tous la mme valeur? Des questions du genre sont importantes, mais il nest pas
toujours facile dy rpondre. La qualit de la conception du questionnaire, ainsi que la comprhension
approfondie ou non de lenqute chez les rpondants et la qualit de la formation des intervieweurs,
notamment, dterminent les rponses ces questions.
Il est souvent prfrable danalyser les donnes brutes (c.--d. avant la vrification), surtout si lenqute
est ritre, avant dappliquer une stratgie de vrification. Lorganisme statistique peut ainsi dterminer
davance le nombre probable de rejets la vrification et le genre de liens entre les questions. Il faudrait
en fait considrer que la vrification est un processus continu qui na pas ncessairement un point de
dpart et darrive. Cest un processus dapprentissage qui cible lamlioration constante de tout le
droulement de lenqute la longue.
ii. Logiciel
Certaines progiciels spcialiss servent la vrification et limputation des donnes dun questionnaire
(p. ex., le Systme gnralis de vrification et dimputation de Statistique Canada, SGVI, ou le Systme
canadien de contrle et dimputation du recensement, SCANCIR). Ces trousses peuvent permettre
lapplication de rgles de vrification approfondies en contrepartie dun investissement pralable assez
raisonnable en conception de systmes. Dautre part, les organismes statistiques peuvent programmer leur
propre stratgie de vrification.
iii. Fardeau du rpondant
Lune des consquences de la vrification des questionnaires est la possibilit de suivi auprs des
rpondants pour traiter des donnes manquantes ou errones. Dans la plupart des situations, le rpondant
est la source la plus prcise dinformation pour les questions du questionnaire. Le suivi est cependant un
fardeau pour le rpondant et il cote cher lorganisme statistique. Une priode relativement longue peut
aussi scouler entre linterview et le suivi, et le rpondant peut avoir oubli la rponse exacte. Ces
considrations signifient que le suivi (pour traiter des rejets la vrification) est gnralement limit aux
rejets la vrification identifis pendant la collecte ou reprs aprs la vrification slective. tant donn
que le suivi aprs la collecte nest en gnral ni pratique ni souhaitable, limputation est ncessaire.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
228
iv. Utilisation prvue des donnes
Lutilisation des donnes obtenues devrait dterminer, dans une large mesure, lampleur de la vrification.
Il nest peut-tre pas ncessaire de vrifier rigoureusement les ensembles ou lments de donnes qui
serviront dabord aux examens qualitatifs, au cours desquels les dcisions ne seront pas prises selon des
mesures prcises. Peut-tre vaudrait-il mieux vrifier de plus prs les ensembles ou lments de donnes
qui auront une importance stratgique dans la prise de dcisions. De plus, dans un ensemble de donnes
en particulier, certains lments peuvent tre beaucoup plus importants que dautres, et il peut donc tre
prfrable de rserver davantage de temps et de ressources pour en faire lpuration.
Dautre part, certains enregistrements dun ensemble de donnes peuvent avoir plus dimportance que
dautres et contribuer normment aux estimations de lenqute. Cest particulirement le cas dans les
enqutes-entreprises o 5 % des entreprises peuvent afficher 95 % du total des gains dans une branche
dactivit en particulier. Cibler les enregistrements ou les champs les plus influents est lune des raisons
dtre de la vrification slective (Section 10.3.3) et de la dtection des valeurs aberrantes (Section 10.5).
v. Coordination avec limputation
La vrification en soi a une valeur minimale sans une certaine intervention pour traiter des lments
rejets aprs lapplication des rgles de vrification. Sil ny a pas de suivi auprs du rpondant, cette
mesure corrective est gnralement intitule imputation. Les interventions simultanes de vrification et
dimputation sont troitement lies. Il est donc important de considrer comment limputation sera faite
pendant llaboration des spcifications de la vrification. Dans de nombreux cas, limputation est faite
lorsque le rejet la vrification est dtect (avant de passer lexamen des rgles suivantes). Il est
prfrable dappliquer cette approche lorsque lintervention ncessaire devient vidente, tant donn le
genre de questions ou de rponses des questions connexes. Limputation est souvent faite cependant au
cours dune tape distincte lorsque toutes les donnes ont t traites aprs application de toutes les rgles
de vrification.


10.3.6 Lignes directrices propos de la vrification
Voici certaines lignes directrices propos de la vrification :
i. Le personnel qui a lexpertise de la matire, de la conception des questionnaires, de lanalyse des
donnes et dautres enqutes semblables devrait laborer les vrifications.
ii. La vrification devrait tre faite plusieurs tapes de lenqute.
iii. La vrification applique chaque tape ne devrait pas contredire la vrification une autre tape
(les vrifications faites pendant la collecte et le traitement devraient tre uniformes).
iv. La vrification devrait tre applique pour obtenir de linformation sur le processus de lenqute,
soit sous forme de mesures de la qualit de lenqute en cours ou pour suggrer des amliorations
aux enqutes ultrieures.
v. Certaines hypothses sont formules sur les donnes au dbut dune enqute. Il est possible de
mettre lpreuve la validit de ces hypothses pendant la vrification. Il peut devenir vident,
par exemple, que certaines vrifications dtendue taient trop strictes ou que certaines
vrifications squentielles ont donn trop souvent un rejet, et les rgles de vrification se rvlent
TRAITEMENT
STATISTIQUE CANADA
229
donc inappropries (ou le questionnaire pose certains problmes). Cette information devrait servir
ajuster les vrifications lavenir (ou amliorer la maquette du questionnaire).
vi. Il faudrait communiquer aux utilisateurs linformation sur le genre de vrifications faites et leurs
rpercussions sur les donnes de lenqute.
vii. Il faudrait appliquer les procdures de contrle qualitatif et dassurance de la qualit pour
minimiser et corriger les erreurs ajoutes pendant la vrification (voir lAnnexe B - Contrle
qualitatif et assurance de la qualit).


10.4 Imputation
Limputation est un processus utilis pour dterminer et attribuer des valeurs de remplacement, afin de
rsoudre les problmes que suscitent les donnes manquantes, invalides ou incohrentes. Il faut cette
fin changer certaines des rponses et toutes les valeurs manquantes de lenregistrement vrifi pour crer
un enregistrement plausible et cohrent en soi. Certains problmes sont corrigs auparavant lorsquon
communique avec le rpondant ou quon tudie le questionnaire la main, mais, nous lavons mentionn
auparavant, il est habituellement impossible de rsoudre tous les problmes de cette faon et limputation
est applique pour rgler les autres rejets la vrification.
Laisser lutilisateur traiter les donnes manquantes, invalides ou incohrentes est une solution de rechange
limputation. Cette approche nest pas recommande. Si lutilisateur dcide dignorer ou de supprimer
tous les enregistrements qui affichent des rejets la vrification, un bon nombre de donnes peuvent tre
perdues si de nombreux enregistrements sont touchs. Si lutilisateur essaie de remplacer les donnes
manquantes, le rsultat peut dboucher sur des estimations incohrentes de diffrents utilisateurs et
entacher la rputation de lorganisme statistique charg de lenqute. Lutilisateur a accs moins de
variables que lorganisme statistique pour limputation et il est donc probable que lutilisateur ne puisse
traiter aussi bien les rejets la vrification.
Lajustement de la pondration pour les non-rponses est une approche souvent utilise dans le cas dune
non-rponse totale ou lorsque la collecte a produit peu de donnes, sinon aucune, (voir le Chapitre 7 -
Estimation).


10.4.1 Mthodes dimputation

Les mthodes dimputation peuvent tre rparties en deux catgories, stochastique ou dterministe.
Limputation dterministe signifie quil y a seulement une valeur impute possible, compte tenu des
donnes du rpondant. Limputation stochastique a un caractre alatoire : si limputation tait ritre
pour le mme ensemble de donnes, les mthodes dterministes imputeraient la mme valeur chaque fois,
mais les mthodes stochastiques pourraient imputer une valeur diffrente chaque fois.
Les mthodes dimputation dterministe comprennent limputation :
- dductive,
- de la valeur moyenne,
- par ratio-rgression,
- squentielle par donneur de lenqute (hot-deck),
- squentielle par donneur dune autre source (cold-deck),
- selon le voisin le plus proche.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
230
Chaque mthode dterministe a une contrepartie stochastique, lexception de limputation dductive.
Pendant limputation des donnes quantitatives, on peut obtenir un rsultat en ajoutant la valeur impute
un rsidu alatoire tir dune distribution ou dun modle appropri. La contrepartie stochastique de
limputation squentielle hot-deck est limputation alatoire hot-deck. Limputation stochastique protge
peut-tre mieux la structure de la frquence de lensemble des donnes et peut rtablir une variabilit plus
raliste dans les valeurs imputes que les mthodes dterministes.
lexception des mthodes dimputation par donneur o un donneur peut servir imputer toutes les
donnes manquantes ou incohrentes pour un enregistrement destinataire, les mthodes suivantes
considrent limputation dun lment la fois.


10.4.1.1 Imputation dductive
Lapplication de la mthode dimputation dductive permet de dduire avec certitude une valeur
manquante ou incohrente. La dduction est souvent base sur les caractristiques des rponses donnes
dautres questions du questionnaire. Limputation dductive est habituellement faite avant dappliquer
toute autre mthode. Dans une somme de quatre articles, par exemple, si le total dclar est 100, si deux
articles valent 60 et 40 et si les deux autres sont laisses en blanc, on peut dduire que les deux valeurs
manquantes sont zro.
Limputation doit plus souvent remplacer une valeur qui nest pas considre vraie en toute certitude. La
matire ci-dessous donne une brve description de certaines mthodes habituelles dimputation. Il vaut
mieux regrouper des enregistrements semblables pour toutes ces mthodes, comme cest le cas dans les
ajustements de la pondration pour les non-rponses (voir le Chapitre 7 - Estimation). Ces
regroupements sont intituls classes dimputation.


10.4.1.2 Imputation de la valeur moyenne
Lorsque la mthode dimputation de la valeur moyenne est utilise, la valeur manquante ou incohrente
est remplace par la valeur moyenne pour la classe dimputation. Supposons, par exemple, quun
questionnaire denqute sur le logement na pas la valeur du loyer mensuel dun appartement. La valeur
manquante peut tre impute en dterminant le loyer mensuel moyen des rpondants qui ont dclar
correctement leur loyer mensuel (la classe dimputation pourrait comprendre les rpondants du mme
secteur gographique que celui du questionnaire quil faut imputer).
Limputation de la valeur moyenne pour la donne manquante est quivalente lapplication du mme
facteur dajustement pour la non-rponse tous les rpondants dune mme classe dimputation. On
considre que la non-rponse est uniforme et que les non-rpondants ont des caractristiques semblables
celles des rpondants.
Limputation de la valeur moyenne peut donner des estimations ponctuelles raisonnables (c.--d. les
estimations des totaux, des moyennes, etc.), mais elle dtruit les distributions et les liens
multidimensionnels en crant une pointe artificielle la moyenne de la classe. Le rsultat diminue
artificiellement la variance dchantillonnage estime des estimations dfinitives si des formules
conventionnelles de calcul de variance sont utilises.
Limputation de la valeur moyenne est souvent utilise en dernier recours pour viter de perturber la
distribution des donnes sil ny a pas dinformation auxiliaire disponible ou si limputation cible trs peu
denregistrements.
TRAITEMENT
STATISTIQUE CANADA
231
10.4.1.3 Imputation par ratio-rgression
Linformation auxiliaire ou les rponses valides dautres enregistrements sont utilises dans limputation
par ratio-rgression pour concevoir un modle de ratio ou de rgression qui utilise les liens entre deux
variables ou plus. Le modle suivant est souvent utilis pour limputation par ratio :
i i i
Rx y + =
o
y
i
est la valeur de la variable y pour la i
e
unit,
x
i
est la valeur dune variable x auxiliaire pour la i
e
unit,
R est la pente de la droite (c.--d. le changement en y
i
lorsque x
i
augmente dune unit),

i
est considre tre une variable de lerreur alatoire de moyenne 0 et de variance
2
.
Autrement dit, on suppose pour ce modle que y
i
est approximativement linaire par rapport x
i
et que les
valeurs observes de y
i
scartent de part et dautre de cette ligne dune grandeur alatoire
I
.
Les valeurs de y
i
peuvent ensuite tre imputes, comme suit :
i i
x
x
y
y =
~

o
i
y
~
est la valeur impute pour la variable y de lenregistrement i,
x est la valeur x moyenne dclare pour la classe dimputation,
y est la valeur y moyenne dclare pour la classe dimputation.
Supposons, par exemple, quun questionnaire sur lemploi, la masse salariale et les heures de travail
contienne une entre invalide pour la masse salariale, y
i
, sur une priode de deux semaines, mais que le
nombre demploys rmunrs, x
i
, soit entr correctement et que nous sachions dans quelle branche
dactivit lentreprise est exploite. laide dautres questionnaires de la mme enqute et de la mme
branche dactivit (c.--d. la classe dimputation) o les donnes sur la masse salariale et le nombre
demploys rmunrs sont dclares correctement, il est possible de dterminer le ratio entre la masse
salariale et le nombre demploys. Ce ratio (de la masse salariale au nombre demploys) peut ensuite tre
appliqu au nombre demploys du questionnaire quil faut imputer, afin de dterminer une valeur pour la
masse salariale.
Lhypothse dans ce cas est que le modle de rgression ou de ratio ajust aux questionnaires ayant des
donnes valides (c.--d. qui ont pass toutes les vrifications) dans la classe dimputation sapplique aussi
bien aux questionnaires de la classe dimputation qui ont t rejets aux vrifications. Si cette hypothse
est fausse, il peut y avoir un biais marqu.
La prsence de variables troitement lies la variable impute, le degr de complexit des calculs
mathmatiques et le calcul restreint ou non une classe dimputation, ou appliqu ou non tout
lensemble des donnes, dterminent largement la prcision des valeurs imputes. Cette mthode a un
avantage, cest--dire quelle peut protger les liens entre les variables. Les estimateurs du ratio et de la
rgression donneront probablement aussi des valeurs imputes plus stables que de simples moyennes.
Cette mthode dimputation peut cependant ajouter artificiellement des liens ltape de lanalyse des
donnes. Tout comme la plupart des autres mthodes dimputation ( lexception de limputation
dductive), elle diminue la variance dchantillonnage estime des estimations dfinitives si des formules
conventionnelles de calcul de la variance sont appliques.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
232
Limputation de la valeur prcdente, aussi intitule imputation par report ou par report en aval, est un cas
particulier dimputation par ratio-rgression, cest--dire que la valeur de loccurrence prsente est
impute en ajustant la valeur de loccurrence prcdente aux fins de la croissance. Elle est souvent utilise
pour les variables quantitatives dans les applications des enqutes-entreprises.
Lestimation par ratio et rgression est explique plus en dtail au Chapitre 11 - Analyse des donnes de
lenqute.


10.4.1.4 Imputation par donneur de lenqute (hot-deck)
Limputation hot-deck utilise linformation de lenregistrement dun donneur qui a habituellement pass
toutes les vrifications pour remplacer des valeurs manquantes ou incohrentes dun enregistrement
destinataire. Afin de trouver un enregistrement donneur semblable lenregistrement destinataire, des
variables lies celles qui ont besoin dimputation sont identifies pour tablir des classes dimputation.
Lensemble des enregistrements dans la classe dimputation qui ont pass toutes les vrifications est le
groupe donneur pour les enregistrements de la classe dimputation qui ont besoin dimputation.
Limputation hot-deck peut servir limputation de donnes qualitatives ou quantitatives, mais elle utilise
gnralement des variables qualitatives pour tablir les classes dimputation. Les deux principaux types
dimputation hot-deck sont limputation hot-deck squentielle et alatoire.
Dans le cas de limputation hot-deck squentielle, les donnes font lobjet du traitement squentiel dans la
classe dimputation, un enregistrement la fois (c.--d. tri dans un certain ordre). Limputation est faite
en remplaant larticle manquant dun questionnaire par la valeur pure du donneur prcdent dans la
classe dimputation. Limputation hot-deck squentielle est une mthode dimputation dterministe si la
mme mthode de tri est applique chaque fois. Lors de limputation hot-deck alatoire, des donneurs
sont slectionns au hasard dans la classe dimputation. Limputation hot-deck alatoire est une mthode
dimputation stochastique.
Considrons lexemple de limputation du statut de fumeur dun rpondant pour illustrer limputation hot-
deck. Supposons quil y a deux rponses possibles : fumeur et non-fumeur. Des classes dimputation sont
tablies selon le groupe dge et le sexe pour trouver un enregistrement donneur parce que ces variables
sont lies au statut de fumeur dune personne. Supposons que lenregistrement ayant besoin dimputation
est celui dune femme de la catgorie des 15 24 ans. Lensemble des donneurs comprend toutes les
rpondantes ges de 15 24 ans qui ont dclar leur statut de fumeur. La slection dun donneur peut
tre alatoire (c.--d. hot-deck alatoire) ou squentielle si lon dresse la liste des donneurs et que lon en
slectionne un (c.--d. hot-deck squentielle).
Les mthodes de limputation par donneur ont un avantage (imputation hot-deck et par le plus proche
voisin, voir la Section 10.4.1.6), cest--dire que les donneurs semblables (entreprises, mnages, etc.)
devraient avoir des caractristiques semblables et la valeur impute devrait donc tre assez prs de la
valeur relle. Dans limputation par donneur, de plus, il est habituellement possible de maintenir la
distribution multidimensionnelle des donnes.
Il y a cependant certains inconvnients. En voici un : lutilisation multiple du mme donneur est frquente
dans limputation hot-deck squentielle. Lutilisation ritre dun donneur peut susciter une distorsion de
la distribution des donnes et diminuer artificiellement la variance dchantillonnage estime. Autre
inconvnient : une bonne information auxiliaire et au moins une rponse partielle (p. ex., revenu du
mnage, ge, sexe, etc.) sont ncessaires pour tablir les classes dimputation et ces donnes ne sont pas
toujours disponibles pour les enregistrements qui ont besoin dimputation. Il faut aussi tre prudent si la
classe dimputation est petite ou si le taux de non-rponse dans la classe dimputation est lev parce quil
TRAITEMENT
STATISTIQUE CANADA
233
pourrait ny avoir aucun donneur. (Cette constatation est vraie pour toutes les mthodes qui utilisent des
classes dimputation.)
Limputation hot-deck hirarchique peut tre utilise pour quil soit toujours possible de trouver un
enregistrement donneur. Limputation hirarchique utilise plus dun niveau de classe dimputation. Sil
ny a pas de donneur dans la premire classe dimputation la plus dtaille, les classes sont regroupes en
une structure hirarchique suffisante pour obtenir un donneur.
Limputation par donneur est tudie la Section 10.4.3.


10.4.1.5 Imputation par donneur dune autre source (cold-deck)
Limputation cold-deck est semblable limputation hot-deck, mais cette dernire utilise les donneurs de
lenqute courante et la premire utilise les donneurs dune autre source. Limputation cold-deck utilise
souvent les donnes chronologiques de la mme enqute ralise auparavant ou dun recensement. Si la
slection des donneurs est alatoire, limputation est stochastique, autrement, elle est dterministe.
10.4.1.6 Imputation par voisin le plus proche

Dans les enqutes dont les donnes sont largement quantitatives (p. ex., enqutes-entreprises comprenant
la dclaration des ventes et de linventaire), il peut tre ncessaire ou prfrable de trouver un
enregistrement donneur par appariement avec des donnes quantitatives. Limputation par le plus proche
voisin est la slection dun enregistrement donneur selon des variables dappariement. Lorsque cette
mthode dimputation est utilise, le but nest pas ncessairement de trouver un enregistrement donneur
qui corresponde exactement au destinataire pour chacune des variables dappariement. Le but est plutt
de trouver le donneur le plus prs du destinataire du point de vue des variables dappariement dans la
classe dimputation, c.--d. de trouver le voisin le plus prs. Cette proximit est dfinie par une
mesure de lcart entre deux observations calcul laide des variables dappariement (p. ex., pour
imputer un inventaire manquant, trouver le plus proche voisin du point de vue des ventes dclares dans
la classe dimputation).
Lapplication des mthodes dimputation par le plus proche voisin exige de la prudence si lchelle des
variables dappariement est trs diffrente (p. ex., monnaie et territoire). Il faut transformer les variables
dune certaine faon dans la plupart des cas pour normaliser lchelle.


10.4.1.7 Imputation dterministe avec rsidus alatoires

Les mthodes dterministes appliques aux donnes quantitatives peuvent devenir stochastiques en
ajoutant des rsidus alatoires, par exemple, en imputant la valeur moyenne et en ajoutant un rsidu
alatoire :
* ~
i i
e y y + =
o
i
y
~
est la valeur impute pour la variable y de lenregistrement i,
y est la moyenne pour la classe dimputation,
e
i
* est un rsidu modle alatoire slectionn parmi les rpondants ou tir dune distribution.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
234
Pour choisir un rsidu e
i
*, il suffit de calculer les rsidus comme suit pour lensemble des rpondants
dans une classe dimputation :
r r i r i
y y e =
) ( ) (

o
y
i(r)
est la valeur y dclare pour le i
e
rpondant,
r
y est la valeur y moyenne dclare pour la classe dimputation.
On peut ensuite dterminer e
i
* en slectionnant au hasard parmi toutes les valeurs de e
i(r)
dans la classe
dimputation.
Voir Kalton et Kasprzyk (1986) pour en apprendre davantage sur les approches de limputation
stochastique.


10.4.2 Choix des valeurs imputer
Aprs application dune rgle de vrification, les champs rejets cause de non-rponses ou de donnes
invalides qui ne sont pas rsolus par lintermdiaire dun suivi auprs du rpondant devraient faire lobjet
dune imputation. Limputation nest pas recommande pour tous les autres rejets la vrification parce
quil est prfrable de conserver le plus possible les donnes du rpondant. Il vaut mieux imputer un
ensemble minimal de champs pour un enregistrement. La structure Fellegi-Holt (Fellegi et Holt (1976))
est lune de ces mthodes didentification des champs qui ont besoin dimputation. Trois critres sont
appliqus pour dterminer quels champs ont besoin dimputation :
- il faut changer le moins dlments possibles des donnes (champs) dans chaque enregistrement pour
que chacun passe toutes les vrifications,
- il faut maintenir le plus possible la structure de la frquence du fichier des donnes,
- les rgles dimputation devraient dcouler des rgles de vrification correspondantes sans
spcification explicite.
Une caractristique importante de lapproche de la vrification de Fellegi-Holt est que les rgles de
vrification ne sont pas spcifiques une mthode dimputation en particulier. Il y a dabord, pour chaque
enregistrement rejet la vrification, une tape de localisation derreurs qui permet de dterminer
lensemble minimal de variables (champs) imputer, ainsi que ltendue acceptable (ou les tendues) des
valeurs imputer. Dans la majorit des applications de cette approche, un seul donneur est slectionn
dans les enregistrements qui ont pass la vrification, laide de lappariement, compte tenu dautres
variables comprises dans les vrifications, mais qui nexigent pas dimputation. La mthode comprend la
recherche dun seul appariement exact et elle peut tre largie pour tenir compte dautres variables qui ne
font pas explicitement partie des vrifications. Parfois, il peut ny avoir aucun donneur convenable et il
faut donc prvoir une mthode dimputation par dfaut.
Considrons deux rgles de vrification dune enqute quelconque, par exemple, une vrification tat
matrimonial ge pour identifier ceux qui sont maris et qui ont moins de 16 ans, et une vrification
degr de scolarit ge pour identifier ceux qui ont une scolarit universitaire et qui ont moins de
18 ans. Supposons quun enregistrement des donnes de lenqute est rejet ces deux vrifications : une
femme de dix ans est marie et a une scolarit universitaire. Ltat matrimonial et le degr de scolarit de
cette personne pourraient tre changs, ou simplement lge, pour passer les deux vrifications. La
structure Fellegi-Holt recommande de changer lge.

TRAITEMENT
STATISTIQUE CANADA
235
10.4.3 Questions dimputation par donneur
Il faut considrer les points suivants pour laborer un systme dimputation par donneur (c.--d.
imputation hot-deck, cold-deck ou par le plus proche voisin) :
i. Comment trouver un enregistrement donneur pour un destinataire?
Le but est de trouver un enregistrement donneur semblable au destinataire pour chaque destinataire. LA
cration des classes dimputation mrite une tude srieuse : il est important que les variables qui ont
besoin dimputation et celles utilises pour slectionner les donneurs soient troitement lies. Il est
important, pour les mthodes qui exigent ltablissement de classes dimputation, que celles-ci soient
assez larges pour que des donneurs ventuels soient disponibles en nombre suffisant, mais sans tre trop
larges parce que les enregistrements dun groupe de donneurs pourraient tre diffrents.
ii. Tous les champs dun enregistrement destinataire devraient-ils tre imputs partir dun seul
donneur?
Il est prfrable de le faire et dutiliser tous les champs dun enregistrement pour maintenir les
distributions conjointes entre les variables. Dans une enqute sur la population active, par exemple, si la
profession et le revenu personnel sont marqus pour imputation, il est videmment avantageux dimputer
ces deux variables laide du mme enregistrement donneur pour maintenir le lien entre le revenu et la
profession. Limputation laide dun seul donneur a un autre avantage : tant donn que le donneur doit
avoir pass avec succs toutes les vrifications, il peut servir imputer toutes les valeurs manquantes
(c.--d. que limputation est plus facile).
Limputation par donneur pose cependant un problme : si les variables dappariement utilises sont trop
nombreuses (p. ex., les variables utilises pour tablir des classes dimputation dans le cas des
imputations hot-deck et cold-deck), il est possible de ne trouver aucun donneur convenable. Autre
problme : les variables dappariement utilises pour imputer un champ ne conviennent pas
ncessairement un autre, en particulier si les variables qui ont besoin dimputation ne sont pas lies.
Considrons une enqute objectifs multiples sur la sant et supposons que la taille des personnes et le
nombre de cigarettes fumes chaque jour sont marqus pour imputation. Dans ce cas, un ensemble
diffrent de variables dappariement pourrait tre appropri pour chaque champ qui a besoin
dimputation.
Lorsque des procdures dimputation par donneur sont appliques, limputation est souvent rpartie en
plusieurs tapes et certains ensembles de champs sont imputs chaque tape. Plusieurs donneurs
peuvent donc tre engags pour complter un seul enregistrement dficient. Si cette situation pose un
problme, certains des principaux champs imputs peuvent servir tablir des classes dimputation aux
tapes ultrieures pour maintenir lintgrit interne.
iii. Un enregistrement donneur peut-il servir imputer plus dun destinataire?
Si limputation de plusieurs enregistrements destinataires est faite avec le mme donneur, les
rpercussions sur les estimations dfinitives de lenqute peuvent tre importantes. Limiter lutilisation
rpte dun enregistrement donneur une fin permet den largir lutilisation ailleurs et dviter la
surutilisation. Si le taux de rponse dans une classe dimputation en particulier est trs faible, limiter le
recours un donneur peut dboucher sur certains appariements mdiocres (c.--d. que lenregistrement
donneur peut tre trs peu semblable celui du destinataire) et il pourrait ny avoir aucun donneur pour
certains destinataires. Dautre part, la surutilisation dun donneur (surtout si le donneur a des
caractristiques uniques et sil est donc trs diffrent des autres dans la population) peut avoir des
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
236
rpercussions substantielles sur les estimations de lenqute. Si lutilisation dun enregistrement donneur
nest pas limite, il devrait y avoir une mthode didentification des enregistrements donneurs souvent
utiliss. Si certains de ces enregistrements ont des champs suspects ou aberrants, il peut tre ncessaire
dexaminer les processus de traitement pour dterminer si les rsultats dfinitifs de lenqute affichent
une distorsion due au processus dimputation.
iv. Y a-t-il une intervention ultrieure si aucun donneur convenable nest repr pour certains
destinataires?
Un enregistrement donneur peut ne pas tre trouv pour certains destinataires. Une procdure de rechange
est habituellement applique pour ces destinataires (p. ex., imputation hot-deck ou cold-deck hirarchique
ou imputation de la valeur moyenne).
v. Les donnes considres dans lenqute sont-elles qualitatives ou quantitatives?
Certaines mthodes dimputation sont plus appropries pour les variables qualitatives et dautres
conviennent mieux aux variables quantitatives. Les mthodes hot-deck ont t labores pour traiter les
donnes qualitatives et limputation selon le plus proche voisin est davantage appropri pour les donnes
quantitatives. Les deux mthodes sont maintenant utiles dans chaque situation, y compris pour les
problmes mixtes.


10.4.4 Estimation de la variance pour les donnes imputes
Toutes les mthodes dimputation prsentes donnent une seule valeur impute pour chaque valeur
manquante ou incohrente. Elles altrent, jusqu un certain point, la distribution originale des valeurs
pour une variable et peuvent donner des estimations de la variance inappropries lorsque des estimateurs
standard de variance sont utiliss. Le rsultat peut donner des intervalles de confiance trop troits et des
rejets dhypothse nulle errons. La porte de la distorsion varie considrablement selon lampleur de
limputation faite et la mthode applique.
Lorsque limputation est faite, sil ny a pas dautres erreurs non dues lchantillonnage, la variance
dune estimation a deux composantes : lune est due lchantillonnage (la variance dchantillonnage) et
lautre, limputation (la variance due limputation). La composante variance dchantillonnage est
habituellement sous-estime en prsence de donnes imputes parce que les formules traditionnelles sont
bases sur un taux de rponse de 100 %. Les mthodes dimputation stochastiques ajoutent une certaine
perturbation lensemble des donnes acheves, et cest un avantage. Si limputation stochastique est
utilise, la variance dchantillonnage dune estimation peut donc tre correctement estime la plupart du
temps laide des mthodes traditionnelles. La variance dimputation doit cependant tre estime quand
mme pour dterminer la variance totale de lestimation.
Il est important destimer les composantes chantillonnage et imputation de la variance totale, non
seulement pour formuler des infrences exactes, mais aussi pour dterminer limportance relative de la
variance dchantillonnage et de la variance dimputation. Cette mesure peut aider informer les
utilisateurs sur la qualit des donnes et aider attribuer des ressources denqute entre la taille de
lchantillon et les processus de vrification dimputation.
Proposition de Rubin (1987), limputation multiple est une mthode qui permet de considrer ce problme
si lon impute correctement plusieurs, disons m, fois chaque valeur ayant besoin dimputation (voir
Rubin (1987) ou Binder et Weimin (1996) pour obtenir une dfinition de limputation correcte ). Il est
possible dobtenir m estimations pour larticle partir de lensemble des donnes acheves. Une seule
TRAITEMENT
STATISTIQUE CANADA
237
estimation combine en est tire, ainsi quune estimation de la variance qui exprime lincertitude au sujet
de la valeur imputer. Limputation multiple exige cependant davantage de travail pour le traitement des
donnes, la sauvegarde et le calcul des estimations.
Les mthodes importantes destimation de la variance ont t largies pour englober des fichiers
contenant les donnes imputes dans le cas de limputation simple. Les approches sont dcrites dans
Srndal (1992), Rao et Shao (1992), Rao et Sitter (1995) et Gagnon et coll. (1996). Une comparaison des
mthodes est prsente dans Lee, Rancourt et Srndal (1994, 2001).


10.4.5 Lignes directrices propos de limputation
Limputation peut amliorer la qualit des donnes dfinitives, mais il faut choisir prudemment une
mthode dimputation approprie. Limputation est un risque parce quelle peut dtruire les donnes
dclares pour crer des enregistrements qui correspondent des modles prconus qui peuvent se
rvler ultrieurement inexacts. Lenqute, ses objectifs, linformation auxiliaire disponible et le genre
derreur dterminent l-propos de la mthode dimputation.
Voici certaines lignes directrices pour limputation :
i. Les enregistrements imputs devraient ressembler de prs lenregistrement rejet la
vrification. Cet objectif est habituellement atteint en imputant le nombre minimal de variables
pour sauvegarder le plus de donnes possible du rpondant. Lhypothse sous-jacente (qui nest
pas toujours vraie en pratique) est quun rpondant fera probablement une erreur ou deux au lieu
den faire plusieurs.
ii. Une bonne imputation comprend une piste de vrification aux fins de lvaluation. Les valeurs
imputes devraient tre indiques et les mthodes et les sources dimputation, clairement
identifies. Les valeurs imputes et non imputes des champs de lenregistrement devraient tre
retenues, afin dvaluer lampleur et les rpercussions de limputation.
iii. Les enregistrements imputs devraient passer toutes les vrifications.
iv. Les mthodes dimputation doivent tre choisies avec soin, compte tenu du genre de donnes
imputer.
v. La mthode dimputation devrait favoriser le plus possible la diminution du biais de non-rponse
et le maintien des liens entre les lments (c.--d. quil faut valuer si le modle sous-jacent
limputation est adquat).
vi. Le systme dimputation devrait tre conu, spcifi, programm et mis lessai davance.
vii. Le processus devrait tre automatis, objectif, reproductible et efficace.
viii. Le systme dimputation devrait tre en mesure de traiter toute caractristique des champs
manquants ou incohrents.
ix. Si une mthode dimputation par donneur est utilise, lenregistrement imput devrait ressembler
de prs aux donneurs slectionns. La combinaison des rponses imputes et non imputes pour
lenregistrement imput aura ainsi plus de chance de passer les vrifications et dtre plausible.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
238
10.4.6 valuation des procdures dimputation
La taille de lenqute et le budget dterminent la somme de travail accomplir pour mesurer les
rpercussions de limputation. Les utilisateurs des donnes de lenqute devraient cependant toujours
avoir certains renseignements lmentaires sur lampleur de la modlisation ou de lestimation par
imputation des donnes de lenqute. Lors de lvaluation de la procdure dimputation, les
proccupations les plus pertinentes sont le biais et la variance dimputation des estimations de lenqute.
Si le budget de lenqute est suffisamment lev, lune des options est de faire une tude complte des
rpercussions de limputation et dexaminer les estimations de lenqute avec et sans imputation. Les
carts importants devraient tre examins et essayer de dcouvrir un biais ventuel d limputation.
Si cette mesure est impossible, il faudrait au moins surveiller limputation pour informer les utilisateurs
de limportance de limputation et prciser o elle a t faite. Il peut tre utile, la fin de limputation, de
produire les rsultats suivants (certains sont spcifiques une mthode en particulier) :
- le nombre denregistrements imputs (c.--d. le nombre denregistrements destinataires),
- le nombre dimputations dans chaque champ et la mthode utilise,
- le nombre denregistrements qui peuvent servir de donneurs,
- le nombre denregistrements utiliss en fait comme donneurs et le nombre de destinataires ainsi
imputs,
- une liste (ou un fichier) numrant les donneurs utiliss pour chaque bnficiaire (pour reprer les
sources des enregistrements imputs inhabituels),
- une liste de tous les enregistrements rejets limputation (p. ex., parce quaucun donneur na t
dcouvert).
Remarquez que linformation ci-dessus est utile pour la refonte dune enqute ou la conduite dune
enqute semblable. Ces renseignements peuvent aider amliorer le systme de vrification et
dimputation, le questionnaire de lenqute et les procdures de collecte. Si la rponse une question a un
taux dimputation lev, par exemple, la question peut tre mal formule (et la qualit des donnes peut
tre mdiocre).


10.5 Identification et traitement des valeurs aberrantes
Lidentification des valeurs aberrantes peut tre considre comme un genre de vrification parce que les
enregistrements suspects sont identifis. Au Chapitre 7 - Estimation, on a dfini une valeur aberrante
comme une observation ou un sous-ensemble dobservations qui semble(nt) incohrente(s) par rapport
aux autres donnes de lensemble. Il faudrait aussi faire la distinction entre les observations extrmes et
influentes. Une observation est influente si la combinaison de la valeur dclare et la pondration
dfinitive de lenqute ont une grande influence sur lestimation. Une valeur extrme nest cependant pas
ncessairement influente, et vice versa.
Il est possible de faire la distinction entre des valeurs aberrantes unidimensionnelles ( une variable) et
multidimensionnelles ( plusieurs variables). Une observation est une valeur aberrante unidimensionnelle
si elle est aberrante par rapport une seule variable. Une observation est une valeur aberrante
multidimensionnelle si elle est aberrante par rapport deux variables ou plus. Il est peut-tre facile, par
exemple, de trouver une personne mesurant deux mtres ou une personne pesant 45 kg, mais quelquun
qui mesure deux mtres et pse seulement 45 kg est un exemple de valeur aberrante multidimensionnelle.
Chaque enqute comprend des valeurs aberrantes pour peu prs chaque variable dintrt. De
nombreuses raisons expliquent les valeurs aberrantes :
TRAITEMENT
STATISTIQUE CANADA
239
i. Il y a des erreurs dans les donnes (p. ex., erreurs de saisie des donnes).
ii. On peut considrer que les valeurs aberrantes sont tires dun autre modle ou dune autre
distribution. Vous pouvez penser, par exemple, que la majorit des donnes sont tires dune
distribution normale, mais que les valeurs aberrantes peuvent provenir dune distribution
exponentielle.
iii. La valeur aberrante peut tre due la variabilit inhrente des donnes. Une valeur peut sembler
suspecte, mais dcouler simplement de la variabilit inhrente de lensemble des donnes,
autrement dit, il peut sagir dune observation extrme, mais lgitime, de la distribution. La
situation est possible si la population est asymtrique et cest souvent le cas dans les enqutes-
entreprises. La rpartition des ventes selon la taille de lentreprise, par exemple, est typiquement
asymtrique, c.--d. que quelques trs grandes entreprises affichent souvent la majeure partie des
ventes dans lensemble.


10.5.1 Identification des valeurs aberrantes
Les mthodes de dtection des valeurs aberrantes les plus populaires sont les mthodes une variable
parce quelles sont plus simples que les mthodes plusieurs variables. Les valeurs aberrantes sont
habituellement dtectes en mesurant leur distance relative par rapport au centre des donnes. Si y
1
, y
2
, ,
y
n
sont les donnes de lchantillon observ, par exemple, et m et s sont des mesures de la tendance
centrale et de ltendue des donnes, respectivement, la distance relative, d
i
, de y
i
par rapport au centre
des donnes peut tre dtermin ainsi :
s
m y
d
i
i
| |
=
Si d
i
surpasse une valeur limite dtermine, lobservation est alors considre comme une valeur
aberrante.
Dautre part, un intervalle de tolrance peut tre attribu comme suit :
(m c
L
s, m + c
U
s)
o c
L
et c
U
sont les valeurs limites infrieure et suprieure prdtermines. Si la population est
asymtrique, des valeurs ingales de c
L
et de c
U
sont utilises. Les observations hors de cette intervalle
sont dclares valeurs aberrantes.
La moyenne et la variance de lchantillon sont les statistiques les plus souvent utilises pour estimer le
centre et ltalement des donnes. tant donn quelles sont sensibles aux valeurs aberrantes cependant,
elles sont un choix mdiocre pour la dtection de ces valeurs. La moyenne de lchantillon se dplace vers
les valeurs aberrantes, par exemple, si elles sont en grappes dun ct et les valeurs aberrantes augmentent
normment la variance de lchantillon. Les valeurs relatives de la distance de certaines valeurs
aberrantes peuvent donc sembler ngligeables et la procdure de dtection peut chouer. Ce problme est
intitul effet de dissimulation.
Voil pourquoi lune des mthodes les plus populaires de dtection des valeurs aberrantes est la mthode
par quartile qui utilise la mdiane pour estimer le centre et les tendues quartiles pour estimer ltalement
des donnes pondres parce que ces statistiques rsistent mieux (c.--d. quelles ne ragissent pas) aux
valeurs aberrantes. Les quartiles rpartissent les donnes en quatre parties : 25 % des donnes simples
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
240
sont infrieures au premier quartile, q
0,25
, 50 % des donnes simples sont infrieures au deuxime quartile
(ou la mdiane), q
0,5
, et 75 % des donnes simples sont infrieures au troisime quartile, q
0,75
. (La
mdiane et les tendues des quartiles sont considres davantage au Chapitre 11 - Analyse des donnes
de lenqute).
Les tendues des quartiles infrieur et suprieur, h
L
et h
U
, sont dfinies comme suit :
5 , 0 75 , 0
25 , 0 5 , 0
q q h
q q h
U
L
=
=

Lintervalle de tolrance devient donc :
) , (
5 , 0 5 , 0 U U L L
h c q h c q +
et certaines valeurs dtermines sont attribues c
L
et c
U
en examinant les donnes prcdentes ou selon
lexprience acquise. Toute observation hors de cet intervalle est considre comme une valeur aberrante.
Voir Barnett et Lewis (1995) pour obtenir davantage dinformation sur les mthodes de dtection des
valeurs aberrantes.


10.5.2 Traitement des valeurs aberrantes
Les valeurs aberrantes dtectes ltape de la vrification dans le processus de lenqute peuvent tre
traites de diffrentes faons. Dans le contexte dun systme de vrification manuel, les valeurs aberrantes
ventuelles sont examines, les rpondants relancs, et les donnes aberrantes sont modifies si elles se
rvlent en erreur. Dans un contexte automatis, les valeurs aberrantes sont souvent imputes. Dans les
cas o les donnes aberrantes nont pas dinfluence sur les rsultats finaux, il ny a pas ncessit de
traitement particulier.
Les valeurs aberrantes non traites la vrification peuvent tre considres lestimation. Ignorer
simplement les valeurs aberrantes non traites peut donner des estimations mdiocres et accrotre la
variance dchantillonnage des estimations. Attribuer une pondration de un une valeur aberrante (pour
diminuer ses rpercussions sur les estimations) peut biaiser les rsultats. Le but du traitement des valeurs
aberrantes est den diminuer les rpercussions sur la variance dchantillonnage de lestimation sans trop
biaiser les rsultats.
Les approches suivantes peuvent tre appliques pour traiter les valeurs aberrantes pendant lestimation :
- changer la valeur,
- changer la pondration,
- utiliser une estimation robuste.
i. Changement de valeur
La winsorisation est un exemple de traitement dune valeur extrme. La winsorisation est le recodage des
k valeurs les plus grandes.
Le lecteur se rappellera que, dans un chantillonnage alatoire simple (si le taux de rponse est de 100 %),
lestimateur habituel non biais du total de la population Y est obtenu ainsi :

=
=
n
i
i
y
n
N
Y
1


TRAITEMENT
STATISTIQUE CANADA
241
o i est la i
e
unit dun chantillon de taille n.
Supposons que y
i
, i=1,2, , n sont les valeurs ordonnes de y
i
dans un chantillon de taille n dune
population de taille N et que les k valeurs les plus grandes sont considres tre des valeurs aberrantes,
lestimateur unilatral windsoris dordre k est dfini en remplaant ces valeurs aberrantes par la n-k
e
plus
grande valeur, y
n-k
., c.--d. :
) (

1
k n
k n
i
i W
ky y
n
N
Y

=
+ =


On remarque que la winsorisation est plutt applique dans les situations une variable et rarement donc
dans les enqutes-chantillons plusieurs variables.
ii. Changement de pondration
La diminution des pondrations des valeurs aberrantes pour en amenuiser les rpercussions est une autre
option. Attribuer une valeur de zro ou de un la pondration dune valeur aberrante est un exemple.
Cette mesure est rarement applique cause de ses rpercussions marques sur les estimations, en
particulier pour les populations asymtriques. Elle peut donner un biais grave, habituellement une sous-
estimation. Si deux grandes entreprises affichent la majorit des ventes au dtail, par exemple, et si lune
des deux est identifie comme une valeur aberrante, le retrait de cette entreprise des estimations donnera
une sous-estimation importante du total des ventes au dtail. Plusieurs estimateurs ayant des pondrations
rduites pour les donnes aberrantes ont t proposs, voir Rao (1970), Hidiroglou et Srinath (1981).
iii. Estimateurs robustes
En thorie classique de lestimation, lestimateur dun paramtre de population est ax sur la supposition
dune certaine distribution. On suppose habituellement que la distribution dchantillonnage est normale
pour lestimateur (voir le Chapitre 7 - Estimation pour la dfinition de distribution dchantillonnage).
Les estimateurs habituels de la moyenne et de la variance de lchantillon sont optimaux en situation
normale. Ces estimateurs sont cependant extrmement sensibles aux valeurs aberrantes. Des estimateurs
robustes sont moins sensibles aux hypothses sur la distribution. La mdiane est plus robuste que la
moyenne, par exemple, les tendues interquartiles sont plus robustes que lestimateur habituel de la
variance. De nombreux estimateurs robustes complexes ont t proposs au cours des annes, y compris
les estimateurs M de Huber, Huber (1964).
Voir Kish (1965), Barnett et Lewis (1995), Rousseeuw et Leroy (1987), Lee et coll. (1992) ou Lee (1995)
pour obtenir davantage dinformation sur les estimateurs robustes et la dtection des valeurs aberrantes en
gnral. Voir le Chapitre 11 - Analyse des donnes de lenqute pour obtenir davantage dinformation
sur la moyenne comparativement la mdiane.


10.6 Production des rsultats cration dune base de donnes
Aprs le codage, la saisie des donnes, la vrification, limputation et la dtection des valeurs aberrantes,
les donnes sont relativement prtes pour lestimation, lanalyse et la diffusion. Avant de procder
cependant, il faut dterminer la mise en forme pour la sauvegarde des donnes. Une base de donnes et un
fichier non hirarchique sont les deux principaux choix. La disposition bidimensionnelle informatise des
enregistrements et de leurs valeurs correspondantes donne un fichier non hirarchique. Il est facile de le
tlcharger dune plateforme lautre et il peut tre consult laide dun logiciel tableur ou statistique.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
242
La majorit des logiciels statistiques doivent avoir des donnes sauvegardes en mise en forme spciale
pour faciliter le traitement rapide, et cest le principal inconvnient dun fichier non hirarchique. Avec
un tel fichier, cette mise en forme particulire est continuellement modifie, une inefficacit inutile. Si les
donnes sont sauvegardes sous forme de base de donnes, il est possible dutiliser certains logiciels
statistiques et de base de donnes sans ncessairement crer de nouveau le fichier. Les demandes peuvent
tre entres directement dans la base de donnes. Le choix de format de base de donnes peut cependant
restreindre le choix du logiciel statistique et dexploitation de base de donnes qui peuvent servir la
totalisation et lanalyse. Il vaut peut-tre mieux crer un fichier non hirarchique et plusieurs fichiers
diffrents avec les rsultats de lenqute dans la base de donnes.
Lorsque le format de sauvegarde des donnes a t slectionn, les poids finaux (pour lestimation) sont
calculs et les totalisations prvues sont faites (voir le Chapitre 7 - Estimation pour obtenir une
description de la mthode de calcul des poids finaux). Les programmes informatiques sont habituellement
rdigs pour calculer les pondrations et produire les totalisations. Vous pouvez aussi faire une analyse
des donnes plus perfectionne. Il faut examiner les donnes avant de les diffuser pour vrifier si elles
respectent les critres de confidentialit des rpondants. Ce processus intitul contrle de la divulgation
peut dboucher sur la suppression de certaines donnes de lenqute. Voir le Chapitre 12 - Diffusion des
donnes pour obtenir davantage dinformation sur lanalyse des donnes et le contrle de la divulgation.


10.7 Traitement manuel ou automatis
Le traitement de tous les volets, ou presque, dune enqute tait auparavant manuel. Les ordinateurs
permettent maintenant le traitement automatis des donnes.
Les avantages de lautomatisation du codage et de la saisie des donnes, de la lecture optique des
caractres, des mthodes de collecte des donnes assistes par ordinateur et du codage pralable du
questionnaire ont dj t considrs. Les arguments en faveur de lutilisation des ordinateurs pour la
collecte des donnes sappliquent aussi au traitement. Lexprience rvle quen gnral les ordinateurs
sont bien meilleurs que les personnes pour traiter un nombre lev de renseignements. Lautomatisation
peut amliorer la qualit des donnes tous les points de vue, et en particulier la rapidit : elle donne des
rsultats plus rapidement et exige moins de ressources. Elle garantit aussi que les procdures appliques
(p. ex., la vrification et limputation) sont uniformes et elle diminue les erreurs non dues
lchantillonnage. Elle permet aussi dappliquer des mthodes plus complexes (p. ex., pour la vrification,
limputation, le codage, le contrle qualitatif, etc.), de suivre le traitement et de faire rapport sur chacune
de ses tapes (p. ex., le nombre de vrifications et dimputations faites). Lautomatisation facilite aussi la
surveillance et le contrle qualitatif du traitement.
Lautomatisation a cependant certains inconvnients, par exemple :
- la formulation de spcifications pour chaque systme qui sera automatis et llaboration dun
programme informatique pour chaque procdure (p. ex., limputation) sont ncessaires et peuvent
demander beaucoup de temps,
- la formation des oprateurs qui utiliseront le logiciel est obligatoire,
- le codage, la vrification et limputation automatiss nenglobent pas les renseignements
supplmentaires de loprateur.
Il est sage dautomatiser les procdures le plus possible, malgr ces inconvnients. Linvestissement
supplmentaire en temps au dpart devient trs avantageux plus tard pendant le processus de lenqute
(surtout si lenqute est ritre). Il faudra au moins toujours saisir les donnes, et en faire la pondration
et lestimation, lordinateur. Lautomatisation permet luniformit qui est importante pour obtenir des
TRAITEMENT
STATISTIQUE CANADA
243
rsultats prcis et mesurables. Tirer avantage des systmes et processus existant, des systmes
automatiss de codage, etc., est aussi une bonne dcision.


10.8 Sommaire
Le traitement est une importante activit de lenqute qui convertit les rponses des questionnaires en une
mise en forme qui convient lanalyse des donnes et la totalisation. Le traitement cote cher, demande
beaucoup de temps et de ressources, et a des rpercussions sur la qualit dfinitive des donnes.
Lautomatisation peut en augmenter lefficacit et amliorer la qualit dfinitive des donnes.
Le traitement commence normalement par une puration prliminaire du questionnaire, suivie du codage
et de la saisie des donnes. Ltape suivante est habituellement une vrification plus dtaille pour
identifier les donnes manquantes ou incohrentes, et ensuite, limputation est faite pour intgrer des
substituts plausibles ces valeurs. La dtection des valeurs aberrantes est aussi utile pour identifier les
valeurs suspectes. Lorsque les donnes sont compltes, convergentes et valides, elles sont habituellement
sauvegardes dans une base de donnes.
Bibliographie
Bankier, M., M. Lachance et P. Poirier. 1999. A Generic Implementation of the Nearest neighbour
imputation method. Proceedings of the Survey Research Methods Section. American Statistical
Association. 548-553.
Barnett, V. et T. Lewis. 1995. Outliers in Statistical Data. John Wiley and Sons, Chichester.
Binder, D. et S. Weimin. 1996. Frequency Valid Multiple Imputation for Surveys with a Complex
Design. Proceedings for the Section on Survey Research Methods of the American Statistical
Association, 1: 281-286.
Boucher, L, J.-P. S. Simard et J.-F. Gosselin. 1993. Macro-Editing, a Case Study: Selective Editing for
the Annual Survey of Manufacturers Conducted by Statistics Canada, Proceedings of the
International Conference on Establishment Surveys. American Statistical Association. Virginia.
Brick, J.M. et G. Kalton. 1996. Handling Missing Data in Survey Research. Statistical Mathematics in
Medical Research, 5: 215-238.
Chambers, R.L. 1986. Outlier Robust Finite Population Estimation. Journal of the American Statistical
Association, 81: 1063-1069.
Cox, B.G., D. A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.
Dielman, L. et M.P. Couper. 1995. Data Quality in a CAPI Survey: Keying Errors. Journal of Official
Statistics, 11(2): 141-146.
Dolson, D. 1999. Imputation Methods. Statistics Canada.
Fay, R.E. 1996. Alternative Paradigms for the Analysis of Imputed Survey Data. Journal of the American
Statistical Association, 91: 490-498.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
244
Fellegi, I.P. et D. Holt. 1976. A Systematic Approach to Automatic Edit and Imputation. Journal of the
American Statistical Association, 71: 17-35.
Gagnon, F., H. Lee, E. Rancourt and C.E. Srndal. 1996. Estimating the Variance of the Generalized
Regression Estimation in the Presence of Imputation for the Generalized Estimation System.
Proceedings of the Survey Methods Section. Statistical Society of Canada. 151-156.
Granquist, L. 1984. On the Role of Editing. Statistisk tidskrift, 2: 105-118.
Granquist, L. et J. Kovar. 1997. Editing of Survey Data: How Much is Enough? In Lyberg, L., et al., eds.
1997. Survey Measurement and Process Quality. John Wiley and Sons, New York. 415-436.
Hidiroglou, M.A. 1999. Notes de cours Methods for Designing Business Survey.
Hidiroglou, M.A. 1999. Notes de cours Methods for Designing Business Survey. Commandit par l'AISE,
52 session de l'IIS, Universit de Jyvaskyl, Finlande.
Hidiroglou, M.A. et J.-M. Berthelot. 1986. Contrle statistique et imputation dans les enqutes-entreprises
priodiques, Techniques denqute, 12(1): 79-89.
Hidiroglou, M.A. et K.P. Srinath. 1981. Some Estimators of a Population Total Containing Large Units.
Journal of the American Statistical Association, 78: 690-695.
Huber, P.J. 1964. Robust Estimation of a Location Parameter. Annals of Mathematical Statistics, 35: 73-
101.
Kalton, G. et D. Kasprzyk. 1982. Imputation for Missing Survey Responses. Proceedings of the Section
on Survey Research Methods. American Statistical Association. 23-31.
Kalton, G. et D. Kasprzyk, D. 1986. Le traitement des donnes denqute manquantes. Techniques
denqute. 12(1): 1-18.
Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.
Kovar, J.G., J. MacMillan et P. Whitridge. 1988. Systme gnralis de vrification et dimputation
Aperu et stratgie (Mis jour en fvrier 1991). Statistique Canada. BSMD-88-007 E/F.
Latouche, M. et J.-M. Berthelot. 1992. Use of a Score Function to Prioritize and Limit Recontacts in
Editing Business Surveys. Journal of Official Statistics, 8(3): 389-400.
Lee, H., E. Rancourt et C.E. Srndal. 1994. Experiments with Variance Estimation from Survey Data with
Imputed Values. Journal of Official Statistics, 10(3): 231-243.
Lee, H., E. Rancourt et C.E. Srndal. 2001. Variance Estimation from Survey Data under Single Value
Imputation. Survey Nonresponse. John Wiley and Sons, New York.
Lee, H. 1995. Outliers in Business Surveys. Dans Business Survey Methods. Cox, B.G., D. A. Binder,
B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. John Wiley and Sons. New
York. 503-526.
Lyberg, L. et P. Dean. 1992 Automated Coding of Survey Responses: An International Review. Presented
at the Conference of European Statisticians. Washington, D.C.
TRAITEMENT
STATISTIQUE CANADA
245
Moser, C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.
Raj, D. 1972. The Design of Sample Surveys. McGraw-Hill Series in Probability and Statistics, New
York.
Rancourt, E., H. Lee et C.E. Srndal 1993. Variance Estimation Under More than One Imputation
Method. Proceedings of the International Conference on Establishment Surveys, American
Statistical Association, 374-379.
Rao, C.R. 1970. Estimation of Heteroscedastic Variances in Linear Models. Journal of the American
Statistical Association, 65: 161-172.
Rao, J.N.K. et J. Shao. 1992. Jackknife Variance Estimation with Survey Data under Hot-deck
Imputation. Biometrika, 79: 811-822.
Rao, J.N.K. et R.R. Sitter. 1995. Variance Estimation under Two-Phase Sampling with Application to
Imputation for Missing Data. Biometrika, 82: 453-460.
Rao, J.N.K. 1996. On Variance Estimation with Imputed Survey Data. Journal of the American Statistical
Association, 91: 499-506.
Rousseeuw, P.J. et A.M. Leroy. 1987. Robust Regression and Outlier Detection. John Wiley and Sons,
New York.
Rubin, D.B. 1987. Multiple Imputation for Nonresponse in Surveys. John Wiley and Sons, New York.
Rubin, D.B. 1996. Multiple Imputation after 18+ Years. Journal of the American Statistical Association,
91: 473-489.
Sande, I.G. 1979. A Personal View of Hot-deck Imputation Procedures. Survey Methodology, 5(2): 238-
258.
Sande, I.G. 1982. Imputation in Surveys: Coping with Reality. The American Statistician, 36(3). Part 1:
145-152.

Srndal, C.E. 1992. Mthodes pour estimer la prcision des estimations dune enqute ayant fait lobjet
dune imputation. Techniques denqute, 18(2): 257-268.
Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer Verlag, New
York.
Shao, J. et R.R. Sitter. 1996. Bootstrap for Imputed Survey Data. Journal of the American Statistical
Association, 94: 254-265.
Statistique Canada. 1990. Notes de cours, Cours de base sur les enqutes.
Statistique Canada. 1998. Lignes directrices concernant la qualit. 12-539-XIF.
Statistique Canada. 1998. Notes de cours STC416 Les Enqutes de A Z.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
246
Wenzowski, M.J. 1988. Advances in Automated Coding and Computer-Assisted Coding Software at
Statistics Canada. Proceedings of the 1996 Annual Research of the U.S. Census Bureau.
Yung, W. et J.N.K. Rao. 2000. Jackknife Variance Estimation under Imputation for Estimators using
Poststratification Information. Journal of the American Statistical Association, 95: 903-915.

STATISTIQUE CANADA
247
Chapitre 11 - Analyse des donnes de lenqute

11.0 Introduction

Lanalyse des donnes comprend le rsum des donnes et linterprtation de leur signification pour
donner des rponses claires aux questions qui ont motiv lenqute. Il faut souvent interprter des
tableaux et diverses mesures de rcapitulation, par exemple, des distributions de frquences, des
moyennes et des tendues de valeurs, ou des analyses plus approfondies peuvent tre faites. Lanalyste
voudra peut-tre dcrire seulement les units observes et, dans ce cas, tous les outils de la statistique
lmentaire et intermdiaire sont disponibles (tableaux, diagrammes et graphiques, mesures lmentaires
de la position et de dispersion, modlisation de base, modles de classification, etc.). Lanalyste voudra
plus souvent dcrire la population et vrifier les hypothses formules ce sujet, et il faudra correctement
tenir compte du plan dchantillonnage pendant lanalyse.

Lobjectif de ce chapitre est de considrer lanalyse des statistiques sommaires (distributions des
frquences, mesures de la tendance centrale et mesures de ltalement), de prsenter des mthodes plus
analytiques qui comprennent lanalyse par infrence pour les chantillons probabilistes et de dterminer
comment ces mesures sappliquent des plans dchantillonnage simples ou complexes.

Le chapitre commence avec lanalyse de donnes denqute simples, sans stratification, grappes,
ajustements aux poids, etc. Lanalyse des donnes denqute plus complexes devient rapidement
complique et il vaut mieux consulter un spcialiste. La matire plus approfondie dans ce chapitre exige
des cours de premier cycle en statistique pour bien comprendre et elle commence la Section 11.3.2.2.1.


11.1 Paramtres, estimations, erreur dchantillonnage

Tout dabord, rappelons certaines dfinitions prsentes au Chapitre 6 - Plans dchantillonnage. Un
paramtre est une caractristique de la population que le client ou lutilisateur des donnes est
intress estimer, par exemple, la moyenne de la population, Y . Un estimateur est une formule de
calcul de lestimation du paramtre et lestimation est la valeur de lestimateur dtermine laide des
donnes de lchantillon ralis. Les estimations calcules partir dchantillons diffrents sont
diffrentes lune de lautre. La distribution dchantillonnage dun estimateur est la distribution de
toutes les valeurs diffrentes que lestimateur peut avoir pour tous les chantillons possibles du mme
plan dchantillonnage. Lestimateur et le plan dchantillonnage dterminent cette distribution. Un
estimateur non biais ou approximativement non biais et la distribution de lchantillonnage concentre
le plus prs possible de la moyenne (c.--d. que lerreur dchantillonnage est petit) sont deux
caractristiques souhaitables. Dans le cas des chantillons probabilistes, cette erreur peut tre mesure,
habituellement en estimant la variance dchantillonnage, lerreur-type, le coefficient de variation ou la
marge derreur.


11.2 Genres de donnes

Une enqute permet la collecte dun ventail de caractristiques ou variables. Nous avons mentionn au
Chapitre 7 - Estimation quune enqute unique peut comprendre des variables qualitatives et
quantitatives. Les variables qualitatives sont codes (nominales) et les variables quantitatives indiquent un
nombre. Dautres dcompositions sont possibles : les variables qualitatives peuvent tre nominales ou
ordinales et les variables quantitatives peuvent tre discrtes ou continues.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
248
i. Variables nominales

Une variable nominale est une srie de catgories qui sont simplement des tiquettes ou des noms sans
lien mathmatique entre eux. On ne peut affirmer quune catgorie en particulier est plus grande quune
autre, gale ou infrieure une autre, par exemple, si le genre de sport est la variable nominale,
cricket < soccer na aucun sens.

ii. Variables ordinales

Une variable ordinale est une srie de catgories ordonnes ou classes selon une chelle ou un
continuum dtermin, et une catgorie en particulier peut prcder ou suivre une autre. Les diffrences
entre les catgories ne sont pas ncessairement quivalentes. Des nombres peuvent tre attribus aux
variables ordinales, mais uniquement pour ordonner les matires, et les additionner ou faire dautres
oprations arithmtiques est inappropri. Voici un exemple de donnes ordinales : vraiment daccord,
daccord, ni pour ni contre, pas daccord, vraiment pas daccord. Dautres exemples : la collecte de lge
laide dune question ferme, par exemple, moins de 15 ans, de 15 ans 34 ans, , 75 ans ou plus, ou
la tension artrielle qualifie de basse, normale, leve.

iii. Variables discrtes

Une variable discrte est une variable quantitative ayant des valeurs dnombrables. Voici un exemple
de ce genre de variables : une variable dont les valeurs possibles sont entires et il ne peut y avoir de
valeur intermdiaire entre deux valeurs entires. La taille dun mnage peut tre, par exemple, 1, 2, 3, et
des valeurs comme 1,5 ou 4,75 sont impossibles. Il nest cependant pas ncessaire que les variables
discrtes soient entires : un autre exemple de variable discrte est la taille des souliers qui peut tre 6,
6
1
/
2
, 7, 7
1
/
2
, etc., mais 6
3
/
4
est impossible.

iv. Variables continues

Une variable continue est une variable quantitative dont toute valeur dans une certaine tendue est
possible (contrairement une variable discrte dont certaines valeurs en particulier seulement sont
possibles). La taille et le poids sont donc des variables continues, mais le nombre de buts dune quipe de
hockey est une variable discrte. Il est possible pour une personne davoir nimporte quelle taille, jusqu
un certain point, par exemple, 1,68 mtre, mais une quipe de hockey ne peut compter 2,3 buts parce que
le nombre de but est discret et entier. Remarquez que les variables continues peuvent tre transformes en
variables nominales, par exemple, les mesures de la tension artrielle peuvent tre qualifies de basse,
normale ou leve.

Le type de donnes dtermine le genre de procdures analytiques qui peuvent tre appliques et la
question est explique aux sections suivantes.


11.3 Mesures de rcapitulation

Dans Analysis of Complex Surveys (Analyse denqutes complexes) (1989), Skinner, Holt et Smith
affirment que les donnes dune enqute-chantillon peuvent servir des fins descriptives ou analytiques.
Les utilisations descriptives ciblent lestimation des mesures rcapitulatives de la population, par exemple
les moyennes et les frquences, mais les utilisations analytiques surpassent les mesures rcapitulatives et
donnent une explication des processus sous-jacents aux mesures descriptives.


ANALYSE DES DONNES DE LENQUTE

STATISTIQUE CANADA
249
Cette section prsente les mesures rcapitulatives suivantes :
- distributions de frquences (en tableau ou graphique),
- mesures de tendance centrale (c.--d. moyenne, mdiane ou mode),
- mesures de ltalement de la distribution (p. ex., variance, tendue).

Il est important de bien tenir compte du plan dchantillonnage pendant lanalyse de la population. Ce
chapitre prsente dabord le cas de donnes simples la Section 11.3.1 et les lignes directrices pour
afficher les rsultats de lenqute en graphique. Les mesures de position et dtalement pour les donnes
plus complexes sont ensuite exposes la Section 11.3.2.


11.3.1 Donnes denqute simple

Les statistiques sommaires pour les donnes denqute simple (p. ex., le recensement, lchantillon
alatoire simple (EAS), ou lchantillon systmatique (SYS), sans ajustements de pondration) sont
considres dans les cours de premier cycle en statistique et prsentes brivement dans ce chapitre. Le
lecteur intress peut consulter de nombreux ouvrages pour obtenir davantage dinformation (p. ex., Lohr
(1999), Cochran (1977)).


11.3.1.1 Estimation et prsentation des distributions de frquences

La distribution de frquences est la reprsentation le plus simple dune variable. Les distributions de
frquences dune variable qualitative donnent la frquence de chaque catgorie, le nombre dobservations
dans chaque catgorie, et les rsultats peuvent tre prsents en tableau ou en graphique (p. ex., un
graphique barres). Les distributions de frquences pour les variables quantitatives sont habituellement
prsentes en graphiques parce quun tableau des frquences de chaque valeur de la variable pourrait tre
peu pratique.

Nous avons prsent au Chapitre 7 - Estimation les estimateurs utilisant les pondrations
dchantillonnage qui sappliquent aux donnes simples et complexes. Des estimateurs de domaines sont
utiliss pour estimer les frquences et le domaine est une catgorie (pour une donne qualitative) ou une
valeur (pour une donne quantitative).

Par exemple, lestimateur habituel pour la taille de la population dans un domaine dintrt pour les
donnes qualitatives scrit :


=
domaine S i
i domaine
r
w N



o w
i
est le poids final ajust du i
e
rpondant et S
r
est lensemble des rpondants. Lestimateur habituel du
total dun domaine pour les donnes quantitatives scrit :


=
domaine S i
i i domaine
r
y w Y

.

Illustrons lestimation des distributions de frquences pour une enqute-chantillon : considrez un EAS
de 100 employs slectionns dans une population de 1 000 hommes. Lune des variables de lenqute est
la variable nominale genre de travail qui comprend deux catgories : travailleurs manuels et travailleurs
de bureau. Une autre variable de lenqute est la variable continue tension artrielle systolique quune
infirmire diplme a mesure directement et inscrite en millimtres de mercure (mm Hg). Aprs
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
250
lenqute, les lectures de tension artrielle sont aussi catgorises en trois groupes : basse, moyenne ou
leve.

Voici la distribution des frquences pondres de la variable qualitative genre de travailleurs en tableau :

Tableau 1 : Nombre dhommes estim par genre de travailleurs

Genre de travailleurs Nombre dhommes estims
N


Manuel 550
Bureau 450
Total 1 000
Source : Enqute fictive auprs des travailleurs, Canada, 2002.

(Remarque : chaque estimation dans ces tableaux devrait comprendre une estimation de lerreur
dchantillonnage.)

La distribution des frquences pondres de la variable qualitative tension artrielle est prsente dans le
tableau suivant:

Tableau 2 : Nombre dhommes estim par tension artrielle

Tension artrielle Nombre dhommes estims
N


Basse 320
Normale 630
leve 50
Total 1 000
Source : Enqute fictive auprs des travailleurs, Canada, 2002.

Les distributions conjointes sont utiles pour identifier les combinaisons inhabituelles. La distribution
conjointe pondre du genre de travailleurs et de la tension artrielle ci-dessous nindique aucune
incidence de tension artrielle leve chez les travailleurs manuels (pour la population vise par
lenqute) :

Tableau 3 : Nombre dhommes estim par genre de travailleurs et tension artrielle

Tension artrielle Genre de
travailleurs Basse Normale leve
Nombre dhommes estim
N


Manuel 240 310 0 550
Bureau 80 320 50 450
Total 320 630 50 1000
Source : Enqute fictive auprs des travailleurs, Canada, 2002.

(Les tableaux des distributions conjointes sont souvent analyss avant la diffusion des donnes dans le
public pour se garantir de la divulgation des donnes confidentielles, c.--d. que les tableaux qui rvlent
des particuliers sont supprims. Le Chapitre 12 - Diffusion des donnes donne davantage dinformation
sur les mthodes de contrle de la divulgation.)

ANALYSE DES DONNES DE LENQUTE

STATISTIQUE CANADA
251
Les distributions de frquences peuvent aussi tre reprsentes laide de graphiques ou de diagrammes.
Lanalyse des donnes devrait en fait commencer par une analyse visuelle des donnes. Laffichage
graphique est important pour de nombreuses raisons, notamment :
- les reprsentations graphiques des donnes sont suprieures aux reprsentations simplement
numriques pour dcouvrir la structure caractristique de la distribution,
- la forme de la distribution est au moins aussi importante que ltalement et le centre de la distribution,
- la forme de la distribution devrait dterminer le choix du paramtre (p. ex., moyenne, mdiane ou
mode) pour dcrire les donnes dune seule variable.

Les graphiques et diagrammes suivants pourraient tre ajouts un rapport sur les rsultats de lenqute :
- diagramme secteurs,
- diagramme colonnes,
- graphique barres,
- graphique linaire,
- diagramme bote et moustaches.

Ceux-ci sont examins la section suivante.


11.3.1.1.1 Diagrammes et schmas

Le genre de diagramme utiliser est dtermin par les donnes quil faut reprsenter et par le message
quon veut souligner : ordre de grandeur, taille ou tendance.

i. Diagrammes secteurs

Un diagramme secteurs est un cercle divis en pointes comme une tarte pour afficher le pourcentage de
la population dans diffrentes catgories dune variable qualitative. Un diagramme est utile si la
population doit tre rpartie en groupes distincts (p. ex., la langue maternelle est le franais ou langlais)
et, de prfrence, seules quelques units sont entres dans la catgorie autre ou sans objet. Les
diagrammes secteurs sont utiliss pour rpondre des questions sur les proportions relatives de
composantes mutuellement exclusives.

Lorsque lon trace un diagramme secteurs, il faudrait rpartir les secteurs (pointes de tarte) selon la
taille, la pointe la plus large 12 h, et ainsi de suite dans le sens des aiguilles dune montre, les pointes
diminuant graduellement. Le nombre de secteurs devrait tre limit cinq ou six en gnral. Sil y a de
nombreux petits secteurs, il vaudrait peut-tre mieux les regrouper. Les tiquettes devraient tre
lextrieur des pointes et il faut viter les flches et les lgendes. Un bon exemple de diagramme
secteurs affichant les dpenses des mnages est illustr ci-dessous.

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
252
Rpartition des dpenses des mnages
autre
19 %
impts
21 %
logement et
mnage
23 %
transports
15 %
aliments
14 %
articles
personnels et
vtements
8 %
Source : Enqute fictive sur les revenus et dpenses des mnages, Canada, 2002

Le trac tridimensionnel des diagrammes secteurs (voir ci-dessous) peut semer la confusion parce quil
dforme les secteurs et il vaut mieux lviter.

Rpartition des dpenses des mnages
aliments
14 %
autre
19 %
impts
21 %
transports
15 %
logement
et mnage
23 %
articles personnels
et vtements
8 %
Source : Enqute ficti ve sur l es revenus et dpenses des mnages, Canada,


ii. Diagrammes colonnes

Un diagramme colonnes comprend une srie de colonnes dont les hauteurs reprsentent les ordres de
grandeur (p. ex., totaux, moyennes ou proportions). Le diagramme colonnes peut tre utilis pour les
variables qualitatives ou quantitatives. Le diagramme colonnes devrait tre utilis pour quelques points
seulement et les colonnes devraient avoir la mme largeur.

La distribution des tensions artrielles systoliques (une variable quantitative), par exemple, pourrait tre
estime dans la population laide des donnes denqute dun chantillon pondr et elle est prsente
dans le diagramme colonnes suivant :

ANALYSE DES DONNES DE LENQUTE

STATISTIQUE CANADA
253
Rpartition de la tension artrielle systolique, Canada, 2002
0
20
40
60
80
100
120
140
160
140,3 140,5 140,7 140,9 141,1 141,3 141,5 141,7 141,9 142,1 142,3
Tension artrielle systolique (mm Hg)
P
o
p
u
l
a
t
i
o
n

e
s
t
i
m

e
Source : Enqute fictive auprs des travailleurs (hommes), Canada, 2002.

Le diagramme colonnes comprend un certain nombre de variations. Un diagramme colonnes
regroupes a plusieurs variables regroupes en barres cte cte. Il ne devrait pas y avoir plus de trois
barres dans un groupe. Lanalyste voudra peut-tre comparer, par exemple, le revenu total, les ventes
totales et le revenu net au cours dune certaine priode. Voici un exemple dun diagramme colonnes
regroupes dont les colonnes cte cte reprsentent les annes conscutives et chaque groupe de
colonnes, le nombre de passagers qui visitent une rgion donne par ville dorigine des passagers.

Rpartition des lieux d'origine des passagers
-
200
400
600
800
1 000
1 200
1 400
Calgary Ottawa Toronto Montral
Ville d'origine
N
o
m
b
r
e

e
s
t
i
m


(
e
n

m
i
l
l
i
e
r
s
)
1994
1995
Source : Enqute fictive sur le tourisme du rgime intrieur, Canada, 1995,1996.

Un diagramme colonnes proportionnelles (ou colonnes empiles) donne la proportion de la
population dans chaque catgorie dune variable qualitative et chaque colonne reprsente un domaine
diffrent. Les colonnes ont toutes la mme hauteur et la proportion ayant le plus dintrt devrait tre la
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
254
plus proche de la ligne de base pour faciliter la comparaison. La variable compare entre diffrents
domaines ne devrait pas avoir plus de trois catgories parce que le diagramme colonnes empiles sera
presque illisible sil y en a trop. Voil pourquoi, dans lexemple suivant, les cinq catgories (trs satisfait,
satisfait, ni lun ni lautre, insatisfait et trs insatisfait) de la variable satisfaction ont t ramenes trois
(satisfait, ni lun ni lautre et insatisfait) et compares pour cinq domaines dintrt (heures, personnel,
livraison, garantie, service) :

Satisfaction de la clientle par raison de satisfaction
0%
25%
50%
75%
100%
heures personnel livraison garantie service
insatisfait
ni l'un ni l'autre
satisfait
Source : Sondage fictif sur la satisfaction de la clientle, endroit, anne.

Les diagrammes colonnes sont gnralement utiliss pour des valeurs positives seulement (p. ex.,
dnombrement de la population, proportions, etc.). Un graphique tuyaux dorgue plus-moins affiche
cependant des valeurs positives et ngatives au cours dune certaine priode. Une valeur ngative pointe
simplement vers le bas sous la ligne de base au lieu de pointer vers le haut.


iii. Graphiques barres

Un graphique barres est un graphique colonnes horizontales. Lorsque lon trace un graphique
barres, les barres devraient tre disposes par ordre de longueur (de la plus longue la plus courte, ou
vice versa).

Si des valeurs exactes sont inscrites, le graphique devrait tre annot (c.--d. que la valeur exacte devrait
tre inscrite la fin de chaque barre). Si ces vedettes de la colonne de titres sont longues, un graphique
barres peut tre plus facile lire et paratre moins encombr quun diagramme colonnes. Il y a de
nombreuses variations sur le graphique barres lmentaire qui correspondent diffrents types de
diagrammes colonnes (p. ex., colonnes empiles, groupes, etc.).










ANALYSE DES DONNES DE LENQUTE

STATISTIQUE CANADA
255
Voici un exemple de graphique barres groupes :

Rpartition des lieux d'origine des passagers
- 200 400 600 800 1 000 1 200
Calgary
Ottawa
Toronto
Montral
Ville d'origine
Nombre estim (en milliers)
1995
1994
Source : Enqute fictive sur le tourisme du march intrieur, Canada 1995, 1996.


iv. Graphiques linaires

Un graphique linaire affiche une variation dans lordre de grandeur dune variable au cours dune
certaine priode (p. ex., totaux, moyennes ou proportions dans le temps). Le temps (la variable
explicative) est plac sur laxe horizontal. Ltendue des valeurs de la variable dintrt est place sur
laxe vertical. Un point (c.--d. une mesure de lordre de grandeur) est trac pour cette variable pour
chaque unit de temps et les points sont lis en squence. Les lignes sont droites dun point lautre ou
elles peuvent tre des courbes peu prononces. Voici des exemples de graphiques linaires :

Rpartition des tensions artrielles
systoliques, Canada, 2002
0
20
40
60
80
100
120
140
160
140,3 140,6 140,9 141,2 141,5 141,8 142,1 142,4
Tension artrielle systolique (mm Hg)
P
o
p
u
l
a
t
i
o
n

e
s
t
i
m

e

Source : Enqute fictive auprs des travailleurs
(hommes), Canada, 2002.
Indice des prix la consommation:
tous les articles et les transports
privs
80
90
100
110
120
130
140
150
160
170
1986 1988 1990 1992 1994 1996
Tous les
articles
Transport priv


Les graphiques linaires devraient servir dmontrer les tendances ou le mouvement. Le graphique
linaire est prfrable au diagramme colonnes pour les sries de temps ayant un grand nombre de points.
Le graphique linaire est le meilleur moyen de mettre en vidence les diffrences ou les ressemblances
entre des groupes pour comparer plusieurs sries de donnes. Si les donnes rvlent des tendances
videntes, le graphique linaire donne lutilisateur une certaine capacit prdictive. Les tendances
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
256
constantes la hausse ou la baisse, ou la priodicit vidente, permettent lobservateur dinterpoler ou
dextrapoler des donnes.

Il vaut mieux ne pas comparer de trop nombreuses sries simultanment pour viter la confusion. Voici
un exemple de graphique linaire mdiocre :
Avortements thrapeutiques par tranche de 10 000 femmes en ge de
procrer, Canada et provinces, 1981, 1993
0
5
10
15
20
25
1
9
8
1
1
9
8
2
1
9
8
3
1
9
8
4
1
9
8
5
1
9
8
6
1
9
8
7
1
9
8
8
1
9
8
9
1
9
9
0
1
9
9
1
1
9
9
2
1
9
9
3
Terre-Neuve
.-P.-.
Qubec
Canada
Ontario
Manitoba
Saskatchewan
Alberta
Colombie-
Britannique
Nouvelle-cosse
Nouveau-
Brunswick


v. Diagrammes bote et moustaches

Les statistiques sommaires peuvent aussi tre prsentes en un seul graphique rcapitulatif : le diagramme
bote et moustaches. Celui-ci est utilis pour tudier la distribution et ltalement des donnes. La bote
elle-mme se prolonge partir du premier quartile (c.--d. le 25
e
centile) jusquau troisime quartile
(c.--d. le 75
e
centile) et une ligne est trace la mdiane (c.--d. le 50
e
centile). Les extrmits ou
pointes des lignes lies la bote reprsentent les valeurs minimales et maximales. Certaines trousses
statistiques affichent aussi la moyenne et lerreur-type de la moyenne (sil sagit dun EAS) dans le trac
en bote, mais ni lune ni lautre nest affiche ici.

Distribution des prix de vente des maisons, juin 2002
(Prix en milliers de dollars)
400
300
200
100
0
Md.
1
er
Q
3
e
Q
10
e
Ct
90
e
Ct
tendue
interquartile

Source : Enqute fictive sur les maisons vendues en juin 2002.
ANALYSE DES DONNES DE LENQUTE

STATISTIQUE CANADA
257
Les dfinitions de la mdiane, du premier quartile, du troisime quartile, du 10
e
et du 90
e
centile sont
donnes lexemple 11.1 dans la section suivante pour les donnes simples et aux Sections 11.3.2.1 et
11.3.2.2 pour les donnes complexes. On trouvera davantage dinformation sur les diagrammes bote et
moustaches dans Tukey (1977).


11.3.1.2 Position : moyenne, mdiane et mode

Il y a trois mesures communes de la position : la moyenne, la mdiane et le mode. Dans les analyses
statistiques, la moyenne est de loin la plus souvent utilise pour les donnes quantitatives. La moyenne de
la population pour un recensement est simplement la moyenne arithmtique pour les donnes
quantitatives : la somme de toutes les valeurs dune variable divise par le nombre de valeurs. Voici
lestimateur habituel pour estimer la moyenne de la population laide dun chantillon alatoire simple
dont le taux de rponse atteint 100 % :
r
S i
i
n
y
Y
r



o y
i
est la valeur dclare pour la i
e
unit rpondante et n est la taille de lchantillon.

La moyenne a plusieurs avantages comparativement aux autres mesures de la position. Premirement, elle
est facile calculer et comprendre. Elle a la caractristique souhaitable dtre un estimateur non biais
de la moyenne de la population pour de nombreux plans dchantillonnage probabiliste et de grands
chantillons en gnral. La moyenne a cependant plusieurs inconvnients. Lorsque vous considrez des
valeurs entires, notamment le nombre denfants par mnage, la moyenne peut tre une faction. Le
nombre moyen denfants par mnage, par exemple, peut tre 1,8. La moyenne ne peut servir de mesure de
position pour les variables qualitatives. De plus, les valeurs extrmes peuvent avoir une grande influence
sur la moyenne (elle se dplace vers les valeurs extrmes). Dans une enqute sur les revenus par exemple,
si quelques membres de la population ont des revenus extrmement levs, ceux-ci gonfleront la moyenne
de la population. Si lutilisateur veut une estimation de la valeur centrale, il prfrera peut-tre une
mesure de position moins sensible aux distributions asymtriques ou aux valeurs extrmes.

La mdiane est une autre mesure de la position. La mdiane est la valeur du milieu dune srie de
donnes disposes en ordre numrique ( partir de la plus petite jusqu la plus grande ou de la plus
grande jusqu la plus petite). Si les donnes ont un nombre pair de points, la mdiane est la moyenne
des deux valeurs du milieu. La mdiane peut servir pour les donnes quantitatives et numriques
ordinales, et elle est la meilleure mesure de la tendance centrale dune variable ordinale.

Les valeurs extrmes ont moins de rpercussions sur la mdiane que sur la moyenne et cest son principal
avantage. Dans une enqute sur les revenus, par exemple, les revenus trs levs ont moins dincidence
sur la mdiane. Celle-ci serait en fait inchange mme si le revenu le plus lev tait en millions ou en
milliards. Dans le cas des donnes denqute dun chantillon, le principal inconvnient de la mdiane est
quil est habituellement plus difficile den calculer la variance dchantillonnage et, videmment, de
lutiliser pour lanalyse par infrence.

La troisime mesure de la position est le mode. Le mode est la valeur des donnes la plus frquente.
Cest la plus gnrale des trois mesures de la tendance centrale. Il peut tre appliqu tous les genres de
donnes, mais il est le plus appropri pour les donnes qualitatives et cest la seule mesure sense de la
tendance centrale pour les donnes nominales. Au cours dun recensement agricole par exemple, si vous
demandez aux agriculteurs dinscrire la culture qui couvre la majeure partie de leur terre, et si 38 des
50 agriculteurs de la population inscrivent que cette rcolte est le bl, le bl est donc le mode.
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
258
Le principal avantage du mode est sa simplicit parce quil peut tre dtermin partir dun tableau ou
dun graphique de la distribution des frquences des donnes. Le mode a cependant un certain nombre
dinconvnients. Premirement, il ne dcrit peut-tre pas suffisamment les donnes parce que la catgorie
la plus commune peut tre peu frquente. Ce problme se pose habituellement lorsquil y a de
nombreuses valeurs de donnes possibles. Dans un recensement sur la migration interurbaine par
exemple, vous pouvez faire la collecte de donnes nominales en demandant 2 000 personnes quelle ville
elles ont quitt et vous pouvez obtenir 1 999 rponses diffrentes, deux personnes seulement ayant le
mme point dorigine. Cette ville en commun serait le mode, mais il ne serait pas trs significatif. Voil
pourquoi le mode est rarement appliqu aux donnes quantitatives qui ont habituellement de nombreuses
valeurs possibles. Contrairement la mdiane et la moyenne, le mode nest pas ncessairement unique
non plus. Plusieurs catgories peuvent tre gales lorsque vous dterminez le rang le plus commun.

Une question se pose videmment : Quelle mesure devrait-on utiliser? Il est important que la mesure
soit significative, approprie, et quelle rponde aux besoins de lutilisateur. Le mode devrait en gnral
tre utilis pour les donnes nominales, la mdiane, pour les donnes numriques ordinales et
quantitatives asymtriques (c.--d. qui ne sont pas symtriques par rapport la moyenne), et la moyenne,
pour les donnes quantitatives rparties symtriquement. Si on considre des donnes quantitatives, la
distribution des valeurs de la variable devrait dterminer le choix. Si la distribution est symtrique et sil y
a seulement un sommet (p. ex., distribution normale) la moyenne, la mdiane et le mode sont identiques.
Le choix na pas dimportance dans ce cas, mais si lanalyste sait quils sont identiques, les donnes sont
donc symtriques. Si la distribution est asymtrique, une estimation des trois mesures donne un indicateur
de lampleur de lasymtrie.

Dautres mesures de la position sont parfois utilises dans les analyses statistiques descriptives. Les
quartiles sont des mesures de la position et, comme dans le cas de la mdiane, il faut dabord inscrire
les valeurs des donnes en ordre, mais au lieu de sparer la distribution en deux parties (comme dans
le cas de la mdiane), les quartiles ont quatre parties, chacune contenant 25 % de la distribution en
ordre. Les centiles tablissent aussi les valeurs des donnes en ordre, mais ils divisent la distribution en
100 entres gales. Le 10
e
, le 50
e
(la mdiane) et le 90
e
centiles sont des statistiques souvent utilises.

Exemple 11.1 : Mesures de la position pour un recensement des ventes de maisons

Supposons quune enqute est faite aux fins du recensement de toutes les maisons vendues au mois de
juin dans une ville en particulier et que lon obtienne les chiffres de vente suivants (en milliers de
dollars) : 85, 235, 146, 295, 96, 250, 235, 205, 195 et 375. Tris en ordre : 85, 96, 146, 195, 205, 235,
235, 250, 295 et 375.

Tableau 4 : Mesures de position pour un recensement des ventes de maisons

Mesure de la position Valeur
Moyenne 211 700 $
Mdiane 220 000 $ (moyenne de 205 000 $ et 235 000 $)
Mode 235 000 $
1
er
quartile (ou 25
e
centile) 146 000 $ (plus petite valeur plus grande que la
premire tranche de 25 % des valeurs)
3
ed
quartile (ou 75
e
centile) 250 000 $ (plus petite valeur plus grande que la
premire tranche de 75 % des valeurs).
90
e
centile 375 000 $ (plus petite valeur plus grande que la
premire tranche de 90 % des valeurs)


ANALYSE DES DONNES DE LENQUTE

STATISTIQUE CANADA
259
11.3.1.3 talement

Ltalement est la variabilit ou la dispersion des donnes. Une mesure de ltalement est prsente au
Chapitre 7 - Estimation, cest--dire la variance qui est calcule comme le carr des diffrences par
rapport la valeur de la moyenne. La variance de deux distributions diffrentes a t considre : celle de
la population et celle de lestimateur. La variance de la population mesure ltalement de la distribution
de toutes les donnes y
i
de la population (o y est une variable dintrt et y
i
est la valeur de la i
e
unit). La
variance dchantillonnage mesure ltalement de la distribution des estimations de diffrents chantillons
laide du mme estimateur et du mme plan dchantillonnage. Afin de donner aux utilisateurs de
linformation sur la qualit de lenqute-chantillon, toutes les estimations de lchantillon devraient
comprendre une certaine mesure de lerreur dchantillonnage (variance dchantillonnage, erreur-type,
coefficient de variation ou marge derreur).

Outre la variance de la population, dautres mesures de ltalement de la population comprennent
ltendue et ltendue interquartile. Ltendue est lcart entre la plus grande et la plus petite valeur. tant
donn que cette mesure utilise seulement deux valeurs de la distribution, elle donne seulement une ide
gnrale de ltalement et les valeurs extrmes ont dnormes rpercussions sur elle.

Ltendue interquartile donne ltendue de la tranche de 50 % au milieu des donnes. Cest lcart entre
le troisime et le premier quartile (ou le 75
e
et le 25
e
centile). Cette mesure est moins fragile aux valeurs
extrmes et elle est donc plus utile que la simple tendue pour mesurer ltalement. Ltendue
interquartile peut servir toutes les donnes quantitatives.

Exemple 11.1 (suite) : tendue et tendue interquartile pour un recensement des ventes de maisons

Pour le recensement des ventes de maisons, ltendue vaut 290 000 $ (c.--d. 375 000 $ - 85 000 $) et
ltendue interquartile vaut 104 000 $ (c.--d. 250 000 $ - 146 000 $).

Considrons le cas hypothtique suivant pour comprendre limportance de la combinaison de
linformation sur ltalement et de linformation sur la position. Un employ dans une banque vend des
produits financiers pour la retraite et essaie de dterminer le meilleur endroit pour ouvrir un nouveau
bureau. Les travailleurs de 45 ans environ sont le march cibl parce quils ne sont pas trop loin de la
retraite, mais ils nont probablement pas commenc planifier et ils ont de largent disponible. Le bureau
pourrait tre ouvert dans deux villes ventuellement. Un rapport statistique sur un recensement des villes
rvle que lge moyen des travailleurs est 45 ans dans les deux. Sans autre information, lemploy
voudra peut-tre ouvrir un bureau dans chaque ville. En considrant ltalement des donnes cependant, il
constate que les travailleurs de la ville A ont tous entre 40 et 50 ans, et ceux de la ville B ont de 15
65 ans, les deux valeurs modales tant de 20 et 60 ans. Le tableau est maintenant trs diffrent et il peut
tre plus avantageux pour la banque douvrir un bureau dans la ville A (il faudra quand mme obtenir
davantage dinformation, par exemple, combien de rsidents de 40 50 ans habitent dans chaque ville).


11.3.2 Donnes denqute complexe

Les mmes estimateurs de domaines prsents au Chapitre 7 - Estimation et la Section 11.3.1
ci-dessus peuvent tre utiliss pour estimer les distributions de frquences, les moyennes, les totaux et les
proportions des sondages ayant des donnes complexes. Les estimations pour les statistiques dordre
comme la mdiane et ltendue interquartile sont plus compliques.


MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
260
11.3.2.1 Mdiane

La mdiane de la population est la valeur de la variable dintrt sous laquelle se trouve la moiti de la
distribution de la population. Lestimation de la mdiane de la population est plus complique pour les
plans denqute complexes que pour les plans denqute simples. Des tailles de classes estimes sont
ncessaires pour les variables ordinales. Les valeurs des donnes sont tries par ordre croissant pour les
variables continues et les poids destimations sont additionns jusqu ce que la somme atteigne 50 % de
la taille estime de la population. Lexemple suivant illustre comment estimer la mdiane de la population
en estimant la distribution de la population laide de calculs pondrs.

Exemple 11.2 : Mdiane estime pour un EAS stratifi (voir lexemple 7.6 du Chapitre 7 -
Estimation)

Rappelons pas que lchantillon de cet exemple a dix observations et deux strates. Voici les points de
lchantillon (tri) :

Tableau 5 : Distribution estime des revenus de la population dun EAS stratifi

Strate N
o
did.
de lunit
Poids final Poids
cumuls
Poids cumuls
relatifs
Genre de
ferme
Revenu dclar
($)
2 8 16,5 16,5 0,16 1 14 000
1 2 5,67 22,17 0,22 2 15 000
2 10 16,5 38,67 0,38 1 22 000
2 7 16,5 55,17 0,55 1 30 000
1 6 5,67 60,84 0,60 1 40 000
2 9 16,5 77,34 0,77 2 48 000
1 4 5,67 83,01 0,83 1 67 000
1 1 5,67 88,68 0,88 1 75 000
1 5 5,67 94,35 0,94 2 80 000
1 3 5,67 100,02 1,0 1 125 000


Genre dexploitation agricole 1= culture (N
1
=34, n
1
=6)
2= levage (N
2
=66, n
2
=4)

Le revenu moyen de la population entire dexploitations agricoles est estim :

1 . 595 , 41
02 . 100
340 , 160 , 4

= = =

r
r
S i
i
i
S i
i
w
y w
Y .


ANALYSE DES DONNES DE LENQUTE

STATISTIQUE CANADA
261
Estimation de la mdiane partir de la distribution estime

0 . 0
0 . 1
0 . 2
0 . 3
0 . 4
0 . 5
0 . 6
0 . 7
0 . 8
0 . 9
1 . 0
0 1 0 0 0 0 2 0 0 0 0 3 0 0 0 0 4 0 0 0 0 5 0 0 0 0 6 0 0 0 0 7 0 0 0 0 8 0 0 0 0 9 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 1 2 0 0 0 0 1 3 0 0 0 0

Revenu

La mdiane estime se situe entre 22 000 $ et 30 000 $ parce que les pondrations cumules sont de 0,38
0,55 pour ces deux chiffres. Il est pratique commune, pour obtenir une seule valeur, de faire une
interpolation linaire entre deux points (22 000 $, 0,38) et (30 000 $, 0,55) pour obtenir les coordonnes
du point mdian (Md., 0,50), cette explication tant illustre ci-dessus (lestimation non pondre de la
mdiane est 44 000).
647 27 ) 38 , 0 50 , 0 (
38 , 0 55 , 0
000 22 000 30
000 22 . =

+ = Md .


11.3.2.2 talement

Il est plus facile de prsenter le cas des donnes denqute dun EAS ou dun EAS stratifi sans
ajustement de pondration comme celui du Chapitre 7 - Estimation pour illustrer le concept de la
variance dchantillonnage. En pratique cependant, peu prs toutes les enqutes ont des donnes plus
complexes, mme si le plan dchantillonnage est un EAS ou un plan systmatique (SYS), un ajustement
de pondration pour les non-rponses est habituellement appliqu, et les formules de lEAS ou de lEAS
stratifi ne sappliquent donc pas.

Le plan dchantillonnage et lestimateur ponctuel dterminent la formule de la variance exacte (c.--d.
que lestimateur de la moyenne dtermine lestimateur pour la variance dchantillonnage dune
moyenne). Lestimation de la variance pour des donnes complexes devient rapidement complique. Afin
destimer correctement lerreur dchantillonnage pour un sondage ayant des donnes complexes, il est
prfrable de consulter un statisticien denqute qui connat bien ce genre de problme. Il nest pas
recommand dutiliser simplement un logiciel, mme un logiciel statistique, parce quun EAS implicite
sans ajustement de pondration y est souvent intgr.

Pour estimer les tendues interquartiles pour des donnes complexes, on peut appliquer lapproche
explique ci-dessus pour la mdiane, afin destimer le 25
e
et le 75
e
centile.


MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
262
11.3.2.2.1 Intervalles de confiance en prsence de biais
Ltude de lestimation et de lanalyse des donnes denqute a suppos jusqu maintenant quil ny
avait pas de biais. Au Chapitre 3 - Introduction au plan denqute, nous avons numr quatre sources
derreurs non dues lchantillonnage qui peuvent causer un biais : la couverture, la mesure, la non-
rponse et les erreurs de traitement. Lestimateur peut aussi causer un biais : lanalyste peut prfrer
utiliser un estimateur ayant un petit biais, mais une bonne prcision, au lieu dun estimateur non biais
ayant une prcision mdiocre.
La variation totale par rapport la valeur relle dun paramtre, , est intitule erreur quadratique
moyenne :
( )
2
2 2
2
) ( ) (
) ) ( ( )) ( (
) ( ) (
t Biais t Var
t E t E t E
t E t MSE
+ =
+ =
=



o t est lestimation de pour un chantillon ralis, E(t) est la valeur prvue, ou lestimation moyenne de
tous les chantillons possibles et Var(t) est la variance dchantillonnage de t.

En prsence dun biais, E(t) = + B. Sil ny a pas de biais, E(t) = , et la variation totale par rapport la
valeur relle, , est simplement la variance dchantillonnage :

). (
) ) ( ( )) ( (
) ( ) (
2 2
2
t Var
t E t E t E
t E t MSE
=
+ =
=



Les intervalles de confiance (considres auparavant au Chapitre 7 - Estimation et au Chapitre 8 -
Calcul de la taille de lchantillon et rpartition) sont souvent utiliss pour prsenter les rsultats
denqutes probabilistes. tant donn une estimation t et son erreur-type, ) ( ) (

t r a V t E S = , un intervalle
de confiance peut tre tabli comme suit :

) ) (

), (

( t E S z t t E S z t +

o z est la valeur correspondant au niveau de confiance (p. ex., z=1,96 pour un intervalle de confiance de
95 %) dans un tableau type de distribution normale. On reconnat la thorie standard enseigne dans les
cours de statistique de premier cycle. Elle sapplique aux moyennes, aux proportions, aux paramtres de
rgression et de nombreuses autres statistiques. Son assise thorique est le thorme central limite dans
les populations infinies. Il faut cependant un chantillon suffisamment large pour que la thorie
asymptotique sapplique et cest sa limite pratique.

Un intervalle de confiance de 95 % est parfois dcrit ainsi :

Selon une enqute rcente, 15 % des rsidents dOttawa assistent des services religieux chaque
semaine. Les rsultats, tirs dun chantillon de 1 345 rsidents, sont considrs prcis plus ou
moins 3 %, 19 fois sur 20.

Un intervalle de confiance de 95 %, pour des estimateurs non biaiss qui ont des distributions
dchantillonnage normales ou approximativement normales, signifie que si lenqute est rpte de
ANALYSE DES DONNES DE LENQUTE

STATISTIQUE CANADA
263
nombreuses fois, environ 19 fois sur 20 (ou 95 % des occasions), lintervalle de confiance couvrirait la
valeur de la population relle.

En prsence dun biais, il ny a habituellement pas de mesure du Biais(t), et sil y en avait une,
) ( t is a Bi t + serait une estimation non biaise de et un intervalle de confiance serait tabli par rapport
cette valeur, mais un intervalle de confiance est plutt tabli par rapport t laide de ) ( ) (

t r a V t E S =
au lieu de ) (

t E S M .

Les rpercussions du biais sur lintervalle de confiance sont remarques surtout dans la probabilit de
couverture ( est-ce vraiment 95 %? ). Lintervalle de confiance (le secteur entre les zones ombres de la
courbe de droite) est dcal du point de vue de la valeur relle. La probabilit de couverture pour un
intervalle de confiance autour de est la zone ombre sous la courbe de gauche.

Distribution dun estimateur t avec et sans biais
B / SE( t ) =1


Srndal et coll. (1992) donnent le tableau suivant de la probabilit de couverture relle comme une
fonction du biais relatif, c.--d. le ratio . ) ( / t Var B

Tableau 6 : Probabilit de couverture, compte tenu de B/V

Biais relatif Probabilit de couverture
0,00
0,05
0,10
0,30
0,50
1,00
0,95
0,9497
0,9489
0,9396
0,9210
0,8300

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
264
Nous lavons dj mentionn, B est en pratique inconnu, mais le concepteur et lutilisateur de lenqute
doivent tre conscients de son existence et de ses rpercussions prjudiciables.

Le rapport denqute ou le rapport danalyse des donnes comprend souvent des tableaux des erreurs-
types ou des coefficients de variation estims, c.--d. le ratio de lerreur dchantillonnage lestimation
(en pour cent), et les utilisateurs peuvent donc calculer leurs propres intervalles de confiance et procder
leurs vrifications dhypothses. Ces tableaux devraient comprendre une explication de la mthode
appliquer pour faire des tests dhypothses, ainsi que de linformation sur le biais et ses rpercussions.


11.4 Test dhypothses sur une population : variables continues

Rappelons que les enqutes-chantillons sont habituellement faites pour tudier les caractristiques dune
population, tablir une base de donnes des fins analytiques ou vrifier une hypothse. La thorie et les
mthodes considres jusqu maintenant dans ce manuel ciblent surtout la description de la population et
de ses caractristiques : Il y a combien dhommes et de femmes dans la population? Combien sont
fumeurs? Quelle proportion de la population les familles faible revenu forment-elles? Quel est le revenu
mdian des mnages ?

Cette section cible les tests dhypothses au sujet de la population : la proportion des fumeurs est-elle
diffrente de celle des fumeuses? La proportion des familles faible revenu est-elle la mme dans toutes
les provinces? Lesprance de vie varie-t-elle dune province lautre?


11.4.1 Introduction : les lments dun test

Un test dhypothse est une procdure applique pour dterminer si les donnes de lchantillon
soutiennent les noncs formuls au sujet de la population. Une hypothse est un nonc, ou une thorie,
sur la valeur relle de la population dune caractristique. Un test dhypothse comprend la vrification
dune hypothse nulle, H
o,
compte tenu dune hypothse alternative, H
1
. Si vous tirez pile ou face de
nombreuses fois, par exemple, lhypothse nulle peut tre H
o
: la pice nest pas biaise et lhypothse
alternative est H
1
:

la pice est biaise.

La probabilit que les valeurs observes soient le rsultat fortuit de lchantillonnage, en supposant que
lhypothse nulle est vraie, est calcule laide des donnes dun chantillon. Si cette probabilit se
rvle tre plus petite que le niveau de signification du test, lhypothse nulle est rejete.

Un test dhypothse a quatre composantes : les hypothses nulle et alternative, la statistique du test et le
niveau de signification. On devrait ajouter un cinquime lment : une conclusion.

i. Hypothse nulle

Lhypothse nulle est un nonc au sujet dun paramtre de la population que lanalyste veut vrifier et
son symbole est H
o
. Voici des exemples ventuels dhypothse nulle :

- les revenus moyens de deux provinces sont semblables,
2 1
: Y Y H
O
= ,

- la proportion de fumeurs de la population est de 40 %, 4 , 0 : = P H
O
,

ANALYSE DES DONNES DE LENQUTE

STATISTIQUE CANADA
265
- lge moyen de la population est de 38 ans, 38 : = Y H
O
.

ii. Hypothse alternative

Lhypothse nulle est teste par rapport lhypothse alternative dont le symbole est souvent H
1
ou H
A
.
Lhypothse alternative est souvent un nonc sur la population qui devrait tre vrai. Lhypothse
alternative peut tre accepte seulement si les donnes dun niveau de signification en particulier ne
peuvent soutenir lhypothse nulle. Les hypothses alternatives aux hypothses nulles ci-dessus
pourraient tre, par exemple,

- les revenus moyens de deux provinces sont diffrents,
2 1 1
: Y Y H ,

- la proportion de fumeurs dans la population est suprieure 40 %, 4 , 0 :
1
> P H ,

- lge moyen de la population est de moins de 38 ans. 38 :
1
< Y H .

iii. Statistique du test

La statistique du test est une valeur calcule partir dun chantillon (ou de plusieurs chantillons) pour
tester une hypothse sur la population do lchantillon est tir. Les donnes, lhypothse vrifie, le
niveau de signification et lestimateur utiliss pour estimer le paramtre dterminent la valeur de la
statistique. Celle-ci exige habituellement que lestimateur ne soit pas biais (ou quil soit
approximativement sans biais) et que la distribution de lchantillonnage de lestimateur soit connue. Une
statistique z est distribue normalement, par exemple, une statistique khi carr a une distribution
khi carr et une statistique F a une distribution F de Fisher-Snedecor.

iv. Niveau de signification

Les seuls rsultats possibles dun test dhypothse sont rejeter lhypothse nulle ou ne pas rejeter
lhypothse nulle. Rejeter lhypothse nulle ne signifie pas toujours quelle est fausse et ne pas la rejeter
ne signifie pas quelle est ncessairement vraie. Il y a en fait deux genres de conclusions errones :
conclure que lhypothse nulle est fausse lorsquelle est vraie et conclure quelle est vraie lorsquelle est
fausse.
Tableau 7 : Types derreur

Lhypothse nulle est en fait :
VRAIE FAUSSE
VRAIE II Il est conclu aprs
vrification que
lhypothse nulle est :
FAUSSE I


Ces deux genres de conclusion errone sont intitules erreur de type I et erreur de type II respectivement.
Le niveau de signification dun test, soit , est le risque accept de commettre une erreur de type I,
autrement dit, de rejeter une hypothse nulle vraie. La valeur, = 0,05, par exemple, est souvent utilise.
Si un risque moindre est exig, on peut attribuer une valeur infrieure , disons = 0,01. Si un risque
plus grand est acceptable, on peut utiliser = 0,10.

Le dictionnaire de la statistique de Cambridge (Everitt, 1998) illustre les niveaux de signification comme
suit : on tire pile ou face 100 fois et on obtient face chaque fois. On peut souponner avec raison que
MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
266
la pice est biaise, mais il y a une mince possibilit quelle ne soit pas biaise et quelle tombe
simplement de cette faon. Nous savons cependant que la probabilit quune bonne pice tombe de la
mme faon 100 fois sur 100 est trs mince : 2 x ()
100
, ou 1,6 x 10
30
(cest la valeur de la statistique du
test). Compte tenu de ces points, lanalyste peut rejeter en toute confiance lhypothse nulle, H
o
: la pice
nest pas biaise pour adopter lhypothse alternative, H
1
: la pice est biaise, sachant quil y a
seulement une mince possibilit que sa conclusion soit inexacte. Supposons cependant que la pice est
tire six fois seulement et quelle donne face chaque fois. La probabilit quune pice quilibre tombe de
cette faon est : 2 x ()
6
, c.--d. 0,031. Cest peu probable, mais pas impossible. Si le niveau de
signification est = 0,05, lanalyste rejetterait lhypothse nulle, mais avec un niveau de signification
plus strict de = 0,01, lanalyste ne pourrait pas rejeter lhypothse nulle.

Il y a deux genres de tests dhypothse : les tests unilatral et bilatral. Un test est unilatral lorsque la
rgion de rejet pour lhypothse nulle, exprime graphiquement, consiste en une queue de distribution de
lchantillonnage de lestimateur. (La rgion de rejet est lensemble des valeurs de la statistique du test
qui inciteraient rejeter lhypothse nulle.) Dans un test bilatral, la rgion de rejet comprend les deux
queues de distribution. Les tests bilatraux sont habituellement utiliss avec des estimateurs normalement
distribus. Lhypothse alternative ci-dessus, par exemple, selon laquelle les revenus moyens des deux
provinces sont diffrents (p. ex.,
2 1 1
: Y Y H ), utiliserait un test bilatral, alors que les deux autres
hypothses alternatives appliqueraient des tests unilatraux.


11.4.2 Donnes denqute simples

La matire considre dans cette section est habituellement le sujet des cours de statistique de premier
cycle et nous viterons intentionnellement les dtails et les complications. Le lecteur intress peut
consulter des ouvrages lmentaires (p. ex., Snedecor et Cochran (1989), Wonnacott et Wonnacott
(1977)).


11.4.2.1 Essai pour une moyenne unique

Compte tenu dune srie de donnes obtenues laide dun plan dchantillonnage alatoire simple dune
population, la moyenne de la population estime, Y

, nest pas biaise et (si lchantillon est suffisamment


grand) elle est distribue presque normalement avec une moyenne, Y , et une erreur-type estime, )

Y E S .
Si lanalyste veut tester lhypothse selon laquelle la valeur de Y est k (c.--d. que k Y H
O
= : ), la
statistique du test suivante peut tre utilise :
)

Y E S
k Y
z

= .

Cette statistique du test est intitule statistique z parce que, si H
o
est vraie, z a donc une distribution type
approximativement normale, une moyenne gale 0 et une erreur-type gale 1. Cest la mme
statistique z que celle utilise pour tablir les intervalles de confiance pour la moyenne (voir Section
7.3.2.2).

Parce quil connat la distribution de z, lanalyste connat la probabilit que z scarte de sa moyenne dun
certain nombre derreurs-types; il dtermine ainsi le niveau de signification pour un test. Il est connu, par
exemple, que 5 % des valeurs (absolues) de z sont suprieures 1,96. Afin de faire un test bilatral (p. ex.,
k Y H :
1
) laide dune statistique z et de = 0,05, la rgion de rejet serait donc les valeurs de z
ANALYSE DES DONNES DE LENQUTE

STATISTIQUE CANADA
267
infrieures 1,96 ou suprieures 1,96. Dans le cas dun test unilatral (p. ex., k Y H > :
1
), pour tablir
un test dont = 0,05, la rgion de rejet serait les valeurs de z suprieures 1,65.

Il est souvent raisonnable de supposer pour les grands chantillons que Y

suit une distribution normale.


Cest parce que dans certaines conditions, selon le thorme central limite, la distribution de la moyenne
de lchantillon approche la distribution normale quand augmente la taille de lchantillon.

Exemple 11.3 : Test sur une moyenne dun EAS

Supposons quun organisme statistique procde une enqute sur la sant et fait la collecte des donnes
laide dun chantillon probabiliste. Lorganisme veut vrifier lhypothse selon laquelle il y a un
problme dembonpoint dans la population, lequel est dfini comme le poids moyen de la population tant
suprieur 100 kg. Lorganisme sait que lestimateur habituel pour la moyenne de la population nest pas
biais et est normalement distribu. Une statistique z est donc utilise, et le niveau de signification est de
% 5 = . tant donn quun test unilatral est appropri et, afin dobtenir un taux de certitude de 95 %
pour rejeter lhypothse nulle, la rgion de rejet comprend toutes les valeurs z suprieures 1,65.

Voici la vrification de lhypothse :

>

kg Y H
kg Y H
100 :
100 :
1
0

La statistique du test :
)

100

Y E S
Y
z

=

Si les estimations de lenqute sont Y

= 102,1 et )

Y E S = 1,5, alors :

4 , 1
5 , 1
1 , 2
5 , 1
100 1 , 102
= =

= z .

tant donn que 1,4 est infrieur 1,645, la donne nest pas dans la rgion de rejet. Lvidence nest
donc pas suffisante pour rejeter lhypothse nulle.


11.4.2.2 Comparaison entre deux moyennes de (sous-)populations

Lapproche applique au test dune moyenne peut facilement tre applique deux moyennes : soit la
diffrence entre deux groupes dintrt, soit le mme groupe mesur deux points dans le temps.
Supposons maintenant quun chantillon est tir de chaque groupe, que les chantillons sont indpendants
et que chaque chantillon est suffisamment large pour justifier lapplication du thorme central limite.

Le premier groupe a une moyenne inconnue,
1
Y , le deuxime groupe a une moyenne inconnue,
2
Y , et si
lhypothse nulle est vraie, ces moyennes inconnues sont gales. Leur diffrence est donc zro et leurs
estimations devraient tre trs prs lune de lautre. Toute grande diffrence observe entre les
estimations sont dues des chantillons malheureusement mauvais (mais il ny a pas de bonnes raisons
pour cela) ou bien, H
0
est faux. Compte tenu de cette explication, le test peut tre fait comme suit :

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
268

=
2 1 1
2 1 0
:
:
Y Y H
Y Y H


et la statistique du test asymptotiquement normale est :

)

( )

(

2 1
2 1
Y r a V Y r a V
Y Y
z
+

= .

Le niveau de test dcid davance est habituellement 5 %. tant donn quil sagit dun test bilatral, cela
correspond rejeter lhypothse nulle si la statistique du test est lextrieur de la fourchette (-1,96,
1,96). (Remarquez que cette statistique du test est correcte seulement si les deux chantillons sont
indpendants.)

Exemple 11.4 : Test de deux moyennes dun EAS

Supposons quun analyste est intress dterminer si les gens dans une province ont un poids plus lev,
en moyenne, que ceux dune autre province. Un chantillon alatoire simple est tir dans chaque province
et les rsultats sont
1

Y = 95,
2

Y = 105, )

1
Y E S = 1,4, )

2
Y E S = 2,2. Voici donc la statistique du test :

83 , 3
80 , 6
10
2 , 2 4 , 1
105 95
2 2
=

=
+

= z

et les deux groupes sont jugs significativement diffrents.


11.4.2.3 Comparaison entre de nombreuses moyennes de (sous)-populations : modles danalyse de
la variance (ANOVA) une dimension et de rgression linaire

Le prolongement naturel de la thorie ci-dessus est llaboration dun essai pour comparer les moyennes
de nombreux groupes. Dans le cas de lANOVA (analyse (of) de la variance), aucune supposition nest
faite sur le lien ventuel entre les moyennes et, pour les modles linaires, une hypothse est formule sur
les liens linaires entre les moyennes. Les modles linaires sont dans une catgorie de techniques
statistiques utilises pour dterminer si une variable de rponse a des liens linaires avec une ou plusieurs
variables explicatives. Les effets des diverses variables explicatives sont additifs, une importante
caractristique des modles linaires.


11.4.2.3.1. Analyse de la variance (ANOVA)

LANOVA sert valuer leffet dune ou de plusieurs variables qualitatives (intitules facteurs) sur une
variable de rponse continue. Les diffrences entre les moyennes sont vrifies en tudiant la variabilit
dun ensemble dobservations pour dterminer si la variabilit est alatoire ou si elle peut tre attribue
un ou plusieurs facteurs.

LANOVA la plus simple est un plan un facteur pour lequel un chantillon est tir de chacun des k
diffrents groupes dun seul facteur (c.--d. que k moyennes diffrentes sont compares et, selon
lhypothse nulle, elles sont toutes gales). Lanalyste voudra peut-tre, par exemple, vrifier lhypothse
nulle selon laquelle il ny a pas de diffrence entre les revenus moyens des dix provinces :
ANALYSE DES DONNES DE LENQUTE

STATISTIQUE CANADA
269

10 9 8 7 6 5 4 3 2 1
: Y Y Y Y Y Y Y Y Y Y H
O
= = = = = = = = = .

Cette hypothse scrit comme un modle dANOVA :

i g gi
y + + =
0


o y
gi
est la valeur de la variable de rponse, le revenu, pour la i
e
unit de la g
e
province,
0
est le revenu
moyen de toutes les provinces,
g
est la diffrence entre le revenu moyen de la province g et le revenu
moyen national; si toutes les moyennes sont gales,
g
= 0; finalement,
i
est une variable derreur
alatoire, de moyenne nulle et de variance
2
.

La variation totale dans la population est rpartie en variation due aux diffrences entre les k groupes et la
variation due aux diffrences entre les sujets dans un mme groupe. Cette dcomposition peut scrire :

( )

+ =
g i
g gi
g
g g
g i
gi
Y y Y Y N Y y
2
2 2
) ( ) (

o N
g
est le nombre dunits du groupe g,
g
Y est la moyenne du groupe g et Y est la moyenne gnrale.

Si les chantillons alatoires indpendants ont t tirs de g populations distribues normalement, cette
variation peut tre estime comme suit :

( )
) ( ) ( ) (
) ( ) (
2 2 2
Rsiduel SS Modle SS total SS
y y y y n y y
g i
g gi
g
g g
g S i
gi
+ =
+ =




o n
g
est le nombre dunits chantillonnes du groupe g,
g
y est la moyenne de lchantillon du groupe g,
y est la moyenne gnrale de lchantillon et SS est la somme des carrs .

Si les moyennes de lchantillon k sont toutes les mmes, elles sont aussi gales la moyenne gnrale
y . Dans les limites de la variation alatoire, la variance entre les groupes, c.--d. :

1
) (
) (

=
g
Modle SS
Modle MS
devrait donc tre prs de zro.

Il est possible de tester cette hypothse laide du test F tabli comme suit :

= =

=
k j Y Y H
Y Y H
j H
g H
k j j
g
, certaines pour , :
:
certaines pour , 0 :
, 0 :
1
10 1 0
1
0
L



et la statistique du test est

MTHODES ET PRATIQUES DENQUTE
STATISTIQUE CANADA
270
) 1 ( ; 1
~
) 1 (
) (
) 1 (
) (
) (
) (

= =
g
n g g
g
F
n g
Rsiduel SS
g
Modle SS
Rsiduel MS
Modle MS
F .

Cette statistique a une distribution F de Fisher-Snedecor (g-1) et g(n
g
-1) degrs de libert. Les valeurs
critiques sont lues partir de tableaux F , avec les degrs de libert et de niveau appropri. On
considre quil existe une diffrence importante entre les moyennes quand la statistique F calcule est
suffisamment grande, c.--d. plus grande que la valeur critique donne par la table F.

Nous dcrivons ici un cas appropri au plan dchantillonnage le plus simple, c.--d. que nous supposons
des chantillons de taille gale et un chantillonnage alatoire simple dans chaque groupe. Ce nest pas
une situation typique des grandes enqutes et cette stratgie nest pas efficace dans les applications
pratiques des plans exprimentaux.

Le lecteur intress par lANOVA peut consultez des ouvrages dintroduction la statistique (p. ex., Lohr
(1999), Wonnacott et Wonnacott (1977)), ou des ouvrages sur les plans exprimentaux (Box, Hunter,
Hunter (1978)).


11.4.2.3.2. Rgression linaire

La rgression linaire est probablement le modle linaire le mieux connu. LANOVA aide dterminer
si la moyenne dun groupe est trs diffrente des autres et la rgression sert identifier ou modliser les
liens entre les diffrentes moyennes de groupe. Faire des prdictions ou des prvisions de la variable de
rponse pour les valeurs des variables explicatives connexes connues est une autre application de la
rgression linaire. La variable de rponse est habituellement une variable continue (p. ex., ge, poids,
taille) en rgression linaire et les variables explicatives peuvent tre qualitatives ou quantitatives. Si une
seule variable explicative est utilise, la rgression est simple et si plusieurs sont utilises, elle est
multiple.

Supposons par exemple quune enqute a t faite pour obtenir des donnes sur la taille et le poids, et
lanalyste est intress dterminer comment ces variables sont lies. Compte tenu du graphique de
donnes suivant, il semble y avoir un lien linaire entre les deux variables.

Le modle mathmatique de ce lien est exprim ainsi :

i i i
x y + + =
1 0


o y
i
est la valeur de la variable de rponse continue, le poids, pour la i
e
unit, x
i
est la valeur de la
variable explicative, la taille, pour la i
e
unit,
0
est lordonne lorigine (valeur de y lorsque x
i
=0),
1

est la pente de la ligne (le changement en y
i
pour un changement dune unit en x
i
),
i
est une variable
derreur alatoire, de moyenne nulle et de variance
2
. Autrement dit, on suppose que y
i
est
approximativement li linairement x
i
et que les valeurs observes de y
i
dvient dun nombre alatoire,

i
, au-dessus et au-dessous de cette ligne.
0
et
1
sont les paramtres inconnus estims laide des
donnes de lchantillon. Afin de dterminer si les deux variables sont lies linairement ou non, les
intervalles de confiance peuvent tre tablis pour
1
et les tests dhypothses peuvent tre faits au sujet de
sa vraie valeur.

ANALYSE DES DONNES DE LENQUTE

STATISTIQUE CANADA
271
Poids par taille
40
50
60
70
80
90
100
110
140 150 160 170 180 190 200
Taille (cm)
P
o
i
d
s

(
k
g
)


Les estimations de paramtres peuvent tre dtermines laide des donnes observes (en supposant ici
un chantillonnage alatoire simple), comme suit :

( )( )
( )
.

,

1 0
2
1
x y
x x
y y x x
i
i i
=



Bien entendu, On peut aussi obtenir les erreurs dchantillonnage de ces estimations. Le test est appliqu

1
pour dterminer si le lien est significatif, cest--dire si la ligne nest pas horizontale, ou
1
0. Voici
les hypothses nulle et alternative :

=
0 :
0 :
1 1
1 0

H
H
,

la statistique du test est la z bien connue :
)

1
1

E S
z =

qui a une distribution type normale, compte tenu des habituelles hypothses dasymptoticit. Le critre de
dcision est identique celui observ auparavant, c.--d. que lon rejette H
0
si les valeurs de z sont
lintrieur de la rgion de rejet pour un niveau choisi.

Exemple 11.5 : Rgression linaire pour les donnes sur la taille et le poids, cas dun EAS

Supposons que les donnes sur la taille et le poids ci-dessus ont t obtenues laide dun EAS et que les
estimations suivantes ont t calcules :