Académique Documents
Professionnel Documents
Culture Documents
Mthodes et
pratiques d'enqute
1-800-263-1136
1-800-363-7629
1-877-287-4369
1-613-951-8116
1-613-951-0581
1-800-635-7943
1-800-565-7757
Statistique Canada
Note de reconnaissance
Le succs du systme statistique du Canada repose sur un partenariat bien tabli entre
Statistique Canada et la population, les entreprises, les administrations canadiennes et les
autres organismes. Sans cette collaboration et cette bonne volont, il serait impossible de
produire des statistiques prcises et actuelles.
001.433
Prface
Je suis trs fier de la publication des Mthodes et Pratiques denqute de Statistique Canada. Ce
rel accomplissement couronne les efforts dun grand nombre demploys de Statistique Canada,
en particulier des divisions de mthodologie denqute, auxquels je souhaite exprimer ma
gratitude.
Cette publication a profit de cours donns aux employs de Statistique Canada, dateliers offerts
nos clients, et de cours sur les recensements et sondages prsents aux statisticiens dAfrique et
dAmrique latine. Le Cours de base sur les enqutes, unique et innovateur, dj offert plus de
80 reprises quelque 2000 employs de Statistique Canada et des employs dautres agences
statistiques nationales, a t une influence notable sur cette publication. Finalement, la ralisation
du Survey Skills Development Manual pour le compte du Bureau national de la statistique de
Chine sous les auspices du Programme de coopration statistique Canada - Chine (Canada
China Statistical Co-operation Program) a donn une impulsion particulire ce projet.
Cette publication servira de support au Cours de base sur les enqutes et je crois quelle
deviendra une lecture oblige et une rfrence pour tous les employs de Statistique Canada
associs de prs ou de loin une enqute. Je souhaite quelle soit aussi utile aux statisticiens
dautres agences nationales et aux tudiants de cours sur la mthodologie denqute qui y
trouveront un aperu de la pratique.
Ottawa
Octobre 2003
Avant-propos
Ce manuel est avant tout un guide pratique pour la planification, la conception, et la ralisation
denqutes. Il aborde les nombreux concepts denqute et de nombreuses mthodes lmentaires
qui peuvent tre utilises profit lors de la conception et la ralisation dune enqute. Ce manuel
ne remplace cependant pas le jugement clair et lexpertise; il vise plutt y contribuer en
donnant un aperu de ce qui est ncessaire la conception denqutes efficientes et de grande
qualit, et de la faon dutiliser les donnes denqute de faon efficace et pertinente pour
lanalyse.
Ce manuel prend sa source dans le Programme de coopration statistique Canada Chine, financ
par lAgence canadienne de coopration internationale. La manuel qui avait t prpar pour ce
programme en vue de contribuer au programme national de formation statistique du Bureau
national de la Statistique de Chine. Une tude de cas accompagnait le manuel, en en illustrant les
principaux points laide dune enqute fictive. Ces deux documents ont t revus et modifis
afin de mieux rpondre aux besoins de Statistique Canada, particulirement comme outil de
rfrence pour son Cours de base sur les enqutes.
Bien que ce manuel se concentre sur les aspects fondamentaux des enqutes utiles tous les
lecteurs, certains chapitres sont plus techniques. Le gnraliste pourra tudier ces chapitres en
passant outre les points techniques souligns ci-dessous.
Les cinq premiers chapitres couvrent les aspects gnraux du plan denqute, notamment :
- une introduction aux concepts de lenqute et ses tapes (Chapitre 1),
- la formulation des objectifs dune enqute (Chapitre 2),
- des considrations gnrales sur le plan denqute (Chapitre 3), par exemple,
- le choix entre une enqute - chantillon et un recensement,
- la mthode de dfinition de la population qui sera observe,
- les divers genres de base de sondage,
- les sources derreurs dans une enqute,
- les mthodes de collecte des donnes de lenqute (Chapitre 4), par exemple,
- lautodnombrement, linterview sur place ou linterview tlphonique,
- les questionnaires sur support papier ou lectronique,
et
- la conception dun questionnaire (Chapitre 5).
Les Chapitres 6, 7 et 8 couvrent les points plus techniques du plan de lenqute - chantillon :
- comment choisir un chantillon (Chapitre 6),
- comment estimer les caractristiques de la population (Chapitre 7),
- comment dterminer la taille de lchantillon et rpartir lchantillon entre les strates
(Chapitre 8).
Au Chapitre 7, la matire technique plus approfondie commence la Section 7.3 Estimation de
lerreur dchantillonnage des estimations de lenqute. Au chapitre 8, la formule utilise pour
dterminer la taille de lchantillon fait appel une comprhension plus technique et elle
commence la Section 8.1.3 Formule de calcul de la taille de lchantillon.
Le Chapitre 9 couvre les principales oprations de collecte des donnes et prcise comment
organiser les oprations de collecte.
Remerciements
Nous remercions les nombreux employs de Statistique Canada qui ont collabor la prparation
de Mthodes et pratiques denqute, en particulier:
ditrices : Sarah Franklin et Charlene Walker.
Rviseurs : Jean-Ren Boudreau, Richard Burgess, David Dolson, Jean Dumais, Allen
Gower, Michel Hidiroglou, Claude Julien, Frances Laffey, Pierre Lavalle, Andrew Maw,
Jean-Pierre Morin, Walter Mudryk, Christian Nadeau, Steven Rathwell, Georgia Roberts,
Linda Standish, Jean-Louis Tambay.
Rviseur de la traduction franaise: Jean Dumais.
Nous remercions aussi tous ceux qui ont collabor la prparation de la version originale du
China Survey Skills Manual (Manuel des notions lmentaires denqute en Chine), et en
particulier :
quipe du projet : Richard Burgess, Jean Dumais, Sarah Franklin, Hew Gough, Charlene
Walker.
Comit directeur : Louise Bertrand, David Binder, Geoffrey Hole, John Kovar, Normand
Laniel, Jacqueline Ouellette, Bla Prigly, Lee Reid, M.P. Singh.
Rdacteurs (membres de lquipe du projet et ) : Colin Babyak, Rita Green, Christian Houle,
Paul Kelly, Frances Laffey, Frank Mayda, Dave Paton, Sander Post, Martin Renaud, Johanne
Tremblay.
Rviseurs : Benot Allard, Mike Bankier, Jean-Franois Beaumont, Julie Bernier, Louise
Bertrand, France Bilocq, Grard Ct, Johanne Denis, David Dolson, Jack Gambino, Allen
Gower, Hank Hofmann, John Kovar, Michel Latouche, Yi Li, Harold Mantel, Mary March,
Jean-Pierre Morin, Eric Rancourt, Steven Rathwell, Georgia Roberts, Alvin Satin, Wilma
Shastry, Larry Swain, Jean-Louis Tambay.
Mise en page: Nick Budko et Carole Jean-Marie.
Nous remercions aussi le Statistical Education Centre (Centre de lenseignement de la statistique)
du NBS (Bureau national de la statistique) pour leurs apports et rtroaction, et nous apprcions le
travail prliminaire de Jane Burgess, Owen Power, Marc Joncas et Sandrine Prasil.
Finalement, nous souhaitons souligner le travail de Hank Hofmann, Marcel Brochu, Jean Dumais
et Terry Evers, lquipe responsable du dveloppement et du lancement du Cours de base sur les
enqutes lautomne 1990 en anglais et lautomne 1991 en franais.
Des publications et des documents varis de Statistique Canada ont servi llaboration de ce
manuel. Voici certains documents importants :
- Lchantillonnage, Un guide non mathmatique, par A. Satin et W. Shastry,
- Statistique Canada, Lignes directrices concernant la qualit,
- Matriel de cours pour Enqutes : du dbut la fin (416),
- Matriel de cours pour Introduction aux techniques dchantillonnage (412),
Dautres documents de Statistique Canada sont numrs la fin de chaque chapitre, le cas
chant.
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
Introduction
Quest-ce quune enqute? Une enqute est une activit organise et mthodique de collecte de donnes
sur des caractristiques dintrt dune partie ou de la totalit des units dune population laide de
concepts, de mthodes et de procdures bien dfinis. Elle est suivie dun exercice de compilation
permettant de prsenter les donnes recueillies sous une forme rcapitulative utile. Une enqute
commence habituellement sil y a un besoin dinformation et sil ny a pas de donnes ou si elles sont
insuffisantes. Cest parfois lorganisme statistique lui-mme qui en a besoin ou un client lexterne, peuttre un ministre, un organisme gouvernemental ou un organisme priv. Lorganisme statistique ou le
client veut habituellement tudier les caractristiques dune population, assembler une base de donnes
des fins analytiques ou vrifier une hypothse.
Une enqute comprend plusieurs tapes lies entre elles, notamment, la dfinition des objectifs, la
slection dune base de sondage, le choix du plan dchantillonnage, la conception du questionnaire, la
collecte et le traitement des donnes, lanalyse et la diffusion des donnes, et la documentation de
lenqute.
La dure dune enqute peut tre rpartie en plusieurs phases. La premire est la planification, viennent
ensuite les phases de la conception et de llaboration puis, celle de la mise en uvre. En bout de ligne,
tout le processus de lenqute est examin et valu.
Lobjectif de ce chapitre est de donner un aperu des activits comprises dans le droulement dune
enqute statistique, et les dtails seront verss aux chapitres suivants et en annexes. Afin daider illustrer
les points pertinents lenseignement dans ce manuel, le lecteur est invit lire le manuel de ltude de
cas qui est un cheminement de la planification jusqu la conception et la mise en uvre dune enqute
statistique fictive.
1.1
premire vue peut-tre, le droulement dune enqute consiste simplement poser des questions et
compiler les rponses pour obtenir des statistiques. Il faut cependant faire une enqute tape par tape,
appliquer des procdures et des formules prcises pour que les rsultats donnent de linformation exacte
et significative. Il faut bien connatre les tches particulires, leurs liens et leur pertinence pour
comprendre le processus complet.
Voici les tapes dune enqute :
- formulation de lnonc des objectifs,
- slection dune base de sondage,
- choix dun plan dchantillonnage,
- conception du questionnaire,
- collecte des donnes,
- saisie et codage des donnes,
- vrification et imputation,
- estimation,
- analyse des donnes,
- diffusion des donnes,
STATISTIQUE CANADA
2
-
documentation.
1.1.1
La formulation de lnonc des objectifs est lune des plus importantes tches dune enqute. Elle tablit
non seulement les besoins dinformation de lenqute dans lensemble, mais aussi les dfinitions
oprationnelles utiliser, les sujets considrer en particulier et le plan danalyse. Cette tape de
lenqute dtermine ce quelle comprendra ou non, ce que le client a besoin de savoir plutt que ce qui
serait intressant dapprendre.
Le Chapitre 2 - Formulation de lnonc des objectifs explique comment formuler les objectifs et
dterminer la matire de lenqute.
1.1.2
La base du sondage donne les moyens didentifier les units de la population de lenqute et de
communiquer avec elles. La base prend la forme dune liste, par exemple,
- une liste physique, notamment, un fichier de donnes, un imprim dordinateur ou un annuaire
tlphonique,
- une liste conceptuelle, par exemple une liste de tous les vhicules qui entrent au stationnement dun
centre commercial entre 9 h et 20 h pendant une journe en particulier,
- une liste gographique dont les units correspondent des secteurs gographiques et dont les units
composantes sont des mnages, des fermes, des entreprises, etc.
Un organisme statistique peut habituellement utiliser, approfondir ou crer une base de sondage. La base
choisie dtermine la dfinition de la population de lenqute et peut avoir des rpercussions sur les
mthodes de collecte des donnes, de slection et destimation de lchantillon, ainsi que sur le cot de
lenqute et la qualit des rsultats. Les bases de sondage sont prsentes au Chapitre 3 - Introduction
au plan denqute.
1.1.3
Il y a deux genres denqute : lenqute-chantillon et le recensement. Au cours dune enqutechantillon, la collecte des donnes est faite pour une partie seulement (habituellement trs petite) des
units de la population, mais lors dun recensement, la collecte des donnes est faite pour toutes les
units de la population. Il y a deux types dchantillonnage : lchantillonnage non probabiliste et
probabiliste. Lchantillonnage non probabiliste est un moyen rapide, facile et bon march de slectionner
des units de la population, mais la mthode de slection est subjective. Afin de faire des dductions sur
la population partir dun chantillon non probabiliste, lanalyste des donnes doit supposer que
lchantillon est reprsentatif de la population. Cette supposition est souvent risque cause de la
mthode de slection subjective. Lchantillonnage probabiliste est plus complexe, demande plus de
temps et cote habituellement plus cher que lchantillonnage non probabiliste. tant donn cependant
que la slection des units de la population est alatoire et que la probabilit de slection de chaque unit
peut tre calcule, des estimations fiables sont possibles, ainsi que des estimations derreur
dchantillonnage et des dductions sur la population. Lchantillonnage non probabiliste est
STATISTIQUE CANADA
1.1.4
Conception du questionnaire
Un questionnaire (ou un formulaire) est un groupe ou une squence de questions formules pour
obtenir dun rpondant de linformation sur un sujet. Les questionnaires sont au cur du processus de
collecte des donnes parce quils ont des rpercussions importantes sur la qualit des donnes et une
incidence sur limage de marque que projette lorganisme statistique dans le grand public. Les
questionnaires sont sur support papier ou lectronique.
La conception dun questionnaire suscite des interrogations : quelles questions poser, comment les
formuler au mieux et comment organiser les questions pour obtenir linformation voulue? Le but est
dobtenir de linformation et, cette fin, les rpondants doivent comprendre les questions et donner
facilement les rponses exactes en un format qui convient au traitement ultrieur et lanalyse des
donnes. Il y a des principes bien tablis de conception dun questionnaire, mais la cration dun bon
questionnaire est un art qui demande de lingniosit, de lexprience et des mises lessai. Si les besoins
de donnes ne sont pas transforms correctement en un instrument de collecte des donnes structur de
qualit leve, un bon chantillon peut donner de mauvais rsultats.
Ce sujet est approfondi au Chapitre 5 - Conception du questionnaire.
1.1.5
La collecte des donnes est le processus appliqu pour obtenir linformation ncessaire de chaque
unit slectionne dans lenqute. Les mthodes lmentaires de collecte des donnes sont
lautodnombrement, cest--dire que les rpondants remplissent le questionnaire sans laide dun
intervieweur, et lintervention de lintervieweur (par lintermdiaire de linterview tlphonique ou sur
place). Dautres mthodes de collectes de donnes comprennent lobservation directe, la dclaration
lectronique des donnes et lutilisation des donnes administratives.
La collecte des donnes peut tre faite sur support papier ou lectronique. Si une mthode de collecte sur
support papier est privilgie, les rponses sont inscrites dans des questionnaires imprims. Si on opte
plutt pour une mthode assiste par ordinateur, le questionnaire est affich lcran de lordinateur et les
STATISTIQUE CANADA
rponses sont entres directement au clavier. Les mthodes assistes par ordinateur ont un avantage : la
saisie des donnes ou transformation des rponses en format lisible par la machine est faite pendant la
collecte, liminant ainsi cette activit du traitement aprs la collecte. Autre avantage : les donnes non
valables ou incohrentes peuvent tre identifies plus rapidement que celles des questionnaires sur
support papier.
Les mthodes de collecte des donnes sont considres au Chapitre 4 - Mthodes de collecte des
donnes. Le recours aux donnes administratives est examin en Annexe A - Donnes administratives.
Les activits de collecte des donnes, y compris certaines interventions de lintervieweur, notamment
lnumration, le reprage et les mthodes dorganisation de la collecte des donnes, sont prcises au
Chapitre 9 - Oprations de collecte des donnes.
1.1.6
Si les donnes nont pas t collectes au moyen dune mthode assiste par ordinateur, elles doivent tre
codes et saisies . Le codage est le processus daffectation dune valeur numrique aux rponses pour
faciliter la saisie et le traitement des donnes en gnral. Certaines questions sont parfois prcodes sur
le questionnaire mme, mais dautres sont codes aprs la collecte pendant le traitement manuel ou
automatis. La saisie et le codage des donnes sont des activits qui cotent cher et qui demandent
beaucoup de temps, mais elles sont essentielles la qualit des donnes parce que les erreurs entres
peuvent avoir des rpercussions sur les rsultats finals de lenqute. Il faut donc mettre laccent sur la
prvention des erreurs ds les premires tapes. Lassurance de la qualit et le contrle qualitatif sont
deux mthodes de surveillance et de vrification des erreurs. Lobjectif de lassurance de la qualit est de
prvoir et dempcher les problmes, et celui du contrle qualitatif est de garantir que le nombre derreurs
est restreint aux limites acceptables.
Le Chapitre 10 - Traitement porte sur la saisie et le codage des donnes. Les questions de qualit sont
considres en Annexe B - Contrle qualitatif et assurance de la qualit.
1.1.7
Vrification et imputation
La vrification est lapplication de mesures pour reprer les entres manquantes, non valables ou
incohrentes qui indiquent des enregistrements de donnes ventuellement errones. Lobjectif de la
vrification est de mieux comprendre les processus et les donnes de lenqute pour garantir que les
donnes finales de lenqute sont compltes, convergentes et valables. Les vrifications peuvent tre de
simples mesures de contrle manuel quappliquent les intervieweurs sur place ou des vrifications
compltes excutes par un programme informatique. Limportance de la vrification faite est un
compromis entre lobjectif, cest--dire que tous les enregistrements sont parfaits , et une somme
raisonnable de ressources affectes (temps et argent) pour atteindre cet objectif.
Certaines lacunes de vrification sont combles laide dun suivi auprs du rpondant ou dun examen
manuel du questionnaire, mais il est peu prs impossible de corriger toutes les erreurs ainsi, et
limputation est souvent utilise pour rgler les autres cas. Limputation est un processus appliqu pour
dterminer et attribuer des valeurs de remplacement, afin de rsoudre les problmes de donnes
manquantes, non valables ou incohrentes.
Limputation peut amliorer la qualit des donnes finales, mais il faut choisir prudemment une
mthodologie dimputation approprie. Certaines mthodes dimputation ne protgent pas les liens entre
les variables ou peuvent en fait susciter une distorsion des liens sous-jacents des donnes. Il faut tenir
STATISTIQUE CANADA
compte du genre denqute, de ses objectifs et des caractristiques de lerreur pour choisir la mthode
convenable.
Le Chapitre 10 - Traitement reprend en dtail la vrification et limputation.
1.1.8
Estimation
Aprs la collecte, la saisie, le codage, la vrification et limputation des donnes, ltape suivante est
lestimation. Il sagit dun moyen que lorganisme statistique applique pour obtenir des valeurs de la
population dintrt et tirer des conclusions sur cette population partir de linformation obtenue dun
chantillon seulement de la population. Une estimation peut tre un total, une moyenne, un ratio, un
pourcentage, etc.
Le fondement de lestimation dans une enqute-chantillon est la pondration qui indique le nombre
moyen dunits de la population reprsente par une unit de lchantillon. Un total de la population peut
tre estim, par exemple, en additionnant les valeurs pondres des units de lchantillon. Le plan de
sondage dicte la pondration initiale. Des modifications sont parfois apportes cette pondration pour
compenser, par exemple, pour les units qui ne rpondent pas lenqute (c.--d. non-rponses totales) ou
pour tenir compte de linformation secondaire. Les modifications apportes pour les non-rponses
peuvent aussi sappliquer aux donnes dun recensement.
Une enqute-chantillon peut accuser une erreur dchantillonnage parce quune partie seulement de la
population est dnombre et que les units chantillonnes nont pas exactement les mmes
caractristiques que toutes les units de la population reprsente. Il faudrait toujours ajouter une
estimation de lampleur de lerreur dchantillonnage pour chaque estimation, afin dindiquer aux
utilisateurs la qualit des donnes.
Le Chapitre 7 - Estimation traite de lestimation des statistiques simples. Lestimation de lerreur
dchantillonnage est couverte au Chapitre 7- Estimation et au Chapitre 11 - Analyse des donnes de
lenqute.
1.1.9
Lanalyse des donnes comprend le sommaire des donnes et linterprtation de leur signification pour
obtenir des rponses claires aux questions qui ont motiv lenqute. Lanalyse des donnes devrait nouer
un lien entre les rsultats de lenqute et les questions et problmes mentionns dans lnonc des
objectifs. Il sagit de lune des tapes les plus cruciales de lenqute parce que la qualit de lanalyse peut
avoir des rpercussions substantielles sur lutilit de lenqute dans lensemble.
Lanalyse des donnes peut tre restreinte aux donnes de lenqute ou tablir une comparaison entre les
estimations de lenqute et les rsultats dautres enqutes ou sources de donnes. Elle consiste souvent
examiner des tableaux, des graphiques et diverses mesures sommaires, par exemple, les moyennes et les
rpartitions des frquences pour rsumer les donnes. Linfrence statistique peut servir vrifier les
hypothses ou tudier les liens entre des caractristiques, par exemple, laide de tests de rgression,
danalyses de lcart ou du chi au carr.
Le Chapitre 11 - Analyse des donnes de lenqute reprend ce sujet en dtail.
STATISTIQUE CANADA
1.1.11 Documentation
La documentation donne un dossier de lenqute et devrait comprendre chaque tape et phase de
lenqute. Elle peut comprendre divers aspects de lenqute et cibler diffrents groupes, notamment, la
direction, le personnel technique, les concepteurs dautres enqutes et les utilisateurs. Un rapport sur la
qualit des donnes, par exemple, donne aux utilisateurs un contexte pour lutilisation informe des
donnes. Un rapport denqute qui comprend, non seulement les dcisions prises, mais aussi leurs
justifications, donne la direction et au personnel technique de linformation utile pour llaboration et
lapplication ultrieures denqutes semblables. Au cours de la mise en uvre, la documentation des
procdures lintention du personnel aide garantir un droulement efficace.
Le Chapitre 12 - Diffusion des donnes prcise comment organiser un rapport et donne des lignes
directrices sur la rdaction.
1.2
Les tapes de lenqute prsentes ci-dessus ne sont pas ncessairement squentielles : certaines se
droulent en parallle, dautres, par exemple la vrification, sont ritres divers moments pendant le
STATISTIQUE CANADA
processus de lenqute. Chaque tape doit dabord tre planifie, conue et labore, mise en uvre
ensuite et value en bout de ligne. Les phases de la vie utile dune enqute sont dcrites ci-dessous.
1.2.1
Planification de lenqute
1.2.2
Conception et laboration
Aprs avoir tabli un grand cadre mthodologique, il est possible daccomplir un travail dtaill sur les
diverses tapes dune enqute la phase intitule conception et laboration. Lobjectif gnral de cette
phase est de dterminer lensemble des mthodes et procdures qui permettront dtablir un quilibre
appropri entre les objectifs de qualit et les limites des ressources.
STATISTIQUE CANADA
Au cours de cette phase, les essais prliminaires ou les enqutes pilotes ncessaires sont excuts pour
valuer, par exemple, si le questionnaire est appropri, si la base de sondage convient, si les procdures
oprationnelles sont bien choisies, etc. Tout le matriel sur place (p. ex., manuels dinstruction et de
formation des intervieweurs, documents de contrle des chantillons) est prpar pour ltape de la
collecte des donnes. Les programmes logiciels pour les questionnaires administrs par ordinateur sont
labors, modifis ou mis lessai. La touche finale est apporte aux procdures de slection et
destimation de lchantillon pour tablir des spcifications. Les spcifications sur le codage, la saisie des
donnes, la vrification et limputation sont prpares pour le traitement des donnes.
Des procdures devraient tre conues pour contrler et mesurer la qualit chaque tape de lenqute par
souci defficacit ( laide de procdures de contrle qualitatif et dassurance de la qualit) et pour valuer
la qualit des produits statistiques en bout de ligne.
1.2.3
Mise en uvre
Aprs avoir vrifi si tous les systmes sont en place, lenqute peut maintenant tre lance. Cest la
phase de la mise en uvre. Les manuels et les formules de contrle de lenqute sont imprims, ainsi que
le questionnaire (sil sagit dun questionnaire sur support papier). Les intervieweurs sont forms,
lchantillon est slectionn, la collecte de linformation est faite, et tout est ralis comme prvu pendant
la phase de llaboration. Le traitement des donnes commence aprs ces activits. Il comprend la saisie,
le codage, la vrification et limputation des donnes. Le rsultat est un ensemble de donnes complet
bien structur qui permet de produire les totalisations ncessaires et danalyser les rsultats de lenqute.
Ces rsultats sont ensuite vrifis aux fins de la confidentialit puis, diffuss. chaque tape, la qualit
des donnes devrait tre mesure et surveille laide des mthodes conues et labores au cours de
ltape prcdente.
1.2.4
valuation de lenqute
Lvaluation est un processus continu au cours de lenqute. Chaque tape de lenqute devrait tre
value pour dterminer lefficience, lefficacit et les cots, en particulier dans le cas des enqutes
ritres, afin dapporter avec le temps des amliorations sa conception et la mise en uvre. Ce
processus comprend des examens des mthodes appliques, ainsi que des valuations de lefficacit
oprationnelle et de la rentabilit. Ces valuations sont un test pour dterminer si les pratiques techniques
sont convenables. Elles servent aussi amliorer et orienter lapplication de concepts particuliers ou de
composantes de la mthodologie et des oprations au cours dune enqute et dune enqute lautre. Elles
soutiennent les activits et fournissent des mesures et des examens des limites de la qualit des donnes
du programme. Chaque tape de lenqute est aussi value pour donner un aperu des lacunes ou des
problmes dautres tapes de lenqute. La vrification et limputation peuvent donner, par exemple, de
linformation sur les problmes que posent les questionnaires.
Les valuations denqutes prcdentes ou denqutes pilotes sont importantes lors de la planification
dune nouvelle activit statistique : elles peuvent aider formuler des objectifs denqute ralistes, donner
une ide de la qualit des donnes que lon veut obtenir et de linformation essentielle la conception de
lenqute et au traitement des donnes.
STATISTIQUE CANADA
1.3
Sommaire
Quest-ce quune enqute? Toute activit organise et mthodique de collecte dinformation est une
enqute. Elle est habituellement motive par le besoin dtudier les caractristiques dune population,
dimplanter une base de donnes des fins analytiques ou de vrifier une hypothse.
Quelles sont les tapes de lenqute? Une enqute est une procdure beaucoup plus complexe que la
simple activit de poser des questions et de compiler les rponses pour produire des statistiques. Il faut
franchir de nombreuses tapes et appliquer des mthodes et procdures prcises pour que les rsultats
donnent de linformation exacte. Ces tapes comprennent la formulation des objectifs de lenqute, le
choix de la conception de lchantillon, la conception du questionnaire, la collecte, le traitement et la
totalisation des donnes puis, la diffusion des rsultats.
Comment les tapes sont-elles franchies? Lexcution dune enqute peut tre dcrite comme un cycle de
vie utile quatre phases. La premire est la planification qui permet dtablir les objectifs de lenqute, la
mthodologie, le budget et lchancier des activits. La deuxime est la conception et llaboration des
tapes de lenqute. La troisime consiste franchir les tapes de lenqute. La qualit est mesure et
surveille pendant la troisime phase pour garantir que le processus fonctionne comme prvu. En dernier
lieu, les tapes de lenqute sont examines et values.
Bibliographie
Cochran, W.G. 1977. Sampling Techniques. John Wiley and Sons, New York.
Des Raj. 1972. The Design of Sample Surveys. McGraw-Hill Series in Probability and Statistics, New
York.
Moser C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.
Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.
Satin, A. et W. Shastry. 1993. chantillonnage statistique : un guide non mathmatique Deuxime
dition. Statistique Canada. 12-602F.
Statistique Canada. 1987. Lignes directrices concernant la qualit. Deuxime dition.
Statistique Canada. 1998. Statistique Canada Lignes directrices concernant la qualit. Troisime
dition. 12-539-X1F.
STATISTIQUE CANADA
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
11
STATISTIQUE CANADA
12
2.1
Llaboration de lnonc des objectifs est un processus itratif qui engage lorganisme statistique, le
client et les utilisateurs (sils ne sont pas le client). Les tapes du processus visent dterminer :
- les besoins dinformation,
- les utilisateurs et les utilisations des donnes,
- les principaux concepts et les dfinitions oprationnelles,
- la matire de lenqute,
- le plan danalyse.
Considrons lexemple suivant pour illustrer ces tapes. Le conseil municipal a demand la Rgie des
transports en commun de la rgion (RTCR) dappliquer des mesures pour faciliter lutilisation des
transports en commun par les citoyens gs (c.--d. les personnes ges ). La RTCR na pas
dinformation jour sur les besoins ou les habitudes de dplacement des personnes ges et elle a donc
communiqu avec lorganisme statistique pour obtenir de laide la collecte de nouvelles donnes. Le
paragraphe suivant est lnonc initial de la RTCR sur la situation :
La RTCR considre modifier son service actuel pour faciliter lutilisation des transports en
commun par les personnes ges. Les changements possibles comprennent, par exemple, lachat
dautobus spciaux, la modification des autobus actuels, lajout de nouveaux itinraires ou peuttre des tarifs subventionns. Avant de procder des achats et des modifications qui cotent
cher, la RTCR demande de linformation sur les besoins de transport des personnes ges pour
tablir un budget et apporter des amliorations selon leurs besoins.
2.1.2
Les deux questions suivantes se posent : Qui sont les principaux utilisateurs des donnes? quoi servira
linformation? Lorganisme statistique a besoin de savoir qui sont les utilisateurs parce que leur
rtroaction est trs importante pendant la phase de planification de lenqute. (Les utilisateurs des
donnes en bout de ligne ne sont pas toujours le client, mais cest souvent le cas.) Il faut dterminer les
STATISTIQUE CANADA
13
utilisations des donnes pour prciser davantage les besoins dinformation. Cette tape est franchie en
consultation avec le client et les utilisateurs des donnes. Quel genre de questions stratgiques faut-il
considrer? Linformation de lenqute servira-t-elle dcrire une situation ou analyser des relations?
Quel genre de dcisions peuvent tre prises laide des donnes et quelles peuvent tre les consquences?
Il faudrait aussi consulter les rpondants ventuels si possible parce quils pourraient mentionner des
questions et des proccupations importantes pour eux et qui pourraient avoir des rpercussions sur la
matire de lenqute.
son avis, la RTCR demande de linformation sur les besoins de transport des personnes ges pour
tablir un budget et apporter des amliorations selon leurs besoins . Linformation peut servir en
particulier aux planificateurs des transports de la RTCR aux fins suivantes :
- achat dautobus spciaux,
- modification des autobus actuels,
- ajout de nouveaux itinraires,
- subvention des tarifs.
Les besoins dinformation de lenqute sont maintenant identifis, ainsi que les utilisateurs et les
utilisations des donnes. Voil qui est particulirement important. Supposons, par exemple, que la RTCR
prvoit quil faudra ajouter de nouveaux itinraires, elle voudra peut-tre demander aux personnes ges
o devraient tre amnags ces itinraires. Si la RTCR prvoit modifier les autobus actuels, elle voudra
peut-tre savoir quelles modifications prfrent les personnes ges. Si la RTCR considre acheter des
autobus spciaux, elle voudra peut-tre savoir de quel genre dautobus ont besoin les personnes ges. Si
la RTCR compte percevoir des tarifs subventionns, elle voudra peut-tre demander aux personnes ges
quels tarifs elles considrent raisonnables. Les rsultats prvus et les consquences de ces rsultats
dterminent donc la matire de lenqute.
Lorganisme statistique doit, dans ce cas, considrer le genre dunits que comprend la population cible et
les caractristiques qui dfinissent les units. Aux fins de lenqute de la RTCR, il est tabli que le client
sintresse lutilisation des transports en commun par les personnes ges et leurs besoins. Des
dfinitions explicites de personnes ges, transport en commun et utilisation sont ncessaires. Supposons
que les personnes ges sont les 65 ans ou plus selon la dfinition. (Le client doit vrifier auprs de la
RTCR quelle est sa dfinition de personnes ges pour les transports urbains). Il peut y avoir divers
STATISTIQUE CANADA
14
transports en commun : autobus, train, mtro et vhicules pour besoins spciaux. Supposons que le client
sintresse seulement aux autobus. Autre question : le client sintresse-t-il seulement aux personnes
ges qui utilisent actuellement les autobus ou toutes les personnes ges? Le client peut sintresser
toutes les personnes ges.
ii.
La question cible le lieu gographique des units (c.--d. les personnes ges). Le client sintresse peuttre seulement lutilisation des autobus de transport en commun qui se dplacent dans le secteur
mtropolitain de la ville (selon la dfinition dun recensement rcent, par exemple, et de nouveau, une
dfinition claire est ncessaire) ou peut-tre mme au territoire de la RTCR (c.--d. le territoire que sert le
rseau actuel des itinraires des autobus de transport en commun). Le client doit donc dcider si toutes les
personnes ges font partie de la population cible ou si celle-ci comprend seulement celles qui habitent
dans une rgion en particulier.
iii.
Sur quelle priode les donnes portent-elles? (Quand?) La rponse semble tre maintenant parce que
lnonc de la RTCR cible les besoins actuels. Voil qui pourrait signifier en pratique que des questions
seront poses aux personnes ges sur leur utilisation des autobus de transport en commun pendant une
priode de rfrence rcente (semaine, mois, etc.). Faudrait-il faire enqute auprs des personnes ges
pour plus dune priode ou leur poser des questions sur plusieurs priodes de rfrence diffrentes?
Une importante considration sur la priode de rfrence est la saisonnalit. Certaines activits seront
lies une priode en particulier de la semaine, du mois ou de lanne. Les conclusions peuvent donc
viser une priode en particulier, mais elles ne sont pas ncessairement valables pour dautres priodes. Si
la RTCR pose des questions aux personnes ges dans son questionnaire, par exemple, sur leur utilisation
du rseau de transport en commun en semaine, les rsultats de lenqute ne seront peut-tre pas valables
pour les fins de semaine.
Aprs la population cible, de nombreux autres concepts doivent tre dfinis. Voici les exemples de trois
concepts connexes habituellement utiliss dans les enqutes auprs des mnages Statistique Canada :
Un logement est un ensemble de pices dhabitation structurellement distinctes qui a une
entre prive lextrieur de ldifice ou partir dun couloir commun ou dun escalier
lintrieur de ldifice.
Un mnage est une personne ou un groupe de personnes qui habitent un logement. Un mnage
peut tre une personne qui habite seule, une famille ou plus, un groupe de personnes sans lien
de parent, mais qui habitent le mme logement.
Une famille est un groupe de deux personnes ou plus qui habitent le mme logement et qui ont
des liens de parent par le sang, le mariage (y compris lunion libre) ou ladoption. Une
personne qui habite seule ou qui na de lien avec personne dautre dans le logement o elle
habite est classe comme personne hors famille.
Le Chapitre 3 - Introduction au plan denqute donne davantage de dtails pour dfinir la population
cible et celle du sondage.
STATISTIQUE CANADA
2.1.4
15
Matire du sondage
Un nonc des objectifs vident garantit que la matire de lenqute est approprie et clairement dfinie.
Aprs avoir dtermin les besoins dinformation dans lensemble, les utilisateurs et les utilisations, ainsi
que les dfinitions oprationnelles, lorganisme statistique doit ensuite considrer le genre de sujets en
particulier qui seront tudis dans lenqute. Il sagit souvent dun processus itratif. Le processus de
prcision de la matire de lenqute rvle souvent que les besoins dinformation et les utilisations sont
incomplets, ou mme quil est impossible de rpondre certains besoins pour des raisons oprationnelles
ou cause des dfinitions.
Revenons lexemple de la RTCR. Linformation ncessaire un chelon raisonnablement gnral a t
identifie. Lorganisme statistique doit maintenant en apprendre davantage ce sujet.
Le client voudra peut-tre aussi dterminer diverses caractristiques des personnes ges, notamment :
- lge,
- le sexe,
- les incapacits,
- le revenu du mnage,
- le lieu gographique (les personnes ges habitent-elles surtout dans des secteurs restreints en ville,
notamment un foyer de retraite, ou sont-elles rparties sur tout le territoire de la ville?),
- le genre de logement (p. ex., maisons de retraite, appartements, rsidences),
- la composition du mnage (avec qui habitent-elles?).
Le client peut avoir besoin de renseignements sur les points suivants pour dterminer les besoins de
transport :
- nombre de dplacements la semaine dernire,
- frquence des dplacements (par heure de la journe, en semaine et en fin de semaine),
- modes de transport utiliss,
- problmes dutilisation des autobus de transport en commun,
- nombre de dplacements locaux.
Vouloir de linformation sur les caractristiques des dplacements peut susciter des questions sur les
points suivants :
- raison des dplacements,
- point de dpart gographique et la destination des dplacements,
- limites au dplacement,
- aides spciales ou lassistance ncessaire,
- nombre de dplacements annuls cause du manque de transport.
Le client devra peut-tre comprendre certains points, pour dterminer si les besoins sont satisfaits ou non,
notamment :
- laccs (combien de personnes ges ont une automobile, une bicyclette, etc.?),
- lutilisation des autobus de transport en commun,
- la somme dpense pour les autobus de transport en commun,
- les moyens damliorer le service,
- les moyens dinciter les personnes ges utiliser (ou utiliser plus souvent) les autobus de transport
en commun.
Tus les concepts qui ne sont pas dj dfinis devront ltre. Que signifie, par exemple, une incapacit?
Quest-ce quun dplacement?
STATISTIQUE CANADA
16
Les sujets couvrir en particulier dterminent les variables obtenir, la conception du questionnaire et
mme le plan dchantillonnage. Ces points ont aussi des rpercussions sur le choix de la mthode de
collecte des donnes, par exemple, faudrait-il retenir les services dintervieweurs ou non, et quels seront
donc les cots de lenqute?
Lorganisme statistique doit couvrir tous les aspects des besoins dinformation, mais si elle veut viter des
frais superflus ou un fardeau de rponse excessif pour la population de lenqute, il devrait liminer tous
les articles qui ne sont pas directement lis aux objectifs de lenqute.
Au cours dune tape ultrieure, cette description de la matire de lenqute doit tre formule en
questions et mise en forme dans un questionnaire. Ce sujet est couvert en dtail au Chapitre 5 Conception du questionnaire.
2.1.5
Lorsque tous les articles mesurer sont identifis, la tche suivante consiste dterminer combien de
dtails seront ncessaires pour chaque article et la mise en forme des rsultats. Quelles mesures, calculs,
indices, etc., sont ncessaires? Faut-il obtenir des estimations pour les sous-populations? Le plan dtaill
de la mthode danalyse et la prsentation des donnes est le plan danalyse, et aux analyses prvues
sajoute la cration ncessaire de totalisations proposes. Un plan danalyse facilite normment la
conception du questionnaire.
Dans le cas des dtails des rsultats finaux, par exemple, est-il ncessaire de faire une distinction entre les
divers groupes dge des personnes ges? Le client doit-il faire la diffrence entre les hommes et les
femmes, ou entre divers types de transport (autobus, automobile, bicyclette, etc.)? Faut-il utiliser des
donnes nominales ou en continu? Le client a-t-il besoin de savoir, par exemple, le revenu exact dune
personne ge ou le revenu par tranche est-il suffisant? (Si le client est intress calculer les moyennes,
le revenu exact est plus appropri.)
Remarquez que le plan danalyse peut comprendre le retour et des retouches aux dfinitions
oprationnelles et la matire de lenqute. Dans lexemple de la RTCR, voici certaines possibilits pour
le genre de dtails des rsultats, par ordre croissant de dtail :
Revenu du mnage :
- tranches de revenu du mnage (p. ex., moins de 15 000 $, de 15 000 $ 29 999 $, de 30 000 $
49 999 $, etc.),
- revenu total exact du mnage,
- revenu exact de chaque source (traitement ou rmunration, rgime de retraite, investissements).
Incapacits :
- une seule question pour dterminer si la personne ge a une condition physique qui limite sa capacit
de dplacement local,
- une seule question sur plusieurs incapacits distinctes,
- une srie de questions poser pour dterminer la prsence, les caractristiques et la gravit de chaque
incapacit.
Composition du mnage :
- personnes ges qui vivent seules qui ne vivent pas seules,
- nombre de personnes dans les mnages,
STATISTIQUE CANADA
17
catgories de mnage (personne seule, couple, deux adultes ayant des liens autres que ceux dun
couple, trois adultes ou plus ayant des liens, etc.),
ge de chaque adulte et sa relation avec la personne de rfrence pour dterminer la composition
exacte du mnage.
STATISTIQUE CANADA
18
Nombre de dplacements
% du total des
dplacements
Dimanche
Lundi
Mardi
Mercredi
Jeudi
Vendredi
Samedi
Total
Les totalisations croises dintrt ventuel peuvent comprendre :
- le nombre de dplacements par mode de transport (Tableau 2),
- le nombre dautobus utiliss par points de dpart et darrive,
- la rpartition des raisons pour ne pas utiliser le transport en commun par caractristique de personne
(p. ex., personne ayant une incapacit, etc.).
Dautres liens peuvent faire lobjet dune enqute, notamment :
- la somme moyenne dpense pour les transports par tranche de revenu,
- le revenu mdian des personnes ges confines la maison.
Tableau 2 : Nombre de dplacements par mode de transport
Mode de transport
Nombre de
dplacements
% du total des
dplacements
Transport en commun
Autobus
Mtro
Autre
Transport priv
Automobile camion
Bicyclette
Marche
Autre
Total
2.2
De nombreuses exigences et contraintes peuvent avoir des rpercussions sur lnonc des objectifs de
lenqute. Lune est lie la qualit des estimations. quel point les rsultats de lenqute devraient-ils
tre prcis? La question fait rfrence lampleur de lerreur dchantillonnage acceptable pour les
variables les plus importantes. Les rsultats dtaills et prcis exigent souvent de trs larges chantillons
qui sont parfois au-del des moyens du client. Celui-ci peut donc dcider dexiger moins de prcision ou
dobtenir des donnes plus agrges, moins dtailles.
STATISTIQUE CANADA
19
Les lments qui ont des rpercussions sur la prcision et donc, sur la taille de lchantillon comprennent
ceux-ci :
- la variabilit de la caractristique dintrt de la population,
- la taille de la population,
- le plan dchantillonnage et la mthode destimation,
- le taux de rponse.
Les contraintes oprationnelles ont aussi des rpercussions sur la prcision. Ces lments sont parfois les
plus influents :
- Quelle taille dchantillon le client a-t-il les moyens dutiliser?
- Combien de temps peut tre rserv au travail dlaboration?
- Combien de temps peut tre rserv au droulement de lenqute au complet?
- Les rsultats sont-ils rapidement ncessaires aprs la collecte?
- Combien dintervieweurs sont ncessaires? Combien sont disponibles?
- Combien dordinateurs sont disponibles? Combien de membres du personnel de soutien informatique
sont disponibles?
La prcision est labore davantage au Chapitre 3 - Introduction au plan denqute, au Chapitre 6 Plans dchantillonnage, au Chapitre 7 - Estimation et au Chapitre 8 - Calcul de la taille de
lchantillon et rpartition.
Voici dautres lments qui ont des rpercussions sur lnonc des objectifs :
- Les variables ncessaires peuvent-elles tre mesures laide des techniques disponibles?
- Faudra-t-il imposer aux rpondants un fardeau trop lourd pour obtenir les rsultats voulus?
- La vie prive du rpondant sera-t-elle compromise cause du niveau de dtail des rsultats diffuss?
- Lenqute aura-t-elle des rpercussions ngatives sur la rputation de lorganisme denqute?
Toutes ces considrations sont des points de la planification dune enqute. Les diffrents aspects de la
gestion dune enqute sont couverts au Chapitre 13 - Planification et gestion de lenqute.
2.3
Sommaire
Sil na pas une ide claire des besoins dinformation, lorganisme statistique risque de cibler un problme
diffrent, dobtenir des rsultats incomplets ou hors de propos, et de perdre du temps et des ressources.
Les activits de lenqute pourraient simplement ennuyer ou perturber de nombreux rpondants sans
donner de renseignements utiles. Les objectifs de lenqute doivent donc tre clairement dfinis pendant
la phase de planification.
Voici un rsum des questions les plus importantes et des points considrer lors de llaboration des
besoins dinformation et des objectifs de lenqute :
- Quels sont les besoins dinformation de lenqute dans lensemble?
- Qui utilisera les donnes et comment?
- Quelles dfinitions serviront lenqute?
- Quel genre de sujets en particuliers seront considrs pendant lenqute?
- Un plan danalyse a-t-il t prpar avec totalisations proposes?
- quel point les estimations doivent-elles tre prcises?
- Quelles sont les contraintes oprationnelles?
La formulation des objectifs de lenqute peut tre peaufine davantage pendant la conception et
llaboration du questionnaire en particulier (voir le Chapitre 5 - Conception du questionnaire).
STATISTIQUE CANADA
20
Bibliographie
Brackstone, G.J. 1991. Shaping Statistical Services to Satisfy User Needs. Statistical Journal of the
United Nations. ECE 8: 243-257.
Brackstone, G.J. 1993. Data Relevance: Keeping Pace with User Needs. Journal of Official Statistics. 9:
49-56.
Fink, A. 1995. The Survey Kit. Sage Publications, California.
Fowler, F.J. 1984. Survey Research Methods. 1. Sage Publications, California.
Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.
Levy, P. et S. Lemeshow. 1991. Sampling of Populations. John Wiley and Sons, New York.
Moser C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.
Satin, A. et W. Shastry. 1993. chantillonnage statistique : un guide non mathmatique Deuxime
dition. Statistique Canada. 12-602F.
Statistique Canada. 1998. Politique sur les Normes. Manuel des politiques. 2.10.
STATISTIQUE CANADA
21
3.1
Recensement et enqute-chantillon
Erreurs denqute
Il y a deux genres derreurs denqute, lerreur dchantillonnage et lerreur non due lchantillonnage.
STATISTIQUE CANADA
22
Cot
tant donn que tous les membres de la population font lobjet de lenqute, le recensement cote plus
cher que lenqute-chantillon (la collecte des donnes est lactivit la plus chre de lenqute). Dans le
cas dune grande population, il est habituellement possible dobtenir des rsultats prcis partir
dchantillons relativement modestes. LEnqute sur la population active canadienne, par exemple, est
faite chaque mois auprs de 130 000 rsidents environ. La population canadienne compte
approximativement 30 millions de citoyens et la taille de lchantillon est donc de moins de 0,5 % de la
population. Un recensement coterait considrablement plus cher.
iii.
Rapidit dexcution
Il faut souvent obtenir et traiter les donnes, puis diffuser les rsultats, au cours dune priode
relativement brve. tant donn que le recensement saisit des donnes pour toute la population, la collecte
et le traitement des donnes dun recensement demandent considrablement plus de temps que pour une
enqute-chantillon.
iv.
Taille de la population
Le recensement peut tre prfrable pour une petite population. En effet, pour faire des estimations ayant
une petite erreur dchantillonnage, il peut tre ncessaire de tirer un large chantillon de la population.
Dans ce cas et pour des frais supplmentaires minimes, les donnes peuvent tre disponibles pour toute la
population, au lieu dune fraction seulement. Le recensement dune grande population dautre part cote
trs cher et lenqute-chantillon est donc habituellement prfrable.
Les lments qui ont des rpercussions sur la taille de lchantillon sont repris au Chapitre 8 - Calcul de
la taille de lchantillon et rpartition.
STATISTIQUE CANADA
v.
23
Compte tenu du point prcdent, le recensement peut tre prfrable lorsque des estimations denqute
sont ncessaires pour des secteurs gographiques restreints ou des secteurs ayant une petite population.
Une enqute nationale peut tre ncessaire, par exemple, pour obtenir des statistiques sur chaque ville au
pays. Lenqute-chantillon peut donner des statistiques nationales dont lerreur dchantillonnage est
minime, mais, compte tenu de la taille de lchantillon, il peut y avoir trop peu de rpondants pour donner
des estimations dont lerreur dchantillonnage est minime pour toutes les villes. tant donn que le
recensement cible chacun et quil ny a pas derreur dchantillonnage, il peut donner des estimations
pour tous les sous-groupes possibles de la population.
Il nest pas toujours ncessaire de faire le recensement ou lenqute-chantillon. Il est parfois possible de
combiner les deux. Si vous voulez des estimations sur de petits domaines, par exemple, lenqutechantillon peut se drouler dans les plus grandes villes et le recensement, dans les plus petites.
vi.
Si lobjectif de lenqute est destimer la proportion de la population ayant une certaine caractristique, et
si la caractristique est commune, une enqute-chantillon devrait tre suffisante. Si la caractristique est
rare cependant, le recensement peut tre ncessaire. La taille de la sous-population ayant la caractristique
dtermine le choix.
Supposons, par exemple, que le client veut dterminer le pourcentage de personnes ges dans la
population et que ce pourcentage, son avis, est denviron 15 %. Lenqute-chantillon devrait permettre
destimer ce pourcentage avec une petite erreur dchantillonnage. Si les attributs sont plus rares
cependant, et sils touchent moins de 1 % de la population, le recensement peut tre plus appropri.
(Lhypothse est que la base du sondage na pu identifier ces personnes auparavant.)
Il est bien entendu possible quavant de procder lenqute, absolument personne nait de donne sur la
prdominance de lattribut en question. Il est conseill dans ce cas de procder une tude prliminaire,
c.--d. une tude de faisabilit ou une enqute pilote.
vii.
Besoins spcialiss
Il arrive que linformation voulue par enqute ne peut tre demande directement au rpondant ou elle
peut tre un fardeau pour lui. Une enqute sur la sant, par exemple, peut demander des donnes sur la
tension artrielle, le groupe sanguin et la condition physique des rpondants, donnes qui peuvent tre
dtermines avec prcision par un professionnel de la sant seulement. Si le genre de donnes vises
demande du personnel chevronn, du matriel de mesure qui cote cher, ou sil faut imposer un fardeau
relativement lourd aux rpondants, il peut tre impossible de faire un recensement. Dans certains
domaines en particulier (contrle qualitatif dun processus de fabrication par exemple), le caractre
destructif de certains tests peut indiquer que lenqute-chantillon est la seule option logique.
viii.
Autres lments
Il y a dautres raisons de faire le recensement. La cration dune base de sondage en est une. De
nombreux pays, par exemple, font le recensement quinquennal ou dcennal de la population. Les donnes
tires de ce genre de recensement peuvent servir de base de sondage une enqute-chantillon ultrieure
qui cible la mme population.
STATISTIQUE CANADA
24
Obtenir de linformation comparative est une autre raison de faire le recensement. Linformation
comparative peut tre le dnombrement connu de la population, par exemple, le nombre dhommes et de
femmes. Linformation peut servir amliorer les estimations de lenqute-chantillon (voir le
Chapitre 7 - Estimation).
3.2
Au Chapitre 2 - Formulation de lnonc des objectifs, nous avons expliqu comment formuler les
dfinitions oprationnelles et des concepts. Lun des premiers concepts dfinir, y est-il mentionn, est la
population cible, c.--d. la population dont on veut obtenir de linformation.
Les lments suivants sont essentiels la dfinition de la population cible et aux dfinitions
oprationnelles en gnral :
- genre dunits que comprend la population et caractristiques particulires de ces units (qui ou
quoi?),
- localisation des units (o?),
- priode de rfrence considre (quand?).
Lorganisme statistique commence avec une population conceptuelle, pour laquelle il ny a peut-tre
aucune liste concrte, afin de dfinir la population cible. La population conceptuelle peut tre, par
exemple, lensemble des agriculteurs. Il faut dfinir le terme agriculteur pour cerner la population
cible. Celui qui a un petit jardin dans la cour arrire est-il un agriculteur? Quelle est la distinction entre un
agriculteur et un jardinier occasionnel? Quen est-il si un exploitant agricole na vendu aucun de ses
produits? La dfinition de la population cible peut englober, en bout de ligne, tous les agriculteurs au
Canada dont les revenus sont suprieurs un certain seuil au cours dune anne de rfrence en
particulier.
La population denqute est en fait la population que couvre lenqute. Elle peut tre diffrente de la
population cible, mais idalement, les deux devraient tre trs semblables. Il est important de souligner
que les conclusions tires des rsultats de lenqute sappliquent seulement la population de lenqute.
Voil pourquoi la population denqute devrait tre clairement dfinie dans la documentation de
lenqute.
Diverses raisons peuvent expliquer les diffrences entre les deux populations. La difficult et le cot lev
de la collecte des donnes dans les rgions isoles, par exemple, peut motiver la dcision dexclure ces
units de la population denqute. De mme, les membres de la population cible qui vivent ltranger ou
qui sont dans des institutions peuvent tre exclus de la population denqute sil est trop difficile ou
coteux de les intgrer.
Les exemples suivants illustrent les diffrences possibles entre la population cible et la population
denqute.
Exemple 3.1 :
Enqute sur les revenus et les dpenses des mnages
Population cible :
Population denqute :
STATISTIQUE CANADA
25
Aux fins de cette enqute, il a t dcid quil serait trop difficile de faire enqute auprs des gens sans
adresse permanente (les expriences prcdentes ont eu peu de succs). De plus, ceux qui habitent en
institution peuvent tre mentalement ou physiquement incapables de rpondre aux questions. Nombre de
ces gens peuvent tre indisposs rpondre, et mme sils ltaient, souvent, les questions poses ne
sappliquent pas leur situation, et il faudrait donc laborer des instruments denqute modifis. Il
faudrait aussi prvoir des dispositions particulires pour avoir accs certaines institutions en particulier.
3.3
Base de sondage
Lorsque la dfinition de la population cible satisfait le client et lorganisme statistique, certains moyens
daccs aux units de la population sont ncessaires. La base de sondage donne les moyens didentifier
les units de la population denqute et de communiquer avec elles. Cette base de sondage dfinit en
bout de ligne la population denqute : si la base de sondage ne comprend pas les numros de tlphone
non publis, par exemple, ils sont aussi exclus de la population denqute.
Exemple 3.2 :
Recensement du secteur de la fabrication
Population cible :
Population denqute :
Le propritaire peut exploiter un tablissement de fabrication, avec employs ou non. Dans cet exemple,
la seule base de sondage disponible sapplique aux tablissements qui ont des employs et ceux qui nen
nont pas sont donc exclus de la population denqute.
(La population cible est souvent redfinie pour correspondre la population qui peut en pratique faire
lobjet dune enqute. Voil lapproche dornavant applique dans ce manuel : la population cible fait
rfrence la population que lenqute prvoit couvrir, compte tenu des contraintes oprationnelles et
pratiques et de la base de sondage utilise.)
Une base de sondage est ncessaire, non seulement comme vhicule daccs aux units de la population
denqute, mais aussi parce que dans certaines enqutes, lorganisme statistique doit tre en mesure de
calculer la probabilit dinclusion que prsente une unit de la population dans lchantillon. Si on a
recours lchantillonnage probabiliste, ces probabilits permettent de tirer des conclusions sur la
population observe, et cest lobjectif de lenqute. (Consulter le Chapitre 6 - Plans dchantillonnage
pour obtenir une dfinition de lchantillonnage probabiliste.)
On a dj fait rfrence aux units de lenqute dont on peut distinguer trois types :
- lunit dchantillonnage (lunit qui fait lobjet de lchantillonnage),
- lunit de rfrence (lunit sur laquelle linformation est fournie),
- lunit dclarante (lunit qui donne linformation).
Dans certaines enqutes, ces units sont toutes les mmes, mais il en est souvent autrement. Dans le cas
dune enqute auprs des enfants, par exemple, il nest peut-tre pas pratique que lunit de rfrence, un
enfant, soit lunit dclarante. Un plan dchantillonnage commun pour les enqutes auprs des mnages
est le recours une base de sondage qui numre les mnages dans la population de lenqute (une telle
STATISTIQUE CANADA
26
base peut donner la meilleure couverture de tous les enfants de la population cible). Dans une enqute qui
applique ce genre de base de sondage, on procderait lchantillonnage des mnages et demanderait
un parent de rpondre au nom de lunit de lanalyse, cest--dire lenfant.
La base de sondage devrait comprendre les renseignements suivants, en tout ou en partie :
i.
Donnes didentification
Des donnes didentification sont les renseignements de la base de sondage qui identifient sans ambigut
chaque unit de lchantillon, par exemple, le nom, ladresse exacte et un numro didentification unique.
ii.
Donnes de communication
Les donnes de communication sont les renseignements ncessaires pour situer les units de lchantillon
pendant la collecte, par exemple, ladresse postale ou le numro de tlphone.
iii.
Donnes de classification
Les donnes de mise jour sont ncessaires si lenqute doit tre ritre, par exemple, dates des ajouts
ou des modifications apportes aux donnes de la base de sondage.
v.
Donnes de couplage
Les donnes de couplage sont utilises pour lier les units de la base de sondage une source de donnes
plus jour, par exemple, pour mettre jour la base de sondage.
La base de sondage est en rsum un ensemble de renseignements qui donnent le moyen davoir accs
aux units slectionnes de la population de lenqute. Les donnes didentification et de communication
sont le minimum ncessaire pour faire lenqute. Les donnes de classification, de mise jour et de
couplage sont cependant aussi souhaitables. Les donnes de la base de sondage sont un outil
dchantillonnage, mais nous constaterons aussi dans les chapitres ultrieurs quelles peuvent servir
vrifier et imputer des donnes manquantes ou incohrentes, et amliorer lchantillonnage et
lestimation.
Les diffrents aspects des plans dchantillonnage sont repris au Chapitre 6 - Plans dchantillonnage et
au Chapitre 7 - Estimation. Le Chapitre 10 - Traitement porte sur la vrification et limputation.
STATISTIQUE CANADA
3.3.1
27
Il y a deux principales catgories de base de sondage : les listes et les bases arolaires. Si aucune base de
sondage nest approprie, des bases multiples peuvent tre utilises.
3.3.1.1 Liste
Une liste peut tre dfinie comme une liste conceptuelle ou physique de toutes les units de la
population de lenqute. Une liste conceptuelle est souvent utilise pour une population qui existe
seulement au cours de lenqute. Un exemple serait la liste de tous les vhicules qui entrent dans le
stationnement dun centre commercial entre 9 h et 20 h pendant une journe en particulier.
Il est possible dobtenir des listes physiques, ou listes relles des units de la population, de diffrentes
sources. Divers organismes et paliers de ladministration publique maintiennent des listes des fins
administratives. Ces donnes administratives sont souvent les sources les plus efficientes de donnes de
mise jour de la base de sondage. Voici des exemples de liste :
- registre des statistiques de ltat civil (p. ex., une liste de toutes les naissances ou de tous les dcs
dans la population, ou les deux),
- registre des entreprises (p. ex., une liste de toutes les entreprises en exploitation),
- registre des adresses (p. ex., une liste des mnages et des adresses municipales),
- annuaire tlphonique (c.--d. une liste de tous les mnages dont le numro de tlphone est publi),
- listes de clients (c.--d. une liste de tous les clients dune entreprise),
- listes de membres (c.--d. une liste de tous les membres dun organisme).
Il faut tenir compte des lments suivants lorsquon utilise des donnes administratives pour tablir une
liste :
i.
Cot
Les sources administratives offrent souvent un point de dpart bon march pour tablir la base de
sondage. Elles sont aussi une source dinformation pour la mise jour de cette base.
ii.
Couverture
Mise jour
Il est important de dterminer quel point une information administrative est jour. Il faudrait considrer
le temps ncessaire pour traiter les mises jour et le dlai de communication des donnes lorganisme
statistique parce quils peuvent tre des critres dcisifs pour dterminer sil faut utiliser ou non une
source administrative en particulier.
iv.
Dfinitions
Les dfinitions quutilise la source administrative devraient correspondre le plus possible aux concepts de
lenqute. La dfinition dun logement ou dune entreprise, par exemple, peut tre diffrente de celle de
lenqute.
STATISTIQUE CANADA
28
v.
Qualit
La qualit des donnes que fournit la source administrative devrait correspondre lensemble des normes
de qualit de lenqute. (Si les donnes administratives ont un taux de rejet lev la vrification, par
exemple, lorganisme statistique peut dcider que les donnes sont de qualit insuffisante. La vrification
est couverte en dtail au Chapitre 10 - Traitement.)
vi.
Lorsque les sources administratives sont utilises pour tablir une base de sondage, lensemble des
variables que fournit la source devrait tre aussi stable que possible dans le temps. Les modifications des
concepts, des classifications ou de la matire la source peuvent causer des problmes graves de mise
jour de la base de sondage.
vii.
Il devrait idalement y avoir une relation (par exemple, un contrat sign) entre lorganisme statistique et
la source de linformation administrative. Voil qui peut tre important pour garantir la confidentialit des
donnes. Il est aussi important davoir un dialogue ouvert et de favoriser la collaboration entre les deux
partenaires.
viii.
Documentation
Les dossiers de donnes devraient tre documents du point de vue des variables quils contiennent et de
leur configuration. Cest particulirement important si les dossiers sont tenus dans diffrents secteurs de
comptence.
ix.
Linformation est-elle disponible sur support lectronique? Comment linformation est-elle organise?
Faut-il combiner diffrentes listes avant de pouvoir les utiliser?
Pour en savoir davantage propos de lutilisation des donnes administratives, on peut consulter
lAnnexe A - Donnes administratives.
3.3.1.2 Base arolaire
Une base arolaire est une liste spciale dont les units sont des secteurs gographiques. La population
observe est situe dans ces secteurs gographiques. Les bases arolaires peuvent servir lorsque lenqute
a un caractre gographique (mesurer les peuplements de la faune, par exemple, en comptant le nombre
danimaux par kilomtre carr) ou lorsquune liste approprie nest pas disponible, auquel cas la base
arolaire peut tre un moyen de crer une liste. Une liste inapproprie est souvent un problme. Cest
parce que les populations peuvent changer avec le temps, des units naissent, meurent, dmnagent ou
changent de nom, de composition ou de caractre, et nimporte quelle liste peut devenir dsute. Les
limites gographiques sont cependant plus stables et il est souvent plus facile de maintenir une base
arolaire.
Les bases arolaires sont habituellement composes dune hirarchie dunits gographiques. Des units
de base de sondage un niveau peuvent tre subdivises pour former des units au niveau suivant. Les
grandes rgions gographiques comme les provinces peuvent tre composes de districts ou de
STATISTIQUE CANADA
29
municipalits qui peuvent aussi tre diviss en plus petits secteurs, par exemples, les lots dune ville.
Dans les plus petits secteurs gographiques chantillonns, la population peut tre liste pour
chantillonner les units de ce secteur.
Lchantillonnage partir dune base arolaire est souvent effectu en plusieurs tapes. Supposons, par
exemple, quil faut tirer un chantillon des logements dune ville en particulier pour lenqute, mais quil
ny a pas de liste jour. Une base arolaire peut servir crer une liste jour des logements, comme suit :
la premire tape de lchantillonnage, des secteurs gographiques sont chantillonns, par exemple, les
lots dune ville. Ensuite, pour chaque lot slectionn, une liste est tablie en numrant tous les
logements des lots chantillonns en ville. la deuxime tape de lchantillonnage, un chantillon de
logements est ensuite slectionn. Ce genre dapproche a un avantage : elle maintient les cots de cration
dune base de sondage dans des limites raisonnables et elle restreint lchantillon un nombre limit de
secteurs gographiques, moyen rentable de faire des enqutes par interview sur place.
Il est important que les units gographiques chantillonner dans une base arolaire soient identifiables
uniquement sur une carte et que les intervieweurs puissent reprer facilement les limites. Voil pourquoi
les lots des villes, les routes principales et les rivires sont souvent utiliss pour dlimiter les units
gographiques dune base arolaire.
Lexamen de lchantillonnage partir des bases arolaires est plus approfondi au Chapitre 6 - Plans
dchantillonnage. Ltablissement dune liste pour une base arolaire est expliqu au Chapitre 9 Oprations de collecte des donnes.
3.3.1.3 Base de sondage multiple
Une base de sondage multiple est une combinaison de deux bases ou plus (des listes et des bases
arolaires ou deux listes ou plus).
Les bases de sondage multiples sont habituellement utilises lorsquaucune base unique ne peut fournir la
couverture ncessaire de la population cible. Pendant lEnqute sur la sant dans les collectivits
canadiennes (ESCC), on utilise la base arolaire de lEnqute sur la population active (EPA) et une base
de composition alatoire (CA).
Le principal avantage dune base multiple est que la couverture de la population cible peut tre meilleure.
Lun des principaux inconvnients cependant est que la mme unit dchantillonnage peut paratre
plusieurs fois dans la base de sondage. Idalement, une unit devrait paratre une fois seulement dans les
bases utilises pour tablir la base de sondage multiple. En pratique toutefois, une unit est souvent entre
dans plus dune de ces bases. Il y a plusieurs moyens de traiter le chevauchement entre les bases de
composantes :
- liminer le chevauchement pendant la cration de la base de sondage,
- rsoudre le problme pendant la slection de lchantillon (ou sur place),
- corriger le problme ltape de lestimation.
Bankier (1986) approfondit ce sujet. La composition alatoire est tudie au Chapitre 4 - Mthodes de
collecte des donnes.
STATISTIQUE CANADA
30
3.3.2
Sous-dnombrement
Le sous-dnombrement est le rsultat de lexclusion de la base de sondage de certaines units qui font
partie de la population cible. Cest souvent d au laps de temps entre la collecte et le traitement des
donnes utilises pour implanter la base de sondage. Entre le moment o la base est acheve et celui o se
droule lenqute, certaines units sont nes dans la population. Toute unit qui arrive dans la
population cible aprs lachvement de la base de sondage na aucune chance dtre slectionne pour
lenqute. Il en rsulte une sous-estimation de la taille de la population cible et les estimations peuvent
tre biaises. Des procdures sont ncessaires pour mesurer lampleur du sous-dnombrement et corriger
au besoin.
ii.
Surdnombrement
Le surdnombrement est le rsultat de lajout la base de sondage de certaines units qui ne font pas
partie de la population cible. Cest souvent d un laps de temps lors du traitement des donnes de la
base de sondage. Entre le moment o la base est acheve et celui o se droule lenqute, certaines units
de la population meurent (une unit est morte si elle ne fait plus partie de la population cible). Toute
unit qui est dans la base de sondage, y compris ces units mortes hors du champ de lenqute, peuvent
tre slectionnes pour lenqute. Si ces units ne sont pas correctement classes hors du champ de
lenqute dans la base de sondage, la stratgie dchantillonnage peut tre moins efficiente du point de
vue statistique et les rsultats peuvent tre biaiss.
iii.
Rptition
Il y a rptition lorsque la mme unit parat plus dune fois dans la base de sondage. Dans une base
dentreprise, par exemple, la mme entreprise peut tre numre une fois sous sa raison sociale et une
fois sous son nom commercial. Voil un problme frquent des bases de sondage multiples. La rptition
a tendance donner une surestimation de la taille de la population cible et les estimations peuvent tre
biaises. Souvent, les units en double sont repres seulement ltape de la collecte des donnes de
lenqute.
iv.
Classification errone
Les erreurs de classification sont des valeurs inexactes attribues des variables de la base de sondage.
Un homme est inscrit par erreur la catgorie femme, par exemple, ou une entreprise de dtail est classe
grossiste. Le rsultat peut tre un chantillonnage inefficient, ou se traduire par le sous-dnombrement (ou
le surdnombrement) parce que si lchantillon comprend seulement des dtaillants, par exemple, ceux
qui auront t classs grossistes par erreur seront oublis. Les erreurs de donnes didentification ou de
communication peuvent susciter des difficults de reprage du rpondant pendant la collecte.
Le Chapitre 6 - Plans dchantillonnage donne davantage dinformation sur lefficience statistique et
les plans dchantillonnage.
STATISTIQUE CANADA
3.3.3
31
Pertinence
La pertinence devrait tre mesure en dterminant quel point la base de sondage correspond et permet
laccs la population cible. Plus elle est diffrente de la population cible, plus lcart slargit entre la
population denqute et la population cible. Il faudrait aussi valuer quel point elle permet la
comparaison des rsultats des donnes entre divers programmes denqute. Lutilit de la base de sondage
pour dautres enqutes qui couvrent la mme population cible est aussi une mesure essentielle de sa
pertinence.
ii.
Prcision
Il faudrait valuer la prcision en tenant compte de diffrentes caractristiques. Il faudrait dabord valuer
les erreurs de dnombrement (sous-dnombrement, surdnombrement et rptition). Quelle est
limportance des units manquantes, hors du champ de lenqute ou en double dans la base de sondage? Il
faudrait ensuite vrifier les erreurs de classification. Les units sont-elles toutes classes? Si oui, le sontelles correctement? Il faudrait tre trs attentif aux donnes de communication. Sont-elles compltes? Si
oui, sont-elles exactes et prcises? Les rpercussions de la prcision des donnes se manifesteront pendant
les tapes de la collecte et du traitement dans lenqute. La prcision des donnes de la base de sondage a
des rpercussions profondes sur la qualit des rsultats de lenqute.
iii.
Actualit/ Fracheur
Il faudrait mesurer lactualit / la fracheur des renseignements en vrifiant quel point la base est jour,
compte tenu de la priode de rfrence de lenqute. Si linformation de la base est loin dtre jour (
cause de la source des donnes utilise pour implanter la base de sondage ou de la priode ncessaire pour
tablir la base), il faut alors appliquer certaines mesures pour amliorer la rapidit dexcution.
iv.
Cot
Les cots peuvent tre calculs de diffrentes faons. Il faudrait dabord dterminer le total des frais
engags pour obtenir et implanter la base de sondage. Il faudrait ensuite comparer le cot de la base de
sondage et le cot total de lenqute. Il faudrait enfin comparer les frais de mise jour de la base de
sondage au total du budget du programme denqute. Les bases de sondage servent souvent plusieurs
enqutes pour accentuer la rentabilit.
Les caractristiques souhaitables suivantes sajoutent ces importants critres :
a. Procdures et concepts normaliss
Il faudrait appliquer linformation entre dans la base de sondage des dfinitions, procdures,
classifications et concepts normaliss que comprennent le client et lutilisateur des donnes. Voil qui est
particulirement important si ces dfinitions, procdures, classifications et concepts servent dautres
enqutes. La base de sondage devrait aussi permettre une stratification efficiente (du point de vue
statistique et des frais de collecte).
STATISTIQUE CANADA
32
b. La base de sondage devrait tre facile mettre jour laide des sources administratives et de
lenqute.
Cest un moyen de garantir quelle est tenue jour et que la couverture est complte.
c. La base de sondage devrait tre facile utiliser
Les bases de sondage qui rpondent toutes les exigences ci-dessus sont peu nombreuses. Le but est de
choisir la base qui rpond le mieux ces critres. Il est important de savoir que la base de sondage a des
rpercussions directes sur de nombreuses tapes de lenqute. Elle a, notamment, des rpercussions sur la
mthode de collecte des donnes. Si la base de sondage ne donne pas les numros de tlphone, il ne peut
y avoir dinterviews tlphoniques. Elle a aussi des rpercussions sur la mthode dchantillonnage. La
qualit de la base de sondage a donc, bien entendu, des rpercussions sur les rsultats finals de lenqute.
3.3.4
Voici des conseils et lignes directrices utiles pour choisir et utiliser au mieux la base de sondage :
i.
Lorsquil faut choisir une base de sondage (si plusieurs sont disponibles), valuer diffrentes
bases possibles ltape de la planification de lenqute pour dterminer leur pertinence et leur
qualit.
ii.
viter les bases de sondage multiples si possible. Lorsquaucune base unique nest approprie,
cependant, considrer une base multiple.
iii.
Utiliser la mme base de sondage pour les enqutes qui ont la mme population ou le mme sousensemble de la population cible. Voil qui vitera les rsultats non convergents entre les enqutes
et qui diminuera les cots lis la mise jour et lvaluation de la base de sondage.
iv.
Intgrer des procdures pour liminer les rptitions, mettre jour les naissances, les dcs et les
units hors du champ de lenqute, ainsi que les modifications apportes tout autre
renseignement de la base de sondage pour amliorer ou maintenir la qualit de la base de
sondage.
v.
vi.
vii.
viii.
ix.
STATISTIQUE CANADA
33
x.
Procder des vrifications cartographiques pour les bases arolaires laide de vrifications sur
place ou dautres sources cartographiques pour obtenir une dlimitation claire et sans
chevauchement des secteurs gographiques utiliss dans le plan dchantillonnage.
3.4
Erreurs denqute
3.4.1
Erreur dchantillonnage
Plus la caractristique dans la population est variable, plus la variance dchantillonnage est grande.
STATISTIQUE CANADA
34
ii.
La taille de la population
En gnral, la taille de la population a des rpercussions sur la variance dchantillonnage seulement pour
les populations de petite taille ou de taille moyenne.
iii.
Certains plans dchantillonnage sont plus efficients que dautres parce que, pour la mme taille
dchantillon et la mme mthode destimation, un plan peut donner une variance dchantillonnage
moindre que lautre.
iv.
Le taux de rponse
La variance dchantillonnage augmente dans la mesure o la taille de lchantillon diminue. tant donn
que les non-rpondants diminuent en fait la taille de lchantillon, les non-rponses augmentent la
variance dchantillonnage. Les non-rponses peuvent aussi biaiser les rsultats (voir 3.4.2.3).
Les dtails sur les plans dchantillonnage et lchantillonnage probabiliste sont couverts au Chapitre 6 Plans dchantillonnage. La mthode destimation de la variance dchantillonnage, le biais et lerreur
quadratique moyenne sont tudis au Chapitre 7 - Estimation, au Chapitre 8 - Calcul de la taille de
lchantillon et rpartition et au Chapitre 11 - Analyse des donnes de lenqute.
3.4.2
Outre lerreur dchantillonnage, un large ventail derreurs qui ne sont pas lies au processus
dchantillonnage peuvent tre repres dans une enqute. Ces erreurs sont habituellement intitules
erreurs non dues lchantillonnage. Les erreurs non dues lchantillonnage peuvent tre dfinies
comme des erreurs possibles pendant peu prs toutes les activits denqute, mis part
lchantillonnage. Ces erreurs se retrouvent dans lenqute-chantillon et le recensement (contrairement
lerreur dchantillonnage qui est prsente seulement dans lenqute-chantillon). Les erreurs non dues
lchantillonnage peuvent tre rparties en deux groupes :
i.
Erreurs alatoires
Les erreurs alatoires ont des rpercussions qui sliminent approximativement si lchantillon est
suffisamment grand, le rsultat tant une variabilit accrue.
ii.
Erreurs systmatiques
Les erreurs systmatiques ont tendance avoir la mme orientation, elles saccumulent donc dans tout
lchantillon et les rsultats finaux sont biaiss. Contrairement la variance dchantillonnage et aux
erreurs alatoires, ce biais ne diminue pas malgr laugmentation de la taille de lchantillon. Les erreurs
systmatiques sont la principale cause de proccupation au chapitre de la qualit des donnes de
lenqute. Malheureusement, les erreurs non dues lchantillonnage sont souvent trs difficiles et parfois
mme impossibles mesurer.
Voici les principales sources derreurs non dues lchantillonnage :
- couverture,
- mesure,
- non-rponse,
STATISTIQUE CANADA
35
traitement.
STATISTIQUE CANADA
36
STATISTIQUE CANADA
37
STATISTIQUE CANADA
38
dune mthode dimputation inapproprie peut susciter des biais. La modification inexacte des donnes
considres errones ou la modification errone de donnes exactes peuvent aussi expliquer les erreurs.
Les activits de traitement sont expliques en dtail au Chapitre 10 - Traitement. Les erreurs de
traitement sont souvent surveilles et contrles laide de techniques de contrle qualitatif.
LAnnexe B - Contrle qualitatif et assurance de la qualit donne davantage de dtails.
3.5
Sommaire
Bibliographie
Bankier, M. 1986. Estimators Based on Several Stratified Samples with Applications to Multiple Frame
Surveys. Journal of the American Statistical Association. 81-396.
Biemer, P.P., Groves, R.M., Lyberg, L.E., Mathiowetz, N.A. et S. Sudman, ds. 1991. Measurement
Errors in Surveys. John Wiley and Sons, New York.
Cialdini, R., M. Couper et R.M. Groves. 1992. Understanding the Decision to Participate in a Survey.
Public Opinion Quarterly. 56: 475-495.
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge, P.S. Kott, ds. 1995. Business
Survey Methods. John Wiley and Sons, New York.
Food and Agriculture Organization of the United Nations (FAO). 1996. Multiple Frame Agriculture
Surveys. Volume 1: Current Surveys Based on Area and List Sampling Methods. FAO, Rome.
Fuller, W. 1987. Measurement Error Models. John Wiley and Sons, New York.
Gosselin, J.-F., B.N. Chinnappa, P.D. Ghangurde et J. Tourigny. 1978. Coverage. A Compendium of
Methods of Error Evaluation in Censuses and Surveys. Statistics Canada. 13-546E: 7-9.
Groves, R.M. 1989. Survey Errors and Survey Costs. John Wiley and Sons, New York.
STATISTIQUE CANADA
39
Hartley, H.O. 1962. Multiple Frame Surveys. Proceedings of the Social Statistics Section. American
Statistical Association. 203-206.
Laniel, N. et H. Finlay. 1991. Data Quality Concerns with Sub-Annual Business Survey Frames.
Proceedings of the Section on Survey Research Methods. American Statistical Association. 202207.
Lessler, J.T. et W.D. Kalsbeek. 1992. Nonsampling Errors in Surveys. John Wiley and Sons, New York.
Linacre, S.J. et D.J. Trewin. 1989. Evaluation of Errors and Appropriate Resource Allocation in
Economic Collections. Proceedings of the Annual Research Conference. U.S. Bureau of the
Census. 197-209.
Lyberg, L., P. Biemer, M. Collins, E. de Leeuw, C. Dippo, N. Schwarz et D. Trewin, ds. 1997. Survey
Measurement and Process Quality. John Wiley and Sons, New York.
Statistique Canada. 1998. Statistique Canada - Lignes directrices concernant la qualit. Troisime
dition. 12-539-XIF.
Swain, L., J.D. Drew, B. Lafrance et K. Lance. 1992. La Cration dun registre des adresses rsidentielles
pour amliorer la couverture du recensement du Canada de 1991. Techniques denqute. 18(1):
139-156.
Swain, L. et D. Dolson. 1997. Current Issues in Household Survey Nonresponse at Statistics Canada.
Statistics in Transition. 3: 439-468.
STATISTIQUE CANADA
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
41
Introduction
La collecte des donnes est le processus qui permet dobtenir linformation ncessaire pour chaque
unit slectionne de lenqute. Pendant la collecte des donnes, les intervenants de lenqute
dterminent o sont les membres de la population, cest--dire des particuliers ou des organismes, ils
communiquent avec eux et leur demandent de participer lenqute. Un questionnaire est ensuite
administr et les rponses sont enregistres. Ce processus cote cher, demande beaucoup de temps et
normment de ressources, et il a des rpercussions directes sur la qualit des donnes. tant le principal
moyen de communication du grand public avec lorganisme statistique, il contribue limage de marque
de lorganisme et a de grandes rpercussions sur la pertinence de lorganisme et la qualit de ses donnes.
Au cours de la phase de planification de lenqute, il faut prendre de nombreuses dcisions sur la mthode
de collecte des donnes. Un intervieweur devrait-il administrer le questionnaire? Si oui, faut-il faire une
interview tlphonique ou sur place? Faut-il appliquer une combinaison de mthodes, les rpondants
devraient-ils remplir le questionnaire eux-mmes et faut-il faire le suivi auprs des non-rpondants au
cours dune interview tlphonique? Le questionnaire devrait-il tre sur support papier ou lectronique?
Faut-il utiliser des donnes administratives pour obtenir certaines donnes de lenqute? La collecte des
donnes pour plusieurs enqutes devrait-elle tre combine?
La mthode de collecte des donnes choisie devrait donner un taux de participation lev et les donnes
obtenues devraient tre les plus compltes et prcises possibles, mais la mthode devrait aussi minimiser
le fardeau pour les rpondants et tenir compte du budget et des limites oprationnelles du client.
Lobjectif de ce chapitre est de prsenter les diverses mthodes de collecte des donnes, y compris
lenqute par autodnombrement, les mthodes assistes par intervieweur ou ordinateur et le recours aux
donnes administratives, ainsi que les critres qui aident dterminer quelle mthode est la plus
approprie. Les oprations de collecte des donnes en gnral (laccent est mis sur les mthodes assistes
par intervieweur), par exemple, comment reprer les units de lchantillonnage, susciter la collaboration
et saisir les rponses sont exposes au Chapitre 9 - Oprations de collecte des donnes.
4.1
Autodnombrement
Le rpondant remplit le questionnaire denqute par autodnombrement sans laide dun intervieweur.
Divers moyens peuvent servir envoyer le questionnaire au rpondant et le retourner lexpditeur : le
service postal, le tlcopieur, un moyen lectronique (y compris Internet) ou un enquteur. (Si le
questionnaire est retourn par tlcopieur ou sur support lectronique, une ligne scuritaire ou le chiffrage
est alors ncessaire pour garantir la confidentialit des donnes du rpondant). La mthode sur support
papier est intitule interview papier et crayon (IPC) et la mthode sur support lectronique est intitule
auto-interview assiste par ordinateur (AIAO).
STATISTIQUE CANADA
42
ii.
4.1.1
Autodnombrement
Les mthodes denqute par autodnombrement exigent un questionnaire trs bien structur, facile
suivre et donnant des instructions claires au rpondant. Il peut y avoir un numro de tlphone pour
obtenir de laide, afin de remplir le questionnaire. Celui-ci a habituellement une prsentation visuelle plus
labore quun questionnaire assist par intervieweur et ce, pour susciter la participation du rpondant.
(Le Chapitre 5 - Conception du questionnaire donne davantage de dtails sur la mthode de conception
du questionnaire.)
Comparativement la gestion des interviews, ladministration de lenqute par autodnombrement est
relativement facile. Elle cote aussi habituellement moins cher que les mthodes assistes par
intervieweur et des chantillons de plus grande taille peuvent tre slectionns. Cette mthode est utile
pour les enqutes qui exigent de linformation dtaille parce que le rpondant peut consulter des dossiers
personnels. Voil qui peut diminuer les erreurs de rponse parce que le rpondant na pas faire appel
uniquement la mmoire. Lune des applications de lautodnombrement comprend le journal ou le
carnet de notes. Au cours dune enqute par journal, le rpondant prend des notes pendant la priode de
rfrence de lenqute, par exemple, un journal dauditeur pour les enqutes sur la radio et la tlvision
pendant une semaine en particulier, ou un carnet de notes sur les achats dessence pour une enqute sur la
consommation dessence des vhicules. Lautodnombrement est aussi utile pour les questions caractre
dlicat parce que le questionnaire peut tre rempli en priv, sans intervieweur.
Lun des inconvnients de lenqute par autodnombrement est que les rpondants doivent avoir des
connaissances ou une bonne scolarit, ou le sujet denqute doit tre trs simple. Autre inconvnient : les
taux de rponse sont habituellement plus faibles que ceux des mthodes assistes par intervieweur parce
quil ny a pas de pression exerce pour que le rpondant rponde entirement au questionnaire. Le taux
de rponse aux enqutes par autodnombrement Statistique Canada est habituellement infrieur 70 %.
(Le Recensement de la population est une exception, le taux de retour par la poste tant de 85 %, cause
STATISTIQUE CANADA
43
44
qui fait enqute et reprsenter un fardeau pour le rpondant. Enfin, lintervieweur peut amliorer la
qualit des donnes en vrifiant sil y a eu communication avec lunit dchantillonnage choisie et si
cest bien elle qui est interviewe.
Autre avantage de linterview : elle permet des priodes de collecte plus souples. Si la collecte des
donnes est trop lente et sil faut acclrer le processus, dautres intervieweurs peuvent tre engags.
Cette solution ne sapplique pas aux mthodes denqute par autodnombrement parce quil est
pratiquement impossible de dterminer quand le rpondant remplit et retourne le questionnaire.
Voici les deux principaux inconvnients des mthodes assistes par intervieweur : elles peuvent coter
cher et la gestion peut tre difficile. Certaines dpenses comprennent la rmunration de lintervieweur, sa
formation, les frais de transport et dhbergement (pour les interviews sur place) ou la superficie de
bureau et les tlphones pour les interviews tlphoniques centralises. Autres inconvnients des
mthodes assistes par intervieweur : la formation mdiocre de lintervieweur peut occasionner des
erreurs de rponse et, dans le cas des sujets caractre dlicat, le rpondant peut hsiter rpondre aux
questions (mme si linterview tlphonique permet un certain anonymat). Si un intervieweur bien form
nest pas disponible et quun biais li un intervieweur devient un problme srieux, lenqute par
autodnombrement peut tre prfrable.
Les erreurs de rponse ont t tudies au Chapitre 3 - Introduction au plan denqute; le sujet est
repris au Chapitre 5 - Conception du questionnaire. Les sections suivantes exposent les avantages et les
inconvnients des interviews tlphoniques et sur place.
4.1.2.1 Interviews sur place
Linterview sur place se droule en prsence du rpondant. Celle-ci est habituellement faite la rsidence
de la personne ou en milieu de travail. Cest la seule mthode raliste de collecte des donnes pour
certaines populations cibles, par exemple, lorsque linterview tlphonique est impossible ou que
lenqute exige une visite pour chantillonner ou reprer des membres de la population (p. ex., pour
achever le listage dune base arolaire).
Les interviews sur place donnent souvent les taux de rponse les plus levs (habituellement, de 80 %
95 % pour Statistique Canada), mais cest la mthode de collecte la plus onreuse dhabitude, compte
tenu des frais de transport et dhbergement des intervieweurs. Cette mthode de collecte peut donc
inciter slectionner des chantillons de plus petite taille que celle des interviews tlphoniques ou
denqute par autodnombrement. Linterview sur place pose un autre problme : il peut tre difficile de
rencontrer la personne la maison ou au travail et lintervieweur devra peut-tre visiter la rsidence ou le
lieu de travail plusieurs fois avant de russir communiquer avec le rpondant. Celui-ci est parfois
prsent, mais lheure ne convient pas, et lintervieweur doit convenir dune nouvelle rencontre pour
linterview.
Voici dautres avantages de linterview sur place :
- lintervieweur peut faire des observations directes (qui sont impossibles pendant linterview
tlphonique),
- lintervieweur russit gnralement mieux convaincre une personne qui refuse de rpondre,
- lintervieweur peut inspirer confiance en montrant au rpondant ses pices didentit officielles.
Voici dautres inconvnients de linterview sur place :
- il est parfois difficile de retenir les services dun intervieweur raisonnablement qualifi dans tous les
domaines enquts,
STATISTIQUE CANADA
45
il est difficile de confier des charges de travail des intervieweurs moins dbords,
il est difficile dappliquer un programme de contrle qualitatif au processus de linterview.
STATISTIQUE CANADA
46
Lchantillonnage des interviews par tlphone et linterview tlphonique sont souvent choisis pour les
enqutes auprs des mnages comme compromis pratique entre les chantillons de base arolaire avec
interviews sur place plus onreuses, mais de qualit suprieure, et les enqutes par questionnaire
dautodnombrement envoi-retour par la poste moins onreuses, mais de qualit infrieure. Le recours
lchantillonnage des interviews par tlphone et linterview tlphonique permet dviter les cots
levs de mise jour des bases arolaires et du temps de dplacement pour les interviews sur place, tout
en obtenant des taux de rponse raisonnablement levs. Il est important que la population dont on tire
lchantillon soit reprsentative de la population cible, au moins du point de vue des caractristiques
dintrt pour lenqute, comme cest toujours le cas pour toute mthode dchantillonnage. Lenqute
tlphonique peut poser un problme en ce sens si un pourcentage important de la population cible na
pas le tlphone ou sil y a des carts importants entre les sous-populations. (Certains biais ventuels
cause des carts des taux de service tlphonique peuvent tre diminus de la mme faon que les taux
diffrentiels de non-rponse peuvent tre pris en compte.)
Un exemple de biais que peut susciter lutilisation dune base de sondage non reprsentative est le cas
maintenant classique de lenqute dopinion du Literary Digest effectue pendant les lections
prsidentielles de 1936 aux .-U. Le sondage soutenait que le candidat rpublicain Alf Landon
lemporterait sur le prsident Roosevelt :
Landon
Roosevelt
55 %,
41 %.
37 %,
61 %.
La base utilise pour cette enqute-chantillon par envoi et retour par la poste tait axe surtout sur les
adresses trouves dans les rpertoires tlphoniques et les listes denregistrement des automobiles. Les
Amricains propritaires dautomobiles et de tlphones en 1936 taient gnralement bien nantis et
votaient pour le Parti rpublicain. Un pourcentage important de llectorat navait cependant ni tlphone
ni automobile et ces citoyens avaient tendance voter pour le Parti dmocratique. (Au Canada, aux tatsUnis et dans de nombreux pays dEurope de nos jours, peu prs tous les mnages ont le service
tlphonique, et la possibilit dobtenir des rsultats biaiss pour de nombreuses estimations des enqutes
auprs des interviews par tlphone est beaucoup moindre que ce nest le cas dans cet exemple de 1936.)
Le choix de la base de sondage est une importante question lors de la slection dun chantillon des
interviews par tlphone. La base de sondage de lenqute par tlphone serait complte si elle
comprenait tous les numros de tlphone utiliss et, pour quelle soit efficiente, elle devrait contenir le
moins possible de numros non utiliss. Lamlioration de lexhaustivit dune base de sondage
denqute par tlphone en rduit gnralement lefficience. Il est important dessayer dobtenir autant
lefficience que lexhaustivit. Le recours aux annuaires tlphoniques (en direct ou sur support papier)
comme base de slection dchantillons dinterviews par tlphone peut tre trs efficient, mais le
manque dexhaustivit augmente le risque de rsultats biaiss. Les numros de tlphone non publis ne
sont pas dans ces annuaires et cest vident, les annuaires sont toujours prims depuis plusieurs mois, ou
mme plusieurs annes, et les gens qui ont de nouveaux numros ny sont pas inscrits non plus. Des
techniques de composition alatoire (CA) sont habituellement appliques pour amliorer lexhaustivit de
la couverture dun chantillon dinterviews par tlphone. Voici un exemple de ce qui peut tre fait au
Canada pour obtenir lefficience et lexhaustivit.
STATISTIQUE CANADA
47
La composition des numros de tlphone varie dun pays lautre, mais au Canada, le modle nordamricain est utilis, c.--d. le numro de tlphone dix chiffres : un indicatif rgional trois chiffres,
suivi dun prfixe trois chiffres auxquels sajoutent quatre chiffres supplmentaires. Il y a actuellement
21 indicatifs rgionaux utiliss au Canada, et une seule base de sondage consisterait en lannexion de
10 millions de numros sept chiffres possibles pour chacun des 21 indicatifs rgionaux, le rsultat
donnant 210 millions de numros de tlphone dans la base de sondage. Celle-ci serait absolument
complte (jusqu ce quun nouvel indicatif rgional soit ajout), mais, au Canada actuellement, environ
13 millions de numros de tlphone seulement sont attribus aux mnages, cest--dire que 94 % des
numros slectionns au hasard dans cette base de sondage ne permettraient pas de communiquer avec les
mnages. Il serait donc peu efficient dutiliser la base. Il est cependant possible de lamliorer. Il est
possible dacheter une liste de toutes les combinaisons dindicatifs rgionaux et de prfixes utiliss en
Amrique du Nord. Il y en a actuellement 8 600 au Canada, partir desquelles une base peut tre tablie
en annexant chacun les 10 000 numros quatre chiffres possibles pour obtenir une base de 86 millions
de numros dont 85 % seulement ne permettraient pas de communiquer avec les mnages. La mthode
Mitofsky-Waksberg peut tre applique pour amliorer davantage lefficience oprationnelle de cette base
de sondage au risque de compliquer les procdures de terrain et de diminuer ventuellement lefficience
statistique en ayant recours aux grappes. Statistique Canada amliore davantage la base dchantillonnage
des interviews par tlphone laide des donnes administratives.
Une banque de centaine comprend les 100 numros de tlphone dont lindicatif rgional, le prfixe et les
deux numros suivants sont identiques. laide des listes administratives de numros de tlphone
publis, il est possible didentifier toutes les banques de centaine qui contiennent au moins un numro de
tlphone de mnage publi. Il y a environ 260 000 de ces banques actives qui donnent une base de
sondage contenant 26 millions de numros de tlphone dont environ la moiti seulement ne permettent
pas de communiquer avec les mnages. Les deux premires bases de sondage sont compltes un
moment donn (et elles le sont jusqu ce que de nouveaux indicatifs rgionaux ou de nouvelles
combinaisons dindicatifs rgionaux et de prfixes soient activs), mais la base de sondage fonde sur les
banques de centaine actives peut tre incomplte. Si une banque de centaine ne contient pas de numros
de mnage publis, mais si elle contient certains numros de mnage non publis, cette caractristique ne
paratra pas dans la base comme elle le devrait. Les socits de tlphone utilisent aussi de nouvelles
banques de centaine beaucoup plus souvent que des indicateurs rgionaux et des prfixes nouveaux, et les
nouveaux indicatifs rgionaux et prfixes sont publis avant dtre activs. Cette dernire mthode de CA
est intitule troncation des banques sans numros lists ou limination des banques inutiles.
Mme si les banques inutiles sont limines pour amliorer lefficience, environ la moiti des numros de
tlphone dun chantillon obtenu par CA pour une enqute auprs des mnages au Canada seront des
numros hors du champ de lenqute. Avant de faire une interview au tlphone, lintervieweur doit donc
confirmer que le numro est dans le champ de lenqute. Dans le cas des enqutes par CA au Canada,
lintervieweur passe de quatre six minutes de son temps sur des numros hors du champ de lenqute
pour chaque interview acheve. Ces minutes peuvent reprsenter un pourcentage important du temps total
que lintervieweur passe chaque interview si le questionnaire est bref. Cest nanmoins relativement
peu, comparativement au temps de dplacement ncessaire pour les interviews sur place.
Le plan dchantillonnage par composition alatoire est moins souple que les plans de base arolaire du
point de vue de la stratification. (La stratification rpartit la population de lenqute en sous-populations,
par exemple, en provinces. Trois principales raisons justifient la stratification : faire en sorte que la
stratgie dchantillonnage soit efficiente, garantir des tailles dchantillon appropries pour les souspopulations particulires qui font lobjet de lanalyse et viter de tirer un chantillon erron .) Les
bases arolaires donnent une souplesse pour le choix de la strate gographique, mais pour les enqutes par
CA, la gographie de la stratification doit tre axe sur lindicatif rgional et le prfixe (ou des concepts
semblables pour les rseaux tlphoniques hors de lAmrique du Nord). Des secteurs gographiques
STATISTIQUE CANADA
48
correspondent gnralement ces indicatifs et prfixes, mais ils ne correspondent peut-tre pas aux
limites municipales ou dautres limites dimportance pour lenqute. Lchantillonnage par CA permet
la slection dchantillons de mnages non constitus en grappe pour compenser et donne des chantillons
qui ont tendance tre plus efficients du point de vue statistique (effets de plan moindres ) que les
chantillons des bases arolaires.
Dillman (1978), Groves et coll. (1979), Groves et coll. (1988) et Lavrakis (1987) donnent davantage
dinformation sur lchantillonnage des mnages par tlphone. Les problmes de couverture de la base
de sondage ont t vus au Chapitre 3 - Introduction au plan denqute. Le Chapitre 6 - Plans
dchantillonnage expose des considrations dtailles sur les plans dchantillonnage. Le Chapitre 7 Estimation donne de linformation sur les corrections apporter pour les non-rponses.
4.1.3 Choix dune mthode denqute par autodnombrement ou assiste par intervieweur
Il faut considrer diverses questions pour slectionner une mthode de collecte des donnes :
- linformation pour la collecte disponible dans la base de sondage,
- les caractristiques de la population cible,
- le genre de questions poses,
- les ressources disponibles (p. ex., les intervieweurs),
- la facilit remplir le questionnaire,
- les considrations sur la vie prive,
- les exigences de qualit des donnes.
Linformation pour la collecte disponible dans la base de sondage est un lment important pour
dterminer la mthode de collecte des donnes la plus approprie. Si la base ne comprend pas les adresses
postales, les questionnaires denqute par autodnombrement ne peuvent tre envoys aux rpondants par
la poste. Si les numros de tlphone jour ne sont pas disponibles et si la composition alatoire est
considre inapproprie, les interviews ne peuvent donc tre faites par tlphone.
Les caractristiques de la population cible ont des rpercussions sur la mthode de collecte des donnes.
Si le taux dalphabtisation de la population est faible ou si les difficults de communication sont un
problme (p. ex., les immigrants), les mthodes assistes par intervieweur peuvent tre la seule option. La
rpartition gographique de la population et de lchantillon sont aussi importantes. Si la population et
lchantillon sont largement disperss au pays, les interviews sur place pourraient coter trop cher et tre
trop difficiles accomplir. (La rpartition de la population et le cot de la collecte des donnes sont des
lments qui aident dterminer la mthode dchantillonnage la plus approprie comme on lexplique au
Chapitre 6 - Plans dchantillonnage.)
Le genre de questions de lenqute a des rpercussions sur la collecte des donnes. Dans le cas de la
matire caractre dlicat, une mthode de collecte axe sur lanonymat, notamment les interviews
tlphoniques et denqute par autodnombrement, peut tre la plus approprie. Si des questions
complexes sont poses, un intervieweur peut tre ncessaire pour expliquer les questions et les concepts.
Si lintervieweur doit faire des observations ou prendre des mesures (p. ex., administration dun examen
dalphabtisation aux enfants) ou prsenter le matriel aux rpondants (p. ex., graphiques ou
diagrammes), linterview sur place peut alors tre ncessaire.
Les ressources disponibles ont des rpercussions profondes sur le choix de la mthode de collecte des
donnes, Ces ressources comprennent le budget, le personnel, le matriel et le temps disponibles.
Lapplication dune mthode assiste par intervieweur exige un budget suffisant pour lembauche, la
formation et les dplacements des intervieweurs. Lorganisme statistique doit aussi tre en mesure
STATISTIQUE CANADA
49
dobtenir le nombre dintervieweurs ncessaires. Si une mthode assiste par ordinateur est slectionne,
des programmeurs chevronns seront ncessaires, ainsi que le matriel informatique appropri.
Certaines mthodes de collecte des donnes sont plus faciles administrer que dautres. Les interviews
tlphoniques centralises (c.--d. que tous les intervieweurs sont installs au mme endroit pour
tlphoner), par exemple, sont plus faciles organiser que les interviews sur place et gographiquement
disperses. La priode limite de collecte des donnes est aussi importante : les mthodes par
autodnombrement sont habituellement plus lentes que les mthodes assistes par intervieweurs et les
mthodes manuelles sur support papier sont normalement plus lentes que celles assistes par ordinateur.
Il faudrait en bout de ligne considrer les exigences de qualit des donnes lors de la slection dune
mthode de collecte des donnes. Les intervieweurs bien forms aux concepts utiliss dans lenqute
peuvent rduire les erreurs de rponse et les non-rponses. Il faudrait considrer les exigences de
prcision : les chantillons plus nombreux donnent gnralement des estimations plus prcises (c.--d. des
estimations comprenant une erreur dchantillonnage de moindre importance), mais plus la mthode de
collecte des donnes cote cher, plus lchantillon la porte des moyens du client est rduit. Les
interviews sur place sont souvent la mthode la plus chre et les enqutes par autodnombrement, la
moins chre. La capacit de mesurer la qualit et dappliquer les procdures de contrle qualitatif peut
aussi tre importante. Il est plus facile de surveiller la qualit des interviews tlphoniques, par exemple,
que celle des interviews sur place.
Le tableau suivant affiche une comparaison entre les mthodes de collecte des donnes denqute par
autodnombrement, par interview sur place et par interview tlphonique, compte tenu du temps
ncessaire pour achever la collecte des donnes et dterminer les taux de rponse.
Tableau 1 : Mthodes de collecte des donnes denqute par autodnombrement et assiste par
intervieweur
Autodnombrement
Cot
Temps
Taux de rponse
Faible
Plus long
Faible
Intervieweur
Sur place
lev
Moyen
lev
Tlphonique
Raisonnable
Moins long
Moyen - lev
Les dtails pour dterminer comment slectionner un plan dchantillonnage sont couverts au
Chapitre 6 - Plans dchantillonnage. Les lments qui dterminent la taille de lchantillon sont
tudis au Chapitre 8 - Calcul de la taille de lchantillon et rpartition.
4.2
Un lment important du plan denqute est de dterminer si la collecte comprend des mthodes assistes
par ordinateur ou une approche traditionnelle sur support papier, auquel cas les rponses sont inscrites
dans un questionnaire sur support papier. La mthode intitule interview papier et crayon (PAPI pour
paper and pencil interview1) est encore applique parfois, mais la collecte des donnes assiste par
ordinateur devient prdominante.
Dans ce manuel, on utilisera lacronyme anglais PAPI plutt que le franais IPC pour viter toute confusion avec
lIndice des prix la consommation.
STATISTIQUE CANADA
50
Si lenqute doit se drouler une seule fois, les mthodes sur support papier cotent souvent moins cher et
demandent moins de temps dlaboration que les mthodes assistes par ordinateur. La saisie des
donnes, c.--d. le transfert des rponses en une mise en forme interprtable par la machine, devient
cependant une opration distincte aprs la collecte. La saisie des donnes est une tape de lenqute
ncessaire parce que toutes les donnes denqute doivent en bout de ligne tre entres et sauvegardes
dans un ordinateur.
Voici dautres inconvnients de la collecte sur support papier :
- la collecte manuelle des donnes demande beaucoup de temps et la lecture optique du questionnaire
nest peut-tre pas une option,
- le questionnaire ne devrait pas comprendre des instructions passez ou des vrifications
compliques,
- limpression des questionnaires peut coter cher,
- lenvoi des questionnaires par la poste peut coter cher,
- les questionnaires remplis doivent tre rangs et protgs en toute scurit pour garantir la
confidentialit des donnes des rpondants.
Lavantage principal des mthodes assistes par ordinateur est la simultanit de la collecte et de la saisie
des donnes, le rsultat tant un processus de saisie et de collecte intgr, plus rapide et plus efficient.
Nimporte quelle mthode de collecte des donnes peut servir au droulement de linterview assiste par
ordinateur (IAO) :
- autodnombrement (auto-interview assiste par ordinateur, AIAO),
- tlphone (interview tlphonique assiste par ordinateur, ITAO),
- sur place (interview sur place assiste par ordinateur, IPAO).
LAIAO est une technologie relativement rcente et peu utilise. Le questionnaire, ainsi quun
programme de vrification pour reprer les entres manquantes, errones ou incohrentes, et des
caractristiques daide, sont envoys au rpondant en mise en forme lectronique. Le rpondant remplit le
questionnaire laide de son ordinateur. Cette mthode permet au rpondant qui a le matriel
informatique et le logiciel ncessaires de saisir et de vrifier directement les donnes laide de son
ordinateur pendant que le systme lincite passer dune question de lenqute lautre. Le questionnaire
sur disquette peut tre envoy par la poste ou par messager, ou le fichier lectronique peut tre achemin
par modem laide dune ligne protge.
Statistique Canada procde actuellement des projets pilotes de collecte des donnes en mise en forme
structure standard en toute scurit sur Internet. Le recours Internet a des avantages : les cots de
collecte et de saisie des donnes diminuent et la rapidit dexcution est la hausse. Internet un
inconvnient : le questionnaire doit tre compatible avec les diffrentes versions logicielles de la toile
(p. ex., Explorer, Netscape, Windows, UNIX, etc.). Autre inconvnient : le nombre dutilisateurs de
lInternet haute vitesse est relativement faible (mme si ce nombre pourrait augmenter rapidement au
cours des prochaines annes) et cette option est donc peu probable pour les enqutes auprs des mnages,
mais elle est plus raliste pour les enqutes auprs des entreprises.
LAIAO a un avantage en gnral : elle est souple et pratique pour le rpondant qui a le matriel
informatique et le logiciel, mais tous les rpondants nont pas le matriel informatique ncessaire, et cest
le principal inconvnient.
Pour lITAO et lIPAO, chaque intervieweur dispose dun ordinateur. Lintervieweur lit un scnario
affich lcran et entre les rponses directement dans lordinateur. LITAO et lIPAO deviennent
prdominantes au Canada mesure que la technologie informatique volue.
STATISTIQUE CANADA
51
STATISTIQUE CANADA
52
La saisie des donnes est considre plus en dtail au Chapitre 9 - Oprations de collecte des donnes.
Le Chapitre 10 - Traitement cerne le traitement des donnes, y compris la lecture optique pour la saisie
des donnes et la vrification.
4.3
Outre les mthodes assistes par intervieweur et denqute par autodnombrement, dautres mthodes de
collecte des donnes comprennent lobservation directe, la dclaration lectronique des donnes, les
donnes administratives, les mthodes combines et les enqutes omnibus ou supplmentaires.
4.3.1
Observation directe
Cette mthode consiste observer ou mesurer directement les caractristiques dintrt sur place ou en
laboratoire. Elle peut tre la seule possibilit pour certains concepts (p. ex., des donnes mdicales) et elle
est souvent applique aux enqutes sur les prix. La tldtection est une forme dobservation directe qui
interprte les images satellites. Elle est utilise dans certaines enqutes sur les exploitations agricoles pour
estimer les types et les secteurs de culture. Ce genre de collecte ne peut tre applique la majorit des
donnes parce quelles ne peuvent tre observes ou mesures directement.
La mesure directe est habituellement prcise et, lorsque seules les observations sont faites, il ny a pas de
fardeau de rponse. Dans le cas de la mesure des gens, cependant, les sujets ltude peuvent considrer
que ces mesures sont un tracas et un fardeau, par exemple, au cours dune tude mdicale lorsquil faut
prlever des chantillons de sang des patients. Les taux de participation peuvent tre faibles.
La mesure directe pose une difficult, c.--d. quelle peut coter cher parce quil faut former tous les
intervieweurs lobservation et la mesure des donnes, et il pourrait tre ncessaire dembaucher des
spcialistes (p. ex., des infirmires pour mesurer la tension artrielle). Si des spcialistes sont ncessaires
et si seulement quelques-uns peuvent tre engags, le plan dchantillonnage et la taille de lchantillon
peuvent tre normment restreints.
4.3.2
Certaines enqutes permettent aux rpondants de fournir des donnes lectroniques (p. ex., sur disquette,
bande dordinateur ou cartouche), selon leur propre mise en forme. La DED est une forme
dautodnombrement qui peut tre trs pratique pour le rpondant, mais elle est habituellement offerte
seulement sil ny a aucun autre moyen dobtenir les donnes. Certaines entreprises, par exemple, peuvent
fournir leurs donnes seulement de cette faon.
Lorsque les donnes sont transfres de lordinateur du rpondant celui de lorganisme statistique
laide dune ligne rserve (de modem modem), il y a transfert de donnes dordinateur ordinateur. On
vite souvent la DED si une mise en forme standard ne peut tre convenue avec le rpondant parce quil
faut normment de travail pour vrifier et traiter les donnes, afin quelles conviennent la mise en
forme utilise par lorganisme statistique.
STATISTIQUE CANADA
4.3.3
53
Donnes administratives
Il est possible dobtenir linformation ncessaire certaines enqutes partir des donnes administratives.
Les donnes administratives sont celles qui ont t obtenues des fins administratives (p. ex., pour
administrer, rglementer ou imposer des activits dentreprises ou de particuliers), et non des fins
statistiques (pour tudier des groupes de particuliers, dentreprises, dexploitations agricoles, etc.).
Les dossiers administratifs ont un norme avantage parce quils permettent dviter la majeure partie des
cots de collecte des donnes et du fardeau des rpondants. Des rsultats denqute rapides sont aussi
possibles parce que les donnes existent dj. Lobjectif du programme administratif peut cependant tre
trs diffrent de celui de lenqute, et il faut donc valuer prudemment les dfinitions et les concepts
(p. ex., la population cible et la couverture de cette population). Il y a aussi un manque de contrle
qualitatif des donnes (dtermin par ladministrateur et non lorganisme statistique). Le suivi des rejets
la vrification est habituellement impossible. Il y a aussi un travail de traitement habituellement
considrable faire pour garantir la mise en forme des donnes administratives selon les exigences de
lorganisme statistique. Enfin, la confidentialit peut susciter des proccupations quant lutilisation de
donnes administratives des fins statistiques.
LAnnexe A - Donnes administratives offre davantage de dtails ce sujet.
4.3.4
Mthodes combines
Lune des stratgies de collecte les plus satisfaisantes est doffrir aux rpondants un choix de mthode de
collecte des donnes. Les avantages des mthodes combines comprennent des taux de rponse amliors,
un nombre moins lev derreurs de rponse et une collecte plus rapide. Les mthodes combines ont un
inconvnient, c.--d. que la collecte peut tre plus complexe et coter plus cher. Autre inconvnient : elles
produisent des donnes htrognes qui peuvent compliquer le traitement et lanalyse. Si une enqute par
questionnaire postal dautodnombrement se droule, par exemple, et sil y a suivi tlphonique auprs
des non-rpondants laide dun questionnaire plus bref, les deux versions du questionnaire doivent tre
rapproches pendant le traitement. Les rsultats peuvent tre biaiss si les donnes des interviews
tlphoniques sont de meilleure qualit que celle des questionnaires denqute par autodnombrement, ce
qui compliquera lanalyse des donnes.
Lenqute mensuelle est un autre exemple de mthodes combines : il peut tre rentable de communiquer
avec le rpondant en personne pour la premire interview et au tlphone pour les interviews ultrieures.
Cest le cas de lEnqute canadienne sur la population active. Lors du recensement de la population
canadienne, la collecte des donnes est faite avant tout laide dun questionnaire envoy et retourn par
la poste. Le suivi est fait au cours dinterviews tlphoniques et sur place. Le taux de rponse des
enqutes par questionnaire postal dautodnombrement est amlior laide du suivi auprs des nonrpondants en deux tapes, dabord au tlphone, puis sur place. Une autre solution de plus en plus
populaire : les donnes obtenues par questionnaire sont combines aux donnes administratives, afin de
rduire lerreur de mmoire, le fardeau des rpondants et les cots de lenqute.
4.3.5
Il est parfois possible dappliquer un moyen de collecte une autre enqute, laide dune enqute
omnibus ou supplmentaire. Lors dune enqute supplmentaire, le nouveau questionnaire est ajout en
supplment au questionnaire de lautre enqute. Celle-ci est habituellement une enqute grande chelle.
Les enqutes supplmentaires sont communes dans les organismes gouvernementaux. Un exemple
Statistique Canada est lEnqute sur les voyages des Canadiens qui collecte de linformation sur les
STATISTIQUE CANADA
54
dplacements et les caractristiques des Canadiens qui voyagent, et elle se droule en supplment
lEnqute sur la population active.
Les questions de plusieurs enqutes diffrentes sont combines en un seul questionnaire pour une enqute
omnibus. Le questionnaire de lenqute omnibus est ainsi compos de plusieurs sections, chacune traitant
dun sujet diffrent pour un client diffrent. Les clients partagent les cots de lenqute
proportionnellement leffort de collecte et de traitement faire pour les diffrentes sections de
lenqute. Ce moyen peut donc tre efficace pour rduire les cots dlaboration et lexcution de
lenqute. Des organismes statistiques et des entreprises de recherche du secteur priv procdent
rgulirement ce genre denqute qui engage plusieurs partenaires ayant divers besoins de recherche. Le
principal avantage de cette approche est la diminution des cots, souvent importante, comparativement au
droulement dune enqute distincte pour chaque sujet.
Cette approche a un inconvnient, c.--d. que le rpondant est aux prises avec un imposant questionnaire
compos dune varit de sujets qui peuvent tre dcousus et avoir parfois un caractre dlicat. Le
questionnaire peut donc tre un fardeau qui nincitera pas le rpondant y rpondre. Le manque de
contrle sur la disposition des questions du questionnaire peut aussi avoir des rpercussions sur les
rponses.
4.4 Sommaire
Il y a trois principales mthodes de collecte des donnes : les interviews denqute par
autodnombrement, les interviews sur place et les interviews tlphoniques. Lenqute par questionnaire
postal dautodnombrement est habituellement la mthode de collecte de donnes la moins chre.
Malheureusement, lenqute par autodnombrement donne souvent le taux de rponse le plus bas et peut
demander le plus de temps, surtout si le questionnaire est envoy et retourn par la poste.
Linterview sur place donne habituellement le taux de rponse le plus lev, mais elle peut aussi tre la
plus chre. Elle est souvent applique aux enqutes qui ont des questions complexes ou labores, lorsque
lchantillon demande une visite sur place pour situer et slectionner les rpondants, et en cas de
couverture mdiocre de la population cible laide du tlphone, ou lorsque le taux dalphabtisation est
faible dans la population.
Les interviews tlphoniques donnent habituellement des taux de rponse moyens, elles cotent moins
cher que les interviews sur place et cest la mthode de collecte la plus rapide. Elles peuvent tre
particulirement avantageuses si la population et lchantillon sont gographiquement parpills, si les
interviews sur place cotent trs cher et il serait difficile de les raliser. Le principal problme des
interviews tlphoniques est lchantillonnage des interviews par tlphone : les listes de numros de
tlphone sont rapidement primes (ce qui donne un sous-dnombrement dans la base) et la composition
alatoire est inefficiente.
Toutes ces mthodes de collecte des donnes peuvent tre appliques sur support papier ou lectronique.
Le principal avantage des mthodes assistes par ordinateur est que la collecte et la saisie des donnes
sont combines. Le principal inconvnient des mthodes assistes par ordinateur est lapplication
informatique qui demande du temps et des sommes considrables.
Voici dautres mthodes de collecte des donnes : lobservation directe, la dclaration lectronique des
donnes, les donnes administratives, les mthodes combines et les enqutes supplmentaires ou
omnibus. Lobservation directe peut tre prcise, mais elle ne peut tre applique toutes les donnes et
elle exige souvent le recours des spcialistes. La dclaration lectronique des donnes est pratique pour
STATISTIQUE CANADA
55
les rpondants qui peuvent dclarer leurs donnes sur support lectronique, mais elle demande un travail
considrable pour convertir les donnes du rpondant en une mise en forme voulue. Les donnes
administratives peuvent servir comme mthode de collecte des donnes indirecte pour certaines enqutes.
Cette mthode peut liminer le fardeau de rponse, rduire normment les cots de lenqute et acclrer
la rapidit dexcution, mais lorganisme statistique doit examiner attentivement les concepts utiliss par
les sources administratives et la qualit des donnes. Une combinaison des mthodes est souvent un bon
moyen de diminuer les cots, damliorer les taux de rponse et dacclrer la rapidit dexcution. La
collaboration dautres enqutes laide dune enqute supplmentaire ou omnibus est un autre moyen
de diminuer les cots.
Bibliographie
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.
Couper, M.P., R.P. Baker, J. Bethlehem, C.Z.F. Clark, J. Martin, W.L. Nicholls II et J.M. OReilly, ds.
1998. Computer Assisted Survey Information Collection. John Wiley and Sons, New York.
Dielman, L. et M.P. Couper. 1995. Data Quality in a CAPI Survey: Keying Errors. Journal of Official
Statistics, 11: 141-146.
Dillman, D.A. 1978. Mail and Telephone Surveys: The Total Design Method. John Wiley and Sons, New
York.
Dillman, D.A. 2000. Mail and Internet Surveys: The Tailored Design Method. John Wiley and Sons, New
York.
Dufour, J., R. Kaushal, C. Clark et J. Bench, eds. 1995. Converting the Labour Force Survey to
Computer-Assisted Interviewing. Statistics Canada. HSMD-95-009E.
Groves, R.M. 1989. Survey Errors and Survey Costs. John Wiley and Sons, New York.
Groves, R.M., P.P. Biemer, L.E. Lyberg, J.T. Massey, W.L. Nicholls et J. Waksberg, ds. 1988.
Telephone Survey Methodology. John Wiley and Sons, New York.
Groves, R.M. et R.L. Kahn. 1979. Surveys by Telephone: A National Comparison with Personal
Interviews. Academic Press, New York.
Kasprzyk, D., G.J. Duncan, G. Kalton et M.P. Singh, ds. 1989. Panel Surveys. John Wiley and Sons,
New York.
Lavrakis, P. J. 1987. Telephone Survey Methods: Sampling, Selection and Supervision. Applied Social
Research Methods Series. 7. Sage Publications, California.
STATISTIQUE CANADA
56
A.1 Autodnombrement
Avantages
elle peut contenir du matriel de rfrence imprim pour
rduire les erreurs de rponse
un ordinateur nest pas ncessaire pour la collecte des
donnes
elle peut demander moins de temps pour laborer les
procdures de collecte que les mthodes assistes par
ordinateur
pour les enqutes uniques ou les petites enqutes, la
collecte peut coter moins cher que les mthodes
assistes par ordinateur
elle est facile administrer
elle peut rduire le taux derreur parce que le rpondant
peut consulter des dossiers personnels
mthode habituellement la moins chre, le client a donc
les moyens davoir un chantillon plus important et
dobtenir une plus grande prcision
le questionnaire peut tre rempli sans la prsence dun
intervieweur, une caractristique positive pour les
questions caractre dlicat
il nest pas ncessaire davoir un grand nombre
dintervieweurs forms
STATISTIQUE CANADA
Inconvnients
la saisie des donnes est distincte de la collecte
limpression des questionnaires peut coter cher
les questionnaires ne peuvent avoir un cheminement des
questions des instructions passez complexes
la collecte des donnes demande beaucoup de travail manuel
seulement quelques vrifications manuelles simples du
questionnaire sont possibles
linterview connexe est difficile pour les enqutes ritres
les erreurs de rponse peuvent augmenter parce que le
rpondant ne lira probablement pas le matriel de rfrence
les donnes peuvent tre de moins bonne qualit que dans le
cas des mthodes assistes par intervieweur
le questionnaire doit tre bien conu et convivial pour le
rpondant, et donner des instructions claires pour susciter la
participation et diminuer les erreurs de rponse
le questionnaire ne peut tre trop long ou complexe
la mthode devrait seulement tre applique pour des sujets
simples et directs, ou des populations ayant une bonne
scolarit
les taux de rponse sont infrieurs ceux des mthodes
assistes par intervieweur (de nombreux suivis peuvent tre
ncessaires pour amliorer le taux de rponse)
il faut faire le suivi des rejets la vrification
si les questionnaires sont envoys par la poste, il faut rgler
laffranchissement
les questionnaires envoys et retourns par la poste peuvent
tre la mthode de collecte des donnes la plus lente
Mthode
A2. Assiste par
intervieweur
Avantages
les taux de rponse sont meilleurs que ceux des enqutes
par autodnombrement parce que lintervieweur peut
susciter lintrt du rpondant et tre sensibilis ses
proccupations
lintervieweur peut amliorer la qualit des donnes en
expliquant les concepts et en aidant rgler les
problmes : il peut diminuer les erreurs de rponses et le
nombre de questionnaires rpondus en partie seulement
lintervieweur peut garantir que lunit exacte fait
lobjet de lenqute
il peut diminuer le fardeau de rponse parce que
lintervieweur peut vrifier immdiatement et faire le
suivi des rejets la vrification
lintervieweur peut expliquer les mthodes utilises
pour garantir la scurit et la confidentialit des donnes
la mthode permet une priode de collecte plus souple
que celle de lautodnombrement (davantage
dintervieweurs peuvent tre engags pour acclrer la
collecte)
la mthode peut tre relie des populations ayant des
capacits de lecture et dcriture trs limites
la mthode offre une interview trs personnalise (plus
que celle des interviews tlphoniques) qui permet
habituellement dobtenir des taux de rponse plus levs
que ceux des interviews tlphoniques
lintervieweur peut inspirer la confiance au rpondant
en lui montrant ses pices didentit officielles
lintervieweur peut faire des observations directes
il est possible dadministrer un questionnaire plus
complexe que celui des interviews tlphoniques et de
lenqute par autodnombrement
STATISTIQUE CANADA
57
Inconvnients
les interviews peuvent coter cher : cot de la formation des
intervieweurs, rmunration des intervieweurs, logement et
transport des intervieweurs sur place espaces de bureau
pour les interviews tlphoniques
il faut avoir du temps pour former les intervieweurs
de bonnes aptitudes la gestion sont ncessaires pour
coordonner toutes les interviews
les erreurs de rponse peuvent augmenter : les intervieweurs
de formation mdiocre peuvent augmenter les erreurs de
rponse, les rpondants peuvent hsiter rpondre des
questions caractre dlicat (en particulier si lintervieweur
est engag lchelon local) ou donner simplement des
rponses socialement convenables
il peut tre difficile dobtenir une base de sondage et une
bonne couverture de tous les numros de tlphone
lchantillonnage des interviews au tlphone est inefficient
58
Mthode
A2.2.
Interviews
tlphoniques
Avantages
les taux de rponse sont habituellement plus levs que
ceux des enqutes par autodnombrement
le contrle qualitatif de linterview est facile
elles cotent moins cher que les interviews sur place (il
nest pas ncessaire de payer les dplacements et le
logement)
on obtient les rponses plus rapidement
(comparativement aux interviews sur place ou denqute
par autodnombrement)
il est possible de procder aux interviews dans des
rgions difficiles ou inaccessibles
elles sont plus anonymes que les interviews sur place : il
est possible de poser des questions caractre dlicat
elles cotent moins cher que les interviews sur place et
permettent dutiliser des chantillons plus importants, si
ncessaire
STATISTIQUE CANADA
Inconvnients
les taux de rponse sont moins levs que ceux des
interviews sur place
il faut payer lespace de bureau pour les intervieweurs
il faudra peut-tre rgler les interurbains
les questionnaires ne peuvent tre trop longs ou complexes
des observations directes sont impossibles
des problmes de confidentialit sont possibles si les lignes
tlphoniques sont partages
lchantillonnage des interviews par tlphone est
inefficient : le rsultat de la composition dun numro de
tlphone peut ne donner aucune communication, produire
une non-rponse ou la communication avec une unit hors
de la porte de lenqute
le rsultat peut tre biais cause du sous-dnombrement
lorsque lchantillonnage est fait partir dune liste
administrative de numros de tlphone
lchantillonnage par CA a des variables de stratification
gographique limite
Mthode
B. Assiste par ordinateur
B1. Auto-interview
assiste par ordinateur
(AIAO)
Avantages
la vrification pendant la collecte peut tre automatise,
il est donc possible de rgler immdiatement les rejets
la vrification et de diminuer le fardeau de rponse
cause du suivi
la collecte, la vrification et la saisie des donnes sont
intgres, c.--d. plus rapides (temps de rponse plus
rapide), efficientes et faciles surveiller que celles des
mthodes sur support papier
les donnes peuvent tre de meilleure qualit
il est possible dadministrer des questionnaires
enchanement complexe (instructions passez )
il est facile de produire des rapports de gestion (p. ex.,
sur les taux de rponse)
la collecte peut tre moins chre que la collecte sur
support papier pour les grandes enqutes ou les enqutes
ritres
il est possible de rduire les cots dlaboration en
adaptant un logiciel labor pour une enqute semblable
la protection de la confidentialit des questionnaires
remplis est meilleure
ces mthodes sont cologiquement conviviales (moins
de papier gaspill)
les interviews connexes sont possibles pour les enqutes
ritres
mthode souple et pratique pour les rpondants qui ont
un ordinateur
STATISTIQUE CANADA
59
Inconvnients
llaboration de lapplication informatique peut demander
beaucoup de temps et coter cher
il faut faire lessai approfondi de lapplication informatique
des experts en informatique seront ncessaires pour
laborer modifier lapplication informatique
cette mthode est la merci des difficults techniques
les intervieweurs et les rpondants doivent savoir comment
utiliser lapplication informatique
la mthode a des exigences dinfrastructure (p. ex., il faut
remettre aux intervieweurs des ordinateurs portatifs)
il faut tre en mesure de transmettre les donnes en toute
scurit dun ordinateur lautre (p. ex., acheminement des
donnes acquises sur place ou au bureau central)
60
Mthode
B2. Interview assiste par ordinateur (IAO)
Avantages
il est possible dautomatiser la gestion des interviews
(p. ex., automatisation de lordonnancement des
interviews)
- il est plus facile de grer les interviews que dans le cas
de la collecte sur support papier
- la mthode peut accentuer la qualit des donnes : les
intervieweurs qui utilisent facilement lapplication
informatique peuvent rserver plus de temps aux
aptitudes interpersonnelles
C. Autres mthodes de collecte des donnes
C1. Observation
- lorsque toutes les donnes sont observes, il ny a pas
directe
de fardeau de rponse
- les donnes obtenues sont habituellement plus prcises
que celles des mthodes denqute par interview et par
autodnombrement
C2. Dclaration
lectronique des
donnes (DED)
C2.1. Internet
STATISTIQUE CANADA
Inconvnients
il faut dterminer les cots du matriel informatique pour les
intervieweurs
les intervieweurs peuvent avoir besoin dinformation
supplmentaire sur lapplication informatique
il faut considrer les questions de scurit (p. ex.,
lordinateur peut tre vol)
Mthode
C3. Donnes
administratives
Avantages
les donnes sont rapidement disponibles et il est souvent possible dobtenir des rsultats denqute rapides et
prix raisonnable
le fardeau de rponse est faible
-
C4. Mthodes
combines
C5. Enqutes
supplmentaires et
omnibus
STATISTIQUE CANADA
61
Inconvnients
lobjectif du programme administratif peut tre diffrent de
celui de lenqute : il faut valuer lutilit de la source
administrative du point de vue des concepts et des
dfinitions de lenqute (p. ex., problmes de population
cible et de couverture, priodes de rfrence, etc.)
lorganisme statistique a peu de contrle sur la qualit des
donnes
il est difficile ou impossible de faire le suivi des rejets la
vrification
le traitement des donnes administratives peut demander
beaucoup de temps et coter cher (p. ex., il faudra peut-tre
modifier le format de lenregistrement)
lutilisation des donnes administratives peut susciter des
proccupations de confidentialit
la collecte peut tre plus complexe et coter plus cher
la mthode produit des donnes htrognes qui peuvent
compliquer le traitement
il faut dterminer les enqutes appropries avec lesquelles
travailler les auteurs de lenqute ne voudront peut-tre
pas tre lis certaines enqutes
cette mthode peut tre un fardeau pour le rpondant et se
traduire par des taux de rponse moindres
le manque de contrle de lordre des sections du
questionnaire peut avoir des rpercussions sur les rponses
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
63
5.1
5.1.1
Le processus de consultation avec les utilisateurs des donnes commence lors de la formulation des
objectifs de lenqute au cours de la phase de planification et continue pendant la conception et
STATISTIQUE CANADA
64
llaboration du questionnaire. Cette consultation approfondie est particulirement importante pour les
grandes enqutes, sinon toutes, dun organisme statistique. Une comprhension approfondie de
lutilisation des donnes devrait permettre lorganisme statistique dlaborer un questionnaire bien
conu qui rpond aux besoins des utilisateurs.
Il faudrait consulter non seulement les utilisateurs des donnes, mais aussi les rpondants, les experts de
la matire de ltude et ceux qui ont procd des enqutes semblables auparavant, avant de formuler la
version provisoire du questionnaire. Ils devraient pouvoir donner une rtroaction sur le genre
dinformation que les rpondants peuvent fournir et aider prciser les concepts tudier. Rencontrer les
rpondants peut aider identifier les questions et les proccupations importantes pour eux et obtenir des
rpercussions sur les dcisions pertinentes la matire du questionnaire. Cette intervention peut aussi
aider identifier les expressions et le langage quutilisent les rpondants pour dcrire les concepts de
lenqute, et donner une bonne ide de la faon dont les catgories de questions et rponses devraient tre
formules. Ces discussions peuvent se drouler pendant des consultations approfondies ou en groupe de
discussion (voir la Section 5.1.5.3).
5.1.2
Dautres enqutes sont une bonne source dinformation pour llaboration dune enqute. Lexamen des
questions poses dans dautres enqutes sur le mme sujet ou un sujet semblable peut tre un bon point de
dpart lorsquil faut formuler une question (c.--d. rdiger une question). Lorsque lon souhaite
comparer les rsultats de diffrentes enqutes, il est prfrable dutiliser les mmes questions. Il faudrait
aussi examiner la documentation sur la qualit des donnes de ces enqutes pour valuer lefficacit du
questionnaire (p. ex., les problmes de rdaction des questions, le fardeau de rponse, les taux de refus,
etc.).
5.1.3
Formulation du questionnaire
La prochaine tape est llaboration dune version prliminaire du questionnaire au complet. tant donn
que la conception globale et les objectifs de lenqute ont des rpercussions sur le questionnaire, il faut
considrer les volets suivants :
i.
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
ii.
65
Les caractristiques des rpondants influencent la formulation des questions. Elles peuvent avoir des
rpercussions sur la terminologie ou la complexit du langage utilis pour poser les questions. Les
questions destines au grand public devraient tre faciles comprendre pour tous les rpondants, mais il
est possible, dans une enqute qui cible des professionnels, dutiliser un langage technique ou
professionnel pertinent au travail des rpondants.
iii.
Fardeau de rponse
Le fardeau de rponse du questionnaire, le temps et leffort ncessaires pour rpondre aux questions et la
possibilit que le rpondant consulte des dossiers ou dautres personnes doivent tre pris en considration.
Il faudrait minimiser le nombre de questions, et chaque question inscrite au questionnaire devrait tre
justifiable. (Le but de certaines questions peut tre de faciliter la comprhension dune question ultrieure
ou elle peut servir lvaluation.)
iv.
Une formulation attentive des questions est ncessaire lors de la collecte de donnes complexes. Des
instructions devraient tre intgres aux questions qui couvrent des sujets complexes. Voil qui aidera
lintervieweur expliquer les questions, et le rpondant, y rpondre prcisment.
v.
Ces deux points peuvent avoir des rpercussions directes sur la formulation des questions. Le
questionnaire devrait comprendre des noncs dintroduction qui prcisent comment la confidentialit des
donnes du rpondant sera protge. Il faudrait aussi expliquer quoi serviront les donnes, qui y aura
accs, la dure de vie utile des donnes, etc. Si des questions caractre dlicat sont poses (questions qui
peuvent mettre certains rpondants mal laise), il peut tre ncessaire dappliquer des techniques qui
amenuiseront les rpercussions de ces questions. Cette mesure accentue la possibilit dune rponse (voir
la section 5.3.8 pour en apprendre davantage).
vi.
Traduction
Le questionnaire devrait tre traduit dans toutes les langues couramment parles dans la population cible.
Il faut tre attentif lors de la traduction de questions formules dans une autre langue pour tenir compte,
non seulement de la langue, mais aussi des diffrentes coutumes et cultures. Une rtro-traduction (la
traduction du texte traduit dans la langue dorigine) peut souvent aider identifier des erreurs.
vii.
Si les rsultats de lenqute sont compars avec ceux dautres enqutes, les questions doivent tre
rdiges de la mme faon. Chaque version de la question doit cerner le point de la mme faon et avoir
la mme signification dans le contexte de la question. Afin de garantir la comparabilit des rsultats avec
ceux dautres enqutes, il faudrait utiliser la mme formulation de la question aprs avoir confirm la
qualit des rsultats prcdents. Certaines questions peuvent aussi tre troitement lies celles qui les
prcdent immdiatement.
STATISTIQUE CANADA
66
viii.
Cohrence
La formulation de la question doit avoir la mme signification pour tous les rpondants, soit celle que
cible lorganisme statistique. Si le questionnaire est traduit dans diffrentes langues, il est
particulirement important de mettre lessai chaque version dans toutes les langues.
ix.
Autres lments
5.1.4
Il est essentiel que le questionnaire soit examin linterne avant la mise lessai. Cet examen devrait
identifier tous les problmes vidents du questionnaire, par exemple, les erreurs dorthographe ou de
grammaire, ou la rdaction maladroite. Il est aussi utile cette tape de demander des intervenants qui
ne sont pas directement engags dans le projet dexaminer le questionnaire. Ceux-ci peuvent comprendre
des experts du domaine ltude, des gens qui ont lexprience de la conception des questionnaires, des
intervieweurs ou des membres de la population ltude. Ils peuvent souvent faire des commentaires et
des suggestions utiles qui susciteront la rvision des questions et des catgories de rponse.
5.1.5
Il est important de procder la mise lessai de toutes les versions (c.--d. les versions dans toutes les
langues) du questionnaire auprs de rpondants reprsentatifs bien avant le dbut de la collecte des
donnes (c.--d. reprsentatifs de la population cible, peut-tre des rpondants dun certain ge, dun sexe
ou lautre, ou ayant une scolarit en particulier). Il peut tre aussi important de faire lessai du
questionnaire auprs de sous-populations en particulier qui peuvent avoir des problmes avec certaines
questions.
Rpondre une question est un processus complexe. Les rpondants doivent dabord comprendre la
question. Ils doivent ensuite faire un effort de mmoire ou fouiller des dossiers pour extraire linformation
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
67
demande. Ils doivent aussi rflchir la rponse exacte la question et dterminer sils sont disposs
rvler linformation, en tout ou en partie. Ils rpondent alors la question. Chacun de ces processus peut
tre une source derreur. (Tourangeau et coll., 2000)
Les mthodes de mise lessai des questions visent identifier les difficults et les erreurs possibles. La
mise lessai permet aussi de dterminer si les instructions sont claires ou si lordre des questions a des
rpercussions sur linterprtation de ces questions et dobtenir les impressions des rpondants sur la
prsentation du questionnaire. Lun des avantages de la mise lessai du questionnaire est la production
dun questionnaire convivial pour le rpondant et lintervieweur qui facilite la collecte de donnes
prcises en une mise en forme propice la saisie et au codage des donnes. Enfin, la mise lessai aide
aussi minimiser les erreurs et diminuer le cot et le temps de la collecte, de la saisie et du traitement
des donnes.
Les mthodes appliques aux mises lessai des questionnaires (matire, prsentation, etc.) sont
habituellement axes sur de petits chantillons subjectifs non probabilistes de rpondants tirs de la
population cible. Voici les mthodes dcrites dans les sections suivantes :
- prtest,
- mthodes cognitives,
- groupes de discussion,
- compte rendu des intervieweurs,
- codage comportemental des interactions entre lintervieweur et le rpondant,
- essai dchantillons fractionns,
- essai pilote.
5.1.5.1
Le prtest (parfois intitul essai prliminaire) est facile, le cot est raisonnable, et cest une tape
fondamentale de llaboration dun questionnaire. Sil ny a pas dautres mises lessai du questionnaire,
il faudrait au moins faire un prtest. La taille de lchantillon du prtest peut varier de 20
100 rpondants ou plus. Si le principal objectif est de reprer des problmes de rdaction ou de squence,
trs peu dinterviews sont ncessaires. Il faut en faire davantage (de 50 100) pour dterminer les
catgories de rponse aux questions fermes, partir des rponses aux questions ouvertes du prtest. Le
questionnaire devrait tre administr de la mme faon que prvu pour la principale enqute (p. ex.,
assiste par intervieweur ou ordinateur, sur place, au tlphone ou sur support papier). Il faudrait
cependant avoir recours un intervieweur pour la mise lessai des questionnaires denqute par
autodnombrement.
Lors du prtest, le rpondant nest pas inform, il remplit simplement le questionnaire ou rpond
linterview pour reflter la situation lors de la collecte relle des donnes. Le prtest indique seulement l
o il y a un problme. Sans aller plus loin, il ne dtermine pas pourquoi il y a un problme ou comment le
corriger. La mise lessai non officiel nidentifiera peut-tre pas non plus tous les problmes du
questionnaire.
Voici quoi sert le prtest dun questionnaire :
- dcouvrir lordre ou la rdaction mdiocres des questions,
- reprer les erreurs de prsentation ou dinstructions du questionnaire,
- identifier les problmes dapplication logicielle dun questionnaire assist par ordinateur,
- dterminer les problmes ventuels si le rpondant ne peut ou ne veut rpondre aux questions,
- suggrer des catgories de rponse supplmentaires qui peuvent tre codes davance dans le
questionnaire,
STATISTIQUE CANADA
68
5.1.5.2
Mthodes cognitives
Les mthodes cognitives sont particulirement utiles pour lessai des questionnaires parce quelles sont
conues pour faire enqute sur les tapes du processus de rponse. Les mthodes cognitives donnent les
moyens dexaminer les processus de rflexion du rpondant lorsquil rpond aux questions de lenqute.
Les mthodes cognitives aident donc valuer la validit des questions et identifier les sources
ventuelles derreur de rponse et de non-rponse.
Les interviews cognitives donnent loccasion dvaluer le questionnaire du point de vue du rpondant.
Elles ciblent des points comme la comprhension et les ractions la formule. Cette mesure permet
dintgrer la perspective du rpondant directement dans le processus de conception du questionnaire et
den arriver la conception dun questionnaire convivial pour le rpondant parce quil est facile
comprendre et remplir avec prcision.
Les interviews cognitives se droulent souvent en laboratoire ou dans une salle munie dun miroir
dobservation. La taille de lchantillon est relativement minime. De 12 15 interviews cognitives
seulement peuvent se drouler, mais parfois jusqu 100 et plus, pour mettre lessai la version
prliminaire dun questionnaire. tant donn la taille de lchantillon relativement minime, une approche
itrative est parfois applique et des modifications sont apportes au questionnaire aprs quelques
interviews cognitives avant de donner suite la mise lessai.
Voici certaines mthodes cognitives de mise lessai :
i.
Le rpondant est observ pendant quil rpond au questionnaire. Lobservation donne des renseignements
sur le comportement du rpondant, notamment :
- les sections du questionnaire quil lit,
- la squence de rponse aux questions,
- le rpondant se reporte aux instructions ou non,
- le genre de dossiers quil examine,
- le rpondant consulte quelquun ou non,
- le temps quil prend rpondre chaque section,
- les corrections ou modifications quil apporte aux rponses.
ii.
Le rpondant est invit penser tout haut lorsquil rpond aux questions, faire des commentaires sur
chaque question et expliquer comment il a choisi la rponse en bout de ligne. Ce genre dinterview
penser tout haut est intitul interview simultane penser tout haut . Si le rpondant explique son
processus de rflexion aprs coup, pendant une discussion de suivi, linterview est alors intitule
interview rtrospective penser tout haut . Ces deux mthodes sont trs utiles pour la mise lessai des
questionnaires et lidentification des sources ventuelles derreur et des amliorations qui peuvent tre
apportes.
Des techniques particulires, notamment les questions dapprofondissement, la reformulation et la
notation de la confiance sont appliques pendant les interviews cognitives.
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
69
a. Questions dapprofondissement
Les questions dapprofondissement servent cibler des aspects en particulier du processus de rponse
(c.--d. comprhension, extraction, rflexion ou rponse). Lintervieweur peut demander, par exemple,
comment et pourquoi un rpondant a choisi une rponse ou comment il a interprt les concepts, les mots.
b. Reformulation
Le rpondant est invit rpter les instructions ou la question dans ses propres mots, ou expliquer la
signification des termes et des concepts. La reformulation permet de dterminer si un rpondant a lu et
bien compris les instructions et les questions.
c. Notation de la confiance
Le rpondant cote le degr de confiance en la prcision de ses rponses. Cette technique rvle quel
point le rpondant a eu de la difficult formuler une rponse une question ou sil a essay de deviner.
5.1.5.3
Groupes de discussion
Un groupe de discussion considre un sujet slectionn par les participants choisis dans la population
dintrt. Le groupe de discussion donne loccasion de consulter les membres de la population cible, les
utilisateurs des donnes ou les intervieweurs pour intgrer leur point de vue dans le processus de conception
du questionnaire. Au cours des premires tapes de llaboration du questionnaire, les groupes de discussion
peuvent aider prciser les objectifs de lenqute et les besoins de donnes, et identifier les concepts,
dfinitions et questions saillantes de la recherche. Les groupes de discussion servent aussi la mise lessai
des questionnaires. On fait appel eux pour valuer la comprhension du langage et de la rdaction des
questions et des instructions de la part du rpondant, ainsi que dautres formulations et mises en forme des
questions.
Un animateur qui connat bien les techniques dinterview des groupes et lobjectif de la discussion oriente
le groupe de discussion. Chaque groupe comprend habituellement de six douze personnes et la taille
optimale est de sept neuf personnes. Une sance en groupe de discussion demande habituellement deux
heures environ. Le groupe de discussion est enregistr sur bande sonore (et parfois sur bande vido) que
les observateurs peuvent entendre dans une salle contigu derrire un miroir dobservation. Il est
recommand que ceux qui laborent le questionnaire observent le groupe de discussion. Les observateurs
ninterviennent pas dans la discussion du groupe, mais leurs observations peuvent servir lanimateur la
fin de la sance du groupe de discussion.
Si le questionnaire de lenqute par autodnombrement est mis lessai, il peut tre achev immdiatement
avant la discussion du groupe (si le temps le permet) ou le rpondant peut le remplir davance et lapporter la
sance du groupe de discussion. Sil sagit dun questionnaire assist par intervieweur, ce dernier peut
ladministrer quelques jours avant la runion du groupe de discussion.
Lancer la discussion du groupe en demandant aux participants dexprimer leur raction au questionnaire dans
lensemble est une technique utile. Le groupe discute ensuite des questions et problmes particuliers que
suscite le questionnaire. Lanimateur du groupe de discussion examine le questionnaire au complet, question
par question, ou cible des questions dintrt en particulier. Lanimateur devrait avoir des aptitudes
approfondir la matire parce que certains participants du groupe de discussion peuvent hsiter faire des
commentaires ngatifs, mme sils sont pertinents. Lanimateur devrait aussi donner chaque membre
loccasion de sexprimer pour viter quune personne ou deux domine(nt) la discussion. La sance du groupe
STATISTIQUE CANADA
70
de discussion peut tre conclue en demandant aux participants de recommander lamlioration la plus
importante, leur avis, quil faudrait apporter au questionnaire.
5.1.5.4
Le compte rendu de lintervieweur se droule souvent aprs la sance en groupe de discussion ou pendant
les prtests. Lintervieweur discute de lexprience acquise pendant linterview des rpondants et
approfondit ainsi la comprhension des rsultats du questionnaire. Sa perspective peut aider dterminer
les amliorations apporter au questionnaire. Lintervieweur fait habituellement son compte rendu dans
un groupe trs semblable au groupe de discussion. Autrement, des formules de notation ou des
questionnaires de compte rendu peuvent servir obtenir de linformation sur les problmes que posent le
questionnaire et des suggestions damlioration.
5.1.5.5
Le codage comportemental peut tre fait pendant que lintervieweur administre le questionnaire. Ce genre
de mise lessai comprend le codage systmatique par un tiers de linteraction entre lintervieweur et le
rpondant. Le tiers cible comment lintervieweur pose les questions et la raction du rpondant.
Linterview de mise lessai est souvent enregistre sur bande sonore et la relation entre lintervieweur et
le rpondant est ensuite analyse. Le codage comportemental aide identifier certains problmes, par
exemple, lintervieweur na pas lu les questions telles quelles sont formules ou le rpondant a demand
des prcisions. Si le codage comportemental rvle quune question pose des difficults, une mesure
corrective peut tre justifie. En gnral, le codage comportemental ne donne cependant pas
dinformation sur les raisons du problme ou la solution possible. Un large chantillon est souvent
ncessaire pour analyser les rsultats du codage comportemental, surtout si le questionnaire comprend de
nombreuses instructions passez qui orientent le rpondant dans un questionnaire cheminements
varis.
5.1.5.6
Les mises lessai dchantillons fractionns servent dterminer les deux meilleures versions ou
plus dun questionnaire ou dune question. La mise lessai dun chantillon fractionn est parfois
intitule exprience du questionnaire deux formes ou du panel fractionn . Elle comprend un plan
dchantillonnage exprimental intgr au processus de collecte des donnes. Sil sagit dun seul plan
dchantillonnage fractionn, la moiti de lchantillon reoit une version du questionnaire et lautre
moiti, lautre version.
La mise lessai de lchantillon fractionn permet non seulement de comparer les variations des
questions, mais aussi les diffrentes mthodes de collecte des donnes pour dterminer la meilleure
mthode. Un plan dchantillonnage probabiliste et des tailles dchantillons appropries sont ncessaires
pour analyser les diffrences entre les chantillons.
5.1.5.7
Enqute pilote
Une enqute pilote se droule pour observer toutes les tapes du processus de lenqute, y compris
ladministration du questionnaire. Une enqute pilote est une simulation qui applique la version finale
du plan denqute petite chelle du dbut la fin, y compris le traitement et lanalyse des donnes. Elle
permet lorganisme statistique de considrer les rsultats du questionnaire pendant toutes les tapes de
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
71
lenqute (collecte, vrification, imputation, traitement, analyse des donnes, etc.). Le questionnaire est
habituellement soumis des essais approfondis laide des mthodes susmentionnes avant lenqute
pilote.
5.1.6
5.2
Il y a deux genres de questions : ouvertes et fermes. Les questions ouvertes ne donnent pas les
catgories de rponse au rpondant. Le rpondant donne un chiffre exact ou une rponse la question
dans ses propres mots par crit dans le cas dun questionnaire denqute par autodnombrement ou
lintervieweur enregistre la rponse intgralement. Une question ouverte devrait comprendre un espace
suffisant pour inscrire la rponse.
Voici un exemple de question ouverte :
Quel est le plus important problme au Canada?
Les questions fermes comprennent des catgories de rponse inscrites sous la question. On rpond la
question ferme en cochant une case ou en encerclant la rponse exacte dans lnumration. Les rponses
possibles numres pour une question sont intitules catgories de rponse.
Voici un exemple de questions fermes :
Quel est le plus important problme au Canada? (Cochez une rponse seulement)
P Chmage
P conomie rcession
P Dficit fdral
P Impts
P Unit nationale
P Crime violence
P Environnement
P Autre
STATISTIQUE CANADA
72
Une question ouverte permet au rpondant dexprimer une rponse sans linfluence des catgories de
rponse inscrites sous une question ferme. Ce choix permet cependant dinterprter la question de
diffrentes faons. Une question ouverte largit donc la porte de la question en gnral et la version
ferme donne au rpondant des indices sur la manire dinterprter la question. Une question ferme
ramne aussi le rpondant un ensemble de rponses dtermines.
Les questions ouvertes ont plusieurs applications. Lun des avantages est quelles donnent au rpondant
loccasion de sexprimer ou dlaborer. Elles sont importantes lorsquil faut examiner une question mal
comprise ou trs large. Les questions ouvertes sont donc souvent utilises pendant llaboration et la mise
lessai du questionnaire. Elles sont poses des groupes de discussion, par exemple, pour obtenir des
commentaires et des opinions sur la question pose et pour susciter la discussion. Une question ouverte
permet aussi lorganisme statistique dobtenir la formulation naturelle personnelle du rpondant.
Elle est importante lors de lexamen de la rdaction dune question et des catgories de rponse une
question ferme.
Un autre avantage des questions ouvertes est quelles peuvent servir obtenir des donnes numriques
exactes, par exemple, lge prcis du rpondant. Les intervenants des enqutes auprs des entreprises
demandent souvent les sommes exactes des revenus et dpenses dclars. Les donnes numriques
exactes sont ncessaires pour certaines analyses des donnes (p. ex., calculer une moyenne ou une
mdiane).
Les questions ouvertes ont une autre utilit, elles permettent de faire le suivi des questions fermes. Une
question ferme peut demander, par exemple :
Avez-vous des suggestions pour amliorer notre service la clientle?
P Non
P Oui
Si le rpondant coche Oui , une question ouverte de suivi pourrait tre la suivante :
Si oui, quelles sont vos suggestions?
Les questions ouvertes comme celle-ci : Avez-vous des commentaires supplmentaires? sont souvent
poses la fin des sections de questions ou la fin du questionnaire. Le rpondant a donc loccasion
dajouter tout ce qui est pertinent, son avis, aux questions considres dans le questionnaire. Certains
rpondants pourraient vouloir ajouter de linformation supplmentaire pour prciser une rponse. Il est
important de prvoir ce genre dinformation dans le questionnaire.
Les questions ouvertes dont les rponses sont rdiges (au lieu dtre numriques) ont des inconvnients.
Elles sont un fardeau parce que le rpondant doit dterminer lintention de la question et formuler une
rponse sans laide des catgories de rponse. Dans une enqute par autodnombrement, linscription de
la rponse demande du temps. Lors dune enqute assiste par intervieweur, la collecte, la saisie et le
codage des donnes sont un fardeau. Il est souvent difficile pour lintervieweur de saisir intgralement la
rponse du rpondant et, aprs la collecte, toutes les rponses diffrentes sont habituellement rparties en
catgories et un code numrique leur est attribu pour faciliter le traitement et lanalyse des donnes. Les
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
73
questions ouvertes se traduisent donc habituellement par un traitement plus cher, plus expos aux erreurs
et qui demandent plus de temps que les questions fermes.
Sil sagit de donnes numriques, Il est plus difficile de rpondre des questions ouvertes qu des
questions fermes, et la saisie des donnes est plus difficile et expose aux erreurs.
Exemples de questions ouvertes qui demandent des rponses rdiges :
Quels produits ou services offre votre entreprise?
Que pensez-vous faire dans cinq ans?
Veuillez faire davantage de commentaires sur les questions ou problmes considrs dans ce
questionnaire.
Exemples de questions ouvertes qui demandent des rponses numriques :
Quelle est votre meilleure estimation du revenu total avant impts et dductions de tous les
membres du mnage et de toutes sources depuis 12 mois?
Depuis combien dannes le propritaire actuel exploite-t-il ltablissement?
Au cours dun mois normal, combien de fois les membres de votre mnage utilisent-ils Internet
la maison?
Les questions fermes ont de nombreux avantages dont le plus important est quelles sont moins un
fardeau pour les rpondants, et la collecte et la saisie des donnes sont plus faciles et moins chres. Le
rpondant ragit plus rapidement et facilement parce quil choisit simplement la catgorie de rponse
approprie au lieu de formuler une rponse et de linscrire dans ses propres mots. Il rpondra
correctement sans doute plus souvent parce que les catgories de rponse indiquent la cible des questions.
Il est plus facile danalyser les donnes obtenues laide de questions fermes parce que les rponses sont
plus cohrentes et dj regroupes. Si une question est pose dans plusieurs enqutes, lutilisation des
mmes catgories de rponse facilite la comparaison entre les enqutes.
Les questions fermes ont plusieurs inconvnients. Pendant la formulation de la version prliminaire des
questions, il faut souvent faire des efforts pour laborer des catgories de rponse (c.--d. que le codage
est fait avant la collecte, mais lactivit peut quand mme tre difficile). Les catgories de rponse doivent
tre mutuellement exclusives et exhaustives comme dans tout codage. Si les catgories de rponse ne sont
pas clairement formules, le rpondant pourrait avoir davantage de problmes que si la question pose
tait ouverte. Les questions fermes suscitent une autre proccupation, savoir que les catgories de
rponse tant numres, le rpondant peut se sentir oblig de choisir une catgorie de rponse, peu
importe sil ou si elle a formul une rponse ou a mme les connaissances ncessaires pour rpondre la
question. Si la question demande une opinion, le rpondant peut tre oblig de choisir une catgorie qui
ne correspond pas son opinion, ou dexprimer une opinion lorsquen fait, il nen na pas. (Une catgorie
Ne sais pas ou Sans objet est parfois ajoute pour viter la situation. Dans le cas dun
questionnaire assist par intervieweur, il est pratique commune dajouter une catgorie de rponse
Refus .) Autre problme ventuel : les catgories de rponse peuvent simplifier exagrment un point
en confinant le rpondant une rponse possible.
Il y a plusieurs genres de questions fermes : les plus frquemment utilises sont les questions
dichotomiques, choix multiples, avec rponses cocher, avec classement et avec chelle dvaluation.
Elles sont dcrites ci-dessous.
STATISTIQUE CANADA
74
Le Chapitre 10 - Traitement donne davantage dinformation sur le codage des questions ouvertes et
fermes.
5.2.1
Questions dichotomiques
La question dichotomique est la version la plus simple dune question ferme. Il sagit souvent dune
question oui non et elle sert rpartir les rpondants en deux groupes distincts. La question
dichotomique permet aussi la slection pour viter de demander aux rpondants une srie de questions qui
ne sappliquent pas eux. La directive Passez la question X est ensuite inscrite immdiatement aprs
lune des catgories de rponse et les rpondants passent outre certaines questions. Cette instruction est
parfois appele aiguillage .
Par exemple :
Avez-vous fum des cigarettes hier?
P Oui
P Non ------------Passez la question 14
5.2.2
La question choix multiples demande au rpondant de slectionner une rponse dans une liste de choix
et la question avec rponses cocher demande au rpondant de choisir au moins une rponse dans la
liste. Dterminer sil sagit dune question choix multiples ou avec rponses cocher nest peut-tre pas
vident pour le rpondant. Il faut donc ajouter des instructions. Remarquez quune catgorie Autre
(prcisez) est habituellement ajoute pour garantir lexhaustivit de la liste.
Exemple de questions choix multiples :
De quel genre de logement sagit-il? (Cochez une rponse seulement.)
P Maison individuelle
P Maison jumele (en parallle)
P Maison sur jardin, en bande ou en range
P Duplex (superpos)
P Immeuble hauteur restreinte (moins de cinq tages)
P Crime violence
P Tour dhabitation (cinq tages ou plus)
P Autre (veuillez prciser)___________
Exemple de question avec rponses cocher :
Quel genre dhbergement avez-vous choisi pendant vos vacances? (Cochez toutes les rponses
appropries.)
P Htel (y compris maison de chambres pour touristes)
P Motel
P Camping ou parc de roulottes
P Rsidence damis ou de parents
P Cabine ou chalet louer
P Autre (centre dhbergement, universit, etc.)
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
75
Les catgories de rponse des questions choix multiples et avec rponses cocher demandent une
formulation attentive. La liste des catgories de rponse devrait tre mutuellement exclusive et
exhaustive. Les catgories de lexemple qui suit ne sont pas mutuellement exclusives, elles se
chevauchent :
Quel ge avez-vous?
P de 20 30 ans
P de 30 40 ans
P de 40 50 ans
P 50 ans ou plus
Un rpondant qui a 30, 40 ou 50 ans peut choisir deux catgories de rponse. Lanalyse des donnes serait
difficile parce quil est impossible de savoir quelle catgorie choisira ce rpondant. La liste des catgories
de rponse nest pas exhaustive et cest un autre problme. Si les moins de 20 ans font partie de la
population cible, comment rpondront-ils cette question? Voici un meilleur choix de catgories de
rponse :
Quel ge avez-vous?
P moins de 20 ans
P de 20 29 ans
P de 30 39 ans
P de 40 49 ans
P 50 ans ou plus
5.2.3
La question avec classement est un autre genre de question ferme et elle demande au rpondant dtablir
lordre des catgories de rponse, par exemple :
Voici une liste de certains moyens dont les gens se servent pour trouver un emploi. Veuillez les
classer par ordre defficacit en inscrivant 1 la mthode qui serait la plus utile, selon vous,
2 la mthode qui serait la plus utile en second lieu, et ainsi de suite.
____ Envoi de curriculum vitae par la poste
____ Annonces dans les journaux ou les revues
____ Centres demploi du gouvernement
____ Vrification auprs damis
____ Service de placement priv
____ Communication directe avec des employeurs
____ Autre (veuillez prciser) ________________________________
Les rpondants considrent souvent que le classement des catgories est un fardeau, surtout si les points
classer sont trs diffrents lun de lautre ou si linterview se droule au tlphone. Les questions avec
classement posent un autre problme : les carts dimportance des rponses classes sont inconnus et ne
sont probablement pas quivalents, cest--dire que lcart entre 1 et 2 ne peut tre considr comme
quivalent lcart entre 2 et 3. Voil qui complique lanalyse des donnes. Si trois rponses sont
inscrites pour tre classes, par exemple, le rpondant les classera 1, 2 et 3, mais il peut considrer que les
deux premires sont trs proches et que la troisime est loin derrire. Il est impossible dobtenir ce genre
dinformation simplement partir du classement. Autre inconvnient : le rpondant peut attribuer la
mme cote deux rponses ou plus. Dans lexemple ci-dessus, le rpondant peut attribuer la cote 1 la
STATISTIQUE CANADA
76
rponse Annonces dans les journaux ou les revues et Centres demploi du gouvernement . Les
questions avec classement posent une autre difficult parce que les rpondants ne pourront peut-tre pas
classer tous les choix de la liste. Il peut tre raisonnable de prvoir quils en classeront seulement
quelques-uns (p. ex., cinq ou moins).
Voici un exemple de question avec classement qui demande au rpondant de slectionner les plus
importants lments et de classer seulement ceux qui sont importants.
Veuillez classer les cinq lments les plus importants qui influencent votre entreprise lorsquelle
choisit un transporteur. Linformation nous aidera cibler notre attention et nos ressources sur
les secteurs qui sont essentiels pour rpondre vos besoins de service.
Veuillez classer leur importance en inscrivant le chiffre 1 llment le plus important, selon
vous, 2 llment le plus important en second lieu, et ainsi de suite.
___
___
___
___
___
___
___
___
___
___
___
___
5.2.4
Les questions avec lchelle dvaluation demandent au rpondant dvaluer leur rponse, par exemple :
tes-vous satisfait de notre service la clientle?
P Trs satisfait
P Satisfait
P Insatisfait
P Trs insatisfait
La formulation dune question avec chelle dvaluation demande plusieurs considrations.
Premirement, combien de catgories devrait avoir lchelle dvaluation? Elle pourrait en avoir
seulement deux daccord, pas daccord ou jusqu 10, partir de 1 (sans importance) jusqu 10
(extrmement important).
Deuximement, une question se pose, savoir si lchelle dvaluation devrait avoir ou non un choix
neutre, par exemple, ni satisfait ni insatisfait. En labsence dune possibilit neutre, le rpondant doit faire
un choix. Dautre part, les rpondants ont tendance choisir la rponse neutre si elle est ajoute. Il est
possible dajouter le choix neutre dans un questionnaire assist par intervieweur, mais sans loffrir au
rpondant. Il est alors slectionn seulement si le rpondant lexprime spontanment.
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
77
5.3
La formulation des questions devrait tre claire et significative pour les rpondants. Les donnes de
lenqute seront de qualit suprieure si les rpondants peuvent facilement comprendre la signification
des mots. Ils seront aussi davantage disposs donner de linformation, et en mesure de le faire, sils
comprennent clairement la question pose. Il est aussi essentiel que la comprhension des questions de
lenqute de la part des rpondants corresponde lintention du concepteur du questionnaire.
STATISTIQUE CANADA
78
La formulation dune question peut donner des rsultats fausss et des donnes denqute inexactes si les
rpondants :
- ne comprennent pas la signification des mots dans une question,
- ninterprtent pas les mots selon lintention du concepteur,
- ne connaissent pas les concepts vhiculs dans la formulation dune question.
Les sections suivantes dcrivent certaines lignes directrices gnrales considrer pour viter ces
problmes.
5.3.1
Le meilleur moyen de communiquer clairement avec les rpondants est dutiliser des mots simples,
quotidiens, et de vrifier si tous les termes sont appropris pour la population qui fait lobjet de lenqute.
Le langage de la question suivante nest ni simple ni quotidien.
tes-vous conscient de la fusion imminente des circonscriptions proximit de la nouvelle rgion
mtropolitaine?
De nombreux rpondants de lenqute pourraient ne pas connatre ou comprendre la signification des
termes et des expressions fusion imminente, circonscriptions ou nouvelle rgion mtropolitaine.
Il faut toujours considrer les aptitudes linguistiques des rpondants lors de llaboration des questions. IL
est prfrable de choisir des mots faciles comprendre pour tout le monde. Si lenqute cible une
population ayant une scolarit plus pousse, par exemple des avocats, des enseignants ou dautres
professionnels, il est possible davoir recours un langage plus complexe. En bout de ligne, le langage
utilis devrait correspondre la comprhension moyenne de la population cible.
Les termes techniques ou le jargon spcialis que les rpondants ne connaissent pas sont viter. Si ces
termes sont ncessaires, cependant, il faudrait ajouter des prcisions ou des dfinitions lintention des
rpondants. Il faut dfinir les concepts nouveaux ou complexes pour que tous les rpondants aient la
mme comprhension de la question. Les dfinitions peuvent tre ajoutes la question, aux instructions
lintention des rpondants imprimes ailleurs dans le questionnaire ou un cahier dinstructions distinct
(un cahier distinct a cependant moins de chance dtre lu).
Les termes de la question suivante ne sont ni simples ni communs.
Le vaccin antipneumococcique vous a-t-il t administr?
La majorit des citoyens dans la population en gnral ne connaissent probablement pas le terme mdical
antipneumococcique et il sera donc difficile de rpondre la question. De nombreuses personnes ne
pourront probablement pas donner une rponse prcise. Voici une meilleure formulation :
Avez-vous t vaccin contre la grippe?
5.3.2
Les textes techniques et scientifiques sont souvent truffs dacronymes et dabrviations, ainsi que
dexpressions juridiques et dentreprise. Il vaut mieux les utiliser dans les contextes o les lecteurs
connaissent bien la matire. Lors des enqutes auprs du grand public, il faudrait les viter, sauf sils sont
bien connus. Il sera probablement plus facile de comprendre clairement les questions si elles comprennent
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
79
la rdaction complte du mot, du terme ou de lorganisme cibl, au lieu dune abrviation. Il faut toujours
dfinir dabord les abrviations et les acronymes utiliss.
La question suivante comprend un acronyme qui peut semer la confusion chez les rpondants.
Savez-vous o est situ le bureau de lARAP le plus prs?
De nombreux rpondants ne sauront pas que lARAP est lacronyme de lAdministration du
rtablissement agricole des Prairies.
5.3.3
Il est important de faire un effort pour minimiser le fardeau des rpondants. Un important moyen cette
fin est de faire en sorte que seules les questions pertinentes soient poses aux rpondants. Cette mesure
diminue la longueur des interviews, le temps de participation des rpondants et les cots de lenqute.
La question suivante, par exemple, ne sapplique pas tous les rpondants, seulement ceux qui ont un
emploi.
Quelle est votre occupation actuelle dans la population active?
Cette question devrait suivre une question de slection conue pour dterminer si un rpondant a un
emploi et elle devrait tre pose seulement ceux qui ont indiqu quils en ont un. Mme si la question
semble anodine, elle pourrait irriter ceux qui nont pas demploi.
Les concepteurs de questionnaire devraient aussi dterminer si les rpondants ont suffisamment de
connaissances pour rpondre la question pose. Sinon, ils peuvent choisir de ne pas rpondre ou donner
une rponse errone. Peu de citoyens dans le grand public ont des connaissances suffisamment
spcialises, par exemple, pour donner une rponse informe la question suivante.
Lincinration 1 600 oC pendant 30 minutes est-elle suffisante, votre avis, pour liminer les
biphnyles polychlors?
5.3.4
La rdaction des questions de lenqute doit tre aussi prcise que possible pour garantir que les
rpondants comprennent exactement ce quon attend deux. Un processus semblable celui qui est
appliqu pour dfinir les concepts, prsent au Chapitre 2 - Formulation de lnonc des objectifs, est
appliqu ici cette fin. Le concepteur du questionnaire doit demander : Qui? Quoi? O? et Quand? Il faut
prciser clairement pour chaque question :
- qui sapplique-t-elle?
- Quelle information faut-il ajouter la rponse ou y retrancher?
- Quelles units doit donner la rponse (p. ex., kg ou lb)?
- La question vise quelle priode (Quand?)?
La question suivante peut sembler simple et directe premire vue.
Quel est votre revenu?
STATISTIQUE CANADA
80
la rflexion cependant, il nest pas si facile dy rpondre. Premirement, votre dsigne qui? Ce nest pas
vident. Il faudrait prciser sil sagit-il du revenu personnel du rpondant, de celui de la famille ou du
mnage. Deuximement, pour quelle priode de rfrence le rpondant devrait-il donner linformation sur
le revenu? La semaine dernire, le mois dernier, lan dernier? Enfin, quest-ce que le rpondant devrait
considrer comme revenu? Le salaire et les traitements seulement? Le salaire et les traitements, y compris
les gratifications? Le salaire, les traitements et les revenus dautres sources? Autre chose?
Voici deux exemples de formulation amliore de la question (si le terme mnage a t dfini pour le
rpondant).
Quel a t le revenu total de toute source de votre mnage avant impt et dductions lan
dernier?
Quel a t le revenu total de votre mnage avant dductions lan dernier? Ajoutez les revenus
tirs des traitements, des salaires et de toute autre source.
La question suivante illustre le problme possible lorsque la formulation dune question nest pas
suffisamment prcise. On a prsent au rpondant une bouteille de boisson lorange avant quil rponde
cette question dune enqute (Poursuite au civil 47LL (1945), U.S. D.C. N.J., U.S. c. 88 cas boisson
lorange Bireley).
Combien de jus dorange contient cette boisson votre avis?
Voici des exemples de nombreuses rponses diffrentes possibles :
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
5.3.5
81
Une question deux volets est en fait une question qui en pose deux. Elle couvre plus dun concept en
gnral, par exemple :
Prvoyez-vous laisser votre automobile la maison et emprunter lautobus pour aller au travail
lanne prochaine?
Certaines personnes auront de la difficult rpondre cette question parce que leur situation personnelle
ne correspond peut-tre pas simplement une rponse par oui ou non. Un rpondant peut prvoir,
notamment,
- dutiliser parfois lautomobile et demprunter lautobus dautres occasions,
- de toujours laisser lautomobile la maison et daller au travail bicyclette,
- daller au travail en automobile, mais parfois bicyclette,
- de toujours laisser lautomobile la maison et de se rendre au travail par dautres moyens,
- daller au travail en automobile parfois et demprunter autrement divers moyens,
- de choisir une autre combinaison.
La question est rellement double : Prvoyez-vous laisser lautomobile la maison lanne prochaine? et
Prvoyez-vous emprunter lautobus pour aller au travail lanne prochaine? La meilleure solution peut
tre de formuler deux questions.
Les concepteurs de questionnaire devraient examiner toutes les questions qui contiennent les mots et et ou
pour vrifier si elles pourraient semer la confusion chez les rpondants. Il serait bon dexaminer lobjectif
de ces questions pour dterminer si une question unique est approprie ou sil vaudrait mieux :
- formuler au moins deux questions :
- mettre en vidence les principaux mots dans la question,
- ajouter des instructions pour prciser,
- donner des exemples,
- poser seulement les questions pertinentes aux objectifs de lenqute.
Ceci dit, il est important de savoir que les questions qui contiennent les mots et et ou ne sont pas
ncessairement toutes des questions deux volets, par exemple :
Quelle est la premire langue que vous avez apprise et que vous comprenez toujours?
Lobjectif de cette question est de dterminer, parmi les langues que comprend le rpondant, celle quil a
apprise en premier. La rponse pertinente est la langue qui rpond aux deux conditions de la question.
Voil qui peut sembler vident pour le concepteur du questionnaire, mais certains rpondants pourraient
hsiter rpondre. Il serait bon de donner des instructions avec des exemples pour aider le rpondant
comprendre ce quon lui demande, et dinsister sur le mot et dans la question, par exemple :
Quelle est la langue que vous avez apprise en premier et que vous comprenez toujours?
(Instructions au rpondant : Cette question est pose pour dterminer la langue qui rpond
aux deux conditions, la langue que vous avez apprise en premier et que vous comprenez
toujours. Une personne peut avoir appris le chinois dabord, mais ne plus le comprendre
parce quelle a immigr trs jeune au Canada. Le chinois serait donc une rponse inexacte
parce quelle ne rpond pas aux deux conditions de la question. La deuxime langue apprise
tait langlais et la personne le comprend toujours. Dans ce cas, la rponse exacte la
question est langlais, langue que le rpondant a appris en premier lieu et quil comprend
toujours.)
STATISTIQUE CANADA
82
5.3.6
Une question suggestive ou insidieuse suggre une certaine rponse ou incite le rpondant en choisir
une en particulier. Autrement dit, la formulation de la question a des rpercussions sur les rponses. Les
questions suggestives peuvent fausser les rponses et avoir des rpercussions sur les rsultats de
lenqute.
Question suggestive :
Veuillez prciser si vous tes daccord avec lnonc suivant, si vous ntes pas daccord ou si
vous navez aucune opinion : Le tourisme est avantageux pour le comt de Northumberland et
il faudrait donc en faire la promotion .
Question neutre :
Veuillez prciser si vous tes daccord avec lnonc suivant, si vous ntes pas daccord ou si
vous navez aucune opinion : Il faudrait faire la promotion du tourisme pour le comt de
Northumberland .
Les questions denqute devraient tre formules pour que toutes les possibilits soient videntes pour le
rpondant. Autrement, la question pourrait tre suggestive et avoir des rpercussions ngatives sur les
rsultats de lenqute. Il y a une seule rponse possible la question suivante (Payne, 1951).
Pensez-vous que la majorit des entreprises de fabrication qui mettent pied des travailleurs
pendant les priodes creuses devraient prendre des dispositions pour viter les mises pied et
donner du travail rgulier pendant toute lanne?
P Oui
P Non
P Aucune opinion
Rsultats
63 %
22 %
15 %
La seule possibilit offerte aux rpondants dans cette question est de prciser, leur avis, si les entreprises
peuvent prendre des dispositions pour viter les mises pied. Lorsquil y a une seule possibilit, les
rpondants ont souvent tendance en convenir. Dans cet exemple, 63 % des rpondants sont davis que
les entreprises peuvent viter les mises pied, et cest la seule option prsente dans la question. Voici
une autre formulation possible de la mme question.
Pensez-vous que la majorit des entreprises de fabrication qui mettent pied des travailleurs
pendant les priodes creuses pourraient prendre des dispositions pour viter les mises pied et
donner aux employs du travail rgulier pendant toute lanne, ou pensez-vous que les mises
pied sont invitables?
P Oui, les entreprises peuvent viter les mises pied
P Non, les mises pied son invitables
P Aucune opinion
Rsultats
35 %
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
41 %
24 %
83
La question comprend deux possibilits videntes : les entreprises peuvent viter les mises pied et les
mises pied sont invitables. Les rsultats de cette question sont mieux rpartis que ceux de la question
prcdente entre oui, non et aucune opinion.
La prsentation dautres rponses possibles la question incite davantage les gens, en thorie, rflchir
la rponse avant de rpondre et la rponse est donc plus fiable.
5.3.7
Il faudrait viter les structures de phrase qui contiennent des ngations doubles parce que le rpondant ne
saura pas sil est daccord ou pas. Voici un exemple :
Seriez-vous pour ou contre linterdiction de la vente dalcool dans les dpanneurs?
Le rpondant devra dterminer, pour rpondre la question, que sil est pour linterdiction de la vente
dalcool dans les dpanneurs, il est contre lautorisation. De mme, sil est contre linterdiction de la
vente, il est donc pour lautorisation.
La question est difficile parce quelle comprend une ngation double : contre et interdiction sont deux
ngations. Les questions formules laide dune ngation double sment souvent la confusion chez les
rpondants qui, leur insu, peuvent donner une rponse qui contredit leurs convictions. Il vaut mieux
reformuler la question qui devrait contenir une seule ngation. Voici une version plus claire de la
question :
Seriez-vous pour ou contre lautorisation de la vente dalcool dans les dpanneurs?
5.3.8
Les questions personnelles, menaantes ou caractre dlicat, de lavis du rpondant, peuvent donner une
rponse biaise socialement convenable. Les rpondants ont tendance choisir la rponse la plus
favorable pour lestime de soi, ou qui convient aux normes sociales, au lieu dexprimer une conviction ou
de rvler la vrit. Le rsultat possible est une sous-dclaration des caractristiques ou comportements
mesurs.
Les questions suivantes, par exemple, peuvent donner des rponses biaises socialement convenables :
Y a-t-il eu une priode o vous navez pas t en mesure de garantir la subsistance de votre
famille?
Avez-vous dj conduit un vhicule automobile sous linfluence de lalcool?
Quel est votre revenu?
Combien pesez-vous?
Combien de fois avez-vous particip des groupes de discussion sur Internet le mois dernier?
STATISTIQUE CANADA
84
5.3.9
Les questions de lenqute devraient tre aussi concises que possible et en langage quotidien pour que la
population cible nait pas de problmes de comprhension. Le questionnaire devrait tre rdig la
deuxime personne (vous) pour que les rpondants le considrent moins froid, plus personnel, et il
faudrait respecter les rgles de grammaire.
Le plus important test est de vrifier la raction lorsque les questions sont lues haute voix. Elles
devraient sembler naturelles, avoir un ton de dialogue et tre faciles suivre pour celui qui coute. La
question suivante ne respecte pas cette ligne directrice.
Quelle cote attribueriez-vous lutilit de la prestation de linformation sur les caractristiques
psychologiques et sociologiques de la transition, notamment, laccs au programme informatis
dorientation professionnelle interactive quoffre le bureau rgional du ministre aux employs
qui prennent leur retraite, lorsquil est disponible et conformment la dcision de lagent du
personnel rgional?
Cette question est trop longue, le langage est complexe, la construction est complique, elle semble rigide
et bureaucratique, et il est donc difficile de la comprendre et dy rpondre cause de ces caractristiques.
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
5.4
85
Erreur de rponse
Au Chapitre 3 - Introduction au plan denqute, lune des sources derreur non due lchantillonnage
qui a t considre tait lerreur de mesure qui est la diffrence entre la rponse enregistre une
question et la vraie valeur. Dans la documentation sur la conception du questionnaire, cette erreur est
plus souvent intitule erreur de rponse. Le questionnaire tant un moyen de collecte des donnes, il est
donc une source importante derreurs de rponse. Il est donc essentiel de concevoir le questionnaire et de
le mettre lessai pour minimiser ces erreurs.
5.4.1
Les erreurs de rponse sont possibles nimporte o dans le processus denregistrement des questions et
rponses. Les erreurs peuvent tre attribues au questionnaire, au rpondant, lintervieweur, la
mthode de collecte des donnes ou loutil de mesure (dans le cas dune enqute avec mesure directe).
Les sources derreur de rponse due au questionnaire ont dj t mentionnes aux sections prcdentes.
Les questions fermes, par exemple, peuvent inciter le rpondant choisir une rponse, peu importe sil a
une opinion ou non, ou sil a mme les connaissances suffisantes pour rpondre la question, et les
rponses biaises socialement convenables peuvent tre un problme dans le cas des questions caractre
dlicat. Toute question mal formule peut tre mal interprte. Voici en gnral les explications des
erreurs de rponse occasionnes par le questionnaire :
- le genre de question (ouverte ou ferme),
- la formulation de la question,
- la longueur du questionnaire (peut fatiguer le rpondant),
- la prsentation du questionnaire (p. ex., les instructions Passez compliques peuvent occasionner
des erreurs, en particulier dans les questionnaires sur support papier) (voir la Section 5.5),
- le traitement du questionnaire (voirla Section 5.6).
Le rpondant peut aussi avoir de la difficult se remmorer des comportements ou des vnements
antrieurs. Cette source derreur de rponse est intitule erreur de mmorisation. Lune des erreurs de
mmorisation est lerreur de mmoire, cest--dire que le rpondant ne se souvient pas de tous les
vnements qui se sont drouls au cours de la priode de rfrence. Le rsultat est une sous-dclaration
des comportements ou des vnements. La situation inverse est aussi possible. Le rpondant peut dclarer
des activits qui se sont droules hors de la priode de rfrence pensant quelles en faisaient partie.
Cette source derreur est intitule erreur de tlescopage et le rsultat est habituellement une
surdclaration des comportements manifests ou des vnements. La situation sexplique ainsi : le
rpondant tendance dclarer que des comportements se sont manifests ou des vnements ont eu lieu
plus rcemment que ce nest le cas en ralit. Il sagit de tlescopage en aval. Le rpondant peut dclarer
loccasion que des comportements se sont manifests ou des vnements ont eu lieu plus longtemps
auparavant que ce nest le cas en ralit. Cette erreur est intitule tlescopage en amont. En gnral, plus
la priode de rfrence est longue, plus grande est la perte de mmoire (et ainsi, la possibilit derreurs de
mmoire). Les priodes de rfrence plus brves ont cependant tendance augmenter les erreurs de
tlescopage.
Les enqutes ritres peuvent poser ce quon appelle un problme de concordance lorsquun nombre
particulirement important de changements sont dclars la lisire de deux priodes de rfrence
comparativement au nombre de changements pendant la priode de rfrence. La situation peut tre
corrige laide de linterview connexe.
STATISTIQUE CANADA
86
Voici des exemples de questions qui exigent que le rpondant se souvienne dvnements ou de
comportements antrieurs :
Combien de fois avez-vous visit le mdecin depuis 12 mois?
Quelles revues avez-vous lues le mois dernier?
Quelles missions de tlvision avez-vous coutes la semaine dernire?
Les intervieweurs peuvent aussi tre une source derreur de rponse. Chaque intervieweur doit poser la
question de la mme manire chaque interview. Sil y a plusieurs interviews et si un intervieweur
modifie la formulation dune question, la signification de la question peut alors changer. Les
intervieweurs peuvent aussi faire erreur lorsquils enregistrent la rponse, par ngligence ou dlibrment
(convaincus que le rpondant aurait d rpondre diffremment), ou en interprtant mal la rponse. Dans
les enqutes avec mesure directe, lintervieweur peut mesurer la caractristique (p. ex., tension artrielle)
et faire erreur. Lintervieweur, compte tenu de sa raction aux rponses, peut aussi influencer le
comportement du rpondant. Si lintervieweur exprime son tonnement, par exemple, lorsque le
rpondant prcise combien il dpense en vtements, celui-ci peut dclarer des montants moindres pour les
autres questions sur les dpenses.
5.4.2
Il est possible didentifier les sources derreur de rponse et dappliquer des techniques pour rduire les
rpercussions de ce genre derreurs.
La longueur des questions peut avoir des rpercussions sur les erreurs de rponse. Les questionnaires
couvrent souvent divers sujets. Si lintervieweur administre le questionnaire, il est difficile pour le
rpondant de prvoir la question suivante. Le recours des questions plus longues, mais quand mme
prcises, simples et claires, est une technique qui aide le rpondant cibler un nouveau sujet. Une version
plus longue dune question donne davantage de temps au rpondant pour formuler une rponse. La
recherche suggre quune question plus longue peut inciter le rpondant sexprimer davantage, ce qui
peut raviver des souvenirs. Le rpondant peut aussi avoir davantage de temps pour rflchir et donner une
rponse plus complte.
Question brve :
Quels problmes de sant avez-vous eus lan dernier?
Longue question :
La question suivante porte sur les problmes de sant lan dernier. Nous posons la question
chacun dans lenqute. Quels problmes de sant avez-vous eus lan dernier?
Afin de rduire les erreurs de rponse des intervieweurs, ils devraient tre bien forms et des procdures
de contrle qualitatif, notamment des techniques de rinterview, devraient tre appliques, pour identifier
les problmes et donner une nouvelle formation aux intervieweurs, au besoin.
Il faut faire tous les efforts possibles pour produire un questionnaire bien conu, selon la description dans
ce chapitre, afin de rduire les erreurs de rponse que peut susciter le questionnaire.
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
87
Si des problmes de mmoire sont reprs dans un questionnaire, les techniques suivantes peuvent tre
appliques, en tout ou en partie :
i.
La priode de rfrence peut tre abrge sil est dtermin que le rpondant a de la difficult se
remmorer tous les vnements qui se sont drouls pendant cette priode.
Ce problme est possible quand les occurrences sont frquentes. Si la question demande le nombre de
visites du rpondant chez le mdecin lan dernier, par exemple, il peut tre difficile de se souvenir de
chaque occurrence sil a visit souvent le mdecin. Si la priode de rfrence est plus courte, les rponses
peuvent tre plus prcises. Il faut cependant viter une priode de rfrence trop brve parce que le
nombre dvnements dclars serait insuffisant. La longueur optimale de la priode de rfrence peut
tre dtermine pendant lvaluation du questionnaire.
ii.
Un calendrier ou des points de repre comme les congs fris peuvent aussi aider minimiser les
erreurs de mmoire.
iii.
Les rpondants sont interviews au dbut et la fin de la priode de rfrence. Les vnements identifis
la premire interview peuvent tre retranchs sils sont dclars de nouveau pendant la deuxime
interview.
iv.
Linterview connexe est aussi un moyen de diminuer les erreurs de rponse dans les enqutes
ritres.
Au cours de linterview connexe, linformation que le rpondant a donne pendant un cycle prcdent de
lenqute est disponible pour les cycles ultrieurs. Cette mesure peut aider le rpondant situer les
vnements dans la priode de rfrence voulue et lempcher de dclarer des vnements mentionns
auparavant.
v.
Si la question demande au rpondant de dclarer son revenu lan dernier, par exemple, il pourrait
confirmer sa rponse en consultant sa dclaration de revenus. Le rpondant peut aussi tenir des dossiers
dans dautres situations. Certaines personnes ont des dossiers des dpenses du mnage, notamment, les
factures mensuelles de tlphone ou les reus dachat dessence. La consultation des dossiers pour
diminuer les erreurs de mmoire est probablement davantage applique au questionnaire de lenqute par
autodnombrement.
vi.
Un autre moyen utile pour les questionnaires de lenqute par autodnombrement est le journal.
Lorsquil est important dobtenir de linformation dtaille sur une priode prolonge, le rpondant peut
utiliser un journal pour entrer les vnements mesure. Le journal a tendance servir aux enqutes sur
les dpenses des mnages, la consommation des aliments, lemploi du temps, lcoute de la tlvision et
de la radio.
Dans le cas des questionnaires assists par intervieweur, dautres techniques peuvent aider le participant
rpondre prcisment aux questions. Si vous demandez au rpondant de dclarer les aliments consomms
sur une priode de 24 heures, il peut tre difficile dindiquer les portions. Lintervieweur peut avoir
STATISTIQUE CANADA
88
recours des moyens visuels qui indiqueraient la taille des diverses portions et le rpondant pourrait
slectionner celle qui convient.
Dautres points du plan denqute, notamment le dlai dexcution de la collecte des donnes, peuvent
aussi amliorer la mmoire, par exemple, lordonnancement dune enqute sur les revenus en avril.
5.5
Prsentation du questionnaire
Au genre de questions et leur formulation sajoutent lordre des questions, les noncs de transition, les
instructions et la mise en forme du questionnaire qui sont aussi des lments importants pour crer un
questionnaire de qualit.
5.5.1
Lordre des questions devrait tre conu pour maintenir lintrt du rpondant et linciter remplir le
questionnaire ou rpondre linterview. La squence des questions devrait tre logique pour le
rpondant et faciliter le rappel la mmoire. Les questions devraient couler doucement de lune lautre.
Il faudrait regrouper les questions sur un mme sujet.
i.
Introduction
Lintroduction lenqute, que lit le rpondant ou qui lui est lue, est trs importante parce quelle donne
le ton tout le questionnaire. Lintroduction du questionnaire devrait :
- donner le titre ou le sujet de lenqute,
- identifier le commanditaire de lenqute,
- exprimer lobjectif de lenqute,
- demander la collaboration du rpondant,
- expliquer pourquoi il est important de remplir le questionnaire,
- garantir que le rpondant comprend clairement la valeur de ses renseignements,
- souligner comment seront utilises les donnes de lenqute,
- prciser comment le rpondant peut avoir accs aux rsultats de lenqute,
- indiquer que les rponses seront confidentielles et ajouter toute entente dchange de donnes avec
dautres organismes statistiques, ministres, clients, etc.,
- donner ladresse et la date de retour pour le questionnaire denqute envoy par la poste.
ii.
Les questions dentre en matire sont importantes pour inciter le rpondant participer lenqute. La
premire question devrait porter directement sur lobjectif de lenqute et cibler tous les rpondants,
autrement, le rpondant remettra en question la pertinence de lenqute. Les premires questions devraient
aussi tre faciles rpondre. Commencer par une question ouverte qui demande une rponse dtaille
peut donner une non-rponse si le questionnaire est considr comme un fardeau trop lourd pour y donner
suite.
iii.
Il faudrait considrer attentivement o intgrer les questions caractre dlicat. Si elles sont poses trop
tt, le rpondant peut hsiter y rpondre, mais si elles sont poses la fin dun long questionnaire, la
fatigue du rpondant peut avoir des rpercussions sur la qualit des rponses. Il faudrait donc poser des
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
89
questions caractre dlicat au moment o le rpondant est probablement le plus laise pour y rpondre
et lorsquelles sont les plus significatives dans le contexte des autres questions. Les questions caractre
dlicat sur la sant, par exemple, devraient tre poses la section o sont poses les autres questions
pertinentes la sant.
iv.
Ces renseignements sont souvent utiliss des fins de regroupement pour analyser les donnes et faire des
comparaisons entre des enqutes. Il faudrait expliquer pourquoi ce genre de questions est pose, par
exemple, les quelques questions suivantes aideront comparer linformation sur votre sant celle
dautres personnes ayant des antcdents semblables. Dans le cas des enqutes sur les mnages et
dautres enqutes sociales, linformation dmographique est reporte loccasion la fin du
questionnaire.
5.5.2
noncs de transition
Les noncs de transition des questionnaires servent prsenter des sections de questions connexes.
Ils sont importants dans les questionnaires assists par intervieweur parce quils indiquent au
rpondant quun nouveau sujet sera considr, par exemple :
Partie A - Nous voulons dabord obtenir des renseignements gnraux sur votre exploitation
agricole.
Partie B - Nous voulons maintenant obtenir de linformation sur votre superficie en culture
lan dernier.
Partie C - Les questions suivantes portent sur les dclarations de revenus de votre
exploitation agricole lan dernier.
5.5.3
Instructions
STATISTIQUE CANADA
90
Nota : Les questions suivantes ciblent votre travail ou votre entreprise la semaine dernire.
Si vous naviez pas de travail ou dentreprise la semaine dernire, rpondez en tenant compte
de lemploi qui a dur le plus longtemps depuis le 1er janvier. Si vous avez eu plus dun
emploi la semaine dernire, rpondez selon lemploi o vous avez travaill pendant le plus
grand nombre dheures.
Dans lexemple prcdent, les directives sont inscrites avant les questions poses et elles peuvent tre
prsentes dans un style de caractres diffrent de celui des questions.
Les dfinitions devraient tre inscrites au dbut du questionnaire si elles sont pertinentes lensemble des
questions, autrement, elles peuvent tre ajoutes certaines questions en particulier, au besoin.
Lutilisation des caractres gras met laccent sur les points importants, par exemple les priodes de
rfrence ou de dclaration, et le rpondant rflchira probablement alors davantage en tenant compte de
la priode de rfrence de la question. Sil est ncessaire de prciser des points en particulier inclure ou
exclure, il vaut mieux ajouter ces remarques aux questions directement, et non dans les instructions
distinctes, par exemple :
Combien de pices y a-t-il dans ce logement?
- Comptez la cuisine, les chambres coucher, les pices habitables au grenier ou au sous-sol,
etc.
Lan dernier, un membre actif de cette exploitation agricole a-t-il t atteint dune lsion lie aux
activits agricoles qui a demand lattention mdicale dun professionnel de la sant (mdecin,
infirmire, etc.) ou qui a occasionn une perte de temps de travail?
- Comptez seulement les lsions des membres actifs de cette exploitation agricole.
- Ninscrivez pas les problmes de sant chroniques.
Quelle est la superficie totale des grandes cultures cibles pour la rcolte cette anne, mme si
elle a t cultive ou ensemence au cours dune anne prcdente?
- Comptez toutes les grandes cultures, peu importe si la superficie vous appartient, si elle est
loue ou si vous lavez loue bail.
- Comptez toutes les terres qui seront ensemences, mme si ce nest pas dj fait.
- Dclarez les secteurs seulement une fois, mme si plus dune culture sera rcolte cette anne.
Combien de semaines par anne travaillez-vous habituellement ce poste? Veuillez compter les
congs annuels et autres congs pays.
Les instructions Passez devraient tre clairement indiques dans les questionnaires sur support
papier. Des flches en gras bien situes devraient orienter le rpondant ou lintervieweur vers la question
approprie suivante. Les instructions Passez devraient tre clairement lies la case de rponse
pertinente (p. ex., laide de lignes traces directement vers la case ou le cercle de rponse). Enfin, il
faudrait minimiser les instructions Passez des questionnaires denqute par autodnombrement.
5.5.4
Il y a de nombreuses considrations ne pas oublier lors de lorganisation des mots imprims sur support
papier ou affichs lcran. Il faudrait maintenir luniformit du style et de la police de caractres des
questions, instructions, enttes et noncs de transition. Le recours des polices et styles de caractres
diffrents pour les questions et les instructions permet au rpondant ou lintervieweur didentifier
facilement les questions. Les titres et enttes de section ont habituellement une police de caractres plus
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
91
larges que celle des questions et des catgories de rponse. Il faudrait numrer conscutivement les
questions dun bout lautre du questionnaire. Des nombres, titres ou lettres peuvent indiquer les
sections. Les codes dentre des donnes imprims dans le questionnaire ou affichs lcran devraient
tre clairement distincts des questions ou de la numrotation des questions.
Il serait bon dinscrire un titre ou une entte chaque section du questionnaire, par exemple :
INFORMATION AUX RPONDANTS
SECTION 1 : Information gnrale
SECTION 2 : Dclaration des revenus
SECTION 3 : Dpenses dimmobilisations
SECTION 4 : Population active
SECTION 5 : Commentaires
Il faut considrer toutes les caractristiques du questionnaire pertinentes sa prsentation. La couverture
avant dun questionnaire denqute par autodnombrement est extrmement importante parce quelle doit
attirer lattention du rpondant. Il faut prendre des dcisions sur le genre de papier et la taille du papier
utilis pour le questionnaire.
La couleur du questionnaire peut avoir plusieurs utilits. Diffrentes versions du questionnaire (p. ex.,
selon la langue) peuvent tre imprimes sur du papier de couleurs varies. Si le questionnaire est imprim
sur papier couleur, les cases de rponse sont blanches ou dun ton plus ple de la mme couleur. Voil qui
aide le rpondant ou lintervieweur dterminer correctement o rpondre chaque question.
Le recours des cases de rponse aux questions ouvertes et des cercles de rponse pour les questions
fermes est une convention qui aide aussi le rpondant ou lintervieweur. Il est plus facile de dterminer
o entrer la rponse laide de cette convention. Le cercle des catgories de rponse aux questions
fermes devrait tre dispos uniformment avant ou aprs la rponse. Des graphiques peuvent servir
amliorer le questionnaire. Les graphiques, sils sont appropris, peuvent aider indiquer les sujets de la
section, mais ils ne devraient pas empcher de remplir le questionnaire.
Dans le cas des applications dinterviews assistes par ordinateur, Statistique Canada a labor des
normes pour prsenter une interface commune tous les intervieweurs et rduire les cots de
dveloppement, de mise lessai et de formation. Ces normes sappliquent certains points, notamment,
-
Ces normes sont donnes en dtail dans Screen Display and Functionality Standards for Social Survey
Full BLAISE Applications (2001) Normes relatives aux affichages et aux fonctions compltes des
applications BLAISE pour les enqutes sociales.
STATISTIQUE CANADA
92
5.6
Le traitement est la mise en forme convenable des rponses de lenqute obtenues pendant la collecte
des donnes aux fins de la totalisation et de lanalyse des donnes. Il comprend toutes les activits de
traitement des donnes aprs la collecte et avant lestimation. Certaines activits, cest--dire la saisie, la
vrification et le codage des donnes, peuvent tre faites pendant la collecte des donnes laide dune
application assiste par ordinateur pour rationaliser le traitement.
Il faudrait considrer les tches de traitement pendant la conception et llaboration du questionnaire. Le
programme de codage devrait tre labor en mme temps que la formulation des questions. Il faudrait
imprimer les codes des questions fermes sur le questionnaire sur support papier. Il faudrait aussi
considrer la saisie des donnes lorsque les dcisions sont prises sur la prsentation du questionnaire sur
support papier.
La prsentation du questionnaire a des rpercussions sur la facilit de la saisie des donnes des
questionnaires sur support papier. Linscription uniforme de codes numriques aprs des catgories de
rponse et lalignement des questions en colonnes facilitent la saisie des donnes. Toutes les tapes de
traitement pertinentes au questionnaire (saisie des donnes, codage, etc.) devraient tre mises lessai
pour garantir lefficacit du questionnaire aux fins de ces oprations.
Il faudrait considrer les rpercussions de la formulation des questions sur la saisie des donnes. Chaque
questionnaire devrait comprendre un numro didentification unique pour faciliter la vrification de la
saisie des donnes. Il est parfois ncessaire de revenir au questionnaire original pour dterminer si
linformation a t saisie correctement. Il faudrait saisir les donnes des questionnaires sur support papier
le plus rapidement possible aprs les avoir reus. Cette mesure permet la mise en uvre de systmes
utiliss pour vrifier si linformation entre au fichier correspond celle du questionnaire.
Le Chapitre 10 - Traitement donne davantage de dtails ce sujet.
5.7
Sommaire
La conception et llaboration dun questionnaire ont t considres dans ce chapitre. La premire tape
est la formulation des objectifs de lenqute. Les rpondants et les utilisateurs des donnes sont ensuite
consults et les questionnaires denqutes semblables font lobjet dun examen. Vient ensuite la
formulation de la version prliminaire du questionnaire qui doit tre mise lessai et rvise
soigneusement avant dy apporter la touche finale. La mise lessai peut comprendre le prtest, la mise
lessai cognitif, les groupes de discussion, les comptes rendus des intervieweurs, le codage
comportemental, les mises lessai dchantillons fractionns et un essai pilote.
Il y a deux genres de questions : fermes ou ouvertes. Les questions fermes peuvent tre des questions
dichotomiques, choix multiples, avec classement ou avec chelle dvaluation. Les questions ouvertes
permettent lexpression personnelle, mais elles peuvent tre un fardeau, demander du temps et tre
difficiles analyser. Les questions fermes sont habituellement un fardeau moindre pour le rpondant, et
la collecte et la saisie des donnes cotent moins cher et sont plus faciles. Un choix mdiocre de
catgories de rponse peut cependant occasionner lerreur de rponse.
Il faudrait respecter les lignes directrices suivantes lors de la formulation dun questionnaire denqute :
- tre simple (la simplicit est de rigueur),
- dfinir les acronymes et les abrviations,
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
93
Le questionnaire devrait tre conu pour minimiser les erreurs de rponse possibles. La prsentation du
questionnaire est aussi importante. Lintroduction et la rpartition squentielle des questions peuvent
susciter ou rprimer la participation des rpondants. Il faudrait utiliser des noncs de transition
prsentant les nouveaux sujets, et les instructions au rpondant ou lintervieweur devraient tre claires,
brves et faciles trouver. Il faudrait valuer la mise en forme gnrale du questionnaire pour en
dterminer les rpercussions sur le rpondant et lintervieweur : police de caractres, entte de section,
couleur du questionnaire, mise en forme des catgories de rponse, etc. Enfin, il faudrait considrer le
traitement du questionnaire : il devrait tre conu pour faciliter la collecte et la saisie des donnes.
Bibliographie
Advertising Research Foundation. 1985. Focus Groups: Issues and Approaches. Advertising Research
Foundation, Inc., New York, New York. 10022.
American Statistical Association. 1993. How to Conduct Pretesting. The Section on Survey Research
Methods. American Statistical Association.
Babyak, C., A. Gower, L. Gendron, J. Mulvihill et R.A. Zaroski. 2000. Testing of Questionnaires for
Statistics Canadas Unified Enterprise Survey. Proceedings of the International Conference on
Establishment Surveys II. American Statistical Association.
Biemer, P.P., R.M. Groves, L.E. Lyberg, N.A. Mathiowetz et S. Sudman, ds. 1991. Measurement Errors
in Surveys. John Wiley and Sons, New York.
Bishop, G.F. 1987. Experiments with the Middle Response Alternative in Survey Questions. Public
Opinion Quarterly, 51: 220-232.
Bureau of the Census. Pretesting Policy and Options: Demographic Surveys at the Census Bureau. U.S.
Department of Commerce, Washington, D.C.
Carlson, L.T., J.L. Preston et D.K. French. 1993. Using Focus Groups to Identify User Needs and Data
Availability. Proceedings of the International Conference on Establishment Surveys. American
Statistical Association. 300-308.
Converse, J.M. et S. Presser. 1986. Survey Questions: Handcrafting the Standardized Questionnaire.
Sage University Paper Series on Quantitative Applications in the Social Sciences. 07-063. Sage
Publications, Thousand Oaks, California.
Couper, M.P. 2001. Web Surveys. Public Opinion Quarterly, 64(4): 464-494.
Desvousges, W.H. et J.H. Frey. 1989. Integrating Focus Groups and Surveys: Examples from
Environmental Risk Studies. Journal of Official Statistics, 5(4): 349-363.
STATISTIQUE CANADA
94
Dillman, D.A. 1978. Mail and Telephone Surveys: The Total Design Method. John Wiley and Sons, New
York.
Dillman, D.A., M.D. Sinclair et J.R. Clark. 1993. Effects of Questionnaire Length, Respondent-friendly
Design, and a Difficult Question on Response Rates for Occupant-addressed Census Mail
Surveys. Public Opinion Quarterly, 57(3): 289-304.
Esposito, J.L., P.C. Campanelli, J.M. Rothgeb et A.E. Polivka. 1991. Determining Which Questions are
Best: Methodologies for Evaluating Survey Questions. Proceedings of the Section on Survey
Research Methods, American Statistical Association. 46-57.
Fowler, F.J., Jr. 1995. Improving Survey Questions: Design and Evaluation. Applied Social Research
Methods Series. 38. Sage Publications, Thousand Oaks, California.
Fowler, F.J., Jr. et T.W. Mangione. 1990. Standardized Survey Interviewing. Applied Social Research
Methods Series. 18, Sage Publications, Thousand Oaks, California.
Gower, A.R. 1994. Conception des questionnaires denqutes-entreprises. Tchniques denqute, 20(2):
129-142.
Gower, A.R. 1997. Prsentation des questions sous forme squentielle, matricielle, de feuillet unique et de
livret pour le questionnaire du recensement au Canada. Comptes-rendus du Symposium 97 de
Statistique Canada: nouvelles directions pour les enqutes et les recensements, Statistique
Canada. 251-256.
Gower, A.R. et G. Haarsma. 1997. A Comparison of Two Methods in a Test of the Canadian Census
Questionnaire: Think-aloud Interviews vs. Focus Groups. Proceedings of the Minimum Standards
in Questionnaire Testing Workshop. Statistics Sweden. 35-37.
Gower, A.R., B. Blanger et M.-J. Williams. 1998. Using Focus Groups with Respondents and
Interviewers to Evaluate the Questionnaire and Interviewing Procedures after the Survey Has
Taken Place. Proceedings of the 1998 Joint Statistical Meetings, Section on Survey Research
Methods. American Statistical Association. 404-409.
Gower, A.R., K. McClure, A. Paletta et M.-J. Williams. 1999. When to Use Focus Groups versus
Cognitive Interviews in the Development and Testing of Questionnaires: The Statistics Canada
Experience. Proceedings: Quality Issues in Question Testing (QUEST 99). Office for National
Statistics, England. 51-66.
Jabine, T., E. Loftus, M. Straf, J. Tanur, et R. Tourangeau, ds. Cognitive Aspects of Survey
Methodology: Building a Bridge Between Disciplines. National Academy of Science,
Washington, DC.
Kalton, G. and H. Schuman. 1982. The Effect of the Question on Survey Responses: A Review. Journal
of the Royal Statistical Society, 145(1): 42-73.
Krueger, R.A. 1997. Analyzing and Reporting Focus Group Results. Focus Group Kit. 6. Sage
Publications, Thousand Oaks, California.
Krueger, R.A. 1997. Developing Questions for Focus Groups. Focus Group Kit. 3. Sage Publications,
Thousand Oaks, California.
STATISTIQUE CANADA
CONCEPTION DU QUESTIONNAIRE
95
Morgan, D.L. 1997. Planning Focus Groups. Focus Group Kit. 2. Sage Publications, Thousand Oaks,
California.
Morgan, D.L. 1997. The Focus Group Guidebook. Focus Group Kit. 1. Sage Publications, Thousand
Oaks, California.
Oppenheim, A.N. 1992. Questionnaire Design, Interviewing and Attitude Measurement. Pinter
Publishers, London.
Payne, S.L. 1951. The Art of Asking Questions, Princeton University Press, Princeton, New Jersey
Platek, R., F.K. Pierre-Pierre et P. Stevens. 1985. laboration et conception des questionnaires
denqute. Statistique Canada. 12-519F.
Presser, S. et J. Blair. 1994. Survey Pretesting: Do Different Methods Produce Different Results?
Sociological Methodology, 24: 73-104.
Statistique Canada. 1994. Politique concernant lexamen et la mise lessai des questionnaires. Manuel
des politiques. 2.8.
Statistique Canada. 1996a. Politique dinformation des rpondants aux enqutes, Manuel des politiques.
1.1.
Statistics Canada. 2001. Screen Display and Functionality Standards for Social Survey Full BLAISE
Applications.
Statistics Canada. 2001. Standard Question Blocks for Social Survey Full BLAISE Applications.
Tourangeau, R., L.J. Rips et K. Rasinski, 2000, The Psychology of Survey Response, Cambridge
University Press, Cambridge, U.K.
STATISTIQUE CANADA
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
97
STATISTIQUE CANADA
98
Par exemple, il est courant que lintervieweur dcide subjectivement qui doit tre chantillonn. tant
donn que lintervieweur slectionnera probablement les membres de la population les plus amicaux ou
faciles daccs, une partie importante de la population naura aucune chance dtre slectionne et celle-ci
sera peut-tre systmatiquement diffrente des membres slectionns. Non seulement la situation peut
biaiser les rsultats de lenqute, mais elle peut aussi diminuer erronment la variabilit apparente de la
population cause dune tendance slectionner des units typiques et dliminer les valeurs
extrmes. Lchantillonnage probabiliste vite justement ce genre de biais cause de la slection alatoire
des units (voir la Section 6.2).
tant donn le biais de slection et (habituellement) labsence de base de sondage, la probabilit
dinclusion dune personne ne peut tre calcule pour les chantillons non probabilistes et il est donc
impossible de faire des estimations fiables ou des estimations de leur erreur dchantillonnage. Il faut
supposer que lchantillon est reprsentatif de la population pour faire des infrences sur celle-ci. Il faut
habituellement supposer que les caractristiques de la population correspondent un certain modle ou
quelles sont galement ou alatoirement rparties dans la population. Cest souvent dangereux cause de
la difficult dvaluer si oui ou non ces suppositions sont fondes.
Les tudes de march utilisent souvent lchantillonnage non probabiliste comme mesure de rechange
rapide prix raisonnable, comparativement lchantillonnage probabiliste, mais ce nest pas un substitut
valable de lchantillonnage probabiliste pour les raisons mentionnes ci-dessus. Dans ce cas, pourquoi
choisir un chantillonnage non probabiliste? Celui-ci peut tre appliqu des tudes qui servent :
- doutil pour donner des ides,
- dtape prliminaire llaboration dune enqute par chantillonnage probabiliste,
- dtape de suivi pour aider comprendre les rsultats dune enqute par chantillonnage probabiliste.
Lchantillonnage non probabiliste peut donner, par exemple, de linformation importante au cours des
premires tapes dune enqute. Il peut servir des tudes diagnostiques ou de recherche pour acqurir un
aperu des attitudes, certitudes, motivations et comportements des gens. Lchantillonnage non
probabiliste est parfois la seule option viable; par exemple, lchantillonnage des bnvoles peut tre le
seul moyen dobtenir des donnes pour des expriences mdicales.
Lchantillonnage non probabiliste est souvent utilis pour slectionner des personnes pour des groupes
de discussion ou des interviews approfondies. Statistique Canada utilise lchantillonnage non
probabiliste, par exemple, pour faire lessai des questions du Recensement de la population, afin de
vrifier si les questions poses et les concepts utiliss sont clairs pour les rpondants. Si la matire dune
question est considre controverse, des sous-populations peuvent aussi tre slectionnes et mises
lessai. Si ces questions peuvent tre formules de sorte quelles soient acceptables pour ces personnes,
par lintermdiaire de groupes de discussion, elles peuvent tre acceptables pour tous les membres de la
population. (Les groupes de discussion sont tudis au Chapitre 5 - Conception du questionnaire.)
Les tudes prliminaires sont un autre exemple qui motive lutilisation de lchantillonnage non
probabiliste. Si une nouvelle enqute est planifie pour couvrir un domaine trs peu connu, des plans
dchantillonnage non probabilistes sont souvent utiliss dans les enqutes pilotes. Considrons, par
exemple, lindustrie relativement nouvelle de la conception des pages Web. Supposons quil ny a pas de
renseignements sur le nombre de personnes qui travaillent dans lindustrie, leurs revenus ou dautres
dtails de la profession. Une enqute pilote serait planifie et des questionnaires seraient envoys
quelques personnes qui conoivent des pages Web. Lexamen des questionnaires retourns peut donner
une ide sur leurs revenus et rvler que de nombreux concepteurs de pages Web travaillent domicile,
quils ont uniquement un numro de tlphone personnel et quils annoncent exclusivement sur Internet.
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
99
Rgle gnrale, les chantillons non probabilistes sont obtenus en peu de temps et lenqute est rapide : il
est trs facile de simplement sortir et poser des questions la premire centaine de personnes rencontres
dans la rue.
ii.
Il faut habituellement quelques heures seulement du temps dun intervieweur pour faire ce genre
denqute. De plus, les chantillons non probabilistes ne sont gnralement pas disperss
gographiquement et les frais de dplacement des intervieweurs sont donc minimes.
iii.
iv.
Il faut avoir des hypothses solides sur la reprsentativit de lchantillon pour formuler des
infrences sur la population. tant donn que tous les chantillons non probabilistes comportent
un biais de slection, il est souvent dangereux de formuler ces hypothses. Il vaudrait mieux
procder un chantillonnage probabiliste si des infrences sont ncessaires.
ii.
Il est impossible de dterminer la probabilit quune unit de la population soit slectionne pour
lchantillon, et des estimations fiables et des estimations de lerreur dchantillonnage ne
peuvent donc tre faites.
Les sections suivantes dcrivent cinq diffrents types de mthodes dchantillonnage non probabilistes :
lchantillonnage laveuglette, lchantillonnage participation volontaire, lchantillonnage au jug,
lchantillonnage par quotas et lchantillonnage probabiliste modifi. Lchantillonnage de rseaux ou
boule de neige moins souvent utilis est prsent la Section 6.3.
6.1.1
chantillonnage laveuglette
Les units sont slectionnes de faon arbitraire, sans ide prconue, et la planification est minime, sinon
nulle. Celui qui fait lchantillonnage laveuglette prsume que la population est homogne : si les
units de la population sont toutes semblables, nimporte quelle unit peut tre choisie pour lchantillon.
Linterview de lhomme de la rue est un exemple dchantillonnage laveuglette parce que
lintervieweur choisit nimporte quel passant. Sauf si la population est vraiment homogne, les biais de
lintervieweur et du passant au moment de lchantillonnage peuvent malheureusement avoir des
rpercussions sur la slection.
6.1.2
Cette mthode fait appel des rpondants volontaires. Les volontaires doivent gnralement faire lobjet
dun examen pour obtenir un ensemble de caractristiques qui convient aux objectifs de lenqute (p. ex.,
STATISTIQUE CANADA
100
les personnes atteintes dune maladie en particulier). Cette mthode peut tre marque dun important
biais de slection, mais elle est parfois ncessaire. Pour des raisons de dontologie, on peut faire appel,
par exemple, des volontaires ayant des conditions mdicales particulires pour procder certaines
expriences mdicales.
Voici un autre exemple dchantillonnage participation volontaire : au cours dune mission radio ou
tldiffuse, une question fait lobjet dune discussion et les citoyens lcoute sont invits tlphoner
pour exprimer leurs opinions. Seuls ceux que le sujet intresse vraiment dune faon ou dune autre ont
tendance rpondre. La majorit silencieuse ne rpond habituellement pas et nous avons donc un biais de
slection marqu. Lchantillonnage participation volontaire sert souvent slectionner des particuliers
pour des groupes de discussion ou des interviews approfondies (c.--d. une mise lessai qualitative qui
exclut la gnralisation applique la population complte).
6.1.3
chantillonnage au jug
laide de cette mthode, lchantillonnage est fait en tenant compte des ides pralables sur la
composition et le comportement de la population. Un expert qui connat la population dcide quelles
units devraient tre choisies. Autrement dit, lexpert slectionne dessein ce qui est considr comme un
chantillon reprsentatif. Les biais du chercheur peuvent marquer lchantillonnage au jug qui peut tre
encore plus biais quun chantillonnage laveuglette. tant donn que les ides prconues du
chercheur sont refltes dans lchantillon, des biais importants peuvent tre intgrs si ces ides
prconues sont inexactes. Il peut cependant tre utile aux tudes de recherche, par exemple, lors de la
slection de personnes pour des groupes de discussion ou des interviews approfondies, afin de vrifier des
aspects particuliers dun questionnaire.
6.1.4
Voil lun des chantillonnages non probabilistes les plus communs. Lchantillonnage est fait jusqu ce
quun nombre dtermin dunits (quotas) soient slectionnes dans diverses sous-populations.
Lchantillonnage par quotas est un moyen datteindre les objectifs de taille dchantillon pour les souspopulations.
Les quotas peuvent tre tablis selon des proportions de population. Sil y a 100 hommes et 100 femmes
dans la population, par exemple, et sil faut tirer un chantillon de 20 personnes, 10 hommes et
10 femmes peuvent tre interviews. Lchantillonnage par quotas peut tre considr prfrable
dautres formes dchantillonnage non probabiliste (p. ex., chantillonnage au jug) parce quil faut
inclure des membres de sous-populations diffrentes.
Lchantillonnage par quotas ressemble lchantillonnage stratifi parce que des units semblables sont
regroupes (des dtails sur lchantillonnage stratifi sont donns la Section 6.2.6). La mthode de
slection des units est cependant diffrente. Les units sont slectionnes alatoirement dans
lchantillonnage probabiliste, mais dans lchantillonnage par quotas, une mthode non alatoire est
applique, cest--dire que lintervieweur dcide habituellement qui est ajout lchantillon. Les units
sollicites qui ne sont pas disposes participer sont simplement remplaces par dautres qui le sont, et
lon ignore en fait le biais de non-rponse.
Les tudes de march utilisent souvent lchantillonnage par quotas (en particulier pour les enqutes au
tlphone) au lieu de lchantillonnage stratifi pour faire enqute auprs de citoyens ayant des profils
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
101
socioconomiques particuliers parce quil est relativement meilleur march que lchantillonnage stratifi,
il est facile administrer et il a la caractristique souhaitable de respecter les proportions de la population.
Il masque cependant un biais de slection ventuellement important.
Dans ce cas comme dans tous les autres plans dchantillonnage non probabiliste il faut prsumer que les
personnes slectionnes sont semblables aux autres pour formuler des infrences sur la population. Ces
fortes prsomptions sont rarement valables.
6.1.5
6.2
chantillonnage probabiliste
Lchantillonnage probabiliste est une mthode qui permet de formuler des infrences sur la population,
compte tenu des observations tires de lchantillon. Celui-ci devrait tre libre de tout biais de slection
pour formuler les infrences. Lchantillonnage probabiliste vite ce biais par la slection alatoire
dunits de la population ( laide dun ordinateur ou dun tableau de nombres alatoires). Il ne faut pas
oublier que le terme alatoire ne signifie pas arbitraire. En particulier, les intervieweurs ne choisissent pas
arbitrairement les rpondants parce que leur biais personnel aurait des rpercussions sur
lchantillonnage. Le terme alatoire signifie que la slection nest pas biaise, cest un tirage au sort.
Lchantillonnage probabiliste ne permet pas lintervieweur de dcider subjectivement qui doit tre
choisi.
Voici les deux principaux critres de lchantillonnage probabiliste : la slection des units est alatoire,
toutes les units de la population de lenqute ont une probabilit dinclusion diffrente de zro dans
lchantillon et il est possible de calculer ces probabilits. Il nest pas ncessaire que toutes les units
aient la mme probabilit dinclusion et, en fait, dans les enqutes les plus complexes, la probabilit
dinclusion varie dune unit lautre.
Il y a de nombreux types diffrents de plans dchantillonnage probabiliste. Le plus lmentaire est
lchantillonnage alatoire simple et la complexit des plans saccentue ensuite pour englober
lchantillonnage systmatique, lchantillonnage avec probabilit proportionnelle la taille,
lchantillonnage par grappes, lchantillonnage stratifi, lchantillonnage plusieurs degrs,
lchantillonnage plusieurs phases et lchantillonnage par rpliques. Chacune de ces techniques
dchantillonnage est utile dans diffrentes situations. Si lobjectif de lenqute est simplement dobtenir
des estimations de la population en gnral, et si la stratification serait inapproprie ou impossible,
lchantillonnage alatoire simple pourrait alors tre le meilleur choix. Si le cot de la collecte des
donnes de lenqute est lev et si les ressources sont disponibles, lchantillonnage par grappes est
souvent le choix. Si des estimations de sous-populations sont aussi demandes (p. ex., des estimations par
province, groupe dge ou taille dentreprise), lchantillonnage stratifi est habituellement appliqu.
STATISTIQUE CANADA
102
La majorit des plans plus complexes ont recours linformation auxiliaire de la base de sondage pour
amliorer lchantillonnage. Si la base a t cre partir dun recensement prcdent ou de donnes
administratives, il peut y avoir une mine de renseignements supplmentaires qui peuvent servir
lchantillonnage. Dans le cas dune enqute sur les exploitations agricoles (fermes), par exemple,
lorganisme statistique peut avoir la taille de chaque exploitation en hectares tire du recensement
agricole le plus rcent. Sil sagit dune enqute sur les citoyens, linformation (p. ex., ge, sexe, origine
ethnique, etc.) peut tre disponible pour chacun dans le plus rcent recensement de la population. Lors
dune enqute sur les entreprises, lorganisme statistique peut avoir de linformation administrative,
notamment, sur le genre dindustrie (p. ex., dtaillant, grossiste, fabricant), le genre dentreprise (p. ex.,
magasin daliments), le nombre demploys, etc. Linformation auxiliaire amliore lchantillonnage sil
y a corrlation entre les donnes auxiliaires et les variables de lenqute.
Voici le principal avantage de lchantillonnage probabiliste : la slection de chaque unit est alatoire,
la probabilit dinclusion de chaque unit peut tre calcule, il est possible de faire des estimations fiables
et destimer lerreur dchantillonnage de chaque estimation. On peut donc formuler des infrences sur la
population. Un plan dchantillonnage probabiliste permet en fait souvent dutiliser un chantillon
relativement petit pour formuler des infrences sur une grande population.
Voici les principaux inconvnients de lchantillonnage probabiliste : il est plus difficile, il demande plus
de temps et il cote habituellement plus cher que lchantillonnage non probabiliste. Les frais de cration
et dentretien dune base de sondage de bonne qualit sont substantiels en gnral. tant donn que les
chantillons probabilistes ont tendance tre gographiquement rpartis plus largement dans la
population que les chantillons non probabilistes, les tailles dchantillon sont habituellement plus
grandes, la collecte des donnes cote souvent plus chre et sa gestion est plus difficile. Pour un
organisme statistique, la capacit de formuler des infrences partir dun chantillon probabiliste
surpasse habituellement ses inconvnients.
On a vu au Chapitre 3 - Introduction au plan denqute les qualits dun bon plan. Lutilisation des
donnes administratives est couverte lAnnexe A - Donnes administratives.
6.2.1
Efficience statistique
Lchantillonnage alatoire simple (EAS) est une rfrence pour lvaluation de lefficience dautres
stratgies dchantillonnage. Voici certaines dfinitions pour comprendre le concept de lchantillonnage
efficient.
Un paramtre est une caractristique de la population que le client ou lutilisateur des donnes est
intress estimer, par exemple, la moyenne, la proportion ou le total de la population. Un estimateur est
une formule de calcul dune estimation du paramtre dans lchantillon et une estimation est la valeur
de lestimateur calcul laide des donnes de lchantillon obtenu. La stratgie dchantillonnage est
la combinaison du plan dchantillonnage et de lestimateur utilis.
Le paramtre dintrt peut tre, par exemple, la moyenne de la population, Y , calcule comme suit :
Y =
iU
yi
N
PLANS DCHANTILLONNAGE
103
Dans le cas dun EAS dont le taux de rponse est de 100 %, lestimateur habituel, mais il nest pas le seul,
pour la moyenne de la population est le suivant :
y
Y = i
iS n
r
o Sr est lensemble des rpondants de lchantillon qui comprend n units. La valeur que prend
yi
n
iS r
6.2.2
Lchantillonnage alatoire simple (EAS) est le point de dpart de tout plan dchantillonnage
probabiliste. LEAS est une mthode de slection en une tape qui garantit que chaque chantillon
possible de taille n a une chance gale dtre slectionn. Chaque unit de lchantillon a donc la mme
probabilit dinclusion. Cette probabilit, , est gale n/N, o N est le nombre dunits dans la
population.
Lchantillonnage peut tre fait avec ou sans remise. Lchantillonnage avec remise permet une unit
dtre slectionne plus dune fois. Lchantillonnage sans remise signifie que lorsquune unit a t
STATISTIQUE CANADA
104
slectionne, elle ne peut ltre de nouveau. Lchantillonnage alatoire simple avec remise (EASAR) et
lchantillonnage alatoire simple sans remise (EASSR) sont pratiquement identiques si la taille de
lchantillon est une trs petite fraction de la taille de la population parce que la possibilit que la mme
unit apparaisse plus dune fois dans lchantillon est minime. Lchantillonnage sans remise donne
gnralement des rsultats plus prcis et est plus pratique du point de vue oprationnel. Aux fins de ce
chapitre, lchantillonnage est suppos tre sans remise, sauf avis contraire.
Considrons une population de cinq personnes et supposons quun chantillon de trois est slectionn
(EASSR). tiquetons les personnes de la population 1, 2, 3, 4 et 5 et prcisons que la population est la
srie {1, 2, 3, 4, 5}. Il y a dix chantillons possibles de trois personnes : {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1,
3, 4}, {1, 3, 5}, {1, 4, 5}, {2, 3, 4}, {2, 3, 5}, {2, 4, 5} et {3, 4, 5}. Chacun de ces chantillons a une
chance gale dtre slectionn et chaque personne est slectionne dans six des dix chantillons
possibles, chaque personne a donc une probabilit dinclusion de = 6 10 = n N = 3 5 .
Lorganisme statistique qui veut slectionner un chantillon alatoire simple a habituellement tabli une
base de sondage complte (une liste ou une base arolaire) avant lchantillonnage. Dans une liste, les
units sont gnralement numrotes de 1 N, mais la mthode daffectation dun chiffre unique chaque
unit nest pas importante. Ensuite, n units de la liste sont choisies au hasard laide dun tableau de
nombres alatoires ou de nombres alatoires produits par ordinateur et les units correspondantes forment
lchantillon.
Considrons une enqute auprs des lves dune cole pour illustrer la technique de lEASSR.
Supposons quune liste convenable dlves est disponible ou peut tre dresse partir de sources
existantes. Cette liste sert de base dchantillonnage ou de sondage. Supposons maintenant que la liste de
la population contient N=1530 lves dont un chantillon de la taille n=90 est ncessaire. La prochaine
tape est de dcider comment slectionner 90 lves.
La slection de lchantillon peut tre faite laide dun tableau de nombres alatoires (voir le tableau 1).
La premire tape comprend la slection dun nombre quatre chiffres (parce que cest le nombre de
chiffres de 1530). Commenons lchantillonnage en slectionnant un nombre nimporte o dans le
tableau et en procdant dans nimporte quelle direction. Les premiers 90 nombres quatre chiffres qui ne
sont pas suprieurs 1530 sont slectionns.
Supposons que la ligne 01 et la colonne 85 - 89 sont slectionnes au dpart. En procdant vers le bas de
cette colonne, les nombres alatoires slectionns sont 189, 256, 984, 744, 1441, 617, etc. La slection
continue jusqu ce quon obtienne 90 nombres diffrents. Le rsultat est un chantillon dlves et de
nombres correspondants dans la liste de la population. (tant donn que la mthode considre est
lEASSR, les nombres qui apparaissent plus dune fois ne sont pas retenus). Un tableau de nombres
alatoires a t utilis ci-dessus pour illustrer la slection manuelle dun chantillon alatoire simple, mais
en pratique, un programme informatique slectionnerait les units au hasard.
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
105
50-54
59311
98567
10363
86852
11258
55-59
58030
76364
97518
19558
24591
60-64
52098
77204
51400
64432
36863
65-69
87024
27062
98342
99612
31721
70-74
14194
53402
24830
53537
81305
75-79
82848
96621
61891
59798
94335
80-84
04190
43918
27101
32803
34936
85-89
96574
01896
37855
67708
02566
90-94
90464
83991
06235
15297
80972
95-99
29065
51141
33516
28612
08188
05
06
07
08
09
95068
54463
16874
92484
15669
84628
47437
62677
63157
56689
35911
73804
57412
76593
35682
33020
36239
31389
03205
53256
70659
18739
56869
84869
62300
80428
72824
62233
72389
81872
39936
83671
80827
96363
35213
31855
39892
73917
52887
09840
34334
60518
82402
01087
34471
64865
37092
84420
66591
74441
10
11
12
13
14
99116
15696
97720
11666
71628
75486
10703
15369
13841
73130
84989
65178
51269
71681
78783
23476
90637
69620
98000
75691
52967
63110
03388
35979
41632
67104
17622
13699
39719
09847
39495
53988
33423
81899
61547
39100
71087
67453
07449
18707
17217
84148
43269
47985
85489
74073
11670
56720
46967
69944
15
16
17
18
19
40501
22518
75112
08327
60251
51089
55576
30485
02671
45548
99943
98215
62173
98191
02146
91843
82068
02132
84342
05597
41995
10798
14878
90813
48228
88931
82611
92879
49268
81366
73631
36584
22281
95441
34598
69361
67466
16783
15496
72856
05375
69377
86352
20168
66762
15417
40054
00077
09271
17002
20
21
22
23
24
57430
73528
25991
78388
12477
82270
39559
65959
16638
09965
10421
34434
70769
09134
96657
00540
88596
64721
59980
57994
43648
54086
86413
63806
59439
75888
71693
33475
48472
76330
66049
43132
42740
39318
24596
21511
14414
06175
35434
77515
47676
79949
82758
24057
09577
33444
85193
66248
74739
91871
45
46
47
48
49
12900
75086
99445
26075
13636
71775
23537
51434
31671
93596
29845
49639
29181
45386
23377
60774
33595
09993
36583
51133
94924
31484
38190
93459
95126
21810
97588
42553
48599
61496
38636
28617
68922
52022
42474
33717
17979
52125
41330
45141
67598
78749
91077
60650
46660
82521
35234
40197
91321
42338
STATISTIQUE CANADA
106
ii.
Les seuls renseignements ncessaires sont une liste complte de la population de lenqute et de
linformation permettant dentrer en communication avec les personnes choisies.
iii.
La thorie sous-jacente lEAS est bien tablie et il y a des formules standard pour dterminer la taille de
lchantillon, les estimations de la population et de la variance, et ces formules sont faciles appliquer.
Voici les inconvnients de lEAS :
i.
Linformation auxiliaire nest pas utilise mme si cette information existe dans la base de
sondage. Les rsultats peuvent donc donner des estimations statistiquement moins efficientes que
celles dun autre plan dchantillonnage.
ii.
Il peut coter cher sil y a des interviews sur place parce que lchantillon peut tre largement
tal gographiquement.
iii.
Lchantillon de lEAS peut tre mauvais . Tous les chantillons de taille n ont une chance
gale dtre ajouts lchantillon et il est donc possible dobtenir un chantillon qui nest pas
bien rparti et qui reprsente peu la population.
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
6.2.3
107
Les units dun chantillonnage systmatique (SYS) sont slectionnes intervalles rguliers dans la
population. Lchantillonnage systmatique sert parfois si lorganisme statistique veut utiliser un EAS,
mais sil ny a pas de liste disponible, ou si lordre de la liste est approximativement alatoire, auquel cas,
le SYS est encore plus simple faire que lEAS. Un intervalle dchantillonnage et une origine choisie au
hasard sont ncessaires. Si une liste est utilise et si la taille de la population, N, est un multiple de la taille
de lchantillon, n, chaque ke unit est slectionne lorsque lintervalle k est gal N/n. Un seul nombre,
lorigine r, est choisi au hasard entre 1 et k inclusivement. Les units slectionnes sont donc : r, r+k,
r+2k, ..., r+(n-1)k. Chaque unit, comme dans lEAS, a une probabilit dinclusion, , gale n/N, mais,
contrairement lEAS, chaque combinaison de n units na pas une chance gale dtre slectionne :
dans un SYS, nous pouvons uniquement slectionner les chantillons dont les units sont spares par k.
Seulement k chantillons possibles peuvent donc tre tirs de la population laide de cette mthode.
Supposons, pour illustrer le SYS, quune population contienne N=54 units et quun chantillon de taille
n=9 units soit sectionn. Lintervalle dchantillonnage serait k = N/n = 54/9 = 6. Un nombre alatoire
entre 1 et k = 6, disons 2, est ensuite choisi. Les units de la population slectionnes pour lchantillon
sont ensuite numrotes : 2, 8, 14, 20, 26, 32, 38, 44 et 50. En prsence dun intervalle dchantillonnage
de 6 et dune population dont la taille est de 54 units, il y a seulement six chantillons SYS possibles,
mais il y a plus de 25 millions dchantillons alatoires simple de taille 6 possibles.
Un avantage de lchantillonnage systmatique est quil peut tre utilis lorsquil ny a pas de liste
disponible des units de la population. Une base de sondage peut tre tablie dans ce cas en choisissant
chaque ke personne jusqu la fin de la population.
Le SYS pose un problme : la taille de lchantillon, n, est connue seulement aprs la slection de
lchantillon. Il peut y avoir un autre problme si lintervalle dchantillonnage, k, correspond une
certaine priodicit dans la population. Supposons, par exemple, quune enqute sur la circulation est faite
dans un secteur et quune journe seulement de la semaine peut tre chantillonn, autrement dit, k est
chaque 7e jour. Les dbits de la circulation dans lenqute seront extrmement diffrents si les jours
chantillons sont toujours le dimanche au lieu dtre toujours le mardi. Bien entendu, si la priode
dchantillonnage est le 5e jour, chaque jour de la semaine peut alors tre vis par lenqute.
Malheureusement, dans la plupart des cas, la priodicit nest pas connue davance.
Si N ne peut tre galement divise par n, lintervalle de lchantillonnage SYS nest pas un nombre
entier. Dans cette occurrence, k peut tre considr gal au nombre entier le plus prs, mais la taille de
lchantillon variera dun chantillon lautre. Supposons, par exemple, que N=55 et n=9, alors
k=55/9=6,1. Supposons que k est 6 et r=2, lchantillon contient donc les units numrotes : 2, 8, 14, 20,
26, 32, 38, 44 et 50. Si lorigine choisie au hasard est r=1 et si chaque sixime unit est slectionne,
lchantillon comprend donc les units : 1, 7, 13, 19, 25, 31, 37, 43, 49 et 55. Dans ce cas, lchantillon
est de taille 10, et non 9. Une autre approche est darrondir chaque valeur r, r+k, r+2k, , r+(n-1)k au
nombre entier le plus prs. Dans cette approche, la taille de lchantillon obtenu est fixe. Supposons de
nouveau, par exemple, que N=55 et n=9, cest--dire que k=55/9=6,1. Si r=1, lchantillon comprend les
units 1, 7, 13, 19, 25, 31, 38, 44 et 50.
Dautre part, si N ne peut tre divis galement par n, on pourra alors faire un chantillonnage
systmatique circulaire pour viter une taille de lchantillon variable. Dans cette mthode, il est
considr que les units de la population existent sur un cercle et on y compte modulo N . La valeur
attribue k est gale au nombre entier le plus prs de N/n, mais lorigine choisie au hasard, r, peut tre
entre 1 et N, au lieu de 1 et k (c.--d. que la premire unit peut tre nimporte o dans la liste). Les units
STATISTIQUE CANADA
108
slectionnes, comme auparavant, sont : r, r+k, r+2k, ..., r+(n-1)k. Si la je unit est telle que r+(j-1)k > N,
lunit choisie est donc r+(j-1)k - N. Cela veut dire qu la fin de la liste, lchantillonnage continue au
dbut de la liste. Lavantage de la mthode circulaire est que chaque unit a une chance gale dtre dans
lchantillon. laide de lexemple suivant, supposons, par exemple, que N=55, n=9 et k=6. Une origine
choisie au hasard, r, est slectionne entre 1 et 55, disons r=42. Les units de la population slectionnes
sont donc : 42, 48, 54, 5, 11, 17, 23, 29 et 35.
Lchantillonnage SYS a un certain nombre davantages, selon les circonstances et lobjectif de
lenqute :
i.
ii.
iii.
Il peut donner un chantillon mieux rparti que celui de lEAS (compte tenu de lintervalle
dchantillonnage et de la mthode de tri de la liste).
iv.
Cest une thorie aussi bien tablie que celle de lEAS et les estimations sont faciles calculer.
v.
Il est plus simple que lEAS parce quun seul nombre alatoire est ncessaire.
ii.
Linformation auxiliaire qui peut tre disponible dans la base de sondage nest pas utilise,
comme dans le cas de lEAS, et le rsultat peut tre une stratgie dchantillonnage inefficiente.
iii.
La taille de lchantillon final nest pas connue davance lorsquune base de sondage conceptuelle
est utilise.
iv.
v.
Il peut donner une taille dchantillon variable si la taille de la population, N, ne peut tre divise
galement par la taille de lchantillon voulue, n (mais il est possible dviter cela en utilisant le
SYS circulaire).
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
109
LEAS et le SYS circulaire sont deux plans dchantillonnage probabiliste probabilit gale parce que
chaque chantillon possible a exactement la mme chance dtre slectionn. Les techniques
dchantillonnage ne donnent pas toutes des probabilits gales. Les plans dchantillonnage dcrits dans
les sections suivantes peuvent donner des probabilits ingales. On se rappellera que dans un
chantillonnage probabiliste, le critre nest pas que toutes les units aient la mme probabilit
dinclusion, mais plutt quelles aient une probabilit dinclusion connue diffrente de zro.
Lchantillonnage avec probabilits ingales peut souvent amliorer lefficience statistique de la stratgie
dchantillonnage.
STATISTIQUE CANADA
110
Dans un chantillonnage PPT, la taille de lunit dtermine la probabilit dinclusion. Dans le cas dune
exploitation agricole ayant une superficie de 200 hectares, par exemple, la probabilit dtre slectionne
est donc deux fois celle dune exploitation de 100 hectares.
Aux fins de lillustration, supposons une population de six exploitations agricoles (fermes) et le client est
intress estimer les dpenses totales de cette population laide dun chantillon dune exploitation.
(Un chantillon de taille 1 est utilis pour illustration, mais en pratique, un organisme statistique
slectionne rarement une seule unit.) Supposons quil y a une mesure de taille stable pour chaque
exploitation agricole (la taille de lexploitation en hectares) et, pour illustrer lefficience accrue
comparativement lEAS, supposons aussi que les dpenses de chaque exploitation agricole sont
connues. (Bien entendu, en ralit, si les dpenses taient connues, il ne serait pas ncessaire de procder
lenqute.)
Considrons la liste dexploitations agricoles suivante :
Tableau 2 : Valeurs de la population
Unit dchantillonnage :
Ferme
1
2
3
4
5
6
Total
Le total rel des dpenses est 947 300 $ pour cette population de six fermes. Un chantillon alatoire
simple peut tre slectionn, chaque chantillon contenant une unit et chaque unit ayant une probabilit
dinclusion de 1/6. Six chantillons dEAS diffrents de taille n=1 sont possibles. Considrons les
rsultats obtenus de lEAS. Il faut invoquer cette fin certains concepts destimation (expliqus en dtail
au Chapitre 7 - Estimation). Dans le cas dun chantillon de taille un, le total des dpenses pour la
population est estim en multipliant les dpenses de lunit chantillonne par le poids de lunit. Ce
poids est le nombre moyen dunits de la population de lenqute que lunit chantillonne reprsente et
est linverse de la probabilit dinclusion.
Tableau 3 : chantillons possibles de taille n=1 de lEAS
chantillon
(Ferme slectionne)
chantillon 1 (Ferme 1)
chantillon 2 (Ferme 2)
chantillon 3 (Ferme 3)
chantillon 4 (Ferme 4)
chantillon 5 (Ferme 5)
chantillon 6 (Ferme 6)
Probabilit
dinclusion
( )
1/6
1/6
1/6
1/6
1/6
1/6
Poids
(1/ )
Dpenses ($)
6
26 000
6
470 000
6
63 800
6
145 000
6
230 000
6
12 500
Estimation moyenne de
lchantillon
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
111
On remarquera la grande variabilit dchantillonnage dans les estimations de lEAS qui passe de
75 000 $ 2,8 millions de dollars. Lchantillonnage PPT peut donner des estimations avec variabilit
dchantillonnage beaucoup plus petite.
Tableau 4 : chantillons PPT possibles de taille n=1
chantillon
(Ferme slectionne)
chantillon 1 (Ferme 1)
chantillon 2 (Ferme 2)
chantillon 3 (Ferme 3)
chantillon 4 (Ferme 4)
chantillon 5 (Ferme 5)
chantillon 6 (Ferme 6)
Taille
de la
ferme
50
1 000
125
300
500
25
Probabilit
dinclusion
( )
50/2 000
1 000/2 000
125/2 000
300/2 000
500/2 000
25/2 000
Poids ( 1 / )
Dpenses
($)
2 000/50
26 000
2 000/1000
470 000
2 000/125
63 800
2 000/300
145 000
2 000/500
230 000
2 000/25
12 500
Estimation moyenne de
lchantillon
Estimation du total
des dpenses de la
population ($)
1 040 000
940 000
1 020 800
966 667
920 000
1 000 000
947 300
La variabilit dchantillonnage est beaucoup plus faible pour un chantillon PPT. Les estimations tires
des six chantillons possibles passent maintenant dun seuil de 920 000 $ un plafond de 1,4 million de
dollars seulement, un rsultat meilleur que celui de lEAS. (La probabilit dinclusion de
lchantillonnage PPT est calcule ainsi : taille de lexploitation agricole divise par la taille totale de
toutes les exploitations).
Il est suppos y avoir un lien, dans cet exemple, entre les dpenses et la taille de lexploitation agricole,
une supposition valable de toute vidence dans ce cas ou lchantillonnage PPT naurait pas eu autant de
succs. En fait, si les variables dintrt et la variable de la taille navaient pas t corrles,
lchantillonnage PPT naurait peut-tre pas t meilleur que lEAS et pourrait mme avoir t pire.
Le principal avantage de lchantillonnage PPT est quil peut amliorer lefficience statistique de la
stratgie dchantillonnage laide de linformation auxiliaire. Le rsultat peut tre une diminution
importante de la variance de lchantillonnage comparativement lEAS ou mme lchantillonnage
stratifi (Section 6.2.6).
Voici les inconvnients de lchantillonnage PPT :
i.
Il faut avoir une base de sondage qui contient de linformation auxiliaire jour de bonne qualit
pour toutes les units de la base qui peuvent servir de mesures de la taille.
ii.
Il est inappropri si les mesures de la taille ne sont pas prcises ou stables. Dans ces
circonstances, il vaut mieux crer des groupements de tailles et faire un chantillonnage stratifi.
iii.
Il nest pas toujours applicable parce que chaque population na pas ncessairement une mesure
de la taille stable mise en corrlation avec les principales variables de lenqute.
iv.
Le rsultat peut tre une stratgie dchantillonnage statistiquement moins efficiente que celle de
lEAS pour les variables de lenqute qui ne sont pas corrles avec les variables de la taille.
v.
STATISTIQUE CANADA
112
vi.
La cration dune base de sondage cote plus cher et est plus complexe que celle de lEAS ou du
SYS parce que la taille de chaque unit dans la population doit tre mesure et sauvegarde.
pour chaque unit de la population, faire le calcul cumulatif des mesures de la taille des units jusqu
lunit elle-mme comprise,
slectionner un nombre alatoire entre 0 (si les mesures de taille ne sont pas des nombres entiers) ou 1
(si les mesures de taille sont des nombres entiers) et la taille cumulative totale, et slectionner lunit
dont ltendue comprend le nombre alatoire,
Taille
50
1000
125
300
500
25
Taille cumulative
50
1050
1175
1475
1975
2000
tendue
1-50
51-1050
1051-1175
1176-1475
1476-1975
1976-2000
Trois nombres alatoires entre 1 et 2000 sont slectionns pour obtenir un chantillon de trois units.
Supposons que ces nombres sont : 1697, 624 et 1109. Les exploitations agricoles (fermes) slectionnes
sont donc : les fermes 5, 2 et 3.
Dans le cas de la mthode alatoire dchantillonnage PPT sans remise, si plus dune unit est
slectionne, essayer de maintenir les probabilits directement proportionnelles la taille et estimer les
variances dchantillonnage des estimations de lenqute peuvent susciter des complications. La situation
devient encore plus complique si plus de deux ou trois units sont slectionnes avec PPT sans remise et,
en fait, fait lobjet dun nombre considrable de travaux de recherche. La majeure partie de cette
recherche est contenue dans les ouvrages de Horvitz et Thompson (1952), Yates et Grundy (1953), Rao,
Hartley et Cochran (1962), Fellegi (1963), Brewer et Hanif (1983).
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
ii.
113
Mthode systmatique :
pour chaque unit de la population, faire le calcul cumulatif des mesures de taille des units jusqu
lunit elle-mme comprise,
dterminer une origine choisie au hasard, r, entre 0 (si les mesures de taille ne sont pas des nombres
entiers) ou 1 (si les mesures de taille sont des nombres entiers) et k,
slectionner les units dont ltendue contient les nombres alatoires r, r+k, r+2k, ... r+(n-1)k.
iii.
La liste est tablie au hasard dans cette mthode avant lapplication de lchantillonnage systmatique. Si
la liste est utilise dans lordre original, comme dans le cas de lchantillonnage systmatique, certains
chantillons possibles peuvent tre limins. Lorsque la liste est tablie au hasard, le nombre
dchantillons ventuels qui peuvent tre tirs est la hausse.
On se souviendra des problmes que posent ces mthodes. Dans le cas des mthodes systmatiques
alatoires et systmatiques, par exemple, si la taille dune unit est plus grande que lintervalle, elle peut
tre slectionne plus dune fois. Ce problme peut tre rsolu uniquement en rpartissant ces grandes
units en strates distinctes et en en faisant lchantillonnage part (Section 6.2.6). La difficult
destimation des variances dchantillonnage est un autre problme.
6.2.5
Lchantillonnage par grappes est le processus de slection alatoire de groupes complets (grappes)
dunits de la population dans la base de sondage. Cest habituellement une stratgie dchantillonnage
statistiquement moins efficiente que lEAS et elle est applique pour plusieurs raisons. Premirement,
lchantillonnage par grappes peut rduire normment le cot de la collecte, surtout si la population est
largement disperse et si on a recours des interviews sur place. Deuximement, il nest pas toujours
pratique dchantillonner des units distinctes de la population. Il est parfois plus facile de faire
lchantillonnage de groupes dunits de la population (p. ex., mnages complets). Troisimement, elle
permet de faire des estimations pour les grappes elles-mmes (p. ex., revenu moyen par mnage).
Lchantillonnage par grappes est un processus en deux tapes. Premirement, la population est regroupe
en grappes (il peut sagir de grappes naturelles, p. ex., mnages, coles). La deuxime tape est la
slection dun chantillon de grappes et linterview de toutes les units des grappes slectionnes.
La base de sondage peut dterminer la mthode dchantillonnage. Jusqu maintenant, la cible a t
lchantillonnage dunits individuelles de la population partir dune liste. Si les units de la population
sont naturellement regroupes, il est souvent plus facile dtablir une base de sondage pour ces groupes et
den faire lchantillonnage, plutt que dessayer dtablir une liste de toutes les units individuelles de la
STATISTIQUE CANADA
114
population. Le client peut tre intress, par exemple, chantillonner les enseignants, mais avoir
seulement une liste des coles. Dans le cas des enqutes sur les mnages ou les exploitations agricoles, de
nombreux pays nont pas de listes compltes et jour des gens, des mnages ou des exploitations
agricoles dans aucune grande rgion gographique, mais ils ont des cartes des rgions. Il est alors possible
dtablir une base arolaire et de rpartir les secteurs gographiques en rgions (grappes), de faire
lchantillonnage des rgions et dinterviewer chacun dans la rgion. Divers plans dchantillonnage
peuvent servir pour slectionner les grappes, notamment, lEAS, le SYS ou le PPT. Un plan commun
utilise le PPT dont lchantillonnage est proportionnel la taille de la grappe.
Il ne faut pas oublier un certain nombre de considrations pour lchantillonnage par grappes. Les
estimations seront statistiquement efficientes si les units dune grappe sont aussi diffrentes que possible.
Autrement, si les units dune grappe sont semblables, elles donnent toutes de linformation semblable et
il suffirait dinterviewer une unit.
Les units dune grappe ont souvent des caractristiques malheureusement semblables et elles sont donc
plus homognes que les units slectionnes au hasard dans la population en gnral. Le rsultat est une
procdure dchantillonnage moins efficiente que celle de lEAS. Supposons, par exemple, que deux
chantillons sont tirs dune ville de 100 000 personnes. Lchantillonnage par grappes est utilis pour le
premier chantillon et un lot de la ville englobant 400 rsidents est slectionn au hasard. LEAS est
appliqu au deuxime chantillon pour slectionner 400 personnes dans une liste de 100 000 rsidents.
Lchantillon de 400 rsidents de lEAS sera probablement beaucoup plus diversifi aux volets revenus,
ge, occupation et scolarit (pour nommer seulement quelques variables) que lchantillon par grappes de
400 personnes qui habitent toutes le mme lot en ville.
La qualit de lhomognit des units des grappes, le nombre dunits de la population dans chaque
grappe et le nombre de grappes de lchantillon dterminent lefficience statistique de lchantillonnage
par grappes. Si les units voisines sont semblables, il est statistiquement plus efficient de slectionner de
nombreuses petites grappes plutt que quelques-unes plus larges. Lors des interviews sur place cependant,
plus lchantillon est dispers, plus lenqute cote cher. Lorganisme statistique doit tablir un quilibre
entre le nombre optimal et la taille des grappes et le cot.
Lchantillonnage par grappes peut poser des difficults logistiques. Si la base de sondage est une base
arolaire tire dune carte et si lunit dchantillonnage est une grappe de logements, il peut tre difficile
de dterminer si un logement est dans une grappe ou une autre. Il faudrait tablir certaines rgles
lmentaires pour dterminer quelles units font partie dune grappe. Si la rgle suivante est tablie, par
exemple, savoir que les logements font partie de la grappe o se trouve leur entre principale (porte
lavant), la majorit des problmes seraient limins (habituellement, le logement complet est lintrieur
ou lextrieur des limites dune grappe). Si un logement semble galement rparti entre plus dune
grappe, tirez au sort pour viter un biais. Dans lEnqute canadienne sur la population active (EPA), les
grappes sont dtermines en tirant une ligne au milieu de la rue. Il est donc facile de dterminer si un
logement est dans lchantillon ou non. (Le lecteur trouvera davantage dinformation sur ces
considrations pratiques au Chapitre 9 - Oprations de collecte des donnes).
Voici les avantages de lchantillonnage par grappes :
i.
Il peut rduire normment le cot de la collecte parce que lchantillon est moins dispers que
celui de lEAS. Cest particulirement important si la population est largement rpartie et si
lenqute comprend des interviews sur place parce quil est possible dconomiser en diminuant
le temps de dplacement des intervieweurs, en particulier pour les populations en milieu rural.
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
115
ii.
Il est plus facile appliquer que lEAS ou le SYS aux populations regroupes naturellement par
grappes (p. ex., mnages, coles) et certaines populations conceptuelles, par exemple, les
personnes qui traversent une frontire pendant une priode dtermine. Il peut tre difficile,
coteux ou impossible dtablir une liste de toutes les units individuelles de ce genre de
population comme lexige lEAS.
iii.
Il permet de faire des estimations pour les grappes elles-mmes. Les estimations du nombre
moyen denseignants par cole sont un exemple (lorsque les coles sont en grappes).
iv.
Il peut tre statistiquement plus efficient quun EAS si les units des grappes sont htrognes
(diffrentes) du point de vue des variables de ltude et si les grappes sont homognes
(semblables). Ce nest cependant pas le cas en pratique, habituellement.
Il peut tre statistiquement moins efficient que lEAS si les units des grappes sont homognes du
point de vue des variables de ltude. Cest souvent le cas parce que les units dune grappe ont
tendance avoir des caractristiques semblables. Le nombre de grappes slectionnes peut
cependant tre augment pour liminer cette perte defficience statistique.
ii.
La taille finale de lchantillon nest pas connue davance parce que le nombre dunits dune
grappe est dtermin seulement la conclusion de lenqute.
iii.
Lorganisation de lenqute peut tre plus complexe que dans le cas dautres mthodes.
iv.
Lestimation de la variance peut tre plus complexe que celle de lEAS si les grappes sont
chantillonnes sans remise.
STATISTIQUE CANADA
116
6.2.6
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
117
lestimation et, si elles ne sont pas slectionnes, lestimation peut tre beaucoup plus faible. Autrement
dit, ces units peuvent augmenter la variabilit dchantillonnage de lestimation. Ces units devraient
donc former une strate distincte pour garantir quelles ne reprsentent pas dautres units ventuellement
plus petites de la population.
Une variable de la taille, drive du nombre demploys, par exemple, est souvent utilise pour la
stratification des entreprises. Si la variable de la taille a trois valeurs, petite, moyenne et grande,
lefficience statistique est amliore si les grandes entreprises ont des ventes semblables, les moyennes
entreprises ont des ventes semblables et les petites entreprises ont des ventes semblables, et si les
moyennes et grandes entreprises, et les moyennes et petites entreprises, ont des ventes trs diffrentes. De
mme, dans un plan dchantillonnage qui utilise des bases arolaires, la reprsentation approprie des
grandes villes peut tre garantie en les intgrant dans une strate distincte et en faisant lchantillonnage de
chaque strate sparment.
Dans lexemple prcdent, il tait raisonnable de stratifier par nombre demploys parce que cest une
mesure de la taille de lentreprise et elle est probablement troitement lie aux ventes. Dautre part, si une
enqute cible lge de ces employs, il est insens de stratifier par nombre demploys parce quil ny a
pas de corrlation. De plus, la stratification statistiquement efficiente pour une variable de lenqute peut
fonctionner moins bien pour dautres. Les variables de la stratification sont habituellement choisies selon
leur corrlation avec les plus importantes variables de lenqute. Dans le cas des variables moins
importantes de lenqute qui nont pas de corrlation avec les variables de la stratification, cela signifie
que les estimations pour un chantillon stratifi peuvent tre moins efficientes que celles de lEAS.
La deuxime raison de la stratification est de garantir des tailles dchantillon appropries pour les
domaines dintrt connus. Au cours de la conception dune enqute, lobjectif gnral est souvent
destimer un total. Combien de personnes navaient pas demploi le mois dernier? Quel tait le total des
ventes au dtail le mois dernier? Souvent, le client veut, non seulement les totaux dans lensemble, mais
aussi des estimations pour les sous-groupes de la population intituls domaines.
Le client veut, par exemple, savoir combien dhommes taient sans emploi et comparer ce rsultat au
nombre de femmes sans emploi. De mme, le client veut peut-tre avoir les rsultats des ventes le mois
dernier pour les magasins de vtements ou pour tous les magasins de dtail dans une province en
particulier. tablir des estimations pour les sous-groupes est intitul estimation du domaine. Si des
estimations de domaines sont ncessaires, la capacit de les calculer laide dun chantillon
suffisamment large dans chaque domaine devrait tre intgre au plan dchantillonnage. Si linformation
est disponible dans la base de sondage, le moyen le plus facile dy arriver est de garantir que les strates
correspondent exactement aux domaines dintrt.
La troisime raison de la stratification est lapplication dune mesure de protection contre le tirage dun
mauvais chantillon. Dans le cas de lEAS, la slection de lchantillon est laisse entirement la
chance. Lchantillonnage stratifi tente de restreindre les chantillons possibles aux moins extrmes en
garantissant quau moins certaines parties de la population seront reprsentes dans lchantillon. La base
de sondage devrait tre stratifie par sexe (en supposant que cette variable auxiliaire est disponible dans la
base), par exemple, pour garantir que les hommes et les femmes sont inclus dans lchantillon.
Ajoutons ces raisons que la stratification est souvent utilise parce quelle est pratique du point de vue
oprationnel ou administratif. Elle peut permettre lorganisme statistique de contrler la rpartition du
travail sur le terrain entre ses bureaux rgionaux. Si la collecte des donnes est faite par province, par
exemple, la stratification par province est approprie et le bureau rgional provincial peut obtenir sa part
de lchantillon.
STATISTIQUE CANADA
118
Lorsque la population a t rpartie en strates, lorganisme statistique doit dterminer combien dunits il
faut chantillonner dans chaque strate. Cette tape est intitule rpartition de lchantillon et elle est
considre au Chapitre 8 - Calcul de la taille de lchantillon et rpartition.
Les probabilits dinclusion varient habituellement dune strate lautre, compte tenu de la rpartition de
lchantillon entre les strates. Il faut considrer la taille de lchantillon et la taille de la population dans
chaque strate pour calculer les probabilits dinclusion de la majorit des plans dchantillonnage.
Considrons une population de N=1000 units stratifies en deux groupes pour illustrer : une strate a
N1=250 units et lautre, N2=750 units. Supposons que lEAS est utilis pour slectionner n1=50 units
la premire strate et n2=50 units la deuxime strate. La probabilit, 1, quune unit de la premire
strate soit slectionne est donc 1 = 50 250 = 1 / 5 et la probabilit, 2, quune unit de la deuxime
strate soit slectionne est 2 = 50 750 = 1 15 . Les units ont donc diffrentes probabilits dinclusion,
cest--dire quune unit de la premire strate a plus de chance dtre slectionne que celle de la
deuxime.
Voici les avantages de lchantillonnage stratifi :
i.
ii.
Il aide garantir que les sous-groupes importants, rpartis en strates, sont bien reprsents dans
lchantillon et les estimateurs de domaines sont alors statistiquement efficients.
iii.
iv.
v.
Le plan dchantillonnage doit contenir de linformation auxiliaire de haute qualit pour toutes les
units du plan, et non pas seulement celles de lchantillon, qui peuvent tre utilises pour la
stratification.
ii.
Ltablissement de la base de sondage cote plus cher et est plus complexe que dans le cas de
lEAS ou du SYS parce que la base exige une bonne information auxiliaire.
iii.
Il peut donner une stratgie dchantillonnage stratgiquement moins efficiente que celle de
lEAS pour les variables de lenqute qui ne sont pas corrles avec les variables de la
stratification.
iv.
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
119
chantillon stratifi (illustr, quatre strates, trois units slectionnes par strate)
STATISTIQUE CANADA
120
chantillonns plutt que toute la population. (Le Chapitre 9 - Oprations de collecte des donnes
couvre en dtails le listage.)
Chaque degr dun chantillon plusieurs degrs peut tre accompli laide de nimporte quelle
technique dchantillonnage. La souplesse est donc lun des principaux avantages de lchantillonnage
plusieurs degrs. Un chantillon alatoire simple peut tre tir, par exemple, dune UP slectionne au
premier degr. Il peut y avoir, pour une autre UP, une mesure de la taille corrle avec les principales
variables de lenqute et lchantillonnage PPT peut tre utilis pour cette UP.
Lchantillon de lEnqute canadienne sur la population active (EPA) est un exemple dchantillon
stratifi plusieurs degrs. Le pays est rparti en plus de 1 100 strates. Chaque strate comprend un groupe
de secteurs de dnombrement (SD). Les SD sont des secteurs gographiques dfinis dans le Recensement
de la population et la rgion couverte peut tre dnombre par un recenseur (ils sont dlimits en tenant
compte de la taille du territoire et de la densit de la population). Le premier degr de lchantillonnage
est un chantillon stratifi de grappes (SD ou groupes de SD) tir de ces strates. Au deuxime degr, les
grappes sont cartographies, tous les logements de ces grappes sont lists et le recenseur slectionne un
chantillon systmatique de logements dans chaque liste. Toutes les personnes dun logement slectionn
sont ensuite interviewes pour lenqute.
Noubliez pas que les exemples prsents jusqu maintenant appliquent une base arolaire au premier
degr, mais ce nest pas une exigence de lchantillonnage plusieurs degrs. Un exemple dchantillon
plusieurs degrs qui appliquerait un genre diffrent de base est une enqute sur les voyages dans un
aroport. Lunit dchantillonnage primaire pourrait tre le temps, les jours dans un mois, et lunit au
deuxime degr pourrait tre les voyageurs eux-mmes. Dans le cas dune enqute plus complexe sur les
voyages, lunit du deuxime degr pourrait tre les avions de passagers larrive et lunit au troisime
degr pourrait tre les siges occups dans lavion.
Voici les avantages de lchantillonnage plusieurs degrs :
i.
Il peut donner une stratgie dchantillonnage statistiquement plus efficiente que celle du plan
dchantillonnage par grappes un degr lorsque les grappes sont homognes quant aux variables
dintrt (c.--d. une rduction de la taille de lchantillon).
ii.
Il peut rduire normment le temps de dplacement et les cots des interviews sur place parce
que lchantillon est moins dispers que celui dautres formes dchantillonnage, notamment
lEAS.
iii.
Il nest pas ncessaire davoir une liste de toute la population. Il faut simplement avoir une bonne
base chaque degr de slection de lchantillon.
Lefficience statistique est habituellement moindre que celle de lEAS (mme sil peut tre plus
efficient quune stratgie par grappes un degr).
ii.
La taille finale de lchantillon nest pas toujours connue davance parce que le nombre dunits
dune grappe est habituellement connu seulement la conclusion de lenqute. (La taille de
lchantillon peut tre contrle, cependant, si un nombre dtermin dunits est slectionn dans
chaque grappe.)
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
121
iii.
Lorganisation de lenqute est plus complexe que celle dun chantillonnage par grappes un
degr.
iv.
chantillon plusieurs degrs (illustr, plan dchantillonnage par grappes deux degrs, six UP
slectionnes et jusqu trois US slectionnes dans chaque UP)
6.2.8
Les appellations se ressemblent, mais lchantillonnage plusieurs phases est trs diffrent de
lchantillonnage plusieurs degrs. Lchantillonnage plusieurs phases comprend aussi la slection de
deux chantillons ou plus, mais les chantillons sont tirs de la mme base et les units ont la mme
structure chaque phase. La collecte pour lchantillon plusieurs phases cible surtout linformation dun
large chantillon dunits et ensuite, linformation plus dtaille pour un sous-chantillon de ces units.
Lchantillonnage plusieurs phases le plus commun est lchantillonnage deux phases (ou
chantillonnage double), mais trois phases ou plus sont aussi possibles. Plus il y a de phases, cependant,
plus les estimations et le plan dchantillonnage sont complexes, tout comme dans lchantillonnage
plusieurs degrs.
Lchantillonnage plusieurs phases est utile lorsque la base de sondage manque dinformation auxiliaire
qui pourrait servir stratifier la population ou en retrancher une partie. Supposons, par exemple, que
lon ait besoin dinformation sur les leveurs de bovins, mais la base de sondage comprend seulement une
liste dexploitations agricoles, sans information auxiliaire. On pourrait procder une enqute simple en
posant seulement une question : Votre exploitation agricole est-elle axe, en tout ou en partie, sur
llevage de bovins? Cette enqute une seule question devrait coter trs peu par interview (surtout si
elle est faite au tlphone) et lorganisme devrait donc pouvoir obtenir un important chantillon. Lorsque
le premier chantillon est tir, un deuxime chantillon plus petit peut tre slectionn dans la population
des leveurs de bovins et vous pouvez leur poser des questions plus dtailles. Lorganisme statistique qui
applique cette mthode vite les frais de sondage des units hors du champ de lenqute (c.--d. ceux qui
ne sont pas leveurs de bovins).
STATISTIQUE CANADA
122
Lchantillonnage plusieurs phases peut aussi servir la collecte de linformation plus dtaille partir
dun sous-chantillon lorsque le budget nest pas suffisant pour obtenir de linformation de tout
lchantillon ou lorsque le fardeau de rponse serait excessif. LEnqute trimestrielle sur les marchandises
vendues au dtail (ETMVD) est un exemple. La premire phase de lenqute est lEnqute mensuelle sur
le commerce de gros et de dtail (EMCGD). Les enquteurs de lEMCGD demandent chaque mois deux
variables aux grossistes et aux dtaillants : les ventes et les stocks mensuels. Les enquteurs de lETMVD
sous-chantillonnent les dtaillants et leur demandent de faire rapport sur leurs ventes par produits de
dtail, par exemple, les vtements, les articles lectroniques, les denres alimentaires, etc.
Lchantillonnage plusieurs phases peut aussi servir lorsque les frais de collecte des donnes sont trs
diffrents pour diverses questions dune enqute. Considrons une enqute sur la sant qui pose des
questions lmentaires sur le rgime alimentaire, le tabagisme, lexercice et la consommation dalcool.
Supposons de plus que les enquteurs demandent aux rpondants de se prter certaines mesures directes,
notamment, marcher sur un tapis roulant, faire prendre une mesure de leur tension artrielle et de leur taux
de cholestrol. Poser quelques questions cote relativement peu, mais les examens mdicaux demandent
le temps dun praticien form en soins de sant et lutilisation dun laboratoire quip qui cotent
relativement cher. Lenqute peut tre faite laide dun chantillon deux phases, les questions
lmentaires sont poses la premire phase et les mesures directes sont prises seulement auprs de
lchantillon plus petit de la deuxime phase.
Les donnes obtenues la premire phase peuvent servir la stratification ou linformation de slection,
mais aussi pour amliorer lefficience de lestimation (p. ex., pour lestimation par rgression). Ces
notions seront reprises au Chapitre 7 - Estimation.
Voici les avantages de lchantillonnage plusieurs phases :
i.
ii.
Il peut servir obtenir de linformation auxiliaire qui nest pas dans le plan dchantillonnage (en
particulier de linformation sur la stratification pour lchantillonnage la deuxime phase).
iii.
Il peut tre utile si les frais de collecte pour certaines variables de lenqute sont excessifs ou si le
fardeau des rpondants est trop lourd.
Il faut plus de temps pour obtenir des rsultats que le temps ncessaire pour une enqute une
phase si les rsultats de la premire phase sont ncessaires pour procder la deuxime phase.
ii.
Il peut coter plus cher quune enqute une phase parce quil faut interviewer une unit
chantillonne plus dune fois.
iii.
iv.
v.
Ses formules de calcul des estimations et de la variance de lchantillonnage peuvent tre trs
complexes.
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
123
6.2.9
Lchantillonnage par rpliques comprend la slection dun nombre dchantillons indpendants dans une
population et non dans un seul chantillon. Au lieu dun chantillon global, un certain nombre
dchantillons plus petits, de taille peu prs gale, intituls rpliques, sont slectionns
indpendamment, chacun partir du mme plan dchantillonnage. Lchantillonnage par rpliques peut
servir lorsque les rsultats prliminaires sont demands rapidement. Ces rsultats prliminaires peuvent
tre tirs du traitement et de lanalyse dune seule rplique.
La principale raison dun chantillonnage par rpliques est de faciliter le calcul de la variance
dchantillonnage des estimations dune enqute (la variance dchantillonnage est une mesure de lerreur
dchantillonnage). Il est gnralement possible de calculer la variance dchantillonnage laide
dchantillons probabilistes, mais ces calculs peuvent tre extrmement difficiles selon la complexit du
plan dchantillonnage. Certaines expressions mathmatiques pour la variance de lchantillonnage sont
difficiles dterminer, fastidieuses programmer, cotent cher, et cest un problme. Dans le cas de
lchantillonnage systmatique en particulier, les estimations de la variance ne peuvent tre calcules
directement, sauf si des hypothses sont formules sur la disposition des units dans la liste.
On obtient des mesures de lerreur dchantillonnage en examinant quel point les estimations varient
dun chantillon lautre, compte tenu de tous les chantillons possibles de la mme taille et du mme
plan dchantillonnage. Lchantillonnage par rpliques simule ce concept. Au lieu de tirer tous les
chantillons possibles (ce qui nest pas pratique), un nombre raisonnable dchantillons plus petits est
slectionn laide de mthodes identiques. Au lieu de slectionner un chantillon de taille 10 000, par
exemple, dix chantillons indpendants de taille 1 000 peuvent tre slectionns. En comparant les
estimations de chacun de ces dix chantillons, on peut obtenir des estimations de la variance
dchantillonnage. La fiabilit des estimations de la variance dchantillonnage augmente avec le nombre
de rptitions slectionnes. (Un exemple dchantillonnage par rpliques pour estimation de la variance
est donn la Section 7.3.4 du Chapitre 7 - Estimation.)
Un certain nombre dautres procdures appliquent le r-chantillonnage pour estimer la variance
dchantillonnage lorsque les plans dchantillonnage sont complexes. Ils comprennent les rpliques
quilibres (mthode BRR), la mthode du Jackknife et la mthode dauto-amorage (Bootstrap). Ces
STATISTIQUE CANADA
124
techniques sont toutes des ramifications de lide lmentaire de lchantillonnage par rpliques, mais
elles sont diffrentes lune de lautre quant la prcision de la mesure de la variance dchantillonnage de
divers genres destimations denqute, de leur complexit oprationnelle et des situations auxquelles elles
sappliquent le mieux.
Cette approche a des inconvnients, par exemple, les estimations de la variance dchantillonnage ont
tendance tre moins prcises en gnral que si elles taient directement bases sur des expressions
statistiques qui intgrent des caractristiques de plan dchantillonnage, notamment, lchantillonnage
plusieurs degrs, la stratification, etc.
chantillonnage par rpliques (illustr, deux chantillons slectionns de taille 6)
6.3
Les plans dchantillonnage sont parfois modifis pour rpondre aux besoins spciaux dune enqute en
particulier. Cette mesure peut tre ncessaire si la population cible est particulirement difficile situer, si
la caractristique dintrt est trs rare dans la population, ou cause des besoins analytiques de lenqute
ou de la mthode de collecte des donnes. Le Chapitre 4 - Mthodes de collecte des donnes exposait
les plans dchantillonnage des interviews au tlphone, y compris la composition alatoire (CA). Les
sections suivantes dcrivent dautres applications particulires des plans dchantillonnage pour rpondre
des besoins denqute spciaux.
6.3.1
Enqutes rptes
Les enqutes uniques ont de nombreuses diffrences comparativement aux enqutes rptes. Le but
dune enqute rpte est souvent dtudier les tendances ou les modifications des caractristiques
dintrt au fil du temps.
Avant de prendre des dcisions sur le plan dchantillonnage denqutes rptes, il faudrait tenir compte
de la possibilit de dtrioration de lefficience statistique de la stratgie dchantillonnage au cours du
temps. Un organisme statistique peut choisir, par exemple, dutiliser des variables de stratification plus
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
125
stables et dviter celles qui peuvent tre statistiquement plus efficientes court terme, mais qui peuvent
changer rapidement avec le temps.
Beaucoup de renseignements sont en gnral disponibles et utiles aux fins des plans ultrieurs, et cest
une autre caractristique de lenqute rpte. Il est possible dexaminer au cours du temps si les diverses
caractristiques du plan dchantillonnage sont suffisantes, par exemple, la pertinence des limites et des
variables de stratification, la mthode de rpartition de lchantillon et la taille des units diverses tapes
du plan dchantillonnage plusieurs degrs, afin daccentuer lefficience statistique. Linformation
ncessaire pour tablir un plan denqute unique efficient est souvent trs limite.
Quand on labore un plan denqute rpte, il faut prvoir des dispositions pour tenir compte de certains
vnements, par exemple, les naissances, les dcs et les modifications de la mesure de la taille. Les
mthodes destimation et dchantillonnage appliques aux enqutes rptes devraient intgrer ces
modifications de faon statistiquement efficiente pour interrompre le moins possible les oprations
denqute en cours.
Un type particulier denqute rpte est lchantillon constant (panel) ou enqute longitudinale, cest-dire que les donnes sont obtenues des mmes units de lchantillon plusieurs occasions. Ces enqutes
permettent habituellement de mesurer les modifications des caractristiques dune population donne et
dobtenir une prcision plus grande que celle dune srie dchantillons indpendants de taille
comparable. Si une enqute est rpte, le recours un chantillon longitudinal a des avantages,
comparativement une srie dchantillons indpendants spciaux. Voici certains avantages :
i.
pouvez obtenir, par exemple, une mesure du changement du nombre de personnes sans emploi
dun mois lautre.
ii.
Il peut servir obtenir de linformation sur le comportement des rpondants avec le temps.
iii.
Il peut diminuer les erreurs de rponse (parce que les rpondants approfondissent leur
comprhension du questionnaire).
iv.
Les cots peuvent diminuer avec le temps (llaboration de lenqute, la programmation des
systmes informatiques, la formation du personnel, etc., sont faites au cours dune longue
priode).
ii.
Il faut que le budget de lenqute soit garanti pendant toute la vie utile de lchantillon constant.
Un engagement financier pour couvrir les cots est donc ncessaire pendant une longue priode.
iii.
Il est plus difficile de maintenir la reprsentativit au cours de priodes prolonges cause des
changements qui se produisent dans la population avec le temps, notamment, lajout de nouvelles
units et le retrait dautres.
STATISTIQUE CANADA
126
iv.
Le nombre derreurs de rponse peut augmenter (p. ex., la connaissance du questionnaire peut
inciter certains rpondants rpondre incorrectement aux questions pour acclrer linterview).
v.
Le nombre de non-rponses peut augmenter avec le temps ( cause de la fatigue des rpondants,
la mme personne faisant lobjet dune enqute ritre dans le temps, le reprage est difficile,
etc.).
vi.
Son organisation est plus complexe que celle dune enqute unique.
vii.
Il peut susciter un comportement motiv par lenqute. Les questions ritres sur les visites au
mdecin, par exemple, peuvent inciter un rpondant visiter un mdecin la suite de lenqute.
Il peut tre difficile de dfinir certains concepts (p. ex., la composition du mnage peut changer
avec le temps et alors, comment dfinir un mnage longitudinal?).
viii.
ix.
Le plan dchantillonnage intermdiaire entre les chantillons indpendants utiliss des occasions
successives et lchantillon longitudinal est intitul plan dchantillonnage avec renouvellement, cest-dire quune partie de lchantillon est remplace chaque fois que le sondage est fait.
LEnqute sur la population active (EPA) applique, par exemple, un plan dchantillonnage avec
renouvellement. Des mnages forment lchantillon pendant six mois conscutifs et, chaque mois, un
sixime de lchantillon est remplac par un nouveau groupe de mnages. Lchantillon de lEPA est
rparti en six panels (ou groupes de rotation). Chaque panel fait lobjet de lenqute une fois par mois
pendant six mois. la fin du sixime mois, un groupe de rotation est supprim de lenqute (renouvel) et
un nouveau est ajout. Le fardeau du rpondant est ainsi limit (linterview moyenne de lEPA demande
moins de dix minutes) et on conserve un bon chevauchement de lchantillon chaque mois. Le
renouvellement mensuel de lchantillon est un avantage supplmentaire. Si lchantillon nest jamais mis
jour, les membres de lchantillon vieillissent et les familles des nouveaux logements nont jamais la
chance dtre ajouts lchantillon. Dans ce cas, lchantillon ne reflte plus la population actuelle et
devient biais avec le temps.
Ce plan dchantillonnage a lavantage quil permet de mesurer les changements chaque mois avec une
plus grande prcision, il cote moins cher et il y a moins dinterruptions des oprations sur place,
comparativement aux chantillons indpendants. Il amenuise aussi le problme du fardeau des rpondants
li aux tudes avec chantillons constants. (Afin de reflter les changements de la taille et de la structure
de la population, ainsi que les besoins de donnes, nanmoins, des modifications priodiques sont
apportes au plan dchantillonnage de lEPA, habituellement loccasion du recensement dcennal.)
Ces plans dchantillonnage servent non seulement lEPA, mais aussi aux enqutes auprs des
entreprises. Il ne faut pas oublier que les plans dchantillonnage avec renouvellement exigent un plan
dchantillonnage lmentaire, mais aussi une mthodologie de renouvellement de lchantillon. Il sagit
de notions complexes hors de la porte de ce manuel. On trouvera dans Kalton et coll. (1992) et dans
Kasprzyk (1989) une prsentation dtaille des plans rotation partielle et des enqutes longitudinales.
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
127
Il peut tre difficile de nouer un lien entre la population de lenqute et une population
habituellement comprise. Les enqutes entre-sortie mesurent des visiteurs, et non des personnes,
voil pourquoi. Si une enqute est faite un magasin, par exemple, celui qui visite le magasin
plus dune fois au cours de la priode sera compt plus dune fois.
STATISTIQUE CANADA
128
ii.
Il peut tre difficile de grer les oprations sur place cause des dbits variables de la population.
Voil pourquoi de brves interviews sont recommandes.
iii.
6.3.3
Supposons que le client veut trouver des particuliers rares dans une population, quil en connat dj
certains et quil peut communiquer avec eux. Une approche possible est de communiquer avec ceux-l et
demander simplement sils connaissent quelquun comme eux, puis de communiquer avec ces personnes,
etc. Lchantillon prend de lampleur comme une boule de neige qui descend une colline pour englober
ventuellement peu prs tous ceux qui ont cette caractristique. Lchantillonnage boule de neige est
utile pour des populations petites ou spcialises, notamment, les aveugles, les sourds, dautres personnes
qui ne font peut-tre pas partie dun groupe organis ou, par exemple, des musiciens, peintres ou potes
qui ne sont pas dj identifis dans une liste de sondage. Lchantillonnage boule de neige est cependant
une mthode dchantillonnage non probabiliste : certains particuliers ou sous-groupes pourraient navoir
aucune chance dtre chantillonns. Il faut faire de solides hypothses de modlisation (qui ne se
concrtisent habituellement pas) pour formuler des infrences.
Lchantillonnage de rseaux et lchantillonnage adaptatif par grappes sont des plans dchantillonnage
semblables utiliss pour cibler des populations rares ou spcialises.
6.4 Sommaire
Ce chapitre a cibl les notions lmentaires de lchantillonnage. Les deux principaux types
dchantillonnage sont lchantillonnage probabiliste et non probabiliste. Lutilit de lchantillonnage
non probabiliste est limite pour les enqutes des organismes statistiques parce que la slection biaise
des units ne permet pas de formuler immdiatement des infrences sur la population de lenqute. Il est
cependant facile et rapide et il peut tre utile pour les tudes de recherche ou pendant la phase
dlaboration dune enqute (p. ex., pour faire lessai du questionnaire).
Lchantillonnage probabiliste devrait tre utilis lorsquil faut formuler des infrences sur la population,
compte tenu des rsultats de lenqute. Dans un chantillon probabiliste, chaque unit de la base de
sondage a une probabilit diffrente de zro dtre slectionne et la slection des units est alatoire. La
slection nest donc pas biaise et il est possible de calculer les probabilits dinclusion et la variance
dchantillonnage des estimations, puis de formuler des infrences sur la population. Voici les principaux
inconvnients de lchantillonnage probabiliste : il demande plus de temps et cote plus cher que
lchantillonnage non probabiliste, et la base dchantillonnage doit tre de qualit leve.
Les plans dchantillonnage probabiliste les plus simples sont lchantillonnage alatoire simple et
lchantillonnage systmatique qui donnent des probabilits dinclusion gales. Des plans
dchantillonnage plus complexes peuvent donner des probabilits dinclusion ingales et la majorit
dentre eux exigent de linformation auxiliaire, y compris les chantillonnages avec probabilit
proportionnelle la taille, stratifis, par grappes, plusieurs degrs et plusieurs phases. Les plans
dchantillonnage probabiliste ingaux sont typiquement utiliss pour amliorer lefficience statistique de
la stratgie dchantillonnage ou pour diminuer les cots de lchantillonnage. La base dchantillonnage
justifie parfois leur utilisation.
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
129
Lorsque lon choisit entre divers plans dchantillonnage possibles, il faut dabord dterminer quels plans
dchantillonnage sont ralistes, compte tenu de la base de sondage, des units de la base de sondage, des
domaines dintrt, du fardeau de la rponse, de la mthode de collecte des donnes, du budget, etc.
Voici certains points considrer :
- Y a-t-il des donnes auxiliaires dans la base de sondage qui pourraient servir amliorer lefficience
de lchantillonnage (avec stratification ou PPT)?
- La base de sondage manque-t-elle dinformation auxiliaire qui pourrait servir la stratification ou
liminer certaines units? La collecte des donnes cote-t-elle cher ou est-elle un fardeau (considrez
deux phases)?
- La population est-elle naturellement rpartie par grappes ou les units de la base de sondage sont-elles
des grappes? La population est-elle rpartie gographiquement et y aura-t-il des interviews sur place
(chantillonnage un degr ou par grappes plusieurs degrs)?
En bout de ligne, plusieurs applications spciales de plans dchantillonnage sont possibles, selon les
besoins particuliers de lenqute.
Pour apprendre comment dterminer la taille de lchantillon ncessaire pour obtenir un degr de
prcision donn et comment comparer lefficience de diffrents plans dchantillonnage en comparant les
effets de plan, le lecteur consultera le Chapitre 8 - Calcul de la taille de lchantillon et rpartition.
Bibliographie
Bebbington, A.C. 1975. A Simple Method of Drawing a Sample without Replacement. Applied Statistics,
24(1).
Binder, D.A. 1998. Les enqutes longitudinales : Pourquoi ces enqutes sont-elles diffrentes de toutes
les autres ? Techniques denqute, 24(2): 107-115.
Brewer K.R.W et M. Hanif. 1983. Sampling with Unequal Probabilities. Springer-Verlag, New York.
Cochran, W.G. 1977. Sampling Techniques. John Wiley and Sons, New York.
Conner, W.S. 1966. An Exact Formula for the Probability that Two Specified Sample Units Will Occur in
a Sample Drawn with Unequal Probabilities and Without Replacement. Journal of the American
Statistical Association, 61: 385-390.
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.
Droesbeke, J.-J., B. Fichet et P. Tassi, (1987). Les Sondages. Economica, Paris.
Fellegi, I.P. (1963). Sampling with Varying Probabilities Without Replacement Rotating and NonRotating Samples. Journal of the American Statistical Association, 58: 183-201.
Fink, A. (1995). The Survey Kit. Sage Publications, California.
Fowler, F.J. 1984. Survey Research Methods. 1. Sage Publications, California.
STATISTIQUE CANADA
130
Gambino, J.G., M.P. Singh, J. Dufour, B. Kennedy et J. Lindeyer. 1998. Mthodologie de lenqute sur la
population active du Canada. Statistique Canada. 71-526.
Gray, G.B. 1971. Joint Probabilities of Selection of Units in Systematic Samples. Proceedings for the
American Statistical Association. 271-276.
Hidiroglou, M.A. 1994. Sampling and Estimation for Establishment Surveys: Stumbling Blocks and
Progress. Proceedings of the Section on Survey Research Methods. American Statistical
Association. 153-162.
Hidiroglou, M.A. et G.B. Gray. 1980. Construction of Joint Probabilities of Selection for Systematic
P.P.S. Sampling. Applied Statistics, 29(1): 663-685.
Hidiroglou, M.A. et K.P. Srinath. 1993. Problems Associated with Designing Sub-Annual Business
Surveys. Journal of Economic Statistics, 11: 397-405.
Horvitz, D.G. et D.J. Thompson. 1952. A Generalization of Sampling Without Replacement from a Finite
Universe. Journal of the American Statistical Association. 47: 663-685.
Kalton, G., J. Kordos et R. Platek, ds. 1992. Small Area Statistics and Survey Designs. Central
Statistical Office, Warsaw. 31-75.
Kasprzyk, D., G.J. Duncan, G. Kalton et M.P. Singh, ds. 1989. Panel Surveys. John Wiley and Sons,
New York.
Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.
Lavalle, P. 1998. Thorie et Applications des enqutes longitudinales, Notes de cours 411F, Statistique
Canada.
Levy, P. et S. Lemeshow. 1991. Sampling of Populations. John Wiley and Sons, New York.
Lohr, S. 1999. Sampling: Design and Analysis. Duxbury Press, U.S.A.
McLeod, A.I. et D.R. Bellhouse. 1983. A Convenient Algorithm for Drawing a SRS. Applied Statistics,
32(2).
Moser C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.
Rao, J.N.K, H.O. Hartley et W.G. Cochran. 1962. On a Simple Procedure of Unequal Probability
Sampling Without Replacement. Journal of the Royal Statistical Society, B, 27: 482-490.
Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.
Satin, A. et W. Shastry. 1993. Lchantillonnage : un guide non mathmatique Deuxime dition.
Statistique Canada. 12-602F.
Stuart, A. 1968. Basic Ideas of Scientific Sampling. Charles Griffin and Company Limited, London.
STATISTIQUE CANADA
PLANS DCHANTILLONNAGE
131
Thompson, M. 1997. Theory of Sample Surveys. Chapman and Hill, United Kingdom.
Thompson, S.K. 1992. Sampling. John Wiley and Sons, New York.
Yates, F. et P.M. Grundy. 1953. Selection Without Replacement from Within Strata with Probabilityproportional-to-size. Journal of the Royal Statistical Society. B, 15: 235-261.
STATISTIQUE CANADA
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
133
Chapitre 7 - Estimation
7.0
Introduction
Il est indiqu au Chapitre 1 - Introduction lenqute que ltude des caractristiques dune population
est habituellement la motivation du client. Lestimation est un moyen que lorganisme statistique utilise
pour obtenir des valeurs de la population dintrt et tirer des conclusions sur cette population partir
de linformation obtenue dun chantillon .
Le principe sous-jacent lestimation dans une enqute probabiliste est que chaque unit de lchantillon
reprsente non seulement elle-mme, mais aussi plusieurs units de la population de lenqute. Le nombre
moyen dunits de la population que reprsente une unit de lchantillon est souvent intitul poids de
base ou pondration daprs le plan pour cette unit. Dterminer la pondration est un important volet du
processus destimation. Les poids de base peuvent servir lestimation, mais la majorit des enqutes
produisent une srie de poids destimation en ajustant les poids de base. Tenir compte des non-rponses et
utiliser les donnes auxiliaires sont les deux justifications habituelles des ajustements.
Lorsque les destimation ont t calculs, ils sont appliqus aux donnes de lchantillon pour dterminer
les estimations. Des mesures sommaires de la population, par exemple les totaux, moyennes et
proportions, sont habituellement estimes pour un large ventail de caractristiques obtenues des units
de lchantillon. Ces caractristiques, souvent intitules variables en thorie statistique, peuvent tre
qualitatives, par exemple le sexe ou ltat civil, ou quantitatives, notamment lge ou le revenu.
Diffrentes formules sont appropries pour lestimation des mesures sommaires, selon le genre de
donnes.
Dterminer limportance de lerreur dchantillonnage dans lestimation est un volet important de
lestimation. Elle donne une mesure de la qualit des estimations de lenqute pour un plan
dchantillonnage en particulier. Lerreur dchantillonnage peut tre estime seulement si
lchantillonnage est probabiliste.
Lobjectif de ce chapitre est dillustrer comment calculer les poids, tablir des estimations des mesures
sommaires et des estimations de leur erreur dchantillonnage pour les enqutes avec chantillonnage
probabiliste.
7.1
Pondration
La premire tape de lestimation est lattribution dun poids chaque unit chantillonne ou chaque
unit chantillonne rpondante. La poids de base peut tre considr comme le nombre moyen dunits
dans la population de lenqute que chaque unit chantillonne reprsente et elle est dtermine par le
plan dchantillonnage. La pondration du plan, wd (o d reprsente le plan, design en anglais), pour une
unit de lchantillon est linverse de sa probabilit dinclusion, . On se souviendra que la probabilit de
slection dune unit, pour un plan dchantillonnage plusieurs degrs ou plusieurs phases est le
produit des probabilits de slection chaque degr ou phase. Dans un chantillon deux phases o la
probabilit de slection dune unit est 1 la premire phase et 2 la deuxime phase, la pondration du
plan pour une unit de lchantillon est donc :
1
1
wd =
1 2
STATISTIQUE CANADA
134
Les donnes de lchantillon dune enqute sont gnralement entres dans un fichier comprenant un
enregistrement pour chaque unit chantillonne. Nous savons que chaque unit de lchantillonnage
probabiliste a une probabilit connue, , dtre chantillonne. Si cette probabilit dinclusion est, par
exemple, une sur 50, chaque unit slectionne reprsente donc une moyenne de 50 units de la
population de lenqute et le poids de base est wd = 50. Si le poids est un nombre entier, un moyen de
produire des estimations pour la population serait de recopier chaque enregistrement pour quil y ait
50 copies de chacun et de calculer ensuite les valeurs dintrt (par exemple, les moyennes, les totaux, les
ratios, etc.) de ce fichier. La rptition devient plus difficile si le poids nest pas une valeur entire. (Si
deux units sur cinq sont slectionnes laide de lchantillonnage alatoire simple, par exemple, le
poids de base est donc wd = 2,5). Il est en gnral plus facile dajouter une variable de pondration
lenregistrement de chaque unit de lchantillon.
Ltude de la pondration commencera par les plans dchantillonnage avec probabilit gale qui sont le
cas de pondration le plus simple.
7.1.1
Les plans dchantillonnage sont considrs autopondrs lorsque les poids de base sont les mmes pour
toutes les units de lchantillon. Cest le cas lorsque chaque unit a la mme probabilit dinclusion.
Dans un plan dchantillonnage autopondr, si aucun ajustement ultrieur nest apport aux poids de
base (p. ex., pour les non-rponses ou les donnes auxiliaires), les poids peuvent tre ignors pour
produire certaines statistiques comme les proportions et les moyennes. Le calcul des totaux exige
simplement que le total de lchantillon soit multipli par le poids de base.
Quels plans dchantillonnage un degr sont autopondrs? Les chantillons alatoires simples (EAS) et
les chantillons systmatiques sont autopondrs parce que chaque unit a une chance gale dtre incluse
dans lchantillon. Dans un plan stratifi, un plan autopondr est obtenu, par exemple, si un EAS est
slectionn dans chaque strate et si la taille de lchantillon de chaque strate est proportionnelle la taille
de la population de la strate. La fraction dchantillonnage est donc la mme dans chaque strate et toutes
les units de la population ont la mme probabilit dinclusion. (Cette rpartition de lchantillon entre les
strates est intitule rpartition proportionnelle N et fait lobjet dune tude plus dtaille au Chapitre 8 Calcul de la taille de lchantillon et rpartition.)
Exemple 7.1 : EAS stratifi avec rpartition proportionnelle N
Supposons quune population de N = 1 000 personnes est rpartie en deux strates dans la base de sondage.
La premire strate est compose de N1 = 400 hommes et la deuxime, de N2 = 600 femmes. Un chantillon
total de n = 250 est tir des deux strates et lchantillon est rparti proportionnellement la taille de
chaque strate. La fraction dchantillonnage de chaque strate est donc quivalente
n/N = 250/1 000 = 1/4.
Tableau 1 : EAS stratifi avec rpartition proportionnelle N
Strate
Homme
Femme
Total
Taille de la population
N1 = 400
N2 = 600
N = 1 000
STATISTIQUE CANADA
Taille de lchantillon
n1 = 100
n2 = 150
n = 250
ESTIMATION
135
Strate 2, Femmes :
n
150 1
2 = 2 =
=
N 2 600 4
La probabilit dtre slectionn est donc la mme pour chacun, ainsi que le poids de base, wd = 1/ = 4.
Dans un plan dchantillonnage plusieurs degrs, lautopondration est obtenue en slectionnant des
grappes avec probabilit proportionnelle la taille (PPT) tous les degrs, lexception du dernier. Un
nombre dtermin dunits dans une grappe sont slectionnes au dernier degr (p. ex., choisir toujours
n=5 au dernier degr). Lchantillonnage PPT est souvent utilis dans les plans plusieurs degrs parce
quil peut donner un chantillon autopondr et permettre de contrler la taille de lchantillon.
Un exemple de plan dchantillonnage autopondr deux phases serait un EAS, un chantillon
systmatique ou un chantillon stratifi avec rpartition proportionnelle N obtenu chaque phase.
Les plans dchantillonnage ont t tudis au Chapitre 6 - Plans dchantillonnage.
7.1.2
La simplicit des plans autopondrs est intressante, mais il nest pas toujours possible ou souhaitable de
slectionner un chantillon autopondr. Dans un plan stratifi aux fins dune enqute nationale, par
exemple, pour des rgions plus petites, la rpartition proportionnelle N peut donner des tailles
dchantillon insuffisantes et, pour les rgions plus grandes, elle peut donner des chantillons trop gros.
Lexemple suivant illustre les poids de base pour un plan dchantillonnage stratifi dont la taille de
lchantillon de chaque strate nest pas proportionnelle la taille de la population de la strate. (Le
Chapitre 8 - Calcul de la taille de lchantillon et rpartition donne davantage de dtails sur la
rpartition non proportionnelle.)
Exemple 7.2 : EAS stratifi avec rpartition non proportionnelle
Aux fins dune enqute sur les transports en commun, la population de N=1 100 personnes est rpartie en
deux strates gographiques. tant donn que les personnes qui habitent en milieu rural et urbain peuvent
tre trs diffrentes quant linformation obtenue pour lenqute, un plan dchantillonnage stratifi est
utilis. La strate urbaine est de la taille N1=1 000 et la strate rurale, N2=100. Un chantillon de n=250
personnes est slectionn : n1=200 dans la strate urbaine et n2=50 dans la strate rurale. Quelles sont les
poids de base pour les personnes chantillonnes?
Tableau 2 : EAS stratifi avec rpartition non proportionnelle
Strate
Urbain
Rural
Total
Taille de la population
N1 = 1 000
N2 = 100
N = 1 100
STATISTIQUE CANADA
Taille de lchantillon
n1 = 200
n2 = 50
n = 250
136
Strate 2, Rural :
n
50 1
2 = 2 =
=
N 2 100 2
Dans le fichier de lchantillon, chaque rpondant de la strate du milieu urbain a un poids de base de
wd,1 = 5 et chaque rpondant de la strate du milieu rural a un poids de base de wd,2 = 2.
Dans un chantillonnage plusieurs degrs ou phases, la pondration du plan dans lensemble est calcule
en multipliant la probabilit de slection chaque degr ou phase et en appliquant ensuite linverse. Dans
un chantillon par grappes deux degrs, par exemple, supposons que vous slectionnez un EAS de
n1=10 dans un ensemble de N1=100 grappes au premier degr et un EAS de n2=30 units dans chaque
grappe au deuxime degr, le nombre dunits dans chaque grappe tant N2=60.
La probabilit de slection au premier degr est donne par:
1 =
n1
10
1
=
= ,
N 1 100 10
2 =
n2
30 1
=
= .
N 2 60 2
7.1.3
= 10 2 = 20.
Les non-rponses sont un problme dans toutes les enqutes et elles se produisent lorsque, pour certaines
raisons, linformation demande aux units chantillonnes nest pas disponible, en tout ou en partie. Il
est mentionn au Chapitre 3 - Introduction au plan denqute quil y a deux principaux types de nonrponse, la non-rponse partielle et la non-rponse totale. Il y a non-rponse partielle lorsque
linformation est disponible pour certaines questions seulement, par exemple, lorsque la personne
rpond une partie seulement du questionnaire. Limputation des valeurs manquantes est lapproche la
plus commune dans ce cas. (Diverses approches dimputation pour les non-rponses une question ou
partielles sont considres au Chapitre 10 - Traitement.)
Cette section traite de la non-rponse totale, cest--dire lorsque toutes les donnes ou presque dune
unit chantillonne sont manquantes. Il sagit de cas o lunit de lchantillon refuse de participer, o
il est impossible dtablir un contact, o lunit ne peut tre repre ou encore si linformation obtenue est
inutile. La faon la plus facile de traiter ces non-rponses est de les ignorer. Dans certaines circonstances
exceptionnelles, des proportions ou des moyennes estimes sans ajustement pour les non-rponses totales
sont les mmes que celles produites en appliquant un ajustement pour les non-rponses. Si lon vous
nglige de compenser pour les units non rpondantes, les totaux sont gnralement sous-estims (p. ex.,
la taille dune population, le total des revenus ou le total dacres rcolts).
STATISTIQUE CANADA
ESTIMATION
137
La faon la plus commune de traiter la non-rponse totale est dajuster les poids de base en supposant que
les units rpondantes reprsentent les units rpondantes et non rpondantes. Cette mesure est
raisonnable si lon considre que les non-rpondants sont quivalents aux rpondants pour les
caractristiques mesures dans lenqute. Les poids de base pour les non-rpondants sont ensuite
redistribues entre les rpondants. Cette mesure est souvent applique laide dun facteur dajustement
pour les non-rponses qui est multipli par la poids de base, afin dobtenir une pondration ajuste pour
les non-rponses, ceci tant illustr dans lexemple 7.3 ci-dessous.
On remarquera que les donnes de recensement peuvent aussi avoir un ajustement de pondration pour les
non-rponses et les poids de base seraient alors quivalents un, wd = 1. Le biais de non-rponse a t
tudi au Chapitre 3 - Introduction au plan denqute et au Chapitre 5 - Conception du
questionnaire.
7.1.3.1 Facteurs dajustement de la pondration pour les non-rponses
Le facteur dajustement pour les non-rponses est habituellement dfini comme le rapport entre la somme
des poids dans lchantillon original et la somme des poids des units rpondantes. Dans un plan
dchantillonnage autopondr, il est quivalent au rapport entre le nombre dunits de lchantillon
original et le nombre dunits rpondantes, et il est illustr ci-dessous.
Exemple 7.3 : Facteur dajustement pour les non-rponses dun EAS, un groupe de non-rponses
Un EAS de n=25 personnes est slectionn dans une population de N=100 personnes. Disons que le
nombre dunits rpondantes est nr. Seulement nr=20 personnes ont donn toute linformation demande.
Quelles sont les poids ajusts pour les non-rponses des units de lchantillon?
1. La premire tape est le calcul des probabilits dinclusion pour un EAS :
n
25 1
=
= .
N 100 4
3. La dernire tape est le calcul des poids ajusts pour les non-rponses.
Les poids ajusts pour les non-rponses, wnr, sont le produit des poids de base et du facteur dajustement
pour les non-rponses :
n
wnr = wd
= 4 1,25 = 5.
nr
STATISTIQUE CANADA
138
Chaque rpondant reprsente donc cinq personnes dans la population de lenqute. Un poids final de 5 est
attribu chaque unit dans le fichier des donnes.
Si lhypothse selon laquelle tous les non-rpondants sont quivalents aux rpondants pour les
caractristiques mesures dans lenqute est approprie, le mme facteur dajustement pour les nonrponses peut tre utilis pour toutes les units rpondantes (comme ci-dessus). Il y a habituellement des
sous-groupes, cependant, qui ont tendance rpondre diffremment et qui ont diffrentes caractristiques,
et un ajustement identique pour tous les rpondants peut donc biaiser les rsultats. Les mnages
unifamiliaux, par exemple, ont souvent des taux de rponse infrieurs ceux des mnages multiples et ils
ont des caractristiques diffrentes : il faudrait donc procder des ajustements distincts pour les nonrponses.
Un facteur dajustement diffrent pour les non-rponses est appliqu dans lexemple ci-dessous chacune
des deux strates : urbaine et rurale. Des caractristiques dintrt diffrentes entre les strates justifient
cette mesure.
Exemple 7.2 (suite) : Facteur dajustement pour les non-rponses de lEAS stratifi (o le groupe
des non-rponses correspond la strate)
Seulement nr,1=150 personnes dans la strate du milieu urbain et nr,2=40 personnes dans la strate du milieu
rural ont donn linformation demande pendant la collecte des donnes. Quelles sont les poids ajusts
pour les non-rponses de ces rpondants?
Tableau 3 : EAS stratifi avec les non-rponses
Strate
Urbain
Rural
Taille de la
population
N1 = 1 000
N2 = 100
Taille de
lchantillon
n1 = 200
n2 = 50
Nombre de rpondants
nr,1 = 150
nr,2 = 40
1. La pondration du plan dchantillonnage dans chaque strate est wd,1=5 pour la strate du milieu urbain
et wd,2=2 pour la strate du milieu rural.
2. Un facteur dajustement pour les non-rponses est calcul chaque strate, comme suit :
Strate 1, Urbain :
n1
200
=
= 1,33
n r ,1 150
Strate 2, Rural :
n2
50
=
= 1,25
n r , 2 40
3. La pondration ajuste pour les non-rponses dans chaque strate est le produit de la pondration du
plan dchantillonnage et du facteur dajustement pour les non-rponses.
Strate 1, Urbain :
n
wnr ,1 = wd ,1 1 = 5 1,33 = 6,67
n r ,1
Strate 2, Rural :
n
wnr , 2 = wd , 2 2 = 2 1,25 = 2,5
nr , 2
Dans le fichier de lchantillon, on attribue chaque rpondant de la strate du milieu urbain un poids final
de 6,67 et chaque rpondant de la strate du milieu rural, un poids final de 2,5.
STATISTIQUE CANADA
ESTIMATION
139
Lors du calcul du facteur dajustement pour les non-rponses, il est important de tenir compte du fait que
certaines units chantillonnes peuvent se rvler hors du champ de lenqute (c.--d. quelles ne font
pas partie de la population cible). Dans une enqute sur les entreprises de dtail, par exemple, certains
renseignements dans la base de sondage peuvent tre inexacts et une unit chantillonne peut en fait tre
un grossiste. Lajustement pour les non-rponses devrait tre calcul seulement pour les units
admissibles parce que les units hors du champ de lenqute reprsentent habituellement dautres units
hors du champ de lenqute dans la base de sondage. Il nest pas prvu que les units hors du champ de
lenqute rpondront au sondage et il faut donc prsumer que leur taux de non-rponse sera 100 %. Dans
lexemple ci-dessus, il est suppos que tous les non-rpondants sont admissibles, mais les facteurs
dajustement pertinents pourraient tre trs diffrents selon le nombre de non-rpondants admissibles
considr exact.
Il vaut mieux regrouper, pour toutes ces mthodes, les enregistrements semblables comme cest le cas
pour les ajustements de pondration pour les non-rponses (voir le Chapitre 7 - Estimation). Ces
regroupements sont intituls classes dimputation.
Lajustement pour les non-rponses devrait tre fait distinctement pour des groupes de rpondants
semblables lorsque chaque groupe de rpondants peut reprsenter les non-rpondants de ce groupe. Ces
groupements peuvent tre par strate ou par strate a posteriori (voir la section suivante), ou une analyse
peut tre faite pour dterminer les groupements (p. ex., test du chi au carr ou rgression logistique).
Groves et Couper (1998) couvrent en dtail la non-rponse dans les enqutes auprs des mnages. .
Le test du khi carr et la rgression logistique sont tudis au Chapitre 11 - Analyse des donnes de
lenqute.
7.1.4
Les poids de base multiplis par le facteur dajustement pour les non-rponses peuvent servir dterminer
les pondrations finales et les estimations des caractristiques voulues de lenqute. Linformation sur la
population de lenqute peut cependant tre disponible dautres sources, par exemple, la suite dun
recensement prcdent. Cette information peut aussi tre intgre au processus de pondration.
Il y a deux principales raisons pour utiliser les donnes auxiliaires lors de lestimation. Premirement, il
est souvent important que les estimations de lenqute correspondent aux totaux connus de la population
ou aux estimations dune autre enqute plus fiable. De nombreuses enqutes sociales, par exemple,
ajustent leurs estimations de lenqute pour quelles soient conformes aux estimations (ge, rpartition
des sexes, etc.) du recensement de la population le plus rcent. Linformation auxiliaire peut aussi tre
obtenue partir de donnes administratives ou dune autre enqute considre plus fiable parce que sa
taille dchantillon est plus large ou parce quil faut respecter ses estimations publies.
Deuximement, les donnes auxiliaires sont utilises pour amliorer la prcision des estimations. En effet,
un estimateur ayant une petite variance dchantillonnage, une mesure de lerreur dchantillonnage, est
considr prcis. Au Chapitre 6 - Plans dchantillonnage, nous avons considr limportance de
lutilisation des donnes auxiliaires lors de la conception de lchantillon, afin damliorer lefficience
statistique de la stratgie dchantillonnage. ltape du plan dchantillonnage cependant, linformation
auxiliaire doit tre disponible pour toutes les units de la base de sondage. ltape de lestimation, les
donnes auxiliaires peuvent servir amliorer la prcision des estimations si les variables auxiliaires ont
t mesures pour les units de lenqute et si les totaux ou les estimations de la population pour ces
variables auxiliaires sont disponibles une autre source fiable.
STATISTIQUE CANADA
140
Si lge dune personne nest pas disponible dans la base de sondage, par exemple, il ne peut servir
stratifier la population. Si cette information est obtenue lors de lenqute cependant, les estimations de
lenqute peuvent tre ajustes pour correspondre la rpartition des ges dans le recensement. Si lge
est corrl avec dautres variables obtenues pendant lenqute (p. ex., les variables sur la sant), son
utilisation comme donnes auxiliaires peut amliorer la prcision des estimations. Cette notion est
illustre aux sections suivantes.
Linformation auxiliaire peut aussi servir pour apporter dautres corrections lorsquil y a des taux de nonrponses diffrents dans divers sous-groupes de la population. Elle peut aussi aider ajuster sil y a des
dfauts de couverture parce que la population du sondage est diffrente de la population cible.
Il y a trois exigences lmentaires pour utiliser avec succs des donnes auxiliaires ltape de
lestimation:
-
les donnes auxiliaires doivent tre bien corrles avec les variables de lenqute,
il faut faire la collecte de linformation auxiliaire pour toutes les units rpondantes de lchantillon
quand on ne connat que les totaux de la population.
Plus les variables de lenqute sont troitement corrles avec les donnes auxiliaires disponibles, plus les
estimations qui utilisent les donnes auxiliaires seront efficientes. La prcision de linformation auxiliaire
est importante. Non seulement les donnes doivent tre fiables, mais il est aussi important que la source
de donnes externe couvre la mme population cible et quelle soit tablie selon des concepts, dfinitions
et priodes de rfrence comparables, etc., ceux de lenqute.
Les sections suivantes dcrivent comment les donnes auxiliaires peuvent servir aux estimations.
LAnnexe A - Donnes administratives explore plus avant lutilisation des donnes administratives.
7.1.4.1 Stratification a posteriori
La stratification a posteriori est utilise pour ajuster les poids de lenqute laide de variables qui
conviennent la stratification, mais qui ne pouvaient tre utilises ltape de la conception du plan parce
que les donnes ntaient pas disponibles, ou parce que de linformation plus fiable et jour est devenue
disponible aprs la slection de lchantillon. La stratification a posteriori est utilise lorsque les donnes
auxiliaires sont numriques, par exemple, le nombre dhommes et de femmes dans la population. Elle est
plus efficace pour diminuer la variance dchantillonnage lorsque les moyennes des variables dintrt de
la population sont aussi diffrentes que possible entre les strates a posteriori. Il ne faut pas oublier quil
est prfrable, si possible, de stratifier ltape de la conception du plan au lieu dappliquer la
stratification a posteriori.
Lexemple suivant rvle comment utiliser la stratification a posteriori pour amliorer lestimation du
nombre de fumeurs dans une entreprise.
STATISTIQUE CANADA
ESTIMATION
141
Supposons quune enqute est faite pour obtenir de linformation sur le tabagisme des employs dans une
petite entreprise. Un EAS de n=25 personnes est slectionn dans une liste de N=78 employs. Il ny a
pas dinformation auxiliaire disponible qui peut servir la stratification ltape de la conception du plan.
La collecte de linformation est faite sur le tabagisme, et lge et le sexe de chaque rpondant sont aussi
disponibles. Sur n=25 personnes lorigine, nr=15 rpondent et la rpartition suivante est faite :
Tableau 4 : EAS, non-rponse et stratification a posteriori
Strate a
posteriori 1,
hommes
3
1
Strate a
posteriori 2,
femmes
12
7
Nombre de
rpondants
15
8
n 25
=
= 0,32
N 78
n 25
=
= 1,67
n r 15
3. On obtient les poids ajusts pour les non-rponses en faisant:
wnr = wd
n
= 3,12 1,67 = 5,2
nr
Tous les rpondants ont donc la mme pondration ajuste pour les non-rponses, wr=5,2. Les estimations
suivantes de lenqute sont faites laide de ces poids (consultez la section 7.2 pour obtenir des dtails et
apprendre comment faire des estimations denqute) :
Tableau 5 : Estimation de lenqute et ajustement pour les non-rponses
Nombre demploys
Nombre de fumeurs
Proportion de fumeurs
Hommes
15,6
5,2
0,33
Femmes
62,4
36,4
0,59
Total
78,0
41,6
0,53
Les pondrations ajustes pour les non-rponses donnent une estimation denviron 16 hommes et
62 femmes qui travaillent dans lentreprise, ainsi quune estimation de 33 % de fumeurs et de 59 % de
fumeuses dans lentreprise. Supposons que linformation auxiliaire suivante devienne disponible aprs
STATISTIQUE CANADA
142
lenqute : 42 hommes et 36 femmes travaillent dans lentreprise. Les estimations de lenqute sont trs
diffrentes de ces valeurs relles.
Lorganisme statistique veut que les estimations de lenqute soient conformes au nombre connu
dhommes et de femmes. Lorganisme souponne aussi que le tabagisme est li au sexe dune personne et
la stratification a posteriori pourrait amliorer la prcision des estimations sur le tabagisme. Si cette
information avait en fait t disponible au moment de la conception du plan, lorganisme statistique aurait
stratifi par sexe. Que faire?
Il est possible de stratifier lchantillon aprs le fait et de dterminer des pondrations stratifies a
posteriori utiliser au moment de lestimation. La pondration stratifie a posteriori, wpst, est le produit
de la pondration ajuste pour les non-rponses, wnr, et du facteur dajustement stratifi a posteriori.
Le facteur dajustement stratifi a posteriori est dtermin pour chaque strate a posteriori. Ce facteur
correspond au rapport entre le nombre dunits de la population dans la strate a posteriori, N, et le nombre
estim dunits de la population dans la strate a posteriori, N , qui est estim laide des pondrations du
plan ajust pour les non-rponses.
4. Le facteur dajustement pour stratification a posteriori se calcule comme suit :
Strate a posteriori 1, Hommes :
N hommes
42
=
= 2,69
N hommes 15,6
62,4
N
femmes
(Remarque : Cet exemple vaut pour lEAS, mais la mme formule, N / N , est utilise pour des
pondrations de plan dchantillonnage plus complexes.)
Lorsquil est appliqu la pondration ajuste pour les non-rponses, il donne les pondrations stratifies
a posteriori finales :
Strate a posteriori 1, Hommes :
N
w pst , hommes = wnr hommes = 5,2 2,69 = 14
N
hommes
Voici maintenant les estimations de lenqute laide des pondrations stratifies a posteriori :
Tableau 6 : Estimations de lenqute avec ajustement pour les non-rponses et la stratification a
posteriori
Nombre de personnes
Nombre de fumeurs
Proportion de fumeurs
Hommes
42
14
0,33
Femmes
36
21
0,59
Total
78
35
0,45
Les estimations du nombre dhommes et de femmes sont maintenant conformes aux totaux connus
dhommes et de femmes dans lentreprise et, dans la mesure o le sexe est li au nombre et la
proportion de fumeurs, il est possible damliorer normment la prcision. Remarquez que la proportion
de fumeurs dans chaque strate a posteriori na pas chang, mais que la proportion de fumeurs dans la
population totale qui comprend plus dune strate a posteriori a chang.
STATISTIQUE CANADA
ESTIMATION
143
Une mthode souvent applique dans les enqutes pour intgrer de linformation auxiliaire, afin
damliorer les estimations de lenqute, est lestimation par quotient. Lorsque les donnes sont des
nombres, lestimation par quotient correspond la stratification a posteriori. Dans le cas dune estimation
par quotient en gnral, les poids des enregistrements dans un groupe de classification sont ajustes par
un facteur multiplicatif. Ce facteur est le rapport entre lestimation tire des donnes auxiliaires et
lestimation de lenqute pour la mme variable, pour le groupe de classification.
Si lobjectif dune enqute est destimer le nombre dacres de bl dans des rgions en particulier, par
exemple, le nombre total dacres dans chaque rgion pourrait tre une variable auxiliaire utile. Si le
nombre dacres de bl est fortement corrl avec le total des terres dans la rgion, cette information
auxiliaire pourrait amliorer les estimations du nombre dacres de bl. laide de lestimation par
quotient, le facteur dajustement pour chaque rgion serait la superficie totale des terres de la rgion
divise par lestimation dans lchantillon du total de la superficie des terres de la rgion (c.--d. que le
facteur dajustement serait Y / Y ) . Dans lexemple 7.4, les quotients sont le nombre dhommes divis par
le nombre estim dhommes et le mme quotient pour les femmes et, ceux-ci tant des nombres, ils
correspondent la stratification a posteriori. Tout comme les mthodes prcdentes, lestimation par
quotient peut tre applique distinctement par strate si linformation auxiliaire est disponible ce niveau
et si la taille de lchantillon de chaque strate est suffisante.
7.1.4.3 Ajustements de la pondration plus complexes : calibration et rgression gnralise
Lestimation par quotient est fonde sur lhypothse selon laquelle il y a une simple relation
multiplicative entre les caractristiques de lenqute et une variable auxiliaire (c.--d. que 2,7 fois plus
dhommes signifie 2,7 fois plus de fumeurs). Cette hypothse peut cependant ne pas tre vraie dans toutes
les situations. Premirement, le recours une seule variable auxiliaire peut tre insuffisant pour donner de
bonnes estimations. Deuximement, la relation entre la variable estime et la variable auxiliaire peut tre
plus complexe quune simple relation multiplicative. Dans ce cas, lestimation par rgression peut tre
utilise. Lestimation par rgression est une approche plus complexe qui permet lanalyste de considrer
des modles plus perfectionns, y compris des modles ayant plus dune variable auxiliaire.
Lestimation par quotient pose un autre problme : il peut tre ncessaire de garantir que les totaux de
lchantillon pondr correspondent aux totaux connus de la population pour plus dune caractristique.
Si les totaux de lchantillon pondr doivent correspondre aux totaux de rfrence pour plus dune
caractristique, il faut appliquer une mthode intitule calibration. La situation se produit, par exemple,
lorsque des strates a posteriori sont formes laide de plus dune variable et que seuls les totaux
marginaux de la population pour chaque variable sont connus. Si les donnes sur la population taient
disponibles en nombre par groupe dge et par sexe, par exemple, mais si le nombre dhommes et de
femmes dans chaque groupe dge est inconnu, la mthode de stratification a posteriori dcrite
auparavant ne pourrait tre applique en utilisant les deux caractristiques. (Lestimation par quotient et la
stratification a posteriori sont une calibration qui utilise une seule variable.)
Un prolongement de la mthode par quotient intitule mthode itrative du quotient permet lorganisme
statistique dtablir les pondrations ajustes pour que les estimations soient trs prs des nombres de
rfrence marginaux pour chaque caractristique. Vous obtiendrez une description de cette mthode en
consultant Deming et Stephan (1940), Arora et Brackstone (1977), Bankier (1978), Brackstone et Rao
(1978), Binder (1988).
STATISTIQUE CANADA
144
Des procdures destimation gnralises ont aussi t labores pour obtenir des estimations qui
conviennent aux totaux de rfrence pour de nombreuses caractristiques simultanment. Lorsque ces
techniques gnrales sont appliques, le processus qui garantit que les nombres correspondent aux totaux
de rfrence est intitul calibration et les ajustements de pondration obtenus sont intituls facteurs de
calibration.
Ces techniques, comme lestimation par quotient et la stratification a posteriori, donnent des ajustements
des poids de base. Les poids finaux utiliss pour calculer les estimations deviennent le produit des poids
ajusts pour les non-rponses et des facteurs de calibration. Les procdures destimation gnralises sont
hors de la porte de ce document. Le lecteur dcouvrira la thorie de lestimation par rgression
gnralise dans Srndal, Swensson et Wretman (1992), Deville et Srndal (1992) et Hidiroglou et
Srndal (1998). Le Chapitre 11 - Analyse des donnes de lenqute prsente une introduction la
rgression linaire.
7.2
Les exemples ont illustr jusqu maintenant comment calculer les poids de base et les ajuster pour les
non-rponses et pour les donnes auxiliaires. Cette section explique comment obtenir des estimations
laide des poids finaux (poids destimation).
On a not au Chapitre 6 - Plans dchantillonnage quavec lchantillonnage probabiliste, il est possible
de dterminer la distribution dchantillonnage de lestimateur. Dans lchantillonnage non probabiliste,
tant donn que les probabilits de tirage des divers chantillons sont inconnues, la distribution
dchantillonnage ne peut tre calcule. Pouvoir mesurer lerreur dchantillonnage est un volet important
de lestimation de lenqute et lune des principales raisons de procder un chantillonnage probabiliste.
7.2.1
Des statistiques descriptives simples comme les totaux, moyennes et proportions, sont produites pour
peu prs toutes les enqutes. Des statistiques et des analyses plus complexes sont aussi habituellement
ncessaires. Dans la majorit des enqutes, des donnes sont obtenues pour un large ventail de variables
qui peuvent tre qualitatives (aussi intitules nominales) ou quantitatives.
Quelques catgories seulement sont possibles pour certaines variables qualitatives, par exemple, le sexe
ou ltat civil. Quant aux questions dopinion, les rponses des participants sont souvent obtenues laide
dune chelle dagrment, par exemple, vraiment daccord, daccord, ni pour ni contre, pas daccord,
vraiment pas daccord. Remarquez quavec les donnes nominales, chaque unit correspond une seule
catgorie.
Si lunit de mesure indique des quantits comme des mtres ou des annes, les donnes sont
quantitatives. Les donnes quantitatives sont habituellement des rponses aux questions du genre quelle
quantit? ou quel nombre?, c.--d. combien? Certains exemples sont lge, le nombre denfants, le
nombre dheures travailles, les dpenses et les revenus, la tension artrielle.
Diffrents types destimateurs sont appropris pour ces divers genres de variables. On produit
habituellement des proportions et des comptes totaux pour des variables qualitatives, tandis que les
moyennes et les totaux sont estims pour des variables quantitatives. Dans cette section, les procdures
STATISTIQUE CANADA
ESTIMATION
145
appliques pour obtenir des estimations seront prsentes distinctement pour les donnes qualitatives et
quantitatives.
Outre le genre de donnes, une autre considration pendant lestimation est la caractristique
dterminante de la population que ciblent les estimations. Des estimations peuvent tre tablies pour toute
la population de lenqute ou pour des sous-groupes ou domaines de la population en particulier (p. ex.,
les provinces). Si la classification originale des units de lchantillonnage a chang pendant la priode
coule entre lchantillonnage et lestimation, la nouvelle classification devrait tre utilise pour
lestimation des domaines.
Les rponses aux questions suivantes devraient aider dterminer comment les estimations de lenqute
sont calcules :
- Quel genre de statistiques sont demandes? Un total, une moyenne, une proportion?
- Quel genre de donnes sont utilises? Qualitatives ou quantitatives?
- Quelles sont les poids finaux ?
- Quels sont les domaines dintrt?
Les procdures destimation des totaux, moyennes et proportions, pour toute la population denqute et
pour des domaines, sont dcrites ci-dessous pour les donnes qualitatives et quantitatives.
Les estimateurs suivants peuvent tre appliqus tout plan dchantillonnage probabiliste simple (p. ex.,
EAS, SYS) ou plus complexe. Il est important surtout que la pondration finale de chaque unit
corresponde au correctement le plan dchantillonnage.
i.
Lestimation du nombre total dunits dans la population denqute est calcule, pour les donnes
qualitatives et quantitatives, en additionnant les poids finaux (ajusts) des units rpondantes :
N = wi
iS r
o i est la ie unit rpondante de lchantillon, wi, son poids final et Sr, lensemble des units rpondantes.
Lestimation dune valeur totale pour les donnes quantitatives (p. ex., les dpenses totales) est le produit
du poids final , wi, et de la valeur, yi, pour chaque unit rpondante dont on fait la somme pour toutes les
units rpondantes :
Y = wi y i
iS r
ii.
Lestimation dune valeur moyenne dans la population pour les donnes quantitatives est obtenue en
additionnant le produit de la valeur observe et du poids final pour chaque unit rpondante, et en divisant
cette somme par celle des poids. Autrement dit, lestimation de la moyenne dans la population est
lestimation de la valeur totale des donnes quantitatives divise par lestimation du nombre total dunits
dans la population.
STATISTIQUE CANADA
146
Y =
w y
w
i
iS r
Y
N
iS r
Remarque : Pour lEAS ou le SYS ayant un taux de rponse de 100 % sans ajustement pour la
pondration, lestimateur se simplifie ainsi :
yi
iS
Y =
n
r
iii.
Lestimation de la proportion des units dans la population de lenqute ayant une caractristique donne,
pour les donnes qualitatives, est obtenue en additionnant les poids des units ayant cette caractristique,
et en divisant ce total par la somme des poids pour tous les rpondants. Autrement dit, lestimation de la
proportion dans la population est lestimation du nombre total des units qui ont la caractristique donne
divise par lestimation du nombre total dunits dans la population.
P =
w
w
iS r C
N C
N
iS r
Des estimations peuvent tre demandes pour certains domaines, notamment le groupe dge, le type de
logement, la taille du mnage ou la tranche de revenu.
-
Lestimation de la taille de la population pour un domaine dintrt, tant pour les donnes qualitatives
que quantitatives se calcule ainsi :
N domaine = wi
iS r domaine
Lestimation dun total de domaines pour les donnes quantitatives est donne par :
Ydomaine =
w y
i i
iS r domaine
w y
w
i i
iS r domaine
i
iS r domaine
Ydomaine
N
domaine
STATISTIQUE CANADA
ESTIMATION
147
De faon quivalente, lestimation dune proportion de domaines pour les donnes qualitatives ou
quantitatives est donne par :
wi N domaine C
iS domaine C
=
Pdomaine =
N domaine
wi
r
iS r domaine
7.2.2
Une enqute est mene pour obtenir de linformation sur une population dexploitations agricoles
(fermes). Un chantillon de n=10 exploitations est slectionn laide dun plan dchantillonnage
stratifi. Les 10 exploitations agricoles rpondent et il ny a pas dajustement aux poids, le poids final
tant donc gal au poids de base. Il faut obtenir des estimations partir du fichier de donnes suivant :
Strate
1
1
1
1
1
1
2
2
2
2
Pondration finale
5,67
5,67
5,67
5,67
5,67
5,67
16,5
16,5
16,5
16,5
Genre de ferme
1
2
1
1
2
1
1
1
2
1
Revenu ($)
75 000
15 000
125 000
67 000
80 000
40 000
30 000
14 000
48 000
22 000
Genre de ferme
1=culture
( N1 = 34, n1 = 6)
2=levage
( N2 = 66, n2 = 4)
-
= 5,67 + 5,67 + 5,67 + 5,67 + 5,67 + 5,67 + 16,5 + 16,5 + 16,5 + 16,5
= 100
Remarque : Si les pondrations avaient t omises, le calcul erron de lestimation aurait donn 10.
-
iS r eae
STATISTIQUE CANADA
148
P =
w
w
iS r eae
28
= 0,28
100
iS r
w y
w
i
iS r
4 160 340
= 41 595
100,02
iS r
Lestimation du revenu total des exploitations agricoles dlevage est donne par :
Yeae =
w y
i
iS r eae
Yeae =
w y
w
i
iS r eae
iS r eae
Remarque : Si les pondrations de lchantillonnage taient ignores, les estimations seraient inexactes.
Le tableau ci-dessous montre la comparaison :
STATISTIQUE CANADA
ESTIMATION
149
N
Neae
P
Y
Y
Yeae
Yeae
Estimation exacte
avec pondration
100
28
0,28
4 160 340 $
41 595 $
1 330 650 $
47 796 $
Estimation inexacte
sans pondration
10
3
0,30
516 000 $
51 600 $
155 000 $
51 667 $
Il est possible dtablir des estimations pour les donnes qualitatives laide de techniques habituellement
rserves aux variables quantitatives. Une variable indicatrice peut tre dfinie pour chaque catgorie de
la variable qualitative qui prend la valeur 1 si lunit appartient la catgorie, et 0 autrement.
Lestimation du nombre total dunits ayant la caractristique est obtenue en calculant le produit de la
valeur de la variable indicatrice (1 ou 0) et du poids pour chaque unit rpondante, et ensuite, en faisant la
somme pour toutes les units rpondantes. Compte tenu de cette approche, les procdures destimation
des donnes qualitatives et quantitatives sont les mmes.
7.2.3
Questions destimation
Le plan dchantillonnage devrait tenir compte des domaines dintrt par lintermdiaire de la
stratification lorsque cest possible. Cette mesure garantit une prcision et une taille de lchantillon
appropries. Des restrictions appliques la taille de lchantillon et dautres critres de plan
dchantillonnage (notamment linformation de la base de sondage) peuvent cependant signifier que seul
un nombre minime de strates peuvent tre formes et, pour certains domaines, en particulier les petits, la
taille de lchantillon peut donc tre insuffisante.
Une taille dchantillon insuffisante dans un domaine peut poser un problme au moment de lestimation.
Diverses techniques sont disponibles pour obtenir des estimations dans ces cas. Elles comprennent
lestimation synthtique, lestimation composite et dautres encore. Ces mthodes exigent habituellement
de linformation corrle dune autre source ou le recours de bons modles. Lapplication de ces
techniques peut devenir complexe et elle est hors de la porte de ce manuel. Le lecteur intress obtiendra
davantage dinformation sur ce sujet avanc en consultant Srndal, Swensson et Wretman (1992), Ghosh
et Rao (1994), Singh, Gambino et Mantel (1994).
7.2.3.2 Valeurs aberrantes
Selon la dfinition de Barnett et Lewis (1995), une valeur aberrante est une observation ou un sousensemble dobservations qui semble(nt) tre incohrente(s), compte tenu des autres sries de donnes.
Il y a diverses mthodes disponibles pour diminuer les rpercussions des valeurs aberrantes sur les
estimations de lenqute. Les ignorer simplement peut diminuer la prcision, leur donner une pondration
de un ou de zro peut biaiser les rsultats. Dautre part, linformation auxiliaire et la stratification a
posteriori peuvent tre utilises pour garantir que les valeurs aberrantes nont pas de rpercussions
STATISTIQUE CANADA
150
excessives sur les estimations. Les valeurs aberrantes sont abordes au Chapitre 10 - Traitement. Ce
sujet avanc est aussi tudi dans Kish (1965), et Hidiroglou et Srinath (1981).
7.3
Des erreurs peuvent se glisser dans les estimations dune enqute. Au Chapitre 3 - Introduction au plan
denqute, nous mentionnons deux types lmentaires derreurs, lerreur dchantillonnage et les erreurs
non dues lchantillonnage. Les erreurs non dues lchantillonnage se traduisent souvent par un biais
et sont difficiles mesurer. Lerreur dchantillonnage donne la variabilit, elle mesure quel point une
estimation de diffrents chantillons possibles de la mme taille et du mme plan dchantillonnage,
laide du mme estimateur, donne des rsultats diffrents lun de lautre.
Limportance dune estimation de la variance dchantillonnage ltape de la conception du plan, afin de
comparer lefficience statistique de diffrents plans dchantillonnage, est explique au Chapitre 6 Plans dchantillonnage. Le Chapitre 8 - Calcul de la taille de lchantillon et rpartition rvle
comment une estimation de la variance dchantillonnage est utilise, afin de dterminer la taille de
lchantillon ncessaire pour obtenir un niveau de prcision donn.
Lobjectif de cette section est dillustrer comment la variance dchantillonnage est mesure et
limportance de la prise en compte du plan dchantillonnage. Cette section prsente seulement les
estimateurs de la variance pour une moyenne ou un total estim pour un EAS ou un EAS stratifi en
supposant quil ny a pas dajustement des poids de base. Lestimation de la variance pour une proportion
estime dun EAS et des plans dchantillonnage plus complexes ( laide dun effet de plan) sont
expliqus au Chapitre 8 - Calcul de la taille de lchantillon et rpartition.
Chaque stratgie dchantillonnage a sa formule particulire destimation de la variance
dchantillonnage et elle peut tre complique. Il faudrait consulter un statisticien denqute qui connat
bien ce genre de problme pour estimer correctement la variance dchantillonnage pour des donnes
complexes (c.--d. pour les plans dchantillonnage plus complexes et lorsquil y a ajustements de la
pondration).
Les formules prsentes dans ce chapitre se retrouvent dans tout ouvrage dintroduction la thorie des
sondages, par exemple, Cochran (1977) ou Lohr (1999).
7.3.1
Variance dchantillonnage
STATISTIQUE CANADA
ESTIMATION
151
lEASSR avec un taux de rponse de 100 %. (Voir aussi le Chapitre 8 - Calcul de la taille de
lchantillon et rpartition.)
La valeur de chaque variable, yi, varie habituellement dune unit lautre dans la population. La variance
de la population, 2, de toutes les units, yi, dans la population est dfinie comme suit :
2 =
( N 1) 2
S
N
o
S2 =
iU
( yi Y ) 2
N 1
Un estimateur non biais de la moyenne de la population pour un EASSR de taille n avec un taux de
rponse de 100 % est donn par :
y
Y = i
iS n
r
STATISTIQUE CANADA
152
meilleure que tout autre estimateur non biais). Sil y a un biais, peu importe la raison, cause dun
estimateur biais ou dune erreur non due lchantillonnage, les formules de variance de
lchantillonnage prsentes dans les sections suivantes permettent de calculer lerreur quadratique
moyenne (EQM) qui est une mesure de la variance dchantillonnage et du biais. Le rsultat peut susciter
des problmes dintervalles de confiance et ceci sera repris au Chapitre 11 - Analyse des donnes de
lenqute.
7.3.1.1 Calcul de la variance dchantillonnage relle
Lexemple suivant illustre comment calculer la variance dchantillonnage relle des dpenses moyennes
estimes pour les articles vido dans un EASSR de taille n=2.
Exemple 7.7 :
Les dpenses pour les articles vido dune population de quatre mnages sont inscrites ci-dessous. Dans
un EASSR de taille n=2, quelle est la variance dchantillonnage relle des dpenses moyennes estimes?
Tableau 8 : Dpenses pour articles vido par mnage
Mnage
1
2
3
4
Remarquez dabord que la valeur du paramtre des dpenses moyennes de la population pour les articles
vido est la suivante :
y
Y = i
iU N
10 + 20 + 30 + 40
=
= 25
4
Voici lestimateur habituel pour la moyenne estime dans un EAS :
y
y
Y = i = i
iS n
iS 2
r
Nous pouvons calculer la variance dchantillonnage relle de la moyenne estime, Var (Y ) , pour un
EASSR de taille n=2 en considrant les rsultats de tous les chantillons possibles de taille 2 de lEASSR.
Ils sont affichs au tableau ci-dessous :
STATISTIQUE CANADA
ESTIMATION
153
Units de
lchantillon
Estimation de
lchantillon ($)
Y
(Y Y )
(Y Y ) 2
1
2
3
4
5
6
(1,2)
(1,3)
(2,3)
(1,4)
(2,4)
(3,4)
Moyenne
15
20
25
25
30
35
25
-10
-5
0
0
5
10
0
100
25
0
0
25
100
41.7
Y(1) + Y( 2 ) + Y( 3) + Y( 4 ) + Y( 5) + Y( 6 )
Y =
6
15 + 20 + 25 + 25 + 30 + 35
=
= 25 = Y
6
On remarque que la valeur moyenne de lestimation pour tous les chantillons possibles est gale la
moyenne de la population, Y . Voil qui est prvisible parce que lestimateur pour Y nest pas biais.
2. Ensuite, calculer la diffrence entre chaque estimation de lchantillon et lestimation moyenne de
tous les chantillons (c.--d. Y j Y pour le jme chantillon) inscrite dans la quatrime colonne du
tableau ci-dessus.
3. Calculer le carr de ces diffrences (c.--d. (Y j Y ) 2 ) inscrit dans la cinquime colonne du tableau.
4. Pour lensemble, J, de tous les chantillons de la population, calculer la moyenne des diffrences au
carr :
(Y j Y ) 2
Var (Y ) =
6
jJ
=
100 + 25 + 0 + 0 + 25 + 100
= 41.7
6
La variance dchantillonnage relle des dpenses moyennes estimes pour les articles vido dun EASSR
de taille n=2 pour cette population est donc Var (Y ) = 41,7 .
Le problme de lapproche ci-dessus est quil nest pas pratique de slectionner tous les chantillons
possibles de la population. Une solution de rechange est de slectionner de nombreux chantillons par
rpliques, comme il est mentionn la Section 6.3.9 du Chapitre 6 - Plans dchantillonnage et la
section 7.3.4. Dautre part, lquation prsente plus tt pourrait tre utilise directement :
STATISTIQUE CANADA
154
n S2
Var (Y ) = (1 )
N n
o :
S2 =
iU
( yi Y ) 2
N 1
donc :
n S2
Var (Y ) = 1
= 1
N n
2 166,7
= 41,7
4 2
Un estimateur sans biais de la variance dchantillonnage de la moyenne estime, Y , pour un EASSR, est
donn par :
n S 2
Var (Y ) = 1
N n
o :
( y y)2
S 2 = i
n 1
iS
et o :
y
y= i
iS n
Cette formule sera illustre la Section 7.3.2.3.
Un estimateur sans biais de la variance dchantillonnage du total estim, Y , pour un EASSR, est donn
par :
n S 2
STATISTIQUE CANADA
ESTIMATION
155
Mme lerreur-type peut cependant tre difficile interprter lorsquon pose la question Quelle ampleur
derreur-type est acceptable? Cest limportance de lestimation qui dtermine la largeur. Une erreurtype de 100, par exemple, serait considre grande pour mesurer la moyenne du poids des gens, mais pas
pour estimer le revenu annuel moyen.
Il est plus utile dans de nombreuses situations dvaluer la taille de lerreur-type par rapport lestimation
de la caractristique mesure. Le coefficient de variation donne ce genre de mesure. Cest le rapport
entre lerreur-type de lestimation de lenqute et la valeur moyenne de lestimation elle-mme, pour
tous les chantillons possibles. Le coefficient de variation est habituellement calcul comme lestimation
de lerreur-type de lestimation de lenqute par rapport lestimation elle-mme. Cette mesure relative
de lerreur dchantillonnage est habituellement exprime en pourcentage (10 % au lieu de 0,1). Elle est
trs utile pour comparer la prcision des estimations de lchantillon lorsque leurs tailles ou chelles sont
diffrentes lune de lautre. Elle est cependant moins utile pour les estimateurs des caractristiques dont la
valeur relle peut tre zro ou ngative, y compris les estimations de changement (p. ex., le changement
du revenu moyen depuis lan dernier).
7.3.2.2 Marge derreur et intervalle de confiance
Il nest pas rare de lire les rsultats dune enqute publis dans un journal comme suit :
Selon une enqute rcente, 15 % des rsidents dOttawa assistent des services religieux chaque
semaine. Les rsultats, tirs dun chantillon de 1 345 rsidents, sont considrs prcis plus ou
moins 3 %, 19 fois sur 20.
Que signifie cet nonc? Il rvle que la valeur relle, le pourcentage rel des gens qui assistent des
services religieux chaque semaine, se situe probablement trois points de lestimation (15 %). Dans
lexemple ci-dessus, la marge derreur est de plus ou moins trois points, ou simplement 3 %, et
lintervalle de confiance correspond la plage de 12 % 18 %. Les marges derreur comprennent
toujours un nonc sur la confiance, cest--dire le degr de confiance que suscite lintervalle. Dans cet
exemple, lnonc sur la confiance est 19 fois sur 20. Si lenqute tait rpte de nombreuses fois, cela
STATISTIQUE CANADA
156
signifie que 19 fois sur 20 (ou 95 % des fois), lintervalle de confiance couvrirait la valeur relle de la
population.
La thorie sous-jacente ltablissement des intervalles de confiance peut tre dcrite comme suit.
Supposons une estimation de la moyenne de la population, Y , pour un chantillon de grande taille, et une
estimation de lerreur-type, SE (Y ) . En vertu du thorme central limite et de la distribution normale, les
chances sont donc :
- de 0,10 que lerreur absolue | Y Y | soit suprieure 1,65 SE (Y ) (ce qui correspond un intervalle
de confiance de 90 %),
-
de 0,05 que lerreur absolue | Y Y | soit suprieure 1,96 SE (Y ) (ce qui correspond un
intervalle de confiance de 95 %),
de 0,01 que lerreur absolue | Y Y | soit suprieure 2,58 SE (Y ) (ce qui correspond un intervalle
de confiance de 99 %).
Ces formules sappliquent tous les estimateurs normalement distribus. Il ne faut pas oublier que les
erreurs-types sont utiles, non seulement pour le calcul des intervalles de confiance, mais aussi pour
lanalyse infrentielle des donnes, par exemple, les tests d hypothse (voir le Chapitre 11 - Analyse
des donnes de lenqute).
Le lecteur intress trouvera voulez davantage de dtails sur la thorie sous-jacente aux intervalles de
confiance dans les ouvrages sur la thorie de lchantillonnage (p. ex., Cochran (1977), Lohr (1999),
Srndal, Swensson et Wretman (1992), Stuart (1968)). point superflu en anglais
7.3.2.3 Estimation de la variance dchantillonnage et autres mesures de lerreur dchantillonnage
de lEASSR
Lexemple suivant illustre comment estimer les mesures de lerreur dchantillonnage partir dun seul
chantillon ralis laide de lEASSR, (en supposant un taux de rponse de 100 % et aucun ajustement
pour les donnes auxiliaires.)
Exemple 7.8 : Estimation de la variance dchantillonnage, de lerreur-type, du coefficient de
variation, de la marge derreur et de lintervalle de confiance pour Y , EASSR
Un EASSR de n=10 personnes (taux de rponse de 100 %) est slectionn dans une population de
N=500 personnes. Lge de chaque unit chantillonne est inscrit dans le tableau ci-dessous (tri par
ge). Quelle est la variance dchantillonnage estime de lge moyen estim? Quels sont lerreur-type et
le coefficient de variation estims? Quels sont la marge derreur et lintervalle de confiance pour un
niveau de confiance de 95 %?
STATISTIQUE CANADA
ESTIMATION
157
(y i y )
( y i y )2
-13,4
-8,4
-7,4
-2,4
-0,4
2,6
3,6
5,6
7,6
12,6
179,56
70,56
54,76
5,76
0,16
6,76
12,96
31,36
57,76
158,76
21 + 26 + 27 + 32 + 34 + 37 + 38 + 40 + 42 + 47
= 34,4
10
Lge moyen estim est donc de 34,4 ans. On notera que la moyenne estime de la population est la
moyenne de lchantillon simple pour un EAS (sans facteur dajustement pour les non-rponses ou les
donnes auxiliaires).
2. Estimation de la variance dchantillonnage de Y pour un EASSR :
n S 2
Var (Y ) = 1
N n
o S 2 est :
( y y) 2
S 2 = i
n 1
iS
r
= 6,3
= 1
Var (Y ) = 1
N n 500 10
STATISTIQUE CANADA
158
SE (Y )
2,5
CV (Y ) =
=
y
34,4
= 0,073 = 7,3 %
SE (Y ) = Var (Y )
= 6,3 = 2,5
= 1,96 SE (Y )
= 1,96 x 2,5
= 4,9
VarEAS (Y ) = 1
N n
10 1 247
= 1
= 112,2
100 10
STATISTIQUE CANADA
ESTIMATION
159
n h S h2
h N 1 N n
h
h
6 1406
4 211,6
1 2
=
+ 66 2 1
34 1
= 44
100 2 34 6
66
1
VSTR (Y ) = 2
N
2
h
Si variance dchantillonnage avait t estime sans tenir compte du plan dchantillonnage, et que
lestimateur pour un EAS avait t utilis, la variance dchantillonnage aurait t surestime. En
revanche, si le plan dchantillonnage avait t un plan par grappes et la formule de lEAS avait t
utilise, la variance dchantillonnage relle aurait probablement t sous-estime.
7.3.3
Effet de plan
Leffet de plan compare la variance des estimateurs entre un plan dchantillonnage et un EAS. Il sagit
du rapport entre la variance dchantillonnage dun estimateur, selon un plan dchantillonnage
donn, et la variance dchantillonnage de lestimateur dun EAS de mme taille.
Il est mentionn au Chapitre 6 - Plans dchantillonnage que cette mesure est souvent applique pour
comparer lefficience des estimateurs de divers plans dchantillonnage. Si le ratio est infrieur un, le
rsultat indique que le plan dchantillonnage est plus efficient que lEAS, sil est suprieur un, le plan
dchantillonnage est moins efficient que lEAS.
Dans le cas de lexemple prsent plus tt,
deff =
VarSTR (Y )
44 000
=
= 0,39
STATISTIQUE CANADA
160
tj
k
o K est lensemble des chantillons, k est le nombre dchantillons et tj est lestimation du je chantillon.
La variance dchantillonnage estime de t, Var (t ) , est le rsultat de lquation :
Var (t ) =
jK
(t j t ) 2
k (k 1)
chantillon 2
1
2
3
4
5
STATISTIQUE CANADA
ESTIMATION
161
Y =
jK k
=
32,4 + 36,4
= 34,4
2
7.4
Sommaire
La liste suivante donne un aperu des points importants considrer pour estimer les donnes dune
enqute :
1. Lestimation doit tenir compte du plan dchantillonnage. Il faudrait intgrer cette fin les poids de
base au processus destimation.
2. Les poids de base devraient tre ajusts pour les non-rponses.
3. Il faudrait utiliser, si possible, linformation auxiliaire, si elle est de qualit approprie et corrle
avec les principales variables de lenqute, pour amliorer luniformit et la prcision des estimations.
4. Il faudrait utiliser le plan dchantillonnage et la rpartition des chantillons pour rpondre aux
exigences des domaines dintrt. Si ce nest pas possible ltape de la conception du plan
dchantillonnage, il faudrait considrer des mthodes destimation spciales ltape de lestimation.
5. Les valeurs aberrantes peuvent donner une grande variabilit dchantillonnage dans les estimations.
Il faudrait considrer le reprage et le traitement des valeurs aberrantes ltape de lestimation.
6. Les estimations de lenqute devraient comprendre une estimation de leur erreur dchantillonnage,
sous forme de variance dchantillonnage, derreur-type, de coefficient de variation, de marge
derreur ou dintervalle de confiance.
STATISTIQUE CANADA
162
On propose au Chapitre 11 - Analyse des donnes de lenqute des utilisation de donnes pour fins
danalyse qui vont au-del des simples statistiques descriptives..
Bibliographie
Arora, H.R. et G.J. Brackstone. 1977. An Investigation of the Properties of Raking Ratio Estimators: I,
With Simple Random Sampling. Survey Methodology, 3(1): 62-83.
Bankier, M.D. 1978. An Estimate of the Efficiency of Raking Ratio Estimators under Simple Random
Sampling. Survey Methodology. 4(1): 115-124.
Barnett, V. et T. Lewis. 1995, Outliers in Statistical Data. John Wiley and Sons, Chichester.
Binder, D.A. 1983. On the Variance of Asymptotically Normal Estimators from Complex Surveys.
International Statistical Review, 51: 279-292.
Binder, D.A. 1996. Mthodes de linarisation pour les chantillons une et deux phases: une approche de
type recette. Techniques denqute. 22(1): 17-22.
Binder, D.A. 1998. Estimating the Variance of Raking Ratio Estimators. Canadian Journal of Statistics,
16: 47-55.
Brackstone, G. et J.N.K. Rao. 1979. An Investigation of Raking Ratio Estimators. Sankhy, Series C, 42:
97-114.
Chambers, R.L. 1986. Outlier Robust Finite Population Estimation. Journal of the American Statistical
Association, 81: 1063-1069.
Cochran, W.G. 1977. Sampling Techniques. John Wiley and Sons, New York.
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.
Deming, W.E. et F.F. Stephan. 1940. On the least squares adjustment of a sampled frequency table when
the expected marginal totals are known. Annals of Mathematical Statistics, 11: 427-444.
Deville, J.C. et C.E. Srndal. 1992. Calibration estimators in survey sampling. Journal of the American
Statistical Association, 87: 376-382.
Efron, B. 1981. The Jackknife, the Bootstrap and Other Resampling Plans. SIAM. 38. Philadelphia.
Eltinge, J.L. et I.S. Yansaneh. 1997. Mthodes diagnostiques pour la construction de cellules de
correction pour la non-rponse, avec application la non-rponse aux questions sur le revenu
dans la U.S. Consumer Expenditure Survey. Techniques denqute, 23(1): 37-45.
Estevao, V., M.A. Hidiroglou, and C.E. Srndal. 1995. Methodological Principles for a Generalized
Estimation System at Statistics Canada. Journal of Official Statistics, 11: 181-204.
Fink, A. 1995. The Survey Kit. Sage Publications, California.
STATISTIQUE CANADA
ESTIMATION
163
STATISTIQUE CANADA
164
Platek, R., J.N.K. Rao, C.E. Srndal et M.P. Singh, ds. 1987. Small Area Statistics. John Wiley and
Sons, New York.
Pollock, K.H., S.C. Turner et C.A. Brown. 1994. Techniques de saisie - resaisie pour lestimation de la
taille de la population et de totaux de population lorsquon ne dispose pas dune base de sondage
complte. Techniques denqute, 20(2): 121-128.
Rancourt, E., H. Lee et C.E. Srndal. 1993. Variance Estimation Under More than One Imputation
Method. Proceedings of the International Conference on Establishment Surveys. American
Statistical Association. 374-379.
Rao, J.N.K. et C.F.J. Wu. 1988. Resampling Inference with Complex Survey Data. Journal of the
American Staistical Association, 83: 231-241.
Rao, J.N.K. 1996. On the Estimation with Imputed Survey Data. Journal of the American Statistical
Association, 91: 499-506.
Rao, J.N.K, C.F.J. Wu et K. Yue. 1992. Quelques travaux rcents sur les mthodes de rchantillonnage
applicables aux enqutes complexes. Techniques denqute, 18(2): 209-217.
Rust, K.F. et J.N.K. Rao. 1996. Variance Estimation for Complex Surveys using Replication Techniques.
Statistical Methods in Medical Research, 5: 283-310.
Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.
Satin, A. et W. Shastry. 1993. Lchantillonnage : un guide non mathmatique Deuxime dition.
Statistique Canada. 12-602F.
Schnell, D., W.J. Kennedy, G. Sullivan, H.J. Park et W.A. Fuller. 1988. Logiciel dordinateur personnel
pour lestimation de variance dans les enqutes complexes. Techniques denqute, 14(1): 63-73.
Singh, A.C. 1996. Combining Information in Survey Sampling by Modified Regression. Proceedings of
the Section on Survey Research Methods. American Statistical Association. 120-129.
Singh, M.P., J. Gambino et H.J. Mantel. 1994. Les petites rgions: problmes et solutions. Techniques
denqute, 20(1): 3-23.
Skinner, C.K., D. Holt et T.M.F. Smith. 1989. Analysis of Complex Surveys. John Wiley and Sons,
Chichester.
Stuart, A. 1968. Basic Ideas of Scientific Sampling. Charles Griffin and Company Limited, London.
Thompson, M. 1997. Theory of Sample Surveys. Chapman and Hill, United Kingdom.
Thompson, S.K. 1992. Sampling. John Wiley and Sons, New York
Wolter, K.M. 1985. Introduction to Variance Estimation. Springer-Verlag, New York.
Yung, W. et J.N.K. Rao. 1996. Linarisation des estimateurs de variance Jackknife dans un
chantillonnage stratifi degrs multiples. Techniques denqute. 22(1): 23-31.
STATISTIQUE CANADA
165
8.1
Nous avons expliqu au Chapitre 7 - Estimation que la prcision des estimations de lenqute et la taille
de lchantillon sont lies. tant donn que la variance dchantillonnage diminue lorsque la taille de
STATISTIQUE CANADA
166
lchantillon augmente, plus les estimations doivent tre prcises, plus la taille dchantillon ncessaire
doit donc tre grande. La prcision cible des estimations de lenqute dtermine donc la taille approprie
de lchantillon. Cette prcision dune estimation, t, peut tre intitule erreur-type admissible, SE(t),
marge derreur, z SE (t ) , ou coefficient de variation SE (t ) / t . Le choix de la taille de lchantillon pour
une enqute comprend souvent la spcification de la prcision voulue laide de lune ou lautre de ces
mesures.
Le choix de la taille de lchantillon vise limiter les erreurs dchantillonnage et les non-rponses
alatoires. Il ne vise pas limiter dautres erreurs non dues lchantillonnage. Pour obtenir des rsultats
denqute exacts, il faudrait minimiser le biais d aux erreurs non dues lchantillonnage lorsque cest
possible (voir le Chapitre 5 - Conception du questionnaire et le Chapitre 3 - Introduction au plan
denqute pour obtenir davantage de dtails sur les erreurs non dues lchantillonnage).
Avant de prsenter les formules de calcul de la taille de lchantillon pour un degr donn de prcision,
nous considrerons dans ce chapitre comment dterminer le degr de prcision appropri et les facteurs
ayant des rpercussions sur la prcision.
8.1.1
Lorganisme statistique devrait considrer plusieurs questions pertinentes avant de dterminer le degr
appropri de prcision pour les estimations de lenqute dun client. Lorganisme et le client devraient
examiner ce qui est demand des estimations de lenqute du point de vue des totalisations des donnes,
des analyses et des dcisions qui seront prises, compte tenu des estimations de lenqute.
i.
quoi serviront les estimations de lenqute? Quelle variance dchantillonnage est acceptable
dans les estimations de lenqute?
Quel degr dincertitude le client peut-il tolrer dans les estimations de lenqute? Une marge derreur de
6 % et un niveau de confiance de 95 % sont-ils convenables pour les objectifs du client, ou des
estimations plus (ou moins) prcises sont-elles ncessaires pour atteindre les objectifs de lenqute?
Si les rsultats de lenqute servent prendre des dcisions importantes qui auront de grandes
rpercussions ou qui comprennent un risque marqu, le client peut exiger des estimations denqute plus
prcises que sil veut simplement obtenir une estimation approximative dune caractristique dintrt.
ii.
Les rsultats de lenqute peuvent comprendre des estimations pour de nombreux sous-groupes ou
domaines. Aprs avoir obtenu des estimations denqute lchelon national, par exemple, des
estimations provinciales ou sous-provinciales peuvent tre ncessaires, ou le client peut avoir besoin
destimations pour dautres sous-groupes importants dans la population de lenqute, selon le sexe, lge,
la scolarit, etc. Il faudrait dterminer le degr de prcision appropri pour rpondre ces besoins de
donnes. Un degr diffrent de prcision peut tre dtermin pour divers domaines. Dans une enqute
nationale par exemple, le commanditaire de lenqute peut demander une marge derreur de 3 % pour
toutes les estimations nationales, mais une marge derreur de 5 % pour les estimations provinciales peut
le satisfaire, ainsi quune marge derreur de 10 % pour les estimations sous-provinciales. Des strates
sont habituellement formes pour chaque domaine dintrt dans ce cas.
STATISTIQUE CANADA
iii.
167
Il faudrait dterminer les besoins de prcision aprs avoir considr la taille de lestimation. Disons par
exemple qu la suite dune nouvelle politique, les bureaux du gouvernement fdral doivent offrir un
service dans la langue officielle dune minorit si au moins P=0,05 (ou 5 %) des demandes sont
prsentes dans cette langue. Supposons que divers bureaux du gouvernement dcident de procder une
enqute auprs de leur clientle pour estimer la demande de services dans la langue officielle dune
minorit. premire vue, une marge derreur de 0,05 semble leve si une estimation de lenqute doit
se situer 0,05 environ. Il faudrait dterminer dans ce cas une plus petite marge derreur, peut-tre 0,01
ou 0,02 au plus (c.--d. que lintervalle de confiance devrait tre de 0,05 0,01 ou 0,05 0,02).
Le client devrait en fait considrer la taille de la plus petite estimation ncessaire pour dterminer les
besoins de prcision. Supposons que lenqute sert estimer des proportions. Certaines de ces proportions
pourraient tre P = 0,50 ou plus, mais dautres pourraient tre aussi minimes que P = 0,50 ou P = 0,10. Si
la plus petite proportion estimer doit tre P = 0,05 et si cette proportion est importante pour les objectifs
de lenqute, lorganisme statistique (et le client) voudront obtenir une marge derreur de moins de 0,05.
iv.
Quelles sont les rpercussions pratiques du besoin de prcision? Quel degr de prcision est
obtenu si lon augmente la taille de lchantillon?
Plus la taille de lchantillon augmente, plus le degr de prcision est lev. Le gain en prcision nest
cependant pas directement proportionnel laugmentation de la taille de lchantillon. Considrons une
variable qualitative qui a deux modalits possibles, A et B (p. ex., hommes et femmes) et le client est
intress estimer la proportion de la population dans la catgorie A.
Le tableau 1 illustre la marge derreur obtenue dans la proportion estime dun chantillon alatoire
simple (EAS) pour diverses tailles dchantillon et un taux de confiance de 95 %. La proportion relle de
la population de la catgorie A est P=0,5 (ou 50 %) et la taille de la population est N=100 000. (Consultez
la Section 8.1.3 pour obtenir la formule de calcul de la variance dchantillonnage dune proportion
estime.)
Tableau 1 : Taille dchantillonnage et marge derreur dune estimation de P, laide dun EAS,
lorsque P=0,5
Taille de lchantillon
50
100
500
1 000
Marge derreur
0,139
0,098
0,044
0,031
Le tableau ci-dessus montre que la taille de lchantillon double pour passer de 50 100 et la marge
derreur de lestimation de la proportion samliore pour passer de 0,14 0,10. La marge derreur na
cependant pas diminu de moiti pour stablir 0,07, comme on pourrait sy attendre. Doubler la taille
de lchantillon pour quelle passe de 500 1 000 ne diminue pas non plus la marge derreur de moiti.
Malgr limpression de la plupart des gens, il ny a pas de lien linaire entre la taille de lchantillon et la
marge derreur.
STATISTIQUE CANADA
168
Cet exemple fait valoir que lorganisme statistique et le client doivent dcider sil vaut la peine de faire
les efforts et dinvestir les ressources ncessaires pour interviewer 1 000 personnes au lieu de 500, afin
damliorer la prcision dune marge derreur de 0,045 0,032.
La meilleure solution nest peut-tre pas toujours de choisir la plus grande taille dchantillon possible
donnant la plus petite marge derreur. Il est parfois possible dobtenir des rsultats suffisamment prcis en
acceptant une marge derreur plus large et en utilisant des ressources avec plus defficience. Choisir un
chantillon de plus petite taille pour rserver de largent dautres facteurs qui ont des rpercussions sur
lexactitude des rsultats de lenqute, par exemple, pour rduire lerreur non due lchantillonnage,
peut tre plus efficace (p. ex., faire le suivi auprs des non-rpondants, faire lessai du questionnaire,
former les intervieweurs, etc.).
8.1.2
Nous avons prsent au Chapitre 3 - Introduction au plan denqute et au Chapitre 7 - Estimation les
divers facteurs ayant des effets sur la prcision. Cette section illustre les rpercussions de ces facteurs et
prsente des considrations lorsquil faut dterminer la taille de lchantillon pour un degr de prcision
en particulier.
8.1.2.1 Variabilit de la population
La caractristique, ou variable dintrt, est typiquement diffrente dune personne, dun mnage, dune
entreprise, dune exploitation agricole, etc., lautre dans la population de lenqute. Cette variabilit ne
peut tre contrle, mais son ampleur a des rpercussions sur la taille de lchantillon ncessaire pour
obtenir un degr de prcision en particulier pour une caractristique dintrt.
Considrez le Tableau 2 ci-dessous. Supposons quune nouvelle enqute vise estimer la proportion de
clients satisfaits des services dune certaine entreprise et quil y a seulement deux valeurs possibles pour
la variable satisfaction de la clientle : satisfait ou insatisfait. Certaines valeurs possibles servant
dterminer la proportion relle de clients satisfaits et insatisfaits sont numres ci-dessous :
Tableau 2 : Rpartition possible de la satisfaction de la clientle pour la population relle
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
100 % Satisfaits
90 % Satisfaits
80 % Satisfaits
70 % Satisfaits
60 % Satisfaits
50 % Satisfaits
40 % Satisfaits
30 % Satisfaits
20 % Satisfaits
10 % Satisfaits
0 % Satisfait
0 % Insatisfait
10 % Insatisfaits
20 % Insatisfaits
30 % Insatisfaits
40 % Insatisfaits
50 % Insatisfaits
60 % Insatisfaits
70 % Insatisfaits
80 % Insatisfaits
90 % Insatisfaits
100 % Insatisfaits
169
STATISTIQUE CANADA
170
Tableau 3 : Taille de lchantillon ncessaire pour estimer P avec une marge derreur de 0,05 et un
taux de confiance de 95 %, laide dun EAS, lorsque P=0,5
Taille de la population
50
100
500
1 000
5 000
10 000
100 000
1 000 000
10 000 000
Graphique 1 : Taille de lchantillon ncessaire pour estimer P avec une marge derreur de 0,05 et
un niveau de confiance de 95 %, laide dun EAS, lorsque P=0,5
400
350
300
250
Taille de
200
l'chantillon, n
150
100
50
0
0
1 000
2 000
3 000
4 000
5 000
Taille de la population, N
On constate, pour obtenir le degr de prcision demand, que la taille de lchantillon augmente un taux
qui diminue mesure quaugmente la taille de la population. Lorganisme statistique a besoin dune taille
dchantillon de 44 questionnaires remplis pour une population de 50, mais il na pas besoin de doubler la
taille de lchantillon 88 si la population de lenqute double. La taille de lchantillon ncessaire
approche rapidement n=400 pour des populations denqute de N=5 000 et plus. Pour un EAS,
400 questionnaires remplis seraient donc suffisants pour rpondre aux besoins dune prcision donne
pour des populations de plus de 5 000 lorsque la proportion de la population relle est P=0,5.
Une proportion substantielle de la population doit souvent faire lobjet dune enqute pour obtenir la
prcision voulue si la population est trs petite. Voil pourquoi, en pratique, on fait souvent le
recensement des petites populations.
STATISTIQUE CANADA
171
Sil veut atteindre la prcision voulue pour les estimations de lenqute, lorganisme statistique doit
ajuster la taille de lchantillon pour le taux de rponse prvu. Il slectionne cette fin un large
chantillon, compte tenu dun taux de rponse prvu et estim partir denqutes semblables ou dune
enqute pilote dans la mme population.
Si la taille de lchantillon initial calcule est de 400, par exemple, et si un taux de rponse de 75 % est
prvu, lorganisme statistique devrait alors slectionner lchantillon suivant :
n=
400
= 533.
0,75
Lorsque lorganisme statistique et le client ont choisi un certain taux de rponse voulu, lorganisme doit
faire tous les efforts possibles pour obtenir au moins ce taux de rponse. Sil nobtient pas le taux de
rponse prvu, il y aura des rpercussions sur la prcision des rsultats de lenqute. Un taux de rponse
STATISTIQUE CANADA
172
infrieur donnera une taille dchantillon plus petite que celle qui est ncessaire pour atteindre la
prcision voulue et, dautre part, un taux de rponse suprieur aura leffet contraire.
Cet ajustement est appliqu en supposant que les units manquantes sont alatoires, c.--d. que les nonrpondants ont des caractristiques semblables celles des rpondants. Simplement augmenter la taille de
lchantillon est insuffisant pour ragir correctement une non-rponse totale. Un biais ventuel est
toujours possible si les non-rpondants sont diffrents des rpondants du point de vue des caractristiques
dintrt de lenqute. (Voir le Chapitre 7 - Estimation et le Chapitre 10 - Traitement pour dterminer
comment traiter le biais d la non-rponse.)
8.1.3
Les formules suivantes peuvent servir calculer la taille de lchantillon ncessaire pour obtenir un degr
donn de prcision pour une moyenne ou proportion estime.
i.
Prcision dune moyenne estime, Y , pour un chantillon alatoire simple (taux de rponse de
100 %)
La marge derreur et la formule applique lerreur-type dune estimation pour un EAS servent souvent
dterminer la taille de lchantillon. Voici lquation pour une erreur-type estime dune moyenne
estime, Y , dun EAS sans remise :
n S
(1)
SE (Y ) = 1
N n
o S est la racine carre de lestimation de la variance de la population de yi (voir aussi le Chapitre 7 Estimation).
Notons e la marge derreur ncessaire :
n S
e = z 1
N n
(2)
z 2 S 2
z 2 S 2
e +
N
(3)
STATISTIQUE CANADA
173
ncessaire laide dun coefficient donn de variation. Ce point est considr la Section 8.2.1.2 pour un
total estim dun EAS stratifi.)
ii.
Prcision dune proportion estime, P , pour un chantillon alatoire simple (taux de rponse de
100 %)
La prcision ncessaire sera dtermine dans ce cas selon la marge derreur et la caractristique dintrt
sera la proportion de la population, P, qui fait partie de lune des deux catgories. Nous savons que la
proportion estime, P , pour les grandes populations, est approximativement distribue normalement et la
variabilit de la caractristique binaire, yi, de la population peut tre estime comme suit :
S 2 = P (1 P )
Lquation (3) devient donc :
n=
z 2 P (1 P )
z 2 P (1 P )
e2 +
N
Si une bonne estimation de la proportion, P , est disponible avant lenqute, il faudrait lutiliser dans
lquation ci-dessus. Autrement, sil ny a pas de donnes sur la population, P = 0,5 peut-tre utilise, le
rsultat tant la taille dchantillon maximale, tant donn les autres suppositions.
Noues expliquerons dans la section suivante quil faut faire une estimation de leffet de plan si le plan
nest pas un EAS et une estimation du taux de rponse, r, est ncessaire si le taux de rponse lenqute
est infrieur 100 %.
iii.
Approche tape par tape pour dterminer la taille de lchantillon, compte tenu de la prcision
dune proportion estime, P , pour tout plan dchantillonnage (lorsque le taux de rponse est
<100 %)
Une approche tape par tape est applique dans les exemples suivants pour calculer la taille de
lchantillon. Une taille dchantillon initiale est dabord calcule et elle est ensuite ajuste, compte tenu
de la taille de la population, de leffet du plan dchantillonnage et du taux de rponse.
1. Taille de lchantillon initial
Remarquez lutilisation dans lquation (1) du facteur de correction dchantillonnage pour population
finie (1 n / N ), afin dapporter une correction, compte tenu de la taille de la population. Si ce facteur est
omis, une estimation prliminaire de la taille de lchantillon, n1, peut tre obtenue simplement comme
suit :
z 2 P (1 P )
n1 =
e2
On remarquera la formule pour n1 est aussi valable si e et P sont exprimes en pourcentage, et non en
proportions.
2. Ajustement pour la taille de la population laide de lquation suivante (le rsultat aura des
rpercussions seulement pour les populations de petite taille ou de taille moyenne) :
STATISTIQUE CANADA
174
n 2 = n1
N
N + n1
3. Si le plan dchantillonnage nest pas un chantillon alatoire simple, la formule suivante peut servir
ajuster la taille de lchantillon pour leffet du plan dchantillonnage :
n3 = Deff n 2
o deff est leffet du plan dchantillonnage et, habituellement :
deff = 1 pour les plans dchantillonnage alatoires simples,
deff < 1 pour les plans dchantillonnage stratifis,
deff > 1 pour les plans dchantillonnage par grappes ou plusieurs degrs.
4. En bout de ligne, ajustement pour le taux de rponse, afin de dterminer la taille finale de
lchantillon, n :
n
n= 3
r
o r est le taux de rponse prvu.
8.1.3.1 Exemples de choix de taille de lchantillon
Les exemples suivants illustrent lapproche tape par tape du calcul de la taille de lchantillon.
Exemple 8.1 : EAS
Lditeur dune revue veut obtenir une estimation de la satisfaction des lecteurs en gnral. Il serait
possible de communiquer avec les 2 500 abonns laide dun questionnaire envoy par la poste, mais
lditeur a dcid dinterviewer un chantillon alatoire simple par tlphone cause des contraintes de
temps. Combien de lecteurs faudrait-il interviewer?
Voici certaines hypothses:
- lditeur sera satisfait si la proportion de la population relle est 0,10 de la proportion de la
population estime, compte tenu des rsultats de lchantillon, c.--d. que la marge derreur
ncessaire, e= 0,10 ;
- lditeur veut obtenir un niveau de confiance de 95 % dans les estimations de lenqute (c.--d. quil y
aurait seulement une chance sur 20 dobtenir un chantillon qui donne une estimation hors de
ltendue P 0,10 , donc z = 1,96);
- un EAS sera utilis;
- un taux de rponse de 65 % environ est prvu, c.--d. que r=0,65;
- tant donn quil ny a pas destimation de P disponible, le degr de satisfaction de la clientle est
donc suppos tre P = 0,5 .
Voici le calcul de la taille de lchantillon ncessaire :
1. Calcul de la taille de lchantillon initial, n1 :
STATISTIQUE CANADA
175
z 2 P (1 P )
e2
(1,96) 2 (0,50)(0,50)
=
= 96
(0,10) 2
n1 =
n2 = n1
= 96
2500
= 92
(2500 + 96)
n=
Remarque : Si un taux de rponse dau moins 65 % nest pas ralis pendant lenqute, la taille de
lchantillon final sera plus petite que prvu et les estimations de lenqute pourraient donc tre moins
prcises que lexige la planification. Si un taux de rponse plus lev est obtenu, lchantillon sera plus
large que prvu et les estimations de lenqute pourraient tre plus prcises.
Aprs ces tapes, lditeur devrait tirer un EAS de 142 des 2 500 abonns pour estimer le niveau de
satisfaction des lecteurs de la revue avec une marge derreur de 0,10 et un niveau de confiance de 95 %,
compte tenu dun taux de rponse prvu de 65 %.
Exemple 8.2 : EAS stratifi
Une enqute dopinion publique est prvue pour dterminer la proportion de la population en faveur de
lamnagement dun nouveau parc provincial. La population comprend tous les adultes dans deux villes et
en milieu rural. Un chantillon alatoire simple des adultes dans chaque ville et un autre pour le milieu
rural seront slectionns. Il faut dterminer la taille de lchantillon ncessaire dans chaque strate.
La taille de la population est de 657 500 et la rpartition est la suivante :
STATISTIQUE CANADA
176
Strate
Ville 1
Ville 2
Milieu rural
Total
Population (Nh)
400 000
250 000
7 500
657 500
Les besoins de donnes particuliers de lenqute dterminent la taille de lchantillon ncessaire. Les
deux options suivantes peuvent tre considres.
Option 1 : Marge derreur pour les estimations de la population dans lensemble
Supposons que des estimations prcises pour chaque strate ne sont pas ncessaires. Une estimation avec
marge derreur de 0,05 et un niveau de confiance de 95 % pour le secteur dans lensemble sont
suffisants. Une estimation prliminaire de la proportion nest pas disponible et nous supposons que
P = 0,5 . Un taux de rponse de 50 % est prvu.
1. Calcul de la taille de lchantillon initial, n1 :
z 2 P (1 P )
e2
(1,96) 2 (0,50)(0,50)
=
= 384
(0,05) 2
n1 =
N
N + n1
= 384
657 500
= 384
657 500 + 384
n3 = Deff n 2
= n2 = 384
Habituellement, deff < 1 pour un chantillonnage alatoire stratifi. Dans le prsent exemple, il ny a pas
destimation disponible de deff et, si on pose que deff = 1, le rsultat devrait vous donner une estimation
plus raisonnable de la taille de lchantillon (c.--d. plus large).
4. Ajustement pour le taux de rponse, afin de dterminer la taille de lchantillon final, n :
STATISTIQUE CANADA
177
n3
r
384
=
= 768
0,50
n=
La taille de lchantillon ncessaire est 768. On verra la Section 8.2 comment rpartir ces 768 units
chantillonnes sur trois strates.
Option 2 : Marge derreur pour chaque estimation de strate
Supposons que le client demande des rsultats ayant une marge derreur de "0,05 et un taux de confiance
de 95 % pour chaque strate. Il faut maintenant calculer la taille de lchantillon individuel pour chaque
strate (c.--d. que chaque strate est traite comme une population en soi).
Remarquez que les Villes 1 et 2 ont de larges populations et que la taille de leur population ne devrait pas
avoir de rpercussion sur la taille de lchantillon. Compte tenu des hypothses ci-dessus, la taille de
lchantillon de chacune de ces deux strates est donc 768. La population plus petite du milieu rural devrait
cependant avoir des rpercussions sur la taille de lchantillon.
Milieu rural :
n1 =
z 2 P (1 P ) (1,96) 2 (0,50)(0,50)
=
= 384
e2
(0,05) 2
n2 = n1
7 500
N
= 366
= 384
N + n1
7 500 + 384
n3 = 366
n=
n3 366
=
= 732
r
0,50
La taille totale de lchantillon est donc 768 (Ville 1) + 768 (Ville 2) + 732 (milieu rural) = 2 268.
En comparant les options 1 et 2, la taille de lchantillon total de 2 268 pour loption 2 est prs de trois
fois plus grande que la taille de lchantillon de 768 pour loption 1. Autrement dit, si une seule
estimation pour la population totale des trois strates est ncessaire, la taille de lchantillon ncessaire est
infrieure celle quil faudra dterminer si des estimations prcises par strate sont demandes parce quil
faudrait alors tablir des tailles dchantillon suffisantes dans chaque strate.
Cet exemple illustre clairement limportance de lexamen des besoins de prcision pour chaque domaine
distinct. Si de nombreux domaines sont ncessaires, les rpercussions sur la taille de lchantillon total
peuvent tre importantes et donner ventuellement une taille dchantillonnage suprieure au budget et
aux ressources oprationnelles du client. En gnral, plus on demande destimations de domaines, plus la
taille de lchantillon doit tre grande. Il faut donc ventuellement en venir des compromis pour obtenir
des niveaux derreur acceptables. On peut choisir daugmenter les niveaux tolrables derreur dans
chaque strate, ou combiner deux domaines ou plus. Ceci sera repris la Section 8.2.2.2.
STATISTIQUE CANADA
178
8.1.4
Nous avons considr un seul aspect de la taille de lchantillon jusqu maintenant, cest--dire la taille
de lchantillon ncessaire, afin dobtenir un degr de prcision en particulier pour les estimations de
lenqute les plus importantes. En pratique, le temps, les cots et dautres restrictions oprationnelles sont
aussi au premier plan.
Dans de nombreux sondages, les fonds sont attribus et les dlais sont dtermins avant mme que les
dcisions soient prises sur les particularits de lenqute. La taille de lchantillon ncessaire pour
procder au sondage peut se rvler plus grande que lchantillon quil est possible dobtenir, compte tenu
des fonds disponibles. Sil est impossible dobtenir dautres fonds, il faudra peut-tre rduire la taille de
lchantillon et diminuer ainsi la prcision des estimations. On pourrait aussi renoncer aux estimations de
certains domaines. La question se pose aussi pour les considrations de temps. Si le temps attribu est
insuffisant, il faudra peut-tre limiter la taille et lenvergure de lenqute pour respecter les dlais.
Les contraintes oprationnelles quimpose la mthode de collecte des donnes choisie, la disponibilit du
personnel sur place, la disponibilit du personnel de codage et de vrification et les installations de
traitement ont aussi des rpercussions sur la taille de lchantillon. Il peut sagir en fait des points les plus
importants pour dterminer la taille de lchantillon. Nous avons considr au Chapitre 4 - Mthodes de
collecte des donnes, par exemple, que les interviews sur place permettent dobtenir de linformation
plus complexe et des taux de rponse plus levs, mais elles cotent cher. Il nest donc pas toujours
pratique de les appliquer de gros chantillons.
8.2
Pour dterminer lefficience de lchantillonnage stratifi, il est important de considrer comment la taille
totale de lchantillon, n, est rpartie dans chaque strate. Nous avons expliqu au Chapitre 6 - Plans
dchantillonnage que, dans un plan dchantillonnage stratifi, le nombre total dunits de la
population, c.--d. N, est divis en L strates sans chevauchement de taille N1, N2, , NL, respectivement.
La taille de la population est donc gale la somme, pour toutes les strates, du nombre dunits dans la
population : N = N1 + N2 + + NL. Un chantillon est tir indpendamment de chaque strate. La taille de
lchantillon dans chaque strate est nh (h = 1, 2, , L), o n = n1 + n2 + + nL.
La rpartition de lchantillon, n, en L strates est possible en appliquant lun ou lautre des critres
suivants. La taille totale de lchantillon peut tre dtermine laide des mthodes dcrites auparavant
dans ce chapitre et rpartie ensuite entre les strates (ou taille de lchantillon fixe). On peut aussi
dterminer la taille de lchantillon ncessaire dans chaque strate pour obtenir la prcision voulue et faire
la somme, afin dobtenir la taille de lchantillon total (ou coefficient de variation fixe, si la prcision
voulue est exprime en coefficient de variation).
8.2.1
Critres de rpartition
Cette section dcrit en dtail la diffrence entre les rpartitions selon une taille dchantillon fixe et un
coefficient de variation fixe.
STATISTIQUE CANADA
179
Une taille dchantillon fixe n est attribue aux strates dune faon particulire dans ce cas. La proportion
de lchantillon attribue la he strate est ah = nh / n, o chaque ah se situe entre 0 and et 1 inclusivement
L
Dans chaque strate h, la taille de lchantillon nh est donc gale au rsultat de la taille de lchantillon
total n et de la proportion ah de lchantillon tir de cette strate en particulier :
nh = n a h
(4)
Si la strate a une proportion ah = , par exemple, la moiti de lchantillon complet est donc attribu
cette strate.
Compte tenu de ce critre de rpartition, la taille de lchantillon n dans lensemble tant connue, la taille
de lchantillon nh pour chaque strate peut tre calcule ds que la valeur ah est dtermine pour chaque
strate. Il y a de nombreuses faons de dterminer ah : lune delle consiste dterminer les valeurs de ah
qui minimisent la variance dchantillonnage des caractristiques dintrt. La Section 8.2.2. explique
comment dterminer la valeur de ah.
8.2.1.2 Coefficient de variation fixe
n=
2
h
S h2 a h
h =1
CV 2Y 2 + N h S h2
h =1
o :
Nh est la taille de la strate,
S h2 est la variabilit des units, yi, de la strate h de la population,
ah est la proportion de lchantillon attribue la strate,
1
Consulter la Section 7.3.2.4 pour obtenir de linformation sur la variance dchantillonnage dun total estim pour
un chantillon stratifi. Lquation ci-dessus peut tre obtenue en tablissant que CV (Y ) = Var (Y ) / Y o
Var (Y ) = N 2Var (Y ) et N = N h .
h
STATISTIQUE CANADA
180
S h2 =
(y
hi
yh )
i =1
nh 1
yh =
hi
i =1
nh
(Remarque : Si yhi est une variable binaire, la moyenne de la strate est une proportion, c.--d. que y h = Ph ,
2
et S = P (1 P ) ).
h
nh = a h
2
h
S h2 a h
h =1
CV Y 2 + N h S h2
2
(5)
h =1
Aprs avoir dtermin la valeur de ah pour chaque strate, on peut calculer chaque taille dchantillon nh.
Noubliez pas : nous avons expliqu auparavant dans ce chapitre comment dterminer la taille de
lchantillon et, pour trouver nh, il faut tablir la prcision ncessaire (sous forme de coefficient de
variation dans ce cas), la variabilit estime de la population, S h2 , et la taille de la population, Nh. Il
faudrait aussi apporter un ajustement pour les non-rponses la taille dchantillon nh finale.
Lapproche du coefficient de variation fixe pour rpartir lchantillon est plus complique que lapproche
de la taille de lchantillon fixe et seulement cette dernire sera utilise pour illustrer la rpartition de
lchantillon.
8.2.2
Les quations (4) et (5) sont les outils lmentaires de rpartition de lchantillon stratifi. Chaque
quation peut tre applique ds que les valeurs ont t dtermines pour chaque ah. Le choix dune ah
pour chaque strate peut tre class en deux genres de mthodes : rpartition proportionnelle ou non
proportionnelle. Ces mthodes dpendent de certaines quantits : la taille de la population de la strate, une
autre mesure de la taille de la strate, la variabilit de la population de la strate ou le cot de lenqute dans
la strate.
STATISTIQUE CANADA
181
nh =
Nh
n
N
Dans loption 1 de lexemple 8.2, le calcul de la taille de lchantillon n donne 768 personnes. La
rpartition proportionnelle N pour une taille dchantillon fixe est utilise, afin de dterminer comment
rpartir 768 personnes en trois strates.
1. Calcul de la valeur du facteur de rpartition ah pour chaque strate laide de la rpartition
proportionnelle N.
Ville 1 :
N
a1 = 1
N
400 000
=
657 500
= 0,6084
Ville 2 :
N
a2 = 2
N
250 000
=
657 500
= 0,3802
STATISTIQUE CANADA
Milieu rural :
N
a3 = 3
N
7 500
=
657 500
= 0,0114
182
Ville 1 :
n1 = na1
Ville 2 :
n2 = na 2
Milieu rural :
n3 = na 3
= 768 0,6084
= 768 0,3802
= 768 0,0114
= 467
= 292
=9
On constate que la majorit de lchantillon est rparti entre les strates plus larges, Ville 1 et Ville 2 o
467 et 292 personnes sont chantillonnes respectivement. La plus petite strate, le milieu rural, obtient
une plus petite portion de lchantillon complet, soit un chantillon de neuf personnes seulement. Les
rsultats sont rsums au tableau suivant.
Tableau 5 : Rpartition proportionnelle N
H
1
2
3
Strate
Ville 1
Ville 2
Milieu rural
Total
Population (Nh)
400 000
250 000
7 500
657 500
ah
0,6084
0,3802
0,0114
1
nh
467
292
9
768
fh =nh/Nh
0,0012
0,0012
0,0012
0,0012
Les taux de sondage de la rpartition non proportionnelle sont diffrents dune strate lautre. Les
mthodes de rpartition non proportionnelles suivantes seront prsentes et expliques : rpartition
proportionnelle Y, rpartition proportionnelle la N , rpartition proportionnelle la Y , rpartition
optimale, rpartition de Neyman et rpartition optimale lorsque les variances sont gales. La terminologie
peut semer la confusion parce que certaines mthodes de rpartition non proportionnelles sont intitules
mthodes de rpartition proportionnelle (p. ex., rpartition proportionnelle Y). Il ne rappeler que la
mthode de rpartition est considre non proportionnelle ds que le taux de sondage est diffrent entre au
moins deux strates.
8.2.2.2.1
Rpartition proportionnelle Y
tant donn une variable denqute, yhi, vue comme une mesure de la taille pour la ie unit de la he strate,
les tailles de lchantillon, nh, peuvent tre calcules comme proportions de Yh, une mesure agrge de la
taille de la strate h. Ce genre de rpartition est intitule rpartition proportionnelle Y. Dans ce cas,
ah = Yh / Y. Cela signifie que le facteur de rpartition ah pour chaque strate est quivalent au ratio de la
mesure de la taille de la strate la mesure de la taille de la population entire.
La rpartition proportionnelle Y est une mthode trs populaire pour les enqutes sur les entreprises o
lon trouve souvent que la distribution des yhi est asymtrique (c.--d. quelle a des valeurs extrmes une
STATISTIQUE CANADA
183
queue de la distribution). Des exemples typiques sont lemploi dans les industries de fabrication et les
ventes dans les industries de dtail. Dans chaque cas, un petit nombre dentreprises peuvent reprsenter un
pourcentage lev du total de lemploi ou du total des ventes. Dautre part, les autres entreprises en plus
grand nombre peuvent reprsenter seulement une petite fraction de lemploi total ou du total des ventes.
Dans les enqutes sur les entreprises, les strates sont habituellement tablies selon la mesure de la taille
disponible (p. ex., le nombre demploys, le revenu brut de lentreprise, les ventes nettes). La mesure de
la taille peut servir, notamment, crer trois strates pour les petites, moyennes et grandes entreprises. La
strate qui comprend le plus grand nombre dunits est souvent plus variable que dautres. Dans un cas
extrme, la rpartition proportionnelle Y se traduit par lchantillonnage avec certitude des plus
importantes units dune population asymtrique.
La rpartition proportionnelle Y donne une meilleure prcision que la rpartition proportionnelle N
pour les estimations denqute qui sont plus fortement corrles avec Yh quavec la taille de la strate, Nh.
8.2.2.2.2
Rpartition proportionnelle
Toutes les mthodes de rpartition prsentes jusqu maintenant ciblent uniquement la prcision de
lestimation globale Y . Le client peut cependant tre intress obtenir aussi une bonne prcision pour
les estimations de la strate, Yh . Si les strates sont des provinces, par exemple, les estimations provinciales
sont probablement aussi importantes que les estimations nationales. La rpartition par strate laide de la
rpartition proportionnelle la N peut amliorer la prcision des estimations de la strate. Le paramtre
de rpartition ah est alors calcul ainsi :
Nh
ah = L
Nh
h =1
Autrement dit, le paramtre de rpartition ah est gal au ratio de la racine carre de la taille de la
population de la strate la somme de la racine carre de la taille de la population de toutes les strates.
La rpartition proportionnelle N nest pas aussi efficace que dautres mthodes de rpartition quant
la prcision maximale dans lensemble. Elle peut cependant donner de meilleures estimations au niveau
de la strate. Elle est souvent utilise comme compromis entre la rpartition optimale (voir 8.2.2.2.4) et la
rpartition pour rpondre toutes les contraintes des domaines (o les domaines sont dfinis comme des
strates). La rpartition optimale pour les estimations nationales, par exemple, peut donner de grandes
variances dchantillonnage pour des domaines dintrt plus petits (p. ex., provinces) et la rpartition de
lchantillon total pour rpondre aux contraintes des domaines (comme dans loption 2 de lexemple 8.2)
peut donner une rpartition inefficiente de lchantillon total. La rpartition proportionnelle la N est
un compromis entre la rpartition dans lensemble et au niveau des domaines.
Lexemple suivant illustre lapplication de la rpartition proportionnelle la
dchantillon fixe, n.
STATISTIQUE CANADA
184
Dans lexemple prcdent, un chantillon fixe de 768 personnes a t rparti en trois strates laide de la
rpartition proportionnelle N. La rpartition par strate ci-dessous est faite laide de la mthode de la
rpartition proportionnelle la N .
1. Calcul de la valeur du facteur de rpartition ah pour chaque strate laide de la rpartition
proportionnelle la N .
Ville 1 :
a1 =
Ville 2 :
N1
a2 =
Nh
h =1
Milieu rural :
N3
a3 = 3
Nh
N2
3
Nh
h =1
632,46
1 219,06
= 0,5188
h =1
500
1 219,06
= 0,4102
86,60
1 219,06
= 0,0710
Ville 2 :
n 2 = na 2
Milieu rural :
n3 = na 3
= 768 0,5188
= 768 0,4102
= 768 0,0710
= 398
= 315
= 55
Strate
1
2
3
Ville 1
Ville 2
Milieu
rural
8.2 Total
Rpartition proportionnelle la N
ah
nh
fh
N
Population (Nh)
Ah
nh
fh
400 000
250 000
7 500
0,6084
0,3802
0,0114
467
292
9
0,0012
0,0012
0,0012
657 500
768
0,0012 1 219,06
632,46
500
86,60
0,5188
0,4102
0,0710
398
315
55
0,0010
0,0013
0,0073
768
0,0012
La rpartition proportionnelle la N donne une taille dchantillon plus petite pour la Ville 1 que la
rpartition proportionnelle N. Dautre part, elle donne un chantillon plus grand pour la Ville 2 et le
Milieu rural. La prcision de lestimation pour la Ville 2 et le Milieu rural est donc meilleure avec la
rpartition proportionnelle la N quavec la rpartition proportionnelle N parce que la taille de
lchantillon est plus grand. (Il serait difficile dobtenir une bonne estimation du milieu rural partir de
neuf units seulement.) La diminution de la taille de lchantillon de la Ville 1 aura de lgres
rpercussions sur la prcision de lestimation. Laugmentation de la taille de lchantillon de la Ville 2
STATISTIQUE CANADA
185
aura simplement une rpercussion lgrement positive sur la prcision des rsultats. Laugmentation de la
taille dchantillon du Milieu rural amliore cependant beaucoup la prcision des estimations. La
prcision la hausse en Milieu rural surpasse la perte de prcision dans la Ville 1.
8.2.2.2.3
Rpartition proportionnelle
Un autre moyen de garantir que lestimation dans lensemble et les estimations de la strate sont
raisonnablement fiables est le recours la rpartition proportionnelle la Y , o yhi est une mesure de la
taille. Il sagit dune autre mesure plus prcise que la rpartition proportionnelle la N pour les
estimations de lenqute corrles davantage avec la variable de la taille, Yh, quavec la taille de la strate,
Nh. Voici le paramtre de rpartition ah :
Yh
ah = L
Yh
h=1
Cela signifie que le paramtre de rpartition ah est gal au rapport entre la racine carre de la mesure de la
taille de la strate et la somme de la racine carre de la mesure de la taille de toutes les strates.
Tout comme dans le cas de la rpartition proportionnelle la N , le recours la rpartition
proportionnelle la Y pour calculer les valeurs de ah (et ultrieurement les valeurs de nh) nest pas
aussi efficient que lapplication dautres mthodes de rpartition quant la prcision dans lensemble.
Cette rpartition donne cependant des estimations plus prcises lchelon de la strate.
Les rpartitions proportionnelles la N et la Y sont parfois intitules rpartitions par puissance o
lattribution dune puissance Y, par exemple, est dfinie plus gnralement comme suit :
ah =
Yh
h =1
o p est habituellement une fraction (p. ex., ). On trouvera dans Bankier (1988) davantage de dtails sur
les rpartitions par puissance.
8.2.2.2.4
Rpartition optimale
Lorsque le cot de linterview par unit est diffrent dune strate lautre et que les variances de la
population, Sh2, varient normment, une mthode de rpartition non proportionne intitule rpartition
optimale peut tre considre. Cest la seule mthode de rpartition prsente ici qui tient compte des
cots.
Afin dutiliser la rpartition optimale, lorganisme statistique a besoin dune fonction pour modliser le
cot. La plus simple fonction du cot total est exprime comme suit :
L
Cot = C = c o + c h n h
h =1
STATISTIQUE CANADA
186
o ch est le cot par unit de sondage dans la strate h (h = 1, 2, , L) et c0 est un cot gnral fixe. Cette
fonction cot est meilleure lorsque le principal article du cot est celui de linterview ou de la mesure de
chaque unit.
Le paramtre de rpartition ah utilis pour la rpartition optimale est calcul comme suit :
ah =
Nh Sh
ch
Sh
ch
h =1
La rpartition optimale minimise la variance de lestimation pour un cot donn et, de mme, elle
minimise le cot de lchantillon total pour une variance globale en particulier. Afin datteindre ce but,
lchantillonnage est augment dans les strates qui ont de grandes variances ou tailles de population et il
est diminu dans les strates dont les interviews cotent cher. Rgle gnrale pour la rpartition optimale,
un grand chantillon est slectionn dans une strate donne si :
- la strate est plus nombreuse,
- la strate tmoigne dune plus grande variabilit interne,
- le droulement de lenqute cote moins cher dans la strate.
Il faut obtenir de linformation prcise sur les variances par strate et les cots lunit pour appliquer la
rpartition optimale. En pratique, les variances et les cots peuvent tre inconnus. Un moyen de surpasser
cette limite est destimer les variances et les cots dun chantillon prliminaire ou dune enqute
prcdente. Une difficult de la rpartition optimale est que les variances et les cots estims de la strate
peuvent tre imprcis. En pratique donc, le plan dchantillonnage nest peut-tre pas optimal.
Lorsque les variances et les cots sont gaux pour toutes les strates, la rpartition optimale se rduit la
rpartition proportionnelle N. La variance de lestimation est minimise pour cette rpartition. Si
seulement les cots sont quivalents pour toutes les strates, la rpartition optimale est ramene ce qui est
gnralement intitul rpartition de Neyman explique ci-dessous.
8.2.2.2.5
Rpartition de Neyman
Cette rpartition optimale particulire intitule rpartition de Neyman est applique lorsque le cot dune
interview est identique chaque strate. Cest une rpartition de la taille de lchantillon total en strates qui
minimise la variance de lestimation dans lensemble. La rpartition de Neyman attribue davantage
dunits de lchantillon aux strates plus larges, aux strates qui affichent les variances les plus leves, ou
aux deux. De nouveau, comme dans le cas de la rpartition optimale, les variances peuvent tre inconnues
et des estimations sont habituellement utilises.
Voici lexpression du paramtre de rpartition ah :
ah =
Nh Sh
L
N h Sh
h =1
Cest--dire que le paramtre de rpartition ah est gal au ratio du rsultat de la taille de la strate et de la
racine carre de la variance au rsultat de la taille de la strate et de la racine carre de la variance de toutes
les strates.
STATISTIQUE CANADA
187
Sil est impossible dobtenir une valeur prcise pour les variances, le ratio de la variance de la strate la
moyenne de la strate ( S h Yh ) peut tre considr constant entre les strates. Cette supposition ramne la
rpartition de Neyman une rpartition proportionnelle Y. La rpartition de Neyman pose une
difficult, comme la rpartition optimale, cest--dire que lestimation des variances de la strate nest
peut-tre pas prcise, et ainsi, le plan dchantillonnage nest peut-tre pas optimal.
8.2.2.2.6
La rpartition optimale, occurrence particulire, est faite si les variances sont gales dans toutes les
strates, ce qui est inhabituel, et cette rpartition est donc rarement applique. Elle lest cependant sil ny a
pas dinformation sur les variances de la population ou lorsquon peut supposer que ces variances sont
approximativement gales et que le facteur de rpartition prdominant est le cot, auquel cas, ce genre de
rpartition attribue davantage dunits de lchantillon aux strates plus larges, celles qui cotent moins
cher, ou les deux. Le paramtre de rpartition ah est dfini comme suit :
ah =
Nh
ch
Nh
ch
h =1
8.2.3
Y et Y
Rpartition excessive
Dans un plan dchantillonnage stratifi qui applique la rpartition optimale, la rpartition de Neyman, la
rpartition proportionnelle Y ou la rpartition proportionnelle la Y , il est possible que la valeur nh
attribue dpasse la taille de la population Nh. Il sagit dune rpartition excessive. Il faudrait alors
procder un recensement des strates qui demandent des chantillons excessifs. La taille de lchantillon
globale obtenue la suite de ce genre de rpartition excessive sera ensuite plus petite que la taille de
lchantillon original et il serait possible de ne pas obtenir la prcision demande dans lensemble. La
solution est daugmenter lchantillon dans les autres strates o nh est plus petit que Nh laide du surplus
dans les tailles dchantillon tir des strates recenses.
STATISTIQUE CANADA
188
iii.
Il est habituellement recommand dattribuer au moins deux units chaque strate. Ces deux units sont
en fait le nombre minimal possible pour obtenir une estimation non biaise de la variance des estimations.
Remarquez que la taille minimale de lchantillon de la strate devrait tre suprieure deux, compte tenu
de la non-rponse totale.
Malheureusement, toutes les mthodes de rpartition de lchantillon examines la Section 8.2.2
peuvent donner des tailles dchantillon infrieures deux, ou mme un. La solution la plus habituelle
dans ce cas est daugmenter la taille de lchantillon deux dans les strates qui posent ce problme. Cette
mesure augmentera la taille totale de lchantillon. Une autre solution serait de rpartir un chantillon de
taille deux toutes les strates et dattribuer ensuite la taille de lchantillon qui reste toutes les strates
laide de lune des mthodes de rpartition prsentes plus tt. Cette solution a lavantage de ne pas
augmenter la taille totale de lchantillon.
iv.
La rpartition qui convient une variable pourrait ne pas convenir une autre variable de lenqute. Afin
de rpartir lchantillon selon plus dune variable, il faut appliquer une rpartition intermdiaire. Des
mthodes de rpartition multidimensionnelle (certaines dentre elles appliquent la programmation
linaire) ont t labores pour rsoudre ce genre de problme (Bethel (1989)).
Il ne faut surtout pas oublier que lorganisme statistique veut rpartir lchantillon afin de rpondre aux
besoins de prcision pour les principales variables dintrt de lenqute. Cela signifie habituellement que
les estimations pour les variables moins importantes de lenqute ne seront pas aussi prcises que celles
des principales variables.
8.3
Sommaire
Dterminer la taille de lchantillon est un processus de compromis et de choix pratiques entre des
besoins de prcision souvent concurrents et des contraintes oprationnelles, par exemple le budget dans
lensemble, le cot de lenqute pour chaque strate, le temps disponible et le nombre dintervieweurs
ncessaires et disponibles. Les dcisions prendre sur la taille de lchantillon peuvent demander un
nouvel examen et une modification ventuelle des objectifs, des besoins de donnes, des degrs de
prcision, des lments du plan denqute, des activits sur place, etc., dtermins au point de dpart.
Lorganisme statistique et le client ciblent souvent la rentabilit pour que le client puisse obtenir la taille
de lchantillon ncessaire. Ils prvoient, notamment, des interviews plus brves, appliquent une autre
mthode de collecte des donnes, oublient certains domaines dintrt ou considrent un autre plan
dchantillonnage.
Si lchantillonnage stratifi est utilis, lchantillon doit tre rparti entre les strates. Il y a deux faons
dy arriver : dterminer la taille de lchantillon total et la rpartir entre les strates pour minimiser la
variabilit ou, compte tenu dune prcision demande, dterminer la taille de lchantillon ncessaire dans
chaque strate. Il faut une formule de rpartition, ah, dans chaque strate pour ces deux mthodes. Il y a
diverses mthodes diffrentes de rpartition. La rpartition proportionnelle N est la mthode de
rpartition proportionnelle qui donne des fractions dchantillonnage gales dans chaque strate. Les
mthodes de rpartition non proportionnelles distribuent lchantillon entre les strates, compte tenu de la
taille de la population dans la strate ou dune autre mesure de la taille de la strate, de la variabilit de la
population de la strate ou du cot de lenqute dans la strate.
STATISTIQUE CANADA
189
Bibliographie
Bankier, M. 1988. Power Allocations: Determining Sample Sizes for Subnational Areas. The American
Statistician, 42: 174-177.
Bethel, J. 1989. Rpartition de lchantillon dans les enqutes plusieurs variables. Techniques
denqute, 15(1):49-60.
Cochran, W.G. 1977. Sampling Techniques. John Wiley and Sons, New York.
Fink, A. 1995. The Survey Kit. Sage Publications, California.
Fowler, F.J. 1984. Survey Research Methods. 1. Sage Publications, California.
Hidiroglou, M. 1986. The Construction of a Self-Representing Stratum of Large Units in Survey Design.
The American Statistician, 40: 27-31.
Hidiroglou, M. 1993. Quelques mthodes pour calculer les tailles dchantillon ainsi que leur allocation
pour les enqutes-entreprises. Statistique Canada.
Glasser, G.J. 1962. On the Complete Coverage of Large Units in a Statistical Study. Review of the
International Statistical Institute, 30: 28-32.
Gower, A. et K. Kelly. 1993. How Big Should the Sample Be? Statistics Canada.
Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.
Latouche, M. 1988. Dtermination, allocation et slection de lchantillon. Statistique Canada. 88-021F.
Lavalle, P. et M.A. Hidiroglou. 1988. Sur la stratification des populations asymtriques. Techniques
denqute, 14(1): 35-45.
Lehtonen, R. et E.J. Pahkinen. 1995. Practical Methods for the Design and Analysis of Complex Surveys,
Statistics in Practice. John Wiley and Sons, New York.
Levy, P. et S. Lemeshow. 1999. Sampling of Populations. John Wiley and Sons, New York.
Lohr, S. 1999. Sampling: Design and Analysis. Duxbury Press, U.S.A.
Moser C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.
Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.
Satin, A. et W. Shastry. 1993. Lchantillonnage : un guide non mathmatique Deuxime dition.
Statistique Canada. 12-602F.
Sethi, Y.K. 1963. A Note on Optimum Stratification of Populations for Estimating the Population Means.
Australian Journal of Statistics, 5: 20-33.
Thompson, M. 1997. Theory of Sample Surveys. Chapman and Hill, United Kingdom.
Thompson, S.K. 1992. Sampling. John Wiley and Sons, New York.
STATISTIQUE CANADA
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
191
9.1
Il y a de nombreuses mthodes dorganisation des activits de collecte des donnes, mais lune des plus
habituelles est la rpartition du pays en rgions, chacune ayant un bureau rgional qui fait rapport au
Bureau central. Les bureaux rgionaux peuvent tirer pleinement avantage des connaissances locales
laide de cette structure pour amliorer les relations avec les rpondants et augmenter lefficacit en
diminuant le cot du suivi des questionnaires incomplets, des refus, des non-rponses, etc. Les bureaux
rgionaux sont chargs de la gestion des activits de collecte et de saisie des donnes dans leurs secteurs
(la saisie des donnes consiste transformer les rponses pour les rendre lisibles la machine; ce
STATISTICS CANADA
192
propos, on peut consulter le Chapitre 4 - Mthodes de collecte des donnes et le Chapitre 10 Traitement). Le Bureau central veille ce que des procdures et concepts normaliss et uniformes soient
appliqus dans toutes les rgions. Il est aussi charg de la gestion de lenqute dans lensemble et de la
conception des procdures de collecte des donnes.
Il faut considrer un certain nombre de points pour structurer les bureaux rgionaux. Sil sagit dune
grande enqute ou dun recensement, il peut tre ncessaire douvrir des bureaux de district qui feront
rapport un bureau rgional. Les points suivants influenceront le nombre de rgions ou de bureaux :
- la taille de lenqute,
- la taille de lchantillon et le lieu o sont situes les units de lchantillon,
- lloignement de lendroit,
- la difficult de communiquer avec les rpondants,
- la collaboration des rpondants qui peut tre difficile obtenir,
- la langue des rpondants,
- la structure des administrations locales, rgionales ou provinciales,
- la population active (p. ex., disponibilit du personnel, scolarit, profils linguistiques),
- les moyens de transport (p. ex., autoroutes, ports, centres dexpdition).
9.1.1
Bureau central
Le Bureau central est gnralement charg de la conception et de la planification des activits et outils
suivants :
i.
Le Bureau central conoit et labore habituellement des manuels pour les intervieweurs, les surveillants et
les autres membres du personnel de la collecte des donnes. Ces procdures comprennent les interviews,
le listage des units chantillonnes et la mise jour de la base de sondage, le dpistage des rpondants, le
suivi auprs des non-rpondants, ainsi que la vrification et le codage sur place. Certaines de ces tches
sont dtailles au Chapitre 10 - Traitement.
ii.
Le traitement transforme les rponses du sondage obtenues pendant la collecte pour quelles
conviennent la totalisation et lanalyse des donnes. Les activits de traitement comprennent le
codage et la saisie des donnes, la vrification et limputation. Le Bureau central est charg de
llaboration de procdures et programmes de traitement, ainsi que des procdures de contrle qualitatif et
dassurance de la qualit qui seront appliques dans les bureaux rgionaux. Les activits de traitement
sont considres au Chapitre 10 - Traitement. Le contrle qualitatif et lassurance de la qualit sont
approfondis lAnnexe B - Contrle qualitatif et assurance de la qualit.
iii.
Procdures de formation
STATISTIQUE CANADA
iv.
193
Un calendrier de collecte des donnes est tabli, les tapes de lenqute et les priodes de rapport sont
prcises, afin datteindre la date vise. Lchancier comprend les taux cibls de cas rsolus pour chaque
priode de rapport, ainsi que les taux de rponse voulus (voir les dtails la Section 9.5.3).
v.
Des formules de contrle sont labores pour lchantillon au complet et pour chaque intervieweur (la
formule est intitule tche de lintervieweur), et des procdures de rapport rgulier sont appliques pour
mettre jour ltat de chaque unit chantillonne, afin de garantir que toutes les activits de collecte des
donnes se droulent comme prvu. Cet outil est habituellement intitul Systme dinformation de
gestion (SIG). Le reprage de ltat dune unit et la prparation de rapports de surveillance appropris
sont programms dans un logiciel pour linterview assiste par ordinateur.
Le SIG devrait avoir la capacit de suivre les mesures de la qualit, les dpenses et dautres mesures du
rendement pendant la collecte des donnes. Il faudrait suivre tous les cots de la collecte des donnes, par
exemple, laffranchissement postal, les appels tlphoniques, les dplacements, linformatique et la
consommation par personne par jour. Il faudrait valuer et surveiller dimportantes mesures de la qualit
pendant le processus de la collecte, y compris les taux de rponse, les taux de suivi et le calcul des nonrponses totales pour chaque raison. Des mesures de la qualit et de la productivit peuvent servir
simultanment dterminer les pointes logiques de la collecte des donnes (p. ex., lorsque le taux de
rponse a atteint une cible prvue ou lorsque lamlioration du taux de rponse pour obtenir un taux
suprieur dtermin coterait trop cher) et les modifications apporter sil est impossible de respecter la
date limite de la collecte. Ces mesures de la qualit servent aussi valuer les mthodes qui pourraient
tre appliques dautres enqutes et obtenir de linformation pour lvaluation de la qualit des
donnes.
vi.
9.1.2
Bureau rgional
La collecte et la saisie des donnes, ainsi que les relations publiques sont les principales responsabilits
des bureaux rgionaux. Ceux-ci font souvent la saisie des donnes parce quil est plus facile de contrler,
grer et tlcharger au Bureau central des fichiers lectroniques que denvoyer des questionnaires sur
support papier. Il est aussi plus facile pour un bureau rgional de faire la saisie de ses lots restreints de
questionnaires, comparativement au Bureau central qui devrait faire la saisie des donnes de toutes les
rgions.
Le recours linfrastructure des bureaux rgionaux permet de faire la gestion quotidienne des activits de
collecte des donnes le plus prs possible de la scne des oprations, et il est plus facile didentifier et de
rsoudre les problmes au fur et mesure.
STATISTIQUE CANADA
194
La hirarchie suivante des employs de la collecte des donnes est tablie pour la plupart des enqutes qui
se droulent partir des bureaux rgionaux :
i.
Le chef de projet rgional veille dans lensemble ce que la collecte des donnes soit acheve temps et
quelle rponde aux normes de qualit dtermines. Il est aussi charg du budget rgional. Il adopte
habituellement lchancier de lenqute globale et y ajoute les tapes et les points de repre rgionaux
dtaills qui sont ncessaires pour maintenir lenqute dans la bonne voie. Le chef de projet rgional est la
personne-ressource du Bureau central et lintervenant charg de toutes les expditions du Bureau central
et vers celui-ci. La distribution du matriel et la prestation de linformation aux surveillants lui sont aussi
confies. Sil sagit de trs grandes enqutes, par exemple le Recensement de la population canadienne,
des chefs rgionaux adjoints et des chefs de district sont ajouts lquipe.
ii.
Surveillant
Sil y a plus dun surveillant cause de la taille de lenqute, chacun supervise une quipe
dintervieweurs. Le ratio de surveillants intervieweurs varie selon les points suivants :
- la complexit de lenqute,
- lexprience des surveillants et du personnel charg des interviews,
- lendroit o est situ lchantillon,
- les difficults de dplacement,
- la facilit dutilisation du Systme dinformation de gestion.
Le surveillant retient les services des intervieweurs, les forme, obtient et distribue le matriel et les
articles, en collaboration avec le chef de projet rgional. Le surveillant est charg de la gestion
quotidienne de la collecte des donnes, y compris la supervision des intervieweurs et la surveillance
troite de ltat davancement et de la qualit. Le suivi des refus (voir la Section 9.4.6) est une autre tche
importante du surveillant.
iii.
Intervieweur
Lintervieweur procde la collecte des donnes en soi et fait rapport rgulirement au surveillant sur les
problmes et ltat davancement. Le rle de lintervieweur est tudi la Section 9.4.
9.2
Relations publiques
STATISTIQUE CANADA
195
brochure sur lorganisme en gnral. Des campagnes de publicit sont aussi frquentes pour les grandes
enqutes.
Cette section sur les relations publiques couvre seulement la communication avec le grand public. Il
faudrait aussi prvoir dautres communications avec les gens lextrieur de lquipe pendant le
processus de lenqute. Au dbut de la phase de la planification, par exemple, les planificateurs de
lenqute devraient dterminer des questions que lenqute propose pourrait ventuellement susciter,
prvoir comment y rpondre et dcider de procder ou non lenqute. Un sujet propos de lenqute
peut, par exemple, avoir un caractre trop dlicat pour une partie des rpondants. Il est aussi important,
pendant le processus de planification, de consulter des intervenants, des rpondants, des reprsentants
dadministrations locales et dautres intresss pour garantir llaboration dune matire approprie dans
le questionnaire. Il faudrait consulter ces intresss ou les informer des rsultats la fin du processus de
lenqute.
La confidentialit et la planification dune enqute sont dtailles au Chapitre 12 - Diffusion des
donnes et au Chapitre 13 - Planification et gestion de lenqute, respectivement.
9.2.1
Campagnes publicitaires
Les campagnes publicitaires peuvent comprendre les points suivants, en tout ou en partie, selon le sujet de
lenqute, le budget et la population cible :
-
des relations actives avec les mdias (messages dintrt public, faits et porte-parole pour les journaux
et les stations de radio et de tlvision) et des relations avec les mdias pendant la collecte des
donnes pour rgler les problmes qui se posent pendant le processus,
la communication avec des groupes qui feront la promotion de lenqute pendant la collecte des
donnes et avec ceux qui se prononceront contre,
des lettres aux importants reprsentants du public (ou aux reprsentants dassociations ou
dtablissements qui ont un lien avec la population cible de lenqute) pour demander leur soutien et
leur fournir des encarts pour un discours, un bulletin, etc. (ces reprsentants prendront souvent la
parole pour soutenir activement lenqute),
des lettres aux reprsentants des forces de lordre pour les informer de lenqute au cas o des
rpondants communiqueraient avec eux sils se mfient du personnel de lenqute,
des affiches dans les endroits publics, notamment les bureaux de poste et les bibliothques, ou dans
des lieux o la population cible les remarquera probablement.
9.2.2
Les campagnes de relations publiques ciblent habituellement les rpondants pour les sensibiliser
davantage et obtenir leur collaboration. Voici les articles utiliss le plus souvent :
i.
Lettre de prsentation
Cette lettre prcise lobjectif, les dates et la mthode de collecte, et explique limportance de lenqute. Le
premier reprsentant rgional suprieur (directeur rgional) signe gnralement les lettres de prsentation.
STATISTIQUE CANADA
196
Celles-ci (et les brochures si elles sont appropries) sont envoyes avec les questionnaires dans les
enqutes par la poste. On envoie habituellement les lettres (et les brochures le cas chant) une semaine
lavance si des intervieweurs font lenqute. Les rpondants ne seront donc pas surpris et collaboreront
probablement davantage lorsque lintervieweur se prsentera leur domicile.
ii.
Brochure de lenqute
Il sagit simplement de renseignements qui dcrivent limportance de lenqute pour le bien public. Elle
devrait comprendre des exemples dutilisation des donnes et une source prcisant o obtenir les donnes.
Les brochures peuvent tre envoyes tous les rpondants ou utilises seulement si les rpondants sont
rticents.
iii.
Document gnral distribuer qui illustre la varit des donnes que lorganisme obtient et diffuse, la
brochure accentue la crdibilit de lorganisme et sert souvent aussi aux relations avec les rpondants.
iv.
Soutien pendant la collecte pour rgler les problmes imprvus avec des rpondants
v.
Manuel de lintervieweur
Un manuel de lintervieweur bien labor devrait donner les rponses aux questions et objections prvues.
vi.
Les intervieweurs confient habituellement les refus leurs surveillants qui sont forms pour appliquer des
mthodes, afin de convertir les refus en rponses.
Voici un exemple de lettre de prsentation que Statistique Canada a utilis pour le British Columbia Farm
Resource Management Survey (Enqute sur la gestion des ressources agricoles en Colombie-Britannique)
en 1998. La lettre prcise en vertu de quelle loi ou quelle autorit lenqute se droule, donne une garantie
de confidentialit et insiste sur limportance de la participation du rpondant. Le nom et le numro de
tlphone dune personne-ressource sont ajouts la fin de la lettre au cas o le rpondant aurait des
questions, et elle porte la signature approprie, dans ce cas, celle du directeur rgional.
Monsieur, Madame,
Votre exploitation agricole a t slectionne au hasard pour participer lEnqute sur la gestion des
ressources agricoles en Colombie-Britannique, une importante tude sur les pratiques de gestion agricole
visant trois principales ressources : le sol, leau et le fumier lengrais. Cette enqute participation
volontaire cible en particulier llevage du btail, et cest la premire dune srie denqutes dtailles
qui produiront en dfinitive des donnes uniformes pour tous les groupes de produits dans la province.
Cette tude se droule en collaboration avec le ministre de lAgriculture et de lAlimentation de la
Colombie-Britannique pour veiller ce que les programmes agricoles refltent les mthodes changeantes
de la gestion des ressources la ferme aujourdhui.
Entre le 5 et le 24 octobre, un intervieweur de Statistique Canada vous tlphonera pour procder une
interview de cinq dix minutes au tlphone. Aucune question financire dtaille ne sera pose et vous
naurez pas besoin de consulter vos dossiers. Nous demanderons cependant le nombre de ttes et le genre
de btail dans votre exploitation pour obtenir une perspective sur les pratiques de gestion appliques.
STATISTIQUE CANADA
197
Toute information obtenue Statistique Canada est strictement confidentielle et protge par la loi. Elle
sera utilise uniquement pour dresser des tableaux statistiques qui ne permettent pas didentifier un
rpondant en particulier ou ses renseignements.
Statistique Canada reconnat leffort norme que font les rpondants du secteur agricole pour rpondre
aux questionnaires des enqutes. Cette collaboration signifie que des donnes pertinentes et jour sont
disponibles sur ce secteur en changement rapide. Japprcie sincrement votre collaboration aux
enqutes prcdentes et je vous remercie davance de votre participation cette importante tude.
Si vous voulez davantage dinformation sur cette enqute, veuillez tlphoner Mme Unetelle,
gestionnaire des enqutes sur lagriculture, Bureau de la rgion du Pacifique (Vancouver), en composant
le numro sans frais 1 800 555-5555.
Le directeur,
Rgion du Pacifique
Jean Ixe
9.3
9.3.1
Manuels
Des intervieweurs et dautres membres du personnel de qualit sont la cl du succs de la collecte des
donnes. De bons intervieweurs et membres du personnel de lenqute doivent avoir les capacits et les
qualits personnelles ncessaires pour tre efficaces. Luniformit et la qualit de leur travail dterminent
la qualit des rsultats de lenqute. Des manuels dcrivent les procdures normalises et donnent des
instructions pour rgler des problmes imprvus. Lquipe de lenqute prpare gnralement un manuel
de lintervieweur, un manuel du surveillant et, si ncessaire, des instructions de listage pour les bases
arolaires.
9.3.1.1 Manuel des intervieweurs
Le manuel des intervieweurs est la principale et parfois la seule source dinformation que lintervieweur
peut consulter pour obtenir des renseignements sur son travail. Il est rparti en sections ou chapitres sur
les sujets suivants :
STATISTIQUE CANADA
198
i.
Information gnrale
Cette section nonce lobjectif et limportance de lenqute, les utilisations prvues des donnes et les
rgles de collecte des donnes de lorganisme (confidentialit, langue de lintervieweur, mandat de
lorganisme, etc.). Une copie de la lettre de prsentation envoye aux rpondants y est habituellement
ajoute, ainsi que de linformation lmentaire sur la mthode de slection de lchantillon.
ii.
Prsentation
Cette section explique comment tablir la premire communication avec un rpondant, vrifier sil sagit
du rpondant voulu, examiner ou corriger linformation de la base de sondage (numro de tlphone, etc.)
et les lignes directrices dinterview des substituts (Section 9.4.7).
iii.
Matire du questionnaire
Cette section comprend une copie du ou des questionnaire(s), la dfinition des concepts de lenqute et la
terminologie. Il est important que lintervieweur comprenne la signification et lobjectif de chaque
question. Cette section porte aussi sur les questions des rpondants, les problmes ventuels et les
interventions appropries.
iv.
Les vrifications sont des rgles appliques pour identifier les entres manquantes, invalides ou
incohrentes qui indiquent des donnes ventuellement errones. Les intervieweurs doivent faire des
vrifications sur place (c.--d. vrifications faites pendant linterview ou peu aprs). Les rgles de
vrification doivent tre clairement dcrites et prciser comment les appliquera lintervieweur.
v.
Cette section porte sur le rejet la vrification, le suivi des non-rponses et le nombre de tentatives que
doit faire lintervieweur pour essayer dobtenir une rponse. Elle prcise aussi comment attribuer un code
dtat dfinitif chaque questionnaire (p. ex., questionnaire rempli, refus, etc.). Vous obtiendrez
davantage de dtails la Section 9.5.2.
vi.
Cette section couvre certains dtails administratifs, par exemple, comment les intervieweurs font rapport
sur ltat davancement de leurs questionnaires, comment ils retournent les questionnaires au bureau
rgional, comment ils prsentent les documents des dpenses sur place (p. ex., dpenses de dplacement,
dhbergement, etc.), comment ils sont rmunrs et comment le matriel et les articles sont distribus et
retourns.
vii.
Cette section porte sur la sant et la scurit au travail, ainsi que sur les systmes de contrle efficaces
pour garantir la scurit des questionnaires et du transfert des donnes des bureaux rgionaux au Bureau
central.
STATISTIQUE CANADA
viii.
199
Questions et rponses
Cette dernire section comprend une liste des questions que posent habituellement les rpondants (par
exemple : Comment ai-je t choisi pour lenqute?) et les rponses appropries.
Les aptitudes linterview et les techniques dinterview en gnral peuvent aussi tre intgres au manuel
des intervieweurs avec exemples pertinents lenqute en particulier.
9.3.1.2 Manuel des surveillants
Les surveillants doivent trs bien connatre la matire du manuel des intervieweurs. Un manuel spcial
des surveillants est aussi prvu pour donner des instructions sur la gestion de lenqute.
Les sujets suivants sont habituellement ajouts au manuel des surveillants :
- embauche et formation des intervieweurs,
- conception des tches des intervieweurs,
- sant et scurit au travail,
- contrle de la qualit et du rendement (c.--d. observation des interviews, surveillance de ltat
davancement de lenqute comparativement des mesures dtermines de la qualit, des dpenses et
des dlais dexcution),
- logistique (p. ex., distribution et retour des articles, rmunration des intervieweurs, retour et
prsentation des questionnaires pour la saisie des donnes, etc.),
- scurit et protection des renseignements personnels,
- autres mthodes de collecte des donnes pour tenir compte des personnes ayant une incapacit, des
problmes de langue, des cas dont linclusion la population cible est ambigu (p. ex., trangers,
visiteurs), etc.,
- intervention pour convaincre ceux qui refusent de rpondre au questionnaire.
9.3.2
Les intervieweurs sont essentiels au succs dune enqute assiste par intervieweur. Il est important de
vrifier si ceux qui sont engags ont les qualits personnelles et les capacits ncessaires, et sils ont la
formation et les outils appropris.
Lorganisme statistique devrait tenir jour une liste dintervieweurs dexprience qui servira au moment
de lembauche. Si les besoins de lenqute sont nombreux ou trs importants, il peut tre ncessaire
dobtenir du personnel supplmentaire. Des avis peuvent tre affichs ou des annonces peuvent tre
diffuses dans les journaux locaux ou la radio pour inviter les candidats ventuels, ou le personnel
appropri peut tre recrut (par exemple, le personnel de la livraison du courrier).
Il faut prciser les qualifications ncessaires pour faire lenqute et tablir les critres dembauche. La
scolarit, les aptitudes interpersonnelles, la capacit de sexprimer dans les langues locales, les aptitudes
lorganisation et lintgrit sont des lments importants considrer lors de lembauche des
intervieweurs (il y a habituellement une vrification de scurit). Sil sagit dinterviews sur place,
lendroit et la connaissance du secteur peuvent aussi tre importants. Une quipe, comprenant
habituellement le surveillant et le chef rgional principal, interviewe les candidats ventuels.
La formation des intervieweurs doit tre soigneusement planifie pour quils aient tous un rendement
uniforme et la mme comprhension des concepts de lenqute. Les surveillants sont habituellement
STATISTIQUE CANADA
200
forms en premier. Ceux-ci forment ensuite les intervieweurs. Des reprsentants du Bureau central
observent souvent la formation et donnent des conseils. Plusieurs jours de formation intensive sont
gnralement offerts laide des techniques numres ci-dessous :
i.
tudes domicile
Les intervieweurs examinent attentivement les manuels et (ventuellement) font les exercices crits.
ii.
Formation en classe
Les surveillants et les intervieweurs tudient en classe ce quils peuvent faire pour tablir de bonnes
relations avec les rpondants et obtenir ainsi des rponses. De bonnes techniques et pratiques dinterview,
ainsi que des aptitudes linterview sont prsentes. Les surveillants examinent et corrigent les erreurs
dans les exercices faits domicile. Les intervieweurs examinent ensuite la matire complte du
questionnaire pour bien comprendre les concepts et les questions (cran par cran pour linterview
assiste par ordinateur). Les cas spciaux et problmes sont revus en classe afin de laisser suffisamment
de temps pour les questions et les prcisions.
iii.
Interviews simules
Les interviews simules donnent loccasion aux intervieweurs de mettre en pratique leurs techniques
avant dintervenir sur place. Elles donnent aussi aux intervieweurs loccasion dobserver les aptitudes et
les techniques appliques par leurs pairs et de faire des commentaires. Le surveillant ou un autre
intervieweur intervient cette tape titre de rpondant. Divers scnarios sont mis lessai, y compris les
cas typiques et problmes.
iv.
Interviews concrtes
Quand cela est possible, on fait aussi des interviews avec des rpondants rels avant de procder
lenqute sur le terrain. Les rpondants sont parfois des membres du personnel de lorganisme qui ne sont
pas informs de lenqute, ou autrement, ce sont des rpondants chantillonns dans la population cible
(mais qui ne font pas partie de lchantillon qui servira lenqute relle). Les interviews concrtes
devraient aussi tre un volet dun essai pilote (voir le Chapitre 5 - Conception du questionnaire).
v.
Le surveillant aura avantage rencontrer chaque intervieweur pour examiner les premires interviews
acheves. Si lintervieweur a des problmes, ils peuvent tre identifis et corrigs rapidement.
Les procdures administratives (p. ex., rapports hebdomadaires, formules de contrle, etc.) pour la gestion
des tches sont habituellement le dernier sujet couvert pendant la formation. la conclusion de la
formation, chaque intervieweur se voit confier sa tche.
9.3.3
Listage
Le listage est ncessaire lorsquune base arolaire sert lchantillonnage. On a vu au Chapitre 6 - Plans
dchantillonnage quun plan dchantillonnage habituel pour une base arolaire est un plan
dchantillonnage par grappes deux degrs, les secteurs gographiques tant chantillonns au premier
degr dans une base arolaire (ce sont les units primaires dchantillonnage ou UP). On peut ensuite
tirer de ces UP un chantillon systmatique de logements (units secondaires dchantillonnage ou
STATISTIQUE CANADA
201
US). Afin dchantillonner les logements, il faut dabord tablir une liste de tous les logements dans le
champ de lenqute de lUP (c.--d. que les logements admissibles lchantillonnage doivent tre
lists, ladmissibilit tant dfinie selon la population cible de lenqute).
Il est avantageux de bien connatre le secteur gographique (UP) pour faire les interviews et le mme
groupe dintervieweurs est donc souvent charg du listage et des interviews dans lUP. Le listage est
dautant plus exact quil est fait peu de temps avant les interviews.
Avant le listage, chaque intervieweur (ou celui qui fait le listage) devrait obtenir les articles suivants et la
formation ncessaire pour les utiliser :
i.
Les limites de chaque UP doivent tre clairement dfinies pour viter le chevauchement des UP ou les
segments manquants. La carte devrait tre la plus dtaille et jour qui soit disponible et comprendre des
points de rfrence bien inscrits (voies ferres, ponts, cours deau, noms de rue, etc.). Ces donnes
viennent parfois de sources municipales ou darpentage.
ii.
Elles comprennent des instructions sur la mthode appliquer pour tracer litinraire dune UP, afin de
couvrir le secteur complet sans rebrousser chemin (pour viter les risques de ddoublement) ou oublier
des secteurs. Il y a aussi des instructions sur la mthode appliquer pour identifier une unit
dchantillonnage dans le champ de lenqute. Si lunit de lchantillon est un logement, par exemple, il
devrait y avoir des instructions prcisant comment trouver et identifier des logements confins ou dans un
immeuble units multiples, ainsi que la dfinition de logement inoccup, etc.
iii.
Une formule de listage et linformation obtenir pour chaque unit de lchantillon dans le
champ de lenqute
Le genre denqute dtermine la dfinition dune unit dans le champ de lenqute et le nombre de
renseignements obtenir. Les donnes obtenues pendant le listage sont habituellement limites
linformation ncessaire pour situer lunit (adresse ou endroit sur la rue, nom, numro de tlphone, etc.)
et toute donne ncessaire pour passer ltape suivante de lchantillonnage.
Lorsque le listage est achev, les donnes des formules de listage sont gnralement saisies
lectroniquement et envoyes au Bureau central pour passer ltape suivante de lchantillonnage.
Pour illustrer le listage, on trouvera ci-dessous une carte de grappe de lEnqute sur la population active
de Statistique Canada; on y trouve les limites de lUP traces en ligne continue, un X inscrit au point
de dpart du listage et une ligne de tirets (---) trace litinraire. On demande lintervieweur de
commencer lintersection nord-ouest, de procder dans le sens des aiguilles dune montre autour de
chaque lot et de lister tous les logements habitables sa droite. La mme mthode gnrale de listage (
partir dun point de dpart dtermin en continuant dans le sens des aiguilles dune montre pour lister les
units droite) est applique en milieu rural. Le listage est plus compliqu si le logement est une
exploitation agricole parce quelle peut empiter sur les limites de lUP, et la solution est alors de lister
lexploitation agricole dans lUP qui englobe la voie ou lentre principale.
STATISTIQUE CANADA
202
Si la mthode dchantillonnage est trs simple, lintervieweur peut parfois faire le listage,
lchantillonnage et les interviews simultanment. Lors du Recensement de la population canadienne, par
exemple, quatre mnages sur cinq dans un secteur de dnombrement (SD) reoivent un bref questionnaire
et le cinquime mnage obtient un questionnaire plus long et plus dtaill. laide de lchantillonnage
systmatique avec origine choisie au hasard dans chaque SD, lenquteur liste les mnages et remet le
long questionnaire au cinquime mnage de chaque tranche de cinq mnages.
On a vu au Chapitre 3 - Introduction au plan denqute et au Chapitre 6 - Plans dchantillonnage
les dtails sur les bases arolaires.
9.3.4
Dpistage
Le dpistage est ncessaire quand linformation disponible dans la base de sondage est insuffisante pour
situer le rpondant. Dans les enqutes tlphoniques, par exemple, certains numros de tlphone dans la
base de sondage ne sont peut-tre plus jour. Dans les sondages par la poste, le bureau de poste peut
retourner certains questionnaires parce que ladresse est incomplte ou inexacte, ltablissement nexiste
plus ou le rpondant a dmnag. Le dpistage peut tre fait avant de procder lenqute si lon
souponne que linformation dans la base de sondage nest plus jour.
Voici donc lobjectif du dpistage :
- situer lunit chantillonne,
- mettre jour linformation didentification lmentaire dans la base de sondage (p. ex., nom, adresse,
numro de tlphone, personne-ressource ou, dans une base arolaire, indiquer le lieu gographique
dune exploitation agricole sur une carte, etc.),
- dterminer si lunit est toujours dans le champ de lenqute (p. ex., Ltablissement a-t-il ferm ses
portes? Le rpondant a-t-il dmnag hors du champ gographique de lenqute?).
Les outils de dpistage les plus souvent utiliss comprennent ceux-ci :
- annuaires tlphoniques jour, rpertoires dentreprises, assistance-annuaire,
- information tire dautres bases de sondage plus jour,
- dossiers dautres organismes gouvernementaux (p. ex., listes de permis dentreprise dans une
municipalit en particulier, listes de permis de conduire dans une province, etc.),
STATISTIQUE CANADA
203
pour les enqutes ritres, reprage de linformation que lunit chantillonne a donne une
occasion prcdente (p. ex., adresse ou numro de tlphone de parents qui peuvent aider reprer le
rpondant).
Les intervieweurs peuvent faire le dpistage jusqu un certain point, mais il est souvent plus efficace
pour le bureau rgional davoir une quipe demploys affects au dpistage et qui ont accs tous les
rpertoires et dossiers ncessaires. Aprs le dpistage, linformation de communication dans la base de
sondage peut tre mise jour ou, si le dpistage est fait aprs le lancement de la collecte, les units
dpistes peuvent tre retournes aux intervieweurs originaux, ou elles peuvent tre confies un
intervieweur de rappel en particulier.
La qualit de linformation auxiliaire dans la base de sondage, ainsi que le talent et lesprit dinitiative du
dpisteur, dterminent le succs du dpistage. Statistique Canada procde, par exemple, une enqute sur
les diplms duniversit deux ans aprs la collation des grades. La base de sondage comprend ladresse
et le numro de tlphone les plus rcents de chaque tudiant selon les dossiers des universits. tant
donn que les diplms rcents sont extrmement mobiles, nombre dentre eux ont dmnag depuis. Si
les donnes auxiliaires comprennent aussi le nom et ladresse des parents, lintervieweur peut dpister
ltudiant en communiquant avec eux. Il est trs important de veiller ce que les intervieweurs ne
donnent pas dinformation confidentielle pendant le dpistage.
9.4
Aprs avoir planifi toutes les activits de collecte des donnes, prpar les manuels, embauch et form
le personnel, fait le listage et le dpistage prliminaire, les interviews peuvent commencer. Cette tape ne
se limite pas communiquer simplement avec les rpondants et poser des questions. Lintervieweur est
charg des activits suivantes :
- prparer les interviews et en tablir le calendrier,
- veiller ce que linformation soit obtenue de lunit dchantillonnage choisie,
- susciter la collaboration des rpondants pour minimiser les non-rponses,
- poser les questions et inscrire les rponses prcisment pour viter les erreurs,
- vrifier les rponses,
- appliquer toutes les procdures de scurit pour garantir la confidentialit des donnes.
Lintervieweur et dautres membres du personnel de la collecte des donnes sont aussi chargs des tches
suivantes :
- faire le suivi des rejets la vrification et des non-rponses,
- coder les donnes (si les questionnaires ne sont pas entirement cods davance),
- exercer un contrle sur les documents (formules de reprage pour le cheminement pendant le
processus, par exemple, le nombre de questionnaires envoys par la poste, retourns, en instance,
etc.),
- surveiller la qualit de la collecte des donnes.
Les Sections 9.4.1 9.4.8 suivantes ciblent la prparation des interviews et ltablissement du calendrier,
ainsi que les techniques dinterview appliquer, y compris les techniques de prsentation, dutilisation du
questionnaire, dapprofondissement pour obtenir des rponses, de conclusion de linterview, de raction
aux refus ou dautres situations caractre dlicat et dinterview dun substitut. La surveillance de la
qualit de la collecte des donnes est tudie la Section 9.5.
La vrification et le codage des donnes sont approfondis au Chapitre 10 - Traitement.
STATISTIQUE CANADA
204
9.4.1
Lintervieweur est plus efficace sil a planifi la journe de travail, sil a tabli lhoraire des appels ou des
visites et sil a une connaissance approfondie du questionnaire, des formules de contrle et du matriel de
lenqute. Voici certaines lignes directrices utiles pour lorganisation de la tche de lintervieweur :
i.
Organisation du temps
Lintervieweur qui organise le travail chaque jour sait exactement combien dappels il prvoit faire. Il doit
rserver suffisamment de temps entre les appels pour complter les notes ncessaires prises pendant
linterview et ajouter les corrections au besoin pour les questionnaires sur support papier.
ii.
Lintervieweur devrait entrer tous les commentaires lcran appropri de lordinateur ou les inscrire
dans lespace prvu au questionnaire. Il devrait ajouter certains renseignements, notamment, le meilleur
moment pour tlphoner au rpondant, le genre de suivi convenu, quand il sera achev et le nom de la
personne la mieux ou la plus informe avec qui il pourra communiquer.
iii.
Rendez-vous prvoir
Lintervieweur devrait toujours avoir la main un calendrier ou un journal pour inscrire lheure des
interviews et il devrait entrer le rendez-vous lcran appropri de lordinateur ou linscrire au questionnaire.
Lintervieweur ne devrait pas inscrire lheure et la date des rendez-vous prvus sur des morceaux de papier
quil perdrait probablement.
Lorsquil tablit le calendrier des interviews, lintervieweur ne devrait pas oublier les points suivants :
a. vitez les appels trs tt ou trs tard quand vous communiquez avec un mnage. Nombre de
personnes naiment pas recevoir des appels tlphoniques ou rpondre la porte tard en soire
(certains rpondants seront effrays si vous frappez la porte en soire). Pour les interviews sur
place, lintervieweur peut dposer une lettre de prsentation dans la bote aux lettres et une note
personnelle prcisant quil prvoit revenir, ou il peut ajouter un numro de tlphone que le rpondant
peut composer pour confirmer lheure de linterview ou en prvoir une autre. Si lintervieweur
drange quelquun pendant lheure du repas, prsenter des excuses est un bon moyen de susciter une
raction positive de la part du rpondant.
b. Les rpondants dans les entreprises sont souvent occups lorsque lintervieweur tlphone la premire
fois et il peut tre ncessaire de prvoir une heure qui convient ou de laisser un numro de tlphone
que le rpondant pourra composer pour dterminer une heure propice avec lintervieweur. Le
rpondant ne devrait pas avoir de difficult communiquer avec lintervieweur qui devrait donner un
numro de tlphone o il est toujours possible de le rejoindre ou prciser les heures pendant
lesquelles il nest pas disponible.
c. Si le rpondant nest pas disponible lorsque lintervieweur tlphone la premire fois, ce dernier
devrait tablir une relation amicale avec la personne qui rpond lappel et dterminer le moment
propice pour communiquer avec le rpondant.
d. Sil ne peut communiquer avec un rpondant, lintervieweur devrait tlphoner un autre jour et une
heure diffrente. Si lintervieweur a tlphon deux fois pour les interviews sur place et sil ne peut
reprer le rpondant, il ou elle peut demander un voisin quel est le moment propice pour
STATISTIQUE CANADA
205
communiquer avec quelquun au logement slectionn. Il faut essayer de communiquer au moins trois
fois pour les enqutes par interviews sur place Statistique Canada et jusqu dix fois pour les
enqutes tlphoniques.
9.4.2
Techniques de prsentation
Il est important que lintervieweur tablisse une bonne relation avec le rpondant au dbut de linterview.
La premire impression que donne lintervieweur influence normment le rsultat de linterview. Il est
essentiel davoir une attitude professionnelle, mais amicale, pour donner la meilleure impression. Cette
disposition aidera nouer un lien qui incitera le rpondant donner des rponses compltes et prcises.
La prsentation est la pierre angulaire dune bonne relation entre lintervieweur et le rpondant. La
prsentation devrait tre brve (en particulier au tlphone) et sincre. Elle devrait comprendre ce qui
suit :
- le nom de lintervieweur et de lorganisme,
- le titre et lobjectif de lenqute,
- lutilisation des donnes (pour tablir limportance de lenqute),
- la loi en vertu de laquelle les donnes sont demandes,
- une garantie de confidentialit.
Sil sagit dinterviews sur place, une lettre de prsentation, une brochure sur lenqute, ou les deux,
livre(s) avant linterview sont un bon moyen de prsenter lenqute et den tablir la lgitimit. Au
moment de linterview, les rpondants se souviennent alors avoir reu quelque chose au sujet de
lenqute. Lintervieweur devrait porter et prsenter sa carte didentit dintervieweur lorsquil visite un
rpondant.
Il est essentiel dtablir une bonne relation au dpart pour le succs de linterview. Lintervieweur doit
couter le rpondant et tre prt rpondre ses questions (le manuel de lintervieweur devrait
comprendre les rponses aux questions habituelles). Si le rpondant hsite aller de lavant,
lintervieweur devrait essayer de dterminer les principales proccupations du rpondant et y rpondre.
Les proccupations exprimes peuvent tre lune des suivantes :
i.
Donner une explication simple de la slection alatoire convaincra le rpondant quil a t choisi au
hasard et que ses rponses sont importantes parce quil reprsente en fait dautres personnes dans la
population.
ii.
Lintervieweur doit prciser honntement la dure de linterview. Il devrait tre dispos faire linterview
immdiatement. Il ne devrait jamais supposer que le rpondant na pas le temps. Si le rpondant ne peut
STATISTIQUE CANADA
206
rpondre immdiatement linterview, lintervieweur devrait suggrer une autre heure et prendre des
dispositions fermes pour dterminer le moment de linterview. Certains refuseront de participer sils ne
comprennent pas clairement limportance de lenqute et lutilisation des donnes. Lintervieweur devrait
tre certain que ces points sont clairement expliqus pendant la prsentation.
9.4.3
Utilisation du questionnaire
La collecte des donnes doit tre uniforme pour toutes les interviews, cest--dire quil faut poser les
mmes questions de la mme faon tous les rpondants. Les lignes directrices suivantes expliquent
comment utiliser le questionnaire pour faire la collecte uniforme des donnes :
i.
La recherche rvle que la modification, mme trs lgre ou par mgarde, de la formulation peut changer
la rponse obtenue.
ii.
La squence des questions est planifie aux fins de la continuit. La squence est aussi dispose de faon
ce que les premires questions naient pas de rpercussions ngatives sur les rponses du rpondant aux
questions ultrieures.
iii.
Lorsque le rpondant rpond une question, il rpond aussi parfois une autre question ultrieure dans
linterview. Il est quand mme important que lintervieweur pose la question ultrieure au moment
opportun. Le rpondant peut affirmer : Vous mavez dj dit quelque chose ce sujet, mais la situation
indique que lintervieweur est conscient de la rponse prcdente et quil demande la collaboration du
rpondant pour rpondre de nouveau la question.
iv.
Un intervieweur peut tre mal laise lorsquil pose certains questions et sembler sexcuser, par
exemple : Vous refuserez peut-tre de rpondre cette question, mais . . .ou Cette question vous semblera
probablement insense . . . Ces affirmations ont des rpercussions ngatives sur le dbit de linterview et
elles ont tendance modifier les rponses du rpondant. Si lintervieweur pose la question sur un ton
positif ou neutre, le rpondant comprend quil sagit simplement dune autre question et quil peut y
rpondre sans crainte dtre jug.
v.
Il faut expliquer les dlais entre les questions, en particulier pendant les interviews tlphoniques.
Le temps dentre est plus long pour certaines rponses. Lintervieweur peut expliquer au rpondant en
ajoutant : Veuillez excuser le dlai, jinscris jentre votre rponse.
vi.
Les questions devraient tre formules de faon ce que chacun les comprenne et la majorit des
rpondants les comprendront (si le questionnaire est bien conu). loccasion cependant, un rpondant
peut mal comprendre ou interprter une question. Lintervieweur doit alors rpter la question en
STATISTIQUE CANADA
207
Une question filtre ou passez dtermine si les questions ultrieures sappliquent et dtermine le
cheminement de linterview. Lintervieweur doit tre particulirement attentif aux questions filtres et
remarquer les instructions lintervieweur dans le questionnaire. Linstruction passez est
programme pour linterview assiste par ordinateur (IAO), mais lintervieweur doit quand mme bien
connatre les caractristiques du cheminement.
viii.
Le rpondant peut donner des rponses socialement acceptables, son avis, sil a limpression que
lintervieweur porte un jugement. Le rpondant ne doit pas avoir limpression que certaines rponses sont
plus acceptables que dautres. Rien dans lattitude de lintervieweur ou dans son ton ne devrait laisser
souponner la critique, la surprise, lapprobation ou la dsapprobation, laccord ou le dsaccord lorsque la
personne rpond aux questions. Lintervieweur accepte la rponse du rpondant si elle correspond
lventail des rponses acceptables.
La conception du questionnaire et les erreurs de rponse ont t tudies au Chapitre 5 - Conception du
questionnaire.
9.4.4
Approfondissement
Lapprofondissement est une technique utilise lorsque lintervieweur remarque que la rponse natteint
pas lobjectif de la question. Le rpondant ne sait peut-tre pas la rponse ou peut mal interprter ou
comprendre la question et sa rponse est donc incomplte, obscure ou incohrente, compte tenu dautres
renseignements. Lintervieweur doit donc approfondir sur un ton neutre pour obtenir linformation
ncessaire.
Avant dapprofondir cependant, il faut poser de nouveau la question en respectant sa formulation au cas
o le rpondant naurait simplement pas entendu la question. Lintervieweur devrait utiliser les dfinitions
sil doit prciser la question. Sil nobtient toujours pas une rponse satisfaisante, il peut utiliser un
nonc neutre pour demander davantage dinformation, notamment :
Je ne suis pas certain de ce que vous voulez dire
ou
Pouvez-vous men dire un peu plus?
ou
Autre chose?
Lintervieweur peut aussi aider le rpondant en ciblant la catgorie de rponse exacte :
Quel nombre est le plus prs, selon vous?
ou
Est-il plus grand, ou moins grand que? (pour les rponses numriques)
ou
tait-ce le printemps, lt, lautomne ou lhiver?
STATISTIQUE CANADA
208
Il est possible de reformuler la question, mais il faut tre trs prudent. Les questions ne devraient pas tre
reformules de faon suggrer une rponse. Si la question est Combien de semaines avez-vous travaill
lan dernier?, par exemple, il ne faudrait pas la reformuler ainsi : Avez-vous travaill toute lanne?, mais
plutt comme suit : Avez-vous travaill lan dernier? et si oui, Pendant combien de semaines?
9.4.5
Conclusion de linterview
La dernire tape du processus de linterview est de vrifier si vous avez obtenu toute linformation
ncessaire et si elle est crite lisiblement. la fin de chaque interview, lintervieweur examine le
questionnaire attentivement et apporte les vrifications ncessaires. Il ou elle naura peut-tre pas
suffisamment de temps pour le faire en prsence du rpondant. Il est donc important de remercier
poliment le rpondant pour toute linformation donne, mais dajouter quun suivi tlphonique est
possible si une prcision est ncessaire. Lintervieweur devrait offrir de rpondre aux questions du
rpondant sur lenqute, sil en a dautres. Il est important que le rpondant ait limpression davoir bien
rempli son temps et que sa participation lenqute est importante et valable.
9.4.6
ii.
Si lheure de linterview ne convient pas, lintervieweur devrait prsenter des excuses (au lieu de
risquer un refus) et suggrer une heure pour tlphoner de nouveau.
iii.
Il est peut-tre possible de ngocier avec un rpondant rticent. Lintervieweur peut suggrer que
le rpondant rponde quelques questions et, lorsque linterview est lance, le rpondant peut
dcider de continuer. Lintervieweur peut informer le rpondant, par souci de courtoisie, quil ou
quelle peut refuser de rpondre des questions en particulier sil considre quil essuierait
autrement un refus total.
iv.
v.
vi.
STATISTIQUE CANADA
209
vii.
Si le rpondant prouve un problme personnel, par exemple une maladie grave ou un deuil,
lintervieweur doit valuer la situation et dterminer sil continue linterview, prend des
dispositions pour tlphoner de nouveau un moment opportun ou met fin linterview sil tait
dplac de continuer ou sil na aucune chance de succs.
viii.
Communiquer avec un rpondant dans une tour dhabitation pose parfois un problme parce que
linterphone nest pas un bon moyen dobtenir une interview. Lintervieweur peut essayer
dtablir la communication avec le surintendant, le bailleur ou le propritaire de limmeuble pour
expliquer le but de la visite et demander la permission dentrer dans limmeuble pour pouvoir
faire une prsentation sur place.
ix.
x.
Lintervieweur ne doit jamais avoir recours des pratiques qui contreviennent lthique pour
procder une interview. Si le rpondant nest pas domicile, lintervieweur (aprs stre
identifi) peut demander un voisin quel moment serait opportun pour tlphoner.
Lintervieweur devrait cependant tre prudent, viter de susciter la mfiance et limiter ses
questions lorsquil demande quand communiquer avec le rpondant.
xi.
En bout de ligne, et cest aussi important, lintervieweur ne devrait pas oublier ses droits. Sil est
menac de mauvais traitements, victime de menaces de vive voix, de harclement physique ou de
violence, lintervieweur devrait quitter immdiatement et dclarer lincident au surveillant.
9.4.7
Lintervieweur peut obtenir linformation pour un rpondant absent, dans certaines enqutes, en
interviewant une autre personne informe, et cette mesure est intitule rponse dun substitut ou rponse
par procuration. La rponse par procuration convient aux enqutes qui collectent des donnes
gnralement connues dautres personnes que le rpondant cibl, et elle est donc habituellement
inapproprie pour les questions personnelles, dopinion personnelle ou caractre dlicat.
Il faudrait informer lintervieweur pendant la formation si linterview de substituts est permise et, si oui, il
faudrait prciser qui sont les substituts acceptables. Lintervieweur devrait supposer en gnral quun
substitut ne convient pas linterview, sauf avis contraire. Si un substitut ne convient pas et si que le
rpondant prouve des difficults communiquer dans lune ou lautre des langues officielles, dautres
membres de la famille peuvent intervenir titre de traducteurs avec la permission du rpondant.
Linterview sans substitut exige gnralement un effort plus grand que celui de linterview avec substitut
et le taux de rponse est moins lev. Lintervieweur ne doit pas oublier que le nombre de rappels et de
rendez-vous ncessaires pour procder des interviews sans substitut devrait tre soigneusement
dtermin pour viter le fardeau de rponse et limiter les cots de lenqute.
9.4.8
STATISTIQUE CANADA
210
i.
Confiance
Lintervieweur doit avoir confiance en ses capacits. Il peut y arriver seulement sil comprend bien
lenqute et le rle de lintervieweur.
ii.
Aptitudes couter
Lintervieweur devrait attendre que le rpondant ait fini de parler avant de cesser de lcouter.
Lintervieweur peut indiquer quil coute en ajoutant loccasion Oui, je vois. Lintervieweur ne devrait
cependant pas supposer quil sait ce que dira le rpondant et finir la phrase sa place. Il vaut mieux poser
des questions sil a limpression que le rpondant ou lui-mme est pass ct de la question.
iii.
Compassion
locution
Lexpression de vive voix est importante, en particulier pour linterview tlphonique. Lintervieweur
devrait sexprimer trs clairement, un rythme modr. Si lintervieweur sexprime trop rapidement, le
rpondant peut manquer une partie de la question. Sil sexprime trop lentement, le rpondant peut
commencer rpondre avant quil ait fini de poser la question. Baissez la tte et le ton de la voix baisse.
Un ton de voix plus bas est plus clair et sentend mieux, en particulier au tlphone. Il faudrait donner des
exemples du rythme et du ton appropris pendant la formation.
v.
Connaissance du questionnaire
Lintervieweur doit connatre le questionnaire, les concepts et la terminologie utiliss dans lenqute. Il
naura pas le temps pendant linterview de consulter les dfinitions ou les rponses aux questions dans le
manuel. Rien ne peut rompre la communication plus rapidement que de longues pauses, en particulier
pendant les interviews tlphoniques.
9.5
Dans les enqutes avec interview assiste par ordinateur (IAO), la gestion des tches de lintervieweur,
ainsi que la surveillance de ltat davancement dans lensemble, et de nombreux indicateurs de la qualit
et du rendement sont automatiss laide dun logiciel. Les mesures de la qualit et du rendement sont
intgres la programmation de lIAO, mais les principes sont les mmes que ceux des enqutes sur
support papier. Nous utilisons dans cette section les exigences des enqutes sur support papier pour
illustrer les contrles ncessaires appliquer dans toute enqute. Le lecteur trouvera davantage de dtails
au Chapitre 10 - Traitement et lAnnexe B - Contrle qualitatif et assurance de la qualit.
9.5.1
STATISTIQUE CANADA
i.
211
Le surveillant coute les interviews concrtes, en particulier celles des nouveaux intervieweurs et des
premires tapes de la collecte, pour vrifier si le questionnaire est utilis correctement et si les
techniques dinterview sont efficaces et uniformes dune interview lautre. tant donn que les
intervieweurs peuvent donner une rtroaction valable sur les procdures de collecte des donnes et la
conception du questionnaire, il faudrait les inviter suggrer des amliorations apporter lenqute.
ii.
Cette mesure garantit que lintervieweur applique correctement les vrifications sur place et que
linformation manquante peut tre obtenue des rpondants, en temps opportun, pendant que lenqute se
droule toujours sur le terrain. Si le surveillant rvise les vrifications des donnes, lquipe charge de
lenqute peut obtenir davance des renseignements sur le genre de rejets la vrification possibles
pendant ltape de la vrification informatique aprs la collecte.
iii.
Ce point est considr en dtail en 9.5.3. Ces mesures donnent une ide de la qualit pendant la collecte
des donnes. Si le surveillant repre et rgle les problmes le plus tt possible, il peut grer la collecte des
donnes de faon atteindre, ou mieux, dpasser les taux de rponse et les autres indicateurs de qualit
cibles.
iv.
Il faut exercer un contrle sur chaque questionnaire chaque tape de la collecte des donnes laide de
certaines entres, par exemple, reu de lintervieweur le (date) , envoy au dpistage le (date) ,
envoy la saisie le (date) , etc. La formule de contrle de lchantillon du surveillant (et son lien avec
les identificateurs de chaque intervieweur) est essentielle au contrle efficace des documents et de
lchantillon. Les intervieweurs peuvent inscrire ltat davancement de leurs tches sur papier, mais
lautomatisation du contrle de lchantillon dans lensemble est recommande pour simplifier le travail
du surveillant. Un code dtat dfinitif (p. ex., achev, refus, etc.) doit tre appliqu chaque
questionnaire la fin de la collecte.
v.
Une sance dinformation du personnel de lenqute la fin de la collecte des donnes peut aider
dcouvrir les problmes du processus de collecte des donnes. Ces problmes peuvent tre des
renseignements importants pour le traitement aprs la collecte (c.--d. identifier les vrifications qui sont
ncessaires aprs la collecte). Des amliorations peuvent aussi tre apportes au Systme dinformation
de gestion, aux campagnes de relations publiques, etc., dans le cas des enqutes ritres.
vi.
Le charg denqute voudra peut-tre reprer les modifications apportes aux donnes pendant les
processus denqute ultrieurs. La frquence des rejets la vrification aprs la collecte, ainsi que le
nombre et le genre de corrections apportes aux donnes, peuvent se traduire par des renseignements
utiles sur la qualit et servir dindications prcisant que les outils ou les procdures de collecte devraient
tre modifis au cours des cycles ultrieurs de lenqute.
STATISTIQUE CANADA
212
9.5.2
Priodiquement pendant la collecte (habituellement une fois par semaine), lintervieweur doit faire
rapport sur ltat davancement dans lensemble sur une feuille de contrle des tches. Le code dtat en
instance (rparti ensuite en deux catgories : tentative faire et tentative faite ) est attribu aux
units de lchantillon toujours en cours ou avec lesquelles lintervieweur na pas encore communiqu.
Lorsque lintervieweur a trait une unit de lchantillon au mieux de sa capacit, un code dtat
rsolu lui est attribu comme suit :
ii.
iii.
Achev en partie : Le rpondant na pas rpondu tout le questionnaire, mais il a rpondu aux
principales questions. Avant denvoyer les intervieweurs sur le terrain, on identifie lensemble
minimal de questions auxquelles les rponses constituent un questionnaire utilisable.
iv.
Les cas de refus et de dpistage impossible peuvent tre rfrs pour suivi. Les rapports sommaires
des tches permettent de surveiller le nombre total dunits de lchantillon dans chaque catgorie.
Lintervieweur remet des rapports sommaires hebdomadaires et envoie aussi au bureau rgional tous les
questionnaires rsolus chaque semaine pour permettre le suivi des refus et la saisie des donnes en temps
opportun.
9.5.3
Les cibles de qualit et de rendement sont tablies au dbut de la collecte des donnes. Les surveillants
devraient se charger de la surveillance et de la gestion de leurs oprations, autant du point de vue des
tches de lintervieweur que dans lensemble, pour garantir que les cibles sont atteintes.
La cible de rendement est dtermine selon la proportion denregistrements rsolus :
Ce taux donne une indication de la somme de travail prvu qua achev lintervieweur. Le taux dunits
rsolues chaque semaine est compar au taux cible pour vrifier si lenqute sera conclue temps. Les
dpenses sont habituellement intgres dans cette valuation pour dterminer si lenqute est toujours
dans les limites du budget. Deux mesures habituelles du rendement par rapport au cot sont le cot par
unit rsolue et le solde du budget par unit non rsolue.
Le taux de rponse est un autre indicateur de rendement. Les rpercussions des non-rponses sont
considres au Chapitre 3 - Introduction au plan denqute et au Chapitre 7 - Estimation. Dans la
plupart des enqutes, la non-rponse est un lment important de lerreur non due lchantillonnage
(sous forme de biais) et de lerreur dchantillonnage (qui se traduit par une perte de prcision des
STATISTIQUE CANADA
213
estimations). La qualit cible est axe surtout sur le taux de rponse qui peut tre dtermin comme suit
pendant la collecte :
taux de rponse =
Supposons, par exemple, quun chantillon de 1 000 units a t slectionn dont 800 sont rsolues
(compltes, partielles, refus, hors du champ de lenqute, etc.) aprs une semaine de collecte des donnes.
Du nombre dunits rsolues, 700 sont dans le champ de lenqute. Du nombre dunits dans le champ de
lenqute, 550 rpondent au questionnaire (rponse complte ou partielle). Le taux de rponse aprs la
premire semaine de lenqute est donc 550/(700+200)= 61,1 %.
Un facteur dajustement est parfois appliqu aux units non rsolues, tant donn que certaines pourraient
tre hors du champ de lenqute. Cela signifie dans lexemple ci-dessus que, des 200 units non rsolues,
environ 175 seraient probablement dans le champ de lenqute (si lon retient la mme proportion que
celle des units rsolues). Le taux de rponse ajust serait donc 550/(700+175) = 62,9 %.
Outre les taux de rponse et la proportion denregistrements rsolus, les surveillants devraient aussi
surveiller dautres indicateurs qui peuvent rvler dventuels problmes de qualit. Des taux levs de
refus ou de non-communication dans une tche peuvent indiquer que lintervieweur a des problmes. Si
certains codes (en particulier inoccup ) sont plus frquents chez certains intervieweurs, il peut y avoir
un problme (p. ex., le logement tait-il vraiment inoccup ou les rsidents taient-ils temporairement
absents? Lintervieweur ne fait peut-tre pas la diffrence entre les deux). Des taux levs de refus dans
un chantillon complet rvlent la rsistance du public et il peut tre difficile dobtenir la qualit de
donnes voulue compte tenu de la priode de lenqute et de lenveloppe budgtaire. Un nombre plus
lev que prvu dunits hors du champ de lenqute peut rvler des problmes de base de sondage.
Dans le cas des enqutes-entreprises, les grandes entreprises peuvent tre surveilles distinctement parce
quelles peuvent avoir des rpercussions sur les estimations dfinitives de lenqute.
Pour plus dinformation sur les normes et lignes directrices de mesure des non-rponses de Statistique
Canada, consulter les Normes et lignes directrices de dclaration des taux de non-rponse (2001).
9.5.4
Les taux de rponse et certaines des autres mesures considres ci-dessus sont les seuls indicateurs de la
qualit de la collecte des donnes dans de nombreuses enqutes. Dans les trs grandes enqutes ritres,
il est possible de concevoir des expriences pour essayer de mesurer lampleur du biais que suscitent les
activits de collecte des donnes. Voici les tudes les plus habituelles :
Vrifications du listage : Les units admissibles (dans le champ de lenqute) des UP ont-elles t toutes
listes? Tous les membres admissibles dun mnage ont-ils t lists? Y a-t-il des rptitions? Quelles
sont les caractristiques des units manquantes ou ritres? Voil une tentative de mesure des erreurs de
couverture.
Ce rsultat est quivalent au nombre total dunits dans lchantillon moins le nombre dunits hors du champ de
lenqute.
STATISTIQUE CANADA
214
i.
Les units listes inoccupes (ou hors du champ de lenqute) taient-elles rellement inoccupes ou y
a-t-il eu erreur de classification? Quelles sont les caractristiques des units classes par erreur? On essaie
ainsi de mesurer le sous-dnombrement dans la base de sondage.
ii.
Une tude spciale des non-rponses peut tre faite pour valuer le biais qui dcoule de la non-rponse
totale laide dinterviews spciales de suivi avec des non-rpondants de lenqute (c.--d. essayer
dobtenir des rponses dun sous-ensemble de non-rpondants).
tant donn que leur objectif est de mesurer le biais que suscite lerreur non due lchantillonnage, ces
tudes sont des enqutes complexes en soi, elles peuvent coter cher, et il faut les concevoir selon les
principes considrs aux chapitres prcdents.
Les erreurs non dues lchantillonnage ont t tudies au Chapitre 3 - Introduction au plan
denqute.
9.6
Sommaire
Ce chapitre explique comment les oprations de collecte des donnes peuvent tre organises, ainsi que
les divers chelons de responsabilit, dorganisation et de contrle. Une attention spciale a t apporte
aux interventions respectives du surveillant et de lintervieweur. Les questions de relations publiques ont
t considres, y compris les campagnes publicitaires de lenqute et les relations avec les rpondants et
le grand public. La prparation de la collecte des donnes, notamment les manuels pertinents, lembauche
et la formation des intervieweurs, le listage, le dpistage et les mises jour de la base de sondage, ainsi
que les techniques dinterview, ont fait lobjet dun examen. Les mthodes de surveillance de la qualit et
du rendement ont t considres en dfinitive.
Il faudrait appliquer les lignes directrices suivantes pour garantir que les donnes obtenues pendant
lenqute sont compltes et prcises, le plus possible :
i.
Les intervieweurs sont essentiels au succs des enqutes assistes par intervieweur. Ceux qui sont
embauchs devraient avoir les capacits et les qualits personnelles ncessaires, ainsi que la
formation et les outils appropris.
ii.
Les procdures de collecte des donnes devraient tre appliques uniformment toutes les units
chantillonnes et les erreurs devraient tre extraites le plus possible de ces procdures : tous les
intervieweurs devraient recevoir la mme formation et les mmes manuels, tous les codeurs
devraient recevoir les mmes instructions, etc.
STATISTIQUE CANADA
215
iii.
Il faudrait appliquer les procdures de contrle de lchantillon appropries toutes les oprations
de collecte des donnes. Ces procdures permettent de reprer ltat davancement des
questionnaires, partir du dbut jusqu la conclusion de la collecte et de lentre des donnes.
iv.
Afin doptimiser les taux de rponse et la qualit de linformation obtenue des entreprises et des
tablissements, le charg denqute devrait veiller ce quun intervenant communique avec la
personne approprie dans lorganisme, au moment opportun, pour que linformation soit
facilement disponible. Il faudrait permettre ces rpondants de communiquer les donnes selon
une mthode et une prsentation qui leur conviennent, lorsque cest possible.
v.
Il faudrait tablir des systmes de contrle efficaces pour garantir la scurit des questionnaires et
de la communication des donnes des bureaux rgionaux au Bureau central.
vi.
Il faudrait implanter un Systme dinformation de gestion pour reprer les mesures de la qualit,
les dpenses et dautres mesures du rendement pendant la collecte des donnes.
vii.
Le charg denqute voudra peut-tre reprer les modifications apportes aux donnes pendant les
processus ultrieurs de lenqute. La frquence des rejets la vrification aprs la collecte, ainsi
que le nombre et le genre de corrections apportes aux donnes, peuvent donner de linformation
utile sur la qualit et servir dindication rvlant que les outils et procdures de collecte devraient
tre modifis dans les cycles ultrieurs de lenqute.
Bibliographie
Cialdini, R., M. Couper et R.M. Groves. 1992. Understanding the Decision to Participate in a Survey.
Public Opinion Quarterly, 56: 475-495.
Couper, M.P. et R.M. Groves. 1992. Le rle de l'intervieweur dans la participation aux enqutes,
Techniques d'enqute, 18(2): 279-294.
Statistique Canada. 2001. Normes et lignes directrices pour la dclaration des taux de non-rponse.
Statistique Canada. 1995. Les techniques d'interview d'une enqute : un guide pour mener des interviews
efficaces. 12F0047XPF.
Statistique Canada.1998. Politique dinformation des rpondants aux enqutes. Manuel des politiques.
1.1.
Statistique Canada. 1998. Lignes directrices concernant la qualit. 12-539-XIF.
STATISTIQUE CANADA
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
217
Chapitre 10 - Traitement
10.0 Introduction
Le traitement transforme les rponses du questionnaire obtenues pendant la collecte pour quelles
conviennent la totalisation et lanalyse des donnes. Il comprend toutes les activits de traitement
des donnes, automatis et manuel, aprs la collecte et avant lestimation. Le traitement demande
beaucoup de temps et de ressources, et il a des rpercussions sur la qualit et le cot des donnes
dfinitives. Il est donc important de bien le planifier, de surveiller la qualit de sa mise en uvre et
dapporter des mesures correctives au besoin.
Le genre de donnes obtenir, la mthode de collecte, le budget et les objectifs de lenqute du point de
vue de la qualit des donnes, notamment, dterminent la porte et lordre des activits de traitement. Le
codage, par exemple, peut tre fait avant ou aprs la saisie des donnes, mais la vrification est
habituellement faite tout au long de lenqute. Voici un exemple des activits de traitement dun
questionnaire sur support papier :
i.
Vrification des donnes du questionnaire aprs la collecte. Cette tape garantit que toute
linformation ncessaire a t obtenue et enregistre lisiblement, que les notes de lintervieweur
ont t examines et que certaines vrifications prliminaires ont t faites pour dterminer sil y
a des incohrences et des erreurs grossires.
ii.
Codage de toutes les donnes du questionnaire qui doivent tre codes (p. ex., rponses aux
questions ouvertes rdiges la main).
iii.
Saisie des donnes. Dautres activits de codage peuvent suivre la saisie des donnes.
iv.
Vrification dtaille et ensuite, imputation. Les questionnaires rejets aprs une vrification ou
plus sont retirs du lot pour examen ultrieur, suivi auprs des rpondants ou imputation.
v.
Dtection des valeurs aberrantes pour identifier les valeurs extrmes ou suspectes.
vi.
Sauvegarde dans une base de donnes pour faciliter lutilisation des donnes pendant les activits
aprs le traitement.
Plusieurs activits ci-dessus, notamment la saisie, la vrification et le codage, peuvent tre intgres par
automatisation laide de mthodes de collecte assiste par ordinateur pour rationaliser le traitement.
tant donn que des erreurs sont probables chaque tape du traitement, en particulier pour les activits
rptitives et manuelles, par exemple le codage, la saisie et la vrification, il faudrait surveiller le
traitement et apporter des mesures correctives au besoin pour maintenir ou amliorer la qualit. Cette
intervention est possible en appliquant les procdures de contrle qualitatif et dassurance de la qualit.
Lobjectif de ce chapitre est de couvrir les principales activits de traitement : codage, saisie des donnes,
vrification, imputation, dtection des valeurs aberrantes, traitement et implantation dune base de
donnes. Le lecteur obtiendra des dtails sur le contrle qualitatif et lassurance de la qualit en consultant
lAnnexe B - Contrle qualitatif et assurance de la qualit.
STATISTIQUE CANADA
218
10.1 Codage
Le codage est le processus dattribution dune valeur numrique aux rponses pour faciliter la saisie
des donnes et le traitement en gnral. Il est mentionn au Chapitre 3 - Introduction au plan
denqute que le codage comprend lattribution dun code une rponse donne ou la comparaison de la
rponse un ensemble de codes et la slection de celui qui dcrit le mieux la rponse.
Dterminer un ensemble de catgories de rponse une question pose des difficults qui ont t
considres au Chapitre 5 - Conception du questionnaire. Les catgories de rponse sont dtermines
avant la collecte pour les questions fermes et le code numrique est habituellement affich sur le
questionnaire ct de chaque catgorie de rponse. Le codage des rponses aux questions ouvertes est
fait aprs la collecte, et il peut tre manuel ou automatis. Le codeur doit interprter et faire preuve de
jugement pour le codage manuel et les rsultats peuvent varier dun codeur lautre.
Lorsque vous choisissez la mthode de codage, lobjectif devrait tre de classer les rponses en un
ensemble significatif de catgories exhaustives et mutuellement exclusives qui font ressortir les
caractristiques essentielles des rponses. Le codage de certaines questions peut tre direct (p. ex., tat
matrimonial). Autrement, un autre systme de codage standard peut exister, par exemple pour la
gographie, la branche dactivit et la profession. Il ny a cependant pas de systme de codage standard
appliqu de nombreuses autres questions et le choix dune bonne mthode de codage nest pas une tche
triviale. La mthode de codage devrait tre uniforme et logique. Il faut dterminer quel point les codes
doivent tre dtaills, compte tenu de lobjectif de lenqute, des totalisations et des analyses de donnes
faire. Il vaut mieux commencer avec une liste assez large parce quun nombre insuffisant de catgories
peut tre trompeur et une grande catgorie autre peut tre dmunie dinformation. Les catgories peuvent
toujours tre regroupes, mais il est difficile de les ventiler aprs coup.
Nous avons prcis au Chapitre 5 - Conception du questionnaire quil faudrait considrer le genre
dinterview pour dterminer les catgories de rponse une question ferme. Remettre une liste de
50 catgories sur support papier aux rpondants est faisable (mais pas idal) pour les enqutes par
autodnombrement, mais ce nest pas pratique dnumrer les 50 catgories de rponse pendant une
interview tlphonique. Idalement, toutes les questions dun questionnaire seraient fermes et il y aurait
une brve liste de catgories de rponse pour simplifier le codage. Ce nest pas toujours possible en
pratique et les questions ouvertes sont parfois ncessaires.
STATISTIQUE CANADA
TRAITEMENT
219
STATISTIQUE CANADA
220
Le parsage est le plus souvent la premire tape du codage automatis. Le parsage est le processus de
normalisation dune phrase pour permettre lordinateur de reprer les phrases quivalentes. Le parsage
comprend habituellement la suppression des caractres superflus, par exemple la ponctuation, les mots en
double, les mots sans importance, certains suffixes et prfixes, etc. Le parsage est appliqu aux fichiers de
rfrence et de rponses en lettres avant daller de lavant.
Ltape suivante comprend la recherche dune entre dans le fichier de rfrence qui correspond
exactement une rponse en lettres dans le fichier de lenqute. Sil y en a une, le code du fichier de
rfrence est copi dans le fichier de lenqute et lenregistrement1 est considr cod. Sil ny a pas de
correspondance exacte cependant, on essaie de trouver les enregistrements du fichier de rfrence qui
correspondent le plus possible. Une cote est attribue chaque enregistrement du fichier de rfrence
pour indiquer quel point la phrase du fichier de rfrence est semblable la rponse du questionnaire.
Les cotes sont values selon des paramtres dtermins (lesquels sont prciss pour rduire le risque
derreur) et si une cote est suffisamment leve, le code est transfr la rponse du questionnaire et
lenregistrement est considr cod.
Plusieurs enregistrements du fichier de rfrence ayant des cotes semblables sont parfois reprs, mais
parfois aussi, le fichier de rfrence ne contient aucun enregistrement qui correspond suffisamment la
rponse du questionnaire. Dans ces situations, les enregistrements sont gnralement envoys une petite
quipe de codage manuel dote de codeurs experts chargs de coder les enregistrements non cods la fin
de ltape automatise et de vrifier la qualit du produit du systme automatis (voir lAnnexe B Contrle qualitatif et assurance de la qualit).
Dans ce chapitre, le questionnaire est gnralement le document sur support papier et lenregistrement est la
version lectronique du questionnaire rempli.
STATISTIQUE CANADA
TRAITEMENT
221
rponses sur une seule feuille de papier est une autre option. La lecture optique est simplifie, mais
lintervieweur devra faire davantage defforts pour lire une question sur une feuille et inscrire la rponse
sur une autre. Cette mthode est aussi restreinte aux questions fermes et, si lintervieweur a en main une
grande feuille remplie de cases de rponse, il est plus facile de coder la mauvaise rponse ou de coder la
rponse dans la mauvaise case. Lintervieweur aura aussi de la difficult consulter une rponse dun
rpondant parce que les questions et rponses sont inscrites sur des feuilles distinctes.
Il est particulirement important dappliquer les procdures de contrle qualitatif et dassurance de la
qualit aux mthodes de collecte sur support papier pour minimiser et corriger les erreurs pendant la saisie
des donnes (voir lAnnexe B - Contrle qualitatif et assurance de la qualit).
10.3 Vrification
Dans un monde idal, chaque questionnaire serait rempli sans erreur. Les rponses certaines questions
peuvent malheureusement tre absentes, incompltes ou inexactes. La vrification est lexamen des
rponses pour identifier les entres manquantes, non valables ou incohrentes qui indiquent des
enregistrements de donnes ventuellement errones. La vrification permet habituellement didentifier
les erreurs non dues lchantillonnage que suscitent les erreurs de mesure (rponses), les non-rponses
ou le traitement. La vrification vise :
- mieux comprendre les processus et les donnes de lenqute,
- reprer les donnes errones ou manquantes,
- faire le suivi auprs du rpondant,
- acheminer un enregistrement pour imputation,
- supprimer un enregistrement.
Des rgles de vrification sont appliques pour identifier les enregistrements errons. Voici des exemples
de rgles de vrification :
- chaque question doit avoir une rponse et seulement une,
- les rponses valides la question X sont 1 ou 2,
- la somme des parties pour la question X ne peut tre moindre que la rponse la question Y.
Des vrifications peuvent tre faites plusieurs tapes pendant le processus de lenqute et elles passent
des simples vrifications prliminaires des intervieweurs sur place aux vrifications automatises plus
complexes excutes par un programme informatique aprs la saisie des donnes. Les rgles de la
vrification sont gnralement formules selon ce qui peut tre logique ou valide, compte tenu :
- des connaissances de lexpert en la matire,
- dautres enqutes ou donnes connexes,
- de la structure du questionnaire et de ses questions,
- dune thorie statistique.
Les experts en la matire devraient savoir comment les variables sont lies lune lautre et quelles
rponses sont raisonnables. Leur intervention est importante pour prciser le genre de rgles appropries.
Ces analystes ont habituellement lexprience du genre de donnes vrifies. Un analyste des transports,
par exemple, peut tre conscient de ltendue des valeurs acceptables pour les taux de consommation
dessence des divers modles et marques de vhicule. Lanalyse dautres enqutes ou ensembles de
donnes pertinents aux mmes genres de variables que celles qui sont vrifies peut tre utile pour tablir
certaines rgles de vrification.
Point tout aussi important, la configuration et la structure du questionnaire ont des rpercussions sur les
rgles de la vrification. Les vrifications devraient dterminer si les rponses correspondent au
STATISTIQUE CANADA
222
cheminement logique des questions. Il est souvent rvl laide des instructions sur lenchanement des
questions ou passez qui sous-entendent que certaines questions du questionnaire ne sappliquent pas
certaines catgories de rpondants et le rpondant doit alors passer une autre question.
Il y a trois principales catgories de vrification : les vrifications de validit, de cohrence et de
distribution. Les vrifications de validit et de cohrence sont appliques un questionnaire la fois. Les
vrifications de validit ciblent la syntaxe des rponses et comprennent la vrification des caractres non
numriques entrs dans les champs numriques et le reprage des valeurs manquantes. Les deux premiers
exemples de rgles de vrification ci-dessus correspondent des vrifications de validit. Celles-ci
peuvent aussi dterminer si les donnes codes sinscrivent dans ltendue permise des valeurs. Une
vrification de ltendue peut tre faite, par exemple, pour lge dclar dun rpondant, afin de vrifier
sil se situe entre 0 et 125 ans.
Les vrifications de cohrence dterminent si les liens entre les questions sont respects. Le troisime
exemple de rgle de vrification ci-dessus est la vrification de cohrence. Les vrifications de cohrence
peuvent utilisent des liens logiques, juridiques, comptables ou structurels entre les questions ou entre les
volets dune question. Le lien entre la date de naissance et ltat matrimonial est un exemple auquel la
vrification de cohrence peut tre applique : ltat matrimonial dune personne de moins de 15 ans
peut seulement tre jamais mari . Les vrifications de cohrence peuvent aussi porter sur le
cheminement logique des questions, par exemple, si le rpondant inscrit non la question X, il ne peut
rpondre la question Y . Les vrifications de cohrence peuvent aussi comprendre le recours aux
donnes chronologiques (p. ex., les ratios dune anne lautre). Dans le cas des enqutes-mnages, les
vrifications peuvent tre faites entre les membres du mnage.
Les vrifications de distribution sont faites en observant les donnes entre les questionnaires. Elles tentent
de dterminer les enregistrements qui sont des valeurs aberrantes du point de vue de la distribution des
donnes. Les vrifications de distribution sont parfois considres comme des vrifications statistiques
(Hidiroglou et Berthelot, 1986) ou la dtection de valeurs aberrantes (voir la Section 10.5). Les erreurs
non dues lchantillonnage sont considres au Chapitre 3 - Introduction au plan denqute.
STATISTIQUE CANADA
TRAITEMENT
223
lintervieweur. Elles servent aussi dtecter les erreurs que lintervieweur ou le rpondant ont commises
pendant linterview, ainsi que linformation manquante pendant la collecte, afin damenuiser le besoin de
suivi ultrieur. La vrification pendant la collecte est beaucoup plus facile faire si elle est incorpore
une mthode de collecte assiste par ordinateur.
Les rpondants peuvent vrifier leurs propres rponses un questionnaire dautodnombrement. Presque
toutes les enqutes assistes par intervieweur comprennent une certaine vrification pendant linterview,
les intervieweurs ont des instructions et sont forms pour examiner les rponses quils inscrivent dans un
questionnaire immdiatement la fin de linterview, aprs avoir quitt le logement ou raccroch le
combin du tlphone. Ils ont ainsi loccasion de dtecter et de traiter les enregistrements rejets aprs
lapplication des rgles de la vrification, soit parce quils ont toujours linformation exacte la mmoire,
soit parce quils peuvent facilement faire le suivi peu de frais auprs du rpondant pour dterminer les
valeurs exactes. Les rejets la vrification toujours non rsolus sont habituellement rgls plus tard par
imputation.
Les vrifications sur place servent aussi purer des rponses. Lintervieweur inscrit souvent de brves
notes en marge du questionnaire pendant linterview ou dans la section des notes de lapplication de
lITAO. Lintervieweur prend des notes parce quil ne connat pas le programme de codage des questions
ouvertes ou il veut consulter le manuel de lintervieweur pour interprter une rponse. Lintervieweur
vrifie alors ces questionnaires aprs linterview pour purer ces notes.
Lune des tches confies aux surveillants est la vrification du travail de ces intervieweurs pour dtecter
les erreurs et les en informer. Les genres de rejets dtects sont habituellement semblables ceux que
pourrait reprer lintervieweur immdiatement aprs linterview et lintervieweur a habituellement
loccasion de faire le suivi auprs du rpondant pour dterminer les valeurs exactes. Les surveillants
devraient aussi chercher les caractristiques des erreurs commises. Il faudrait communiquer toute
lquipe les leons apprises dun intervieweur.
Dans de nombreuses enqutes, le rpondant ou lintervieweur envoie les questionnaires remplis au bureau
rgional pour tlchargement et prtraitement par les prposs aux activits de bureau. Ce prtraitement
comprend souvent les mmes vrifications des intervieweurs ou des surveillants, ou des vrifications
supplmentaires. Le prtraitement comprend le dchiffrage des rponses inscrites la main,
linterprtation des remarques de lintervieweur, la normalisation des chelles de mesure (p. ex., calculer
en mtres une valeur inscrite en pieds), etc. Il permet aussi de vrifier si lintervieweur a rempli tous les
champs administratifs du questionnaire, notamment, les codes dtat des rponses (p. ex., qui indiquent si
le questionnaire est rempli en tout ou en partie). Ce processus donne une vrification ou un examen
autonome systmatique des donnes du questionnaire avant de les envoyer la saisie des donnes. La
vrification des codes didentification du questionnaire peut aussi tre un lment important de cet
exercice parce que les questionnaires ne peuvent tre entrs ou les donnes ne peuvent tre saisies sans
identification complte. Lampleur des vrifications dpend du budget disponible et jusqu quel point le
personnel de bureau affect la vrification peut reprer et rsoudre les problmes. Ce genre de
vrification est intgr, si possible, au codage, au pointage ou la rpartition en lots des questions du
questionnaire qui peuvent tre ncessaires avant de lancer la saisie des donnes. Le personnel du bureau
rgional peut faire le suivi auprs du rpondant, dans certains cas, pour rsoudre dimportants rejets la
vrification.
STATISTIQUE CANADA
224
faire des vrifications pendant la saisie, ou des programmes informatiques sen chargent
automatiquement, ou cest lapplication informatique qui les fait dans le cas des mthodes de collecte
assistes par ordinateur. Sil sagit de la saisie manuelle des donnes des questionnaires sur support
papier, il est conomique de profiter de loccasion pour appliquer les rgles et purer les donnes
suffisamment, afin que les tapes de traitement ultrieures soient plus efficientes. La vrification pendant
la saisie des donnes est gnralement minimise parce que lintervention aprs un rejet la vrification
ralentit la saisie des donnes. cette tape du traitement, ce sont surtout des vrifications de validit et de
simples vrifications de cohrence.
Les rgles de vrification plus complexes sont gnralement rserves ltape distincte de vrification
aprs la saisie des donnes, ainsi que des vrifications de validit et des vrifications plus complexes de la
cohrence souvent faites en mme temps que la vrification slective et la dtection des valeurs
aberrantes (voir la Section 10.5).
Au volet des rejets la vrification aprs la collecte des donnes, la procdure habituelle est dindiquer le
champ rejet la vrification et de limputer, ou dextraire lenregistrement du traitement ultrieur.
La majorit des rejets la vrification cette tape sont marqus pour imputation. Il est utile dentrer un
code spcial pour les valeurs rejetes la vrification, afin dindiquer quune valeur inacceptable ou un
blanc invalide a t repr. Ces indications sont particulirement utiles pour valuer la qualit des
donnes de lenqute. Dans certains cas, lenregistrement ou le questionnaire peut tre rejet aprs avoir
appliqu tellement de rgles de vrification (ou un petit nombre de vrifications critiques) quil devient
inutile au traitement ultrieur. Lenregistrement est alors habituellement considr comme celui dun nonrpondant, il est retir du circuit du traitement et il y a ajustement de la pondration pour non-rponse
(consulter le Chapitre 7 - Estimation pour obtenir des dtails sur les ajustements de la pondration).
STATISTIQUE CANADA
TRAITEMENT
225
Approche descendante
Si cette mthode est applique, les valeurs des donnes pondres les plus influentes sont listes de haut
en bas pour un domaine destimation donn et elles sont examines une par une. La vrification et
lexamen des donnes prennent fin lorsque la valeur suivante de la donne la plus influente na pas de
rpercussions importantes sur lestimation du domaine. Considrons, par exemple, un chantillon de cinq
entreprises tires dune population de 100 si on veut estimer dans lenqute le nombre total demploys
dans la population. Lestimation du nombre total demploys dans lenqute est 737. Lanalyste a
limpression que cette estimation est trop leve (parce quil prvoit que le nombre moyen demploys
par entreprise est de trois). Lanalyste examine la contribution relative de chaque enregistrement
lestimation totale. On peut constater au tableau 1 que le premier enregistrement atteint 81,4 % de
lestimation du total. Compte tenu de son influence sur lestimation, cet enregistrement est examin de
plus prs. Il devient vite vident que le nombre demploys dclars dans cette entreprise est plus lev
que prvu et la pondration est plus leve que celle des autres enregistrements (peut-tre cause dun
ajustement pour les non-rponses). Cet enregistrement est donc trait comme une observation influante
(voir la Section 10.5). tant donn que les autres valeurs pondres reprsentent seulement une petite
proportion du total dans lensemble, elles ne sont pas examines de plus prs.
Tableau 1 : Exemple de vrification descendante
Enregistrement
1
2
3
4
5
ii.
Nombre demploys
12
7
3
2
1
Pondration
50
8
12
15
15
Proportion du total
81,4 %
7,6 %
4,9 %
3,3 %
2,0 %
Mthode agrge
La mthode agrge permet didentifier les estimations pour un domaine qui paraissent suspectes. Les
donnes pondres de tous les enregistrements du domaine sont ensuite examines. Dans une enqute
estimant la taille moyenne des mnages, par exemple, si la taille moyenne dans un village en particulier
STATISTIQUE CANADA
226
est de 23, tous les enregistrements individuels pondrs de ce village seraient examins pour dterminer si
certaines valeurs semblent tre substantiellement plus leves que les autres.
iii.
Mthode graphique
Les donnes sont disposes en graphique pour identifier les valeurs suspectes. La distribution des donnes
peut tre prsente en graphique, par exemple, pour identifier les queues improbables de la distribution.
iv.
Cote du questionnaire
Berthelot et Latouche (1992) proposent lutilisation dune fonction de cotation, cest--dire quune cote
est attribue chaque rpondant selon une certaine mesure de la taille, le nombre dlments de donnes
suspects dans le questionnaire et limportance relative des variables. Seuls les enregistrements ayant une
cote leve sont examins.
Avec une approche de vrification manuelle, le processus de vrification peut coter cher en maind'uvre. Il faut :
- laborer et documenter les rgles de vrification appliquer et les interventions ncessaires en
prsence dun rejet la vrification,
- former les vrificateurs,
STATISTIQUE CANADA
TRAITEMENT
227
tablir un mcanisme de surveillance et dexamen du travail des vrificateurs (c.--d. appliquer les
procdures de contrle qualitatif et dassurance de la qualit),
appliquer une mthode dvaluation des rpercussions de la vrification sur les donnes originales.
En milieu informatique, les rpercussions aux volets temps, cots et ressources pour llaboration au
premier plan peuvent tre normes. Les tches comprennent celles-ci :
- laboration et documentation des rgles de la vrification,
- rdaction dun programme informatique ou adaptation dun logiciel pour identifier les rejets la
vrification,
- mise lessai du programme informatique,
- vrification des donnes de lenqute en excutant le programme.
Il est important de dterminer dans les deux cas si linvestissement en vrification vaut la peine. Des
ressources sont gaspilles si on applique une stratgie de vrification qui cote cher et demande beaucoup
de temps pour reprer quelques enregistrements dont les rpercussions sur les rsultats de lenqute sont
ngligeables. Il est risqu dautre part dappliquer uniquement une stratgie rudimentaire de vrification
pour dcouvrir en bout de ligne des erreurs et des incohrences majeures dans les rponses au
questionnaire. Combien denregistrements seront probablement rejets aprs lapplication des rgles de
vrification? Quelles seront les rpercussions de ces rejets sur la qualit des donnes obtenues? Les
enregistrements ont-ils tous la mme valeur? Des questions du genre sont importantes, mais il nest pas
toujours facile dy rpondre. La qualit de la conception du questionnaire, ainsi que la comprhension
approfondie ou non de lenqute chez les rpondants et la qualit de la formation des intervieweurs,
notamment, dterminent les rponses ces questions.
Il est souvent prfrable danalyser les donnes brutes (c.--d. avant la vrification), surtout si lenqute
est ritre, avant dappliquer une stratgie de vrification. Lorganisme statistique peut ainsi dterminer
davance le nombre probable de rejets la vrification et le genre de liens entre les questions. Il faudrait
en fait considrer que la vrification est un processus continu qui na pas ncessairement un point de
dpart et darrive. Cest un processus dapprentissage qui cible lamlioration constante de tout le
droulement de lenqute la longue.
ii.
Logiciel
Certaines progiciels spcialiss servent la vrification et limputation des donnes dun questionnaire
(p. ex., le Systme gnralis de vrification et dimputation de Statistique Canada, SGVI, ou le Systme
canadien de contrle et dimputation du recensement, SCANCIR). Ces trousses peuvent permettre
lapplication de rgles de vrification approfondies en contrepartie dun investissement pralable assez
raisonnable en conception de systmes. Dautre part, les organismes statistiques peuvent programmer leur
propre stratgie de vrification.
iii.
Fardeau du rpondant
Lune des consquences de la vrification des questionnaires est la possibilit de suivi auprs des
rpondants pour traiter des donnes manquantes ou errones. Dans la plupart des situations, le rpondant
est la source la plus prcise dinformation pour les questions du questionnaire. Le suivi est cependant un
fardeau pour le rpondant et il cote cher lorganisme statistique. Une priode relativement longue peut
aussi scouler entre linterview et le suivi, et le rpondant peut avoir oubli la rponse exacte. Ces
considrations signifient que le suivi (pour traiter des rejets la vrification) est gnralement limit aux
rejets la vrification identifis pendant la collecte ou reprs aprs la vrification slective. tant donn
que le suivi aprs la collecte nest en gnral ni pratique ni souhaitable, limputation est ncessaire.
STATISTIQUE CANADA
228
iv.
Lutilisation des donnes obtenues devrait dterminer, dans une large mesure, lampleur de la vrification.
Il nest peut-tre pas ncessaire de vrifier rigoureusement les ensembles ou lments de donnes qui
serviront dabord aux examens qualitatifs, au cours desquels les dcisions ne seront pas prises selon des
mesures prcises. Peut-tre vaudrait-il mieux vrifier de plus prs les ensembles ou lments de donnes
qui auront une importance stratgique dans la prise de dcisions. De plus, dans un ensemble de donnes
en particulier, certains lments peuvent tre beaucoup plus importants que dautres, et il peut donc tre
prfrable de rserver davantage de temps et de ressources pour en faire lpuration.
Dautre part, certains enregistrements dun ensemble de donnes peuvent avoir plus dimportance que
dautres et contribuer normment aux estimations de lenqute. Cest particulirement le cas dans les
enqutes-entreprises o 5 % des entreprises peuvent afficher 95 % du total des gains dans une branche
dactivit en particulier. Cibler les enregistrements ou les champs les plus influents est lune des raisons
dtre de la vrification slective (Section 10.3.3) et de la dtection des valeurs aberrantes (Section 10.5).
v.
La vrification en soi a une valeur minimale sans une certaine intervention pour traiter des lments
rejets aprs lapplication des rgles de vrification. Sil ny a pas de suivi auprs du rpondant, cette
mesure corrective est gnralement intitule imputation. Les interventions simultanes de vrification et
dimputation sont troitement lies. Il est donc important de considrer comment limputation sera faite
pendant llaboration des spcifications de la vrification. Dans de nombreux cas, limputation est faite
lorsque le rejet la vrification est dtect (avant de passer lexamen des rgles suivantes). Il est
prfrable dappliquer cette approche lorsque lintervention ncessaire devient vidente, tant donn le
genre de questions ou de rponses des questions connexes. Limputation est souvent faite cependant au
cours dune tape distincte lorsque toutes les donnes ont t traites aprs application de toutes les rgles
de vrification.
ii.
iii.
La vrification applique chaque tape ne devrait pas contredire la vrification une autre tape
(les vrifications faites pendant la collecte et le traitement devraient tre uniformes).
iv.
La vrification devrait tre applique pour obtenir de linformation sur le processus de lenqute,
soit sous forme de mesures de la qualit de lenqute en cours ou pour suggrer des amliorations
aux enqutes ultrieures.
v.
Certaines hypothses sont formules sur les donnes au dbut dune enqute. Il est possible de
mettre lpreuve la validit de ces hypothses pendant la vrification. Il peut devenir vident,
par exemple, que certaines vrifications dtendue taient trop strictes ou que certaines
vrifications squentielles ont donn trop souvent un rejet, et les rgles de vrification se rvlent
STATISTIQUE CANADA
TRAITEMENT
229
donc inappropries (ou le questionnaire pose certains problmes). Cette information devrait servir
ajuster les vrifications lavenir (ou amliorer la maquette du questionnaire).
vi.
Il faudrait communiquer aux utilisateurs linformation sur le genre de vrifications faites et leurs
rpercussions sur les donnes de lenqute.
vii.
10.4 Imputation
Limputation est un processus utilis pour dterminer et attribuer des valeurs de remplacement, afin de
rsoudre les problmes que suscitent les donnes manquantes, invalides ou incohrentes. Il faut cette
fin changer certaines des rponses et toutes les valeurs manquantes de lenregistrement vrifi pour crer
un enregistrement plausible et cohrent en soi. Certains problmes sont corrigs auparavant lorsquon
communique avec le rpondant ou quon tudie le questionnaire la main, mais, nous lavons mentionn
auparavant, il est habituellement impossible de rsoudre tous les problmes de cette faon et limputation
est applique pour rgler les autres rejets la vrification.
Laisser lutilisateur traiter les donnes manquantes, invalides ou incohrentes est une solution de rechange
limputation. Cette approche nest pas recommande. Si lutilisateur dcide dignorer ou de supprimer
tous les enregistrements qui affichent des rejets la vrification, un bon nombre de donnes peuvent tre
perdues si de nombreux enregistrements sont touchs. Si lutilisateur essaie de remplacer les donnes
manquantes, le rsultat peut dboucher sur des estimations incohrentes de diffrents utilisateurs et
entacher la rputation de lorganisme statistique charg de lenqute. Lutilisateur a accs moins de
variables que lorganisme statistique pour limputation et il est donc probable que lutilisateur ne puisse
traiter aussi bien les rejets la vrification.
Lajustement de la pondration pour les non-rponses est une approche souvent utilise dans le cas dune
non-rponse totale ou lorsque la collecte a produit peu de donnes, sinon aucune, (voir le Chapitre 7 Estimation).
STATISTIQUE CANADA
230
STATISTIQUE CANADA
TRAITEMENT
231
y i = Rxi + i
o
Autrement dit, on suppose pour ce modle que yi est approximativement linaire par rapport xi et que les
valeurs observes de yi scartent de part et dautre de cette ligne dune grandeur alatoire I.
Les valeurs de yi peuvent ensuite tre imputes, comme suit :
y
~
y i = xi
x
~
y i est la valeur impute pour la variable y de lenregistrement i,
x est la valeur x moyenne dclare pour la classe dimputation,
y est la valeur y moyenne dclare pour la classe dimputation.
Supposons, par exemple, quun questionnaire sur lemploi, la masse salariale et les heures de travail
contienne une entre invalide pour la masse salariale, yi, sur une priode de deux semaines, mais que le
nombre demploys rmunrs, xi, soit entr correctement et que nous sachions dans quelle branche
dactivit lentreprise est exploite. laide dautres questionnaires de la mme enqute et de la mme
branche dactivit (c.--d. la classe dimputation) o les donnes sur la masse salariale et le nombre
demploys rmunrs sont dclares correctement, il est possible de dterminer le ratio entre la masse
salariale et le nombre demploys. Ce ratio (de la masse salariale au nombre demploys) peut ensuite tre
appliqu au nombre demploys du questionnaire quil faut imputer, afin de dterminer une valeur pour la
masse salariale.
Lhypothse dans ce cas est que le modle de rgression ou de ratio ajust aux questionnaires ayant des
donnes valides (c.--d. qui ont pass toutes les vrifications) dans la classe dimputation sapplique aussi
bien aux questionnaires de la classe dimputation qui ont t rejets aux vrifications. Si cette hypothse
est fausse, il peut y avoir un biais marqu.
La prsence de variables troitement lies la variable impute, le degr de complexit des calculs
mathmatiques et le calcul restreint ou non une classe dimputation, ou appliqu ou non tout
lensemble des donnes, dterminent largement la prcision des valeurs imputes. Cette mthode a un
avantage, cest--dire quelle peut protger les liens entre les variables. Les estimateurs du ratio et de la
rgression donneront probablement aussi des valeurs imputes plus stables que de simples moyennes.
Cette mthode dimputation peut cependant ajouter artificiellement des liens ltape de lanalyse des
donnes. Tout comme la plupart des autres mthodes dimputation ( lexception de limputation
dductive), elle diminue la variance dchantillonnage estime des estimations dfinitives si des formules
conventionnelles de calcul de la variance sont appliques.
STATISTIQUE CANADA
232
Limputation de la valeur prcdente, aussi intitule imputation par report ou par report en aval, est un cas
particulier dimputation par ratio-rgression, cest--dire que la valeur de loccurrence prsente est
impute en ajustant la valeur de loccurrence prcdente aux fins de la croissance. Elle est souvent utilise
pour les variables quantitatives dans les applications des enqutes-entreprises.
Lestimation par ratio et rgression est explique plus en dtail au Chapitre 11 - Analyse des donnes de
lenqute.
10.4.1.4 Imputation par donneur de lenqute (hot-deck)
Limputation hot-deck utilise linformation de lenregistrement dun donneur qui a habituellement pass
toutes les vrifications pour remplacer des valeurs manquantes ou incohrentes dun enregistrement
destinataire. Afin de trouver un enregistrement donneur semblable lenregistrement destinataire, des
variables lies celles qui ont besoin dimputation sont identifies pour tablir des classes dimputation.
Lensemble des enregistrements dans la classe dimputation qui ont pass toutes les vrifications est le
groupe donneur pour les enregistrements de la classe dimputation qui ont besoin dimputation.
Limputation hot-deck peut servir limputation de donnes qualitatives ou quantitatives, mais elle utilise
gnralement des variables qualitatives pour tablir les classes dimputation. Les deux principaux types
dimputation hot-deck sont limputation hot-deck squentielle et alatoire.
Dans le cas de limputation hot-deck squentielle, les donnes font lobjet du traitement squentiel dans la
classe dimputation, un enregistrement la fois (c.--d. tri dans un certain ordre). Limputation est faite
en remplaant larticle manquant dun questionnaire par la valeur pure du donneur prcdent dans la
classe dimputation. Limputation hot-deck squentielle est une mthode dimputation dterministe si la
mme mthode de tri est applique chaque fois. Lors de limputation hot-deck alatoire, des donneurs
sont slectionns au hasard dans la classe dimputation. Limputation hot-deck alatoire est une mthode
dimputation stochastique.
Considrons lexemple de limputation du statut de fumeur dun rpondant pour illustrer limputation hotdeck. Supposons quil y a deux rponses possibles : fumeur et non-fumeur. Des classes dimputation sont
tablies selon le groupe dge et le sexe pour trouver un enregistrement donneur parce que ces variables
sont lies au statut de fumeur dune personne. Supposons que lenregistrement ayant besoin dimputation
est celui dune femme de la catgorie des 15 24 ans. Lensemble des donneurs comprend toutes les
rpondantes ges de 15 24 ans qui ont dclar leur statut de fumeur. La slection dun donneur peut
tre alatoire (c.--d. hot-deck alatoire) ou squentielle si lon dresse la liste des donneurs et que lon en
slectionne un (c.--d. hot-deck squentielle).
Les mthodes de limputation par donneur ont un avantage (imputation hot-deck et par le plus proche
voisin, voir la Section 10.4.1.6), cest--dire que les donneurs semblables (entreprises, mnages, etc.)
devraient avoir des caractristiques semblables et la valeur impute devrait donc tre assez prs de la
valeur relle. Dans limputation par donneur, de plus, il est habituellement possible de maintenir la
distribution multidimensionnelle des donnes.
Il y a cependant certains inconvnients. En voici un : lutilisation multiple du mme donneur est frquente
dans limputation hot-deck squentielle. Lutilisation ritre dun donneur peut susciter une distorsion de
la distribution des donnes et diminuer artificiellement la variance dchantillonnage estime. Autre
inconvnient : une bonne information auxiliaire et au moins une rponse partielle (p. ex., revenu du
mnage, ge, sexe, etc.) sont ncessaires pour tablir les classes dimputation et ces donnes ne sont pas
toujours disponibles pour les enregistrements qui ont besoin dimputation. Il faut aussi tre prudent si la
classe dimputation est petite ou si le taux de non-rponse dans la classe dimputation est lev parce quil
STATISTIQUE CANADA
TRAITEMENT
233
pourrait ny avoir aucun donneur. (Cette constatation est vraie pour toutes les mthodes qui utilisent des
classes dimputation.)
Limputation hot-deck hirarchique peut tre utilise pour quil soit toujours possible de trouver un
enregistrement donneur. Limputation hirarchique utilise plus dun niveau de classe dimputation. Sil
ny a pas de donneur dans la premire classe dimputation la plus dtaille, les classes sont regroupes en
une structure hirarchique suffisante pour obtenir un donneur.
Limputation par donneur est tudie la Section 10.4.3.
10.4.1.5 Imputation par donneur dune autre source (cold-deck)
Limputation cold-deck est semblable limputation hot-deck, mais cette dernire utilise les donneurs de
lenqute courante et la premire utilise les donneurs dune autre source. Limputation cold-deck utilise
souvent les donnes chronologiques de la mme enqute ralise auparavant ou dun recensement. Si la
slection des donneurs est alatoire, limputation est stochastique, autrement, elle est dterministe.
10.4.1.6 Imputation par voisin le plus proche
Dans les enqutes dont les donnes sont largement quantitatives (p. ex., enqutes-entreprises comprenant
la dclaration des ventes et de linventaire), il peut tre ncessaire ou prfrable de trouver un
enregistrement donneur par appariement avec des donnes quantitatives. Limputation par le plus proche
voisin est la slection dun enregistrement donneur selon des variables dappariement. Lorsque cette
mthode dimputation est utilise, le but nest pas ncessairement de trouver un enregistrement donneur
qui corresponde exactement au destinataire pour chacune des variables dappariement. Le but est plutt
de trouver le donneur le plus prs du destinataire du point de vue des variables dappariement dans la
classe dimputation, c.--d. de trouver le voisin le plus prs. Cette proximit est dfinie par une
mesure de lcart entre deux observations calcul laide des variables dappariement (p. ex., pour
imputer un inventaire manquant, trouver le plus proche voisin du point de vue des ventes dclares dans
la classe dimputation).
Lapplication des mthodes dimputation par le plus proche voisin exige de la prudence si lchelle des
variables dappariement est trs diffrente (p. ex., monnaie et territoire). Il faut transformer les variables
dune certaine faon dans la plupart des cas pour normaliser lchelle.
10.4.1.7 Imputation dterministe avec rsidus alatoires
Les mthodes dterministes appliques aux donnes quantitatives peuvent devenir stochastiques en
ajoutant des rsidus alatoires, par exemple, en imputant la valeur moyenne et en ajoutant un rsidu
alatoire :
~
y i = y + ei*
o
~
y i est la valeur impute pour la variable y de lenregistrement i,
y est la moyenne pour la classe dimputation,
ei* est un rsidu modle alatoire slectionn parmi les rpondants ou tir dune distribution.
STATISTIQUE CANADA
234
Pour choisir un rsidu ei*, il suffit de calculer les rsidus comme suit pour lensemble des rpondants
dans une classe dimputation :
ei ( r ) = y i ( r ) y r
o
On peut ensuite dterminer ei* en slectionnant au hasard parmi toutes les valeurs de ei(r) dans la classe
dimputation.
Voir Kalton et Kasprzyk (1986) pour en apprendre davantage sur les approches de limputation
stochastique.
STATISTIQUE CANADA
TRAITEMENT
235
Le but est de trouver un enregistrement donneur semblable au destinataire pour chaque destinataire. LA
cration des classes dimputation mrite une tude srieuse : il est important que les variables qui ont
besoin dimputation et celles utilises pour slectionner les donneurs soient troitement lies. Il est
important, pour les mthodes qui exigent ltablissement de classes dimputation, que celles-ci soient
assez larges pour que des donneurs ventuels soient disponibles en nombre suffisant, mais sans tre trop
larges parce que les enregistrements dun groupe de donneurs pourraient tre diffrents.
ii.
Tous les champs dun enregistrement destinataire devraient-ils tre imputs partir dun seul
donneur?
Il est prfrable de le faire et dutiliser tous les champs dun enregistrement pour maintenir les
distributions conjointes entre les variables. Dans une enqute sur la population active, par exemple, si la
profession et le revenu personnel sont marqus pour imputation, il est videmment avantageux dimputer
ces deux variables laide du mme enregistrement donneur pour maintenir le lien entre le revenu et la
profession. Limputation laide dun seul donneur a un autre avantage : tant donn que le donneur doit
avoir pass avec succs toutes les vrifications, il peut servir imputer toutes les valeurs manquantes
(c.--d. que limputation est plus facile).
Limputation par donneur pose cependant un problme : si les variables dappariement utilises sont trop
nombreuses (p. ex., les variables utilises pour tablir des classes dimputation dans le cas des
imputations hot-deck et cold-deck), il est possible de ne trouver aucun donneur convenable. Autre
problme : les variables dappariement utilises pour imputer un champ ne conviennent pas
ncessairement un autre, en particulier si les variables qui ont besoin dimputation ne sont pas lies.
Considrons une enqute objectifs multiples sur la sant et supposons que la taille des personnes et le
nombre de cigarettes fumes chaque jour sont marqus pour imputation. Dans ce cas, un ensemble
diffrent de variables dappariement pourrait tre appropri pour chaque champ qui a besoin
dimputation.
Lorsque des procdures dimputation par donneur sont appliques, limputation est souvent rpartie en
plusieurs tapes et certains ensembles de champs sont imputs chaque tape. Plusieurs donneurs
peuvent donc tre engags pour complter un seul enregistrement dficient. Si cette situation pose un
problme, certains des principaux champs imputs peuvent servir tablir des classes dimputation aux
tapes ultrieures pour maintenir lintgrit interne.
iii.
Si limputation de plusieurs enregistrements destinataires est faite avec le mme donneur, les
rpercussions sur les estimations dfinitives de lenqute peuvent tre importantes. Limiter lutilisation
rpte dun enregistrement donneur une fin permet den largir lutilisation ailleurs et dviter la
surutilisation. Si le taux de rponse dans une classe dimputation en particulier est trs faible, limiter le
recours un donneur peut dboucher sur certains appariements mdiocres (c.--d. que lenregistrement
donneur peut tre trs peu semblable celui du destinataire) et il pourrait ny avoir aucun donneur pour
certains destinataires. Dautre part, la surutilisation dun donneur (surtout si le donneur a des
caractristiques uniques et sil est donc trs diffrent des autres dans la population) peut avoir des
STATISTIQUE CANADA
236
rpercussions substantielles sur les estimations de lenqute. Si lutilisation dun enregistrement donneur
nest pas limite, il devrait y avoir une mthode didentification des enregistrements donneurs souvent
utiliss. Si certains de ces enregistrements ont des champs suspects ou aberrants, il peut tre ncessaire
dexaminer les processus de traitement pour dterminer si les rsultats dfinitifs de lenqute affichent
une distorsion due au processus dimputation.
iv.
Y a-t-il une intervention ultrieure si aucun donneur convenable nest repr pour certains
destinataires?
Un enregistrement donneur peut ne pas tre trouv pour certains destinataires. Une procdure de rechange
est habituellement applique pour ces destinataires (p. ex., imputation hot-deck ou cold-deck hirarchique
ou imputation de la valeur moyenne).
v.
Certaines mthodes dimputation sont plus appropries pour les variables qualitatives et dautres
conviennent mieux aux variables quantitatives. Les mthodes hot-deck ont t labores pour traiter les
donnes qualitatives et limputation selon le plus proche voisin est davantage appropri pour les donnes
quantitatives. Les deux mthodes sont maintenant utiles dans chaque situation, y compris pour les
problmes mixtes.
STATISTIQUE CANADA
TRAITEMENT
237
estimation combine en est tire, ainsi quune estimation de la variance qui exprime lincertitude au sujet
de la valeur imputer. Limputation multiple exige cependant davantage de travail pour le traitement des
donnes, la sauvegarde et le calcul des estimations.
Les mthodes importantes destimation de la variance ont t largies pour englober des fichiers
contenant les donnes imputes dans le cas de limputation simple. Les approches sont dcrites dans
Srndal (1992), Rao et Shao (1992), Rao et Sitter (1995) et Gagnon et coll. (1996). Une comparaison des
mthodes est prsente dans Lee, Rancourt et Srndal (1994, 2001).
ii.
Une bonne imputation comprend une piste de vrification aux fins de lvaluation. Les valeurs
imputes devraient tre indiques et les mthodes et les sources dimputation, clairement
identifies. Les valeurs imputes et non imputes des champs de lenregistrement devraient tre
retenues, afin dvaluer lampleur et les rpercussions de limputation.
iii.
iv.
Les mthodes dimputation doivent tre choisies avec soin, compte tenu du genre de donnes
imputer.
v.
vi.
Le systme dimputation devrait tre conu, spcifi, programm et mis lessai davance.
vii.
viii.
Le systme dimputation devrait tre en mesure de traiter toute caractristique des champs
manquants ou incohrents.
ix.
Si une mthode dimputation par donneur est utilise, lenregistrement imput devrait ressembler
de prs aux donneurs slectionns. La combinaison des rponses imputes et non imputes pour
lenregistrement imput aura ainsi plus de chance de passer les vrifications et dtre plausible.
STATISTIQUE CANADA
238
STATISTIQUE CANADA
TRAITEMENT
239
i.
Il y a des erreurs dans les donnes (p. ex., erreurs de saisie des donnes).
ii.
On peut considrer que les valeurs aberrantes sont tires dun autre modle ou dune autre
distribution. Vous pouvez penser, par exemple, que la majorit des donnes sont tires dune
distribution normale, mais que les valeurs aberrantes peuvent provenir dune distribution
exponentielle.
iii.
La valeur aberrante peut tre due la variabilit inhrente des donnes. Une valeur peut sembler
suspecte, mais dcouler simplement de la variabilit inhrente de lensemble des donnes,
autrement dit, il peut sagir dune observation extrme, mais lgitime, de la distribution. La
situation est possible si la population est asymtrique et cest souvent le cas dans les enqutesentreprises. La rpartition des ventes selon la taille de lentreprise, par exemple, est typiquement
asymtrique, c.--d. que quelques trs grandes entreprises affichent souvent la majeure partie des
ventes dans lensemble.
di =
| yi m |
s
Si di surpasse une valeur limite dtermine, lobservation est alors considre comme une valeur
aberrante.
Dautre part, un intervalle de tolrance peut tre attribu comme suit :
(m cL s, m + cU s)
o cL et cU sont les valeurs limites infrieure et suprieure prdtermines. Si la population est
asymtrique, des valeurs ingales de cL et de cU sont utilises. Les observations hors de cette intervalle
sont dclares valeurs aberrantes.
La moyenne et la variance de lchantillon sont les statistiques les plus souvent utilises pour estimer le
centre et ltalement des donnes. tant donn quelles sont sensibles aux valeurs aberrantes cependant,
elles sont un choix mdiocre pour la dtection de ces valeurs. La moyenne de lchantillon se dplace vers
les valeurs aberrantes, par exemple, si elles sont en grappes dun ct et les valeurs aberrantes augmentent
normment la variance de lchantillon. Les valeurs relatives de la distance de certaines valeurs
aberrantes peuvent donc sembler ngligeables et la procdure de dtection peut chouer. Ce problme est
intitul effet de dissimulation.
Voil pourquoi lune des mthodes les plus populaires de dtection des valeurs aberrantes est la mthode
par quartile qui utilise la mdiane pour estimer le centre et les tendues quartiles pour estimer ltalement
des donnes pondres parce que ces statistiques rsistent mieux (c.--d. quelles ne ragissent pas) aux
valeurs aberrantes. Les quartiles rpartissent les donnes en quatre parties : 25 % des donnes simples
STATISTIQUE CANADA
240
sont infrieures au premier quartile, q0,25, 50 % des donnes simples sont infrieures au deuxime quartile
(ou la mdiane), q0,5, et 75 % des donnes simples sont infrieures au troisime quartile, q0,75. (La
mdiane et les tendues des quartiles sont considres davantage au Chapitre 11 - Analyse des donnes
de lenqute).
Les tendues des quartiles infrieur et suprieur, hL et hU , sont dfinies comme suit :
h L = q 0,5 q 0, 25
hU = q 0, 75 q 0,5
et certaines valeurs dtermines sont attribues cL et cU en examinant les donnes prcdentes ou selon
lexprience acquise. Toute observation hors de cet intervalle est considre comme une valeur aberrante.
Voir Barnett et Lewis (1995) pour obtenir davantage dinformation sur les mthodes de dtection des
valeurs aberrantes.
Changement de valeur
La winsorisation est un exemple de traitement dune valeur extrme. La winsorisation est le recodage des
k valeurs les plus grandes.
Le lecteur se rappellera que, dans un chantillonnage alatoire simple (si le taux de rponse est de 100 %),
lestimateur habituel non biais du total de la population Y est obtenu ainsi :
N
Y =
n
i =1
STATISTIQUE CANADA
TRAITEMENT
241
Changement de pondration
La diminution des pondrations des valeurs aberrantes pour en amenuiser les rpercussions est une autre
option. Attribuer une valeur de zro ou de un la pondration dune valeur aberrante est un exemple.
Cette mesure est rarement applique cause de ses rpercussions marques sur les estimations, en
particulier pour les populations asymtriques. Elle peut donner un biais grave, habituellement une sousestimation. Si deux grandes entreprises affichent la majorit des ventes au dtail, par exemple, et si lune
des deux est identifie comme une valeur aberrante, le retrait de cette entreprise des estimations donnera
une sous-estimation importante du total des ventes au dtail. Plusieurs estimateurs ayant des pondrations
rduites pour les donnes aberrantes ont t proposs, voir Rao (1970), Hidiroglou et Srinath (1981).
iii.
Estimateurs robustes
En thorie classique de lestimation, lestimateur dun paramtre de population est ax sur la supposition
dune certaine distribution. On suppose habituellement que la distribution dchantillonnage est normale
pour lestimateur (voir le Chapitre 7 - Estimation pour la dfinition de distribution dchantillonnage).
Les estimateurs habituels de la moyenne et de la variance de lchantillon sont optimaux en situation
normale. Ces estimateurs sont cependant extrmement sensibles aux valeurs aberrantes. Des estimateurs
robustes sont moins sensibles aux hypothses sur la distribution. La mdiane est plus robuste que la
moyenne, par exemple, les tendues interquartiles sont plus robustes que lestimateur habituel de la
variance. De nombreux estimateurs robustes complexes ont t proposs au cours des annes, y compris
les estimateurs M de Huber, Huber (1964).
Voir Kish (1965), Barnett et Lewis (1995), Rousseeuw et Leroy (1987), Lee et coll. (1992) ou Lee (1995)
pour obtenir davantage dinformation sur les estimateurs robustes et la dtection des valeurs aberrantes en
gnral. Voir le Chapitre 11 - Analyse des donnes de lenqute pour obtenir davantage dinformation
sur la moyenne comparativement la mdiane.
STATISTIQUE CANADA
242
La majorit des logiciels statistiques doivent avoir des donnes sauvegardes en mise en forme spciale
pour faciliter le traitement rapide, et cest le principal inconvnient dun fichier non hirarchique. Avec
un tel fichier, cette mise en forme particulire est continuellement modifie, une inefficacit inutile. Si les
donnes sont sauvegardes sous forme de base de donnes, il est possible dutiliser certains logiciels
statistiques et de base de donnes sans ncessairement crer de nouveau le fichier. Les demandes peuvent
tre entres directement dans la base de donnes. Le choix de format de base de donnes peut cependant
restreindre le choix du logiciel statistique et dexploitation de base de donnes qui peuvent servir la
totalisation et lanalyse. Il vaut peut-tre mieux crer un fichier non hirarchique et plusieurs fichiers
diffrents avec les rsultats de lenqute dans la base de donnes.
Lorsque le format de sauvegarde des donnes a t slectionn, les poids finaux (pour lestimation) sont
calculs et les totalisations prvues sont faites (voir le Chapitre 7 - Estimation pour obtenir une
description de la mthode de calcul des poids finaux). Les programmes informatiques sont habituellement
rdigs pour calculer les pondrations et produire les totalisations. Vous pouvez aussi faire une analyse
des donnes plus perfectionne. Il faut examiner les donnes avant de les diffuser pour vrifier si elles
respectent les critres de confidentialit des rpondants. Ce processus intitul contrle de la divulgation
peut dboucher sur la suppression de certaines donnes de lenqute. Voir le Chapitre 12 - Diffusion des
donnes pour obtenir davantage dinformation sur lanalyse des donnes et le contrle de la divulgation.
STATISTIQUE CANADA
TRAITEMENT
243
rsultats prcis et mesurables. Tirer avantage des systmes et processus existant, des systmes
automatiss de codage, etc., est aussi une bonne dcision.
10.8 Sommaire
Le traitement est une importante activit de lenqute qui convertit les rponses des questionnaires en une
mise en forme qui convient lanalyse des donnes et la totalisation. Le traitement cote cher, demande
beaucoup de temps et de ressources, et a des rpercussions sur la qualit dfinitive des donnes.
Lautomatisation peut en augmenter lefficacit et amliorer la qualit dfinitive des donnes.
Le traitement commence normalement par une puration prliminaire du questionnaire, suivie du codage
et de la saisie des donnes. Ltape suivante est habituellement une vrification plus dtaille pour
identifier les donnes manquantes ou incohrentes, et ensuite, limputation est faite pour intgrer des
substituts plausibles ces valeurs. La dtection des valeurs aberrantes est aussi utile pour identifier les
valeurs suspectes. Lorsque les donnes sont compltes, convergentes et valides, elles sont habituellement
sauvegardes dans une base de donnes.
Bibliographie
Bankier, M., M. Lachance et P. Poirier. 1999. A Generic Implementation of the Nearest neighbour
imputation method. Proceedings of the Survey Research Methods Section. American Statistical
Association. 548-553.
Barnett, V. et T. Lewis. 1995. Outliers in Statistical Data. John Wiley and Sons, Chichester.
Binder, D. et S. Weimin. 1996. Frequency Valid Multiple Imputation for Surveys with a Complex
Design. Proceedings for the Section on Survey Research Methods of the American Statistical
Association, 1: 281-286.
Boucher, L, J.-P. S. Simard et J.-F. Gosselin. 1993. Macro-Editing, a Case Study: Selective Editing for
the Annual Survey of Manufacturers Conducted by Statistics Canada, Proceedings of the
International Conference on Establishment Surveys. American Statistical Association. Virginia.
Brick, J.M. et G. Kalton. 1996. Handling Missing Data in Survey Research. Statistical Mathematics in
Medical Research, 5: 215-238.
Chambers, R.L. 1986. Outlier Robust Finite Population Estimation. Journal of the American Statistical
Association, 81: 1063-1069.
Cox, B.G., D. A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.
Dielman, L. et M.P. Couper. 1995. Data Quality in a CAPI Survey: Keying Errors. Journal of Official
Statistics, 11(2): 141-146.
Dolson, D. 1999. Imputation Methods. Statistics Canada.
Fay, R.E. 1996. Alternative Paradigms for the Analysis of Imputed Survey Data. Journal of the American
Statistical Association, 91: 490-498.
STATISTIQUE CANADA
244
Fellegi, I.P. et D. Holt. 1976. A Systematic Approach to Automatic Edit and Imputation. Journal of the
American Statistical Association, 71: 17-35.
Gagnon, F., H. Lee, E. Rancourt and C.E. Srndal. 1996. Estimating the Variance of the Generalized
Regression Estimation in the Presence of Imputation for the Generalized Estimation System.
Proceedings of the Survey Methods Section. Statistical Society of Canada. 151-156.
Granquist, L. 1984. On the Role of Editing. Statistisk tidskrift, 2: 105-118.
Granquist, L. et J. Kovar. 1997. Editing of Survey Data: How Much is Enough? In Lyberg, L., et al., eds.
1997. Survey Measurement and Process Quality. John Wiley and Sons, New York. 415-436.
Hidiroglou, M.A. 1999. Notes de cours Methods for Designing Business Survey.
Hidiroglou, M.A. 1999. Notes de cours Methods for Designing Business Survey. Commandit par l'AISE,
52 session de l'IIS, Universit de Jyvaskyl, Finlande.
Hidiroglou, M.A. et J.-M. Berthelot. 1986. Contrle statistique et imputation dans les enqutes-entreprises
priodiques, Techniques denqute, 12(1): 79-89.
Hidiroglou, M.A. et K.P. Srinath. 1981. Some Estimators of a Population Total Containing Large Units.
Journal of the American Statistical Association, 78: 690-695.
Huber, P.J. 1964. Robust Estimation of a Location Parameter. Annals of Mathematical Statistics, 35: 73101.
Kalton, G. et D. Kasprzyk. 1982. Imputation for Missing Survey Responses. Proceedings of the Section
on Survey Research Methods. American Statistical Association. 23-31.
Kalton, G. et D. Kasprzyk, D. 1986. Le traitement des donnes denqute manquantes. Techniques
denqute. 12(1): 1-18.
Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.
Kovar, J.G., J. MacMillan et P. Whitridge. 1988. Systme gnralis de vrification et dimputation
Aperu et stratgie (Mis jour en fvrier 1991). Statistique Canada. BSMD-88-007 E/F.
Latouche, M. et J.-M. Berthelot. 1992. Use of a Score Function to Prioritize and Limit Recontacts in
Editing Business Surveys. Journal of Official Statistics, 8(3): 389-400.
Lee, H., E. Rancourt et C.E. Srndal. 1994. Experiments with Variance Estimation from Survey Data with
Imputed Values. Journal of Official Statistics, 10(3): 231-243.
Lee, H., E. Rancourt et C.E. Srndal. 2001. Variance Estimation from Survey Data under Single Value
Imputation. Survey Nonresponse. John Wiley and Sons, New York.
Lee, H. 1995. Outliers in Business Surveys. Dans Business Survey Methods. Cox, B.G., D. A. Binder,
B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. John Wiley and Sons. New
York. 503-526.
Lyberg, L. et P. Dean. 1992 Automated Coding of Survey Responses: An International Review. Presented
at the Conference of European Statisticians. Washington, D.C.
STATISTIQUE CANADA
TRAITEMENT
245
Moser, C.A. et G. Kalton. 1971. Survey Methods in Social Investigation. Heinemann Educational Books
Limited, London.
Raj, D. 1972. The Design of Sample Surveys. McGraw-Hill Series in Probability and Statistics, New
York.
Rancourt, E., H. Lee et C.E. Srndal 1993. Variance Estimation Under More than One Imputation
Method. Proceedings of the International Conference on Establishment Surveys, American
Statistical Association, 374-379.
Rao, C.R. 1970. Estimation of Heteroscedastic Variances in Linear Models. Journal of the American
Statistical Association, 65: 161-172.
Rao, J.N.K. et J. Shao. 1992. Jackknife Variance Estimation with Survey Data under Hot-deck
Imputation. Biometrika, 79: 811-822.
Rao, J.N.K. et R.R. Sitter. 1995. Variance Estimation under Two-Phase Sampling with Application to
Imputation for Missing Data. Biometrika, 82: 453-460.
Rao, J.N.K. 1996. On Variance Estimation with Imputed Survey Data. Journal of the American Statistical
Association, 91: 499-506.
Rousseeuw, P.J. et A.M. Leroy. 1987. Robust Regression and Outlier Detection. John Wiley and Sons,
New York.
Rubin, D.B. 1987. Multiple Imputation for Nonresponse in Surveys. John Wiley and Sons, New York.
Rubin, D.B. 1996. Multiple Imputation after 18+ Years. Journal of the American Statistical Association,
91: 473-489.
Sande, I.G. 1979. A Personal View of Hot-deck Imputation Procedures. Survey Methodology, 5(2): 238258.
Sande, I.G. 1982. Imputation in Surveys: Coping with Reality. The American Statistician, 36(3). Part 1:
145-152.
Srndal, C.E. 1992. Mthodes pour estimer la prcision des estimations dune enqute ayant fait lobjet
dune imputation. Techniques denqute, 18(2): 257-268.
Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer Verlag, New
York.
Shao, J. et R.R. Sitter. 1996. Bootstrap for Imputed Survey Data. Journal of the American Statistical
Association, 94: 254-265.
Statistique Canada. 1990. Notes de cours, Cours de base sur les enqutes.
Statistique Canada. 1998. Lignes directrices concernant la qualit. 12-539-XIF.
Statistique Canada. 1998. Notes de cours STC416 Les Enqutes de A Z.
STATISTIQUE CANADA
246
Wenzowski, M.J. 1988. Advances in Automated Coding and Computer-Assisted Coding Software at
Statistics Canada. Proceedings of the 1996 Annual Research of the U.S. Census Bureau.
Yung, W. et J.N.K. Rao. 2000. Jackknife Variance Estimation under Imputation for Estimators using
Poststratification Information. Journal of the American Statistical Association, 95: 903-915.
STATISTIQUE CANADA
247
248
i.
Variables nominales
Une variable nominale est une srie de catgories qui sont simplement des tiquettes ou des noms sans
lien mathmatique entre eux. On ne peut affirmer quune catgorie en particulier est plus grande quune
autre, gale ou infrieure une autre, par exemple, si le genre de sport est la variable nominale,
cricket < soccer na aucun sens.
ii.
Variables ordinales
Une variable ordinale est une srie de catgories ordonnes ou classes selon une chelle ou un
continuum dtermin, et une catgorie en particulier peut prcder ou suivre une autre. Les diffrences
entre les catgories ne sont pas ncessairement quivalentes. Des nombres peuvent tre attribus aux
variables ordinales, mais uniquement pour ordonner les matires, et les additionner ou faire dautres
oprations arithmtiques est inappropri. Voici un exemple de donnes ordinales : vraiment daccord,
daccord, ni pour ni contre, pas daccord, vraiment pas daccord. Dautres exemples : la collecte de lge
laide dune question ferme, par exemple, moins de 15 ans, de 15 ans 34 ans, , 75 ans ou plus, ou
la tension artrielle qualifie de basse, normale, leve.
iii.
Variables discrtes
Une variable discrte est une variable quantitative ayant des valeurs dnombrables. Voici un exemple
de ce genre de variables : une variable dont les valeurs possibles sont entires et il ne peut y avoir de
valeur intermdiaire entre deux valeurs entires. La taille dun mnage peut tre, par exemple, 1, 2, 3, et
des valeurs comme 1,5 ou 4,75 sont impossibles. Il nest cependant pas ncessaire que les variables
discrtes soient entires : un autre exemple de variable discrte est la taille des souliers qui peut tre 6,
61/2, 7, 71/2, etc., mais 63/4 est impossible.
iv.
Variables continues
Une variable continue est une variable quantitative dont toute valeur dans une certaine tendue est
possible (contrairement une variable discrte dont certaines valeurs en particulier seulement sont
possibles). La taille et le poids sont donc des variables continues, mais le nombre de buts dune quipe de
hockey est une variable discrte. Il est possible pour une personne davoir nimporte quelle taille, jusqu
un certain point, par exemple, 1,68 mtre, mais une quipe de hockey ne peut compter 2,3 buts parce que
le nombre de but est discret et entier. Remarquez que les variables continues peuvent tre transformes en
variables nominales, par exemple, les mesures de la tension artrielle peuvent tre qualifies de basse,
normale ou leve.
Le type de donnes dtermine le genre de procdures analytiques qui peuvent tre appliques et la
question est explique aux sections suivantes.
STATISTIQUE CANADA
249
o wi est le poids final ajust du ie rpondant et Sr est lensemble des rpondants. Lestimateur habituel du
total dun domaine pour les donnes quantitatives scrit :
Ydomaine =
w y
i i
iS r domaine
Illustrons lestimation des distributions de frquences pour une enqute-chantillon : considrez un EAS
de 100 employs slectionns dans une population de 1 000 hommes. Lune des variables de lenqute est
la variable nominale genre de travail qui comprend deux catgories : travailleurs manuels et travailleurs
de bureau. Une autre variable de lenqute est la variable continue tension artrielle systolique quune
infirmire diplme a mesure directement et inscrite en millimtres de mercure (mm Hg). Aprs
STATISTIQUE CANADA
250
lenqute, les lectures de tension artrielle sont aussi catgorises en trois groupes : basse, moyenne ou
leve.
Voici la distribution des frquences pondres de la variable qualitative genre de travailleurs en tableau :
Tableau 1 : Nombre dhommes estim par genre de travailleurs
Genre de travailleurs
N
Manuel
550
Bureau
450
Total
1 000
Source : Enqute fictive auprs des travailleurs, Canada, 2002.
(Remarque : chaque estimation dans ces tableaux devrait comprendre une estimation de lerreur
dchantillonnage.)
La distribution des frquences pondres de la variable qualitative tension artrielle est prsente dans le
tableau suivant:
Tableau 2 : Nombre dhommes estim par tension artrielle
Tension artrielle
Les distributions conjointes sont utiles pour identifier les combinaisons inhabituelles. La distribution
conjointe pondre du genre de travailleurs et de la tension artrielle ci-dessous nindique aucune
incidence de tension artrielle leve chez les travailleurs manuels (pour la population vise par
lenqute) :
Tableau 3 : Nombre dhommes estim par genre de travailleurs et tension artrielle
Tension artrielle
Genre de
Nombre dhommes estim
travailleurs
Basse
Normale
leve
N
Manuel
240
310
0
550
Bureau
80
320
50
450
Total
320
630
50
1000
Source : Enqute fictive auprs des travailleurs, Canada, 2002.
(Les tableaux des distributions conjointes sont souvent analyss avant la diffusion des donnes dans le
public pour se garantir de la divulgation des donnes confidentielles, c.--d. que les tableaux qui rvlent
des particuliers sont supprims. Le Chapitre 12 - Diffusion des donnes donne davantage dinformation
sur les mthodes de contrle de la divulgation.)
STATISTIQUE CANADA
251
Les distributions de frquences peuvent aussi tre reprsentes laide de graphiques ou de diagrammes.
Lanalyse des donnes devrait en fait commencer par une analyse visuelle des donnes. Laffichage
graphique est important pour de nombreuses raisons, notamment :
- les reprsentations graphiques des donnes sont suprieures aux reprsentations simplement
numriques pour dcouvrir la structure caractristique de la distribution,
- la forme de la distribution est au moins aussi importante que ltalement et le centre de la distribution,
- la forme de la distribution devrait dterminer le choix du paramtre (p. ex., moyenne, mdiane ou
mode) pour dcrire les donnes dune seule variable.
Les graphiques et diagrammes suivants pourraient tre ajouts un rapport sur les rsultats de lenqute :
- diagramme secteurs,
- diagramme colonnes,
- graphique barres,
- graphique linaire,
- diagramme bote et moustaches.
Ceux-ci sont examins la section suivante.
11.3.1.1.1 Diagrammes et schmas
Le genre de diagramme utiliser est dtermin par les donnes quil faut reprsenter et par le message
quon veut souligner : ordre de grandeur, taille ou tendance.
i.
Diagrammes secteurs
Un diagramme secteurs est un cercle divis en pointes comme une tarte pour afficher le pourcentage de
la population dans diffrentes catgories dune variable qualitative. Un diagramme est utile si la
population doit tre rpartie en groupes distincts (p. ex., la langue maternelle est le franais ou langlais)
et, de prfrence, seules quelques units sont entres dans la catgorie autre ou sans objet. Les
diagrammes secteurs sont utiliss pour rpondre des questions sur les proportions relatives de
composantes mutuellement exclusives.
Lorsque lon trace un diagramme secteurs, il faudrait rpartir les secteurs (pointes de tarte) selon la
taille, la pointe la plus large 12 h, et ainsi de suite dans le sens des aiguilles dune montre, les pointes
diminuant graduellement. Le nombre de secteurs devrait tre limit cinq ou six en gnral. Sil y a de
nombreux petits secteurs, il vaudrait peut-tre mieux les regrouper. Les tiquettes devraient tre
lextrieur des pointes et il faut viter les flches et les lgendes. Un bon exemple de diagramme
secteurs affichant les dpenses des mnages est illustr ci-dessous.
STATISTIQUE CANADA
252
transports
15 %
logement et
mnage
23 %
impts
21 %
autre
19 %
Source : Enqute fictive sur les revenus et dpenses des mnages, Canada, 2002
Le trac tridimensionnel des diagrammes secteurs (voir ci-dessous) peut semer la confusion parce quil
dforme les secteurs et il vaut mieux lviter.
R p a r titio n d e s d p e n s e s d e s m n a g e s
a rtic le s p e rs o n n e ls
e t v te m e n ts
a lim e n ts8 %
14 %
tra n s p o rts
15 %
a u tre
19 %
lo g e m e n t
et m nage
23 %
im p ts
21 %
S o u rc e : E n q u te fic tiv e s u r le s re v e n u s e t d p e n s e s d e s m n a g e s , C a n a d a ,
ii.
Diagrammes colonnes
Un diagramme colonnes comprend une srie de colonnes dont les hauteurs reprsentent les ordres de
grandeur (p. ex., totaux, moyennes ou proportions). Le diagramme colonnes peut tre utilis pour les
variables qualitatives ou quantitatives. Le diagramme colonnes devrait tre utilis pour quelques points
seulement et les colonnes devraient avoir la mme largeur.
La distribution des tensions artrielles systoliques (une variable quantitative), par exemple, pourrait tre
estime dans la population laide des donnes denqute dun chantillon pondr et elle est prsente
dans le diagramme colonnes suivant :
STATISTIQUE CANADA
253
Population estime
140
120
100
80
60
40
20
0
140,3
140,5
140,7
140,9
141,1
141,3
141,5
141,7
141,9
142,1
142,3
Nombre estim
(en milliers)
1 400
1 200
1 000
800
1994
1995
600
400
200
Calgary
Ottawa
Toronto
Montral
Ville d'origine
Source : Enqute fictive sur le tourisme du rgime intrieur, Canada, 1995,1996.
254
plus proche de la ligne de base pour faciliter la comparaison. La variable compare entre diffrents
domaines ne devrait pas avoir plus de trois catgories parce que le diagramme colonnes empiles sera
presque illisible sil y en a trop. Voil pourquoi, dans lexemple suivant, les cinq catgories (trs satisfait,
satisfait, ni lun ni lautre, insatisfait et trs insatisfait) de la variable satisfaction ont t ramenes trois
(satisfait, ni lun ni lautre et insatisfait) et compares pour cinq domaines dintrt (heures, personnel,
livraison, garantie, service) :
ni l'un ni l'autre
satisfait
25%
0%
heures
personnel
livraison
garantie
service
Les diagrammes colonnes sont gnralement utiliss pour des valeurs positives seulement (p. ex.,
dnombrement de la population, proportions, etc.). Un graphique tuyaux dorgue plus-moins affiche
cependant des valeurs positives et ngatives au cours dune certaine priode. Une valeur ngative pointe
simplement vers le bas sous la ligne de base au lieu de pointer vers le haut.
iii.
Graphiques barres
Un graphique barres est un graphique colonnes horizontales. Lorsque lon trace un graphique
barres, les barres devraient tre disposes par ordre de longueur (de la plus longue la plus courte, ou
vice versa).
Si des valeurs exactes sont inscrites, le graphique devrait tre annot (c.--d. que la valeur exacte devrait
tre inscrite la fin de chaque barre). Si ces vedettes de la colonne de titres sont longues, un graphique
barres peut tre plus facile lire et paratre moins encombr quun diagramme colonnes. Il y a de
nombreuses variations sur le graphique barres lmentaire qui correspondent diffrents types de
diagrammes colonnes (p. ex., colonnes empiles, groupes, etc.).
STATISTIQUE CANADA
255
1995
1994
Ville d'origine
Ottawa
Calgary
-
200
400
600
800
1 000
1 200
iv.
Graphiques linaires
Un graphique linaire affiche une variation dans lordre de grandeur dune variable au cours dune
certaine priode (p. ex., totaux, moyennes ou proportions dans le temps). Le temps (la variable
explicative) est plac sur laxe horizontal. Ltendue des valeurs de la variable dintrt est place sur
laxe vertical. Un point (c.--d. une mesure de lordre de grandeur) est trac pour cette variable pour
chaque unit de temps et les points sont lis en squence. Les lignes sont droites dun point lautre ou
elles peuvent tre des courbes peu prononces. Voici des exemples de graphiques linaires :
Rpartition des tensions artrielles
systoliques, Canada, 2002
Population estime
160
140
170
120
160
100
150
Tous les
articles
80
140
Transport priv
60
130
40
120
20
110
100
0
140,3 140,6 140,9 141,2 141,5 141,8 142,1 142,4
90
80
1986
1988
1990
1992
1994
1996
Les graphiques linaires devraient servir dmontrer les tendances ou le mouvement. Le graphique
linaire est prfrable au diagramme colonnes pour les sries de temps ayant un grand nombre de points.
Le graphique linaire est le meilleur moyen de mettre en vidence les diffrences ou les ressemblances
entre des groupes pour comparer plusieurs sries de donnes. Si les donnes rvlent des tendances
videntes, le graphique linaire donne lutilisateur une certaine capacit prdictive. Les tendances
STATISTIQUE CANADA
256
25
.-P.-.
Qubec
20
Canada
Ontario
15
Manitoba
10
Saskatchewan
Alberta
ColombieBritannique
Nouvelle-cosse
v.
1993
1992
1991
1990
1989
1988
1987
1986
1985
1984
1983
1982
1981
NouveauBrunswick
Les statistiques sommaires peuvent aussi tre prsentes en un seul graphique rcapitulatif : le diagramme
bote et moustaches. Celui-ci est utilis pour tudier la distribution et ltalement des donnes. La bote
elle-mme se prolonge partir du premier quartile (c.--d. le 25e centile) jusquau troisime quartile
(c.--d. le 75e centile) et une ligne est trace la mdiane (c.--d. le 50e centile). Les extrmits ou
pointes des lignes lies la bote reprsentent les valeurs minimales et maximales. Certaines trousses
statistiques affichent aussi la moyenne et lerreur-type de la moyenne (sil sagit dun EAS) dans le trac
en bote, mais ni lune ni lautre nest affiche ici.
Distribution des prix de vente des maisons, juin 2002
(Prix en milliers de dollars)
400
90e Ct
300
3e Q
200
Md.
tendue
interquartile
1er Q
100
10e Ct
257
Les dfinitions de la mdiane, du premier quartile, du troisime quartile, du 10e et du 90e centile sont
donnes lexemple 11.1 dans la section suivante pour les donnes simples et aux Sections 11.3.2.1 et
11.3.2.2 pour les donnes complexes. On trouvera davantage dinformation sur les diagrammes bote et
moustaches dans Tukey (1977).
11.3.1.2
Il y a trois mesures communes de la position : la moyenne, la mdiane et le mode. Dans les analyses
statistiques, la moyenne est de loin la plus souvent utilise pour les donnes quantitatives. La moyenne de
la population pour un recensement est simplement la moyenne arithmtique pour les donnes
quantitatives : la somme de toutes les valeurs dune variable divise par le nombre de valeurs. Voici
lestimateur habituel pour estimer la moyenne de la population laide dun chantillon alatoire simple
dont le taux de rponse atteint 100 % :
yi
iS
Y =
nr
r
258
Le principal avantage du mode est sa simplicit parce quil peut tre dtermin partir dun tableau ou
dun graphique de la distribution des frquences des donnes. Le mode a cependant un certain nombre
dinconvnients. Premirement, il ne dcrit peut-tre pas suffisamment les donnes parce que la catgorie
la plus commune peut tre peu frquente. Ce problme se pose habituellement lorsquil y a de
nombreuses valeurs de donnes possibles. Dans un recensement sur la migration interurbaine par
exemple, vous pouvez faire la collecte de donnes nominales en demandant 2 000 personnes quelle ville
elles ont quitt et vous pouvez obtenir 1 999 rponses diffrentes, deux personnes seulement ayant le
mme point dorigine. Cette ville en commun serait le mode, mais il ne serait pas trs significatif. Voil
pourquoi le mode est rarement appliqu aux donnes quantitatives qui ont habituellement de nombreuses
valeurs possibles. Contrairement la mdiane et la moyenne, le mode nest pas ncessairement unique
non plus. Plusieurs catgories peuvent tre gales lorsque vous dterminez le rang le plus commun.
Une question se pose videmment : Quelle mesure devrait-on utiliser? Il est important que la mesure
soit significative, approprie, et quelle rponde aux besoins de lutilisateur. Le mode devrait en gnral
tre utilis pour les donnes nominales, la mdiane, pour les donnes numriques ordinales et
quantitatives asymtriques (c.--d. qui ne sont pas symtriques par rapport la moyenne), et la moyenne,
pour les donnes quantitatives rparties symtriquement. Si on considre des donnes quantitatives, la
distribution des valeurs de la variable devrait dterminer le choix. Si la distribution est symtrique et sil y
a seulement un sommet (p. ex., distribution normale) la moyenne, la mdiane et le mode sont identiques.
Le choix na pas dimportance dans ce cas, mais si lanalyste sait quils sont identiques, les donnes sont
donc symtriques. Si la distribution est asymtrique, une estimation des trois mesures donne un indicateur
de lampleur de lasymtrie.
Dautres mesures de la position sont parfois utilises dans les analyses statistiques descriptives. Les
quartiles sont des mesures de la position et, comme dans le cas de la mdiane, il faut dabord inscrire
les valeurs des donnes en ordre, mais au lieu de sparer la distribution en deux parties (comme dans
le cas de la mdiane), les quartiles ont quatre parties, chacune contenant 25 % de la distribution en
ordre. Les centiles tablissent aussi les valeurs des donnes en ordre, mais ils divisent la distribution en
100 entres gales. Le 10e, le 50e (la mdiane) et le 90e centiles sont des statistiques souvent utilises.
Exemple 11.1 : Mesures de la position pour un recensement des ventes de maisons
Supposons quune enqute est faite aux fins du recensement de toutes les maisons vendues au mois de
juin dans une ville en particulier et que lon obtienne les chiffres de vente suivants (en milliers de
dollars) : 85, 235, 146, 295, 96, 250, 235, 205, 195 et 375. Tris en ordre : 85, 96, 146, 195, 205, 235,
235, 250, 295 et 375.
Tableau 4 : Mesures de position pour un recensement des ventes de maisons
Mesure de la position
Moyenne
Mdiane
Mode
1er quartile (ou 25e centile)
Valeur
211 700 $
220 000 $ (moyenne de 205 000 $ et 235 000 $)
235 000 $
146 000 $ (plus petite valeur plus grande que la
premire tranche de 25 % des valeurs)
250 000 $ (plus petite valeur plus grande que la
premire tranche de 75 % des valeurs).
375 000 $ (plus petite valeur plus grande que la
premire tranche de 90 % des valeurs)
STATISTIQUE CANADA
259
11.3.1.3 talement
Ltalement est la variabilit ou la dispersion des donnes. Une mesure de ltalement est prsente au
Chapitre 7 - Estimation, cest--dire la variance qui est calcule comme le carr des diffrences par
rapport la valeur de la moyenne. La variance de deux distributions diffrentes a t considre : celle de
la population et celle de lestimateur. La variance de la population mesure ltalement de la distribution
de toutes les donnes yi de la population (o y est une variable dintrt et yi est la valeur de la ie unit). La
variance dchantillonnage mesure ltalement de la distribution des estimations de diffrents chantillons
laide du mme estimateur et du mme plan dchantillonnage. Afin de donner aux utilisateurs de
linformation sur la qualit de lenqute-chantillon, toutes les estimations de lchantillon devraient
comprendre une certaine mesure de lerreur dchantillonnage (variance dchantillonnage, erreur-type,
coefficient de variation ou marge derreur).
Pour le recensement des ventes de maisons, ltendue vaut 290 000 $ (c.--d. 375 000 $ - 85 000 $) et
ltendue interquartile vaut 104 000 $ (c.--d. 250 000 $ - 146 000 $).
Considrons le cas hypothtique suivant pour comprendre limportance de la combinaison de
linformation sur ltalement et de linformation sur la position. Un employ dans une banque vend des
produits financiers pour la retraite et essaie de dterminer le meilleur endroit pour ouvrir un nouveau
bureau. Les travailleurs de 45 ans environ sont le march cibl parce quils ne sont pas trop loin de la
retraite, mais ils nont probablement pas commenc planifier et ils ont de largent disponible. Le bureau
pourrait tre ouvert dans deux villes ventuellement. Un rapport statistique sur un recensement des villes
rvle que lge moyen des travailleurs est 45 ans dans les deux. Sans autre information, lemploy
voudra peut-tre ouvrir un bureau dans chaque ville. En considrant ltalement des donnes cependant, il
constate que les travailleurs de la ville A ont tous entre 40 et 50 ans, et ceux de la ville B ont de 15
65 ans, les deux valeurs modales tant de 20 et 60 ans. Le tableau est maintenant trs diffrent et il peut
tre plus avantageux pour la banque douvrir un bureau dans la ville A (il faudra quand mme obtenir
davantage dinformation, par exemple, combien de rsidents de 40 50 ans habitent dans chaque ville).
STATISTIQUE CANADA
260
11.3.2.1 Mdiane
La mdiane de la population est la valeur de la variable dintrt sous laquelle se trouve la moiti de la
distribution de la population. Lestimation de la mdiane de la population est plus complique pour les
plans denqute complexes que pour les plans denqute simples. Des tailles de classes estimes sont
ncessaires pour les variables ordinales. Les valeurs des donnes sont tries par ordre croissant pour les
variables continues et les poids destimations sont additionns jusqu ce que la somme atteigne 50 % de
la taille estime de la population. Lexemple suivant illustre comment estimer la mdiane de la population
en estimant la distribution de la population laide de calculs pondrs.
Exemple 11.2 : Mdiane estime pour un EAS stratifi (voir lexemple 7.6 du Chapitre 7 Estimation)
Rappelons pas que lchantillon de cet exemple a dix observations et deux strates. Voici les points de
lchantillon (tri) :
Tableau 5 : Distribution estime des revenus de la population dun EAS stratifi
Strate
2
1
2
2
1
2
1
1
1
1
No did.
de lunit
8
2
10
7
6
9
4
1
5
3
Poids final
16,5
5,67
16,5
16,5
5,67
16,5
5,67
5,67
5,67
5,67
Poids
cumuls
16,5
22,17
38,67
55,17
60,84
77,34
83,01
88,68
94,35
100,02
Poids cumuls
relatifs
0,16
0,22
0,38
0,55
0,60
0,77
0,83
0,88
0,94
1,0
Genre de
ferme
1
2
1
1
1
2
1
1
2
1
(N1=34, n1=6)
(N2=66, n2=4)
1= culture
2= levage
Y =
yi
iS r
=
i
4,160,340
= 41,595.1 .
100.02
iS r
STATISTIQUE CANADA
Revenu dclar
($)
14 000
15 000
22 000
30 000
40 000
48 000
67 000
75 000
80 000
125 000
261
0 .9
0 .8
0 .7
0 .6
0 .5
0 .4
0 .3
0 .2
0 .1
0 .0
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
100000
110000
120000
130000
Revenu
La mdiane estime se situe entre 22 000 $ et 30 000 $ parce que les pondrations cumules sont de 0,38
0,55 pour ces deux chiffres. Il est pratique commune, pour obtenir une seule valeur, de faire une
interpolation linaire entre deux points (22 000 $, 0,38) et (30 000 $, 0,55) pour obtenir les coordonnes
du point mdian (Md., 0,50), cette explication tant illustre ci-dessus (lestimation non pondre de la
mdiane est 44 000).
30 000 22 000
Md . = 22 000 +
(0,50 0,38) = 27 647 .
0,55 0,38
11.3.2.2 talement
Il est plus facile de prsenter le cas des donnes denqute dun EAS ou dun EAS stratifi sans
ajustement de pondration comme celui du Chapitre 7 - Estimation pour illustrer le concept de la
variance dchantillonnage. En pratique cependant, peu prs toutes les enqutes ont des donnes plus
complexes, mme si le plan dchantillonnage est un EAS ou un plan systmatique (SYS), un ajustement
de pondration pour les non-rponses est habituellement appliqu, et les formules de lEAS ou de lEAS
stratifi ne sappliquent donc pas.
Le plan dchantillonnage et lestimateur ponctuel dterminent la formule de la variance exacte (c.--d.
que lestimateur de la moyenne dtermine lestimateur pour la variance dchantillonnage dune
moyenne). Lestimation de la variance pour des donnes complexes devient rapidement complique. Afin
destimer correctement lerreur dchantillonnage pour un sondage ayant des donnes complexes, il est
prfrable de consulter un statisticien denqute qui connat bien ce genre de problme. Il nest pas
recommand dutiliser simplement un logiciel, mme un logiciel statistique, parce quun EAS implicite
sans ajustement de pondration y est souvent intgr.
Pour estimer les tendues interquartiles pour des donnes complexes, on peut appliquer lapproche
explique ci-dessus pour la mdiane, afin destimer le 25e et le 75e centile.
STATISTIQUE CANADA
262
Ltude de lestimation et de lanalyse des donnes denqute a suppos jusqu maintenant quil ny
avait pas de biais. Au Chapitre 3 - Introduction au plan denqute, nous avons numr quatre sources
derreurs non dues lchantillonnage qui peuvent causer un biais : la couverture, la mesure, la nonrponse et les erreurs de traitement. Lestimateur peut aussi causer un biais : lanalyste peut prfrer
utiliser un estimateur ayant un petit biais, mais une bonne prcision, au lieu dun estimateur non biais
ayant une prcision mdiocre.
La variation totale par rapport la valeur relle dun paramtre, , est intitule erreur quadratique
moyenne :
MSE (t ) = E (t ) 2
= E (t E (t )) 2 + ( E (t ) ) 2
= Var (t ) + (Biais (t ) )
o t est lestimation de pour un chantillon ralis, E(t) est la valeur prvue, ou lestimation moyenne de
tous les chantillons possibles et Var(t) est la variance dchantillonnage de t.
En prsence dun biais, E(t) = + B. Sil ny a pas de biais, E(t) = , et la variation totale par rapport la
valeur relle, , est simplement la variance dchantillonnage :
MSE (t ) = E (t ) 2
= E (t E (t )) 2 + ( E (t ) ) 2
= Var (t ).
Les intervalles de confiance (considres auparavant au Chapitre 7 - Estimation et au Chapitre 8 Calcul de la taille de lchantillon et rpartition) sont souvent utiliss pour prsenter les rsultats
denqutes probabilistes. tant donn une estimation t et son erreur-type, SE (t ) = Var (t ) , un intervalle
de confiance peut tre tabli comme suit :
( t z SE (t ), t + z SE (t ) )
o z est la valeur correspondant au niveau de confiance (p. ex., z=1,96 pour un intervalle de confiance de
95 %) dans un tableau type de distribution normale. On reconnat la thorie standard enseigne dans les
cours de statistique de premier cycle. Elle sapplique aux moyennes, aux proportions, aux paramtres de
rgression et de nombreuses autres statistiques. Son assise thorique est le thorme central limite dans
les populations infinies. Il faut cependant un chantillon suffisamment large pour que la thorie
asymptotique sapplique et cest sa limite pratique.
Un intervalle de confiance de 95 % est parfois dcrit ainsi :
Selon une enqute rcente, 15 % des rsidents dOttawa assistent des services religieux chaque
semaine. Les rsultats, tirs dun chantillon de 1 345 rsidents, sont considrs prcis plus ou
moins 3 %, 19 fois sur 20.
Un intervalle de confiance de 95 %, pour des estimateurs non biaiss qui ont des distributions
dchantillonnage normales ou approximativement normales, signifie que si lenqute est rpte de
STATISTIQUE CANADA
263
nombreuses fois, environ 19 fois sur 20 (ou 95 % des occasions), lintervalle de confiance couvrirait la
valeur de la population relle.
En prsence dun biais, il ny a habituellement pas de mesure du Biais(t), et sil y en avait une,
t + Biais (t ) serait une estimation non biaise de et un intervalle de confiance serait tabli par rapport
cette valeur, mais un intervalle de confiance est plutt tabli par rapport t laide de SE (t ) = Var (t )
au lieu de
MSE (t ) .
Les rpercussions du biais sur lintervalle de confiance sont remarques surtout dans la probabilit de
couverture ( est-ce vraiment 95 %? ). Lintervalle de confiance (le secteur entre les zones ombres de la
courbe de droite) est dcal du point de vue de la valeur relle. La probabilit de couverture pour un
intervalle de confiance autour de est la zone ombre sous la courbe de gauche.
Distribution dun estimateur t avec et sans biais
B / SE( t ) =1
Srndal et coll. (1992) donnent le tableau suivant de la probabilit de couverture relle comme une
fonction du biais relatif, c.--d. le ratio B / Var (t ) .
Tableau 6 : Probabilit de couverture, compte tenu de B/V
Biais relatif
0,00
0,05
0,10
0,30
0,50
1,00
Probabilit de couverture
0,95
0,9497
0,9489
0,9396
0,9210
0,8300
STATISTIQUE CANADA
264
Nous lavons dj mentionn, B est en pratique inconnu, mais le concepteur et lutilisateur de lenqute
doivent tre conscients de son existence et de ses rpercussions prjudiciables.
Le rapport denqute ou le rapport danalyse des donnes comprend souvent des tableaux des erreurstypes ou des coefficients de variation estims, c.--d. le ratio de lerreur dchantillonnage lestimation
(en pour cent), et les utilisateurs peuvent donc calculer leurs propres intervalles de confiance et procder
leurs vrifications dhypothses. Ces tableaux devraient comprendre une explication de la mthode
appliquer pour faire des tests dhypothses, ainsi que de linformation sur le biais et ses rpercussions.
Hypothse nulle
Lhypothse nulle est un nonc au sujet dun paramtre de la population que lanalyste veut vrifier et
son symbole est Ho. Voici des exemples ventuels dhypothse nulle :
-
STATISTIQUE CANADA
ii.
265
Lhypothse nulle est teste par rapport lhypothse alternative dont le symbole est souvent H1 ou HA.
Lhypothse alternative est souvent un nonc sur la population qui devrait tre vrai. Lhypothse
alternative peut tre accepte seulement si les donnes dun niveau de signification en particulier ne
peuvent soutenir lhypothse nulle. Les hypothses alternatives aux hypothses nulles ci-dessus
pourraient tre, par exemple,
-
iii.
Statistique du test
La statistique du test est une valeur calcule partir dun chantillon (ou de plusieurs chantillons) pour
tester une hypothse sur la population do lchantillon est tir. Les donnes, lhypothse vrifie, le
niveau de signification et lestimateur utiliss pour estimer le paramtre dterminent la valeur de la
statistique. Celle-ci exige habituellement que lestimateur ne soit pas biais (ou quil soit
approximativement sans biais) et que la distribution de lchantillonnage de lestimateur soit connue. Une
statistique z est distribue normalement, par exemple, une statistique khi carr a une distribution
khi carr et une statistique F a une distribution F de Fisher-Snedecor.
iv.
Niveau de signification
Les seuls rsultats possibles dun test dhypothse sont rejeter lhypothse nulle ou ne pas rejeter
lhypothse nulle. Rejeter lhypothse nulle ne signifie pas toujours quelle est fausse et ne pas la rejeter
ne signifie pas quelle est ncessairement vraie. Il y a en fait deux genres de conclusions errones :
conclure que lhypothse nulle est fausse lorsquelle est vraie et conclure quelle est vraie lorsquelle est
fausse.
Tableau 7 : Types derreur
VRAIE
FAUSSE
Ces deux genres de conclusion errone sont intitules erreur de type I et erreur de type II respectivement.
Le niveau de signification dun test, soit , est le risque accept de commettre une erreur de type I,
autrement dit, de rejeter une hypothse nulle vraie. La valeur, = 0,05, par exemple, est souvent utilise.
Si un risque moindre est exig, on peut attribuer une valeur infrieure , disons = 0,01. Si un risque
plus grand est acceptable, on peut utiliser = 0,10.
Le dictionnaire de la statistique de Cambridge (Everitt, 1998) illustre les niveaux de signification comme
suit : on tire pile ou face 100 fois et on obtient face chaque fois. On peut souponner avec raison que
STATISTIQUE CANADA
266
la pice est biaise, mais il y a une mince possibilit quelle ne soit pas biaise et quelle tombe
simplement de cette faon. Nous savons cependant que la probabilit quune bonne pice tombe de la
mme faon 100 fois sur 100 est trs mince : 2 x ()100, ou 1,6 x 10 30 (cest la valeur de la statistique du
test). Compte tenu de ces points, lanalyste peut rejeter en toute confiance lhypothse nulle, Ho : la pice
nest pas biaise pour adopter lhypothse alternative, H1 : la pice est biaise, sachant quil y a
seulement une mince possibilit que sa conclusion soit inexacte. Supposons cependant que la pice est
tire six fois seulement et quelle donne face chaque fois. La probabilit quune pice quilibre tombe de
cette faon est : 2 x ()6, c.--d. 0,031. Cest peu probable, mais pas impossible. Si le niveau de
signification est = 0,05, lanalyste rejetterait lhypothse nulle, mais avec un niveau de signification
plus strict de = 0,01, lanalyste ne pourrait pas rejeter lhypothse nulle.
Il y a deux genres de tests dhypothse : les tests unilatral et bilatral. Un test est unilatral lorsque la
rgion de rejet pour lhypothse nulle, exprime graphiquement, consiste en une queue de distribution de
lchantillonnage de lestimateur. (La rgion de rejet est lensemble des valeurs de la statistique du test
qui inciteraient rejeter lhypothse nulle.) Dans un test bilatral, la rgion de rejet comprend les deux
queues de distribution. Les tests bilatraux sont habituellement utiliss avec des estimateurs normalement
distribus. Lhypothse alternative ci-dessus, par exemple, selon laquelle les revenus moyens des deux
provinces sont diffrents (p. ex., H 1 : Y1 Y2 ), utiliserait un test bilatral, alors que les deux autres
hypothses alternatives appliqueraient des tests unilatraux.
Compte tenu dune srie de donnes obtenues laide dun plan dchantillonnage alatoire simple dune
population, la moyenne de la population estime, Y , nest pas biaise et (si lchantillon est suffisamment
grand) elle est distribue presque normalement avec une moyenne, Y , et une erreur-type estime, SE (Y ) .
Si lanalyste veut tester lhypothse selon laquelle la valeur de Y est k (c.--d. que H O : Y = k ), la
statistique du test suivante peut tre utilise :
Y k
z=
.
SE (Y )
Cette statistique du test est intitule statistique z parce que, si Ho est vraie, z a donc une distribution type
approximativement normale, une moyenne gale 0 et une erreur-type gale 1. Cest la mme
statistique z que celle utilise pour tablir les intervalles de confiance pour la moyenne (voir Section
7.3.2.2).
Parce quil connat la distribution de z, lanalyste connat la probabilit que z scarte de sa moyenne dun
certain nombre derreurs-types; il dtermine ainsi le niveau de signification pour un test. Il est connu, par
exemple, que 5 % des valeurs (absolues) de z sont suprieures 1,96. Afin de faire un test bilatral (p. ex.,
H 1 : Y k ) laide dune statistique z et de = 0,05, la rgion de rejet serait donc les valeurs de z
STATISTIQUE CANADA
267
infrieures 1,96 ou suprieures 1,96. Dans le cas dun test unilatral (p. ex., H 1 : Y > k ), pour tablir
un test dont = 0,05, la rgion de rejet serait les valeurs de z suprieures 1,65.
Il est souvent raisonnable de supposer pour les grands chantillons que Y suit une distribution normale.
Cest parce que dans certaines conditions, selon le thorme central limite, la distribution de la moyenne
de lchantillon approche la distribution normale quand augmente la taille de lchantillon.
Exemple 11.3 : Test sur une moyenne dun EAS
Supposons quun organisme statistique procde une enqute sur la sant et fait la collecte des donnes
laide dun chantillon probabiliste. Lorganisme veut vrifier lhypothse selon laquelle il y a un
problme dembonpoint dans la population, lequel est dfini comme le poids moyen de la population tant
suprieur 100 kg. Lorganisme sait que lestimateur habituel pour la moyenne de la population nest pas
biais et est normalement distribu. Une statistique z est donc utilise, et le niveau de signification est de
= 5% . tant donn quun test unilatral est appropri et, afin dobtenir un taux de certitude de 95 %
pour rejeter lhypothse nulle, la rgion de rejet comprend toutes les valeurs z suprieures 1,65.
Voici la vrification de lhypothse :
H 0 : Y 100kg
H 1 : Y > 100kg
La statistique du test :
z=
Y 100
SE (Y )
tant donn que 1,4 est infrieur 1,645, la donne nest pas dans la rgion de rejet. Lvidence nest
donc pas suffisante pour rejeter lhypothse nulle.
11.4.2.2 Comparaison entre deux moyennes de (sous-)populations
Lapproche applique au test dune moyenne peut facilement tre applique deux moyennes : soit la
diffrence entre deux groupes dintrt, soit le mme groupe mesur deux points dans le temps.
Supposons maintenant quun chantillon est tir de chaque groupe, que les chantillons sont indpendants
et que chaque chantillon est suffisamment large pour justifier lapplication du thorme central limite.
Le premier groupe a une moyenne inconnue, Y1 , le deuxime groupe a une moyenne inconnue, Y2 , et si
lhypothse nulle est vraie, ces moyennes inconnues sont gales. Leur diffrence est donc zro et leurs
estimations devraient tre trs prs lune de lautre. Toute grande diffrence observe entre les
estimations sont dues des chantillons malheureusement mauvais (mais il ny a pas de bonnes raisons
pour cela) ou bien, H0 est faux. Compte tenu de cette explication, le test peut tre fait comme suit :
STATISTIQUE CANADA
268
H 0 : Y1 = Y2
H 1 : Y1 Y2
et la statistique du test asymptotiquement normale est :
Y1 Y2
z=
Le niveau de test dcid davance est habituellement 5 %. tant donn quil sagit dun test bilatral, cela
correspond rejeter lhypothse nulle si la statistique du test est lextrieur de la fourchette (-1,96,
1,96). (Remarquez que cette statistique du test est correcte seulement si les deux chantillons sont
indpendants.)
Exemple 11.4 : Test de deux moyennes dun EAS
Supposons quun analyste est intress dterminer si les gens dans une province ont un poids plus lev,
en moyenne, que ceux dune autre province. Un chantillon alatoire simple est tir dans chaque province
et les rsultats sont Y = 95, Y = 105, SE (Y ) = 1,4, SE (Y ) = 2,2. Voici donc la statistique du test :
1
z=
95 105
1,4 + 2,2
2
10
6,80
= 3,83
Le prolongement naturel de la thorie ci-dessus est llaboration dun essai pour comparer les moyennes
de nombreux groupes. Dans le cas de lANOVA (analyse (of) de la variance), aucune supposition nest
faite sur le lien ventuel entre les moyennes et, pour les modles linaires, une hypothse est formule sur
les liens linaires entre les moyennes. Les modles linaires sont dans une catgorie de techniques
statistiques utilises pour dterminer si une variable de rponse a des liens linaires avec une ou plusieurs
variables explicatives. Les effets des diverses variables explicatives sont additifs, une importante
caractristique des modles linaires.
11.4.2.3.1. Analyse de la variance (ANOVA)
LANOVA sert valuer leffet dune ou de plusieurs variables qualitatives (intitules facteurs) sur une
variable de rponse continue. Les diffrences entre les moyennes sont vrifies en tudiant la variabilit
dun ensemble dobservations pour dterminer si la variabilit est alatoire ou si elle peut tre attribue
un ou plusieurs facteurs.
LANOVA la plus simple est un plan un facteur pour lequel un chantillon est tir de chacun des k
diffrents groupes dun seul facteur (c.--d. que k moyennes diffrentes sont compares et, selon
lhypothse nulle, elles sont toutes gales). Lanalyste voudra peut-tre, par exemple, vrifier lhypothse
nulle selon laquelle il ny a pas de diffrence entre les revenus moyens des dix provinces :
STATISTIQUE CANADA
269
H O : Y1 = Y2 = Y3 = Y4 = Y5 = Y6 = Y7 = Y8 = Y9 = Y10 .
(y
g
Y ) 2 = N g (Y g Y ) 2 + ( y gi Y g )
gi
o Ng est le nombre dunits du groupe g, Yg est la moyenne du groupe g et Y est la moyenne gnrale.
Si les chantillons alatoires indpendants ont t tirs de g populations distribues normalement, cette
variation peut tre estime comme suit :
(y
g
iS
y ) 2 = n g ( y g y ) 2 + ( y gi y g )
gi
Si les moyennes de lchantillon k sont toutes les mmes, elles sont aussi gales la moyenne gnrale
y . Dans les limites de la variation alatoire, la variance entre les groupes, c.--d. :
MS ( Modle) =
SS ( Modle)
g 1
H : Y = L = Y10
H 0 : g = 0, g
0 1
STATISTIQUE CANADA
270
SS ( Modle)
MS ( Modle)
( g 1)
F=
~ Fg 1; g ( n
=
MS ( Rsiduel ) SS ( Rsiduel )
g (n g 1)
1)
Cette statistique a une distribution F de Fisher-Snedecor (g-1) et g(ng-1) degrs de libert. Les valeurs
critiques sont lues partir de tableaux F , avec les degrs de libert et de niveau appropri. On
considre quil existe une diffrence importante entre les moyennes quand la statistique F calcule est
suffisamment grande, c.--d. plus grande que la valeur critique donne par la table F.
Nous dcrivons ici un cas appropri au plan dchantillonnage le plus simple, c.--d. que nous supposons
des chantillons de taille gale et un chantillonnage alatoire simple dans chaque groupe. Ce nest pas
une situation typique des grandes enqutes et cette stratgie nest pas efficace dans les applications
pratiques des plans exprimentaux.
Le lecteur intress par lANOVA peut consultez des ouvrages dintroduction la statistique (p. ex., Lohr
(1999), Wonnacott et Wonnacott (1977)), ou des ouvrages sur les plans exprimentaux (Box, Hunter,
Hunter (1978)).
11.4.2.3.2. Rgression linaire
La rgression linaire est probablement le modle linaire le mieux connu. LANOVA aide dterminer
si la moyenne dun groupe est trs diffrente des autres et la rgression sert identifier ou modliser les
liens entre les diffrentes moyennes de groupe. Faire des prdictions ou des prvisions de la variable de
rponse pour les valeurs des variables explicatives connexes connues est une autre application de la
rgression linaire. La variable de rponse est habituellement une variable continue (p. ex., ge, poids,
taille) en rgression linaire et les variables explicatives peuvent tre qualitatives ou quantitatives. Si une
seule variable explicative est utilise, la rgression est simple et si plusieurs sont utilises, elle est
multiple.
Supposons par exemple quune enqute a t faite pour obtenir des donnes sur la taille et le poids, et
lanalyste est intress dterminer comment ces variables sont lies. Compte tenu du graphique de
donnes suivant, il semble y avoir un lien linaire entre les deux variables.
Le modle mathmatique de ce lien est exprim ainsi :
y i = 0 + 1 xi + i
o yi est la valeur de la variable de rponse continue, le poids, pour la ie unit, xi est la valeur de la
variable explicative, la taille, pour la ie unit, 0 est lordonne lorigine (valeur de y lorsque xi=0), 1
est la pente de la ligne (le changement en yi pour un changement dune unit en xi), i est une variable
derreur alatoire, de moyenne nulle et de variance 2. Autrement dit, on suppose que yi est
approximativement li linairement xi et que les valeurs observes de yi dvient dun nombre alatoire,
i, au-dessus et au-dessous de cette ligne. 0 et 1 sont les paramtres inconnus estims laide des
donnes de lchantillon. Afin de dterminer si les deux variables sont lies linairement ou non, les
intervalles de confiance peuvent tre tablis pour 1 et les tests dhypothses peuvent tre faits au sujet de
sa vraie valeur.
STATISTIQUE CANADA
271
90
80
70
60
50
40
140
150
160
170
180
190
200
Taille (cm)
Les estimations de paramtres peuvent tre dtermines laide des donnes observes (en supposant ici
un chantillonnage alatoire simple), comme suit :
1 =
(x x )( y y ) ,
(x x )
i
0 = y 1 x.
Bien entendu, On peut aussi obtenir les erreurs dchantillonnage de ces estimations. Le test est appliqu
1 pour dterminer si le lien est significatif, cest--dire si la ligne nest pas horizontale, ou 1 0. Voici
les hypothses nulle et alternative :
H 0 : 1 = 0
,
H1 : 1 0
la statistique du test est la z bien connue :
z=
1
SE ( 1 )
qui a une distribution type normale, compte tenu des habituelles hypothses dasymptoticit. Le critre de
dcision est identique celui observ auparavant, c.--d. que lon rejette H0 si les valeurs de z sont
lintrieur de la rgion de rejet pour un niveau choisi.
Exemple 11.5 : Rgression linaire pour les donnes sur la taille et le poids, cas dun EAS
Supposons que les donnes sur la taille et le poids ci-dessus ont t obtenues laide dun EAS et que les
estimations suivantes ont t calcules :
STATISTIQUE CANADA
272
Estimation S(estimation)
-90,88
7,66
0,95
0,04
21,09
Lanalyste conclurait quil y a un lien important entre le poids et la taille des gens dans la population.
La rgression est aussi utilise dans les enqutes pendant lestimation ou limputation pour amliorer la
qualit des estimations (consultez le Chapitre 7 - Estimation et le Chapitre 10 - Traitement). Draper et
Smith (1981) expliquent en dtail la thorie et les applications des modles de rgression linaire.
Le test pour une moyenne peut tre facilement tendu des donnes denqute complexe. Les exigences
asymptotiques pour le test sont en effet couvertes par la version pour population finie du thorme central
limite. Lestimation exacte de lerreur dchantillonnage de lestimateur de la moyenne (c.--d. tenant
compte de la stratification des donnes et des effets de grappe) remplace les exigences traditionnelles,
savoir que les donnes doivent tre indpendantes et identiquement distribues.
11.4.3.2 Comparaison entre de nombreuses moyennes de sous-populations : adaptation de
lANOVA et de la rgression
Des modles dANOVA et de rgression peuvent tre appliqus aux populations et des analyses par
infrence peuvent tre faites lorsque des chantillons de plans denqute complexes sont tirs de ces
populations. Peu douvrages traitent de lestimation et du test des paramtres des modles dANOVA et
de rgression linaire avec plans complexes. Ceux qui le font les regroupent en modles linaires et les
traitent simultanment.
Lintrt thorique et les difficults dpassent la porte de ce manuel. Le lecteur devrait maintenant trs
bien savoir que les trousses statistiques ordinaires ne tiendront pas compte correctement des complexits
ventuelles du plan dintrt et donneront probablement des rsultats trompeurs. Le lecteur intress
devrait consulter le Chapitre 8 de Thompson (1992), le Chapitre 7 de Srndal et coll. (1992), et le
Chapitre 8 de Lehtonen et Pahkinen (1995).
STATISTIQUE CANADA
273
Dans un tableau de contingence deux entres, il est souvent intressant de dterminer si deux
caractristiques qui dfinissent les lignes et les colonnes du tableau sont indpendantes. Disons que la
variable A, ayant r valeurs diffrentes est la caractristique dfinissant les lignes du tableau et la
variable B ayant c valeurs diffrentes est la caractristique dfinissant les colonnes. Les proportions
observes (ou effectifs) dans lchantillon sont affiches dans un tableau rc, la valeur dans la ie ligne et
la je colonne tant la proportion (ou nombre) de particuliers qui ont simultanment la valeur i pour la
variable A et la valeur j pour la variable B.
Tableau 9 : Effectifs observs dans un tableau de contingence deux entres ayant r lignes et
c colonnes
Variable A
1
2
3
1
n11
n21
Variable B
2
n12
n22
c
n1c
n2c
Tailles
dchantillon
n1+
n2+
nr1
n+1
nr2
n+2
nrc
n+c
nr+
n++
Disons que pij reprsente la proportion de la population dans la case (i, j) et pi+ et p+j reprsentent les
nij
n
proportions de la ie ligne de la je colonne respectivement. Leur estimateur est p ij =
, p i + = i + et
n++
n++
p + j =
n+ j
H 1 : p ij p i + p + j , pour certaines i et j
Remarquons que ij pij = 1 parce que chaque individu de la population ltude fait partie dune case
seulement. Pour un ensemble de donnes obtenues en appliquant la population un plan
dchantillonnage alatoire simple, les tests dindpendance reposent ou bien sur la statistique X2 de
Pearson :
X = n
2
i, j
( p
p i + p + j )
ij
p i + p + j
274
p ij
G 2 = 2n p ij ln
p p
i, j
i+ + j
n
, et p ij = ij ,
n++
o nij est le dnombrement de lchantillon dans la case (i, j) et p ij est la proportion de lchantillon
correspondante.
Compte tenu de Ho et des autres hypothses sur lchantillonnage, les deux statistiques ont une
distribution de khi carr asymptotique (r-1)(c-1) degrs de libert. Lhypothse nulle est rejete pour un
niveau de signification donn si X2 (ou G2) est plus grand que la valeur critique totalise 2(1-);(r-1)(c-1).
Exemple 11.6 : Test dindpendance pour les donnes dun tableau de contingence tires dun EAS
On veut vrifier si la frquence de lecture du journal quotidien (caractristique A, i=1 pour chaque jour,
i=2 pour parfois, i=3 pour jamais) est indpendante des opinions politiques du lecteur (caractristique B,
j=1 pour extrme droite, j=2 pour droite modre, j=3 pour gauche modre, j=4 pour extrme gauche).
Supposons quun chantillon alatoire simple de n=500 est slectionn et que les deux caractristiques
sont mesures pour tous les individus. Les rsultats de lenqute sont :
Tableau 10 : Estimations de lenqute
Lecture du
journal
Chaque jour
Parfois
Jamais
Total
Effectif
Proportion( %)
Effectif
Proportion( %)
Effectif
Proportion( %)
Effectif
Proportion( %)
Opinion politique
Gauche
Droite
Extrme
Modre
Modre
Extrme
50
36
6
n11 = 35
10,0
7,2
1,2
p 11 = 7,0
46
124
72
16
9,2
24,8
14,40
3,2
28
50
33
4
5,6
10,0
6,6
0,8
109
224
141
26
44,8
28,2
5,2
p +1 = 21,8
Total
127
p 1+ = 25,4
258
51,6
115
23,0
500
100,0
Df
6
6
Valeur
6,86
6,90
valeur p
0,334
0,329
tant donn que les valeurs des tests sont bien infrieures la valeur critique pour =0,05, 20.95;6= 12,59,
lvidence statistique nest pas suffisante pour confirmer que les opinions politiques et la frquence de
lecture dun journal sont lies. Dautre part, on peut comparer la probabilit dobtenir un rsultat au moins
aussi extrme que celui obtenu (p. ex., Pr(X2 6,86) = 0,334) avec , le niveau du test (ici, = 0,05).
Cette probabilit est intitule valeur p. Si la valeur p est plus grande que , en supposant toujours que H0
est vraie, on devrait affirmer que ce qui a t observ ntait pas suffisamment extrme pour rejeter
lhypothse nulle.
STATISTIQUE CANADA
275
Un autre cas simple avec variables discrtes est le test dhomognit des proportions entre les
populations lorsquun chantillon indpendant a t slectionn dans chaque population. La comparaison
entre les provinces de la proportion de personnes qui ne parlent aucune langue officielle, qui en parlent
une ou les deux, par exemple, laide dune enqute nationale et dchantillons indpendants dans chaque
province, serait un test dhomognit.
Supposons dans cette situation que r populations sont compares. Disons que p j|i est une proportion
dindividus dans la ie population ayant la je valeur dune variable discrte de c catgories. tant donn que
chaque particulier de la ie population doit tre dans lune des c catgories, p j |i = 1 . Voici lhypothse
j
vrifier :
H 0 : p j |1 = p j |2 = ... = p j |r , j = 1...c
.
2
(H )
n
= n i +
i n++
r
( p
p + j )
j |i
p + j
, o
p + j =
n+ j
n++
2
(H )
= n
( p
ij
2
p i + p + j )
p i + p + j
la formulation tant semblable la variable X2 de Pearson pour le test dindpendance. Selon lhypothse
nulle de lhomognit, X2(H) a aussi une distribution de khi carr asymptotique (r-1)(c-1) degrs de
libert.
Exemple 11.6 (suite) : Test dhomognit
Dans lenqute sur les opinions politiques examines ci-dessus, au lieu dun chantillon alatoire simple,
supposons que nous avons quatre chantillons alatoires simples indpendants, chacun pour un groupe
dopinion politique diffrent. Le test dhomognit consisterait vrifier si la frquence de lecture du
journal est la mme pour chaque groupe politique.
STATISTIQUE CANADA
276
Les liens entre les proportions dans les cases dun tableau de contingence peuvent souvent tre exprims
sous forme dun modle linaire logarithmique. Dans un tableau deux entres, par exemple, un modle
linaire logarithmique satur prend la forme dun modle ANOVA deux facteurs avec interaction :
ln ( p ij ) = + i + j + ( )ij
= = 0
( ) = ( ) = 0
et
ij
ij
Lhypothse dindpendance prcdente est quivalente au test de labsence dinteraction et peut tre
reformule ainsi :
H 0 : ( )ij = 0, i, j.
De nombreuses hypothses diffrentes au sujet des paramtres des modles log-linaires peuvent tre
formules et chacune correspond une statistique donne. On les retrouvera, notamment, dans Agresti
(1996). La statistique du test pour vrifier lindpendance (qui nest pas prcise ici) a une distribution de
khi carr asymptotique (r-1)(c-1) degrs de libert lorsque lhypothse est vraie.
nij
k S
remplaant p ij =
par sa version pondre p ij =
n++
wk
k S
277
qui
par
qui
ont
Les corrections de premier ordre apportes X2m et G2m (Rao et Scott (1981) (1984)), souvent intitules
corrections de premier ordre de Rao-Scott , consistent faire correspondre la moyenne asymptotique
des statistiques de test la moyenne dune distribution 2(r-1)(c-1). Les statistiques corriges sont exprimes
X2
G2
2
2
ainsi : X RS
= m et G RS
= m , o est une fonction des effets de plan pour estimer les proportions
conjointes pij et les proportions marginales pi+ et p+j. La correction exige donc la capacit de faire une
estimation de la variance pour les proportions estimes comprises dans les formules qui sappliquent
X2m et G2m. X2RS et G2RS peuvent ensuite tre compares une distribution 2(r-1)(c-1).
Les corrections de premier ordre ajustent seulement X2m et G2m, de sorte que leurs moyennes sont les
mmes que celle dune variable alatoire avec distribution 2(r-1)(c-1). Rao et Scott (1981) et (1984) ont
aussi propos une correction de deuxime ordre, souvent intitule correction de Satterthwaite , qui fait
correspondre les moyennes et la variance de la statistique du test la moyenne et la variance dune
distribution 2. Cette correction de deuxime ordre est peut-tre plus difficile calculer que la correction
de premier ordre, mais le rsultat peut tre meilleur si les effets du plan dchantillonnage varient
normment dune case du tableau lautre.
Exemple 11.7 : Test dindpendance pour les donnes dun chantillon stratifi par grappes (Lohr,
1999, p. 332-334)
Au cours dune enqute sur les jeunes et la criminalit (Survey of Youth in Custody - Enqute sur le
placement sous garde des jeunes) du Dpartement de la justice des .-U. en 1987, on a slectionn un
chantillon de 2 621 adolescents et jeunes adultes rsidant dans des tablissements de longue dure pour
les jeunes sous la gouverne de ltat. Il sagit dun chantillon stratifi par grappes avec probabilits
ingales slectionn dans 52 tablissements. Les interviews ont permis dobtenir de linformation sur le
contexte familial, les antcdents criminels et la consommation de drogue et dalcool. laide des
donnes de lenqute, le tableau suivant a t dress pour tablir un lien possible entre lge et le caractre
violent ou non de linfraction criminelle. Voici les proportions pondres :
Tableau 12 : Proportions estimes ( laide des pondrations de lenqute)
Infraction avec
violence?
Non
Oui
15
0,1698
0,1107
0,2805
Groupe dge
16 ou 17 18
0,2616
0,1275
0,1851
0,1453
0,4467
0,2728
0,5589
0,4411
1,0000
Si le plan dchantillonnage par grappes et les probabilits de slection ingales avaient t omis, les
proportions estimes auraient t les suivantes :
STATISTIQUE CANADA
278
Infraction avec
violence?
Non
Oui
Groupe dge
16 ou 17
15
18
0,1389 0,2823 0,1328
0,0908 0,1969 0,1583
0,2297 0,4792 0,2911
0,5540
0,4460
1,0000
Il est vident que le plan dchantillonnage a un effet sur les estimations et quil ne peut tre nglig ou
rejet.
De mme, la simple statistique du test de Pearson pour lindpendance dfinie en 11.5.1.1 aurait une
valeur de 34. tant donn que la valeur critique de 2(2-1)(3-1) est 5,99 au niveau de 5 %, lhypothse de
lindpendance serait rejete. Il est maintenant vident que les contrevenants ne sont pas distribus au
hasard entre les tablissements correctionnels. En particulier, tous les rsidents de ltablissement no 31
sont des dlinquants violents. Les effets de grappes peuvent tre constats aprs avoir dtermin les effets
du plan denqute pour le tableau prcdent :
Tableau 14 : Effets du plan dchantillonnage
Infraction avec
violence?
Non
Oui
15
20,2
5,3
22,0
Groupe dge
16 ou 17
1,9
8,4
9,7
18
2,8
2,4
4,3
5,7
5,7
La statistique du test ajuste du premier ordre a une valeur de X2RS = 16,2. Les effets de plan sont
remarquables, mme si la conclusion est la mme.
11.6 Sommaire
Lanalyse des donnes est lune des tapes les plus dlicates dune enqute parce que la qualit de
lanalyse et la mthode de communication efficace peuvent avoir des rpercussions substantielles sur
lutilit de lenqute dans lensemble. Lanalyse des donnes devrait tablir un lien entre les rsultats de
lenqute et les questions et proccupations identifies au cours de la premire tape de lenqute.
Lanalyse des donnes peut tre restreinte aux donnes de lenqute seulement ou elle peut comprendre
une comparaison entre les rsultats de lenqute et les rsultats tirs dautres enqutes ou sources de
donnes. Lanalyse consiste souvent examiner des tableaux et graphiques de diverses mesures de
rcapitulation, notamment, les distributions de frquences, les moyennes et les tendues. Dautres genres
danalyses de donnes plus perfectionnes sont aussi possibles, et linfrence statistique peut tre
applique pour vrifier des hypothses ou tudier des liens entre des caractristiques.
Il faut correctement tenir compte du plan dchantillonnage pour formuler des infrences au sujet de la
population. Bien quon puisse obtenir des formules normalises dans des ouvrages statistiques pour les
donnes denqute simple, il est prfrable de consulter un spcialiste si les donnes sont plus complexes.
STATISTIQUE CANADA
279
Bibliographie
Agresti, A. 1996. An Introduction to Categorical Data Analysis, John Wiley and Sons. New York.
Aldrich, J.H. et F.D. Nelson. 1984. Linear probability, Logit and Probit Models, Quantitative
Applications in the Social Sciences Series. 07-045. Sage Publications, California.
Ardilly, P. 1994. Les Techniques de sondage. Editions Technip, Paris.
Bausch, T. et U. Bankhofer. 1992. Statistical Software Packages for PCs - A Market Survey. Statistical
Papers [anciennement: Statistischen Hefte], 33: 283-306.
Binder, D.A. 1984. Analyse de donnes qualitatives denqutes complexes: quelques expriences
canadiennes. Techniques denqute, 10(2): 155-170.
Box, G.E.P., Hunter, W.G. et J.S. Hunter. 1978. Statistics for Experimenters. John Wiley and Sons, New
York.
Bouroche, J.-M. et G. Saporta. 1980. LAnalyse des donnes. Collection Que sais-je? 1854, Presses
Universitaires de France, Paris.
Brogan, D.J. 1998. Pitfalls of Using Standard Statistical Software Packages for Sample Survey Data.
Encyclopedia of Biostatistics. John Wiley and Sons, New York.
Brackstone, G. 1999. La gestion de la qualit des donnes dans un bureau de statistique. Techniques
denqute, 25(2):159-171.
Carlson, B.L. 1998. Software for Statistical Analysis of Sample Survey Data. Encyclopedia of
Biostatistics. John Wiley and Sons, New York.
Chambers, R.L. and C.J. Skinner. 2003. Analysis of Survey Data. John Wiley and Sons.
Cohen, S. B. 1997. An Evaluation of Alternative PC-Based Packages for the Analysis of Complex Survey
Data. The American Statistician, 51: 285-292.
Draper, N.R. et H. Smith. 1981. Applied Regression Analysis. Second Edition. John Wiley and Sons, New
York.
Dubois, J.-L. et D. Blaizeau. 1989. Connatre les conditions de vie des mnagesdans les pays en voie de
dveloppement : Analyser les rsultats. Collection Mthodologies. Ministre de la coopration et
du dveloppement, Paris.
Dufour, J. 1996. Qualit des donnes lenqute sur la population active. Statistique Canada. HSMD-96002E/F.
Ehrenberg, A.S.C. 1982, A Primer in Data Reduction An Introductory Statistics Textbook. John Wiley
and Sons, Great Britain.
Everitt, B.S. 1998. The Cambridge Dictionary of Statistics. Cambridge University Press, United
Kingdom.
STATISTIQUE CANADA
280
Fellegi, I.P. 1980. Approximate Tests of Independence and Goodness of Fit Based on Stratified
Multistage Samples. Journal of the American Statistical Association, 75: 261-268.
Fink, A. et J. Kosecoff. 1998. How to Conduct Surveys: a Step-by-Step Guide. Sage Publications,
California.
Freund, J.E. et R.E. Walpole. 1987. Mathematical Statistics. Fourth edition. Prentice Hall, New Jersey.
Friendly, M. 1995. Categorical Data Analysis with Graphics. Statistical Consulting Service Short Course,
York University, Toronto.
Hidiroglou, M.A. et J.N.K. Rao. 1987. Chi-squared Tests with Categorical Data from Complex Surveys, I
and II. Journal of Official Statistics, 3: 117-140.
Holt, D., T.M.F. Smith et P.D. Winter. 1980. Regression Analysis of Data from Complex Surveys.
Journal of the Royal Statistical Society, Series A (General), 143(4): 474-487.
Johnson, S., N.L. Kotz et C.B. Read. 1982. Encyclopedia of Statistical Sciences. John Wiley and Sons,
Toronto.
Lee, E.S., R.N. Forthofer et R.J. Lorimor. 1989. Analyzing Complex Survey Data, Quantitative
Applications in the Social Sciences Series. 07-071. Sage Publications, California.
Lehtonen, R. et E.J. Pahkinen. 1995. Practical Methods for the Design and Analysis of Complex Surveys,
Statistics in Practice. John Wiley and Sons, New York.
Lepkowski, J. et J. Bowles. 1996. Logiciels pour ordinateurs personnels pour lestimation des erreurs
dchantillonnage. Statisticien denqutes, 35:12-20.
Levy, P. S. et S. Lemeshow. 1999. Sampling of Population: Methods and Applications. Third edition.
John Wiley and Sons, New York.
Lohr, S. 1999. Sampling: Design and Analysis. Duxbury Press, U.S.A.
Mendenhall, W. 1991. Introduction to Probability and Statistics. Eighth edition. PWS-Kent Press,
Boston.
Nathan, G. et D. Holt. 1980. The Effect of Survey Design on Regression Analysis. Journal of the Royal
Statistical Society, Series B (Methodological), 42(3): 377-386.
Porkess, R. 1991. The Harper Collins Dictionary of Statistics. Harper Collins, New York.
Rao, J.N.K. et A.J. Scott. 1981.The Analysis of Categorical Data from Complex Sample Surveys: ChiSquared Tests for Goodness of Fit and Independence in Two-Way Tables (in Applications).
Journal of the American Statistical Association, 76(374): 221-230.
Rao, J.N.K. et A.J. Scott. 1987. On Simple Adjustments to Chi-square Tests with Sample Survey Data.
Annals of Statistics, 15: 385-397.
Rao, J.N.K., S. Kumar et G. Roberts. 1989. Analyse de donnes denqute avec variables de rponse
qualitatives: mthodes et logiciels. Techniques denqute, 15(1): 169-196.
STATISTIQUE CANADA
281
Srndal, C.E., B. Swensson et J. Wretman. 1992. Model Assisted Survey Sampling. Springer-Verlag, New
York.
Skinner, C.K., D. Holt et T.M.F. Smith. 1989. Analysis of Complex Surveys. John Wiley and Sons,
Chichester.
Snedecor, G. et Cochran, W.G., 1989, Statistical Methods, Eighth edition, Iowa State University Press,
Ames Iowa.
Steel, R.G.D. et J.H. Torrie. 1980. Principles and Procedures of Statistics A Biometrical Approach,
Second edition. McGraw-Hill, U.S.A.
Thompson, S. K., 1992, Sampling, John Wiley and Sons, New York.
Till, Y. 2001. Thorie des sondages : chantillonnage et estimation en populations finies. Dunod, Paris.
Tukey, J.W. 1977. Exploratory Data Analysis. Addison-Wesley Publishing Company, Reading, MA.
Wonnacott, T.H. et R.J. Wonnacott. 1977. Introductory Statistics. John Wiley and Sons, New York.
Wonnacott, T.H. et R.J. Wonnacott. 1991. Statistique: conomie - gestion - sciences mdecine.
Economica, Paris.
STATISTIQUE CANADA
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
283
STATISTIQUE CANADA
284
Page titre
Cet lment est ncessaire. Les organismes statistiques laborent habituellement une norme de mise en
page qui comprend les logos et lidentification numrique pour les contrles dimpression.
ii.
Cet lment est ncessaire. Il aide les utilisateurs trouver linformation voulue.
iii.
Cet lment est ncessaire. De nombreux utilisateurs veulent consulter une reprsentation visuelle des
rsultats pour leur propre prsentation ou pour comparer avec dautres sources.
iv.
Cet lment est optionnel, mais fortement recommand. Un sommaire de deux ou trois pages au plus
rvle les constatations ou faits saillants les plus importants de lenqute. Il sagit dune rfrence rapide
pour ceux qui nont peut-tre pas le temps dtudier tous les dtails du rapport principal, mais qui doivent
connatre les points essentiels des constatations de lenqute. Il donne parfois une brve description des
objectifs de lenqute, prcise quand et o elle a eu lieu, et ajoute les principaux sujets couverts. Il devrait
ensuite dcrire, chacune dans un bref paragraphe, les constatations les plus intressantes, en commenant
par les rsultats plus gnraux pour mettre ensuite en vidence certaines constatations plus particulires
ou imprvues. Le sommaire est parfois simplement une numration en points des plus importantes
constatations. Les faits saillants devraient tre explicites. Voici les exemples : La superficie totale des
grandes cultures a diminu de 3 % depuis 1986, les interviews tlphoniques proccupent davantage les
rpondants, la majorit ont affirm quils refuseraient de donner de linformation financire au
tlphone.
STATISTIQUE CANADA
v.
285
Introduction
Objectifs
Cette section est optionnelle. Si lenqute comprend un grand nombre de clients ou dutilisateurs et si elle
couvre un large ventail de sujets, il serait bon davoir une section entirement rserve lexplication
des objectifs de lenqute. Ces dtails sont cependant couverts dans lintroduction dhabitude.
vii.
Corps du texte
Le corps du rapport est rparti en plusieurs sections. Lune des premires sections devrait donner la
dfinition des concepts et des principales variables (davantage de dtails peuvent tre insrs en annexe)
et expliquer les techniques denqute, les procdures de collecte, le traitement, etc. Les rsultats de
lenqute et les totalisations suivent habituellement (y compris les mesures de la qualit dont la prcision).
Tous les dtails des principales conclusions se trouvent dans le corps du rapport. Chaque section qui prsente
les rsultats devrait commencer par les constatations et rsultats les plus importants suivis de renseignements
plus dtaills. Les ides devraient tre disposes logiquement par ordre dimportance. Les tableaux, les
graphiques, ainsi que lexplication des rsultats et de leur importance, se trouvent dans le corps du rapport.
Lun des plus grands dfis de la rdaction dun rapport est de soutenir lattention du lecteur. Les messages
principaux devraient tre disposs par ordre dimportance, aux fins de la lecture et de la comprhension.
Linformation devrait aussi tre prsente en langage le plus simple possible pour les lecteurs cibls.
viii.
Conclusions
Cette section prsente un synopsis des rpercussions et des constatations. Toutes les conclusions ou les
recommandations pertinentes sur lintervention ncessaire devraient tre entres ici. Une analyse approprie
et la considration des rpercussions ventuelles des erreurs dchantillonnage et non dues
lchantillonnage devraient soutenir les conclusions. Les organismes donateurs, les ministres qui financent
lenqute et les analystes stratgiques prendront sans doute les grandes dcisions, et cette section offre une
occasion unique ceux qui sont le plus proches de lenqute dexposer leur comprhension des
rpercussions des leons apprises.
ix.
Recommandations
Cette section est optionnelle. Dans les rapports techniques, des recommandations peuvent tre formules
pour rsoudre des problmes constats pendant toute activit de lenqute. Elles sont faites lavantage
des intervenants dautres enqutes qui peuvent se trouver dans la mme situation.
x.
STATISTIQUE CANADA
286
xi.
Personnes-ressources
Cette section est obligatoire. Il faut donner aux utilisateurs, dans toute enqute, un moyen de
communication clair et direct avec une personne informe du projet. Il faut donner un numro de
tlphone, un numro de tlcopieur, une adresse de courrier lectronique et une adresse postale. Il est de
plus en plus frquent de renvoyer un site Web o linformation est tlcharge.
xii.
Annexes
Lobjectif des annexes est de donner une ide brve, mais prcise, des sujets qui ne sont pas dcrits dans
le corps du rapport ou dajouter des dtails essentiels qui alourdiraient trop le texte. Les annexes peuvent
contenir des dtails sur les objectifs de lenqute, la population ltude et le questionnaire, dautres
dtails sur les techniques denqute, des mesures supplmentaires de la qualit des donnes, y compris la
formule applique pour estimer la variance dchantillonnage, une description des essais statistiques, etc.
Les procdures de collecte de donnes appliques sur place sont parfois ajoutes (p. ex., la mthode de
collecte des donnes, la formation et la supervision du personnel sur place). Le matriel ou le logiciel
utilis peut tre mentionn, ainsi que de linformation sur la mise au point des systmes informatiques.
Un bon rapport communique un certain nombre de messages particuliers, sans tre encombr de dtails
inutiles. Un langage concis est souhaitable, mais il nest pas toujours prfrable dtre plus bref et la
clart devrait toujours avoir la prsance. Voici un exemple : lexpression les fonds distincts de placement
long terme axs sur la retraite et lactif des compagnies dassurance-vie nest pas mauvaise, mais
lexpression lactif des compagnies dassurance-vie et leurs fonds distincts (placements long terme axs
sur la retraite) est dfinitivement plus claire.
ii.
Le sujet responsable de laction quexprime le verbe est habituellement (et de prfrence) mentionn en
premier dans la phrase, par exemple, Le Manitoba et lAlberta ont enregistr les plus importantes
augmentations provinciales des recettes montaires pendant la priode. Voil une formulation active qui
donne la phrase un caractre actif et convaincant, ainsi quune impression de confiance, que
nexpriment pas les verbes la forme passive. Comparons avec la mme phrase rdige la forme
passive : Les augmentations les plus prononces des recettes montaires pour la priode ont t
enregistres lchelon provincial au Manitoba et en Alberta.
STATISTIQUE CANADA
iii.
287
Abrviations et acronymes
On utilisera les abrviations et les acronymes avec parcimonie et, dans le doute, on donnera lexpression
au complet. Le lecteur nen connat peut-tre pas la signification. la premire apparition, on donnera
lexpression au complet et on ajoutera labrviation entre parenthses, par exemple : lIndice des prix la
consommation (IPC). Dans le reste du texte, on pourra ensuite utiliser labrviation ou lacronyme
seulement.
iv.
Terminologie conforme
La terminologie utilise dans les divers lments du rapport doit tre uniforme. Si le titre et le texte font
rfrence lactif et au passif, par exemple, le tableau ou le graphique ne devrait pas tre intitul bilan.
Nous avons aussi expliqu au Chapitre 2 - Formulation de lnonc des objectifs que la terminologie
est plus utile si elle est conforme celle dautres enqutes.
v.
Catgories rsiduelles
Les catgories rsiduelles sont souvent larges et dignes de mention, mais le terme autre est vague et
ambigu. Dfinissez la catgorie ou identifiez ses composantes, si possible, au lieu de les intituler
simplement autre(s).
vi.
Dates
Il faudrait viter les rfrences ambigus aux dates, par exemple, lan dernier ou le mois dernier. Il
faudrait inscrire la premire mention le mois et lanne en particulier, par exemple, la chute de prs de
26 % des expditions intrieures en juillet 1993 semble impressionnante, mais elle est comparable la
diminution de 23 % enregistre en juillet 1992.
vii.
Priode de rfrence
Il faudrait inscrire la priode de rfrence immdiatement sous le principal titre descriptif de chaque
diffusion et annonce de donnes, par exemple, Enqute mensuelle sur les industries manufacturires,
dcembre 2002. Si les donnes sont provisoires, il faudrait lindiquer la ligne de la priode de rfrence
pour viter de rpter provisoire partout dans le texte.
viii.
Ratios simples
Il est acceptable dutiliser une demie, un tiers, un quart ou un cinquime pour exprimer les rsultats. Les
ratios suivants deviennent difficiles comprendre. On sefforcera de rester uniforme, en vitant de
mlanger les ratios dans la mme phrase. On utilisera des nombres entiers si possible, en dcrivant, par
exemple, deux femmes sur trois, comparativement un homme sur trois On utilisera des ratios simples,
p. ex., il y a deux fois plus de chances que les femmes
ix.
Pourcentages
Les pourcentages sont donns entre parenthses, p. ex., environ deux tiers (66 %) des avocats et un tiers
(32 %) des dentistes... et sont donns en entiers, p. ex., 45 % au lieu de 45,3 %, sauf si une donne plus
dtaille est justifie et prcise. Il est prfrable dviter de surcharger la phrase de pourcentages ou de
catgories. Au lieu dinscrire les rsultats comme suit, par exemple, dfinitivement oui (17 %),
probablement oui (25 %), probablement non (27 %) et dfinitivement non (14 %) il peut tre plus clair
STATISTIQUE CANADA
288
et plus simple de dclarer que les rpondants taient rpartis peu prs galement entre oui (42 %) et
non (41 %), si les dtails sont inscrits dans un tableau.
x.
Voici un exemple de texte qui sme la confusion : Le taux national dinfractions totales par tranche de
100 000 personnes a augment rgulirement de 1979 1981 pour afficher ensuite des diminutions
annuelles conscutives entre 1982 et 1985. Une augmentation de 4,1 % a cependant t remarque en
1986 comparativement 1985, suivie dune augmentation de 2,5 % entre 1986 et 1987.
Comparativement 1987, une diminution de 1,2 % a t enregistre en 1988. Ce taux a augment de
9,1 % au cours de la priode de 1979 1988.
xi.
Le principal titre peut comprendre des rfrences aux dates et aux annes de base, par exemple, Produit
intrieur brut rel au cot des facteurs par branche dactivit, juillet 1993 (donnes provisoires). Il
faudrait utiliser des sous-titres par la suite comme guide ou indication pour orienter le lecteur dans le
texte, par exemple, industries manufacturires. Les sous-titres trop nombreux, trop longs et truffs de
jargon perdent leur influence. Ils devraient donner des renseignements sur ce qui suit, et non pas tre
simplement des tiquettes dnues dinformation. Il faut veiller ce que chaque mot et chaque sous-titre
ait son importance.
xii.
Services de communication
De nombreux organismes peuvent utiliser les services de professionnels des communications qui relvent
les difficults pour les lecteurs cibls et font des suggestions pour amliorer le texte. Ces intervenants
peuvent examiner le rapport ou mme aider le prparer avant la rdaction. Les corrections et la rvision
de la traduction font partie des services.
12.2.2 Tableaux
Nous avons expliqu au Chapitre 2 - Formulation de lnonc des objectifs que les tableaux sont lun
des principaux rsultats dune enqute. Il faudrait considrer directement dans les tableaux lobjectif
nonc et les exigences particulires des produits de lenqute. Les tableaux servent illustrer ou
examiner les caractristiques quantitatives des donnes. Ils peuvent rapidement rvler les liens entre
plusieurs variables et permettre la comparaison directe des sommes.
Pendant lanalyse et avant la documentation des rsultats, lanalyste devrait vrifier les estimations et les
tableaux produits. Les rsultats sont-ils uniformes linterne? Cela signifie que les totaux marginaux au
sujet des mmes variables devraient tre les mmes dans diffrents tableaux. Les calculs des souspopulations devraient tre quivalents au total de la population, etc. Les totaux correspondent-ils ceux
dautres sources?
Les lignes directrices suivantes devraient tre appliques lors de la prparation des tableaux :
i.
Les tableaux devraient tre simples et afficher seulement les principaux renseignements pour
justifier un point la fois en gnral. Il vaut mieux avoir deux tableaux simples quun tableau
trop compliqu.
STATISTIQUE CANADA
289
ii.
La mise en forme, les espaces et la formulation dans lensemble, la disposition et lapparence des
titres, les vedettes des lignes et des colonnes, ainsi que dautres mesures dtiquetage, devraient
aider mettre en vidence les donnes des tableaux et empcher les erreurs dinterprtation.
iii.
iv.
Les titres devraient tre clairs et succincts et il faudrait viter les abrviations.
v.
La prsentation des rubriques devrait soutenir le message de lanalyse dans un ordre rationnel et il
faudrait noncer clairement toutes les units de mesure.
vi.
La conception des tableaux devrait permettre, le plus possible, la lecture des photocopies. Il
devrait aussi y avoir suffisamment dinformation dans le tableau (titre, notes en bas de page, etc.)
pour ne pas perdre sa valeur la photocopie.
vii.
viii.
Si les donnes sont tires dune enqute-chantillon, les estimations et les mesures de la prcision
devraient tre faites laide des poids finaux (c.--d. les pondrations du plan qui peuvent tre
ajustes pour les non-rponses et les donnes auxiliaires comme on la vu au Chapitre 7 Estimation).
12.2.3 Graphiques
Les graphiques et diagrammes servent la prsentation visuelle des donnes. Ils ciblent les caractristiques,
formes ou distributions relatives, et les ordres de grandeur. De bons graphiques devraient ajouter au texte et
aux tableaux, et non simplement rpter linformation. Ils devraient servir expliquer ou soutenir les
principaux points dans le texte. Celui-ci devrait reporter aux graphiques qui devraient tre disposs aprs la
rfrence.
La prsentation des graphiques et diagrammes est aussi considre au Chapitre 11 - Analyse des donnes de
lenqute. Lensemble des rgles lmentaires sappliquent en majorit autant aux graphiques et diagrammes
quaux tableaux. Ils devraient tre simples et afficher seulement les principaux renseignements pour justifier
un point la fois en gnral. Les explications dtailles devraient tre superflues. Il faudrait utiliser les
graphiques pour diffuser une interprtation visuelle et intuitive des faits saillants ou des tendances, et ils
devraient donc tre purs et ordonns. Toute tentative de communiquer trop dinformation dans un seul
graphique ou tableau peut simplement semer la confusion chez les lecteurs. Si les graphiques sont utiliss pour
illustrer des points sur la population, il faut avoir recours aux pondrations dfinitives de lchantillon pour les
donnes dune enqute-chantillon.
Il faudrait prendre garde de ne pas induire le lecteur en erreur. Les graphiques sont trs efficaces pour
communiquer linformation, mais il est facile de les utiliser erronment. Les titres, lgendes et axes
tiquets ngligemment, le recours inappropri aux espaces en gris, les chelles fausses ou non
uniformes, etc., sont des erreurs frquentes. Il faudrait en gnral viter les prsentations
tridimensionnelles, mais elles peuvent tre appropries dans certaines circonstances (p. ex., le trac dune
surface).
On devrait utiliser des intervalles uniformes pour les graphiques linaires. Il vaut mieux viter, par
exemple, ce genre de progression : 1, 2, 5, 8, mme sil ny a pas de donnes simples pour les autres
STATISTIQUE CANADA
290
valeurs; il est prfrable dinscrire plutt 1, 2, 3, 4, 5, 6, 7, 8. Si la srie commence par un nombre lev,
ou sil y a un cart dans les valeurs de lun des axes, on ajoutera un symbole pour indiquer lcart.
STATISTIQUE CANADA
291
Les lments suivants donnent une liste partielle des articles qui peuvent tre ajouts un document sur la
qualit des donnes. Cette information devrait normalement tre jointe au produit statistique. Sil est
impossible dajouter cette documentation pour une raison ou pour une autre, il faudrait expliquer en
rfrence comment trouver cette documentation sur la qualit des donnes.
i.
Il faudrait ajouter cet lment le cas chant. Il peut sagir de faits saillants de linformation formule
dans une section suivante ou plus, dexplications particulires ou de mises en garde dont il faut informer
les utilisateurs.
ii.
Cette sous-section devrait couvrir les variables, classifications et concepts utiliss les plus importants.
iv.
Il devrait y avoir un nonc sur les questions de prcision, y compris la taille de lchantillon, les genres
derreurs non dues lchantillonnage et leurs sources (p. ex., taux de non-rponse, taux dimputation,
etc.) par rgion gographique et caractristique.
v.
Cette sous-section indique, le cas chant, si les donnes sont comparables ou non dans le temps et elle
prcise pourquoi (p. ex., en cas de modification de la formulation dune question).
vi.
Cette sous-section offre un sommaire des approches ou mthodes analytiques, pour tous les rsultats
analytiques, ainsi quune brve description et une considration des rpercussions ventuelles des
questions de prcision, des hypothses et des mises en garde sur les rsultats et leur signification
STATISTIQUE CANADA
292
statistique. Elle comprend aussi une description dautres sources derreurs ventuelles importantes ou de
tout autre vnement (p. ex., une grve) qui peut ventuellement avoir des rpercussions sur lexactitude,
lactualit et linterprtation ou lutilisation des donnes.
vii.
12.5.1 Divulgation
Deux principaux types de divulgation suscitent des proccupations : la divulgation de lidentit et celle
des attributs. Il y a divulgation didentit lorsquun rpondant en particulier (personne, mnage,
entreprise, etc.) peut tre identifi partir des donnes diffuses. Une information confidentielle est
ainsi rvle. Le problme se pose surtout dans le cas des microdonnes parce que lidentification de
lenregistrement dun rpondant dbouche presque certainement sur la rvlation des caractristiques de
ce rpondant. Il y a divulgation dattribut lorsquil est possible, partir des donnes diffuses, de
rvler linformation confidentielle au sujet dun rpondant. Le problme se pose surtout dans le cas du
recensement ou des donnes administratives parce que lerreur dchantillonnage aide protger les
rsultats contre la divulgation. Un recensement peut, par exemple, donner une tendue troite (prcise) du
revenu des mdecins dans un certain secteur.
Il y a divers genres de divulgation qui comportent diffrents degrs de gravit. Les dfinitions suivantes
ne sont pas mutuellement exclusives :
i.
Si un rpondant peut dduire linformation quil a donne, mais sil est seul pouvoir le faire, il ny a
donc pas de problme de divulgation. Il y a cependant perception dun problme si le rpondant a
limpression que dautres peuvent aussi dduire linformation, mme si ce nest pas le cas. Voil pourquoi
STATISTIQUE CANADA
293
les organismes statistiques devraient essayer dviter de divulguer des rsultats en une prsentation qui
permettrait cette occurrence.
ii.
Quelquun peut, dans ce cas, dduire linformation dun rpondant. Ce problme le plus grave est lobjet
du contrle de la divulgation.
iii.
Ce problme est particulier aux enqutes rpondants multiples lis entre eux. Une enqute sur les
enfants, par exemple, peut comprendre une section pour les parents, une pour les enseignants et une pour
les enfants. Si un pre peut sidentifier laide dun fichier de microdonnes, il peut dterminer quelles
rponses ont donn ses enfants ou les enseignants.
iv.
Constatation directe
La situation est possible si linformation confidentielle peut tre dduite en observant simplement une
case. Voici un exemple trs simple : un tableau affiche les revenus moyens par profession pour un secteur
donn. Si une profession comprend seulement une personne dans le secteur, son salaire est la moyenne.
Sil y en a deux, chaque personne peut utiliser la moyenne pour dduire linformation sur lautre (un cas
de divulgation rsiduelle).
v.
Divulgation rsiduelle
Divulgation exacte
Une personne peut, dans ce cas, dduire la valeur exacte de linformation confidentielle. Lexemple
donn au paragraphe de la constatation directe ci-dessus est un exemple de divulgation exacte.
vii.
Divulgation approximative
Dans ce cas, une personne ne peut dduire la valeur exacte de linformation confidentielle, mais elle peut
dterminer un intervalle qui pourrait fort probablement contenir la valeur confidentielle. Il y a divulgation
si lintervalle est suffisamment restreint pour causer ventuellement des actions prjudiciables au
rpondant. Si un fabricant domine, par exemple, la production totale dun certain produit (disons plus de
95 %), la diffusion dune estimation de la production totale de ce produit donne une estimation
approximative de la production de ce fabricant.
STATISTIQUE CANADA
294
conformment aux modalits dun contrat de licence, etc. Ces mthodes ne sont pas considres dans ce
texte. Les mthodes de restriction des donnes protgent les donnes elles-mmes. Ces mthodes sont
classes en mthodes de rduction des donnes (c.--d. que linformation diffuse est rduite) et en
mthodes de perturbation des donnes (c.--d. que les donnes sont modifies).
Les techniques labores pour viter la divulgation varient selon le produit statistique, les trois produits
les plus habituels tant les tableaux de frquences (calculs ou calculs pondrs), les tableaux de donnes
quantitatives (pour les donnes quantitatives) et les fichiers de microdonnes grande diffusion. Les
techniques sont dcrites ci-dessous.
12.5.2.1 Protection des donnes des tableaux
Les cases dun tableau de donnes quantitatives donnent des valeurs numriques (habituellement non
ngatives), par exemple, les moyennes, les totaux des valeurs en dollars ou le nombre demploys. Ces
tableaux posent un risque de divulgation, en particulier lorsque les donnes sont tires dune enquteentreprise. tant donn le caractre asymtrique des donnes des entreprises, les donnes dune grande
entreprise ou deux peuvent dominer certaines cases et la divulgation des valeurs de ces cases peut donner
une estimation raisonnable des valeurs de ces importants rpondants. La premire tape est donc
lidentification des cases caractre dlicat (c.--d. les cases risque de divulgation). De nombreuses
rgles ont t labores pour identifier les cases caractre dlicat. Voici quelques exemples de rgles qui
dfinissent une case caractre dlicat dans un tableau de donnes quantitatives :
i.
Rgles de la limite
Il doit y avoir un nombre minimal de rpondants dans une case (p. ex., au moins trois rpondants). Sous
ce seuil, elle devient une case caractre dlicat.
ii.
La rgle (n,k)
Une case est considre caractre dlicat si trop peu de rpondants englobent une trop grande partie du
total de la case, c.--d. si les n plus importants rpondants reprsentent au moins k % de la valeur totale de
la case. Selon la rgle (2,90), si les deux plus importants rpondants reprsentent plus de 90 % du total de
la case, il sagit dune case caractre dlicat.
iii.
Nous avons une case caractre dlicat si sa diffusion permetait quelquun destimer la contribution
dun rpondant moins de p-pour cent de sa valeur. Le risque devient maximal si le deuxime plus
important rpondant de la case essaie destimer la contribution du plus important rpondant en
soustrayant sa propre valeur du total diffus. Supposons que la case comprend m rpondants, la
divulgation est quivalente si : x3 + ... + x m < ( p / 100) x1 , o x1 est la valeur du plus important rpondant,
x3 est la valeur du troisime rpondant par ordre dimportance, etc.
Les rgles (n,k) et p-pour cent sont deux exemples de rgles appliques pour identifier les cases o
dominent une ou deux grandes units. Ce ne sont pas les seuls choix de rgles disponibles, il y en a
dautres. Les rgles de Duffett sont parfois appliques Statistique Canada. Les rgles de Duffett sont des
ensembles de rgles (n,k) et le nombre dunits dans la case dtermine les paramtres. Peu importe la ou
les rgle(s) applique(s), il vaut gnralement mieux garder confidentielles les valeurs de leurs
paramtres.
STATISTIQUE CANADA
295
Les cases dun tableau de frquences donnent le nombre rel ou estim dunits ayant les caractristiques
de la case. Les tableaux de frquences peuvent poser un risque de divulgation lorsquils rvlent les
caractristiques dun rpondant. Nous avons mentionn auparavant que le risque de divulgation
dattributs est le plus grand dans le cas dun recensement ou des donnes administratives, mme si les
donnes dun chantillon peuvent poser des risques de divulgation lorsque les units de lchantillon des
participants lenqute sont connues (p. ex., les autres membres du mnage). Trois problmes ventuels
sont les cases pleines, les cases dont le total est zro et les cases de faibles frquences.
Une case est pleine lorsquune seule catgorie de rponse englobe tous les rpondants, par exemple,
lorsquune seule case dune ligne ou dune colonne a une valeur diffrente de zro. Les cases pleines
posent un risque de divulgation si elles permettent dobtenir de linformation confidentielle sur une souspopulation. Un tableau peut rvler, par exemple, que tout le personnel de soutien dune institution a un
diplme dtudes secondaires la case scolarit. Si un tableau de rpartition des revenus les englobe
sans exception dans la tranche 20 000 $ 29 999 $ , linformation sur la rmunration est alors
divulgue.
Les cases de valeur zro, c.--d. les cases sans unit ou dont le total est zro, peuvent aussi poser un
risque de divulgation pour des raisons semblables celles des cases pleines (ces dernires sont le rsultat
des cases de valeur zro). Le tableau ci-dessus peut rvler, par exemple, que le personnel de soutien est
rparti en deux catgories de scolarit seulement : tudes inacheves et diplme dtudes
secondaires . Un tableau de rpartition des revenus dans un tablissement dont les employs sont diviss
en trois catgories de revenu : de 20 000 $ 29 999 $ , de 30 000 $ 39 999 et de 90 000 $
99 999 $ peut donner une bonne estimation de la rmunration des ingnieurs de ltablissement (la
dernire tranche).
Les cases de faibles frquences comptent peu de rpondants, p. ex., moins de trois ou cinq. Les cases de
faibles frquences peuvent poser un risque de divulgation si elles permettent lidentification de leurs
rpondants et rvlent certaines de leurs caractristiques. Un tableau de frquences dun recensement dans
un secteur restreint qui affiche, par exemple, deux mnages monoparentaux dont le chef est un divorc
peut identifier ces mnages. Les caractristiques supplmentaires rvles sur les membres de la case
peuvent constituer une divulgation dattributs. Les cases de faible valeur posent un autre problme : elles
peuvent donner limpression quil y a eu divulgation, mme si ce nest pas le cas. Sil est rvl, par
exemple, quil y a eu seulement un nouveau cas de cancer du clon dtect lle-du-Prince-douard en
2001, la situation ne rvle quand mme rien sur lintress.
Il y a plusieurs moyens de traiter les cases caractre dlicat.
1. Les mthodes de rduction des donnes comprennent les suivantes :
i.
Regroupement de cases
Il sagit de regrouper les catgories pour augmenter le nombre dentres par case (p. ex., rduire le niveau
de dtails fournis dans la branche dactivit). Cette mthode simple peut rduire de beaucoup
linformation en supprimant les dtails des donnes.
ii.
Suppression de cases
Lorsque les cases caractre dlicat sont supprimes, il faut habituellement supprimer des cases sans
caractre dlicat pour viter que les valeurs des cases caractre dlicat soient dduites du total marginal.
Ces autres cases sont intitules cases de suppression complmentaire et il y a de nombreuses rgles pour
choisir lesquelles supprimer. Le genre de variable et le degr de protection voulu dterminent le choix des
STATISTIQUE CANADA
296
rgles appliquer une case en particulier. La suppression complmentaire de cases peut tre optimise
en minimisant le nombre de cases supprimes, la somme des valeurs des cases supprimes et le nombre de
rpondants supprims, ou en appliquant une mthode qui se traduit par un compromis entre ces besoins.
Dautres rgles peuvent tre appliques, par exemple, la prfrence peut tre accorde lidentification de
suppressions complmentaires dans le mme regroupement de branches dactivit.
2. Voici certaines mthodes de perturbation des donnes :
i.
Arrondissement dterministe
Les donnes dune case sont arrondies selon une rgle dterministe (p. ex., arrondies la baisse au
multiple de 10 prcdent si le dernier chiffre de lunit est infrieur cinq et arrondi la hausse
autrement). Cette mesure peut cependant donner un biais et lquivalence entre les valeurs arrondies et les
totaux marginaux arrondis peut tre rompue.
ii.
Arrondissement alatoire
Lorientation de larrondissement est dtermine au hasard. Cette mthode offre une meilleure protection
que larrondissement dterministe, la mme base darrondissement tant utilise, parce quil est plus
difficile destimer la valeur originale. De plus, il ny pas de biais, mais le maintien des totaux marginaux
peut aussi tre rompu.
iii.
Larrondissement alatoire contrl permet de conserver les marges agrges dfinies davance.
Lapplication de cette mthode aux tableaux multidimensionnels nest pas une mince affaire. Il est
possible de trouver des solutions pour les tableaux trois dimensions au plus, mais il ny en na pas pour
les tableaux ayant davantage de dimensions.
iv.
Ajout dinterfrences
On peut ajouter des interfrences alatoires aux rsultats des tableaux pour susciter davantage
dincertitude et diminuer le risque de divulgation.
v.
Aprs avoir appliquer des mthodes de contrle de la divulgation un fichier de microdonnes, on peut
ensuite procder en toute scurit toutes les totalisations partir de ce fichier.
Lorsque de multiples tableaux sont produits partir de la mme enqute, la protection de la
confidentialit ne peut se faire indpendamment pour chaque tableau parce que la combinaison de
linformation de diffrents tableaux peut dboucher sur la divulgation. Idalement, il faut donc appliquer
les techniques dcrites ci-dessus en considrant les tableaux dj publis et ceux qui ne le sont pas encore.
Les totalisations devraient tre dfinies davance le plus tt possible pour les tableaux de donnes
quantitatives parce que la protection des tableaux spciaux est particulirement difficile. La combinaison
de centaines de tableaux peut facilement donner des milliers ou des dizaines de milliers de cases et
lautomatisation est donc ncessaire.
Si lenqute est ritre rgulirement, il faut laborer avec une attention toute particulire une
caractristique de suppression appliquer la srie complte. Cependant, aprs un certain nombre de
STATISTIQUE CANADA
297
rptitions, la suppression dune case ou dun enregistrement peut devenir facultative (p. ex., la taille
dune case peut grossir jusqu ce quelle perde son caractre dlicat). Le contraire est aussi possible.
12.5.2.2 Protection des fichiers de microdonnes grande diffusion
Les fichiers de microdonnes grande diffusion, qui contiennent des enregistrements individuels, sont
diffuss parce quils permettent aux utilisateurs de procder des analyses des donnes de lenqute qui
sont difficiles faire partir des rsultats des tableaux. Les fichiers de microdonnes grande diffusion
ont un caractre trs dlicat et il faut en considrer la confidentialit de prs avant la diffusion pour viter
de rvler lidentit des rpondants. La divulgation des fichiers grande diffusion cible habituellement les
donnes tires de lchantillon seulement parce que le risque didentification des rpondants augmente
avec le taux dchantillonnage (dans le cas dun recensement, un fichier grande diffusion peut tre
divulgu pour un chantillon de rpondants). Il y a habituellement des identificateurs directs ou
personnels au fichier principal de lenqute qui peuvent seuls identifier un particulier (p. ex., nom,
adresse, numro didentification). Il faut les liminer. Il y a aussi des identificateurs indirects, des
variables qui peuvent servir identifier les rpondants (p. ex., secteur gographique, ge, profession, race,
ou mme revenu dans certains cas).
Les identificateurs indirects dun fichier grande diffusion sont examins pour dterminer sils peuvent
servir identifier les rpondants. Voici certaines vrifications :
i.
On peut chercher, par exemple, des particuliers ayant des revenus trs levs ou des tailles de mnage
exceptionnelles.
ii.
Analyse des tableaux didentificateurs indirects deux et trois dimensions (p. ex., ge, sexe,
scolarit, etc.).
On peut tudier, par exemple, les tableaux dge par sexe par degr de scolarit et y chercher les
combinaisons uniques (p. ex., une personne trs ge qui a toujours un emploi).
Dautres vrifications peuvent tre faites selon le genre denqute (structure de la population, plan
dchantillonnage, collecte ou utilisation des donnes, ). Linformation sur le plan dchantillonnage et
les pondrations de lenqute sont examines, par exemple, pour vrifier si elles rvlent des
renseignements caractre dlicat sur le secteur gographique des units de lchantillon. Si les donnes
de lenqute sont hirarchiques (p. ex., mnage-personne), les liens entre les units sont alors examins
(p. ex., recherche de combinaisons rares dges des conjoints). Si les donnes sont tires dune source
administrative, la probabilit de nouer avec succs des liens entre les enregistrements des fichiers
grande diffusion et la base de donnes administratives est examine, etc.
Plusieurs mthodes sont disponibles pour rduire les risques de divulgation. Les mthodes ont toutes un
cot du point de vue de lutilit analytique des donnes obtenues. Il faut appliquer les mthodes avec
prudence pour maintenir le plus possible la valeur analytique des donnes (p. ex., corrlations et
moyennes des variables).
1. Les mthodes de rduction des donnes comprennent les suivantes :
i.
STATISTIQUE CANADA
298
ii.
Suppression des variables des identificateurs indirects qui accroissent le risque de divulgation
(p. ex., pays dorigine, questions sur les troubles de la vue).
iii.
Suppression denregistrements individuels (p. ex., pour une personnalit bien connue).
iv.
Suppression de donnes individuelles dun enregistrement en particulier (p. ex., une appartenance
ethnique trs rare dans une rgion en particulier).
v.
donnes tronques par le haut et par le bas (p. ex., les revenus suprieurs 100 000 $ pourraient
tre tronqus par le haut 100 000 $),
vi.
On construit un sous-chantillon des donnes de lenqute (et on ajuste conformment les pondrations
dchantillonnage). Cette mesure sert susciter lincertitude pour les units de lchantillon qui ont des
caractristiques uniques. Il sagit dune prcaution ncessaire si le fichier original est un recensement.
vii.
Enregistrements microagrgs
On peut faire larrondissement dterministe ou alatoire des donnes, par exemple, ou ajoute aux valeurs
des donnes des interfrences alatoires normalement distribues.
ii.
change de donnes
STATISTIQUE CANADA
iii.
299
On peut remplacer les valeurs dclares par des valeurs moyennes, par exemple, pour des petites
populations.
Si des bases de donnes externes, par exemple des fichiers de donnes administratives, et lenqute ont
des variables communes, les utilisateurs peuvent essayer de nouer des liens entre leurs donnes et le
fichier de donnes grande diffusion. Il faut accrotre dans ces cas la porte de la perturbation.
Lintrusion dans la vie prive devrait tre vite. La socit a-t-elle vraiment besoin de
linformation? Est-il possible de trouver linformation sans la demander aux particuliers? Une
taille dchantillon infrieure convient-elle?
ii.
Il ne doit y avoir aucun risque de prjudice indirect pour le rpondant. Les particuliers qui
rpondent aux questions peuvent-ils tre ventuellement en danger? Au cours dune enqute sur
la violence dans les mnages, par exemple, le perscuteur peut entendre le rpondant pendant
linterview et le blesser aprs le dpart de lintervieweur.
iii.
Il faudrait garantir la confidentialit aux rpondants. Ils devraient tre informs que toute
linformation sera diffuse dans le grand public en une mise en forme qui empchera la
divulgation de linformation personnelle leur sujet.
iv.
Les rpondants peuvent donc donner leur consentement inform (c.--d. quils comprennent
quoi serviront les donnes et quils sont daccord). Il faut donc les informer des points suivants :
- lobjectif de lenqute (y compris les utilisations et les utilisateurs prvus des donnes de
lenqute),
- le pouvoir (loi) qui autorise la collecte des donnes,
- les dtails sur lenregistrement de la collecte (pour suivi),
- le caractre obligatoire ou volontaire de lenqute,
- la protection de la confidentialit,
- les plans de liaison des donnes avec dautres fichiers,
- lidentit des parties toute entente dchange de linformation.
Ces conditions sont essentielles pour obtenir de linformation fiable des rpondants. Afin de garantir que
les rpondants donnent leur consentement inform, lorganisme statistique devrait appliquer une politique
uniforme pour renseigner les rpondants sur la ncessit de lenqute et sur leurs droits et responsabilits.
Linformation demande en vertu de cette politique doit tre rdige sur support papier pour toutes les
enqutes, et communique aux rpondants au moment de la collecte ou avant. Sil sagit dune enqute
tlphonique sans matriel de prsentation, linformation doit tre communique de vive voix et envoye
par crit sur demande. (Voir le Chapitre 5 - Conception du questionnaire qui donne linformation
ajouter au questionnaire.)
STATISTIQUE CANADA
300
12.6 Sommaire
Lvaluation et la diffusion des donnes sont des tapes trs importantes dune enqute. Lobjectif est de
communiquer linformation aux utilisateurs pour quils soient en mesure de comprendre les rsultats de
lenqute et de prendre des dcisions. Pendant lvaluation des donnes, il faudrait valuer les rsultats
dfinitifs, compte tenu des objectifs originaux de lenqute. Ils devraient indiquer les points forts et les
points faibles de lenqute pour que les utilisateurs dterminent quel point les erreurs dans les donnes
en restreignent lutilisation.
Les mthodes de diffusion comprennent les rapports sur support papier avec tableaux et graphiques, un
fichier de microdonnes grande diffusion, ou les deux. Avant la diffusion des rsultats (ou donnes) de
lenqute cependant, il faut en faire une mise lessai approfondie pour vrifier le respect de la
confidentialit des rpondants.
Bibliographie
Ardilly, P. 1994. Les Techniques de sondage. Editions Technip, Paris.
Boudreau, J.R. 1996. valuation et rduction du risque de divulgation dans les fichiers de microdonnes
variables discrtes. Symposium 95: Des donnes linformation : mthodes et systmes : recueil..
Statistique Canada. 155-168.
STATISTIQUE CANADA
301
Brogan, D.J. 1998. Pitfalls of Using Standard Statistical Software Packages for Sample Survey Data.
Encyclopedia of Biostatistics. John Wiley and Sons, New York.
Brackstone, G. 1999. La gestion de la qualit des donnes dans un bureau de Statistique. Techniques
denqute, 25(2): 159-172.
Carlson, B.L., A.E. Johnson, and S.B. Cohen. 1993. An Evaluation of the Use of Personal Computers for
Variance Estimation with Complex Survey Data. Journal of Official Statistics, 9(4): 795-814.
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995.
Business Survey Methods. John Wiley and Sons, New York.
Doyle, P., Lane, J.I., Theeuwes, J.M. et L.V. Zayatz, ds. 2001. Confidentiality, Disclosure, and Data
Access Theory and Practical Applications for Statistical Agencies. North-Holland.
Dufour, J. 1996. Labour Force Survey Data Quality. Statistics Canada. HSMD-96-002E/F.
Ehrenberg, A.S.C. 1982. A Primer in Data Reduction An Introductory Statistics Textbook. John Wiley
and Sons, Great Britain.
Everitt, B.S. 1998. The Cambridge Dictionary of Statistics. Cambridge University Press. United
Kingdom.
Fink, A. et J. Kosecoff. 1998. How to Conduct Surveys: a Step-by-Step Guide. Sage Publications,
California.
Freund, J.E. et R.E. Walpole. 1987. Mathematical Statistics. Fourth edition. Prentice Hall, New Jersey.
Groves, R.M. 1989. Survey Errors and Survey Costs. John Wiley and Sons, New York.
Johnson, S., N.L. Kotz et C.B. Read. 1982. Encyclopedia of Statistical Sciences. John Wiley and Sons,
Toronto.
Levy, P.S. et S. Lemeshow. 1999. Sampling of Population: Methods and Applications. Third edition.
John Wiley and Sons, New York.
Lohr, S. 1999. Sampling: Design and Analysis. Duxbury Press, U.S.A.
MacNeill, I.B. et G.J. Humphrey, ds. 1987. Applied Probability, Statistics and Sampling Theory. Reidel,
Boston.
Mendenhall, W. 1991. Introduction to Probability and Statistics. Eighth edition. PWS-Kent Press,
Boston.
Mood, A.M., F.A. Graybill et D.C. Boes. 1974. Introduction to the Theory of Statistics. Third edition,
McGraw-Hill Series in Probability and Statistics, McGraw-Hill, U.S.A.
Travaux publics et services gouvernementaux Canada, Bureau de la traduction, 1996. Le Guide du
rdacteur. Ottawa.
Schackis, D. 1993. Manual for Disclosure Control. Eurostat, Luxembourg.
STATISTIQUE CANADA
302
Steel, R.G.D. et J.H. Torrie. 1980. Principles and Procedures of Statistics A Biometrical Approach,
Second edition. McGraw-Hill, U.S.A.
Statistique Canada. 1993. Normes et lignes directrices pour la dclaration des taux de rponse.
Statistique Canada. 2000. Politique visant informer les utilisateurs sur la qualit et la mthodologie.
Manuel des politiques, Politique 2.3
Willenborg, L. et T. de Wall. 1996. Statistical Disclosure Control in Practice. Lecture Notes in Statistics
111. Springer-Verlag, New York.
Willenborg, L. et T. de Wall. 2001. Elements of Statistical Disclosure Control. Lecture Notes in Statistics
155. Springer-Verlag, New York.
Wilson, J.R. et M. Reiser. 1993. Transforming Hypotheses for Test of Homogeneity in Survey Data.
Journal of Official Statistics, 9(4): 815-824.
STATISTIQUE CANADA
303
STATISTIQUE CANADA
304
statistique provinciale, de lorganisation statistique dans lensemble au pays tous les chelons et des groupes
professionnels pertinents.
Une quipe de projet est une structure efficace habituellement utilise pour la planification et la gestion dune
enqute. Lengagement de la direction et des intervenants appropris permet lquipe de lenqute de mettre
en commun des connaissances et des aptitudes, dinciter lengagement, de simplifier et damliorer la
communication, et de donner loccasion daccentuer lefficience et lefficacit. Dautres structures ou
approches sont possibles et peuvent tre ncessaires dans certaines situations. Si la structure de lquipe du
projet nest pas explicitement applique cependant, il faut insister et compter davantage sur des spcifications
prcisment rdiges comme moyen de communication, mais elles laissent peu de place la modification. Il
faut aussi mettre davantage laccent sur les aptitudes particulires des participants, mais il y a moins
doccasions de surveillance et de contrle efficaces.
STATISTIQUE CANADA
i.
305
Charg denqute
La gestion de lenqute est confie au charg denqute. Il ou elle veille ce que chacun se conforme aux
objectifs, au budget et lchancier. Le charg denqute doit habituellement dterminer les ressources
ncessaires lenqute, tracer un plan prliminaire, coordonner la prparation et la mise jour du plan,
prparer le budget et surveiller lutilisation des ressources et ltat davancement. Il tablit aussi la liaison
avec la direction et le client, et leur fait rapport sur ltat davancement. Il veille au respect des engagements
envers les dispositions rglementaires, lgislatives et juridiques du Bureau, et lapplication de ses politiques,
normes, lignes directrices et rglements. Le charg denqute prside les runions de lquipe et y reprsente
le client, peu importe ses relations fonctionnelles ou organisationnelles avec ce client.
ii.
Coordonnateur de la matire
Le coordonnateur de la matire est charg du contenu de lenqute. Sil y a plus dun domaine ltude
(p. ex., une enqute visant tudier les donnes sur la dmographie, la scolarit, la population active et le
revenu), le coordonnateur se charge des activits et des entres de ceux qui participent la matire, mais qui
ne sont pas membres de lquipe de lenqute. Il ou elle veille ce que la matire soit clairement et
correctement reprsente, ce que les utilisations des donnes prvues soient videntes dans lnonc des
objectifs, ainsi qu la conception et la mise en uvre, par lintermdiaire de discussions avec le client et
lquipe. Le coordonnateur de la matire se charge en particulier de la prparation des dfinitions et des
concepts, de la collecte et de lanalyse des donnes chronologiques pertinentes (pour la planification et
llaboration), de llaboration de la matire et de la mise lessai du questionnaire, de la prparation de toute
matire qui exige la collecte des donnes et des spcifications de traitement, de la conception des sorties
statistiques, de llaboration et de lapplication de lanalyse des donnes, et de la prparation du texte
analytique, ou il coordonne ces activits. Il coordonne aussi la validation ou lattestation des rsultats de
lenqute et donne son expertise en la matire pour lvaluation de la qualit des donnes et la prparation de
la documentation pertinente la matire.
iii.
Lanalyste des systmes est charg de la conception et de la mise au point de programmes et de systmes
informatiques, ainsi que de lidentification, lintgration et la modification des logiciels commerciaux ou de
ceux dj sur place qui sont ncessaires pour procder lenqute. Il ou elle veille ce que ces systmes
fonctionnent selon les spcifications dautres participants et membres de lquipe. Lanalyste des systmes
intervient aussi titre de consultant ou de conseiller auprs de tous les autres membres de lquipe de
lenqute sur des questions dinformatique et veille lapplication constante de mthodes efficientes,
vrifiables, compatibles et logiques pendant tout lexercice. Il coordonne aussi certains aspects du traitement
statistique (p. ex., vrification et imputation, pondration et estimation, tabulation), ou en garantit la mise en
uvre efficace, compte tenu de lintervention du charg des oprations.
STATISTIQUE CANADA
306
v.
Le charg des oprations et de la collecte des donnes veille llaboration de la collecte des donnes, la
saisie et au codage des spcifications et procdures. Il est aussi charg de la planification et de la coordination
du recrutement, de la formation, de la surveillance et du contrle du personnel de la collecte des donnes,
notamment les intervieweurs et les surveillants, ainsi que du personnel de codage et de saisie des donnes, le
cas chant. Ses responsabilits comprennent llaboration, la mise en uvre et la gestion des oprations de
collecte et des programmes de relations publiques, la prparation du matriel (p. ex., les manuels et les cartes)
et les besoins de soutien logistique. Il ou elle intervient titre de consultant et de conseiller auprs de tous les
autres membres de lquipe de lenqute sur des questions oprationnelles pertinentes son expertise et il
veille ce que les spcifications et exigences que dautres membres de lquipe ont labores, p. ex., les
spcifications sur la vrification et le suivi de lintervieweur, soient correctement intgres aux procdures.
Lintervention du charg des oprations peut englober la collecte sur place par lintermdiaire des bureaux
rgionaux, des oprations distinctes de saisie et de codage des donnes, ainsi que le droulement dactivits
oprationnelles manuelles ou automatises accomplies au Bureau central. Ces interventions peuvent tre
confies deux personnes pour les plus grands projets, un charg de la collecte des donnes et un charg du
traitement.
vi.
Autres membres
Un bon nombre de chargs de tches ou de coordonnateurs peuvent tre ncessaires pour les grands projets,
par exemple, un recensement de la population. Dans ce genre de projets, des chargs de tches distincts
peuvent tre affects aux communications ou la publicit, aux donnes dentre et de sortie gographiques
(lies la base de sondage, aux produits et variables gographiques) et aux rsultats de lenqute. Les grandes
enqutes ou les recensements peuvent aussi tre subdiviss en tches (p. ex., laboration et conception du
questionnaire, collecte des donnes, vrification et imputation) et en sous-tches particulires (p. ex., contrle
qualitatif de la collecte, codage, etc.). Une quipe est affecte chaque tche et sous-tche. Les
caractristiques des membres des quipes peuvent tre diffrentes, mais chaque quipe a un chef dquipe qui
fait rapport un chef lchelon suprieur de la structure de lquipe de lenqute.
La gestion a deux dimensions. Lquipe de lenqute donne une dimension, la gestion des ressources. Elle est
habituellement intitule gestion matricielle. Lorganisation fonctionnelle donne lautre, laide de la
prestation de services contrat ou de produits intermdiaires, de laffectation de membres de lquipe, de
lexamen technique et de la supervision de leur contribution lenqute.
Un comit de gestion de lorganisme statistique (il peut avoir divers noms, p. ex., Comit stratgique)
veille ce que lenqute soit pertinente dans le contexte global du programme statistique de
lorganisme et ce que la gestion en soit efficace. Ce comit (ou un chef fonctionnel dun chelon
quivalent) approuve en dfinitive le lancement de lenqute, ainsi que la rpartition du budget et des
ressources de lenqute.
ii.
Un Comit directeur, compos dintervenants chargs dun groupe denqutes semblables, affecte
aux enqutes des services ou des ressources techniques ou spcialiss. Le Comit directeur approuve
lnonc des objectifs, lchancier, la rpartition des ressources dans les limites du budget approuv,
STATISTIQUE CANADA
307
la matire dtaille, les sorties et la mthodologie. Il donne aussi lorientation gnrale et des conseils
lquipe de lenqute, surveille ltat davancement et rgle les problmes hors de la capacit de
solution de lquipe. Peu importe le commanditaire ultime de lenqute, le Comit directeur est
souvent considr comme le client pour lquipe du projet. Le charg denqute devrait tre membre
de ce comit ou lui faire rapport directement et assister aux runions. Si un ministre ou un organisme
externe finance lenqute, il peut tre utile quun reprsentant de cet organisme sige au comit.
iii.
Un comit spcialis donne des conseils et lorientation sur la matire, les concepts, les dfinitions et
les classifications. Ce comit coordonne les fonctions entre les programmes statistiques pour
promouvoir luniformit et les normes de la matire. En labsence dun tel comit, le coordonnateur
de la matire devrait nouer des liens avec ses collgues techniciens pour obtenir une orientation et un
contexte.
iv.
Dans certains cas, un comit consultatif ayant des membres rgionaux, provinciaux ou de divers
ministres peut donner des conseils sur des questions gnrales, priorits, matires, exigences des
utilisateurs et sorties particulires. Ce comit reflte lintrt dvolu des membres envers lenqute ou
ses rsultats. En labsence dun tel comit, le charg de projet et le coordonnateur de la matire
doivent garantir la liaison efficace avec les utilisateurs et les groupes qui peuvent avoir un intrt
dvolu envers lenqute.
v.
Un comit consultatif professionnel form dexperts autonomes ( lexterne) peut finalement donner
des conseils caractre technique et faire un examen constant des mthodes statistiques et des sorties.
En labsence dun tel comit, le spcialiste de la mthodologie denqute devrait demander des
conseils, et vrifier sil procde une recherche et des essais des mthodes appropris.
Ces comits peuvent servir ltape du processus de planification et de gestion. Leur engagement reflte et
concrtise le soutien du programme et dtermine la priorit de lenqute dans le programme statistique de
lorganisme dans lensemble. Voil qui garantit lengagement tous les paliers de la direction de lenqute et
laccs aux ressources spcialises ncessaires. Limportance de lenqute, la structure du systme statistique
national et les pratiques de gestion de lorganisme statistique dterminent le genre de structure des comits.
Lorganisation fonctionnelle et de linfrastructure de lorganisme statistique donne lquipe un soutien trs
vari. Lorganisation fonctionnelle devrait tre charge de la surveillance technique, de la conception et de
llaboration, c.--d. que les surveillants des secteurs fonctionnels examinent les contributions des subalternes
qui travaillent en quipe. Les membres de lquipe, pour leur part, devraient demander une orientation ou des
conseils techniques leur surveillant fonctionnel et aux collgues dans leur infrastructure. Le chef de lquipe
devrait tre en mesure de supposer que les entres obtenues pour son projet ont lapprobation et le soutien du
surveillant des membres (en supposant que lorganisation fonctionnelle prvoit la surveillance selon une
expertise technique ou professionnelle) ou refltent une certaine forme dvaluation et de soutien de la part
des pairs.
Lquipe devrait aussi demander de laide ou des services qui peuvent tre disponibles dans lorganisme,
p. ex., services et installations de collecte et de saisie des donnes, services informatiques, dimprimerie, de
communication publique ou avec les mdias, services et installations de formation, des services de liaison
interministrielle ou fdrale-provinciale, etc. Il serait inhabituel que lquipe se charge de tous ces aspects
dune enqute. Le surveillant ou chef fonctionnel noue des liens avec le membre appropri de lquipe de
lenqute et lui fait rapport sur des questions lies lenqute, mais la gestion de ces oprations se fait
habituellement dans lunit ou lorganisme fonctionnel.
STATISTIQUE CANADA
308
Si lorganisme na pas linfrastructure ou les installations techniques ncessaires pour tous les aspects de
lenqute, il devra obtenir ces comptences de sources externes, par exemple, laide dun contrat court
terme ou en impartissant les fonctions un organisme lexterne. Si lorganisme na pas le personnel ou les
installations appropries pour limpression des questionnaires et des manuels de lintervieweur, ou pour la
saisie des donnes, par exemple, il devra chercher des services lexterne pour accomplir ces activits. Les
intervenants du projet devront prparer les spcifications des fonctions ou services obtenir, et prciser les
conditions et attentes, et lentrepreneur devra les accepter. Lorganisme externe est ensuite charg de
lapplication de ces spcifications conformment aux modalits du contrat. Dans la majorit des enqutes,
certains volets sont impartis linterne (hors de lquipe du projet) ou des fournisseurs de services
lexterne.
Certaines enqutes nouvelles sont suffisamment simples du point de vue oprationnel pour que ses
intervenants appliquent des mthodes habituelles ou des tablissements commerciaux peuvent faire le travail
sans avoir vraiment besoin dun engagement direct avec lquipe de lenqute (par exemple, pour
limpression). Sil sagit de fonctions complexes, denqutes plus vastes et de recensements, limpartition
ajoute un risque et exige des contrles particuliers. Dans le cas dun organisme statistique national,
lentrepreneur lexterne peut tre un ministre, une institution, un organisme du secteur priv ou un
particulier. Il faut appliquer les rgles et rglements de lorganisme statistique, ainsi que ceux du
gouvernement, y compris les rgles et rglements des marchs publics et de limpartition. Lquipe du projet
doit vrifier attentivement si elle a accs la gestion interne, lexprience et aux connaissances
administratives et juridiques qui lui seront ncessaires. Il faut faire preuve dun empressement
proportionnellement appropri limportance et au risque lors de la slection de lentrepreneur, de la
prparation et de lapprobation des spcifications et exigences, de la surveillance et de la gestion de la mise en
uvre et de laccomplissement de ces activits.
STATISTIQUE CANADA
iii.
309
La planification et la gestion de certaines enqutes pourraient tre faites par lintermdiaire dun comit
directeur ou de projet et les participants llaboration, au plan denqute et sa mise en uvre pourraient
travailler distinctement par lintermdiaire des membres dsigns du comit qui nont pas dintervention en
quipe. Lenqute est habituellement un volet seulement du mandat du comit et ne fait pas directement partie
de son objectif. Les enqutes faites par un ministre qui nest pas un organisme statistique (mais lorganisme
peut apporter un certain soutien au plan denqute) sont souvent organises ainsi. Dans ces cas, le comit est
lintrieur du ministre daccueil. Les enqutes qui exigent des aptitudes spcialises la mesure et
lobservation directe (p. ex., les analyses du sang ou dautres mesures mdicales ou dentaires) peuvent aussi
fonctionner de cette faon.
iv.
Dans de nombreuses situations, le travail de conception englobe seulement une composante dune enqute en
cours, par exemple, la modification de la conception du questionnaire ou du plan dchantillonnage. Ces cas
sont souvent rgls sans avoir recours une quipe denqute, mme si de nombreux aspects de lenqute
peuvent exiger une mise jour ou une amlioration. Le temps et le cot expliquent habituellement pourquoi
lactivit est accomplie sans quipe denqute.
Dans tous ces cas, les diverses aptitudes et connaissances ncessaires pour planifier et faire lenqute ou
planifier et appliquer une composante en particulier sont obtenues contrat. La majorit des organismes
statistiques fonctionnent ainsi pour divers projets, par exemple, pour donner des services consultatifs des
ministres, afin quils procdent leurs propres enqutes uniques (par exemple, sur la satisfaction des
clients utilisateurs employs ou sur lopinion publique) ou des projets de modification partielle de la
conception ou du plan denqute.
Limpartition peut tre lapproche la plus rentable pour les composantes qui peuvent tre prcises
exactement si une unit organisationnelle ou un entrepreneur lexterne a les connaissances et les ressources
techniques ncessaires pour concevoir, laborer ou produire temps la composante demande. La
communication doit cependant tre efficace, et la capacit, les aptitudes, ltat davancement et le respect des
spcifications devront tre vidents.
v.
Dans certains cas, la majorit des comptences ncessaires sont disponibles dans lunit fonctionnelle qui a
lanc lenqute. Mme sil y a une distinction significative, le charg denqute est aussi le chef fonctionnel
de la majorit des participants, sinon tous. Lquipe des participants devrait nanmoins fonctionner comme
une quipe denqute dcrite ci-dessus. Nombre des attributs positifs de lquipe denqute, par exemple la
volont de collaboration, louverture desprit, la responsabilit partage, lautonomie et lobjectivit,
pourraient cependant se rvler peu ralistes. Les divers genres dexpriences et de connaissances peuvent
tre diffrents et les diffrences aux niveaux fonctionnels peuvent se traduire plus souvent en conflits. Les
participants hors du secteur fonctionnel peuvent avoir moins dinfluence, une cible de responsabilit plus
troite peut leur tre confie et ils peuvent avoir moins dinterventions en quipe.
310
grandes de lorganisme statistique, compte tenu notamment des mrites des objectifs de lenqute, du
programme et du mandat de lorganisme dans lensemble et du cot de loption de la production des donnes
ou des renseignements. Ces objectifs et exigences forment cinq ensembles lmentaires de critres quil faut
respecter lors de la planification, de la conception et de la mise en uvre de toute enqute ou projet
statistique.
i.
Il ny a pas de dfinition communment accepte entre les organismes statistiques de ce qui constitue
laptitude lutilisation . On peut cependant valuer si les donnes de lenqute et linformation statistique
sont aptes lutilisation, selon les six caractristiques suivantes : pertinence, exactitude, actualit,
accessibilit, intelligibilit et cohrence (pour une dfinition de ces termes, voir lAnnexe B - Contrle
qualitatif et assurance de la qualit).
ii.
Combien de temps faut-il pour remplir le questionnaire? Combien de temps faut-il au rpondant pour vrifier
ses dossiers et obtenir linformation dautres membres du mnage ou de lentreprise? quel point les
questions sont-elles indiscrtes? La priode de collecte de lenqute empitera-t-elle sur le travail du
rpondant (p. ex., faire une enqute en milieu rural pendant les semailles ou la rcolte)? Les dfinitions
lmentaires sont-elles diffrentes de celles dautres enqutes qui appliquent des concepts semblables? La
population a-t-elle trop souvent fait lobjet dune enqute auparavant? Lenqute nuira-t-elle la rputation de
lorganisme ou aura-t-elle des rpercussions ngatives sur dautres enqutes (p. ex., taux de rponse rduit
cause de la controverse ou parce que lenqute se droule simultanment une autre)? La valeur sociale
inhrente des donnes qui seront tires de lenqute justifiera-t-elle le fardeau de rponse et le cot de
lenqute, et sera-t-il possible de le dmontrer aux rpondants et au public?
iii.
Les rsultats diffuss de lenqute devraient reflter tous les rsultats valides.
Lanalyse de lorganisme statistique et la diffusion ne doivent pas tre limites au point de reflter, supposer
ou soutenir indment en fait une perspective, une intention, une conclusion ou un point de vue en particulier.
(Voil des rpercussions de la diffusion incomplte ou des rsultats analytiques limits qui ne sont pas
inhabituels et involontaires.) Les rsultats de lenqute ne devraient pas servir soutenir une perspective, un
point de vue ou une conclusion en particulier, sauf si dautres rsultats plausibles ou contraires, ou si dautres
conclusions ont t mis lessai ou rejets laide de vrifications et de preuves statistiques videntes. La
vraisemblance ou la fiabilit statistique de ces essais, ainsi que les rsultats ou les conclusions, doivent aussi
tre prsents clairement avec les rsultats.
iv.
Il faut respecter les exigences des politiques, rglements, procdures administratives, normes et
lignes directrices de lorganisme et du gouvernement, et appliquer des mthodes et pratiques
logiques.
STATISTIQUE CANADA
v.
13.2.1
311
Une enqute qui rpond tous ces critres doit tre ralisable dans les limites du budget convenu et
approuv, laide des moyens et ressources disponibles.
La planification de lenqute devrait se drouler par phases dexactitude et de dtails croissants. ltape
prliminaire, ou tape de proposition de lenqute, seule la notion de faisabilit et les besoins de donnes de
lenqute les plus gnraux peuvent tre connus. En consultation avec les utilisateurs et le client, lquipe
prcise davantage les concepts analytiques et les besoins de donnes, et elle commence considrer le choix
de la base de sondage, la taille gnrale de lchantillon et la prcision ncessaires, les options de collecte des
donnes, lchancier et le cot. Elle se fait simultanment une ide des limites que le client imposera au cot
et lchancier, et elle en apprend davantage sur les ressources qui peuvent tre disponibles pour lenqute.
Les plans sont rviss, labors et peaufins, et des aspects plus dtaills sont examins pendant les tapes
ultrieures. Un certain genre de plan pour la conception, llaboration et la mise en uvre est ncessaire pour
chaque activit et opration. La planification continue quand mme. Il faut faire des ajustements et apporter
des modifications, et il peut tre ncessaire dtablir des mesures correctives et des plans durgence.
Une enqute ou un projet statistique passe par les cinq tapes de planification suivantes :
i.
ii.
iii.
iv.
v.
STATISTIQUE CANADA
312
Lorsquune proposition denqute a t prpare, examine et fait lobjet dune discussion, la direction est en
position de dcider si elle procde la planification et llaboration ultrieures. Si oui, lquipe de lenqute
doit laborer lnonc des objectifs et confirmer rapidement la faisabilit, ainsi que certaines grandes options
ou solutions de rechange.
13.2.1.2 Deuxime tape : dtermination de la faisabilit et tablissement du plan denqute
Voil une tape critique de la planification parce quil faut dterminer le cot de lenqute (de trs prs). Cest
particulirement important si le cot estim approche ou dpasse le cot maximal que lorganisme de
financement a tabli. Voici les principaux buts de cette tape de la planification :
i.
formuler (la version prliminaire de) lnonc des objectifs, dterminer les plafonds des cots et les
cibles de qualit, et donner un aperu de lchancier,
ii.
dterminer et valuer la pertinence et laccessibilit des sources concrtes de donnes et reprer les
lacunes dinformation (donnes administratives et enqutes dj ralises),
iii.
choisir la base de sondage, les units statistiques ventuelles pour lchantillonnage (le cas chant)
et la mthode de collecte des donnes,
iv.
prciser les approches mthodologiques appliques dautres enqutes sur la mme population cible
et aux enqutes dautres organismes statistiques sur le mme sujet gnral,
v.
vi.
rdiger un rapport de faisabilit et de planification, y compris les options, ainsi que les questions,
besoins et limites en particulier (p. ex., du point de vue des politiques et rglements, ainsi que des
pratiques, limites et exigences juridiques), qui couvrira chaque tape du droulement de lenqute, y
compris lnonc des objectifs, ainsi que les options pour la base de sondage, le plan
dchantillonnage, la collecte des donnes, le traitement, le contrle de la divulgation, les mises
lessai, la diffusion, le budget, etc.
Il est possible, chaque volet de cette tape, de faire rapport au Comit directeur et de mettre fin au processus
si lquipe dtermine, selon une indication suffisante, quune enqute ne serait pas raliste, compte tenu des
modalits de la version prliminaire de lnonc des objectifs. Si la planification continue jusqu la
formulation dun rapport de faisabilit et de planification, le Comit directeur devrait examiner et valuer la
proposition denqute. Une dcision sur le droulement de lenqute ou non, ainsi que sur ses paramtres et le
plan gnral, est prise en tenant compte de la proposition denqute. Toute dcision prise pour entreprendre
dautres activits de planification ou de conception aboutit habituellement la troisime tape.
13.2.1.3 Troisime tape : prparation des plans des composantes
Chaque membre de lquipe prpare les composantes du plan li sa responsabilit dans lquipe. Chacun
donne aussi une rtroaction sur les plans des autres et y exerce son expertise. Les quipes de tche et de soustche prparent aussi des plans et les coordonnent avec le membre responsable de lquipe de lenqute.
Celle-ci examine et approfondit tous les plans. Voici les tapes de la prparation de ces plans :
STATISTIQUE CANADA
313
i.
voir llaboration, la conception, la mise en uvre et lvaluation des plans dactivits, des
chanciers, des estimations des besoins de ressources et des estimations dtailles des cots aux fins
de la mise en uvre pour chaque composante et tape de lenqute ou du projet statistique,
ii.
examiner tous les plans des composantes, identifier les entres et les sorties pour chaque composante
et les dpendances,
iii.
procder llaboration ncessaire comme principale entre aux plans des autres composantes,
iv.
nouer les liens et tablir luniformit lintrieur des composantes et entre celles-ci,
v.
vi.
vii.
viii.
La planification devient plus complexe au cours de cette tape. Afin de planifier les composantes
oprationnelles (collecte, saisie et traitement des donnes), il faut accomplir un travail significatif intgr la
planification pour le plan dchantillonnage (il faudrait dterminer la taille et la rpartition), la matire du
questionnaire, la mthodologie dtaille de la collecte et les exigences de vrification et dassurance de la
qualit. Les plans de collecte nont aucun sens, par exemple, sans une estimation prcise de la longueur de
linterview.
la fin de cette tape, et en supposant que le Comit directeur ait donn son approbation, lquipe prend des
dispositions, ou apporte la touche finale aux dispositions prises, pour obtenir les ressources ncessaires. Il
faudrait maintenant dterminer la date de rfrence, la date de collecte des donnes, le budget et les besoins de
ressources.
13.2.1.4 Quatrime tape : achvement des plans pour la conception, llaboration et la mise en uvre
cette tape, il ne sagit plus de dcider que faire, mais plutt de passer laction. Les questions de
planification en instance devraient donc tre de menus dtails seulement et bien se situer dans les limites des
plans concrets (pour le cot, le temps et les ressources). La touche finale peut tre apporte aux plans de mise
lessai et de mise en uvre cette tape seulement. Nous avons mentionn auparavant que divers aspects de
la conception et de llaboration commencent des moments diffrents, et les mthodes, procdures et
systmes qui seront utiliss sont dtermins des degrs distincts de certitude. Dans certains cas, ceux qui
obtiennent les spcifications et qui doivent les appliquer peuvent avoir une comprhension gnrale seulement
de ce quils doivent transformer en spcifications, procdures ou systmes informatiques plus dtaills.
Quelques modifications de dernire minute apportes aux spcifications pendant llaboration ou la suite de
la mise lessai sont toujours possibles. Il faut faire des compromis pour sen tenir au cot convenu, compte
tenu des contraintes de temps et de ressources.
13.2.1.5 Cinquime tape : ajustements et plans supplmentaires
Au cours de la conception, de la mise en uvre et de lvaluation de la qualit, il est possible de dcouvrir que
tous les aspects de lenqute ne se droulent pas comme prvu. Les taux de rponse peuvent tre suprieurs ou
STATISTIQUE CANADA
314
infrieurs. Le pistage peut coter plus cher. Une proportion plus leve du travail des intervieweurs peut tre
rejete pendant le contrle qualitatif, ce qui cause des retards. Le taux de rejet la vrification dune variable
en particulier peut tre excessivement lev. ltape de lattestation de la qualit des donnes, il est possible
de dcouvrir que de nombreux rpondants ont mal interprt une question, etc. Lquipe de lenqute devrait
examiner ces situations et prparer rapidement des plans.
Si le cot augmente, si des ressources supplmentaires sont ncessaires, si un retard ou des rpercussions sur
les objectifs de lenqute ou les exigences de qualit sont prvus, le plan supplmentaire devrait comprendre
des options et des consquences. Il faut aussi obtenir lapprobation du Comit directeur.
Mme sans ces problmes graves, il peut tre ncessaire dapporter des ajustements quotidiens aux plans.
mesure que lcart se referme entre la date de rfrence et la date dachvement de lenqute, les petits
problmes deviennent rapidement normes.
STATISTIQUE CANADA
315
Les besoins aux volets cots, chanciers et ressources doivent intgrer les activits du charg denqute, des
membres de lquipe et de tous les autres participants. Les estimations devraient comprendre toutes les
activits, depuis le dbut jusqu la prestation du dernier produit et rapport.
Organisation
Lorganisation est la fonction de gestion qui permet de runir les intervenants, les fonctions et les lments
physiques pour atteindre les objectifs de lorganisme. Le charg denqute est responsable de la gestion de
lenqute et il a lobligation de rendre compte, mais il doit aussi faire appel lquipe de lenqute (et aux
chefs des groupes fonctionnels de prestation des services) pour partager cette responsabilit. Les membres de
lquipe participent cette fin laffectation des responsabilits et ils en conviennent. Les responsabilits
devraient tre affectes selon lexpertise, lexprience et les ensembles particuliers dactivits ou de
composantes compatibles de lenqute. Il faut couvrir toutes les activits en collaboration avec les
intervenants respectifs chargs des entres et des sorties de chaque activit de lenqute. Lune des
interventions du charg denqute est de veiller ce quil ny ait ni lacunes ni conflits.
ii.
Orientation
Surveillance et contrle
La surveillance et le contrle sont une fonction de la gestion qui demande dtre constamment bien inform et
de ragir tous les problmes pour maintenir ltat davancement de lenqute selon le plan. Lquipe de
lenqute doit vrifier si les ressources affectes lenqute sont disponibles et si elles sont utilises avec
efficience et efficacit. Elle doit vrifier si les plans denqute sont appliqus correctement et apporter les
corrections et les ajustements ncessaires. Le charg denqute doit vrifier si les plans, politiques et
procdures sont appliqus la lettre, et si les participants ciblent toujours les objectifs. Il formule et
communique les instructions et en vrifient lapplication, dtermine les normes de rendement et le suivi pour
accomplir les tches, et vrifie le respect des chanciers.
La surveillance est faite par lintermdiaire de runions rgulires de lquipe, de discussions, de
communications quotidiennes avec les participants, et laide de plans et de divers rapports dinformation de
gestion. Le rapport de planification, le budget et lchancier sont les principales rfrences. Il faut reprer
lutilisation des ressources, les dpenses et ltat davancement, et faire rapport. Chaque membre de lquipe
devrait rgulirement prsenter un rapport (de vive voix ou par crit, selon la situation) sur ltat
davancement, lutilisation et les dpenses. Il faudrait faire rapport sur les donnes oprationnelles, par
exemple les taux de rponse, les taux dachvement de lintervieweur, les taux de suivi, linformation des
STATISTIQUE CANADA
316
rapports de production et les oprations de contrle qualitatif et dassurance de la qualit, et examiner toutes
ces donnes. La frquence des runions et des rapports devrait tre dtermine selon lurgence ventuelle de
lintervention en cas de problme.
Les prvisions aux volets de lchancier et des cots pour les activits critiques dun chancier strict, par
exemples les interviews, devraient tre rparties jusquau niveau le plus bas des tapes de la composante. Ces
tapes devraient tre inscrites un calendrier quotidien et surveilles si possible et si cette mesure est logique.
Il serait autrement difficile de dterminer combien de temps il faudra pour raliser les activits, si ltat
davancement correspond lchancier et si des mesures correctives, ajustements ou modifications des plans
sont ncessaires.
iv.
STATISTIQUE CANADA
317
fondamentale des donnes dfinitives. Il rpond aux questions du client sur ltat davancement, justifie les
dcisions, communique les prfrences du client lquipe de lenqute et vrifie si largent du client est
rparti correctement et dans les limites du budget. Il est aussi un intermdiaire entre le client et lquipe de
lenqute. Lquipe du projet peut donc faire son travail sans interruption ou interfrence. Le charg
denqute a la mme intervention auprs du Comit directeur. Si le client nest pas membre du Comit
directeur, le charg denqute doit garantir quil y a communication trilatrale efficace des exigences,
dcisions et rsultats.
Il est essentiel que le charg denqute soit inform personnellement et directement en tout temps que le client
et les principaux utilisateurs savent ce quils veulent, comprennent ce quils obtiennent, connaissent les
limites et dterminent comment les donnes rpondront ou non leurs besoins. Les cots, consquences et
solutions de rechange appropries doivent aussi tre vidents. Une condition semblable sapplique au Comit
directeur.
Le charg denqute coordonne les activits de lquipe de lenqute et vrifie si les plans, spcifications,
dcisions, etc., sont correctement communiqus aux membres de lquipe. Il ragit tout problme imprvu et
veille ce que les intervenants appropris soient informs pour prendre les mesures ncessaires. Le charg
denqute doit garantir quil est possible de surveiller ltat davancement et la qualit, et de reprer les
nouveaux problmes. Il ou elle doit avoir suffisamment dinformation en tout temps pour pouvoir soutenir
personnellement la crdibilit de lenqute et de ses rsultats, et en comprendre les limites.
Le charg denqute doit veiller ce que les activits de lquipe de lenqute soient correctement
coordonnes avec les groupes fonctionnels et de linfrastructure ou les fournisseurs de services de lorganisme
statistique ou lexterne. Il doit aussi tre inform des enqutes semblables et des nouvelles techniques et
mthodes. Il doit veiller ce que les participants soient conscients de la porte et de l-propos de leur
engagement dans lenqute et ce quils soient rapidement informs de toute modification apporte au plan. Il
doit surveiller leur engagement et obtenir des preuves videntes du rendement demand. Une bonne partie de
ce genre dactivits peut tre dlgue aux membres de lquipe de lenqute, mais le charg denqute
devrait tre en mesure de procder une vrification autonome de ltat davancement, habituellement par
lintermdiaire de communications mensuelles avec les chefs correspondants.
Le charg denqute peut reprsenter lorganisme auprs du public et prendre la parole sur lenqute. Il est la
personne-ressource dfinitive pour les rpondants de lenqute, ceux qui veulent obtenir davantage
dinformation sur lenqute et ceux qui portent plainte ou qui ont des questions. Lorsque les donnes de
lenqute sont diffuses, le charg denqute est une personne-ressource (ainsi que le coordonnateur de la
matire) qui rpond aux questions des mdias, des analystes des donnes et des chercheurs.
Le charg denqute a surtout la responsabilit non exclusive de prvoir, dempcher et de rsoudre les
problmes. Il doit avoir judicieusement recours son exprience et ses connaissances. Il ne doit jamais
oublier dtre sceptique, raliste et favorable simultanment. Il doit tre pragmatique pour prendre des
dcisions ou adopter des positions qui ne sont pas toujours idales du point de vue des relations avec le
personnel et des demandes des utilisateurs. Il doit viter dajuster ou de modifier ce qui ne tourne pas rond,
car il ne ferait que perptuer, voiler ou aggraver les problmes. Il doit viter le rafistolage, la perturbation et
linterfrence.
Le charg denqute doit surveiller la participation des membres de lquipe. Afin dviter les problmes, il
doit essayer de maintenir la cohsion dans lquipe pendant la dmarche aussi longtemps que cette
collaboration aide obtenir le succs de lenqute. Il ne doit cependant pas supposer que tous les participants
resteront en poste jusqu la fin de lenqute. Le charg denqute devrait considrer une stratgie de relve
non officielle et rflchir certaines options ou mesures de rechange. Il faut tre dispos prendre des
mesures en cas dabsence dun participant ou dun membre de lquipe cause dune maladie prolonge,
STATISTIQUE CANADA
318
dune promotion, dune nouvelle affectation ou dun dpart de lorganisme. Il faut aussi prendre des
dispositions pour remplacer le membre ou le participant qui perturbe lenqute ou dont la contribution est
inapproprie.
les membres de lquipe nont pas les mmes niveaux relatifs daptitudes ou la mme exprience et
certains nont pas les aptitudes appropries,
des communications mdiocres ou des lacunes marques dans les communications sont possibles
loccasion,
le prsident du Comit directeur et le charg denqute mnent lenqute (lquipe nest pas clairement
informe sur lorientation, ils ne consultent pas certains membres de lquipe avant de prendre des
dcisions, ils ragissent aux problmes ou aux questions rsoudre sans obtenir dinformation
contextuelle de lquipe de lenqute),
les objectifs changent ou sont vagues (le client ou lutilisateur ne sait pas ce quil veut ou ne comprend
pas les questions, il ajoute des exigences par la suite, il essaie den faire trop dans une seule enqute),
il y a des erreurs de planification (imposer ou accepter un plan rigide, avoir un chancier irraliste ou
affecter des ressources inappropries, omettre les examens suffisamment dtaills des plans et des
spcifications (examen seulement si quelque chose ne tourne pas rond), tre trop optimiste pour
dterminer combien de temps prendront les activits ou quelles sont les complications possibles, ou
navoir aucune ide sur la question, constater que les ressources disponibles sont moindres que celles
prvues),
il y a interfrence de lexterne,
la comprhension des causes et effets manque lors de lvaluation des problmes et de la conception de
solutions,
laccent est mis sur la mthodologie (comme une fin en soi) et non sur les objectifs,
il ny a pas dengagement des membres de lquipe (les affectations engagements des participants sont
trop nombreux ou ils sont distraits par dautres activits hors de lenqute ou des activits
supplmentaires imposes dans lenqute, par exemple, dpannage ou rponse aux demandes
dinformation hors du champ prvu de lenqute, des membres de lquipe considrent des affectations
STATISTIQUE CANADA
319
ultrieures ou acceptent des affectations avant lachvement de lenqute en cours, il est impossible
dobtenir des participants pour faire ce quils ne veulent pas faire ou ce dont ils doutent entirement).
13.4 Sommaire
Ce chapitre couvre les principaux sujets de la planification et de la gestion dune enqute, notamment :
i.
La planification de lenqute doit tre faite par phases de plus en plus dtailles et prcises, partir de la
formulation de la proposition de lenqute pour en dterminer la faisabilit et tablir le plan de lenqute, en
passant par la prparation de plans de composantes de lenqute et la touche finale apporte aux plans pendant
la conception et llaboration, jusqu lajustement et aux plans complmentaires pendant la mise en uvre et
lvaluation.
iii.
Une bonne planification exige une bonne gestion, ainsi que des intervenants chevronns et bien informs. Il
faudrait nommer un charg denqute responsable du fonctionnement appropri de tous les aspects de
lactivit de lenqute. Les principales fonctions de gestion comprennent lorganisation, lorientation, la
surveillance et le contrle de lenqute.
Bibliographie
Amabile, T.M. 1998. How to Kill Creativity. Harvard Business Review. September-October 1998: 65-74.
Biemer, P.P., R.M. Groves, L.E. Lyberg, N.A. Mathiowetz et S. Sudman, ds. 1991. Measurement Errors in
Surveys. John Wiley and Sons, New York.
Brackstone, G.J. 1993. Data Relevance: Keeping Pace with User Needs. Journal of Official Statistics, 9: 4956.
Brackstone, G. 1999. La gestion de la qualit des donnes dans un bureau statistique. Techniques denqute,
25(2): 159-172.
Cialdini, R., M. Couper et R.M. Groves. 1992. Understanding the Decision to Participate in a Survey. Public
Opinion Quarterly, 56: 475-495.
Collins, J. 1999. Turning Goals into Results: The Power of Catalytic Mechanisms. Harvard Business Review.
July-August 1999: 71-82.
Cox, B.G., D.A. Binder, B.N. Chinnappa, A. Christianson, M.J. Colledge et P.S. Kott, ds. 1995. Business
Survey Methods. John Wiley and Sons, New York.
STATISTIQUE CANADA
320
Dinsmore, P.C., d. 1993. The American Management Association Handbook of Project Management.
AMACON, American Management Association, New York.
Drucker, P.F. 1999. Managing Oneself. Harvard Business Review. March-April 1999: 65-74.
Early, J.F. 1990. La gestion de la qualit dans les programmes statistiques nationaux. Symposium 1990:
Mesure et amlioration de la qualit des donne, Ottawa.
Eisenhardt, K.M., J.L. Kahwajy et L.J. Bourgeois III. 1997. How Management Teams Can Have a Good
Fight. Harvard Business Review. July-August 1997: 77-85.
Fellegi, I.P. 1992. Planning and Priority Setting the Canadian Experience. Statistics in the Democratic
Process at the End of the 20th Century; Anniversary publication for the 40th Plenary Session of the
Conference of European Statisticians. Federal Statistical Office, Federal Republic of Germany,
Wiesbaden.
Fellegi, I.P. 1996. Characteristics of an Effective Statistical System. International Statistical Review, 64(2).
Freedman, D.H. 1992. Is Management Still a Science? Harvard Business Review. November-October 1992:
26-38.
Goleman, D. 1998. What Makes a Leader? Harvard Business Review. November December 1998: 93-102.
Groves, R.M. 1989. Survey Errors and Survey Costs. John Wiley and Sons, New York.
Kish, L. 1965. Survey Sampling. John Wiley and Sons, New York.
Linacre, S.J. et D.J. Trewin. 1989. Evaluation of Errors and Appropriate Resource Allocation in Economic
Collections. Proceedings of the Annual Research Conference. U.S. Bureau of the Census. 197-209.
Lyberg, L., P. Biemer, M. Collins, E. de Leeuw, C. Dippo, N. Schwarz and D. Trewin, ds. 1997. Survey
Measurement and Process Quality. John Wiley and Sons, New York.
Pinto, J.K., d. 1998. The Project Management Institute Project Management Handbook. Jossey-Bass Inc,
San Francisco.
Project Management Institute. 2000. A Guide to the Project Management Body of Knowledge. 2000 Edition.
Project Management Institute, Newton Square, PA.
Smith, T.M.F. 1995. Problmatique de laffectation des ressources.Symposium 95, Des donnes
linformation: mthodes et systmes: recueil. 115-122.
Statistique Canada. 2000. Politique visant informer les utilisateurs de la qualit des donnes et de la
mthodologie. Manuel des poliqitues. Politique 2.3.
Statistics Canada. 1987. Quality Guidelines. Deuxime dition.
Statistique Canada. 1998. Lignes directrices concernant la qualit. Troisime dition. 12-539-XIF.
Statistique Canada. 2002. Le Cadre dassurance de la qualit.
STATISTIQUE CANADA
321
Sull, D.N. 1999. Why Good Companies Go Bad? Harvard Business Review. July-August 1999: 42-52.
Wang, R.Y. et D.M. Strong. 1996. Beyond Accuracy: What Data Quality Means to Data Consumers. Journal
of Management Information Systems, 12(4): 5-34.
STATISTIQUE CANADA
322
recensement ou chantillon,
chantillonnage probabiliste ou non probabiliste pour lenqute-chantillon,
si lchantillonnage probabiliste est choisi :
- chantillonnage alatoire simple,
- chantillonnage alatoire simple stratifi,
- chantillonnage par grappes,
- chantillonnage plusieurs degrs,
- chantillonnage plusieurs phases,
si lchantillonnage stratifi est choisi :
- variables de stratification,
- mthode de rpartition de lchantillon en strates,
taille de lchantillon,
mthode destimation,
degr de prcision voulu (variance) des estimations,
enqute unique ou ritre?
STATISTIQUE CANADA
323
4. Conception du questionnaire
-
mthodes de collecte :
- assiste par intervieweur, autodnombrement ou observation directe,
si la mthode assiste par intervieweur est applique :
- interview sur place ou tlphonique,
si la mthode par autodnombrement est applique :
- mthode de distribution et de collecte des questionnaires,
utilisation de certaines donnes administratives pour une partie de la collecte des donnes?
recours des substituts titre de rpondants?
matire du questionnaire,
formulation des questions,
genres de questions :
- rponses ouvertes ou fermes,
ordre des questions.
324
- vrifications de luniformit,
uniformit des vrifications,
mthodes dimputation appliquer,
uniformit de limputation,
prparation et mise lessai des systmes dimputation et de vrification.
Voir le Chapitre 11 Analyse des donnes de lenqute, le Chapitre 12 Diffusion des donnes et
lAnnexe B Contrle qualitatif et assurance de la qualit.
10. Diffusion des donnes
-
utilisateurs et utilisations,
moyens de diffusion :
- publication sur support papier,
- discours ou prsentation en public,
- interview la radio ou la tlvision,
STATISTIQUE CANADA
325
- microfiches,
- mdias lectroniques :
- internet;
- fichier de microdonnes,
mthodes de contrle de la diffusion.
auditoire cible :
- direction,
- personnel technique,
- planificateurs dautres enqutes,
- etc.,
rapport denqute,
rapports sur la mthodologie,
rapports dvaluation de la qualit des donnes,
manuels de formation (p. ex., pour les interviews),
rapports de rendement des intervieweurs,
manuels dinstruction (p. ex., pour les rpondants),
chancier des activits,
spcifications pour les programmes des systmes,
rapport de faisabilit,
rapports dtat davancement,
rapport denqute (qui documente lapplication de toutes les tapes de lenqute),
rapport danalyse des donnes,
rapport gnral ou rapports techniques.
Voir le Chapitre 9 Oprations de collecte des donnes pour la documentation des oprations sur place et
le Chapitre 12 Diffusion des donnes pour la documentation en gnral.
STATISTIQUE CANADA
326
la planification,
la conception et llaboration :
- le plan denqute,
- les procdures de lenqute (p. ex., la collecte des donnes),
- le traitement aprs lenqute,
lvaluation de lenqute,
la documentation,
la formation du personnel.
la taille de lchantillon,
la rpartition de lchantillon,
la base dchantillonnage,
la dure de linterview,
la mthode de collecte des donnes (sur place, au tlphone, par la poste, etc.) :
- p. ex., le nombre dintervieweurs sil sagit dune enqute assiste par intervieweur,
le taux de rponses prvu,
la stratgie de suivi,
STATISTIQUE CANADA
STATISTIQUE CANADA
327
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
329
Introduction
Les demandes de statistiques sur de nombreux aspects de la socit se maintiennent la hausse. Une
mthode appliquer pour obtenir des donnes statistiques est, bien entendu, lenqute. Les contraintes
budgtaires et les proccupations que suscite le fardeau des rpondants ont cependant incit les
organismes statistiques examiner des mthodes de rechange pour obtenir des donnes statistiques.
Lutilisation des donnes administratives est une mthode de rechange. Les donnes administratives sont
celles qui ont t obtenues des fins administratives (p. ex., pour administrer, rglementer ou percevoir
des impts auprs des entreprises ou des particuliers) et non des fins statistiques (pour tudier des
groupes de particuliers, dentreprises, dexploitations agricoles ou fermes, etc.).
2.0
Les donnes administratives sont, dans ce cas, la principale source de donnes pour les units de
lchantillon, en tout ou en partie. Les donnes sont agrges, analyses et diffuses de la mme faon
que les donnes denqute. Si des donnes administratives sont utilises au lieu dune enqutechantillon, lorganisme statistique doit franchir certaines tapes de lenqute tudies dans ce manuel,
mais pas toujours. Lorganisme administratif ferait normalement, par exemple, la collecte, la saisie et le
codage des donnes, mais lorganisme statistique devrait quand mme procder la vrification,
limputation et lanalyse des donnes. Dans certains cas, les donnes administratives peuvent tre la
seule source pratique (p. ex., information dtaille sur les frais des soins de sant).
ii.
Estimation indirecte
Lestimation indirecte comprend lutilisation de donnes administratives comme entres dans le systme
destimation par lintermdiaire de la rgression, de lestimation, du calibrage, etc., par exemple,
lutilisation de donnes administratives comme variables auxiliaires dun modle, comme on la vu au
Chapitre 7 - Estimation. Elle comprend aussi la combinaison de donnes de plusieurs sources
administratives pour produire des estimations.
iii.
Bases de sondage
Les donnes administratives servent souvent crer, complter ou mettre jour des bases de sondage
(voir le Chapitre 3 - Introduction au plan denqute).
iv.
valuation de lenqute
Les donnes administratives peuvent servir valuer les donnes de lenqute lchelon des
microdonnes ou des donnes agrges (consulter le Chapitre 12 - Diffusion des donnes).
STATISTIQUE CANADA
330
Les enregistrements maintenus pour rglementer le cheminement des biens et des particuliers qui
franchissent les frontires, y compris les dossiers dimportation, dexportation, dimmigration et
dmigration.
ii.
Les dossiers exigs par la loi pour enregistrer des vnements, notamment les naissances, dcs,
mariages, divorces, constitutions en personne morale, octrois de permis, etc.
iii.
Les dossiers ncessaires pour administrer les avantages sociaux ou les obligations, notamment les
impts, lassurance-emploi, les rgimes de retraite, lassurance-sant, les prestations familiales,
les listes lectorales, etc.
iv.
Les dossiers ncessaires pour administrer les tablissements publics, par exemple les coles,
universits, tablissements de sant, tribunaux, prisons, etc.
v.
Les dossiers ouverts la suite de la rglementation dune branche dactivit par le gouvernement,
notamment les transports, les activits bancaires, la radiotldiffusion, les tlcommunications,
etc.
vi.
Les dossiers ouverts pour la prestation de services publics, par exemple llectricit, le tlphone,
leau, etc.
Les concepts, les dfinitions, la couverture (et la mesure dans laquelle ces lments restent constants), la
qualit de la dclaration et du traitement des donnes, ainsi que la rapidit de leur disponibilit
dterminent lutilit des donnes administratives. Ces lments peuvent varier normment selon la
source administrative et le genre dinformation. Avant de dcider dutiliser les donnes administratives, il
est ncessaire de les valuer minutieusement, en prenant en compte les considrations suivantes :
i.
Rapidit
Compte tenu de la source dinformation, les intervenants dune enqute qui utilisent seulement des
donnes administratives peuvent tre en mesure de produire des rsultats plus rapidement que sils avaient
recours une enqute-chantillon. Dautre part, le programme administratif peut produire les donnes
plus lentement quune enqute-chantillon (surtout si les donnes administratives constituent un
recensement ou si elles sont tires de plusieurs secteurs de comptence gouvernementale). Le traitement
des donnes administratives aprs rception peut tre particulirement lent sil faut combiner de
nombreux fichiers.
ii.
Cot
De nombreuses tapes de lenqute peuvent tre limines (en particulier la collecte des donnes) et les
cots diminuent donc.
iii.
Fardeau de rponse
STATISTIQUE CANADA
iv.
331
Couverture
Les exigences administratives, qui peuvent tre diffrentes des exigences statistiques, dfinissent la
population cible.
v.
Matire
tant donn que les exigences administratives dfinissent la matire, les donnes administratives ne
couvrent peut-tre pas tous les sujets dintrt.
vi.
Concepts et dfinitions
Le programme administratif, conu aux fins dautres objectifs, peut utiliser des dfinitions et concepts
diffrents de ceux que le ralisateur de lenqute aurait choisis. Les concepts de la source administrative
pourraient en fait ne pas convenir au problme de la recherche.
vii.
Erreur dchantillonnage
Si les donnes administratives couvrent la population cible au complet (c.--d. quelles constituent un
recensement), il ny a donc pas derreur dchantillonnage. Si les donnes administratives remplacent
certaines donnes dun chantillon de la population, lerreur dchantillonnage est toujours possible.
viii.
Il est souvent plus difficile de contrler les erreurs non dues lchantillonnage que dans le cas dune
enqute-chantillon. Il peut y avoir davantage derreurs ou domissions dans les donnes administratives
que dans les donnes denqute (la vrification et limputation sont donc essentielles). Lorsque des
particuliers ou des entreprises sont avantags ou dsavantags, selon linformation fournie la source
administrative, linformation peut aussi tre biaise. Dans certains cas, les donnes administratives
peuvent contenir moins derreurs que les donnes denqute, par exemple, lorsque lerreur de mmoire
peut amenuiser la capacit du rpondant de rpondre prcisment aux questions ou lorsquil pourrait
arrondir sa rponse une question denqute (revenu).
ix.
Contrle qualitatif
La source administrative nest peut-tre pas fiable du point de vue de la prestation uniforme des donnes
lorsquon en a besoin. La couverture, la matire et les concepts peuvent aussi changer avec le temps. Il
faudrait donc collaborer avec les concepteurs du systme administratif et maintenir la communication
pour se tenir jour sur les modifications proposes des concepts, des dfinitions, de la couverture, de la
frquence et de lactualit qui peuvent avoir des rpercussions sur leur utilisation statistique, et il faudrait
intervenir en faveur de modifications apporter qui amlioreront au lieu damenuiser leur utilisation
statistique.
STATISTIQUE CANADA
332
xi.
La mise en forme des donnes nest peut-tre pas pratique. Les donnes pourraient tre agrges
seulement, par exemple, et lorganisme statistique prfrerait des enregistrements individuels pour chaque
unit. Les donnes peuvent provenir de plus dune source, un problme ventuel de correspondance et
duniformisation des donnes entre diffrentes mises en forme. Les fichiers ne sont peut-tre pas bien
documents non plus.
xii.
Lutilisation des donnes administratives peut susciter des proccupations au sujet de la protection des
renseignements personnels dans le grand public, surtout si les dossiers administratifs sont lis dautres
sources de donnes. Il faudrait donc considrer les rpercussions de la protection des renseignements
personnels et les problmes de contrle de la divulgation, surtout lorsque les donnes sont lies dautres
fichiers.
Bibliographie
Brackstone, G.J. 1987. Utilisation des dossiers administratifs des fins statistiques. Techniques
denqute, 13(1): 35-51.
Brackstone, G.J. 1988. Utilisations statistiques des donnes administratives: questions et dfis.
Symposium 87: Les utilisations statistiques des donnes administratives: recueil. 5-18. Ottawa
Cox, L.H. et R.F. Boruch. 1988. Record Linkage, Privacy and Statistical Policy. Journal of Official
Statistics, 4: 3-16.
Hidiroglou, M.A., M. Latouche, B. Armstrong et M. Gossen. 1995. Improving Survey Information Using
Administrative Records: The Case of the Canadian Employment Surveys. Proceedings of the
Annual Research Conference. U.S. Bureau of the Census. 171-197.
Internal Revenue Service. 1999. Statistics of Income: Turning Administrative Systems into Information
Systems. Washington, D.C.
Internal Revenue Service. 2000. Statistics of Income Bulletin, 19(4). Washington, D.C.
Kilss, B. et W. Alvey, ds. 1984. Statistical Uses of Administrative Records: Recent Research and
Present Prospects. 1. Department of the Treasury. Internal Revenue Service. Statistics of Income
Division.
Kilss, B. and W. Alvey, ds. 1984. Statistical Uses of Administrative Records: Recent Research and
Present Prospects. 2. Department of the Treasury. Internal Revenue Service. Statistics of Income
Division.
Konschnik, C.A., J.S. Johnson et J.N. Burton. 1998. The Use of Administrative Records in Current
Business Surveys and Censuses. Proceedings of the Section on Survey Research Methods.
American Statistical Association. 202-207.
STATISTIQUE CANADA
333
Michaud, S., D. Dolson, D. Adams et M. Renaud. 1995. Combining Administrative and Survey Data to
Reduce Respondent Burden in Longitudinal Surveys. Proceedings of the Section on Survey
Research Methods. American Statistical Association. 11-20.
Monty, A. et H. Finlay. 1994. Strengths and Weaknesses of Administrative Data Sources: Experiences of
the Canadian Business Register. Statistical Journal of the United Nations, ECE 11: 205-210.
Singh, M.P., J. Gambino et H.J. Mantel. 1994. Les petites rgions: problmes et solutions. Techniques
denqute, 20(1): 3-15.
Statistique Canada 1996. Politique dinformation des rpondants aux enqutes. Manuel des politiques.
Politique 1.1
Statistique Canada 1996. Politique relative au couplage denregistrements. Manuel des politiques.
Politique 4.1
Statistique Canada. 1998. Lignes directrices concernant la qualit. Troisime dition. 12-539-XIF.
Sweet, E.M. 1997. Using Administrative Record Persons in the 1996 Community Census. Proceedings of
the Section on Survey Research Methods. American Statistical Association. 416-421.
Wolfson, M., S. Gribble, M. Bordt, B. Murphy et G. Rowe. 1987. La base de donnes de simulaiton de
politique sociale: un exemple dintgration de donnes denqute et de donnes administratives.
Symposium 87: Les utilisations statistiques des donnes administratives: recueil. 233-268.
STATISTIQUE CANADA
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
335
336
Par accessibilit des donnes statistiques, on entend la facilit avec laquelle on peut se les procurer
Bureau. Il sagit notamment de la facilit avec laquelle on peut constater que linformation existe
mme que le caractre appropri de la prsentation de linformation ou du mdia au moyen duquel
peut avoir accs aux donnes. Pour certains utilisateurs, le cot peut galement tre un aspect
laccessibilit.
du
de
on
de
STATISTIQUE CANADA
337
Le nombre et limportance des erreurs varient habituellement entre les activits et les particuliers qui
travaillent la mme activit. Le contrle qualitatif peut servir identifier les lments importants qui
contribuent lerreur et garantir des degrs de qualit acceptables la sortie.
Le contrle qualitatif statistique est lapplication des techniques statistiques aux fins de la comparaison
avec des normes et pour obtenir un degr donn de qualit. Les programmes de contrle qualitatif
statistique permettent de limiter aux taux prciss les erreurs ajoutes la suite dune opration denqute,
sous inspection minimale.
Les extrants dune activit de travail peuvent tre considrs selon deux perspectives diffrentes de la
qualit. Dune part, les extrants reprsentent les produits individuels (ou services) conformes aux normes
ou non. Dautre part, le travail peut tre considr comme une squence de tches accomplies dans des
conditions relativement stables pour produire les extrants voulus (c.--d. une perspective du processus).
Les deux points de vue sont valables et ncessaires selon les hypothses formules sur le processus et
lobjectif de la procdure du contrle qualitatif. Ces deux points de vue donnent lieu deux mthodes
principales de contrle qualitatif : le contrle du produit statistique et le contrle du processus statistique.
2.1
Le contrle statistique du produit utilise lchantillonnage et des rgles de prise de dcisions pour
dterminer les lots de travail acceptables et ceux qui ne le sont pas. Lobjet du contrle du produit est le
lot individuel et non le processus. Lobjectif du contrle qualitatif est de dterminer quelles units
individuelles ou lots dunits sont conformes aux exigences de qualit tablies. Le contrle du produit est
une mesure corrective parce que les lots tiquets mdiocres sont amliors (retravaills). De plus, les
erreurs trouves dans le lot dont on a mesur la qualit sont corriges. (Les erreurs dans les lots
accepts ne sont pas toujours corriges, par exemple les erreurs de collecte qui demanderaient une
relance auprs du rpondant.) Bien que ce soit une bonne pratique, il nest pas toujours ncessaire
didentifier et de corriger les causes de la qualit mdiocre. Lchantillonnage dacceptation est le
principal outil du contrle qualitatif.
2.1.1
chantillonnage dacceptation
Lchantillonnage dacceptation est une technique de contrle qualitatif qui tablit le plan
dchantillonnage et les rgles de dcisions pour dterminer quels lots sont acceptables ou non. Dans
sa forme la moins complique, lchantillonnage dacceptation comprend la rpartition du travail en lots,
la slection et la vrification dun chantillon probabiliste dans chaque lot, et lacceptation ou le rejet du
lot, selon lampleur des erreurs releves dans lchantillon. Les autres lots rejets font habituellement
lobjet dune inspection complte et ils sont rectifis au besoin.
En particulier :
- la production est rpartie en lots dunits de taille N,
- un chantillon de taille n est slectionn dans chaque lot,
- les units de travail de lchantillon font lobjet dune inspection,
- le nombre total derreurs, d, de lchantillon est compar une limite dtermine et le nombre
acceptable est c,
- si d > c, le lot est rejet et il fait lobjet dune inspection complte, si d <= c, le lot est accept sans
autre inspection.
STATISTIQUE CANADA
338
En crant les lots, on tente gnralement de faire des lots de qualit homogne. Un lot contient
habituellement le travail dune seule personne sur une courte priode de temps. Si cette personne travaille
sur plusieurs objets simultanment (en codant deux variables diffrentes pour chaque questionnaire, par
exemple), les lots ne devraient contenir quun seul objet. Cependant, plus les lots sont volumineux, moins
on les inspecte, et on doit donc arriver un compromis.
Le plan dchantillonnage est prcis par les deux nombres n et c qui peuvent tre calculs de diverses
faons, selon le but que vise le contrle qualitatif. Il y a plusieurs versions de lchantillonnage
dacceptation. Dans le contexte du traitement des donnes denqute, les valeurs de n et de c sont fixes
de sorte que le taux derreur la sortie soit infrieur une certaine borne appele qualit moyenne en
sortie ( average outgoing quality limit ou AOQL), tout en minimisant le nombre dinspections requises.
Cette mthode assure que le niveau de qualit globale sur lensemble des lots dpasse un seuil minimal.
Cest une assurance qu la fin du contrle qualitatif, le nombre dunits en erreur soit infrieur AOQL.
Les valeurs de n et de c dpendent de :
- la qualit prvue des intrants (avant linspection),
- la qualit voulue des extrants,
- la taille du lot, N,
- le risque (probabilit) de prise de dcisions errones,
- la probabilit de rejet dun bon lot (erreur du type I),
- la probabilit dacceptation dun mauvais lot (erreur du type II).
Voici dautres considrations qui ont des rpercussions sur la mthode de contrle qualitatif :
- la dfinition de lunit dchantillonnage (p. ex., une partie du questionnaire, tout le questionnaire),
- la formation des lots (p. ex., le travail dune journe),
- la mesure de la qualit (p.ex. le taux derreur, ou le nombre dunits dfectueuses par centaine
produite),
- la dfinition et la classification des erreurs,
- la mthode de slection de lchantillon (p. ex., chantillon alatoire simple (EAS), chantillonnage
systmatique ou par grappes),
- les procdures de rtroaction.
Le lecteur consultera avec profit Duncan (1986), Dodge et Romig (1959), Hald (1981) ou Smith et
Mudryk (1989) pour en savoir davantage propos de lchantillonnage dacceptation et sur
ltablissement dun plan dchantillonnage.
La rtroaction en est habituellement une partie intgrale de tout programme de contrle qualitatif officiel.
La rtroaction, de vive voix ou par crit, est habituellement faite laide de rapports, de tableaux ou de
graphiques sur les valuations et les rsultats de la qualit compils pendant le processus dinspection.
Ces rsultats sont ensuite rachemins rgulirement divers chelons du personnel affect lopration
de lenqute. La rtroaction peut participer lamlioration de la qualit, ce qui se traduit par une
diminution des taux dchantillonnage (rduction de n) et des cots.
Voici des exemples de rtroaction :
i.
Donner aux oprateurs (p. e. commis au traitement) de linformation sur le rendement du groupe
et leur rendement personnel (actuel et antrieur) et sur les causes les plus frquentes de leurs
erreurs. Les oprateurs peuvent ensuite suivre leur propre progrs, comparer leur rendement
celui de leurs pairs et dterminer explicitement o ils font des erreurs. Ce genre de rtroaction
amliore la capacit de loprateur, le moral et la productivit.
STATISTIQUE CANADA
339
ii.
Donner aux surveillants une rtroaction sur le rendement des oprateurs. Linformation comprend
les taux derreur, les taux dinspection et de rejet, ainsi que les estimations de la qualit des
donnes de sortie. Cette information aide les surveillants grer efficacement les oprateurs,
attribuer les ressources et rpartir le travail, identifier les oprateurs et les secteurs problme, et
dterminer les besoins de formation.
iii.
Remettre la direction des sommaires des principaux indicateurs de qualit. Cette mesure aide la
direction reprer le progrs de lapplication du point de la qualit et des cots, recommander
des modifications apporter aux objectifs oprationnels et obtenir une assurance de la qualit
pour le processus de lenqute. Au cours dune priode soutenue, cette mesure peut inciter
modifier la mthodologie, les procdures ou les plans dchantillonnage pour diminuer ensuite le
nombre dinspections.
2.2
Un processus est une squence dactivits planifie oriente vers un rsultat ou un but voulu, par
exemple, la fabrication dune pice dautomobile. Chaque tape du droulement dune enqute peut tre
considre comme un processus, par exemple, la slection dune base dchantillonnage, la slection de
lchantillon, la collecte des donnes, le traitement des donnes, etc. Tout processus comprend des
intrants et des extrants. Les intrants peuvent comprendre des gens, du matriel, des mthodes, de
lquipement, un milieu, la direction. Les extrants du processus sont le produit ou le service.
Lors du contrle statistique du processus, on suppose que les extrants sont les rsultats dun processus
uniforme, bien dfini, raisonnablement prvisible du point de vue de ces extrants, et qui produit des biens
qui atteignent ou dpassent le niveau de qualit vis. Un tel processus est dit sous contrle . Selon cette
approche, lobjectif du contrle qualitatif est dchantillonner occasionnellement le processus qui
fonctionne bien (c.--d. des intervalles dtermins) pour vrifier si quelque chose a chang dans le
processus (c.--d. sil sest dtrior).
Le contrle statistique du processus est lapplication de techniques statistiques pour mesurer et
analyser la variation dans les processus. Il y a toujours une variation parce que les extrants que produit
le mme processus varient dune certaine faon. Le plan dchantillonnage (hasard simple, stratifi, en
grappes, etc.) et les rgles de dcision servent surveiller la qualit du processus et lancer une
intervention lorsquil est vident que le processus est hors contrle. Les fluctuations mineures dans les
mesures qui peuvent tre dues la variabilit de lchantillonnage nont pas de rpercussions sur cette
procdure. Toutefois, lorsque les mesures dvient suffisamment, le processus est interrompu, les causes
de la dviation sont dtermines et le processus est ajust.
Le contrle du processus est une mesure prventive parce que le processus est interrompu lorsquil
devient hors contrle, ce qui vite de produire des nombres importants dextrants dfectueux. On ne fait
aucun effort visant amliorer directement la qualit en corrigeant des erreurs. Il sagit didentifier et de
tarir les sources derreurs. Si possible, tant donn la chane doprations, le processus devrait tre
interrompu jusqu ce quon ait remdi laugmentation des dfauts.
Il est habituellement possible didentifier la cause profonde de la plupart des problmes, mais il peut tre
difficile de le faire dans certains cas. Plusieurs outils disponibles aident y arriver, y compris lanalyse
Pareto, les graphiques de contrle, les diagrammes cause-effet, les sances de remue-mninges, etc. Juran
et Godfrey (1998) discutent des analyses de Pareto et des diagrammes cause-effet.
STATISTIQUE CANADA
340
Tout comme le contrle du produit, la rtroaction sur le contrle du processus devrait tre communique
aux oprateurs, aux surveillants et la direction.
Lim Sup
taux de dchet
0,06
0,05
0,04
LC
0,03
0,02
0,01
0
1
chantillon
STATISTIQUE CANADA
10
341
On remarquera que le graphique ne porte pas de limite infrieure; dans le traitement des donnes
denqute, la mesure dintrt est le taux derreur. Le fait que le taux derreur baisse ne constitue pas une
source dinquitude.
Pour des dtails sur dautres graphiques de contrle et dterminer comment en calculer la ligne du centre
et les limites de contrle, consulter Duncan (1986), Schilling (1982) ou Wheeler (1986).
2.3
2.4
Contrle dacceptation
Voici une importante question considrer dans les oprations denqute : quand doit-on appliquer
quelles mthodes de contrle statistique de la qualit, en particulier lchantillonnage dacceptation ou le
contrle statistique du processus (CSP)? Comme on la expliqu plus haut, le dbut de plusieurs
oprations denqute commence de faon assez imprvisible parce quelles mettent en jeu beaucoup de
personnel avec un taux lev de roulement. Cependant, la formation, lexprience et la rtroaction
STATISTIQUE CANADA
342
permettent de stabiliser ces processus. Tirer avantage de cette stabilisation et modifier les procdures
dinspection est donc souvent une bonne pratique, afin de rduire ventuellement le nombre des
inspections et les cots connexes.
Diverses stratgies dinspection sont disponibles cette fin, y compris : linspection rduite (c.--d.
prendre de plus petits chantillons et augmenter le risque daccepter un lot de moindre qualit),
linspection plus serre (c.--d. prendre des chantillons plus grands et rduire le risque daccepter des
lots mdiocres), linspection normale, linspection 100 % et les vrifications au hasard. Il peut aussi
sagir dabaisser le niveau de qualit vis si on doit lui consacrer beaucoup de temps et de ressources.
Lampleur de la stabilit du processus qui est vidente dtermine la mthode quil faudra appliquer. En
termes gnraux, plus un processus est stable et prvisible, moins linspection est ncessaire (c.--d.
quun risque plus grand lchantillonnage peut tre justifi).
Schilling (1982) a formul le postulat de lapproche du contrle dacceptation qui comprend une
stratgie continue de slection, dapplication et de modification des procdures dchantillonnage
dacceptation en milieu dinspection changeant. Les procdures dinspection modifies priodiquement
sont une fonction du degr de qualit atteint et des antcdents de la qualit disponibles. Le principe
prdominant du contrle dacceptation est dadapter continuellement les procdures dacceptation aux
conditions prsentes (qui changent gnralement avec le temps). La structure qui sert dterminer quand
changer de procdures dinspection est affiche dans le tableau suivant. Ce tableau est considr plus en
dtail au chapitre 19 de louvrage de Schilling (1982).
Tableau 1 : Contrle dacceptation Procdure dinspection laide des antcdents de la qualit
et des rsultats prcdents
Antcdents de la qualit relative
Rsultats
prcdents
Minimes
Moyens
Approfondis
< 10 lots
de 10 50 lots
> 50 lots
Excellents
Plan normal
Moyens
Plan normal
Vrifications rduites de
lots non successifs
Plan normal
Mdiocres
100 %
CSP vrifications au
hasard
Vrifications rduites
de lots non successifs
100 % vrifications
plus troites
On peut remarquer dans le tableau ci-dessus que le processus dinspection du contrle dacceptation
devient dynamique et change mesure que le processus samliore ou se dtriore. En gnral, lorsque la
qualit samliore et que les antcdents de la qualit qui soutiennent cette constatation sapprofondissent,
les plans dchantillonnage sont modifis pour passer des plans normaux des plans avec inspections
rduites et ensuite, des plans avec inspections par sauts (skip-lot sampling chantillonnage
dacceptation o lon laisse passer des lots sans les inspecter si la qualit. des lots prcdents est leve),
des plans avec CSP, puis des vrifications priodiques au hasard. Lobjectif ultime de la stratgie du
contrle dacceptation est de rduire continuellement les inspections et les cots connexes, tout en
maintenant les degrs de qualit dtermins.
STATISTIQUE CANADA
3.0
343
Assurance de la qualit
Les erreurs peuvent coter chres et tre difficiles corriger, et il faudrait donc insister sur la prvention
des erreurs aux premires tapes de lenqute. Lassurance de la qualit couvre tous les aspects de la
qualit; son but est dempcher les erreurs de se produire en premier lieu.
Par exemple, une stratgie gnrale dassurance de la qualit aux fins du contrle des erreurs non dues
lchantillonnage est de prvoir les problmes avant quils ne se posent, et prendre les mesures pour les
empcher ou les minimiser, idalement aux tapes de la planification et de la conception de lenqute.
Voici des exemples de lassurance de la qualit :
- laborer une planification intensive,
- procder une tude de faisabilit,
- faire une enqute pilote (c.--d. mise lessai du systme denqute complet, du dbut la fin,
petite chelle),
- former les intervieweurs, les surveillants, les oprateurs de la saisie des donnes, les codeurs, etc.,
- organiser des sances dinformation,
- amliorer la base dchantillonnage,
- amliorer le plan dchantillonnage,
- amliorer la conception du questionnaire,
- modifier la mthode de la collecte des donnes (p. ex., passer de la collecte sur support papier la
collecte assiste par ordinateur),
- prvoir de meilleurs suivis de routine,
- formuler des procdures de traitement plus claires,
- faire des essais approfondis de tous les systmes de traitement avant de les utiliser,
- vrifier au hasard la collecte des donnes et les rsultats des activits dautres grandes enqutes.
Les lignes directrices concernant la qualit (1998) de Statistique Canada recommandent les activits
dassurance de la qualit suivantes pendant ltape de la conception et de la mise en uvre dune
enqute :
i.
Limplantation dun rgime comprenant un comit directeur et une direction du projet pour
garantir que les programmes statistiques se droulent selon leur mandat. Cette mesure donne un
mcanisme dexamen, de surveillance et de rapport sur ltat davancement, les problmes et les
questions, elle garantit linterprtation approprie du mandat et de lobjectif, ainsi que
lexpression de jugements appropris.
ii.
iii.
Lorsque des mthodes particulires sont appliques, elles devraient correspondre lensemble des
pratiques statistiques acceptes et justifiables, compte tenu des circonstances. Il faudrait favoriser
le recours de nouvelles technologies et aux innovations pour amliorer la qualit et lefficience
aprs les avoir mis lessai pour minimiser le risque. Il faudrait mettre les questionnaires lessai
pour vrifier si les rpondants comprennent les questions et peuvent donner les rponses voulues,
selon un degr de qualit acceptable. Il est important de surveiller la qualit, dintervenir
efficacement en cas de problmes imprvus, de vrifier ou de soutenir la crdibilit des rsultats
et den comprendre les limites.
STATISTIQUE CANADA
344
iv.
v.
Lanalyse des donnes sert dcrire les phnomnes statistiques, informer en ce sens, et
dcouvrir les lacunes des donnes, mais elle devrait aussi tre un moyen dvaluer ou de mesurer
lexactitude et la convergence des donnes. Dans ce contexte, les rsultats de lanalyse peuvent
dboucher, par exemple, sur des procdures supplmentaires ou modifies de vrification, des
changements apports la conception du questionnaire, des procdures de collecte de donnes
supplmentaires, dautres sances de formation du personnel, lapplication de nouvelles
mthodes, procdures ou systmes, ou une nouvelle conception.
Du point de vue du travail, il est important de favoriser un milieu qui suscite lintrt pour la qualit et
latteinte de la meilleure qualit possible dans les limites oprationnelles et budgtaires. Ce volet
comprend :
- le recrutement de personnes talentueuses et leur perfectionnement pour quelles apprcient les
questions de qualit,
- un rseau de communication interne ouvert et efficace,
- des mesures explicites pour laborer des partenariats et approfondir la comprhension des
fournisseurs de lorganisme (en particulier les rpondants),
- llaboration et le maintien de dfinitions, classifications, structures et outils mthodologiques
standard pour soutenir lintelligibilit et la cohrence.
Il faudrait enfin documenter toutes les procdures de contrle qualitatif et dassurance de la qualit. Cette
documentation devrait comprendre :
i.
Les options, le choix ventuel et la justification : Le choix des procdures de contrle qualitatif et
de lassurance de la qualit en particulier nest pas vident pour toute opration et les lments
pris en considration devraient faire lobjet dune discussion.
ii.
Les procdures : Il faudrait prvoir des instructions ou un manuel lintention des surveillants et
des vrificateurs.
iii.
Les rapports : Il faudrait produire des rapports priodiques sur les rsultats des procdures de
contrle qualitatif et sur le rendement de chaque oprateur, afin de faire rapport sur la qualit ou
didentifier les oprateurs qui ont besoin davantage de formation.
Bibliographie
Brackstone, G. 1999. La gestion de la qualit des donnes dans un bureau statistique. Techniques
denqute, 25(2): 159-172.
Dodge, H.F. et H.G. Romig. 1959. Sampling Inspection Tables: Single and Double Sampling. Second
edition. John Wiley and Sons, New York.
Dufour, J. 1996. Labour Force Survey Data Quality. Statistics Canada. HSMD-96-002E/F.
Duncan, A.J. 1986. Quality Control and Industrial Statistics. Fifth edition. R.D. Irwin Inc., Illinois
STATISTIQUE CANADA
345
Fellegi, I.P. 1996. Characteristics of an Effective Statistical System. International Statistical Review,
64(2).
Groves, R.M. 1989. Survey Errors and Survey Costs. John Wiley and Sons, New York.
Hald, A. 1981. Statistical Theory of Sampling Inspection by Attributes. Academic Press, New York.
Juran, J.M. et A.B. Godfrey. 1998. Jurans Quality Handbook. Fifth Edition. McGraw-Hill, New York.
Linacre, S.J. et D.J. Trewin. 1989. Evaluation of Errors and Appropriate Resource Allocation in
Economic Collections. Proceedings of the Annual Research Conference. U.S. Bureau of the
Census. 197-209.
Linacre, S.J. et D.J. Trewin. 1993. Total Survey Design An Application to a Collection of the
Construction Industry, Journal of Official Statistics, 9(3): 611-621.
Lyberg, L. 1997. Survey Measurement and Process Quality. John Wiley and Sons, New York.
Mudryk, W. 2000. Note de cours STC446 Mthodes statistiques pour le contrle de la qualit. Ottawa.
Mudryk, W., M.J. Burgess et P. Xiao. 1996. Quality Control of CATI Operations in Statistics Canada.
Proceedings of the Section on Survey Research Methods. American Statistical Association. 150159.
Schilling, E.G., 1982. Acceptance Sampling in Quality Control. Marcel Dekker, New York.
Smith, J., W. Mudryk, et R. Stankewich. 1989. Standardization of QC Sampling Plans for Survey
Operations, Part 1: Guidelines and Rationale, Quality Control Section, Business Survey
Methods Division, Statistics Canada.
Statistique Canada. 1998. Lignes directrices concernant la qualti. Troisime dition. 12-539-XIF.
Wheeler, D.J. et D.S. Chambers. 1986. Understanding Statistical Process Control. SPC Press, Knoxville,
TN.
Williams, K,C. Denyes, M. March et W. Mudryk. 1996. Mesure de la qualit durant le traitement des
donnes denqute. Symposium 96: Erreurs non dues lchantillonnage : recueil. Statistique
Canada. 131-142.
STATISTIQUE CANADA
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
TUDE DE CAS
Prface
Cette tude de cas propose une enqute fictive conue pour suivre pas pas le dveloppement dune
enqute gnrale auprs de mnages. On y retrouvera les mthodes et principes noncs dans les chapitres
correspondants des Mthodes et pratiques denqute. De cette faon, un seul exemple suffit illustrer
toute la matire du livre. Le processus dlaboration de lenqute de ltude de cas est dcrit du point de
vue de lquipe de projet qui lon en aurait confi la responsabilit.
STATISTIQUE CANADA
STATISTIQUE CANADA
TUDE DE CAS
351
Un certain nombre dimportants ministres nationaux veulent aussi obtenir de linformation de lEGM. Le
ministre de la Sant apprcierait de linformation dtaille sur la sant de la population et le ministre de
lAgriculture a demand des donnes sur les activits agricoles des mnages en milieu rural et urbain.
Plusieurs ministres conomiques voudraient de linformation sur les petites entreprises. Toutes ces
activits supplmentaires sont considres, mais aucune dcision dfinitive na encore t prise sur les
points, sil en est, qui seront ajouts lEGM.
Dans le contexte de ces grands objectifs, une quipe de projet est forme pour concevoir et mettre en
uvre la nouvelle enqute. Vous avez t choisi membre de lquipe du projet et commencerez bientt
participer llaboration de lenqute. La premire runion de lquipe aura lieu sous peu et vous
rservez du temps pour examiner linformation disponible sur Belleterre partir du dernier recensement
et dautres enqutes sur les mnages. Vous ralisez rapidement que la majeure partie de linformation,
non seulement nest plus jour, mais quelle est aussi insuffisante, parce que les donnes disponibles ne
refltent pas les nouvelles ralits conomiques. Voir lAnnexe 1.1 pour un aperu de Belleterre.
Questions de rcapitulation :
Pourquoi une enqute a-t-elle t propose?
Quels sont les points lmentaires considrer dans lenqute?
STATISTIQUE CANADA
352
2010
50 000 000
2015
52 800 000
2020
55 300 000
STATISTIQUE CANADA
Source
Recensement de 1970
Recensement de 1994
Estimation du BSB
Projection dmographique
du BSB
Projection dmographique
du BSB
Projection dmographique
du BSB
Projection dmographique
du BSB
TUDE DE CAS
353
Recensement de
1970
1 760
925
2 145
1 885
3 400
3 670
3 085
2 300
3 200
4 260
3 480
30 110
Source
Recensement de
1994
3 250
1 675
3 189
2 467
4 450
4 800
3 975
2 965
4 120
5 480
4 470
40 850
Estimation 2000 du
BSB
4 080
2 060
3 625
2 600
4 690
5 045
4 160
3 080
4 320
5 640
4 540
43 840
1994
6175
2000
9600
STATISTIQUE CANADA
Source
Estimation intercensitaire
(BSB)
Donnes corriges du
recensement
Estimation prliminaire
354
2.1
Lquipe de projet commence travailler lnonc des objectifs pendant la deuxime runion. Compte
tenu de la longue liste de demandes dinformation dont lquipe est consciente, lobjectif gnral de
lEGM pourrait tre nonc librement comme suit : tudier les conditions conomiques et sociales de la
population. Cet nonc est beaucoup trop vague pour lappliquer directement en pratique et vous ne
pouvez certainement pas esprer obtenir de linformation utile en posant simplement des questions aux
gens sur leurs conditions conomiques et sociales .
Lquipe doit donc relever deux dfis. Le premier est de convertir lnonc gnral vague des besoins en
sujets particuliers pour ltude et le deuxime est de dterminer lesquels de ces sujets peuvent et devraient
tre couverts dans lenqute.
Les quatre grands thmes de linformation sociodmographique, de lactivit du march du travail, des
caractristiques des revenus et dpenses, et des conditions de vie sont dj considrs comme des priorits
leves. Divers ministres ont aussi demand des donnes sur la sant, la production agricole et lactivit
des petites entreprises.
Lquipe doit vrifier sil est possible ou ncessaire dintgrer une telle varit de sujets dans une seule
enqute, et elle doit faire des recommandations au Comit directeur sur la faisabilit, les avantages et les
risques de lintgration de chacun des principaux domaines.
Lquipe doit essayer didentifier et de consulter les principaux utilisateurs des donnes et de sinformer
sur les dfinitions et les concepts pertinents de la matire pour dterminer les besoins particuliers
dinformation.
STATISTIQUE CANADA
TUDE DE CAS
2.2
355
Une liste des principaux utilisateurs des donnes est dresse partir de conseils des membres du Comit
directeur. Certains dentre eux sont au BSB et travaillent dans des domaines spcialiss, notamment les
divisions de la statistique du secteur de la fabrication, de lanalyse dmographique et des comptes
nationaux. Dautres sont des analystes de politiques des ministres des programmes centraux qui
sintressent certains domaines, notamment, la politique industrielle et de lemploi, la politique de la
construction des logements et rsidences, le secteur de lenseignement et lexpansion des transports.
Un membre de lquipe est affect chaque thme propos de lenqute, afin de consulter le plus grand
nombre possible des principaux utilisateurs des donnes dans son domaine et de prparer un sommaire de
ses discussions pour la prochaine runion. Aprs les discussions prliminaires avec les utilisateurs des
donnes, lquipe du projet se runit pour tudier les rapports sur chaque consultation. Les membres en
ont tellement appris en fait quil faudra prvoir trois autres runions.
Le membre de lquipe affect aux caractristiques sociodmographiques fait rapport en premier et
affirme que les principaux utilisateurs sont les experts intresss avant tout aux vnements
dmographiques lmentaires de la famille, notamment, les naissances, dcs et mariages, la composition
de la famille et la migration (p. ex., limmigration, lmigration et la migration entre rgions et milieux
urbain et rural). Il est convenu aprs discussion que le membre de lquipe essaiera dobtenir de
linformation plus dtaill sur chacun de ces sujets, en particulier sur la disponibilit de renseignements
pertinents dans les sources actuelles, par exemple, les registres de ltat civil.
Le deuxime membre informe lquipe que les principaux sujets pertinents lactivit du march du
travail comprennent le statut de la population active (employ, sans emploi, hors de la population active),
le travail salari ou le travail autonome, le travail plein temps ou temps partiel, la branche dactivit, la
profession, le nombre dheures travailles, etc. Plusieurs utilisateurs, en particulier les planificateurs des
ministres de lEmploi, de lducation et de la Construction, soutiennent fermement quaucune des
enqutes actuelles ne rpond suffisamment aux besoins dinformation sur le march du travail dans le
contexte des changements rapides actuels dans la structure conomique du pays. Ils ont donc besoin, par
exemple, destimations prcises et objectives du nombre de personnes qui travaillent dans des activits en
particulier, notamment la construction de btiments, dans chaque rgion ou ville du pays. Les analystes
veulent aussi dterminer le nombre de travailleurs qui ont plus dun emploi, leurs heures relles de travail
et leurs gains. Le membre de lquipe est charg de franchir ltape suivante et dobtenir de linformation
plus dtaille sur les besoins de donnes et dessayer dobtenir les donnes ventuellement disponibles,
par exemple, celles des enqutes prcdentes.
Votre rapport porte sur les revenus et dpenses des mnages. Vous avez appris que la dfinition de revenu
des mnages peut comprendre tous les revenus (bruts ou nets) en espces ou en nature de tous les
membres du mnage au cours dune priode de rfrence, par exemple, le mois prcdent ou lanne
dernire. Les dpenses peuvent comprendre les sommes verses pour les aliments, les vtements, le
logement, les transports, la scolarit, les soins de sant, etc., ainsi que les biens ou services changs
directement (troc) pour dautres biens et services reus. Lactif et le passif du mnage peuvent aussi tre
considrs pertinents aux fins analytiques de lenqute.
Vous avez aussi constat quil y a de nombreux utilisateurs ventuels des donnes sur ces sujets. Le BSB
voudrait obtenir des donnes plus dtailles sur les revenus et dpenses pour renforcer certaines
composantes des comptes nationaux. Les comptes actuels sont moins complets au chapitre des revenus du
secteur priv, en particulier pour la main-duvre et les entreprises. Ceux qui sintressent la mesure du
commerce de dtail, du pouvoir dachat et de la construction rsidentielle prvue veulent en apprendre
davantage sur lvolution des revenus de la famille et les changements des caractristiques des dpenses
STATISTIQUE CANADA
356
pour renforcer les rapports quils prsentent aux dcideurs de lconomie. On a aussi constat que les
estimations du revenu disponible intressent beaucoup le secteur de la fabrication et les administrations
du tourisme. Il reste beaucoup de travail faire pour en arriver au niveau de dtails appropri et vous
convenez dentreprendre le deuxime volet de lenqute dans le domaine. Vous examinerez donc de plus
prs la disponibilit des donnes pertinentes actuelles.
Le quatrime membre de lquipe fait rapport et, selon lui, les plus importants indicateurs des conditions
de vie semblent faire rfrence aux conditions du logement, laccs et au recours aux transports,
laccs aux services denseignement, ces volets tant tous trs importants pour les planificateurs de
linfrastructure municipale et nationale. Une nouvelle phase de recherche est lance sur ce sujet.
Le charg de projet a dj eu certaines discussions prliminaires sur les thmes supplmentaires
ventuels, et il fait aussi brivement rapport :
i.
Le recours aux services de soins de sant des mnages lan dernier pourrait comprendre lachat de
produits pharmaceutiques, les visites aux cliniques ou aux mdecins locaux, les soins en milieu
hospitalier, par exemple, la chirurgie dans les hpitaux. Ces sujets intressent particulirement le
ministre de la Sant qui veut mesurer le taux de changement de la demande pour les diffrents
types de services de soins de sant.
ii.
Lintrt pour lactivit agricole du mnage peut comprendre les cultures ou llevage du btail
sur une terre loue ou qui appartient au mnage, ou sur une terre communautaire, que la
production soit pour la vente au march ou la consommation personnelle. Les analystes du
ministre de lAgriculture veulent de linformation jour sur les genres et les quantits de
produits agricoles envoys aux marchs urbains, afin de faciliter la planification et la formulation
de politiques.
iii.
Lactivit des entreprises domicile (autres que la vente de produits agricoles) peut comprendre
la fabrication petite chelle, les restaurants non officiels, la coiffure et un grand nombre dautres
activits, par exemple, la boulangerie et la fabrication de chaussures. Les analystes de la
planification conomique sont intresss obtenir cette information pour comprendre la structure
de lconomie et reprer le taux de mouvement vers les petites entreprises du secteur priv.
Les ministres qui sintressent des thmes supplmentaires ont obtenu une estimation gnrale du cot
de lintgration de leurs sujets dans une grande enqute polyvalente et, aux dernires nouvelles, ils
semblent hsiter librer les ressources ncessaires, au moins pour cette anne. Intgrer tant de sujets
dans la premire dition de lEGM inquite aussi lquipe cause de lnorme fardeau de rponse et des
rpercussions ngatives ventuelles sur la qualit des donnes. Lquipe informe le Comit directeur qui
lui conseille de cibler la dfinition de lnonc des objectifs selon les quatre principaux thmes et de
rserver les ajouts ventuels aux occasions denqute ultrieures.
Lquipe continuera donc dapprofondir lnonc des objectifs pour chacun des quatre principaux sujets
(caractristiques sociodmographiques, activits du march du travail, revenus et dpenses, conditions de
vie), tout en considrant lutilit des sources de donnes actuelles.
Compte tenu des discussions prolonges au cours des rcentes runions de lquipe, vous continuez votre
recherche dans la matire qui vous est confie, c.--d. les revenus et dpenses des mnages. Plusieurs
utilisateurs et diverses utilisations des donnes sont dj identifis. Les ministres centraux ont aussi
besoin davantage dinformation jour sur les revenus des familles, et en particulier sur les dpenses pour
les aliments, afin de dterminer si des subventions de ltat sont ncessaires pour protger les familles
faible revenu. Dautres utilisateurs voudraient des donnes pour tablir des modles conomtriques, afin
destimer les hausses de demandes de biens de consommation, de denres alimentaires superflues et de
STATISTIQUE CANADA
TUDE DE CAS
357
Presque toutes les mesures dmographiques demandes, mme imparfaites, peuvent tre
produites avec satisfaction partir des donnes actuelles, notamment les statistiques de ltat civil
et les registres du logement, directement ou autrement, pour au moins une autre anne.
ii.
iii.
Plusieurs membres du Comit directeur soutiennent que linformation sur les revenus et dpenses
tire des enqutes actuelles peut servir moyen terme, surtout si elle est renforce laide de
lEGM par de meilleurs renseignements sur lvolution du march du travail.
iv.
Au volet de linformation demande sur les conditions de vie, il faut obtenir de meilleures
donnes sur le march du travail pour amliorer les projections sur les besoins de logements, de
transports et de services denseignement, afin de rpondre aux principaux besoins immdiats.
Il devient vident que la conception initiale de lEGM devra tre axe sur la composante march du
travail et quil faudra reporter plus tard les autres sujets de la liste initiale.
2.3
La porte de lEGM est maintenant dfinie de plus prs et la prochaine tche de lquipe est de prciser
les concepts et les dfinitions oprationnelles pour les sujets de lenqute, afin de dtailler la matire de
lenqute. La charge de travail est de nouveau rpartie entre les membres de lquipe.
Lquipe commence dfinir certains des concepts essentiels la description de lactivit du march du
travail de Belleterre : population active, employ, sans emploi. Les membres de lquipe rflchissent aux
concepts, mais formulent davantage de questions que de rponses, par exemple :
i.
Population active
Qui doit-elle englober? Le concept de la population active sapplique-t-il galement en milieu urbain et
rural? Que faire avec ceux qui travaillent ou rsident dans une rgion, mais dont la rsidence permanente
est ailleurs? des fins pratiques, faudra-t-il considrer que cette personne fait partie de la population
active de son lieu de rsidence permanente ou de la rgion o elle travaille actuellement? Comment
classer les personnes qui peuvent travailler, qui ne sont pas encore la retraite, mais qui ne travaillent pas
ou ne cherchent pas de travail?
STATISTIQUE CANADA
358
ii.
Employ
Sans emploi
Une personne est-elle considre sans emploi simplement parce quelle ne travaille pas? Quen est-il si
elle ne veut pas travailler? Ou si elle a cherch du travail tellement longtemps quelle a abandonn,
dcourage de ne jamais trouver un emploi?
Lquipe a beaucoup de difficults rpondre toutes ces nouvelles questions. Certains membres
cherchent des dfinitions utilises dans dautres pays et dcouvrent les dfinitions standard suivantes de
lOrganisation internationale du travail (OIT) :
i.
Population active : Une personne est considre membre de la population active si elle est
employe ou sans emploi (voir ci-dessous).
ii.
iii.
Sans emploi : La personne sans emploi est celle qui, au cours de la priode de rfrence :
a. est mise pied temporairement, sauf si elle sera rappele au travail et si elle est disponible
pour travailler,
ou
b. est sans travail, a activement cherch du travail depuis quatre semaines et est disponible pour
travailler,
ou
STATISTIQUE CANADA
TUDE DE CAS
359
c. a un nouvel emploi qui commencera dans les quatre semaines suivant la priode de rfrence
et est disponible pour travailler.
iv.
Hors de la population active : La personne hors de la population active est celle qui, au cours de
la priode de rfrence, nest pas dispose offrir ou fournir des services de main-duvre, ou est
incapable de le faire, compte tenu des conditions de son march du travail, cest--dire quelle
nest ni employe ni sans emploi.
Lquipe dcide de concevoir le questionnaire de sorte que les donnes obtenues serviront estimer les
mesures selon les concepts de lOIT. Il sera donc possible de comparer avec les mesures internationales
appliques lactivit du march du travail. Lquipe remarque que les dfinitions de lOIT restreignent
lanalyse aux personnes ges de 15 ans et plus. Elle dcide dappliquer cette norme en gnral.
Lquipe remarque aussi quil est difficile de dfinir certains concepts essentiels, par exemple, le
logement, le mnage et la famille. Aprs une certaine recherche, lquipe dcide dadopter les dfinitions
standard suivantes :
v.
Logement : tout ensemble de pices dhabitation de structure distincte comprenant une entre
prive lextrieur de ldifice ou qui donne sur un vestibule ou un escalier commun dans
ldifice.
vi.
Mnage : toute personne ou groupe de personnes qui habitent dans un logement. Un mnage peut
comprendre tout ensemble des lments suivants : une personne qui vit seule, une famille ou plus,
un groupe de personnes sans lien de parent, mais qui partagent le mme logement.
vii.
Famille : un groupe de deux personnes ou plus qui habitent dans le mme logement et qui sont
lies par le sang, le mariage (union libre comprise) ou ladoption. Une personne qui habite seule
ou qui na de lien avec aucune autre personne dans le logement o elle habite est classe hors
famille .
Lquipe constate quune enqute ciblant strictement les activits de la population active ne permettra pas
aux analystes de tracer un profil trs dtaill de la population active Belleterre. Elle ralise quil faudra
faire la collecte de donnes, non seulement sur lactivit, mais aussi sur la dmographie, la scolarit, les
revenus, etc., aux fins de la classification.
2.4
Lquipe commence tracer certains tableaux prliminaires de donnes de sortie pour aider prciser la
matire de lenqute demandant chaque tape quelles questions analytiques elle peut aider rpondre. Il
semble vident, par exemple, que lEGM devra permettre de produire certains tableaux, par exemple, La
population active selon le degr de scolarit et l Emploi selon lge et le sexe . Il faut donc faire la
collecte de renseignements sur lemploi et les caractristiques dmographiques du mnage.
STATISTIQUE CANADA
360
Employ
Sous la
moyenne
Au-dessus de la
moyenne
Total
Rsultat tout fait insuffisant. Dans le cas des tiquettes sous la moyenne et au-dessus de la
moyenne de la colonne Degr de scolarit, sagit-il du degr de scolarit moyen qui sera dtermin
partir des donnes de lenqute ou dun certain concept exogne de la moyenne du degr de scolarit .
Quelles valeurs seront inscrites dans les cases du tableau? Sagira-t-il dun calcul (nombre estim de
personnes), de proportions, de pourcentages?
Vous navez pas oubli que des questions plus dtailles (dans le fichier des donnes videmment)
peuvent toujours tre regroupes pour totalisation et vous considrez lautre extrme :
Tableau 2.2 : Situation vis--vis de lactivit selon le nombre dannes de scolarit (nombre de
personnes)
Annes de
scolarit
Employ
Total
1
2
3
99
Total
La collecte dautant de dtails et linterprtation sense seront difficiles. Vous dcidez que les degrs de
scolarit devraient tre regroups de faon significative pour la totalisation, mme si le nombre exact
dannes de scolarit est demand pour permettre lanalyse dtaille de la variable de la scolarit. Dans le
tableau ci-dessus, les degrs de scolarit pourraient tre regroups ainsi : tudes primaires, tudes
secondaires de premier cycle, tudes secondaires de deuxime cycle, tudes collgiales techniques et
tudes universitaires (la question pourrait cibler le nombre de plus lev dannes dtudes suivies ou
acheves).
Il a t suggr que des estimations fiables sont ncessaires pour chacune des 11 rgions de Belleterre
(trois villes et huit districts). Vous oubliez pour linstant le besoin ventuel de dtails plus approfondis et
vous considrez des totalisations qui permettront dafficher distinctement les 11 rgions prcises.
STATISTIQUE CANADA
TUDE DE CAS
361
Tableau 2.3 : Situation vis--vis de lactivit selon la rgion, pour la population adulte de Belleterre,
(donnes pondres)
Rgion
Employ
Total
Ville A
Ville B
Ville C
District D
District E
District F
District G
District H
District I
District J
District K
Total
Vous ne savez pas vraiment comment prsenter ce tableau le plus efficacement, mais cette dcision peut
tre reporte parce quelle naura pas de rpercussions sur les questions poser.
Vous tracez plusieurs tableaux semblables et essayez dans chaque cas de dterminer les dtails
appropris. Vous tes enfin prt pour la prochaine runion de lquipe o les suggestions de chaque
membre feront lobjet dune discussion et seront compares. Lquipe a prpar prs de 20 tableaux, par
exemple :
- situation vis--vis de lactivit selon lge et le sexe,
- situation vis--vis de lactivit selon le degr de scolarit,
- emploi par branche dactivit,
- situation vis--vis de lactivit par rgion,
- nombre moyen dheures habituelles de travail des employs selon quelques caractristiques choisies,
- traitements moyens des employs selon quelques caractristiques choisies.
La liste dtaille des sujets prend maintenant forme et lquipe commence rdiger lnonc des objectifs
qui comprend son interprtation des besoins dinformation pour lenqute, lidentification des principaux
utilisateurs connus, les dfinitions provisoires des principaux concepts et la proposition dun certain
nombre de tableaux pour lanalyse descriptive prliminaire. Lquipe na pas limpression dtre
actuellement en position de faire des commentaires sur la prcision parce que ni le plan dchantillonnage
ni la frquence de lenqute nont t dtermins.
Lquipe envoie lAnnexe 2.1 aux membres du Comit directeur pour discussion la prochaine runion.
(Il est convenu de la prsenter avec mention quil sagit l dune version prliminaire.) Voil qui donnera
du temps aux membres du Comit directeur pour prparer des commentaires dtaills et, simultanment,
lquipe du projet continuera de travailler aux dtails de la matire de lenqute propose.
Questions de rcapitulation :
Donnez des dfinitions de la population cible et de la population observe.
STATISTIQUE CANADA
362
Expliquez dans vos propres mots pourquoi lEGM couvrira une matire beaucoup plus restreinte que
celle considre au dpart.
Essayez de formuler un nonc plus explicite des besoins de donnes et de leurs utilisations pour la
Division de la dmographie et le ministre de la Planification conomique.
Proposez cinq tableaux y ajouter.
Quelles dfinitions de population active, employ et sans emploi proposeriez-vous au Comit directeur?
Auraient-elles des rpercussions sur les sujets proposs?
Annexe 2.1 : bauche de lnonc des objectifs de lEnqute gnrale sur les mnages de Belleterre
Introduction
la demande et sous la direction du Comit directeur de lEnqute gnrale sur les mnages (EGM),
lquipe de projet a prpar lbauche suivante de lnonc des objectifs pour la premire dition de
lEGM qui se droulera lan prochain.
Lenqute portera sur les activits du march du travail (emploi et autres activits gnratrices de revenu,
recherche demploi, heures de travail, traitements, etc.), ainsi que sur certaines caractristiques
sociodmographiques. Il faudra mentionner en contexte que le but original tait dlaborer une enqute
ayant une couverture thmatique plus large, y compris de nombreux indicateurs lis la dmographie,
aux revenus et dpenses des mnages, aux activits des entreprises, et qui comprendrait ventuellement
des donnes supplmentaires sur la sant et lagriculture. Ce genre denqute est toujours lobjectif
moyen terme du BSB. Le projet initial sera cependant moins ambitieux et plus troitement cibl.
La recherche prliminaire a rvl que les domaines spcialiss de la dmographie et des revenus et
dpenses peuvent tre couverts correctement laide des sources actuelles (registres de ltat civil et
enqutes sur les mnages en milieu urbain et rural, respectivement) pour au moins une autre anne.
Linformation sur les domaines priorit leve des autres sujets dimportance peut au moins tre
renforce laide des donnes obtenues avec cette version de lEGM. Voil pourquoi les objectifs
noncs visent surtout les activits du march du travail.
Principaux utilisateurs des donnes
Les principaux utilisateurs des donnes de lEGM sont la Division de lanalyse de la population active du
BSB et les planificateurs conomiques des ministres de lEmploi, de lducation et de la Construction
du secteur des mnages. Dautres utilisateurs comprendront la Division de la dmographie du BSB, le
ministre de la Planification conomique et la Commission nationale du travail. Des exemples de
communication avec ces utilisateurs sur leurs besoins de donnes sont joints en Annexe A (non insre).
Principaux concepts et dfinitions
Nous aurons recours des dfinitions normalises de certains concepts, notamment le logement, le
mnage et la famille, afin de maintenir luniformit avec dautres produits statistiques du BSB.
Lquipe du projet recommande dadopter les dfinitions largement utilises de population active,
employ, sans emploi et hors de la population active de lOrganisation internationale du travail (OIT)
pour faciliter la comparaison internationale.
STATISTIQUE CANADA
TUDE DE CAS
363
Proposition de contenu
Les sujets suivants seront ajouts lenqute :
Logement mnage
Mode doccupation (proprit ou location)
Composition du mnage
ge
Sexe
Scolarit acheve (degr et nombre dannes dtudes)
Activit et Population active
Situation vis--vis de lactivit (employ, sans emploi, hors de la population active),
Branche dactivit (secteur primaire, fabrication, ventes, services, etc.),
Profession (directeur, superviseur, professionnel, manuvre, etc.),
Nombre dheures travailles,
Revenu demploi,
Autre activit conomique,
Emploi autonome,
Secteur officiel,
Secteur non officiel (c.--d. conomie clandestine ).
Plan danalyse prliminaire
La premire analyse comprendra les tableaux des nombres et des pourcentages estims pour chacun des
principaux articles numrs ci-dessus, ainsi quun certain nombre de totalisations croises. Environ 20
totalisations principales sont proposes en Annexe B (non insre).
Il faut encore apporter dautres dtails de lanalyse, mais ils comprendront probablement la production de
tableaux de rpartitions rgionales et de branches dactivit plus dtailles.
STATISTIQUE CANADA
364
3.1
premire vue, la population cible semble facilement dfinie et lquipe considre quil sagit
provisoirement de la population adulte de Belleterre. Lquipe du projet identifie cependant plusieurs
problmes :
i.
Rsidents temporaires
Faut-il inclure dans la population active ceux qui ont emmnag temporairement au pays? Ils ne font pas
officiellement partie de lconomie, mais ils ont un emploi qui se traduit par des produits. Dautre part,
ceux qui ont dmnag dans un autre pays ont un emploi qui se traduit par des produits dans ce pays. Il
peut tre impossible de communiquer avec eux et il nest pas vident quils devraient faire partie de
lactivit conomique de Belleterre, mme si nombre dentre eux peuvent envoyer une partie de leur
revenu au pays.
O faudrait-il dnombrer ceux qui sont passs dun milieu rural un milieu urbain au pays? (Ils habitent
habituellement dans des logements temporaires.) Ils ont des rpercussions importantes et croissantes sur
la dynamique sociale et conomique des secteurs urbains au pays au chapitre des augmentations ou
diminutions imprvues de la main-duvre disponible dans un secteur urbain comparativement un autre
(et, pourrait-on ajouter, des rpercussions sur les secteurs ruraux quant la diminution de la population
active agricole disponible).
Lquipe dcide de considrer membres du mnage ceux qui habitent habituellement dans le logement,
autrement dit, chacun qui considre que le logement est son lieu habituel de rsidence. Lquipe constate
quil faudra dfinir beaucoup plus clairement ce concept pour lappliquer, mais cest au moins un point de
dpart.
STATISTIQUE CANADA
TUDE DE CAS
ii.
365
Logements collectifs
Lenqute devrait-elle couvrir seulement les rsidents des logements individuels ou ceux des logements
collectifs aussi (cest--dire les logements o habitent plus dun mnage)? Les logements collectifs
peuvent tout englober, partir des petites maisons de chambres ou des pensions, jusquaux hpitaux et
aux prisons. Voil des situations videmment trs diffrentes. Dans les grands instituts logements
collectifs, notamment les hpitaux, les prisons, les bases militaires, etc., mme si lquipe dcidait que
lenqute devrait comprendre ces rsidents, serait-il raliste de faire des interviews avec eux? Dautre
part, les petits logements collectifs ressemblent de prs aux logements privs et lquipe se demande sil
ne faudrait pas les traiter comme des logements privs aux fins de la collecte des donnes.
iii.
Rgions loignes
Lquipe considre maintenant ceux qui habitent dans certains rgions loignes et inaccessibles, car il
coterait beaucoup trop cher de les intgrer lenqute. (Ce groupe est cependant minime Belleterre,
cest--dire moins de 1 % de la population.)
Lquipe tablira provisoirement que la population cible est la population adulte dont le lieu habituel de
rsidence est Belleterre. Ceux qui habitent dans des rgions loignes seront exclus, ainsi que les
rsidents des instituts logements collectifs, notamment les hpitaux, les prisons, les bases militaires, etc.
Lquipe ralise que la base dchantillonnage utilise influera sur la priode de rfrence, aidera
dterminer les crneaux de la population quil faudrait exclure pour des raisons pratiques (p. ex., rgion
trop loigne, cot trop lev, enqute trop difficile faire), etc., et dterminera la dfinition de la
population cible.
3.2
Base de sondage
Les enqutes sur les mnages Belleterre ont habituellement t faites laide des listes des registres des
mnages et de la population qui ont servi de base dchantillonnage. tant donn lampleur de la
documentation administrative sur les mouvements de la population, ces listes ont gnralement t
considres trs compltes et jour. Les augmentations rcentes des taux dmigration et de migration
dans les rgions et entre elles signifient cependant que cette considration nest peut-tre plus exacte.
tant donn que les listes des registres disponibles sont largement maintenues lchelon local et dans
des bureaux publics de la ville, il pourrait y avoir chevauchement jusqu un certain point et il nest pas
vident que les listes sont mises jour aussi souvent ou prcisment partout. Il faudrait intgrer toutes ces
listes en une seule grande base de sondage pour liminer le chevauchement entre les bases. Bien entendu,
il faudrait ensuite tenir cette base jour et, cette fin, obtenir continuellement de linformation de mise
jour de plusieurs de centaines de bureaux diffrents, chaque trimestre au moins. Dautre part, lquipe
remarque que ltablissement de nouvelles listes pour tout le pays coterait trs cher.
Compte tenu de ces lments, lquipe convient quelle doit tudier dautres sources possibles
dinformation pour tablir la base de lEGM.
Certains pays qui ont de bons registres de la population utilisent des bases dchantillonnage arolaire
pour leurs enqutes sur les mnages. Lquipe fait des recherches sur la documentation disponible dans
dautres pays pour dterminer si cette approche lui permettrait ventuellement de couvrir une population
plus entirement reprsentative.
STATISTIQUE CANADA
366
Les membres de lquipe savent quune base arolaire peut offrir, en thorie, une couverture presque
complte, mais la prparer peut aussi coter cher. tant donn quils devraient commencer au point de
dpart, ils ne sont pas certains de pouvoir laborer temps une bonne base arolaire et un plan
dchantillonnage connexe pour la premire dition de lenqute. Au cours de leurs discussions avec des
reprsentants de plusieurs autres quipes denqute du BSB, lquipe de lEGM a cependant appris quils
ont rcemment dcid de faire lexprience des bases arolaires. Ils ont dj fait une recherche
substantielle sur la question. tant donn que les rsultats de cette recherche prliminaire semblent trs
prometteurs, lquipe de lEGM propose aux autres quipes denqute et au Comit directeur de combiner
leurs efforts pour produire et appliquer une base arolaire. Le Comit directeur approuve lide parce que
les cots de limplantation et de la mise jour de la base seraient partags avec dautres enqutes.
Il est dcid dappliquer cette approche et lquipe entreprend donc lvaluation de ltat actuel des cartes
ncessaires et dautres renseignements cartographiques pour commencer prparer la base arolaire et
obtenir une estimation raisonnable des ressources ncessaires pour achever cette tche temps pour
lenqute.
Les cartes topographiques grande chelle et jour gnralement en trs bonne condition dtermineront
les niveaux plus levs de la base arolaire (c.--d. qui dfinissent les units dchantillonnage primaires).
Les niveaux infrieurs (c.--d. qui dfinissent les units dchantillonnage au deuxime et troisime
degr) devront tre dtermins partir de lidentification des rues et, ventuellement, des logements en
milieu urbain, et des logements et villages en milieu rural. Lquipe convient que la maintenance de la
base exigera un effort permanent, ventuellement par roulement, et il faudra tre particulirement attentif
aux secteurs croissance leve.
Lquipe doit donc commencer laborer une suite dtapes pour dlimiter les units dchantillonnage
divers chelons de la hirarchie gographique, partir de lidentification des limites naturelles grande
chelle comme les principales rivires, jusquaux plans formuler pour tablir la liste invitable des
logements dans les secteurs slectionns. Lquipe nest videmment pas encore en mesure de passer aux
dtails de ces tapes parce quil faut auparavant prendre des dcisions sur le plan dchantillonnage
concret.
Questions de rcapitulation :
Pourquoi une enqute-chantillon est-elle la seule solution pratique pour rpondre aux besoins de
donnes?
Expliquez pourquoi ceux qui habitent dans les logements collectifs devraient ou non tre intgrs la
population cible. Ajoutez des considrations sur laccs ces personnes, ainsi que sur la pertinence et la
qualit ventuelle de leurs rponses.
Expliquez les autres diffrences possibles entre la population cible et la population dfinitive observe.
Si lapproche de la liste tait maintenue, quelles auraient t les sources et les rpercussions ventuelles
de lerreur non due lchantillonnage?
Quelles sont, votre avis, les trois plus importantes sources probables derreurs non dues
lchantillonnage lies lutilisation dune base arolaire? Suggrez un moyen ou deux de rduire ou de
contrler chacune delle.
Combien de cartes ou de tracs distincts lchelle faudrait-il, votre avis, pour raliser le plan
dchantillonnage de la base arolaire?
STATISTIQUE CANADA
TUDE DE CAS
367
STATISTIQUE CANADA
368
Il reste encore prendre une importante dcision, savoir sil faut utiliser un questionnaire sur supportpapier (interview papier et crayon ou PAPI) ou appliquer une approche informatique (c.--d. interview sur
place assiste par ordinateur, IPAO). On connat les principaux avantages de la mthode PAPI: il nest
pas ncessaire dacheter du matriel trs cher et cette approche est bien matrise parce que cette mthode
a t applique toutes les enqutes du BSB jusqu maintenant. Dautre part, les membres de lquipe de
lEGM ralisent quils pourraient fournir faible cot un ordinateur de poche aux intervieweurs et, avec
un minimum de programmation, quils pourraient liminer une tape distincte de saisie des donnes et
garantir quune grande partie de la vrification des donnes est faite au moment de linterview (lorsque
les corrections sont le plus facile faire).
Les membres de lquipe dcident de calculer le cot ventuel de chacune de ces approches, ils essaient
simultanment dvaluer les amliorations possibles de la qualit des donnes sils choisissent lIPAO et
les rsultats sont pondrs par rapport la complexit supplmentaire de llaboration dune application
informatique de lIPAO. Des renseignements concrets sur la qualit des donnes seront bien entendus
disponibles seulement aprs avoir fait lenqute. Certaines approximations sont quand mme possibles
maintenant pour aider prendre la dcision approprie.
Aprs examen de linformation disponible (le cot et la priode de prparation, la possibilit de changer
le questionnaire aprs le premier cycle), lquipe dcide de procder la premire dition de lEGM
laide de PAPI et de rexaminer la question ultrieurement.
Questions de rcapitulation :
Lquipe aurait-elle d considrer la possibilit dappliquer une approche en mode mixte, y compris
linterview tlphonique dans les rgions des principales villes o les abonns au tlphone sont trs
nombreux? Discutez des avantages et des inconvnients de ce genre dapproche.
Discutez des avantages et des inconvnients des diffrentes possibilits suggres pour rgler le problme
des questions caractre dlicat.
Considrez les mesures de scurit qui seront ncessaires pour protger le matriel si lIPAO est
applique.
Considrez les mesures ncessaires dans chaque cas pour protger la scurit et la confidentialit des
donnes (questionnaires ou fichiers lectroniques).
STATISTIQUE CANADA
TUDE DE CAS
369
Un membre (B) se chargera des questions visant dterminer le situation vis--vis de lactivit
(employ, sans emploi ou hors de la population active). Il faudra bien entendu poser plus dune
question.
ii.
Un autre membre (C) formulera les versions prliminaires dune srie de questions sur le genre
dactivits de la personne employe.
iii.
Le membre D prparera des questions sur dautres activits conomiques, par exemple, le travail
autonome (y compris lagriculture) et le travail dans le secteur non officiel de lconomie.
iv.
Le membre E sintressera aux questions secondaires de lactivit dans la population active qui
visent les heures travailles et les gains.
5.1
Structure du questionnaire
Avant que le travail sur le questionnaire ne soit trop avanc, le membre A demande une runion de
lquipe du projet pour discuter de certaines questions releves pendant llaboration des questions
dmographiques. Il souligne que lquipe doit dterminer comment structurer le questionnaire avant de
formuler la version prliminaire des questions dfinitives. Devrait-il y avoir un questionnaire pour chacun
dans le mnage? Qui devrait rpondre aux questions? Devrait-il y avoir un questionnaire diffrent pour
les logements collectifs?
Un membre de lquipe suggre quil devrait y avoir deux questionnaires diffrents, un pour le logement
et un pour les rpondants du logement. Un autre affirme quil devrait y en avoir trois : un pour le
logement, un autre pour chaque famille et un troisime pour chaque personne.
Ces approches suscitent un certain dbat. Dune part, il est jug important de comprendre la structure
familiale dans le logement, cette information tant pertinente pour dterminer combien de personnes
STATISTIQUE CANADA
370
comptent sur le revenu de chaque travailleur. Dautre part, il est vital didentifier tous ceux qui habitent
dans le logement et certains membres de lquipe craignent que lidentification des familles dbouche sur
lomission de personnes qui forment le mnage, mais qui ne sont pas membres dune famille.
Il est ventuellement dcid dessayer dutiliser deux formules : une pour le logement (intitule
Formule F1) et une pour chaque personne ge de 15 ans et plus (F2).
La Formule F1 permettra dobtenir de linformation sur le logement, de dresser une liste complte de tous
ceux qui habitent dans le logement, de dterminer quelle est lunit familiale de chacun et dobtenir
linformation dmographique sur ces personnes. Ces renseignements serviront dcider qui devrait
recevoir le questionnaire destin la personne. La Formule F2 servira la collecte de linformation sur
lactivit de la personne dans la population active que lquipe veut obtenir pour lenqute. Celle-ci
dcide que toutes les questions de la Formule F1 seront poses une personne bien informe sur le
mnage et celles de la Formule F2 seront poses la personne cible. Lquipe remarque quil faut
appliquer un identificateur de logement chaque formule, afin de lier linformation sur le logement
linformation sur la personne aprs la collecte.
Un membre de lquipe souligne que, dans un grand mnage (ou dans un logement collectif) la personne
qui rpond la Formule F1 pourrait ne pas connatre les renseignements dmographiques de chacun dans
le mnage. Lquipe discute de cette question et dcide quune personne de chaque unit familiale sera
consulte pour complter linformation si celui qui rpond la formule na pas les renseignements
dmographiques pour tout le mnage.
Les membres de lquipe discutent pour dterminer si les rponses par procuration devraient tre permises
dans le questionnaire destin la personne et ils dcident que les intervieweurs devraient dabord tenter
de communiquer avec chacun qui doit remplir une Formule F2, mais sils ny arrivent pas, ils peuvent
procder linterview dun substitut qui rpondra au nom de la personne choisie.
Lquipe considre ensuite la cration de questionnaires distincts pour les logements collectifs et les
logements privs. Il est dj dcid que lenqute ne couvrira pas les grands logements collectifs
(tablissements militaires, hpitaux, prisons, etc.). Lquipe a donc limpression que le questionnaire pour
les logements privs englobera correctement les plus petits logements collectifs de litinraire des
intervieweurs. De plus, si cette information est ncessaire, une variable peut tre tire des logements
privs-collectifs aprs la collecte, compte tenu du nombre de familles ou de personnes sans liens de
parent qui habitent dans le logement.
5.2
bauche du questionnaire
STATISTIQUE CANADA
TUDE DE CAS
371
Les membres B et D de lquipe, confiants que leurs questions seraient trs faciles, se sont ports
volontaires pour entreprendre plusieurs tches lies la base et au plan dchantillonnage qui demandent
beaucoup de temps. Leurs bauches sont donc trs incompltes. La discussion sur leurs sections est
reporte jusqu la prochaine runion.
Lquipe considre les questions de C sur le genre dactivits des gens dans la population active :
Si vous tes identifi employ
C1 Votre employeur est-il (veuillez cocher une seule option)?
P une socit dtat
P un tablissement public (p. ex., hpital, cole, etc.)
P une entreprise prive non familiale
P un membre de la famille
P autre (veuillez prciser)_____________________________
C2 Quel est le titre de votre poste (p. ex., balayeur, ingnieur, grant des ventes, conducteur)?
_______________________________
C3 Dans quel secteur se droule la principale activit conomique de votre employeur?
P Agriculture, pches et foresterie
P Industries de lextraction
P Fabrication
P Transports
P Construction
P Vente au dtail
P Vente en gros
P Tourisme
P Secteur des arts et de la culture
P Autres services
P Administration publique (y compris la scurit)
C est videmment un expert de la classification des professions et des branches dactivit.
Malheureusement pour lbauche du questionnaire, les autres membres de lquipe ne le sont pas et ils
posent rapidement des questions. Presque tous sinterrogent sur la question C3 ou sy opposent, ils
affirment que les rpondants ne comprendront pas le terme secteur ou lexpression principale
activit conomique , mais ils conviennent que la question Que fait votre employeur? est trop vague.
Lquipe ajoute que les activits numres sont la pierre angulaire dun systme de classification que
seuls quelques spcialistes connaissent bien aprs des annes de travail. Quest-ce que lindustrie de
lextraction? Lexpression peut voquer un dentiste pour certains, alors quil sagit en fait de lexploration
et de lexploitation minires et ptrolires. De mme, un journaliste peut dclarer que son employeur fait
partie de la branche des arts et de la culture, mais loprateur de presses imprimer qui travaille pour la
mme entreprise rpondra probablement fabrication . Plusieurs membres de lquipe soutiennent quil
faudrait poser une question ouverte et la coder au bureau. C nest pas contre lide, mais il ne sait
comment formuler la question pour donner suffisamment de dtails aux codeurs pour quils fassent leur
travail prcisment. Le dbat sur la formulation de la question ou des questions continue pendant des
heures.
Lbauche des questions du membre E de lquipe sur les heures de travail et les traitements fait ensuite
lobjet dun examen.
STATISTIQUE CANADA
372
E1 Avez-vous un travail
P plein temps (35 heures par semaine ou plus)
P temps partiel (moins de 35 heures par semaine)
P saisonnier
E2 Combien tes-vous rmunr?
__________
E3 Lemployeur offre-t-il les avantages suivants?
a. Assurance-sant ou soins de sant
b. Subvention du loyer
c. Rgime de retraite
P Oui
P Oui
P Oui
P
P
P
Non
Non
Non
La question E2 soulve plusieurs objections. La question Combien tes-vous rmunr? est non
seulement vague, mais elle semble aussi indiscrte, et de nombreuses personnes hsiteront y rpondre,
mme si elle est bien formule. Les membres de lquipe mentionnent des exemples constats auparavant
et soutiennent quil faut prciser davantage. La question devrait porter sur le revenu total de lemploi
dune personne, en argent, avant retenues la source pour participation des programmes frais partags
(p. ex., rgimes de retraite cotisation partage). Comment englober le tout en une seule question
cependant? Il est vident quune mise lessai est ncessaire pour cette question.
Un membre de lquipe a limpression que le revenu est une question caractre trop dlicat et quil faut
ajouter une incitation, par exemple, Nous posons la question suivante tous les rpondants de cette
enqute pour mieux comprendre la situation de lemploi au pays. Il suggre aussi de dplacer la question
la fin du questionnaire.
Un autre membre est davis que la formulation de la question E1 est trop vague, mais il ne peut suggrer
damlioration. Un autre encore affirme que la catgorie travail saisonnier ne fait pas partie de la
distinction entre lemploi plein temps et temps partiel, et quil faudrait poser une question distincte.
5.3
Examen linterne
La prochaine runion avec le Comit directeur est maintenant annonce et les discussions tenues jusqu
maintenant y sont prsentes. Le Comit directeur convient de lapproche gnrale visant utiliser les
Formules F1 et F2. Il fait aussi des commentaires dtaills sur les questions qui sont conformes la
rtroaction prcdente de lquipe du projet.
Compte tenu des commentaires de lquipe du projet et du Comit directeur, lquipe rvise le
questionnaire comme suit. (Nota : seules les sections des membres C et E feront lobjet dun suivi par
lintermdiaire dun processus dexamen.)
Si vous tes identifi employ
C1 Quel est le titre de votre poste (p. ex., balayeur, ingnieur, grant des ventes, conducteur)?
_______________________________
C2 Quel est le genre dentreprise, de branche dactivit ou de service?
_____________________________
STATISTIQUE CANADA
TUDE DE CAS
373
5.4
P Oui
P Oui
P Oui
P
P
P
Non
Non
Non
Lquipe dcide danimer un groupe de discussion pour la mise lessai du questionnaire actuel, afin de
dterminer si les rpondants le comprennent facilement et sils peuvent donner les rponses exactes.
Le BSB nengage pas danimateurs qualifis de groupes de discussion et lquipe du projet dcide de
retenir les services dun expert de la mise lessai en groupe de discussion, M. F. Il a une formation
spcialise en animation de groupes de discussion et il devrait pouvoir intgrer la mise lessai son
horaire.
Plusieurs intervieweurs chevronns sont dtachs des bureaux rgionaux pour administrer le
questionnaire aux rpondants du groupe de discussion. Lquipe du projet slectionne des dizaines de
rpondants typiques et il y aura plusieurs sances en groupe de discussion pendant une semaine.
Lquipe slectionne ceux qui reprsenteront lventail complet des rpondants, certains en milieu urbain,
dautres en milieu rural, ainsi que des travailleurs, tudiants et retraits.
Les intervieweurs administrent le questionnaire aux rpondants avant le dbut des discussions en groupe.
M. F oriente ensuite des discussions distinctes avec les intervieweurs et les rpondants pour leur poser des
questions sur le questionnaire et les problmes quils ont rencontrs.
Compte tenu des discussions en groupe, lquipe dcouvre que les questions sur les heures de travail
posent les problme suivants :
i.
Plusieurs rpondants dclarent quils ont de la difficult rpondre la question sur le nombre
dheures de travail hebdomadaires habituelles parce que les heures varient dune semaine
lautre.
ii.
De nombreux rpondants demandent sil faut ajouter le temps supplmentaire aux heures
habituelles.
iii.
Les questions sment la confusion chez les rpondants qui ont plus dun emploi.
De nombreux rpondants ne sont pas rmunrs taux horaire, ils affirment donc souvent ne pas
connatre leur taux horaire et ils donnent plutt leur traitement pour une priode de rfrence
diffrente. Les intervieweurs inscrivent habituellement une note en ce sens en marge du
questionnaire.
STATISTIQUE CANADA
374
ii.
De nombreux rpondants ne savent pas si lemployeur offre des avantages sociaux. Cette question
nest pas trs sense non plus pour les personnes qui ont un travail autonome.
Lquipe est cependant trs heureuse de constater que les questions sur la profession ou la branche
dactivit ne semble pas poser de difficult aux rpondants ou aux intervieweurs. C dcide cependant, par
mesure de prcaution, denvoyer les rponses aux codeurs forms au codage des professions et des
branches dactivit. Il constate aprs plusieurs heures que les rponses sont trop gnrales, quelles ne
donnent pas suffisamment dinformation et que les codeurs ne peuvent les coder en dtail. Il faudra
ajouter plusieurs questions sur la profession et la branche dactivit pour donner suffisamment
dinformation aux codeurs, afin quils prennent une dcision sur le code exact attribuer.
Lquipe a, de toute vidence, encore beaucoup de travail faire sur le questionnaire.
5.5
bauche dfinitive
JD2
JD3
JD4
JD5
JD6
De quel genre dentreprise, branche dactivit ou service sagit-il? (p. ex.., voirie, cole
primaire, riziculture, magasin de chaussures, garage)
______________________
JD7
Quel est votre travail ou profession? (p. ex., secrtaire juridique, plombier, guide de pche,
enseignant)
______________________
STATISTIQUE CANADA
TUDE DE CAS
JD8
375
Quelles sont vos principales activits ou tches ce poste? (p. ex., prparation de documents
juridiques, installation de plomberie rsidentielle, orientation de groupes de pche,
enseignement des mathmatiques)
______________________
WH2
WH3
WH4
WH5
TRAITEMENT
Je vais maintenant poser quelques brves questions sur votre traitement.
E1
E2
E3
Comment pouvez-vous le plus facilement exprimer votre traitement ou rmunration, avant impt
et autres retenues la source? Est-ce par anne, par mois, par semaine ou autrement? Quel est
votre traitement ou rmunration?
__________/par anne
OU
__________/par mois
OU
__________/par semaine
OU
__________/autre (prcisez la priode de rfrence ___________)
STATISTIQUE CANADA
376
Questions de rcapitulation :
tant donn quil sagit de la premire version du questionnaire de lEGM destin une enqute
complte, quel genre de mises lessai proposeriez-vous?
Proposez dautres versions des questions prsentes la Section 5.5.
STATISTIQUE CANADA
TUDE DE CAS
377
378
Un plan dchantillonnage par grappes stratifi deux degrs est donc propos, les trois principales villes
et les huit districts sont chacun une strate et des sous-strates seront cres dans chacune. Lidentification
de sous-strates relativement petites facilitera la conformit au plan dchantillonnage deux degrs.
Afin dviter la confusion entre les diffrents niveaux, il est convenu dintituler les principales strates
rgion (Villes A, B, C et les huit districts) et de rserver le terme strate aux sous-strates
infrieures. Les 11 rgions sont identifies comme suit pour faciliter la rfrence :
Tableau 6.1 : Strates rgionales
Rgion
1
2
3
4
5
6
7
8
9
10
11
Ville A
Ville B
Ville C
District D
District E
District F
District G
District H
District J
District K
District L
Un nombre dunits primaires dchantillonnage (UP), ou grappes, sera dfini dans chaque strate et, au
premier degr de lchantillonnage, une UP ou plus sera(ont) slectionne(s) dans la strate. Les UP ne
devraient pas tre trop grandes par souci defficience. Il serait en fait souhaitable quelles soient dune
taille convenable pour que lquipe des intervieweurs les couvre efficacement, compte tenu du temps
prvu pour la collecte des donnes. Les UP devraient donc tre de tailles peu prs gales et contenir
plusieurs centaines de logements.
Au deuxime degr de lchantillonnage, tous les logements de lUP seront lists et chantillonns (un
membre du mnage sera interview). Le nombre de logements chantillonns par UP devrait tre
raisonnable pour une quipe dinterview. la suite de discussions avec les bureaux rgionaux, la taille a
t dtermine 40 logements.
Lquipe sait quil est souhaitable de slectionner au moins deux grappes par strate pour permettre
lestimation exacte de la variance dchantillonnage et que, selon les ouvrages classiques, cette estimation
devient plus complexe si lon slectionne plus de deux grappes laide de lchantillonnage avec
probabilit proportionnelle la taille (PPT), ce quelle considre ncessaire. Elle prend donc des
dispositions pour slectionner deux grappes dans chaque strate.
Il faut ensuite lister les logements dans les grappes slectionnes et tirer un chantillon de logements au
deuxime degr. Lorsque les listes sont compiles, les logements peuvent tre slectionns laide de
lchantillonnage alatoire simple (EAS) ou de lchantillonnage alatoire systmatique (SYS). Lquipe
dcide de recommander le SYS pour des raisons pratiques, par exemple, essayer de rpartir lchantillon
le mieux possible entre toutes les grappes slectionnes.
Les dtails des taux de sondage ne sont pas encore dtermins, mais il semble dj vident quils seront
raisonnablement faibles dans les grappes slectionnes (peut-tre 40 sur 400 logements, ou un sur dix) et
le SYS est donc trs pratique. Simultanment, mme si cette mesure rpartit lchantillon dans un certain
secteur, le territoire couvert par une seule grappe ne devrait pas tre trs vaste en gnral et les cots de
STATISTIQUE CANADA
TUDE DE CAS
379
dplacement lintrieur dune grappe slectionne ne seront donc pas trs importants comparativement
au cot quil faudrait engager pour y arriver en premier lieu.
Aprs un certain travail prliminaire, il devient vident que la taille des grappes variera probablement
beaucoup sil faut respecter les limites naturelles. Ces limites naturelles sont cependant trs importantes
pour le contrle efficace des oprations sur place et la slection des grappes et des logements appropris
selon les cartes et les listes.
Il est ventuellement dcid de slectionner les grappes laide de lchantillonnage avec probabilit
proportionnelle la taille (PPT) en utilisant les estimations de la population les plus rcentes pour chaque
grappe comme mesure de la taille. Dans chaque grappe slectionne, un nombre dtermin de logements
sera choisi laide du SYS. (On verra au Chapitre 7 que cette mesure signifie que toutes les units de la
mme strate ont la mme probabilit de slection.)
Ayant tabli la structure gnrale du plan dchantillonnage, lquipe commence tracer les dtails du
plan pour la rgion 1 (Ville A) et la rgion 4 (district D), prvoyant appliquer la mme approche aux
autres rgions.
Questions de rcapitulation
Y a-t-il une solution de rechange raliste la stratification deux niveaux (rgion et strate) qua
labore lquipe de lEGM?
Un plan dchantillonnage trois degrs, y compris des UP plus larges et un degr intermdiaire
dunits secondaires dchantillonnage (US) comme grappes, aurait-il t plus efficient? Aurait-il t
raliste en pratique?
Le plan dchantillonnage appliquera la mthode dchantillonnage avec PPT pour la slection des
grappes. Lequel serait le plus appropri : lchantillonnage alatoire ou systmatique avec PPT? Si vous
choisissez lchantillonnage systmatique avec PPT, comment suggrez-vous de trier les listes des
grappes?
tant donn quil est considr dutiliser le SYS pour la slection des logements dans les grappes
slectionnes, faites des commentaires sur les inconvnients ventuels de cette approche en milieu
vraiment rural. Suggrez une stratgie de rechange dans ces secteurs.
Le plan dchantillonnage est autopondr dans chaque strate. Est-il raisonnablement possible que
lchantillon soit autopondr lchelon rgional, c.--d. de garantir que tous les logements
slectionns dans une rgion complte aient la mme pondration du plan dchantillonnage? Est-ce un
objectif souhaitable?
STATISTIQUE CANADA
380
Chapitre 7 Estimation
7.0 Estimation
Lquipe de lEGM cible maintenant les procdures ncessaires pour obtenir des estimations denqute
sur les caractristiques obtenues laide du questionnaire.
Lchantillon comprendra de plusieurs milliers de mnages (voir le Chapitre 8 de ltude de cas pour les
dtails), mais linformation tire des interviews de ces mnages devraient reprsenter la population entire
de prs de 11 millions de mnages au pays.
Compte tenu du plan dchantillonnage probabiliste labor au Chapitre 6 de ltude de cas, de la taille de
lchantillon et de la rpartition dcrite au Chapitre 8, les rsultats de lchantillon donneront en fait des
estimations reprsentatives de la population du pays, et ils auront la variance dchantillonnage minime
voulue, dans la mesure o les non-rponses ne posent pas de problmes graves.
7.1
Pondration
LEGM doit donner des estimations pour un grand nombre de variables, mais toutes ces estimations
seront bases sur un ensemble de pondrations lies chaque enregistrement de donnes des mnages qui
rpondent lenqute, et elles seront dtermines selon le rsultat de trois calculs assez simples :
- la pondration du plan dchantillonnage dtermine selon la probabilit de slection des mnages,
- un lment dajustement pour les non-rponses,
- un ajustement de la stratification a posteriori selon les donnes dmographiques comparatives.
7.1.1
La premire tape est de calculer la pondration du plan dchantillonnage obtenue directement, comme
lexpression le suggre, du plan dchantillonnage, cest--dire que la pondration du plan
dchantillonnage est linverse de la probabilit de slection. Le plan dchantillonnage dans ce cas est un
plan stratifi deux degrs dont les UP sont slectionnes laide de la PPT au premier degr et les
US (logements) sont slectionns laide de lchantillonnage systmatique au deuxime degr.
La pondration du plan dchantillonnage est calcule pour le logement slectionn. La mme
pondration du plan dchantillonnage sera attribue au mnage qui habite dans ce logement et chaque
personne du mnage. Dans un plan dchantillonnage probabiliste plusieurs degrs, la probabilit de
slection dune unit au dernier degr est simplement le rsultat des probabilits de slection chaque
degr. De mme, la pondration du plan dchantillonnage peut-tre considre comme le rsultat des
pondrations chaque degr parce que chacune delle est linverse de la probabilit correspondante.
La pondration complte du plan de lEGM est donc simplement le rsultat des pondrations au premier
et au deuxime degr. Chaque logement i slectionn dans la grappe j de la strate h a donc une
pondration du plan dchantillonnage quivalente :
wd , hji =
1, hj
2, hji
STATISTIQUE CANADA
TUDE DE CAS
381
o 1,hj est la probabilit de slection de la grappe j dans la strate h au premier degr et 2,hji est la
probabilit de slection du logement i dans la grappe j de la strate h au deuxime degr (si la grappe j est
slectionn au premier degr).
Noubliez pas que le numrotage de la strate a deux niveaux. Le premier numro est lidentification de la
ville ou du district (strate du premier niveau) et le deuxime est le numro didentification de la strate
dans cette ville ou ce district. Cette particularit est indique pour des raisons pratiques par un seul
indice h.
tant donn que les grappes sont slectionnes avec une probabilit proportionnelle la taille (PPT), ces
probabilits doivent tre calcules en mesures de la taille utilises la conception du plan denqute. La
mesure de la taille utilise est le nombre de logements dans la grappe, cette mesure sera reprsente par z
et la grappe j de la strate h a une taille zhj. Voici la mesure de la taille totale de toute strate h :
mh
z h = z hj
j
wd 1,hj =
=
1,hj
zh
k h z hj
Au deuxime degr, 40 logements sont slectionns, cest--dire que tous les logements de la grappe j ont
une probabilit de slection au deuxime degr de 40/zhj. La pondration du plan au deuxime degr pour
les logements slectionns est donc :
wd 2, hji =
=
2 ,hji
z hj
40
STATISTIQUE CANADA
382
1,hj 2,hji
z
zh
hj
k h z hj 40
zh
k h 40
7.1.2
La composante suivante de la pondration est lajustement pour le total des non-rponses. Mme si un
taux de rponse lev est prvu, il ne sera certainement pas 100 % et lomission dun ajustement pour le
nombre rel de non-rponses donnerait des sous-estimations des totaux.
Un groupe de non-rpondants pourrait aussi, bien entendu, tre diffrent des rpondants du point de vue
de certaines des variables importantes de lenqute et, dans ce cas, ajuster les pondrations des rpondants
pour reprsenter les non-rpondants pourrait donner un biais.
Lquipe de lEGM tudie ce risque attentivement. Le mthodologiste de lquipe fait remarquer que le
biais de non-rponse dans toute estimation est essentiellement un rsultat de deux lments : le nombre de
non-rponses et lampleur de la diffrence entre les rpondants et les non-rpondants.
Lquipe prvoit un taux de non-rponse raisonnablement faible et elle espre quune composante de ce
produit sera suffisamment petite. Les membres de lquipe se demandent si les non-rpondants pourraient
vraiment tre trs diffrents des rpondants en ce qui a trait la majorit des variables importantes de
lenqute. Il semble trs probable que les non-rpondants pourraient en fait avoir des caractristiques trs
diffrentes de celles des rpondants. Lquipe craint, par exemple, que les personnes mises pied, les
migrants rcents et ceux qui sont trs mobiles pourraient en fait tre beaucoup moins nombreux
rpondre que les personnes qui ont un emploi rgulier et stable dans leur secteur denregistrement
permanent. Voil qui se traduirait par une contribution marque au biais de non-rponse.
Lquipe na cependant pas de preuve tangible et dcide quelle doit pour linstant prvoir un ajustement
des pondrations comme si les non-rponses taient alatoires. Les membres conviennent simultanment
de recommander des tudes de suivi dun sous-chantillon de non-rpondants pour essayer dobtenir une
mesure de la taille du biais quil ne faudrait pas ignorer simplement, leur avis. Ils considrent aussi
quune autre tude devrait tre prvue pour examiner les non-rponses partielles (lorsque certaines
questions seulement obtiennent une rponse), afin de dterminer sil est possible de tracer ainsi un profil
des rpondants rticents.
Il y a plusieurs mthodes possibles dajustement de la pondration pour les non-rponses, selon le plan
dchantillonnage utilis. Il peut tre fait lchelon de la grappe, de la strate ou de la ville du district. Il
semble peu raisonnable dapporter un seul ajustement pour tout le pays parce quon sait que la population
nest pas homogne et, en fait, mme lajustement lchelon de chaque district ou principale ville
STATISTIQUE CANADA
TUDE DE CAS
383
semble peu conseill pour la mme raison. Le choix peut tre important parce que les strates sont
habituellement des comts et les grappes sont trs petites. Les grappes peuvent tre plus homognes que
la strate complte, mais elles sont si petites que les ajustements pourraient tre peu stables cause des
tailles dchantillon minimes et des taux de rponse qui peuvent tre trs variables cet chelon.
Lchantillon de la strate englobe plusieurs fois celui de chaque grappe, la pondration du plan
dchantillonnage est la mme pour les deux grappes dans chaque cas et lquipe est donc davis quil est
plus logique dappliquer lajustement lchelon de la strate.
Si le nombre de mnages rpondants dans la strate est nrh, la pondration ajuste pour les non-rponses
sera quivalente :
wnr ,h = wd ,h
nh
nrh
zh
k 40
h
kh 40
nrh
zh
nrh
et toutes les personnes et tous les mnages rpondants dans la strate ont de nouveau la mme pondration.
Soulignons que cette affirmation sera strictement vraie seulement si toutes les personnes admissibles dans
un mnage rpondant sont galement des rpondants. Lquipe de lEGM considre que lhypothse sera
vraie aux fins de la planification, mais elle est dispose proposer un autre ajustement des pondrations
des personnes si elles ne rpondent pas toutes.
Lquipe remarque que les valeurs numriques des pondrations du plan varieront considrablement
dune strate lautre parce que les tailles des strates varient et k ne sera peut-tre pas semblable dans
toutes les strates. Ltendue des valeurs nest peut-tre pas trs large, mais elle lest suffisamment pour
quil soit impossible de considrer que le plan est autopondr un chelon suprieur celui de la strate.
7.1.3
Lquipe propose dajouter un ajustement aux pondrations pour garantir que les estimations reproduisent
les totaux importants connus et amliorer la prcision des estimations par stratification a posteriori selon
des groupements homognes. Les plus importants de ceux-ci du point de vue de la participation la
population active sont la taille de la population pour chaque sexe et pour les principaux groupes dge
pertinents (les 15 24 ans, les 25 49 ans, les 50 64 ans et les 65 ans et plus) parce que ces groupes ont
des profils trs diffrents dans la population active.
Les estimations postcensitaires de la population par ge et par sexe sont ancres sur les donnes tires du
recensement le plus rcent, mises jour laide des registres des logements et des statistiques de ltat
civil sur les naissances et les dcs. Ces donnes sont considres trs prcises pour chaque grande ville
ou district, mais elles tiennent peu compte de la migration interne, elles ont t projetes pendant prs de
10 ans et lquipe de lEGM nest pas convaincue quelles sont bonnes lchelon de la strate.
Les membres de lquipe consultent les reprsentants de la Division des tudes dmographiques du BSB
et concluent quils devraient recommander lajustement lchelon du district ou de la ville seulement,
STATISTIQUE CANADA
384
mais que lajustement devrait tre fait lchelon de la strate lorsque les rsultats du prochain
recensement seront disponibles.
La pondration dfinitive pour chaque personne qui rpond lenqute sera donc :
w f ,hza = wnr ,h
N za
N za
7.2
Certains ouvrages standard contiennent les formules destimation de la variance pour les plans
dchantillonnage stratifis deux degrs qui sont autopondrs lchelon de la strate, mme si elles
sont relativement complexes. tant donn les ajustements proposs pour les totaux de non-rponse et par
groupe dge-sexe cependant, les expressions algbriques deviendront complexes et lquipe convient de
faire une recherche sur lapplication dune mthode par rchantillonnage, par exemple, la mthode du
jacknife ou du bootstrap . Elle na pas encore fait beaucoup de travail sur cet aspect jusqu
maintenant.
Questions de rcapitulation :
Lquipe de lEGM est-elle justifie de supposer quun biais de non-rponse est peu potable? Considrez
les taux de rponse probables pour les mnages privs comparativement ceux des mnages collectifs, en
particulier ceux qui comptent de nombreux travailleurs de passage ou migrants rcents. Serait-il possible
de stratifier par type de mnages (logements) avant dapporter lajustement pour les non-rponses dans
ces strates?
Faites un commentaire sur le choix de lchelon o est apport lajustement pour les non-rponses.
Lquipe a-t-elle pris la bonne dcision, votre avis, sur lajustement de la pondration pour les nonrponses? Vaudrait-t-il mieux ajuster les pondrations lchelon de la grappe, de la strate ou de la
ville du district? Expliquez.
Faites la mme chose pour lajustement stratifi a posteriori pour lge et le sexe.
STATISTIQUE CANADA
TUDE DE CAS
385
8.1
n1 =
z 2 P (1 P )
e2
o e est la marge derreur (0,025) et P est la proportion cible (supposons que P=0,5).
STATISTIQUE CANADA
386
n1 =
= 1 537
2. Le mthodologiste souligne quil nest probablement pas ncessaire dajuster la taille de lchantillon
selon la taille de la population parce que la plus petite rgion la Ville B est trs large (plus de deux
millions de personnes).
3. La meilleure estimation de leffet du plan dchantillonnage dans lensemble est deff=2 (selon des
enqutes semblables faites dans dautres pays) :
n3 = deff n2
= 2 1,537
= 3,074
4. La taille de lchantillon est ajuste pour le taux de non-rponse qui ne devrait pas tre suprieur
20 % (de nouveau, compte tenu denqutes semblables qui se sont droules ailleurs). Ce taux de
non-rponse reprsente un modeste pourcentage de logements libres ou inoccups et un nombre
raisonnable de non-rponses cause des familles temporairement absentes ou simplement difficiles
reprer. Voici lestimation de la taille dfinitive de lchantillon par rgion :
n3
r
3,074
=
.8
= 3,843
n=
Sur lensemble des rgions, la taille de lchantillon total est donc 11 x 3 843 = 42 473 personnes cibles
dans lenqute. Lquipe suppose quil y a environ deux adultes par mnage, cest--dire 21 237 mnages
Belleterre, soit 1 922 par rgion.
Plusieurs membres de lquipe ne comprennent pas pourquoi il est important de supposer quil y a deux
adultes par mnage. Le mthodologiste explique que lunit dchantillonnage pour lenqute est le
logement, mais que toutes les estimations seront faites pour la population adulte au pays parce que ce sont
les adultes, et non les logements, qui forment la population active. tant donn que les besoins de
prcision sont lis aux adultes, ces calculs doivent donc dabord tre faits selon le nombre dadultes
ncessaires traduits ensuite en nombre de logements ncessaires dans lchantillon.
Le mthodologiste confirme quil nest pas ncessaire de considrer la correction dchantillonnage pour
population finie parce quelle est de 3 843 divis par deux millions, soit 0,0019 pour la Ville B (la plus
petite rgion).
Lquipe prvoit surveiller les taux de rponse pour chaque grappe slectionne, inscrire le genre de
mnage et tout autre renseignement pertinent, afin de reprer les diffrences dans les taux de rponse par
genre de mnage ou par rgion, ou dautres variables dont on pourrait tenir compte pour modifier la
stratgie dajustement de la pondration pour les non-rponses au cours des annes ultrieures.
STATISTIQUE CANADA
TUDE DE CAS
8.2
387
On estime que la population du pays atteindra environ 44 millions de personnes vers 2005 et lquipe est
informe quelle devrait supposer une moyenne de quatre personnes par logement (compte tenu des
enfants, des parents gs et un petit pourcentage de logements ayant plus dun mnage sans tre des
logements collectifs). Le rsultat est un total denviron 11 millions de logements considrs, aux fins de la
planification, comme correspondant 11 millions de mnages.
Compte tenu de la taille de lchantillon de 21 237 mnages, cela signifierait un taux dchantillonnage
moyen de 1 sur 518. Cela peut sembler trs faible, mais la taille de lchantillon est trs grande. Les
populations varient normment lchelon rgional et les taux dchantillonnage exigs par la taille de
lchantillon rgional cibl de 1 922 logements varient donc aussi beaucoup. Les taux dchantillonnage
entre les rgions varieront de 1 sur 268 environ dans la Ville B 1 sur 754 dans la rgion la plus
populeuse, le District J.
Le plan dchantillonnage a t tabli pour permettre la dfinition dun grand nombre de strates dont
chacune aura un nombre substantiel dunits primaires dchantillonnage (UP) intitules grappes. Deux
( loccasion trois) grappes seront slectionnes par strate pour faciliter lapplication de techniques
destimation de la variance simple.
Les tailles des grappes et des strates afficheront bien entendu des diffrences dans chaque rgion et les
taux dchantillonnage dans chaque strate dune rgion varieront donc aussi relativement. Lquipe
noublie pas non plus quil nest pas souhaitable que les taux dchantillonnage dans les grappes
deviennent trop petits parce quils susciteraient une dispersion gographique indue, au moins en milieu
rural.
Nous lavons mentionn auparavant, les strates dans chaque rgion ont t dfinies selon les limites
administratives ou municipales.
Tableau 8.1 : Stratification
Rgion
Ville A
Ville B
Ville C
District D
District E
District F
District G
District H
District I
District J
District K
Total
Comts
3
3
3
11
11
13
10
7
11
13
11
96
Municipalits
21
17
16
23
26
29
26
21
26
34
28
267
Strates
21
17
19
23
26
28
26
23
26
34
30
273
STATISTIQUE CANADA
388
nh = n
Nh
N
o n=1 922.
Des grappes sont cres dans chaque strate. Les considrations lies lefficience des oprations sur place
limitent les tendues des options lorsquon dtermine les tailles des grappes. Une quipe de trois
intervieweurs et dun surveillant devrait pouvoir faire entre 75 et 100 interviews par semaine. Compte
tenu des circonstances imprvues, il est dcid que la taille de lchantillon dans chaque strate sera de 40,
pour que lquipe puisse couvrir les deux grappes prvues dans une strate en une semaine de travail, pour
un total de 80 interviews si le taux de rponse atteint 100 %. Si trois grappes sont slectionnes dans une
strate, il est prvu daffecter quatre intervieweurs lquipe ou de prendre une journe ou deux de plus
pour accomplir la tche.
La cration des grappes et la rpartition de lchantillon pour la Ville A donne ceci :
Tableau 8.2 : Rpartition de lchantillon entre les strates de la Ville A
Strate
Comt
1
2
3
4
5
21
Total
1
1
2
2
3
Population
de
logements
(Nh)
39 836
42 481
58 411
52 039
55 800
50 900
1 020 600
Nombre de
grappes
dans la
strate
52
50
43
45
48
52
1 092
Taille
moyenne de
la grappe
(logements)
766
849,6
1 358,4
1 156,4
1 162,5
978,8
934,6
Taille de
lchantillon
de logements
(nh)
75
80
110
98
105
96
1 922
Remarquez que les taux dchantillonnage dans chaque strate sont peu prs gaux (parce que les strates
sont de tailles peu prs gales). Les taux dchantillonnage varient de 1 sur 529 1 sur 535 dans la
Ville A.
tant donn que lchantillon prvu dans chaque grappe est de 40 logements et que nous pouvons
slectionner seulement un nombre entier de grappes, la taille de lchantillon prvue dans la Ville A est de
2 000 (c.--d. 50 grappes de 40 mnages par grappe), selon le tableau ci-dessous.
STATISTIQUE CANADA
TUDE DE CAS
389
1
2
3
4
5
21
Total
Population
de logements
(Nh)
39 836
42 481
58 411
52 039
55 800
50 900
1 020 600
Nombre de
grappes par
strate
52
50
43
45
48
52
1 092
Nombre de
grappes
chantillonnes
2
2
3
3
3
3
50
Taille de lchantillon
de logements
(nh)
80
80
120
120
120
120
2 000
Le District D a 11 comts et 23 strates ont t dfinies au total. La structure est relativement plus
complique que celle de la Ville A parce que les populations des comts varient largement et il est
souhaitable que les limites des strates nempitent pas sur les limites du comt. Deux petits comts ont t
fusionns dans un cas pour faire une seule strate et, dans un autre, le comt lui-mme est une strate. Les
comts sont devenus deux ou trois strates dans la plupart des cas (rparties selon les limites municipales).
Un conomiste membre de lquipe a indiqu que dans un comt, les caractristiques conomiques et de
la population active en milieu urbain et rural seront probablement trs diffrentes et que lchantillonnage
par grappes peut tre trs peu efficient. Aprs tude, le mthodologiste suggre de former deux ou trois
strates dans un comt, afin que lune contienne les secteurs les plus urbains et lautre (ou les deux autres),
les secteurs les plus ruraux. Deux ou trois grappes seront ensuite slectionnes dans chaque strate et les
autres membres de lquipe conviennent que lchantillon devrait tre raisonnablement bien quilibr.
Les tailles des strates sont maintenant de 19 400 37 600 logements, la moyenne tant de 28 300
logements par strate. Les grappes sont en moyenne relativement plus petites que celles de la Ville A, le
nombre de grappes par strate est de 24 44 et, de nouveau, deux ou trois grappes seront slectionnes par
strate pour donner 80 ou 120 logements par strate.
Le tableau suivant affiche lchantillon du District D rparti entre ces 23 strates laide de la rpartition
proportionnelle N.
STATISTIQUE CANADA
390
Comt
1 urbain
2 rural
3 urbain
4 rural
5 rural
9 urbain
10 rural
11 rural
12 rural
13 rural
14 urbain
15 rural
,
22 urbain
23 rural
Total
1
1
2
2
2
4
4
4
5
6+7
8
8
Population de
logements
(Nh)
22 400
26 200
30 200
24 400
30 600
Nombre de
grappes dans la
strate
25
32
25
28
38
Taille moyenne de
la grappe
(logements)
896
818,8
1 208
871,4
805,3
21 800
28 900
32 200
19 400
24 200
28 900
29 400
26
32
36
24
26
34
41
838,5
903,1
894,4
808,3
930,8
850
717,1
Taille de
lchantillon de
logements (nh)
66
77
89
72
90
64
85
95
57
72
85
87
30 800
22 900
650 100
44
29
856
700
789,7
759,4
91
68
1 922
11
11
1
2
3
4
5
9
10
11
12
13
14
15
.
22
23
Total
Population de
logements
(Nh)
22 400
26 200
30 200
24 400
30 600
Nombre de grappes
dans la strate
Nombre de grappes
chantillonnes
25
32
25
28
38
2
2
3
2
3
21 800
28 900
32 200
19 400
24 200
28 900
29 400
26
32
36
24
26
34
41
Taille de lchantillon
de logements
(nh)
80
80
120
80
120
80
3
2
2
3
3
120
80
80
120
120
30 800
22 900
650 100
44
29
856
3
2
50
120
80
2 000
La taille de lchantillon des adultes prvue dans lensemble est donc de 4 000 pour la Ville A et le
District D. Le mthodologiste procde la rpartition pour toutes les villes et districts, et constate que la
taille prvue de lchantillon dans lensemble est de 22 000.
STATISTIQUE CANADA
TUDE DE CAS
391
Questions de rcapitulation :
Discutez de lhypothse de lquipe de lEGM, cest--dire un mnage, deux adultes . Lquipe peutelle faire mieux avant dobtenir des donnes de la premire dition de lEGM?
Quelles seront les rpercussions de lajout des logements collectifs sur lhypothse formule au point
prcdent et quelle est votre raction?
Pouvez-vous donner certaines raisons pratiques expliquant pourquoi la taille de lchantillon dans la
grappe devrait tre plus large, ou plus petite, que celle suggre par lquipe de lEGM? (Considrez les
conditions sur place dans lesquelles travailleront les quipes dintervieweurs). Ne vaudrait-il pas mieux
former de plus petites grappes et ensuite, de plus petits chantillons de logements dans les grappes en
combinant plusieurs grappes slectionnes, afin de composer une tche pour lquipe dintervieweurs?
Faites des commentaires sur les avantages et les inconvnients de ce genre de modification.
tant donn que le choix de la taille de lchantillon cible une marge derreur de 2,5 % pour chacune des
11 rgions dont les populations varient beaucoup, quelle marge derreur approximative obtiendrez-vous
lchelon national, votre avis?
Exprimez-vous sur lhypothse tablissant en moyenne quatre personnes par mnage. Comment cette
hypothse variera-t-elle en milieu rural et en milieu urbain?
STATISTIQUE CANADA
392
9.1
Le BSB est charg de la conception et de la gestion de lEGM dans lensemble. Il a cependant besoin de
la collaboration active des organismes statistiques lchelon des districts et des sous-districts pour faire
la collecte et le traitement des donnes.
Il y a un bureau de la statistique du district dans les trois principales villes. Ces bureaux seront
intensivement engags dans la collecte des donnes et les premires tapes du traitement des donnes, et
ils travailleront sous lorientation gnrale du BSB. Chacune des huit autres rgions (Districts D K) a
aussi au moins un bureau de district et, dans certains cas, de sous-district. Chaque district regroupe de sept
treize comts et ces comts correspondent en majeure partie deux ou trois strates. Il est donc toujours
pratique dorganiser les quipes de collecte des donnes lchelon du comt, sous la coordination du
bureau du district et, bien entendu du BSB. Les cots de la collecte des donnes seront rduits parce que
les membres des quipes dintervieweurs seront probablement rsidents dans les secteurs o ils seront
affects, ou ils habiteront proximit.
Le BSB, qui sera le Bureau central de lenqute, est charg avant tout de ltablissement de lchancier
de la collecte des donnes et des taux de rponse cibles. Le BSB, en collaboration avec les bureaux de la
statistique du district, labore aussi les systmes de rapport et les formules de contrle ncessaires pour
garantir le listage et la slection exacts des units dchantillonnage, ainsi que lacheminement au
moment opportun des questionnaires remplis aux bureaux de la statistique.
Lquipe du BSB prpare, de la mme faon, les manuels des oprations et de formation des
intervieweurs et des surveillants, et elle remet les bauches de ces documents aux bureaux de district pour
commentaires et rvisions. Le BSB prpare galement des exercices de formation et dautre matriel,
mme si la majorit des sances de formation se drouleront dans les bureaux de district ou de sousdistrict. Aprs avoir apport la touche finale aux manuels et autres formules, le BSB les imprimera et les
distribuera par lintermdiaire des bureaux de district et de sous-district.
tant donn lampleur des activits accomplir et coordonner, chaque bureau de district a nomm un
charg de projet rgional de lEGM. Celui-ci est charg de la majeure partie de lorganisation du travail
du bureau pertinent lEGM et il est la principale personne-ressource de lquipe charge de lEGM au
BSB. Il a t dcid que la saisie des donnes se droulera aux bureaux de district et le charg de projet
rgional est aussi responsable de la coordination de ces activits (voir le Chapitre 10 de ltude de cas).
Les chargs de projet rgionaux seront responsables de la circulation du matriel entre le BSB et les
bureaux locaux, ainsi que du retour des questionnaires remplis leur propre bureau pour la saisie des
STATISTIQUE CANADA
TUDE DE CAS
393
donnes et lenvoi des fichiers lectroniques au BSB pour traitement final (vrification et imputation,
reprage des valeurs aberrantes).
laide des lignes directrices labores en collaboration avec lquipe du BSB, les chargs de projet
rgionaux travailleront avec leurs homologues locaux pour identifier des candidats convenables quils
embaucheront et formeront titre dintervieweurs et de surveillants. Lquipe du BSB surveillera et
observera ces tapes pour garantir luniformit et recevra aussi des rapports dtat davancement rguliers
des chargs de projet rgionaux.
Dans la plupart des cas, une quipe dun surveillant et de trois ou quatre intervieweurs embauchs
lchelon du comt (ou du bureau du sous-district) sera charge de la collecte des donnes dans les
grappes de sa strate de lEGM. Dans certains cas, une quipe dintervieweurs couvrira plus dune strate,
mais cette situation devrait tre rare tant donn quil est prvu de faire toutes les interviews en un peu
plus dune semaine. Lquipe travaillera dans une grappe jusqu ce quelle soit acheve et passera la
suivante.
Lquipe du projet de lEGM remarque quil faudra donc environ 275 surveillants au total (un pour
chacune des 25 strates dans chacune des 11 rgions) et prs de 900 intervieweurs.
9.2
Relations publiques
LEGM est une nouvelle enqute importante et le BSB a lintention dobtenir les donnes de la meilleure
qualit possible, y compris les donnes des groupes de la population qui peuvent avoir des raisons dtre
rticents rpondre aux questions, et lquipe dcide donc, avec lapprobation du Comit directeur de
lEGM, de lancer une vaste campagne de relations publiques au pays.
Un membre du personnel de la Division des communications du BSB est affect cette fin lquipe du
projet de lEGM pour prparer du matriel dinformation convenable. Il comprendra une lettre de
prsentation expliquant les objectifs et limportance de lEGM. Le directeur gnral du BSB signera la
lettre, ainsi quune personnalit approprie dans la collectivit, soit le chef du bureau de la statistique du
district ou du sous-district, ou encore un reprsentant bien connu de ladministration municipale.
Voici la premire bauche de la lettre :
Monsieur, Madame,
Votre mnage a t slectionn pour participer lEnqute gnrale sur les mnages de Belleterre. Cette
nouvelle enqute publique importante donnera de linformation essentielle sur les activits de la
population de notre pays et sur la situation familiale en priode actuelle de changement conomique
rapide.
Le Bureau de la statistique de Belleterre se charge de lenqute. La confidentialit de linformation
obtenue dans lenqute est protge en vertu de la loi. Vos rponses aux questions de lenqute seront
strictement confidentielles. Toutes les donnes obtenues dans cette enqute serviront des fins
statistiques seulement. Vos rponses seront combines celles de nombreux autres citoyens pour tracer
un profil statistique fiable des conditions au pays.
STATISTIQUE CANADA
394
Il faudra environ 20 minutes pour achever linterview. Sil nest pas pratique de rserver ce temps
lorsque lintervieweur communiquera avec vous la premire fois, il(elle) prendra volontiers un rendezvous pour procder linterview au moment qui vous convient le mieux.
Le Bureau de la statistique de Belleterre reconnat votre importante contribution et celle dautres
citoyens qui prennent le temps de nous faire part de ces renseignements essentiels. Nous vous remercions
davance de votre collaboration prcieuse.
Si vous avez des questions auxquelles lintervieweur ne peut rpondre, nhsitez pas communiquer avec
le reprsentant local de lEGM au Bureau de la statistique de la direction du comt situ -------------------------, ou en composant le numro 1-23-456-7899.
M. Untel
Directeur, BSB
C. Lacase
Agent responsable
(Nom du bureau local)
Un communiqu soigneusement formul est aussi prpar et sera envoy aux journaux locaux, stations de
radio, bureaux de police et bureaux de ladministration municipale les informant des activits prochaines
de lEGM et demandant leur collaboration pour informer le grand public. Plusieurs des principaux
paragraphes sont rdigs pour faciliter cette tche et ils seront lus en ondes ou imprims intgralement
dans les journaux. Le mme message sera ainsi diffus partout au pays.
9.3
Lquipe de lEGM doit laborer trois manuels : un pour le listage des logements, un pour linterview et
un pour les surveillants qui superviseront les deux oprations.
Lquipe de lEGM consulte des manuels utiliss dans des enqutes prcdentes sur les mnages pour
rdiger les manuels de lintervieweur et du surveillant, et elle en tire des sections compltes intgrer aux
manuels de lEGM. La majeure partie du manuel de listage doit cependant tre labore au complet parce
que le BSB na pas fait de listage auparavant. Lquipe peut consulter des manuels dautres pays qui
utilisent souvent des bases arolaires pour laborer le manuel.
Les surveillants seront embauchs et forms en premier lieu, comme nous lavons mentionn ci-dessus.
Ils devraient de prfrence avoir une exprience pralable de lenqute. Ils doivent aussi avoir les qualits
et les aptitudes personnelles ncessaires pour orienter efficacement une quipe de plusieurs intervieweurs
pendant les activits de listage et dinterview et pour intervenir en prsence de rpondants difficiles, tout
en garantissant la communication fiable et temps des donnes et dautres renseignements au bureau de
la statistique responsable. Tout le personnel embauch doit tre srieux et digne de confiance pour que le
travail soit accompli selon les directives et pour protger la confidentialit des donnes obtenues.
Les chargs de projet rgionaux formeront les 275 surveillants environ dont ils auront besoin. Lquipe de
lEGM prvoit faire un effort norme pour former suffisamment les chargs de projets rgionaux aux
volets des procdures de collecte, des concepts, des objectifs de lenqute, etc., pour quils soient en
mesure de travailler avec des petits groupes de reprsentants de district ou de sous-district, afin
dinterviewer les candidats aux postes de surveillant et de former ensuite ceux qui sont embauchs.
Ceux-ci collaboreront avec les reprsentants des bureaux de district et de sous-district sous lorientation
de lquipe de lEGM et des chargs de projets rgionaux pour interviewer et embaucher un nombre
suffisant dintervieweurs qualifis.
STATISTIQUE CANADA
TUDE DE CAS
395
Lquipe de lEGM prfrerait affecter au projet des membres du personnel actuel de la surveillance et de
linterview si possible. Cependant, si certains postes ne peuvent tre dots linterne en collaboration
avec les divers bureaux rgionaux, des annonces seront diffuses la radio, dans les journaux locaux et
les salles communautaires pour numrer les qualifications essentielles au travail et obtenir des
candidatures.
Les intervieweurs auront une formation approfondie pour les prparer leurs tches. Chacun deux doit
dabord tudier les manuels domicile et rdiger plusieurs exercices. Ils auront ensuite plusieurs jours de
formation en classe, y tudieront les techniques dinterview et les aptitudes cette fin, et ils seront trs
bien informs du questionnaire. Les surveillants discuteront des exercices des intervieweurs rdigs
domicile et y apporteront des corrections pendant la formation, et il y aura des interviews fictives aux fins
de la pratique avec dautres intervieweurs et des rpondants qui ne feront pas partie de lchantillon de
lEGM.
9.4
Listage
tant donn que le plan dchantillonnage utilise des grappes dlimites sur les cartes, la premire tche
des quipes dintervieweurs est didentifier les grappes slectionnes et daller sur place pour lister les
logements dans chaque grappe en ajoutant une description suffisamment dtaille pour que chacun soit
identifi uniquement et facilement repr sil est slectionn pour linterview. Les quipes se dplacent
pied, bicyclette ou en automobile, selon la taille gographique de la grappe.
Lorsque les listes sont compltes, le surveillant et le reprsentant du bureau du district ou du sous-district
(selon les instructions obtenues de lquipe de lEGM par lintermdiaire du charg de projet rgional)
slectionnent le nombre appropri de logements laide de lchantillonnage systmatique des listes
lorsque le charg de projet rgional leur a communiqu les origines choisies au hasard et les intervalles
dchantillonnage.
9.5
La collecte des donnes commence aprs lidentification des logements slectionns. Les intervieweurs
communiquent avec les mnages ou les citoyens qui habitent ces logements et, si possible, interviewent
les membres admissibles du mnage. Si aucun membre admissible linterview nest prsent domicile,
lintervieweur demande quand il(elle) peut communiquer de nouveau et, si personne nest prsent, il
laisse une note prcisant quil communiquera de nouveau plus tard. Si quelquun est prsent, mais sil ne
peut passer linterview, lintervieweur essaie de prendre des dispositions pour procder linterview dans
les jours suivants et insiste de nouveau sur limportance de la contribution de cette personne lenqute.
Si le chef du mnage refuse carrment linterview, lintervieweur essaie de le persuader une fois de plus,
mais se retire ensuite et mentionne le cas au surveillant charg du suivi pour convertir un refus en rponse
complte.
Lintervieweur vrifie si tous les documents dinterview sont complets et si le statut de chaque interview
est correctement entr dans les formules de contrle la fin de chaque journe. Certaines vrifications sur
place sont faites et si des erreurs sont dtectes, il y a communication avec le mnage le jour suivant pour
rgler les incohrences ou les omissions. Les formules sont retournes au bureau lorsquelles sont
compltes.
Le surveillant observe une certaine partie des interviews de chaque intervieweur, en particulier au dbut
de la priode de collecte des donnes, pour obtenir des donnes de trs bonne qualit. Les membres du
STATISTIQUE CANADA
396
personnel du bureau municipal et de lquipe de lEGM du BSB observent aussi certaines interviews dans
divers secteurs du district. Les surveillants donnent une rtroaction aux intervieweurs pour corriger les
erreurs et amliorer leurs aptitudes linterview.
Lquipe de lEGM applique aussi un programme de r-interviews, communique de nouveau avec un
sous-chantillon des units chantillonnes une semaine aprs la collecte des donnes pour vrifier des
renseignements critiques du questionnaire. Des prcisions sont apportes en collaboration avec le
rpondant sil y a des diffrences par rapport linformation originale. Les donnes tires de la rinterview serviront estimer lampleur des divers types derreurs non dues lchantillonnage (par
exemple, lerreur de couverture, de mesure, de non-rponse ou de traitement) dans les donnes.
Les surveillants vrifient galement si les questionnaires ont t remplis correctement et si les codes de
statut attribus sont exacts. Ils doivent aussi garantir que tous les questionnaires et autres formules sont
reprs et en ordre avant de les envoyer au bureau pour traitement.
Le surveillant et le personnel du bureau municipal organisent des sances dinformation lintention des
intervieweurs lorsque les interviews sont acheves, afin dobtenir une rtroaction prcieuse pour le
traitement des donnes et la rvision du questionnaire et des manuels en vue de la prochaine dition de
lEGM.
Questions de rcapitulation :
Est-il pratique dembaucher un aussi grand nombre dintervieweurs et de surveillants qui travailleront
pendant une priode aussi brve chaque trimestre? Quelles seraient les rpercussions si lon faisait
appel moins dquipes et si lon rpartissait les interviews sur plusieurs semaines? (Considrez divers
aspects, par exemple, les cots, la qualit des donnes et les autres oprations lies la collecte des
donnes, notamment le listage et le dnombrement.)
Pouvez-vous suggrer des amliorations apporter lbauche de la lettre aux rpondants pour les
aider comprendre quel point lenqute est importante et pour les convaincre que leurs rponses
seront confidentielles?
Il a t mentionn que la saisie des donnes serait faite aux bureaux de district. Est-ce la disposition la
plus efficace ou serait-il prfrable de faire la saisie des donnes au Bureau central?
STATISTIQUE CANADA
TUDE DE CAS
397
Chapitre 10 - Traitement
10.0 Traitement
Ds leur retour aux bureaux de la direction des districts ou des sous-districts, les questionnaires sont
traits pour obtenir un fichier de donnes do seront dresss des tableaux et les rsultats de lenqute
feront lobjet dune analyse. Les tapes franchir ce volet de lenqute comprennent le codage, la saisie
des donnes, la vrification et limputation, la dtection et le traitement des valeurs aberrantes, ainsi que
la cration dune base de donnes. Diverses procdures de contrle qualitatif et dassurance de la qualit
sont aussi labores et appliques.
STATISTIQUE CANADA
398
Une rtroaction tire des rsultats de lchantillonnage dacceptation est communique chaque oprateur
et, si ncessaire, une formation supplmentaire est offerte (ou, si les cibles ne sont pas atteintes,
loprateur est libr de sa tche). Les surveillants et les chargs denqute sont aussi informs des
indicateurs pertinents.
10.2 Vrification
La vrification commence lorsque les intervieweurs, et ensuite les surveillants, ont prtrait les
questionnaires pour vrifier sils sont correctement remplis et si le suivi auprs du rpondant est
ncessaire. Un autre prtraitement est fait au bureau avant la saisie des donnes et le codage.
Dautres vrifications sont faites pendant la saisie des donnes parce que les crans sont programms pour
dtecter certaines erreurs lentre au clavier. Elles comprennent les vrifications de validit pour les
codes inadmissibles. Si loprateur entre une valeur de trois huit pour le sexe du rpondant, par
exemple, lordinateur met un signal sonore et attend une correction parce que cette variable devrait tre
code 1 pour homme, 2 pour femme ou 9 pour une non-rponse.
Les programmes de saisie des donnes comprennent aussi des vrifications de convergence pour les
caractristiques errones de linstruction passez . la section de la description de fonctions, par
exemple, seuls les travailleurs autonomes sont senss rpondre aux questions JD2 JD4. Si le rpondant
nest pas un travailleur autonome, il devrait passer outre les questions JD2 JD4 et il faudrait entrer un
code (p. ex., 8 ) indiquant que les questions ne sappliquent pas. Si loprateur de la saisie des donnes
essaie dentrer une rponse lune de ces questions pour une personne qui nest pas travailleur autonome,
lcran de saisie des donnes met un signal sonore pour que loprateur vrifie la donne.
Une vrification plus complte est faite lorsque les donnes sont sur support lectronique. Ds que la
touche finale est apporte au questionnaire, lquipe commence formuler des rgles de vrification des
combinaisons inacceptables de codes pour les groupes de questions connexes (deux ou trois questions ou
plus). Un enregistrement serait rejet lapplication dune rgle de vrification, par exemple, si le
traitement semble trop lev ou trop faible tant donn le nombre dheures travailles. Ces rgles de
vrification sont appliques automatiquement au fichier de donnes. Lquipe a cependant t informe
des risques de la survrification et de la ncessit dapporter seulement les modifications minimales
ncessaires aux donnes du rpondant, et les rejets la vrification seront imputs seulement si
lenregistrement a des rpercussions importantes sur lestimation. Des zones de signalisation
particulires sont donc prvues pour chaque question, afin dindiquer si la zone a t rejete la
vrification et si elle devrait tre entre dans le systme dimputation.
tant donn les tapes de prtraitement et de vrification manuelle, trs peu denregistrements ont encore
tellement de rejets la vrification cette tape quils doivent tre dclars inutilisables. Ces cas sont
traits comme une non-rponse totale. Ils sont traits comme les refus et dautres occurrences de nonrponse totale ltape de la collecte des donnes, et un ajustement est apport aux pondrations de
lenqute pour redressement.
10.3 Imputation
Les zones rejetes lapplication dune rgle de vrification et les non-rponses une question des
enregistrements utilisables du questionnaire sont analyses pour imputation ventuelle. La mthode
dimputation varie selon le genre de question.
STATISTIQUE CANADA
TUDE DE CAS
399
La redondance dans les questions de quelques zones permet limputation dterministe. La section sur la
composition des mnages comprend, par exemple, une zone pour la taille totale du mnage, ainsi que le
nom, lge, etc. de tous les membres du mnage. Si ces zones sont toujours incohrentes malgr la
vrification prcdente, la taille totale du mnage est signale inexacte et limputation dterministe est
applique la valeur qui devient le nombre de personnes inscrites dans les autres zones.
Dautre part, si un rpondant dclare un revenu de la vente de produits agricoles, mais ninscrit pas une
somme, la valeur est impute laide de la mthode hot-deck (donneur de lenqute) alatoire en utilisant
comme donneurs ventuels tous les autres rpondants dans la mme strate qui tirent un revenu de cette
activit. Sil ny a pas de donneur convenable, le groupe de donneurs ventuels est largi pour
comprendre tous les rpondants de la mme rgion.
Lorsque limputation est acheve, les programmes de vrification peuvent de nouveau tre appliqus aux
fichiers de donnes pour garantir que les donnes sont entirement cohrentes. Il faut appliquer de
nouveau limputation au fichier pour liminer les quelques enregistrements toujours rejets aprs
lapplication de rgles de vrification et le fichier est ensuite vrifi de nouveau pour en dterminer la
cohrence.
Les indicateurs de diagnostic, par exemple, le nombre de cases imputes dans chaque zone, le genre
dimputation applique, le nombre de donneurs admissibles, la frquence de leur utilisation et dautres
mesures, sont simultanment enregistrs comme entres au processus dvaluation de lenqute. Ces
indicateurs serviront ltape de lvaluation pour calculer les taux de rejet la vrification et les taux
dimputation pour les principales variables de lenqute et les variables qui affichent le plus grand nombre
de problmes. Les signalisations dimputation et de vrification sont aussi maintenues au fichier pour
aider dterminer la qualit de la base de donnes dfinitive dans lensemble.
STATISTIQUE CANADA
400
STATISTIQUE CANADA
TUDE DE CAS
401
Il y a une grande diffrence de rpartitions des professions entre les hommes et les femmes. Malgr
un dplacement apparent des femmes vers les professions de gestion et des hommes vers les secteurs
des ventes et services, les structures professionnelles traditionnelles des hommes et des femmes se
maintiennent :
i.
Il y a plus de femmes que dhommes qui travaillent dans les secteurs suivants : ventes et
services, affaires, finances et administration, sciences sociales, enseignement, service
gouvernemental et religion, arts, culture, loisirs et sports, sant.
ii. Dautre part, il y a plus dhommes que de femmes affects des postes de col bleu, de
gestion, de sciences naturelles et appliques.
STATISTIQUE CANADA
402
Gestion
Affaires, finances et administration
Sciences naturelles et appliques
Sant
Sciences sociales, enseignement, service gouvernemental et
religion
Arts, culture, loisirs et sports
Ventes et services
Commerce, transport et fonctionnement du matriel
Industrie primaire
Traitement, fabrication et services publics
Total
2,4
19,6
24,5
6,0
10,5
100,0
3,2
31,5
2,2
2,0
5,2
100,0
Gestion
Affaires, finances et administration
Sciences naturelles et appliques
Sant
Sciences sociales, enseignement, service gouvernemental et
religion
Arts, culture, loisirs et sports
Ventes et services
Commerce, transport et fonctionnement du matriel
Industrie primaire
Traitement, fabrication et services publics
Total
47,4
42,6
93,0
78,1
70,7
54,5
52,6
57,4
7,0
21,9
29,3
45,5
STATISTIQUE CANADA
TUDE DE CAS
403
Figure 11.1 Taux horaires des hommes (1) et des femmes (2)
80
traitements
60
40
20
0
1
2
se xe
Lanalyste teste lhypothse nulle selon laquelle les traitements moyens des hommes et des femmes sont
les mmes, comparativement lhypothse alternative, selon laquelle ils sont diffrents. Elle constate
qu un niveau de confiance de 95 %, ils sont diffrents.
Aprs avoir rflchi au lien entre les traitements et le sexe cependant, lanalyste se demande si dautres
variables pourraient aussi avoir des rpercussions. Elle souponne que lge, la scolarit, la branche
dactivit et la profession peuvent aussi tre lis aux gains. Elle dcide de faire une analyse de variance de
la variable traitements pose comme variable dpendante, mais elle doit dabord dcider comment
traiter certaines variables indpendantes.
Premirement, lge nest pas le bon genre de donnes utiliser dans une analyse de la variance et, avant
de faire cette analyse, lanalyste doit dabord grouper la variable dge. Elle dcide de la grouper en
tranches de 10 ans et dintgrer une variable calcule la base de donnes intitule groupe dge qui
comprendra la valeur 1 pour une personne ge de moins de 25 ans, 2 pour une personne ge de 25
34 ans, etc.
Elles doit ensuite dterminer que faire des variables profession et branche dactivit. Celles-ci sont
tablies laide des systmes de classification type qui comprennent un code quatre chiffres. Le premier
chiffre indique la branche dactivit gnrale ou le groupe de professions et chaque chiffre suivant prcise
davantage. Il y a des milliers de groupes au total pour chaque systme de codage et ils sont trop nombreux
pour les utiliser dans une analyse de la variance. Il y a trop peu de rpondants dans certains groupes pour
donner des rsultats significatifs. Les systmes de codage sont aussi trs subjectifs et lon a impression
que les taux derreur sont trs levs au niveau de quatre chiffres. Compte tenu de tous ces points,
lanalyste dcide de tronquer les codes au seul premier chiffre pour lanalyse.
Aprs avoir calcul les variables ncessaires, lanalyste fait lanalyse de la variance laide des
traitements comme variable dpendante et du groupe dge, du sexe, de la scolarit, de la branche
dactivit et de la profession comme variables indpendantes. Le modle se rvle significatif, cest--dire
quil explique une variation marque dans les traitements et chacune des variables indpendantes devient
aussi un lment important de la variation des traitements.
STATISTIQUE CANADA
404
Lanalyste souponne cependant quil peut y avoir une certaine interaction entre les variables
indpendantes. Quen est-il, par exemple, si lge de la personne dtermine les rpercussions du sexe sur
les traitements? Afin dtudier ces questions, lanalyste dcide dajouter toutes les rpercussions de
linteraction au modle pour examiner leur influence sur les traitements. Elle constate que toutes les
rpercussions de linteraction sont importantes lexception du groupe dge par branche dactivit. Cela
signifie que, non seulement le groupe dge, le sexe, la scolarit, la branche dactivit et la profession
dterminent les traitements, mais que la plupart des combinaisons de ces variables ont aussi des
rpercussions sur les traitements.
Lanalyste ralise que la question est trs complique et quil faut faire davantage de recherche.
STATISTIQUE CANADA
TUDE DE CAS
405
STATISTIQUE CANADA
406
ii.
Rapports danalyse dtaille. Lquipe de lEGM prvoit produire une srie de rapports
analytiques rdiger en collaboration avec divers organismes utilisateurs.
iii.
Rapports techniques. Ces rapports donneront des dtails sur la mthode denqute, le plan
dchantillonnage, la mthode destimation, les procdures de collecte et de traitement des
donnes, etc.
TUDE DE CAS
407
Voil pourquoi lquipe a dtermin une rgle limite prliminaire prcisant quil doit y avoir au moins dix
rpondants dans une case dun tableau avant de le diffuser. Lquipe considre que cette mesure et la
suppression rsiduelle connexe sont suffisantes dans la plupart des cas et probablement trs
conventionnelles dans lensemble. Lquipe prfre regrouper les cases caractre dlicat avec les cases
voisines lorsque cest possible, au lieu de simplement les supprimer, parce que cette mesure aidera
minimiser les nombres autrement levs de suppression de cases complmentaires.
Questions de rcapitulation :
Le principal rapport de lenqute devrait-il tre mis la disposition du grand public et tre ainsi ajout
aux sries rgulires de publications du BSB ou le rapport de la premire dition devrait-il tre restreint
au personnel du BSB et aux utilisateurs de donnes connus dans dautres ministres?
Recommandez dautres mthodes de contrle de la divulgation possible qui pourrait tre considres
pour lEGM.
STATISTIQUE CANADA
408
13.0 Introduction
Lobjectif de ce rapport est de dcrire et dvaluer les pratiques de planification et de gestion appliques
lEnqute gnrale sur les mnages (EGM) de Belleterre, afin de tirer des leons de lexprience. Il sagit
de notes personnelles qui ne seront pas distribues lquipe du projet ou au Comit directeur. titre de
charg de projet, jajouterai cependant certains points considrs dans ce rapport au rapport officiel
dvaluation de lenqute aux fins de lamlioration du questionnaire et des procdures pour la prochaine
dition de lEGM.
13.1 Contexte
Pleinement conscient du besoin de plus en plus urgent dinformation jour sur ltat de lconomie et de
la situation socioconomique de la population, le Bureau de la statistique de Belleterre (BSB) a dcid
damliorer son programme statistique. Le BSB convient en particulier de la ncessit dobtenir des
donnes pertinentes sur la situation des mnages en milieu urbain et rural au pays.
Lquipe du projet, avec le soutien du gouvernement national, a donn suite une proposition denqute
sur les conditions socioconomiques des mnages en milieu urbain et rural au pays. Les grands sujets
considrs dans lenqute taient les caractristiques sociodmographiques, le march du travail, les traits
communs des revenus et dpenses, ainsi que les indicateurs des conditions de vie. Un certain nombre
dimportants ministres nationaux ont demand lquipe de lEGM dobtenir de linformation
supplmentaire sur ltat de sant de la population, les activits agricoles des mnages en milieu rural et
urbain et les petites entreprises.
Dans le contexte de ces objectifs, un Comit directeur a t nomm pour surveiller le droulement de
lenqute. Le Comit directeur comprenait des directeurs reprsentant les domaines de la statistique sur la
main-duvre et les mnages, de la mthodologie, de linformatique et de la collecte des donnes. Le but
du Comit directeur tait de donner suite aux besoins dinformation du BSB et dapprouver dimportantes
dcisions, notamment, lnonc des objectifs, le budget, lchancier, etc.
Lune des premires tapes du processus de planification a t lidentification des domaines propos
desquels peu ou pas dinformation existait et la prparation dune proposition denqute. Un charg de
projet intrimaire a t nomm et celui-ci a trouv de linformation initiale sur les solutions de rechange
une enqute (p. ex., les donnes disponibles dune autre enqute ou source administrative), ainsi que sur
le cot et la faisabilit dune enqute. Cet examen prliminaire tait axe sur la consultation dexperts de
diverses disciplines qui pourraient tre engags dans lquipe de lenqute (bien que ces experts naient
pas, en dfinitive, t nomms membres de lquipe de lenqute). Le Comit directeur a considr la
proposition denqute et dcid de procder une laboration plus substantielle en vue de formuler un
nonc des objectifs et de tracer un plan denqute.
STATISTIQUE CANADA
TUDE DE CAS
409
STATISTIQUE CANADA
410
De retour au Comit directeur au nom de lquipe du projet, jai prsent lbauche du budget, de
lchancier (Tableau 13.1) et de lnonc des objectifs. Le Comit directeur a dcid que la planification
devrait continuer seulement pour les quatre principaux thmes et quon pourrait communiquer de nouveau
avec les autres ministres intresss aprs le premier cycle de lenqute. Le budget, lchancier et
lnonc des objectifs en taient seulement ltape dune bauche approximative, mais le Comit
directeur a approuv le budget et approuv officiellement llaboration et le plan de lenqute.
Ayant vcu lexprience du processus de planification de nombreuses occasions, je savais que lnonc
des objectifs demanderait encore beaucoup de travail (ainsi que le budget et lchancier) avant
dentreprendre le plan denqute en soi. Lquipe du projet a donc continu dlaborer lnonc des
objectifs. Jai rencontr les ministres intresss pour les informer que lEGM serait plus troitement
cible au cours du premier cycle et quils seraient invits, au cours des annes ultrieures, proposer des
ajouts lenqute.
Le Comit directeur a inform peu aprs lquipe du projet que le budget tait rduit de moiti et quelle
devrait concentrer ses efforts sur lun des principaux thmes, tout en prparant une infrastructure
denqute qui pourrait immdiatement prendre de lexpansion au cours de la deuxime anne. Le Comit
directeur et lquipe du projet ont considr les leons apprises jusqu maintenant, dcid de cibler la
composante du march du travail et de reporter lan prochain les autres sujets de la liste. La situation
tait dcevante pour les membres de lquipe du projet, en particulier ceux qui avaient travaill sur les
thmes retranchs), mais ils ont vite ralis que la dcision tait la meilleure long terme. Les membres
auraient maintenant davantage de temps pour concentrer leurs efforts sur la production dun bon produit
aux fins de la collecte de donnes de qualit. La touche finale a rapidement t apporte lnonc des
objectifs qui ont t prsents au Comit directeur pour approbation.
Lquipe du projet a ensuite entrepris la rdaction dune bauche de rapport de planification, afin de
prsenter les options de base de sondage, de plan dchantillonnage, de collecte des donnes, de
traitement, danalyse, de diffusion, etc., et den discuter. Ce rapport de planification a t prsent au
Comit directeur et lquipe du projet a demand des conseils sur plusieurs questions, y compris la
dfinition des populations cible et observe, la base dchantillonnage utiliser, les mthodes de collecte
des donnes, etc. Le Comit directeur a donn peu de conseils dimportance et, en majeure partie, a
demand lquipe du projet de prendre ces dcisions.
Contenu
Mme S a entrepris llaboration du questionnaire aprs avoir formul les concepts et dfinitions pour
lnonc des objectifs. Elle surveillait de nouvelles recrues et voulait bien entendu que le groupe acquire
une exprience en milieu dquipe de projet. Les experts en la matire de son quipe navaient aucune
exprience prcdente de lenqute, mais ils taient enthousiastes, mme si leurs attentes taient parfois
peu ralistes. Il y a eu de nombreuses runions de lquipe du projet (et beaucoup de temps perdu) pour
discuter des propositions des membres subalternes de lquipe des spcialistes du contenu. Il aurait t
plus efficace que ces experts discutent entre eux et, aprs avoir tabli le consensus sur loption prfre,
quils laient prsente lquipe du projet. Jen suis arriv suggrer cette procdure et la conception du
questionnaire, ainsi que les tapes ultrieures, se sont droules beaucoup plus facilement et rapidement.
STATISTIQUE CANADA
TUDE DE CAS
ii.
411
Mthodologie
Le mthodologiste denqute navait pas dexprience, mais il a achev son travail rapidement et
efficacement. Il tait aussi charg de la conception des systmes de contrle qualitatif pour la saisie et le
codage des donnes. M. M. ntait pas dispos au dpart faire des compromis sur le nombre
dinspections de contrle qualitatif ncessaires. Il soutenait que les taux derreur des sorties pour la saisie
et le codage des donnes devraient tre prs de 0 %. Jai pu le convaincre aprs plusieurs discussions de la
ncessit dun compromis entre le cot et la qualit.
iii.
Programmation
Lanalyste des systmes a obtenu toutes les spcifications temps, mais les systmes ntaient pas prts
la mise lessai au moment opportun. Je ne sais toujours pas quel a t le problme exactement. Le
programmeur avait une autre charge de travail trop lourde, mon avis, et il na pu rpartir son temps avec
efficacit. La situation a eu des rpercussions importantes sur ltape de la mise en uvre (considre la
section suivante).
iv.
Lagent des oprations et de la collecte des donnes a efficacement pris en charge le recrutement, la
formation, la surveillance et le contrle du personnel de la collecte des donnes, notamment les
intervieweurs et les surveillants, ainsi que les oprateurs de la saisie et les codeurs des donnes. Tous les
manuels ont t produits temps et ils taient dexcellente qualit. Lagent des oprations et de la collecte
des donnes a visit plusieurs bureaux de la statistique rgionale pour observer le recrutement et la
formation.
Au cours de ltape de la conception et de llaboration de lenqute, les runions de lquipe du projet
ont t moins frquentes pour donner davantage de temps aux membres de travailler leurs plans de
composante et pour examiner les plans des autres membres de lquipe. Le Comit directeur a t inform
de toutes les dcisions de lquipe du projet, mais la rtroaction a t rare.
Le taux de rponse obtenu tait infrieur celui que nous avions prvu. Le taux de rponse prvu
tait de 80 %, mais le taux rel a atteint 68 % seulement. Ce rsultat a suscit deux
proccupations.
a. Premirement, le taux lev de non-rponse pourrait ajouter un biais aux rsultats de
lenqute. Une tude de suivi des non-rponses est prvue pour examiner la question et les
caractristiques des non-rpondants, comparativement celles des rpondants. Cette tude
servira planifier les procdures de suivi des non-rponses pour les enqutes ultrieures.
STATISTIQUE CANADA
412
ii.
iii.
Il est devenu vident lexamen des commentaires la section Autre (veuillez prciser) de la
Question E3 que les rpondants ou les intervieweurs nont pas compris les catgories de rponse.
Ces commentaires ayant fait lobjet dun examen pendant la collecte, il a t possible denvoyer
des instructions aux intervieweurs pour prciser les questions et les catgories de rponse, afin
dobtenir des donnes exactes par la suite. Dans le cas des questionnaires dj reus, les experts
en la matire ont examin les donnes de la question et chang les codes au besoin.
13.5 valuation
Jai plusieurs observations faire sur lvaluation de la planification et de la gestion de lEGM :
i.
Il est assez rapidement devenu vident que le Comit directeur ntait pas suffisamment engag
dans le processus de prise de dcisions. Il semblait satisfait de laisser lquipe du projet prendre
toutes les dcisions, mme celles qui avaient de grandes consquences. Jaurais d exprimer ma
proccupation ce sujet au Comit directeur. Jen ai plutt discut avec lquipe du projet, mais
certains membres navaient pas suffisamment dexprience pour faire des commentaires utiles.
ii.
iii.
Lchancier original tait trop serr. Nous aurions d attribuer davantage de temps entre les
produits livrer pour viter les problmes. tant donn le manque dexprience et la lourde
charge de travail de plusieurs membres de lquipe du projet, jaurais d tablir un chancier
plus conventionnel. Dautre part, jaurais pu maintenir lchancier constant et affecter davantage
de personnes certaines des principales tches, notamment la programmation.
STATISTIQUE CANADA
TUDE DE CAS
413
iv.
Les non-rponses sont un problme de lEGM quil faut rgler. Il faudra valuer la possibilit de
biais de non-rponse (en particulier dans certains sous-groupes de la population) dans lEGM
actuel. Aux fins des ditions ultrieures de lEGM, je recommanderais lapplication de
procdures amliores de suivi des non-rponses pour obtenir un taux de rponse lev. Nous
avons actuellement des donnes trs agrges seulement la disposition des utilisateurs. Elles
seraient beaucoup plus utiles si elles pouvaient tre plus dtailles.
v.
Un grand nombre de migrants rcents occupaient des logements temporaires. La situation peut
causer certains problmes si les mmes logements sont inclus dans plus dune phase de lenqute.
Tableau 13.1 : chancier de lEGM
tapes
nonc des objectifs
Plan denqute
Budget
Conception du questionnaire
Plan danalyse
Spcifications Plan dchantillonnage
Spcifications Mthode de collecte des
donnes
Spcifications Vrification et
imputation
Spcifications Contrle qualitatif
Spcifications Saisie des donnes
Spcifications Estimation, variance
laboration du systme informatique
Mise lessai du systme informatique
Manuels sur place
Relations publiques
Responsable
Direction, matire
Tous
Direction
Matire
Matire
Mthodologie
Collecte des donnes
Dbut
1er janvier
1er fvrier
1er janvier
1er mars
1er avril
1er mars
1er mars
Fin
31 janvier
28 fvrier
31 janvier
31 mars
30 avril
30 avril
31 mars
Mthodologie, matire
1er avril
30 avril
Mthodologie
Collecte des donnes
Mthodologie
Programmation
Tous
Collecte des donnes
Direction, Collecte des
donnes
Collecte des donnes
Collecte des donnes
Collecte des donnes
Collecte des donnes
Collecte des donnes
Collecte des donnes
Collecte des donnes
Collecte des donnes
Mthodologie, matire
Matire
Mthodologie, matire
Mthodologie
Direction, matire
Tous
1er mai
1er avril
1er juin
1er juin
15 juillet
1er juin
1er aot
31 mai
30 avril
30 juin
15 aot
31 aot
31 juillet
31 aot
15 aot
1er septembre
15 septembre
26 septembre
1er octobre
10 octobre
15 octobre
1er novembre
15 novembre
1er dcembre
1er dcembre
15 dcembre
31 dcembre
1er janvier
31 aot
12 septembre
30 septembre
30 septembre
14 octobre
14 octobre
31 octobre
14 novembre
30 novembre
14 dcembre
25 dcembre
25 dcembre
31 dcembre
31 dcembre
STATISTIQUE CANADA
P U B L I C AT I O N S LECTRONIQUES
DISPONIBLES
w w w. s t a t c a n . g c . c a
415
Index
-
Autodnombrement: 4.1.1
STATISTIQUE CANADA
416
o
o
Bootstrap: 7.3.4
CAPI/CASI/CATI: 4.2.
Codage: 10.1
STATISTIQUE CANADA
INDEX
417
dpistage: 9.3.4
embauche et formation des interviewers: 9.3.2
listage: 9.3.3,3.3.1.2
manuel des interviewers: 9.3.1.1
manuel du superviseur: 9.3.1.2
Relations avec les rpondants: 9.2.2
Relations publiques: 9.2
Surveillance de la qualit et du rendement: 9.5.1
gestion des tches dintervieweurs: 9.5.2
surveillance des surveillants: 9.5.3
Dpistage: 9.3.4
STATISTIQUE CANADA
418
chantillonnage: 6.0
STATISTIQUE CANADA
INDEX
419
Exactitude: 6.2.1
Famille: 2.1.3
Imputation: 10.4
Infrence: 11.4.
Jackknife: 7.3.4
Listage: 9.3.3
STATISTIQUE CANADA
420
Logement: 2.1.3
Mnage: 2.1.3
Poids
o Ajustement pour non-rponse: 7.1.3
o Information auxiliaire: 7.1.4
Calibration et rgression gnralise: 7.1.4.3
Estimation par le ratio: 7.1.4.2
Stratification a posteriori: 7.1.4.1
o Poids du plan: 7.1
Pour un plan avec probabilits ingales: 7.1.2
Pour un plan quiprobable: 7.1.1
Prcision: 6.2.1
Qualit: Annexe B
o Assurance de qualit: Annexe B : 3.0
o Contrle de qualit: Annexe B
STATISTIQUE CANADA
INDEX
Recensement: 6.1
Rpartition
o CV gaux 8.2.1.2
o De Neyman: 8.2.2.2.5
o gale 8.2.1.1
o En puissance: 8.2.2.2.3
o Optimale 8.2.2.2.4
o Proportionnelle ( N) 8.2.2.1
o Proportionnelle Y, N , Y 8.2.2.2
STATISTIQUE CANADA
421
422
Formules: 8.1.3
Units:
o Unit dchantillonnage, de rfrence, denqute 3.3
Vrification: 10.3
STATISTIQUE CANADA