Vous êtes sur la page 1sur 398

Sous lu direction de

Marie-Eve Tremblay
Pierre Lavallée
Mohammed El haj Tirari

Pratiques et méthodes

de sondage

DUNOD
Les contributions «Une approche comparative pour ordonner les attentes des usagers selon leur importance»
par Marie-Ève Tremblay et Sylvain Végiard et «Estimation du taux d'emploi régional québécois chez les
personnes ayant une incapacité à l'aide du modèle de Fay-Herriot» par Éric Gagnon et Robert Courtemanche
sont reproduites avec l'aimable autorisation des Publications du

Couverture © BCDesigns - Fotolia.com

Le pictogramme qui figure ci-contre d'enseignement supérieur, provoquant une


mérite une explication. Son objet est baisse brutale des achats de livres et de
d'alerter le lecteur sur la menace que revues, au point que la possibilité même pour
représente pour l'avenir de l'écrit, les auteurs de créer des œuvres
particulièrement dans le domaine DANGER nouvelles et de les faire éditer cor-
de l'édition technique et universi- rectement est aujourd'hui menacée.
taire, le développement massif du Nous rappelons donc que toute
pholocopillage. reproduction, partielle ou totale,
Le Code deerla propriété intellec- de la présente publication est
tuelle du I juillet 1992 interdit LEPHOTOCOPILLAGE interdite sans autorisation de
en effet expressément la photoco- TUE LE LIVRE l'auteur, de son éditeur ou du
pie à usage collectif sans autori- Centre français d'exploitation du
sation des ayants droit. Or, cette pratique droit de copie (CFC, 20, rue des
s'est généralisée dans les établissements Grands-Augustins, 75006 Paris).

© Dunod, Paris, 2011


ISBN 978-2-10-056808-6
c
Q
tH
q Le Code de la propriété intellectuelle n'autorisant, aux termes de l'article
L. 122-5, 2° et 3° a), d'une part, que les «copies ou reproductions strictement
réservées à l'usage privé du copiste et non destinées à une utilisation collective »
et, d'autre part, que les analyses et les courtes citations dans un but d'exemple et
d'illustration, « toute représentation ou reproduction intégrale ou partielle faite
.ET1 sans le consentement de l'auteur ou de ses ayants droit ou ayants cause est
illicite » (art. L. 1224).
Cette représentation ou reproduction, par quelque procédé que ce soit, constitue-
rait donc une contrefaçon sanctionnée par les articles L. 335-2 et suivants du
Code de la propriété intellectuelle.
Table des matières

AVAm"-PROPOS

CHAPITRE 1 • HISTGRE ET COISfTB(TE DES SONDAGES


1. Les techniques d'enquête dans les pays en développement :
la démarche historique est-elle porteuse de leçons ?
Jean-Jacques Droesbeke 1
2. Le développement des sondages aléatoires aux États-Unis pendant
la Grande Dépression
Emmanuel Didier 10
3. Histoire des pratiques de sondage d'opinions en Algérie : éléments de réflexion
Hasna Amina Kadri-Messaïd 18
4. L'entrelacs des contes et des comptes : quelques facettes des enquêtes d'opinion
Hélène Yvonne Meynaud 23

CHAPITRE 2 • ENQUÊTES SUR LA SANTÉ ET L'ÉDUCATION


1. Une approche comparative pour ordonner les attentes des usagers
selon leur importance
Marie-Ève Tremblay et Sylvain Végiard 29
2. Santé au travail : quelle santé ? quel travail ?
q Catherine Cavalin et Sylvie Célérier 35
3. Un dispositif spécifique pour l'enquête Handicap-Santé en France
Françoise Yaouancq 39
4. Constitution d'une base de sondage à partir de fichiers de gestion de
départements volontaires et représentativité nationale
.g1 Séverine Dos Santos 45
v_
5. Mesure de l'influence des facteurs socioéconomiques sur l'obésité :
regards croisés des modèles logistiques et quantiles
Anastase Tchicaya et Modou Dia 49
Pratique et méthodes de sondages

"D
o
C
D
Û

o
(N
O
■SZ
CT1
>-
CL
O
U
Table des matières

"D
O
C
=3
Û

o
(N
O
■SZ
CT1
>-
CL
O
U
iv Pratique et méthodes de sondages

"D
O
C
D
Û

o
(N
O
■SZ
CT1
>-
CL
O
U
Table des matières

"D
O
C
=3
Û

o
(N
O
■SZ
CT1
>-
CL
O
U
vi Pratique et méthodes de sondages

"D
O
C
D
Û

o
(N
O
■SZ
CT1
>-
CL
O
U
Avant-propos

Depuis toujours, l'enquête s'est avérée un outil indispensable comme


source de connaissance directe. Que l'on procède par l'utilisation du sondage,
ou que l'on mesure l'information à partir d'une collecte exhaustive au sein de
la population, l'enquête est devenue un outil essentiel à l'observateur de la
société contemporaine soucieux de comprendre son fonctionnement. On peut
ainsi établir le portrait d'une population ou appréhender les facettes d'une
situation complexe. Les modalités d'utilisation des enquêtes fluctuent d'un
pays à l'autre. C'est ainsi que les pratiques et méthodes d'enquêtes s'avèrent
souvent différentes selon que l'on soit en Europe, en Afrique ou en Amérique
du Nord. Cependant, au-delà de ces différences, plusieurs aspects de la
réalisation d'un sondage et de l'analyse des données d'enquête font l'objet
d'une problématique qui transcende les frontières nationales. Ainsi, bien que
le contexte de l'enquête et du sondage apparaisse souvent différent, on
retrouve des bases théoriques communes et certaines pratiques rapprochent la
méthodologie des enquêtes entre les pays. Par ailleurs, internationalisation
oblige, les méthodologues d'enquête doivent contribuer de plus en plus à
l'harmonisation des pratiques statistiques nationales. Ce recueil participe à cet
effort en traitant de la pratique des sondages en Europe, en Afrique et en
Amérique du Nord.
Les sept chapitres de cet ouvrage résument les présentations des
intervenants au sixième Colloque francophone sur les sondages qui a eu lieu
à Tanger (Maroc) en mars 2010. Ce colloque est un événement scientifique
international organisé par le groupe Enquêtes de la Société française de
statistique. Ce livre dresse un vaste panorama des avancées méthodologiques
récentes dans la théorie et l'application des sondages en Europe, en Afrique et
en Amérique du Nord, Il intéressera les étudiants, enseignants, chercheurs et
viii Pratique et méthodes de sondages

professionnels qui veulent un aperçu de l'utilisation actuelle des sondages


dans le monde francophone. Il fait suite à la publication par les éditions
Dunod des interventions des cinq premiers colloques francophones sur les
sondages qui ont eu lieu respectivement à Rennes, Bruxelles, Grenoble,
Québec et Marseille.
Le premier chapitre de cet ouvrage présente certains aspects historiques et
contextuels des sondages. Jean-Jacques Droesbeke discute des techniques
d'enquête dans les pays en développement et se demande si l'histoire est
porteuse de leçons. Il rappelle quatre méthodes de base — le recensement, la
méthode du multiplicateur, la monographie et le sondage — et discute de leur
utilisation de 1885 à nos jours. Il conclut en mentionnant que « rien ne sert
d'appliquer une méthode inapplicable si les conditions menant à la fiabilité de
la procédure ne sont pas réunies. » Par la suite, Emmanuel Didier parle de la
A
Grande Dépression qui a frappé les Etats-Unis pendant les années 1930. Cette
dépression, qui était bien plus qu'une crise économique, a bouleversé jusqu'à
la conception que les Américains se faisaient d'eux-mêmes. Pour décrire la
société qui était en train d'émerger de la dépression, un travail de légitimation
scientifique, d'exploration socio-anthropologique et d'articulation politique a
été fait de sorte que les sondages deviennent des instruments efficaces de
l'administration. Cette dernière a pu alors prendre connaissance des
conditions dans laquelle vivait la population depuis le début de la crise. Hasna
Amina Kadri-Messaïd nous parle des pratiques de sondage d'opinion en
Algérie. On y voit que la pratique des sondages est relativement nouvelle en
Algérie puisqu'ils étaient inexistants durant la période de l'économie
centralisée. Depuis les années 90, les sondages ont fait leur apparition en
même temps que l'arrivée des nouvelles technologies de l'information
(Internet et les paraboles). La problématique des sondages en Algérie n'est
pas seulement liée aux aspects techniques, mais aussi à la maîtrise des
caractères profonds et complexes de la société algérienne. Pour terminer ce
chapitre, Hélène Yvonne Meynaud souligne quelques aspects contemporains
des mesures de l'opinion. Elle souligne la métamorphose de l'opinion à la
mince frontière entre le subjectif et l'objectif. Ainsi, l'enquête d'opinion
mesure l'écart entre l'attente concernant un produit ou un service et sa
perception après consommation.
Le deuxième chapitre aborde les importants thèmes des enquêtes sur la
• . v
santé et l'éducation. Marie-Eve Tremblay et Sylvain Végiard ordonnent les
attentes des usagers des services de santé au Québec avec un questionnaire
comparatif. Catherine Cavalin et Sylvie Célérier présentent une description
des états de santé de personnes d'âge actif en France en issue de l'enquête
transversale Événements de vie et santé. Par la suite, Françoise Yaouancq
explique le dispositif spécifique utilisé pour le volet « institutions » de
l'enquête Handicap-Santé. Il s'agissait ici d'effectuer une pré-enquête auprès
d'institutions, avant de sélectionner un échantillon d'individus vivant en
Avant-propos ix

institution. Séverine Dos Santos décrit une enquête auprès de bénéficiaires de


prestations pour handicapés comprenant deux volets, respectivement
administratif et en face-à-face, avec le bénéficiaire. Ce dernier a requis la
construction d'une base de sondage à partir de fichiers départementaux
métropolitains de France. Anatase Tchicaya et Modou Dia présentent la
mesure de l'influence des facteurs socio-économiques sur le surpoids et
l'obésité au Luxembourg en se basant sur les données de l'enquête
longitudinale Vivre cm Luxembourg. Côté éducation, Jean Dumais et Gildas
Kleim nous décrivent les deux enquêtes internationales TAL1S et TEDS
auprès, non pas aux élèves, mais des enseignants et maîtres. Nathalie Caron,
Sylvie Lemaire et Delphine Perelmuter présentent la constitution d'un panel
de bacheliers de 2008 issus d'une même session de baccalauréat en France.
Cette cohorte de bacheliers s'avère un outil indispensable pour le suivi des
parcours universitaires et professionnels. Souleymane Ouedraogo nous décrit
une proposition de méthodologie d'enquête pour le contrôle et la performance
a s
de l'enseignement secondaire au sein d'Etats africains. Kalbi Flavien Zongo
analyse le plan de sondage du PASEC {Programme d'analyse des systèmes
éducatifs de la Conférence des ministres de l'éducation des pays ayant le
français en partage) destiné à identifier le système éducatif le moins coûteux
et le plus performant. Ridouan Chiheb, Ridwan Faizi, Abdellatif El Afia et
Mohammed El-Haj-Tirari présentent une nouvelle approche de la mesure des
performances des apprenants basée sur une banque de questions et une
génération aléatoire de tests. Sidonie Gouem et Adama Traore nous parlent de
la mesure de l'alphabétisation au Burkina Faso, dans les recensements et les
enquêtes. Pour clore ce chapitre, Driss Driouchi et Moustapha Faizi
présentent une enquête d'évaluation de l'enseignement des méthodes
quantitatives en économie et gestion de la faculté d'Oujda.
Le troisième chapitre traite des enquêtes sociales. Corinne Régnard ouvre le
s
bal en nous parlant de l'enquête ELIPA {Etude longitudinale sur l'intégration
des primo-arrivants) qui se veut un suivi de cohortes de migrants interrogés
dès leur admission au séjour en France. Ensuite, Didier Nganawara discute
des sources, des concepts et de la compatibilité des données sur les migrations
internationales dans les pays de la Communauté économique et monétaire de
l'Afrique centrale. Nicolas Razafindratsima, Stéphane Legleye et Cris
Beauchemin scrutent le biais de non-réponse du volet sénégalais de l'enquête
Migrations entre l'Afrique et l'Europe. Frédérique Andriamaro et Valérie
Delaunay présentent une méthode de reconstitution de la composition
familiale de ménages à Madagascar appliquée aux Enquêtes démographie et
santé. Peter-Paul Borg et Guillaume Osier traitent de l'harmonisation
européenne des enquêtes Budget des ménages, essentielles à la pondération
des indices de prix à la consommation. De même, Ousman Koriko compare la
qualité des plans de sondage des enquêtes sur les dépenses des ménages dans
les pays de l'Union économique et monétaire ouest-africaine. Wilfried Rault,
X Pratique et méthodes de sondages

Magali Mazuy, André Rivière et Laurent Toulemon présentent le


renouvellement thématique de l'enquête Famille et logements associée au
recensement de 2011 qui portera un intérêt particulier au Pacte civil de
solidarité (Pacs) et à la plurirésidence. Fatou Bintou Niang Camara décrit le
plan de sondage de F Enquête de suivi de la pauvreté au Sénégal. Sébastien
Merceron, Sandrine Mesple-Somps et Laure Pasquier-Doumer présentent une
stratégie d'échantillonnage pour évaluer l'impact d'un projet d'urbanisation
dans un bidonville de Djibouti. Marc-Antoine Détrez, Caroline Douay, Yann
Le Strat, Pierre Chauvin et Anne Laporte décrivent le plan de sondage et les
limites de l'enquête sur la santé mentale et les addictions chez les sans-
logements franciliens (SAMENTA). Stanislas Spilka, Stéphane Legleye et
François Beck mesurent les usages de drogues par croisement de mesures
qualitatives et quantitatives. Stanislas Spilka, Olivier Le Nezet, Stéphane
Legleye et François Beck récidivent avec l'enquête sur les usages de produits
psycho-actifs des sans-domiciles en France métropolitaine réalisée dans les
centres d'hébergement et de réinsertion sociale. Idrissa Ouili présente
VObservatoire de la population de Ouagadougou, système de surveillance
sanitaire et démographique mis en place en 2008 dans la capitale du Burkina
Faso. Cécile Lefèvre regarde la comparabilité des enquêtes socio-
démographiques Genre et Génération française, russe et géorgienne. Pierre
Bréchon compare la qualité d'un échantillonnage aléatoire et par quotas pour
VEnquête européenne sur les valeurs. Pascale Pietri et Françoise Yaouancq
décrivent les principales étapes de la mise en place des enquêtes auprès des
ménages de l'INSEE. Marcel Nkoma analyse la couverture et le « plan de
sauvetage » du troisième recensement général de la population et de l'habitat
au Cameroun. Lougué Siaka et Bonkoungou Zakaliyat décrivent l'apurement
des données du recensement général de la population et de l'habitation de
2006 du Burkina Faso. Claire Durand, Isabelle Valois et Mélanie Deslauriers
analysent l'ajustement des sondages électoraux fondé sur les déclarations de
vote à une élection précédente. Enfin, Mouloud Haddak et Pascal Pochet
évoquent l'utilisation de données administratives et des analyses secondaires
d'enquêtes dans l'étude du risque routier en France.
Le quatrième chapitre de l'ouvrage porte sur les enquêtes économiques. En
premier lieu, Richard Laroche présente l'utilisation des données
administratives dans les enquêtes auprès des entreprises à Statistique Canada,
notamment la vérification et l'imputation des données, ainsi que la
désagrégation des variables génériques pour les entreprises démunies de
renseignements détaillés. Pierre Daoust et James Brennan présentent
l'ajustement des estimations du programme des statistiques financières
trimestrielles des entreprises an Canada. Les ajustements effectués
comprennent un ajustement des poids de sondage pour quelques entreprises
influentes, un calage sur des caractéristiques telles que les actifs, et un
étalonnage des estimations trimestrielles par rapport aux statistiques
Avant-propos xi

financières et fiscales annuelles. Daniel Kilchmann discute de l'implantation


du manuel EDIMBUS (Editing cind Imputation in Cross-Sectional Business
Surveys in the ESS) à l'Office fédéral de la statistique de Suisse. Ce manuel
décrit les bonnes pratiques de préparation des données d'enquêtes
transversales auprès des entreprises. Fabien Guggemos et Philippe Brion nous
présentent la winsorisation des enquêtes annuelles auprès des entreprises
françaises, c'est-à-dire la réduction systématique de valeurs dépassant un
certain seuil, qu'ils utilisent pour les entreprises de caractéristiques atypiques,
mais non aberrantes. Emmanuel Gros présente le contrôle des données dans le
système ESANE {Enquêtes structurelles annuelles d'entreprises) de l'INSEE.
Il nous décrit une procédure de détermination automatique des seuils de
macrocontrôles des données basée sur des simulations utilisant des données
passées. Adama Koursangama et Ouambi Yameogo décrivent la méthode
d'estimation de l'offre céréalière au Burkina Faso à partir de l'enquête
permanente agricole de 2008-2009. Il s'agit d'une combinaison de la méthode
déclarative — interview direct des producteurs — et de la méthode par
observations satellitaires de la biomasse. Salima Taïbi-Hassani et Manasé
Bezara appliquent la classification des forêts aléatoires à VObservatoire de la
ruralité et mesurent la productivité rizicole à Madagascar dans le cadre du
projet Campus paysan. De même, Jossie Randriamiandrisoa et Nirina
Rabevohitra présentent le Réseau des observatoires ruraux, outil alternatif
d'analyse de la vulnérabilité en milieu rural à Madagascar. Fabris Compaore
analyse le profil des acteurs du secteur informel des technologies de
l'information et de communication (TIC) au Burkina Faso. Ce secteur
informel connait une émergence particulière ces dernières années en Afrique.
Moussa Thiam présente une enquête sur les institutions sans but lucratif au
service des ménages. Un plan de sondage en deux phases échantillonne de
telles institutions en première phase et le « changement d'adresse » constitue
la deuxième phase d'échantillonnage. Enfin, Christophe Kana Kenfack
présente le plan de sondage de l'enquête Gaz de pétrole liquéfié (GPL). Ce
plan de sondage comporte trois volets : ménages, consommateurs du secteur
tertiaire, et unités de vente du GPL.
Le cinquième chapitre s'attaque aux enquêtes longitudinales ou
rétrospectives, c'est-à-dire les enquêtes comprenant une dimension
temporelle. Géraldine Vivier, Pernelle Issenhuth et Isabelle Fréchon
présentent l'enquête ELAP {Etude longitudinale sur l'autonomisation après
un placement) qui vise à saisir le processus d'autonomisation économique,
résidentielle et familiale de jeunes sortis de VAide sociale à l'enfance. Cette
enquête suit pendant cinq ans un échantillon de 1000 jeunes. Ensuite, Philippe
Antoine analyse l'expérience des enquêtes biographiques en Afrique. Ces
enquêtes de plus en plus fréquentes mettent en perspective différents
événements de la vie d'un individu depuis sa naissance jusqu'à l'enquête.
Ainsi, Leila Boufraioua décrit l'enquête biographique sur la nuptialité dans le
xii Pratique et méthodes de sondages

Sud marocain et en présente les premiers résultats. La recherche de Anne-


Emmanuèle Calvès, Jean-François Kobiané, Bilampoa Thiombiano et Alexis
Loye sur Devenir parent à Ouagadougou étudie les nouvelles dynamiques
d'entrée dans la vie féconde dans la capitale du Burkina Faso par l'entremise
d'une enquête biographique auprès de jeunes adultes. Cris Beauchemin,
s
Arnaud Bringé et Elisabeth Morand présentent une étude des migrations
internationales et trajectoires matrimoniales sénégalaises à partir de l'enquête
Migrations entre l'Afrique et l'Europe. Arnaud Régnier-Loilier montre que
y
l'attrition entre les deux premières vagues de VEtude des relations familiales
et intergénérationnelles menée en France n'est pas aléatoire, mais touche
certaines catégories de répondants, comme les personnes seules. Enfin,
Aurélie Vanheuverzwyn et Eléna Vouge présentent une mesure de l'audience
Internet en France à partir d'un panel de 25 000 individus de deux ans ou
plus.
Les deux derniers chapitres de cet ouvrage abordent des aspects plus
méthodologiques des enquêtes. Le sixième chapitre traite de la collecte des
données et des sondages en ligne. Marc Christine et Sébastien Faivre
présentent le nouvel échantillon maître OCTOPUSSE {Organisation
coordonnée de tirages optimisés pour une utilisation statistique des
échantillons) de l'INSEE. OCTOPUSSE repose sur une base de sondage de
logements recensés l'année précédente pour les enquêtes de l'année courante.
Arnaud Gautier, Valérie Blineau, Isabelle Evrard, Julien Mousques et
François Beck discutent du recours au web pour augmenter la participation à
une enquête téléphonique en France à partir de l'exemple du Baromètre santé
médecins généralistes 2009. Efi Markou, Nicolas Razafindratsima et Bernard
de Clédat présentent la mise en place et l'évaluation du volet « individu » de
V Enquête sur les langues vivantes dans la recherche publique en Erance
(ELVIRE). Cette enquête ouverte sur Internet repose sur un questionnaire mis
sur Internet auquel chacun pouvait répondre librement sans échantillonnage
préalable. Régis Bigot et Patricia Croutte discutent de biais de représentativité
des enquêtes en ligne à partir de l'enquête Conditions de vie et aspirations des
s
Français de janvier 2009. Sondo Eloi Somtinda étudie l'application des
sondages en ligne au suivi de l'insertion des jeunes diplômés dans les pays
africains à partir des enquêtes du réseau Afro-baromètre. Nathalie Beltzer,
Régis Bigot, François Beck, Laurent Toulemon, Christophe David, Isabelle
Grémy et Josiane Warszawski présentent une nouvelle méthodologie des
enquêtes téléphoniques en santé comportant deux modalités
d'échantillonnage : les numéros de téléphone filaire et ceux de téléphone
mobile. François Beck, Romain Guignard, Catherine Cavalin, Florence
Maillochon et Stéphane Legleye discutent de l'influence du mode de collecte
sur la mesure des pratiques addictives en comparant deux méthodes de
collecte : le questionnaire auto-administré par ordinateur avec écoute au
casque (Audio-CASI) et la collecte assistée par téléphone et informatique
Avant-propos xiii
s
(CATI). Elisabeth Algava étudie les différences de réponses au téléphone et
en face-à-face dans l'enquête Changements organisationnels et
informatisation menée en France en 2006. Flora Chanvril et Viviane Fe Hay
présentent un dispositif d'enquête mixte utilisant CATI et CAWI {Computer
Assisted Web Interviewing) et son application au baromètre politique du
CEVIPOF en France. Toujours avec des protocoles d'enquête mixtes,
Caroline Bayart et Patrick Bonnel étudient les déterminants de la mobilité
déclarée. Ils comparent des résultats obtenus sur deux échantillons, l'un sur le
web et l'autre en face-à-face à l'aide d'un modèle à obstacle de type
« Hurdle ». François Beck, Arnaud Gautier, Romain Guignard et Jean-
Baptiste Richard décrivent leur prise en compte du dégroupage total — c'est-
à-dire de l'abandon de l'opérateur historique pour un nouvel opérateur —
dans le plan de sondage des enquêtes téléphoniques auprès des ménages en
France. Enfin, Lourdes Diaz Olvera, Didier Plat et Pascal Pochet présentent
des mesures de revenus et d'inégalités de mobilité quotidienne à Douala au
Cameroun selon différents modes de collecte.
Le septième et dernier chapitre de cet ouvrage est consacré aux nouvelles
avancées de la théorie des sondages. Maguelonne Chandesris, Guillaume
Chauvet et Jean-Claude Deville décrivent une allocation optimale de
l'échantillon pour un plan de sondages à plusieurs degrés appliquée à
l'estimation de la fraude tarifaire pour les grandes lignes ferroviaires en
France. Desislava Nedyalkova, Lionel Qualité et Yves Tillé nous présentent
une méthode pour effectuer un tirage coordonné d'échantillons suivant un
plan de sondage de Poisson. Ces échantillons coordonnés positivement ou
négativement répondent aux besoins de VOffice fédéral de la statistique de
Suisse pour ses enquêtes auprès des entreprises. Dans le même domaine,
Pascal Ardilly et Olivier Saurtory décrivent la méthode généraliste JALES+
de coordination d'échantillons tant négative que positive. Guillaume Chauvet
et Jean-Claude Deville présentent quelques résultats asymptotiques du tirage
systématique de Deville (SD). Ils démontrent que l'estimateur du total
provenant du plan de sondage SD a les mêmes propriétés en terme de
variance et de lois limites que l'estimateur du plan de sondage stratifié.
Francis Batomen et Justin Kameni décrivent le tirage systématique dans
l'environnement R des zones de dénombrement des enquêtes auprès de
ménages du Cameroun. Jean-Marie Dawagne et Robert Milano discutent de
l'estimation de la variance dans le cas d'un tirage systématique d'unités
primaires d'échantillonnage avec remise. Ils évaluent en fait, dans le contexte
belge, le meilleur estimateur de la variance parmi les options qu'offre la macro
POULPE développée par l'INSEE. Michel Hidiroglou présente les plus récents
progrès en matière d'estimation sur petits domaines à Statistique Canada. Un
petit domaine se réfère typiquement à une sous-population dont on ne peut
produire de statistiques d'intérêt fiables par manque de données disponibles.
s
Eric Gagnon et Robert Courtemanche utilisent le modèle de Fay-Herriot pour
xiv Pratique et méthodes de sondages

l'estimation sur petits domaines des taux d'emploi régional québécois des
personnes ayant une incapacité. Dominique Place compare des estimateurs
composites destinés à VEnquête emploi en continu, une enquête trimestrielle
avec renouvellement partiel de l'échantillon chaque trimestre. Les estimateurs
composites tirent avantage de la corrélation entre les échantillons de chaque
trimestre. Louis-Paul Rivest présente l'ajustement de modèles multiniveaux à
des données d'enquêtes complexes. Il ajuste les poids de sondage afin
d'obtenir des estimations convergentes des paramètres des modèles. Dans le
même ordre d'idée, Monique Graf termine ce chapitre en discutant de
l'analyse de données compositionnelles dans le cadre d'enquêtes complexes.
Ces données ont la particularité d'être assujetties à une contrainte de somme
comme les parts budgétaires.
V
En terminant, je veux remercier l'excellent travail de Marie-Eve Tremblay
et Mohammed El-Haj-Tirari qui n'ont pas compté leurs heures pour la
s
réalisation de cet ouvrage. Remercions aussi Céline Ethier pour sa mise en
page des articles. Cet ouvrage est l'aboutissement du Colloque francophone
sur les sondages de Tanger. Soulignons la contribution du comité scientifique
1 ^
et du comité d'organisation à la préparation tant scientifique que logistique"
de cet événement. Les partenaires majeurs qu'ont été la Société française de
statistique et la Faculté des sciences juridiques, économiques et sociales de
Tanger méritent également tous nos remerciements. Enfin, nous remercions
les auteurs des articles qui ont participé en si grand nombre au colloque et qui
se sont pliés de bonne grâce à nos exigences éditoriales pour la publication de
cet ouvrage.

Pierre Lavallée
Président du Comité scientifique
Colloque francophone sur les sondages de Tanger

1 Pierre Lavallée (Président), Statistique Canada ; Mohammed El-Haj-Tirari (Vice-


président), INSEA (Maroc) ; Marie-Eve Tremblay, Institut de la statistique du Québec ;
Nathalie Caron, Ministère de l'enseignement supérieur et la recherche (France) ;
Moustapha Hamzaoui, Faculté des sciences juridiques, économiques et sociales de
Tanger (FSJET) ; Eloi Ouedraogo, Afristat (Mali) ; Jilali Rahali, Direction de la
Statistique (Maroc) ; Abdelnasser Saïdi, Statistique Canada ; Paul-André Salamin,
Office fédéral de la statistique (Suisse) ; Catherine Vermandele, Université libre de
Bruxelles.
2 Abdsalam Ben Hadou (Président) et Mohamed Yahia, ancien Doyen et nouveau Doyen
de la FSJET ; Moustapha Hamzaoui (Vice-président), FSJET ; Benoît Riandey (Vice-
président), INED (France) et Président du groupe Enquêtes de la SFdS ; Ahmed
Bousselhami, FSJET ; Aziz Arbai, Faculté des Sciences de Tétouan (Maroc) ; Jamal
Benamar, FSJET ; Abdellatif El Afia, INSEA (Maroc) ; William Molmy, CEPED
(France).
Chapitre 1

Histoire et contexte des sondages

1. Les techniques d'enquête dans les pays

en développement : la démarche

historique est-elle porteuse de leçons ?

1
Jean-Jacques DROESBEKE

1.1 Introduction

Les avis qui portent sur l'usage des méthodes d'enquête dans les pays en
développement sont souvent diversifiés. Pour certains, beaucoup de méthodes
parmi celles utilisées dans les pays développés sont inapplicables pour
diverses raisons (absence de bases de sondage, difficultés pour recueillir
l'information auprès des individus sélectionnés...). Pour d'autres, les méthodes
retenues ne sont pas appropriées. On évoque aussi l'impossibilité de traiter
valablement les données recueillies. Ces critiques sont-elles toujours
pertinentes ? Faut-il s'arrêter à ces diagnostics déprimants ou, au contraire,
tenter d'examiner cette question de façon plus constructive ? Plusieurs
éclairages peuvent guider l'analyse de ce problème. Celui que nous avons
choisi est d'ordre historique.

1 Université libre de Bruxelles, LMTD, CP 139, 50, Avenue F.D. Roosevelt, 1050
Bruxelles (Belgique). Courriel : jjdroesb@ulb.ac.be.
2 Pratique et méthodes de sondages

Il n'est pas dans notre propos de faire ici une nc présentation de l'histoire
' 2
des méthodes d'enquête et de sondage". Nous concentrerons davantage notre
vision de cette histoire sur les éléments dont nous aurons besoin ici.
Parmi les méthodes d'enquête connues du grand public, le sondage occupe
certainement une place de choix. 11 y a aussi le sondage exhaustif, appelé
communément recensement, dont nous parlerons évidemment. Mais l'histoire
de la statistique nous apprend que deux autres approches méritent aussi notre
attention : la méthode du multiplicateur et la monographie. Ces quatre
méthodes ont-elles toutes été utilisées dans les pays en développement ?
L'histoire de ces méthodes peut-elle éclairer profitablement un tel usage ?
Nous tenterons de donner quelques éléments de réponse à ces questions. Mais
pour ce faire, nous croyons devoir d'abord rappeler brièvement quelques
étapes importantes de cette histoire.

1.2 Un petit peu d'histoire

1.2.1 Le recensement

Commençons notre propos en rappelant quelques traits essentiels des


recensements qui ont été réalisés dans le passé.
À l'origine, le recensement s'est avéré très vite un outil de gestion apprécié
des puissants. Effectuer le relevé des habitants d'une ville ou d'une région,
établir la liste de leurs biens1, devaient permettre d'évaluer le nombre
d'hommes pouvant être enrôlés dans les armées ou encore d'apprécier la
capacité des individus à contribuer au train de vie des monarques ou à la
réalisation de leurs projets. Il en est par exemple ainsi des pharaons de
l'Egypte ancienne qui, dès la fin du troisième millénaire avant notre ère,
avaient bien saisi l'intérêt de recenser les populations pour savoir combien
d'hommes pouvaient participer à la construction des pyramides ou encore
d'utiliser cette technique à des fins fiscales.
Plus une population est nombreuse, plus le recensement s'avère utile. C'est
ce qu'ont compris aussi très tôt les empereurs chinois. Quelle que soit
l'époque concernée, de l'école de Confiicius aux Hans, des trois Royaumes
aux cinq Dynasties, des Sung, aux Yuan, aux Ming ou encore aux Ching, les
empereurs avaient doté la Chine d'une structure administrative consacrée à ce
thème, dirigée par des directeurs des multitudes qui eurent sous leurs ordres
des « hommes portant les tablettes du Cens [que les puissants] saluaient par

2 Voir, par exemple, Antoine (2005), Droesbeke et Tassi ( 1997) ou encore Affichar
(1987).
3 La plupart des écrits traitant de ce sujet nous indiquent que les premières traces de ces
relevés remontent à la civilisation de Sumer (5C-2C millénaires avant notre ère).
1. Histoire et contexte des sondages 3

une inclinaison de la tête »4 en signe de respect. Pendant plus de 2000 ans, le


recensement a constitué un outil très utile pour administrer l'Empire chinois.
L'Inde est un autre pays d'Asie qui a procédé dès le IVe siècle avant notre
ère au dénombrement de sa population. Elle a même été plus loin que cet
objectif fondamental en prônant une politique planificatrice d'expansion
territoriale et économique basée sur une connaissance approfondie de sa
population. Un traité a défini la façon d'y parvenir, VArthasasîm, rédigé par
Kautilya, ministre de l'Empire indien des Maurya. Il s'agissait d'appliquer
une méthode d'enquête dont la minutie est remarquable, tant dans la manière
de définir les caractères de la population pris en compte que de la quantité
importante de données relevées5. On imagine sans difficulté que la mise en
œuvre de ce type de relevé devait reposer sur un soutien administratif très
dense, encadré par un contrôle policier explicite qui n'incitait pas aux non-
réponses.
Cette manière d'agir a mis du temps pour être appliquée en Occident. La
civilisation grecque a donné moins d'importance à la recherche du nombre
d'habitants qu'à celui de la composition idéale de la Cité, chère à Platon,
même si Aristote, dans sa Politique, s'est attardé à réaliser des travaux de
statistique descriptive et comparative. La manière d'agir des Romains fut plus
classique et retrouva les objectifs originaux : réaliser des recensements
périodiques grâce à une structure administrative bien organisée afin de
contrôler et d'administrer toutes les composantes de leurs territoires. Initiés
sous Servius Tellus au début du Ve siècle avant notre ère et réalisés jusqu'en
l'an 73 sous Auguste (année du dernier recensement de l'Empire romain), les
dénombrements ont acquis à Rome une importance croissante au cours du
temps qui a fait de la fonction de censeur, comme en Chine, un privilège
recherché.
La période du déclin de l'Empire romain et le Haut Moyen Age n'ont pas
constitué un terrain fertile pour l'organisation de recensements6. Il a fallu
attendre le XIe siècle, et surtout le XIIIe, pour ressentir le besoin
d'informations, que ce soit au niveau des rôles fiscaux ou à celui des relevés
d'ordre religieux. C'est à cette époque qu'on a vu apparaître en Occident la
notion de feu apparenté au concept de maison ou de logement (déjà utilisé en
Chine depuis longtemps) plus facile à maîtriser, et qui sera utilisé dans une
autre méthode d'enquête, comme on le rappellera dans la suite.
Les recensements administratifs ont donc repris vigueur aux XIIIe et XIVe
siècles dans toute l'Europe. Ils ont conduit à la mise en place de registres de la

4 Voir Sterboul (1974).


5 Voir à ce sujet Hecht ( 1987, page 27).
6 Moreau de Jonnès parlera à ce sujet ( 1856, page 66) d'une « lacune de plusieurs siècles
dans l'histoire de la statistique », même si certains polyptiques et publications (comme
le Domesday Book de 1086 en Angleterre) permettent d'atténuer cette opinion tranchée.
4 Pratique et méthodes de sondages

population souhaités par les rois et empereurs, mais aussi soutenus par des
motivations religieuses (le contrôle de la « coloration religieuse » vient
s'ajouter aux autres critères évoqués plus haut).
A dater de cette époque, le dénombrement des peuples (à propos duquel
Vauban a proposé en 1686 une Méthode génémlle et facille pour le réaliser)
est devenu un outil de gestion publique fort prisé. Colbert a aussi fortement
contribué à ce mouvement, tant en France que dans ses colonies. C'est ainsi
que7 « le premier relevé d'habitants, au Canada, se rapportait à la fondation
s
de Port-Royal, dans la nouvelle Ecosse, en 1605. On dispose encore d'autres
relevés, dont celui datant de la fondation du Québec, en 1628. En 1663, la
population de la Nouvelle-France est évaluée à 2 500 habitants, dont 800 à
Québec. Mais le premier recensement nominatif des temps modernes est
entrepris au Canada en février-mars 1666. Il donna 3 215 habitants, répartis
selon le sexe, l'âge, l'état matrimonial, la profession ». Avec un tel passé, on
ne s'étonnera pas du fait que le Canada ait développé une expertise statistique
aussi performante que celle qu'on lui connaît actuellement !
Mais si la France a accordé en ce XVIIe siècle une attention croissante aux
dénombrements, l'Angleterre, de son côté, s'est tournée vers une nouvelle
méthode qui va connaître un certain succès : Varithmétique politique, dont le
nom est tiré du titre d'un ouvrage publié par un personnage haut en couleurs,
William Petty8. Nous la présenterons brièvement ci-dessous sous le nom plus
explicite de méthode du multiplicateur.
Chacun sait que le XIXe siècle fut propice au retour généralisé des
recensements et que le XXe lui accorda une attention particulière à tous les
niveaux (gestion, formation des enquêteurs...). Nous n'y reviendrons pas ici.

1.2.2 La méthode du multiplicateur

Le principe de cette méthode est simple. Il faut choisir un concept dont le


dénombrement est relativement aisé. A l'origine, ce fut le feu ou encore la
famille (au sens large du terme) qui occupe un même logement. Une fois
calculé (ou estimé) le nombre d'entités correspondant à ce concept, il
« suffit » de multiplier ce nombre par un coefficient multiplicateur bien choisi
(par exemple le nombre moyen de personnes par feu) pour obtenir une
estimation de la population concernée. En France, cette approche a fait le
bonheur des administrateurs et des géographes jusqu'au milieu du XVIIIe
siècle. Malheureusement, l'application d'un tel coefficient multiplicateur ne
pouvait déboucher que sur des estimations dont la précision était difficile à
évaluer !

7 Voir Hecht (l987, page 45).


8 Petty partage en fait la paternité de cette méthode avec un de ses contemporains,
John Graunt.
1. Histoire et contexte des sondages 5

Un autre coefficient multiplicateur a suscité à cette époque intérêt et


controverses. Défini par le rapport existant entre le nombre d'habitants d'un
pays et le nombre de naissances, sa valeur devait permettre de prédire le
numérateur à partir de la connaissance du dénominateur. Toute l'Europe va se
passionner pour cette question : mais comment pouvait-on déterminer « une
bonne » valeur de ce coefficient ? Les péripéties de cette recherche illustrent à
suffisance la difficulté d'appliquer cette méthode9.

1.2.3 La monographie

Recenser, c'est bien ! Mais on ne peut le faire que pour étudier des faits
généraux, des caractéristiques certes intéressantes, mais dont l'analyse n'est
pas fine. Par contre, si l'on se demande comment les individus passent leur
temps au cours de la journée ou comment vivent les pauvres, il est difficile de
recourir à un recensement pour répondre à ces questions. Il vaut mieux alors
analyser un nombre réduit d'individus pour avoir une analyse approfondie.
Mais comment choisir correctement cet ensemble d'individus ? Un homme va
avoir une idée au début du XIXe siècle : « Rien de tel que de recourir à des
réseaux de familiarité ». Cette idée vient à l'esprit de Pierre Guillaume
Frédéric Le Play (1806-1882) qui veut décrire les habitudes de vie des
ouvriers dans cette Europe qui s'ouvre à l'industrialisation. Il va examiner ce
problème en choisissant des ouvriers « typiques » désignés par les notables
des villages et décortique en détail leur existence10. De tels « échantillons »
seront bien sûr fortement critiqués par les adeptes des sondages aléatoires,
mais il ne faut cependant pas tenter de comparer des démarches
incomparables. Les objectifs ne sont pas identiques, la façon d'interpréter les
résultats de l'étude non plus.

1.2.4 Le sondage

L'histoire des sondages est bien connue. Celle de la théorie sous-jacente


construite à partir du début du XXe siècle aussi". Cela nous dispense de
l'évoquer ici. Rappelons simplement que parmi les avantages du sondage
probabiliste se trouve la possibilité de mesurer un concept, oh ! combien
utile : l'erreur d'échantillonnage. Rappelons aussi l'intérêt de choisir des
méthodes appropriées en fonction des caractéristiques de la population sondée
(possibilité de stratification, existence ou non d'une base de sondage...).

9 Voir par exemple Droesbeke et Tassi ( 1997) et Hecht ( 1987).


10 Voir par exemple Desrosières ( 1988).
11 Voir par exemple Droesbeke et Tassi (1997).
6 Pratique et méthodes de sondages

1.3 Les leçons du passé

Il ne s'agit pas ici d'être exhaustif, ni de choisir aléatoirement quelques leçons


à tirer. Notre propos est plutôt de pouvoir vérifier si ces leçons ont été ou non
utiles dans les cas que nous évoquerons ci-dessous. A cet effet, voyons
brièvement quelques problèmes à surmonter, tout particulièrement quand ils
concernent des pays en développement.
Commençons par les recensements. Leur histoire que nous avons très
brièvement résumée nous apprend qu'ils sont avant tout destinés aux états et à
leurs dirigeants qui en ont fait bon ou mauvais usage selon le cas. Ils sont
d'autant plus utiles qu'ils concernent des populations nombreuses et, par là
même, ils sont d'autant plus difficiles à mettre en œuvre. Leur succès est
fortement corrélé à la qualité des structures qui doivent les administrer et là
où la sanction punit le menteur ou le non-répondant, « ça fonctionne
mieux »! Il y a bien sûr d'autres arguments pour arriver à une réussite, mais
les conditions pour qu'ils portent leurs fruits ne sont pas toujours remplies
partout.
La méthode du multiplicateur est apparemment plus simple à mettre en
œuvre. Il faut aussi savoir appliquer une règle de trois. La difficulté ne réside
cependant pas dans l'opération de multiplication à effectuer, mais dans le
choix du facteur multiplicatif à utiliser. Quant à apprécier la précision du
résultat...
La monographie a connu des hauts et des bas. Elle demande aussi une
préparation minutieuse, une réalisation sans faille et une interprétation
correcte. Mais l'extrapolation à une population reste une tâche plus qualitative
et nuancée que quantitative.
Quant aux sondages, on sait ce qu'il en est. De leur conception à leur
interprétation, une analyse de qualité est indispensable à tous les niveaux pour
pouvoir proposer des interprétations fiables et crédibles.
Pour beaucoup, ces leçons seront considérées comme des évidences, mais
toutes les évidences conduisent-elles à des succès ? Comme nous souhaitons
aborder cette question en relation avec les pays en développement, nous
mesurons l'ambition de notre propos si on la considère à un niveau global.
C'est pourquoi nous préférons l'examiner à partir de trois méthodes
particulières appliquées à un seul pays dont on parle peu à ce sujet : la
République démocratique du Congo (dont on fête en 2010 le 50e anniversaire
de son indépendance).

1.4 L'usage des méthodes d'enquête au Congo

A quelle période de son histoire voulons-nous nous attacher ici ? Très


schématiquement, l'histoire de ce pays peut se rapporter à trois périodes bien
définies : avant 1885, entre 1885 et 1960, après 1960. Avant 1885, le Congo a
1. Histoire et contexte des sondages 7

eu une structure instable. Son histoire est essentiellement dessinée par des
mouvements migratoires qui ont fait cohabiter de façon plus ou moins
pacifique des groupes ethniques divers parmi lesquels les Bantous sont
probablement les plus connus. Des royaumes et des empires se sont succédés
au cours du temps, jusqu'à la dernière partie du XIXe siècle. Deux hommes
ont changé le cours des choses. Le premier est Léopold II (1835-1909), fils du
premier roi des Belges Léopold I, qui succéda à son père en 1865. Dès 1860,
il rêvait de posséder une colonie, comme toutes les puissances qui entourent
son pays. Après de nombreuses et vaines tentatives, un homme lui a permis de
satisfaire cette envie : le journaliste et explorateur britannique Henry Morton
Stanley (1841-1904) qui s'est rendu célèbre en 1871 pour avoir retrouvé sur
les rives du Lac Tanganyika David Livingstone, un autre explorateur porté
disparu depuis 1866. Après avoir exploré l'Afrique équatoriale jusqu'en 1878,
Stanley accepta de travailler pour Léopold II qui vit dans le bassin du Congo
un endroit propice pour créer cet état dont il rêvait. Stanley a installé une série
de comptoirs commerciaux le long du fleuve Congo pour le compte de ce
dernier. 1884 est une année cruciale pour Léopold 11 : une conférence
internationale qui se tient à Berlin lui attribue la possession d'une colonie
dont la surface correspond à une grande partie de l'Europe actuelle. Le
monarque reçut ainsi une «colonie privée» qu'il conserva jusqu'en 1908,
année durant laquelle il céda la souveraineté du Congo à la nation belge12.
Celle-ci la conserva jusqu'à la proclamation de l'indépendance du Congo, en
1960.
Deux enquêtes réalisées pendant cette période retiennent notre intérêt. La
première a été réalisée dans les années 1955-1957 et concerne une enquête
sociodémographique par sondage13. La deuxième enquête est un peu plus
contemporaine (1959) et porte sur une étude de l'emploi du temps du paysan
dans un village Zande du nord-est du Congo14. Que peut-on dire de ces deux
enquêtes ?
Commençons par la première. A l'époque, le Congo était composé de six
provinces, 23 districts, 135 territoires. Ces derniers étaient eux-mêmes divisés
en circonscriptions, groupements de villages, villages et petits centres. Pour
chaque territoire, on disposait pour chaque village du nombre d'habitants, de
l'appartenance tribale du village, de la liste des centres mixtes et de la
fonction économique de chaque centre. En général, chaque territoire avait un
chef-lieu pour lequel on disposait de fichiers d'habitations. On possédait aussi
des cartes assez complètes des territoires avec des plans de ville.
A partir de ces informations, trois strates par territoire ont été constituées
(localités rurales, localités urbaines et localités mixtes). Les localités de

12 Voir à ce sujet Stengers (2007).


13 Romaniuk (2006).
14CEMUBAC (1972).
8 Pratique et méthodes de sondages

chaque strate ont elles-mêmes été ventilées selon trois critères (la tribu, le
quartier et l'activité économique).
Les enquêteurs disposaient d'un recensement administratif récent (il existait
à l'époque une forte structure administrative au Congo). Leur volonté était
d'une part de vérifier la qualité de ce recensement et d'autre part de poser des
questions complémentaires. Disposant d'une base de sondage jugée comme
étant correcte, s'appuyant sur une équipe d'enquêteurs autochtones bien
acceptés sur le terrain et possédant un centre de traitement des données bien
organisé, les responsables de l'enquête ont dès lors procédé à un sondage
stratifié avec des taux de sondage par strate variant entre 10% et 15 %15.
Cette enquête par sondage présentait à coup sûr des qualités qui la rendaient
crédible.
La deuxième enquête que nous avons retenue s'apparente davantage à une
monographie16. Elle avait pour objectif d'analyser très finement la population
d'un petit village (Fuladu) d'une trentaine d'habitants. La manière dont elle a
été menée repose sur des choix clairement exprimés, avec un souci de la
précision dans le protocole d'enquête et une clarté dans la présentation des
résultats qui méritent d'être signalés, même si le recours fréquent à la
comparaison de pourcentages peut sembler excessif. Ici aussi, l'intervention
d'enquêteurs autochtones a contribué au bon fonctionnement de l'enquête.
Ces deux exemples illustrent clairement la possibilité de mener dans des
conditions globalement acceptables des enquêtes basées sur un sondage (ici
en complément d'un recensement) ou sur une monographie dans un pays en
développement. En revanche, il existe aussi des extrapolations dont on aurait
pu se passer. Un exemple flagrant est lié à l'usage d'un coefficient
multiplicateur fantaisiste.
En 1885, Stanley a publié The Congo and thefounding ofhisfree state dans
lequel il racontait ses missions pour Léopold IL II s'est rendu compte qu'il lui
était absolument nécessaire d'y mentionner une estimation du nombre
d'habitants de ce nouvel état et, pour y arriver, il recourut sans le savoir à la
méthode du coefficient multiplicateur. Il a estimé dans son ouvrage avoir
observé environ 806 000 habitants sur les rives situées de part et d'autre du
fleuve et de certains de ses affluents sur lesquels il a navigué. Après avoir
calculé que ces rives s'étendent sur 2 030 milles, il prit une hypothèse de
travail selon laquelle les habitants qu'il avait observés provenaient d'un
village situé au maximum à 10 milles de la rive. Connaissant la superficie
totale du pays, une petite règle de trois lui fit écrire que la population totale
était de 42 608 000 habitants. Ce nombre allait devenir une référence pour les
spécialistes, surtout anglo-saxons. Cet ouvrage fut traduit en français par
Gérard Harry à Bruxelles, au siècle suivant. Sans être un grand mathématicien.

15 Voir Romaniuk (2006).


16 Voir CEMUBAC (1972).
1. Histoire et contexte des sondages 9

ce dernier s'aperçut d'une petite erreur de calcul de Stanley. Pour arriver aux
2 030 milles que représente la longueur des rives où se trouvaient les
populations locales, il avait simplement multiplié par 2 (il y a en effet 2 rives
de part et d'autre d'un cours d'eau) la distance totale parcourue par son
bateau : 1515 milles. Harry se rendit compte que 2 fois 1 515 ne valait pas
2 030, mais bien 3 030. Et comme le dit si gentiment Stengers (2007) dans son
ouvrage, « discrètement, sans un mot d'avertissement au lecteur, le traducteur
rectifie le calcul de Stanley pour aboutir ainsi à une population de
27 694 000 habitants », ce deuxième chiffre devenant dès lors la référence
dans les pays de langue française. De nombreux ouvrages ont cité ces
estimations, parfois la première, parfois la seconde selon qu'on avait lu la
version originale du livre de Stanley ou sa traduction. L'histoire aurait pu
rester anecdotique si en 1999 n'avait paru un best-seller d'Adam Hochschild
dont le titre est évocateur : Les fantômes du roi Léopold II. Un holocauste
oublié11. Un document filmé a même été tiré de ce dernier, produit par la BBC
et diffusé sur les petits écrans avec un certain succès. L'effet aurait peut-être
été moins ravageur si la différence entre population en 1885 et population au
début du XXe siècle n'avait pas été basée sur l'estimation initiale de Stanley !
Il faut reconnaître que la disparition de près de 15 millions d'habitants due à
une erreur de multiplication, ce n'est pas si fréquent !

1.5 Conclusions

Il est certain que les leçons du passé sont toujours utiles quelle que soit la
nature du pays dans lequel on désire mener des enquêtes. Les pays en
développement n'échappent pas à cette règle. Rien ne sert d'appliquer une
méthode inapplicable si les conditions menant à la fiabilité de la procédure ne
sont pas réunies. Plutôt que de vouloir à tout pris utiliser une méthode
d'enquête inappropriée, il vaut mieux se tourner vers des approches adaptées
aux conditions dans lesquelles on travaille, comme par exemple celle
proposée par Dureau, Barbary, Michel et Lortic (1989).

BIBLIOGRAPHIE

Affichar, J. (1987). Pour une histoire de la statistique. Economica, Paris.


Antoine, J. (2005). Histoire des sondages. Odile Jacob, Paris.
CEMUBAC (1972). Enquête de Fuladu, 1959 : l'emploi du temps du paysan
dans un village Zande du Nord-Est du Zaïre. Université libre de Bruxelles,
89, Edition Cemubac.

17 Titre de la traduction française de l'ouvrage.


10 Pratique et méthodes de sondages

Desrosières, A. (1988). La partie pour le tout: comment généraliser? La


préhistoire de la contrainte de représentativité. Journal de la Société de
Statistique de Paris, 129, 96-115.
Droesbeke, J.-L, et Tassi, Ph. (1997). Histoire de la statistique, Que sais-je ?,
2527, Presses Universitaires de France, Paris.
Dureau, F., Barbary, O., Michel, A. et Lortic, B. (1989). Sondages aréolaires
sur image satellite pour des enquêtes soc i odémog raph i que s en milieu
urbain. Éditions de l'ORSTOM, Bondy.
Hecht, J. (1987). L'idée de dénombrement jusqu'à la révolution. Dans Pour
une histoire de la statistique, (Éd., J. Affichar), Economica, Paris, 21-81.
Moreau de Jonnès, A. (1856). Éléments de statistique, T Édition, Paris, lcrc
Édition, 1847, Guillaumin.
Romaniuk, A. (2006). Démographie congolaise au milieu du XX1' siècle,
Presses universitaires de Louvain, Louvain la Neuve.
Stengers, J. (2007). Congo. Mythes et réalités. 2e Édition, Bruxelles, Racine.
Sterboul, S. (1974). Confucius, ses disciples et la population. Population, 4-5,
771-794.

2. Le développement des sondages

aléatoires aux États-Unis pendant la

Grande Dépression

18
Emmanuel DIDIER

C'est peu dire que la Grande Dépression provoquée par le krach de 1929 a
bouleversé les États-Unis. Ce ne fut pas seulement une crise économique, ni
même une crise sociale, mais aussi une profonde crise d'identité. Les acteurs
d'alors étaient nombreux à craindre de voir jusqu'au caractère démocratique
de la Nation remis en cause. Les fermiers, symboles d'autonomie
individuelle, étaient minés et contraints de quitter leur terre ; les ouvriers,
auparavant fer de lance du capitalisme libéral, formaient des hordes de
chômeurs ne vivant plus que de charité et commençaient à se retourner,
parfois très violemment, contre leurs employeurs ; les capitalistes, exemples
vivants de la liberté d'initiative individuelle, se défenestraient plutôt que
d'affronter la faillite ; enfin, on voyait ça et là, des villes élire des maires
socialistes, des administrateurs vanter les systèmes politiques expérimentés en
Italie ou en URSS. Bref, le changement causé par la Dépression semblait
menacer la nature même de la Fédération (Didier, 2009).

18 Institut Marcel Mauss, CNRS - EHESS. Courriel : edidier@ehess.fr.


1. Histoire et contexte des sondages 11

Ces bouleversements étaient si abyssaux que les outils classiques grâce


auxquels l'administration fédérale décrivait habituellement le pays pour le
gouvernement se trouvèrent complètement déclassés. Un exemple très
frappant de cette myopie gouvernementale porte sur le chômage : entre 1932
(date à laquelle une controverse éclata entre le président Hoover et Frances
Perkins, qui deviendra la ministre du Travail de Roosevelt l'année suivante)
et 1937, soit pendant les cinq pires années de la Dépression, personne ne
connaissait le taux de chômage des États-Unis, ni le nombre de chômeurs, ni
même pour la plus grande part de la période, les tendances suivies par ces
indicateurs ! Personne, aucune entreprise, aucune administration n'était
parvenue à mesurer de façon fiable ce problème qui était bien entendu des
plus aigus. Et le chômage ne faisait pas exception, loin de là. Les pires fléaux
sociaux du temps échappaient à la vigilance de l'administration : au début de
la crise, il était impossible de savoir précisément combien de familles avaient
abandonné leur ferme et migré ou encore combien de personnes bénéficiaient
du secours public, pour citer seulement les faits dont l'ignorance nous semble
aujourd'hui la plus désarmante. La Dépression avait bouleversé si
profondément le pays que, pour l'administration, l'angoissante question de la
manière dont il en ressortirait était donc redoublée par l'incapacité de
produire une image cohérente et nette des transformations qu'il subissait.
Les acteurs répondirent à ces questions en multipliant les expériences leur
permettant de ressaisir réflexivement leur pays, dont certaines connurent une
destinée glorieuse. On pense bien sûr au Brain Trust, qui n'était rien d'autre
qu'une tentative de Roosevelt pour se fier aux théories des universitaires pour
comprendre la nouvelle situation. On pense encore au projet de la Farm
Security Administration (FSA) dirigé par Roy Stryker, et où travaillèrent
Walker Evans, Russell Lee, Dorothea Lange, qui utilisèrent des outils très
matériels pour le coup, puisqu'il s'agissait d'appareils photos, pour dresser un
portrait de l'Amérique apparue avec la Dépression.
Et entre les raisonnements abstraits des universitaires et les images
argentiques des photographes, nous allons montrer que les sondages,
invention de cette période, s'avérèrent être un des outils de réflexivité les plus
spécifiques et les plus précis qui permirent à l'administration de ressaisir cette
Amérique en train de naître dans la douleur, au point que par la suite ils
remporteront le succès mondial que l'on sait.
Comment un non-humain dont la particularité est d'être si gigantesque, si
démesuré, que les humains ne lui sont pas extérieurs, mais au contraire en
constituent une partie, se recapture, se saisit, se reconnaît-il lui-même ?
Comment les non-humains, et particulièrement ceux qui sont énormes, sont-
ils eux-mêmes réflexifs ?
Comme point d'appui pour la réflexion, on pourra rappeler un modèle
classique de la réflexivité. L'entité dont il est question, dans notre cas
l'Amérique, mais il en serait de même pour une personne, est réflexive
12 Pratique et méthodes de sondages

lorsqu'elle se dédouble en, d'une part, une partie d'elle-même qui se donne à
voir - la population dans notre cas, le corps pour la personne - et une autre
partie qui observe - ici l'administration et pour une personne ce serait son
regard - par l'intermédiaire d'une tierce entité placée à distance et qui
refléterait ainsi une image de la première pour l'aperception de la seconde -
le miroir pour une personne, les sondages dans notre cas. Est-ce le modèle qui
s'applique ici ? Nous allons mettre en évidence trois transformations très
profondes qui ont été nécessaires pour donner naissance aux sondages, et
nous verrons si le résultat final est conforme à ce modèle de réflexivité.

2.1 Théorie

Pour que les sondages puissent jouer leur rôle d'outil réflexif pour
l'administration, il a fallu d'abord en établir la théorie. Cette méthode avait
été présentée pour la première fois à la communauté des statisticiens par
Anders Kiasr, le directeur du Bureau de statistique de Kristiana (aujourd'hui
Oslo) en 1895, lors de la session de Berne de l'Institut International de
Statistique, le plus éminent regroupement de statisticiens d'État à l'époque.
Les sondages n'ont donc pas été, à proprement parler, inventés en Amérique.
Mais Kiasr n'obtint que peu d'effets immédiats et sa méthode fut ensuite peu
utilisée, puis assez vite oubliée - au moins dans son pays. De sorte que
lorsque l'administration américaine s'en est emparée pendant les années 1930,
elle a dû en pratique les réinventer.
Il y avait cependant une ancienne pratique administrative locale des
statistiques, principalement au ministère de l'Agriculture, très différente des
sondages d'aujourd'hui, mais qui reposait aussi sur un échantillon de
« Correspondants » remplissant des questionnaires. La réinvention des
sondages par l'administration américaine revint donc aussi à réformer
d'anciennes pratiques.
Il faut préciser, à cause de leur célébrité contemporaine, que ces sondages
réinventés par l'administration ne sont pas des « sondages d'opinion » comme
on l'entend à tort le plus souvent aujourd'hui en France. Certes, ces derniers
ont été mis au point peu avant 1936 par George Gallup et d'autres, ce qui leur
permit de prévoir la réélection de Roosevelt et de jouer un rôle important
pendant la période qui nous intéresse. Mais, il se trouve que ce ne sont pas ces
sondages-ci, apanage des entreprises privées principalement, que l'administration
a utilisé car ils reposent sur la méthode célèbre des quotas, dont les
administrateurs doutaient très profondément.
En fait, l'innovation théorique réalisée par l'administration fédérale fut de
parvenir à articuler extrêmement solidement la notion de représentativité à la
théorie mathématique des probabilités. La représentativité existait bien
entendu déjà dans une démocratie comme l'Amérique, mais elle désignait
initialement une relation de nature politique, la représentation démocratique
1. Histoire et contexte des sondages 13

en assemblée, et pas une relation scientifique. De son côté, la théorie des


probabilités avait aussi été fondée depuis longtemps, et un personnage comme
Arthur Bowley ou Ronald Fisher avait déjà effectué le lien avec la statistique
que les Américains utilisaient. Mais il ne s'agissait pendant les années 1920
que de tests d'indépendance ou d'erreur probable, pas de sondages
représentatifs.
L'administration américaine, d'une part en collaboration avec l'Université
d'Etat d'Iowa (où travaillait Geoarge Snedecor) et d'autre part en embauchant
temporairement un contingent important d'universitaires brillants (dont des
figures célèbres encore aujourd'hui en statistiques comme Samuel Stouffer ou
Fred Stephan), parvint à établir qu'un échantillon ne pourrait être dit
« représentatif » qu'à la condition d'être constitué de petites aires
géographiques tirées aléatoirement ; ce qui deviendra la méthode canonique
du « sondage aréolaire » qui fut la colle qui fixa définitivement la
représentativité à la probabilité. L'aléa impliquait que les unités comprises
dans l'échantillon étaient sélectionnées selon un processus dont la volonté ou
le jugement humain était absolument absent - par exemple un tirage à pile ou
face, ou l'utilisation de tables de nombres aléatoires. Son intérêt reposait en ce
que lui seul permettait de calculer « l'intervalle de confiance » de
l'échantillon, c'est-à-dire une mesure de la précision des estimations, calculée
au moyen d'outils probabilistes.
Par cette première transformation, la représentativité s'appliquait alors non
plus à un groupe de personnes élues par le peuple, mais sélectionnées par le
sort (lequel était cependant aux mains des experts statisticiens), et la théorie
des probabilités permettait dorénavant de légitimer des inférences de
l'échantillon à l'univers, c'est-à-dire de la partie au tout.

2.2 Population

La deuxième question à laquelle furent confrontés les acteurs dépasse


cependant largement le problème théorique de l'inférence : ils durent redéfinir
entièrement ce qu'ils appellent la population. En sondage, ce terme désigne
l'ensemble qui va être soumis à examen, qui est aussi l'ensemble dont
parleront les chiffres une fois qu'ils auront été produits. Si, en théorie des
sondages, la population peut être une cohorte de clous ou de vis, ici,
concrètement, cette population était le plus souvent « les Etats-Unis » ou,
pour reprendre une expression apparue à l'époque, « l'Amérique comme un
tout». Les sondeurs avaient comme principal objectif d'étudier l'ensemble
des Etats-Unis. Mais pour ce faire, il ne suffisait pas de les définir de façon
abstraite ou générale, comme le font les sondages d'opinion qui se contentent
de quotas. Au contraire, pour réaliser les sondages aléatoires de la façon la
plus scientifique qui soit, il fallait construire ce que l'on appelle aujourd'hui
une base de sondage, c'est-à-dire un document concret, matériel, qui énumère
14 Pratique et méthodes de sondages

les individus sans omission ni répétition, de manière à pouvoir sélectionner


l'échantillon.
Or, à cette époque, un tel document n'existait pas aux Etats-Unis.
L'annuaire téléphonique qu'on utilise aujourd'hui concernait bien trop peu de
monde pour qu'on ait même pu y penser, il n'y avait alors aucun autre registre
général de la population et le recensement de 1930, le seul outil qui s'en serait
approché n'était pas adapté à cet usage, car les promoteurs du recensement se
faisaient un honneur de dénombrer exhaustivement la population, et l'idée de
ne s'intéresser qu'à une partie d'elle leur semblait au mieux de l'amateurisme
et au pire de la franche tromperie scientifique à laquelle ils ne voulaient pas se
prêter. Les sondeurs ne disposaient donc de rien qui put leur servir de base de
sondage.
Ils se sont donc transformés en détectives ou en anthropologues, cherchant
partout où ils pourraient en trouver des éléments grâce auxquels on
constituerait concrètement la base de l'Amérique comme un tout.
Selon qu'ils étaient spécialistes du monde rural ou urbain, les statisticiens
mirent en place deux stratégies légèrement différentes. Les premiers
cherchèrent à établir une gigantesque carte géographique du pays, à une
échelle suffisamment réduite pour qu'on puisse voir (et sélectionner) des
fermes et des habitations. Mais la difficulté qu'ils rencontrèrent était qu'une
telle carte, exhaustive et en même temps aussi précise, n'existait pas à
l'époque. Ils demandèrent donc aux Etats de la fédération de leur fournir
celles dont ils disposaient tout de même, et comblèrent les trous au moyen de
photographies aériennes pour lesquelles ils allèrent jusqu'à louer des avions et
embaucher des photographes ! Au prix d'un travail de titans, ils réunirent
ainsi plus de 3 000 cartes ou photographies, une par comté, à une échelle
permettant d'identifier les lieux d'habitation.
De leur côté, les spécialistes des villes n'essayèrent même pas de construire
une telle base homogène. L'organisation des villes était largement trop peu
standardisée pour ne pouvoir même rêver à rien d'équivalent. Ils parcoururent
alors les citées en cherchant dans chacune la base qui leur semblait à la fois la
plus exhaustive et la plus précise : ici la liste des électeurs, là la liste des
abonnés aux gaz, ailleurs le plan des rues - et que sais-je encore -, et mirent
au point des techniques de calcul statistique permettant de passer d'une base à
l'autre.
C'est ainsi qu'humblement et sans ostentation, les statisticiens, chacun
selon son principal objet, s'attelèrent à produire une nouvelle base sur
laquelle ils pourraient s'appuyer pour échafauder, à nouveaux frais, leur
description de l'Amérique. Insistons donc sur la hardiesse du geste : les
sondeurs passèrent outre cet avertissement que l'on entendait déjà sans cesse
pendant la Dépression selon lequel l'Amérique serait trop diversifiée pour que
l'on puisse en dire quoi que ce soit de général et parvinrent au contraire à
produire des documents la décrivant « comme un tout », c'est-à-dire qui
1. Histoire et contexte des sondages 15

maintenait ensemble aussi bien les champs de maïs du fin fond de


rOklahoma que les usines de Chicago, la moiteur du Bayou du Mississipi que
les neiges du Dakota du Nord, les Indiens Hopi du Nouveau-Mexique et les
congrégationalistes de la Nouvelle-Angleterre.
Notons en outre que la base n'est pas suffisante pour mener un sondage. Il
faut encore, par exemple, mettre en place des systèmes de déplacement
assurant que les enquêteurs parviendront aux quatre coins du continent, il faut
connaître la variété des langues parlées par la population et estimer son niveau
moyen de compréhension pour rédiger des questionnaires qui soient à sa
mesure, il faut connaître les moyens de communication qui permettront de
centraliser tous les questionnaires en un seul lieu où ils pourront être
dépouillés, etc. Bref, au-delà du seul problème de la base pourtant lui-même
déjà capital, les sondeurs parvinrent à réexplorer de fond en comble la
population de l'Amérique pendant la Dépression pour mettre leur technique
statistique au point.

2.3 Politique

Mais si leur technique permettait aux sondeurs d'attraper l'Amérique


renaissante, ils le faisaient pour leurs commanditaires administratifs et en
perspective par le gouvernement. C'est pourquoi une autre question posée par
l'apparition des sondages est de savoir quelles transformations ils firent subir
à l'administration pour s'y faire une place ou symétriquement comment
l'administration s'est modifiée pour les adopter.
Précisons d'abord que trois Bureaux principalement ont joué un rôle
important dans le développement des sondages. Le premier,
chronologiquement, était l'office statistique du ministère de l'Agriculture,
fondé dès sa création en 1862, et qui s'appelait, pendant une grande partie de
la période qui nous intéresse, le Bureau de l'économie agricole. Aujourd'hui,
la statistique agricole a perdu de son lustre, on ne se rend donc plus compte de
l'importance que pouvait revêtir un tel bureau, mais jusqu'aux années 1950,
voire 1960, c'était une des applications les plus prestigieuses et les plus
avancées de la statistique - liée bien entendu au poids économique que cette
activité avait encore. Le deuxième, fondé au tout début du XXe siècle par
Carroll D. Wright, un philanthrope très actif de Nouvelle-Angleterre, était le
Bureau des statistiques du travail fédéral dont la fonction était de produire
pour le ministère du Travail des données sur les conflits sociaux. Enfin, le
troisième était le Bureau du recensement, qui était chargé de mener et
d'analyser le recensement décennal prévu par la Constitution ; pendant tout le
XIXe siècle, ce Bureau était créé temporairement, tous les dix ans, seulement
pour accomplir sa tâche, mais, en 1902, il fut établi de façon permanente et
devint pendant les années 1930 l'une des pièces principales de l'attirail
16 Pratique et méthodes de sondages

statistique gouvernemental. Ce sont principalement dans ces trois bureaux que


les sondages furent mis au point.
Les formules mathématiques des sondages ont transformé les organigrammes
administratifs de ces administrations, par exemple en y accompagnant la
naissance de « divisions de la recherche », mais au-delà des questions
organisationnelles, il nous semble que l'étude de ces bureaux n'est vraiment
intéressante que si on la prolonge jusqu'aux programmes d'action qu'ils
servaient traditionnellement, autrement dit si on peut déceler des effets
politiques au sens plus immédiat du terme, au recours à ces outils.
En particulier, les sondages se sont parfaitement bien imbriqués dans le
grand bouleversement de la démocratie américaine observé pendant le New
Deal : l'abandon de la politique de laisser-faire propre au libéralisme, et la
mise au point de l'interventionnisme propre à l'État providence. En effet,
alors qu'avec le premier libéralisme, les problèmes sociaux étaient laissés
entre les mains des victimes pour qu'elles se débrouillent elles-mêmes, même
si ces dernières ne parvenaient pas à les résoudre, avec les sondages, le
gouvernement pouvait scruter la population à un rythme rapide (de l'ordre du
mois, ce qui correspond au nouveau rythme de l'économie apparue avec la
crise), identifier des variables sur lesquelles agir parce qu'elles étaient
corrélées à d'autres variables décrivant des états malheureux du monde (la
formation scolaire permet d'agir sur le chômage, par exemple), et donc
s'efforcer de résoudre les problèmes d'en haut, si l'on ose dire. Le sondage
est un type de connaissance qui s'avère convenir parfaitement au type
d'action propre à l'État providence.
La place de la population dans la démocratie s'en est d'ailleurs trouvée
changée elle aussi. A l'ancien gouvernement libéral était associé un
« participationnisme » populaire, principalement rural, qui ressemblait à ce
que nous appelons aujourd'hui « l'empowerment » de la population. Lorsque
l'interventionnisme et les sondages prirent place dans les ministères, les
mouvements de volonté de la population devinrent gênants pour les
statisticiens et les politiques, parce qu'agissant de son propre chef, et donc de
façon peu prévisible, elle était plus difficile à capturer avec l'outil statistique.
De sorte que les statisticiens envisageaient une population conçue comme
beaucoup plus passive et inerte. Comme y a véhémentement insisté C. Wright
Mills, le dernier grand sociologue pragmatiste, les sondages ont ainsi
participé à donner le jour à la démocratie de masse.

2.4 Conclusion

Ainsi, grâce à un travail de légitimation scientifique, d'exploration socio-


anthropologique, et d'articulation politique, les sondages sont-ils devenus l'un
des instruments les plus efficaces de l'administration pour prendre
connaissance des conditions dans lesquelles vivait la population depuis le
1. Histoire et contexte des sondages 17

début de la crise. C'est dire comme ils ont été l'un des grands instruments de
réflexivité de l'Amérique pendant le New Deal. Pour ressaisir de gros êtres
comme l'Amérique, on peut ainsi se fier à ceux qu'ils mettent eux-mêmes en
place pour être réflexifs.
Mais la réflexivité qu'ils proposent diffère dès l'abord de façon importante
du modèle que nous avons esquissé dans cette introduction. La principale
différence réside dans la distance séparant l'Amérique qui se reflète et l'outil
de cette réflexion. En effet, contrairement à l'esquisse dressée initialement,
les sondages ne se trouvent en aucune façon à distance de l'Amérique ; au
contraire, ils en font très intimement partie, ils en sont devenus un des
éléments constitutifs.
Autrement dit, la réflexivité nous apparaît non comme une certaine façon
d'observer une image, mais plutôt de faire tenir ensemble un grand nombre
d'éléments initialement éparpillés, et parmi lesquels on compte l'instance
d'aperccption et l'instance aperçue, ainsi que l'instrument grâce auquel elles
sont reliées. Comme l'a si bien dit Alain Desrosières, la question qui se pose
est de savoir comment faire quelque chose qui se tient, ce qui n'a rien à voir
avec l'idée de reflet ou de miroir (Desrosières, 1993). La réflexivité
n'apparaît pas comme un type de contemplation passive, mais comme une
façon active de se ressaisir, c'est-à-dire de rattacher les morceaux. Ce
mécanisme est d'ailleurs assez proche de l'expérience individuelle de la
réflexivité : celui qui se demande qui il a le sentiment d'être éparpillé et
cherche en fait à se ressaisir pour repartir de l'avant ; autrement il ne s'agit de
rien d'autre que de narcissisme. Ainsi, pour le dire d'un seul mot, la
réflexivité d'un être gigantesque comme l'Amérique ressemble moins à un
reflet qu'à une certaine prise de consistance.

BIBLIOGRAPHIE

Desrosières, A. (1993). La politique des grands nombres. La Découverte,


Paris.
Didier, E. (2009). En quoi consiste l'Amérique ? Les statistiques, le New
Deal et la Démocratie. La Découverte, Paris.
18 Pratique et méthodes de sondages

3. Histoire des pratiques de sondage

d'opinions en Algérie : éléments de

réflexion

19
Hasna Amina KADRI-MESSAÏD

3.1 Introduction

Les changements que vit la société algérienne depuis plus de deux décennies
ont un impact direct sur les pratiques de sondage ; il s'agit de l'ouverture sur
l'économie de marché qui est un élément non négligeable justifiant la
redynamisation du secteur privé national et l'apparition d'opérateurs
économiques étrangers, il y a également les événements politiques qui ont
engendré une nouvelle vision de la communication du fait des nouveaux
espaces d'expression tels que les associations par exemple. L'engagement de
l'Algérie au sein de l'économie de marché n'est cependant pas l'aspect
fondamental qui retient notre attention, dans la mesure où le sondage en tant
qu'outil quantitatif de recueil de l'information pose problème en tant que tel.
Cette préoccupation est d'ailleurs évoquée depuis quelques années par les
chercheurs en sciences sociales qui ont tendance à s'éloigner, depuis les
années 80, des enquêtes à caractère quantitatif au profit des enquêtes à
caractère qualitatif au motif que certains thèmes ne peuvent pas être soumis à
la quantification.
La problématique qui sous tend cette réflexion est relative à la fonction
remplie par le Sondage en Algérie : peut-il être considéré comme un moyen
de communication et d'information à l'instar de ce qui prévaut dans les pays
développés où l'information a tendance à être démocratisée, ou remplit-il une
autre fonction compte tenu des conditions spécifiques de son émergence ?
Peut-il être considéré comme un outil fiable du point de vue de son contenu
par rapport à notre réalité sociale, sachant que sur le terrain interviennent
aussi bien des bureaux d'études privés algériens que des bureaux étrangers ?
Est-il possible de donner du sens à une même question posée à des personnes
vivant dans des sociétés différentes ? le cas des études de marché est édifiant
dans ce cadre, à travers une question classique telle que : « achetez-vous
fréquemment ce produit ? » ou encore « parmi ces produits lequel préférez-
vous ? », il est clair que la compréhension et l'interprétation de la question
sont différentes compte tenu d'un certain nombre de caractéristiques telles
que la différence du pouvoir d'achat, le modèle de consommation, ou

19 Maître de conférences. Université des Sciences Sociales Alger. Enseignante associée,


Université de la Formation Continue, Chercheure associée au CREAD.
Courriel : kadrihasna@yahoo.fr.
1. Histoire et contexte des sondages 19

l'échelle des besoins au sein de laquelle ce produit est classé, ou encore de


son mode d'utilisation, etc.
La même observation est valable si on passe à une question qui relève du
domaine politique telle que : « pour qui voterez-vous lors des prochaines
élections ? », l'interprétation sera différente dans le cas d'une société où la
communication et l'information sont largement utilisées et une autre où elles
sont au contraire faiblement utilisées. Il est évident que la quantification à elle
seule ne peut donner une vision claire et objective de la réalité, car dans la
société algérienne et pour une question aussi sensible l'individu exprimera
une décision collective et non pas individuelle en raison de l'influence du
milieu familial. De même que le choix de la réponse sera fortement orienté
par des facteurs liés à l'appartenance régionale des candidats à l'élection, à
leur réseau de soutien, etc. A cela s'ajoute enfin, le fait que les personnes
interrogées n'ont pas toujours des informations suffisantes sur les candidats
pour leur permettre de faire leur choix (les campagnes préélectorales
demeurant insuffisantes), et elles ne saisissent pas quelle est l'utilité des
sondages, autrement dit l'utilité de l'opinion publique, dans la mesure où cette
dernière a, jusqu'à l'heure actuelle, très rarement eu un poids dans la prise de
décision.

3.2 Qui sont les acteurs des sondages ?

La pratique des sondages est donc nouvelle en Algérie, ils étaient inexistants
durant la période de l'économie centralisée, car cette pratique s'opposait à
l'idéologie socialiste bâtie sur le principe d'une démocratie orientée par le
pouvoir étatique et représentée au niveau des différents espaces - publics et
professionnels - par des organes permettant le dialogue, l'expression et la
concertation.
Les années 90 sont la période au cours de laquelle se développa la tendance
démocratique, ce fut aussi la période de l'introduction des nouvelles
technologies de l'information et de la communication (NTIC), qui peu à peu
vont gagner le milieu du travail et les foyers (avec Internet et la parabole). Ce
contexte, va soumettre le citoyen algérien à un double apprentissage : celui de
la liberté d'expression et celui des technologies de l'information et de la
communication (TIC) qui vont indéniablement modifier sa manière de voir et
de concevoir la réalité. C'est dans ces conditions que les sondages vont faire
leur apparition. Toutefois, après une décennie la pratique des sondages, en
lien avec les élections ou avec l'opinion publique de manière générale, n'est
• r • r r20 * ' ^
pas encore banalisée dans notre société" Ceci se vérifie à travers le nombre
d'intervenants dans ce domaine qui est loin d'être important en Algérie

20 Selon Alain Garrigou dans l'Ivresse des sondages. Le Cerf Ed. 2006, il y aurait plus
d'un millier de sondages politiques par an en France.
20 Pratique et méthodes de sondages

comparativement à d'autres pays d'une part, et compte tenu du peu


d'informations disponibles à leur sujet d'autre part21. À l'heure actuelle, on en
dénombre même pas une dizaine :
- pour le privé, il s'agit de l'Institut Abbassa, Ecotechnics, l'Institut
d'Etudes Algériennes, le Centre International d'Investissement,
Consulting Assistance Économique et Sondage ;
- pour le public deux principaux organismes mais avec une irrégularité
d'intervention, le Centre National d'Études et d'Analyse pour la
Population et le Développement et l'Entreprise Nationale de
Communication d'Édition et de Publicité ;
- pour les étrangers, ils sont sous représentés localement et le seul qui
possède un bureau est Immar (Institut d'Eudes et de Conseil en
médias et marketing) qui est le plus connu, la demande des
entreprises étrangères étant prise en charge par des cabinets étrangers
installés dans leur pays d'origine et qui font appel aux cabinets privés
algériens pour mener leurs sondages.

Les thèmes les plus fréquents qui intéressent les sondages portent surtout
sur les médias, puis les sondages récurrents sont ceux qui portent sur les
habitudes de consommation et les intentions d'achat, ils sont utilisés dans une
démarche marketing. Si les grandes entreprises publiques figurent parmi la
liste des commanditaires (l'entreprise Mobilis, d'Algérie Télécom ou encore
l'entreprise Sonelgaz22), ce sont surtout les firmes multinationales installées
ou qui comptent s'installer en Algérie qui expriment une plus large demande
dans ce domaine. Elles interviennent soit en amont de l'élaboration d'une
stratégie, dans un but prospectif de pénétration ou d'extension (c'est le cas le
plus fréquent, il concerne les firmes activant dans le domaine de l'industrie
automobile et de la téléphonie mobile à titre d'exemple), soit en aval dans le
but d'évaluer d'une action déjà menée.
Les entreprises nationales par contre (privées ou publiques) ont un faible
intérêt pour les sondages, ceci s'explique d'une part par l'absence de
traditions dans le domaine du marketing (beaucoup d'entre elles possède un
service commercial mais pas toujours avec une fonction marketing autonome
et clairement structurée), et d'autre part par le nombre important d'entreprises
• 73 •
relevant du secteur de la petite et moyenne entreprise (PME)" et qui ne
possèdent pas les moyens pour financer ce type d'action.
Par ailleurs, il est relevé un vide juridique en matière de réglementation des
pratiques de sondage, le marché des sondages émergent a poussé l'État à

21 Tous ne possèdent pas de site Web, et lorsque c'est le cas le contenu n'est pas riche et il
n'est pas mis à jour.
22 Electricité et gaz.
23 320 000, avec 97 % de Très Petites Entreprises ( I à 5 salariés).
1. Histoire et contexte des sondages 21

réfléchir sur un projet de loi qui est actuellement en préparation24 ; cette


mesure pourrait permettre de redonner une image plus positive de l'État qui
vise à faciliter et non plus à bloquer. 11 faut retenir néanmoins que la pratique
a devancé les décisions gouvernementales, ce sont les intervenants qui l'ont
imposée, alors qu'il est de tradition en Algérie que les textes juridiques
devancent l'action.

3.3 Les sondages peuvent-ils être significatifs


de l'opinion publique ?

Le rapport à l'information par le chiffre en tant que facteur d'influence au


sein de la société est une idée qui a été largement débattue, et notamment le
fait que le sondage ne permet pas de donner une interprétation objective totale
d'un phénomène à travers les opinions exprimées à un moment T. A cela
s'ajoute une seconde idée dans le cas algérien, en l'occurrence celle de la
communication en tant que moyen de recueil et de transmission de
l'information. Du fait que les questions sont élaborées en langue française et
que la population d'enquête à laquelle on s'adresse ne maîtrise pas toujours
cette langue ou utilise le bilinguisme pour s'exprimer, cela sous entend que
des traductions sont faites simultanément, d'où le problème de savoir si le
sens initial de la question demeure25. Ce problème linguistique est à mettre en
relation avec le sens et la valeur donnés par la société au sujet qui fait l'objet
du sondage. Nous pouvons citer dans ce cadre, l'exemple édifiant relatif au
thème du travail, le Directeur de l'Office National des Statistiques a précisé
récemment que lors du dernier sondage sur l'emploi et le chômage (début de
l'année 2010), ce sont les personnes hors « catégorie jeunes » qui étaient les
plus nombreuses à affirmer être occupées, ceci mérite réflexion car nous
savons que les jeunes représentent la proportion la plus importante de la
population totale (l'âge médian étant de 26,6 ans), et même s'ils sont touchés
par le chômage des interrogations sont à formuler quant au sens que donne
cette catégorie à « l'occupation » et au « travail », puisque selon le dernier
sondage les 2/3 de la population algérienne occupée est salariée dont 1/3 sont
des salariés permanents et 2/3 salariés non permanents. Afin de comprendre
l'attitude des jeunes quant à « l'occupation », il est nécessaire de la mettre en
liaison avec l'attitude vis-à-vis du « salariat » comme situation de travail
légalement reconnue. En effet, l'idée qui s'est développée au sein de la
société algérienne durant plusieurs décennies est que le seul pourvoyeur en
emploi salarié (offre du travail) était l'État, de ce fait tout ce qui sort de ce
cadre n'est pas considéré comme travail dans le sens complet du terme. C'est

24 En fait l'idée d'une loi sur les sondages a vu le jour depuis l'année 2002.
25 Ceci, malgré la préparation des enquêteurs qui est assurée dans ce domaine.
22 Pratique et méthodes de sondages

• • • • • 26
pourquoi les jeunes qui activent dans le cadre informel" et ne percevant pas
un salaire conventionnel ont une idée différente de « l'occupation » et ne se
déclarent pas de ce fait comme étant occupés.
Même si toutes les thématiques ne sont pas aussi sensibles que l'exemple
ci-dessus, il n'en demeure pas moins que les bureaux de sondage privés ont
saisi cette difficulté, ils mettent en œuvre à l'heure actuelle une autre
technique pour recueillir les opinions et attitudes des citoyens de manière
générale et celles des consommateurs de manière particulière : en l'occurrence la
technique qualitative dénommée « focus groupe » qui permet l'échange et la
confrontation comme conditions d'une mise en situation sociale de
l'expression d'une opinion.

3.4 Conclusion

Les sondages, en tant qu'outil de recueil de l'information pose un double


problème, le premier est d'ordre sociologique et le second est d'ordre
anthropologique. Nous avons vu que leur utilisation s'est développée en
Algérie après l'application des réformes économiques de 1994, l'ouverture
sur l'économie de marché a été un facteur important même si les
préoccupations électorales ont été parfois au centre des sondages.
Notre préoccupation majeure n'est pas liée aux aspects techniques
sophistiqués à maîtriser pour rendre compte objectivement de la réalité, mais
elle s'oriente plutôt vers la maîtrise des caractères plus profonds et complexes
dans une société comme l'Algérie compte tenu des étapes historiques qui
l'ont marquées, à savoir le colonialisme, le socialisme et enfin le libéralisme.

BIBLIOGRAPHIE

Desrosières, A. (2000). La politique des grands nombres. La Découverte,


Paris.
Addi, L. (2009). Pratiques linguistiques arabophones, culture et société :
retour sur un débat récurrent. Dans Le Quotidien d'Oran, 2 juillet 2009.
Cabin, P. (2002). La construction de l'opinion publique. Revue Sciences
Humaines, n0129.
Garrigou, A. (2006). L'ivresse des sondages. La découverte, Paris.
Blondiaux, L. (2003). L'opinion publique. Dans La communication politique.
État des savoirs, enjeux et perspectives. (Dir., A.M. Gingras). Presses de
l'Université du Québec, 137-158.

26 L'économie informelle a connu une croissance importante ces dernières années, selon
les dernières estimations, l'emploi informel représenterait 40 % de l'emploi hors
agriculture.
1. Histoire et contexte des sondages 23

4. L'entrelacs des contes et des comptes :

quelques facettes des enquêtes

d'opinion

27
Hélène Yvonne MEYNAUD

Les sondages d'opinion, bien qu'objets de polémiques, sont une source


majeure de connaissance de nos sociétés, un outil politique qui permet de
construire et d'intervenir sur les opinions publiques. Cependant, seul un lent
travail de conceptualisation de l'objet recherché et de croisement des résultats
fournit une image approchant la mesure d'un phénomène d'opinion, et ce,
dans un contexte historique, économique et social donné. Si la tendance
actuelle est à l'augmentation du nombre des sondages, on assiste en miroir à
une augmentation de la part des « insondables ». Nous allons ici souligner
quelques aspects contemporains de l'estimation de l'opinion et mettre en
perspective des effets de cette dernière.

4.1 Métamorphose de l'opinion (subjectivité et


objectivité)

L'opinion d'une société, d'un groupe, d'un individu, se modifie entre le


moment où ceux-ci prennent connaissance d'un questionnement et celui où ils
sont concernés par ce qui est évalué. En France, les résultats des sondages sur
les privatisations successives des services publics ont grandement varié entre
le moment où elles ont été envisagées, et celui où elles se sont concrétisées
(Béroud et Meynaud, 2002). D'où les tentatives de sondages délibératifs qui
interviennent après une mise en débat d'un sujet.
L'opinion publique ne peut être approchée par celle d'un citoyen moyen.
Elle varie en fonction de différents critères : l'adhésion politique, le sexe,
l'âge, le niveau d'éducation, le rapport à la religion, etc. Par exemple, si on
considère les élections régionales qui ont eu lieu en France le 14 mars 2010,
deux variables d'analyse sont centrales : le niveau de revenu et le lieu de
résidence. En effet le taux d'abstention dans les quartiers populaires y a
atteint 80 % (pour une moyenne nationale de 52 %).
Comment délimiter la frontière entre le subjectif et l'objectif, comme dans
le cas des statistiques ethnoraciales. Le recensement décennal états-unien, en
mars 2010, interroge les citoyens sur leurs présumées race ou ethnie. Il
continue à classer les citoyens entre « blancs » et « gens de couleur », comme

27 Ingénieure senior au GRETS (Groupe de Recherche Energie Technologie et Société),


département ICAME, EDF R&D. Courriel : helene-yvonne.meynaud@edf.fr.
24 Pratique et méthodes de sondages

si le blanc, référence implicite, en avait perdu son statut de couleur. Or, deux
chercheurs de l'université de Californie démontrent que la manière avec
laquelle des individus (ou des observateurs) perçoivent leur propre « race »
dépend de leur statut social. A partir d'une étude longitudinale sur un
échantillon représentatif des Etats-uniens, ils constatent que les individus au
chômage, incarcérés ou appauvris sont plus susceptibles d'être vus et
identifiés comme « noirs » et moins susceptibles d'être vus et identifiés
comme « blancs », indépendamment de la manière avec laquelle ils étaient
classés ou identifiés auparavant. Ce qui, selon les chercheurs, prouve que la
« race » n'est pas un attribut individuel fixe, mais plutôt un marqueur de statut
modifiable.
La perception subjective d'un phénomène se heurte parfois au calcul
rigoureux. La mesure de l'évolution du niveau de vie, techniquement juste,
peut être diamétralement opposée à la perception subjective (voire objective)
d'une dégradation des conditions d'existence. Si entre 1996 et 2007, les hauts
revenus ont moins progressé en France (14,7 %) que les bas revenus (21 %),
il reste que 14,7% de 10 000 euros, cela fait bien plus que 21% de
1 000 euros. Le chiffre sera juste, mais sera distinct de la perception.
L'opinion publique, telle que mesurée par divers sondages et indicateurs, a la
conviction que les prix ont fortement augmenté. Si l'indice d'ensemble des
prix (IPC) n'a pas forcément grandement augmenté, ceux des produits de
première nécessité ont fortement crû. Cherchez l'erreur, qui ne peut résider
dans la seule subjectivité des acheteurs et acheteuses. Les statisticiens de
l'Insee ont donc commencé à mettre en avant une mesure du revenu
réellement disponible pour une consommation dégagée des dépenses
contraintes.

4.2 La structure des opinions

Une société qui souhaite évoluer, construire de nouveaux équipements,


infléchir ses politiques, prendre en compte et mesurer l'impact de discussions
planétaires, dépliera les analyses des sondages afin de comprendre quels sont
les facteurs explicatifs d'une opinion et quelles sont les précautions d'analyse.
L'attitude exprimée dépendra de la nature du projet en discussion, mais aussi
d'une position préétablie en fonction d'à priori politiques ou culturels.
L'entrepreneur cherchera à connaître les raisons de l'acceptabilité ou de
l'opposition à la réalisation d'un ouvrage industriel, les mécanismes de
l'opinion qui structurent les attitudes des citoyens (cf. les études
d'AGORAMETRIE).
Lors du dévoilement d'un projet d'aménagement industriel ou touristique,
le concepteur du projet se retrouvera fréquemment pris entre les feux de deux
catégories de citoyens dont les intérêts semblent inconciliables. Dans le cas
des trains à grande vitesse, par exemple, s'oppose l'intérêt de ceux qui
1. Histoire et contexte des sondages 25

souhaitent circuler vite, et celui de ceux qui habitent les territoires traversés,
pour qui le niveau de bruit et de nuisances va s'accroître sans forcément qu'ils
profitent de l'équipement construit.
Dans un deuxième temps, il peut être utile de déterminer quels sont les
segments de l'opinion publique qui sont résolument opposés à tel ou tel choix,
et quels seraient les corps constitués les plus à même d'entamer un débat avec
eux. C'est alors que les données sur l'environnement et sur la société prennent
une importance croissante aux côtés de données classiques techniques ou
économiques. On passe de l'analyse d'objets techniques à l'analyse de
données numériques (l'opinion publique) plus difficile à saisir, où il s'agit de
prendre en compte des phénomènes considérés par les univers techniciens
comme subjectifs voir irrationnels, rarement au courant de leur propre
subjectivité ou rationalité. Les outils mathématiques puissants, seuls capables
de traiter une telle information diverse et volumineuse, sont alors mis à la
disposition du travail sociologique. Les conférences de consensus
représentent une autre alternative de mise en débat.
Le « risque d'opinion » est fort pour les industriels qui commercialisent des
produits qui tiennent par la puissance de leur marque. Il suffit parfois qu'un
échantillon de produit soit reconnu comme contenant un produit nocif, qu'un
seul acte de travail soit discutable ou amoral, pour que son image et son usage
s'effondrent. C'est dire l'importance des enquêtes d'opinion comme pare-feu.
En même temps, il faut se rappeler à quel point l'opinion publique est un
artefact et l'immense prudence avec laquelle il faut analyser les réponses à
des questions d'enquêtes et de sondages.
Le type d'étude réalisée varie en fonction de l'interlocuteur. Le directeur de
communication va procéder à des sondages qui diront si son produit et son
organisation sont plébiscités. Un commercialisateur définira le produit que
des personnes souhaitent acheter, vérifiera si son usage est satisfaisant, testera
un service rendu, s'intéressera à la relation au client dans le cadre de la
dématérialisation. Des contre-pouvoirs, comme les associations de
consommateurs, procéderont à leurs propres enquêtes, et leurs publications
ont un poids déterminant. D'autres experts et journalistes déconstruiront les
chiffres, comme le fait l'association Pénombre, le site Acrimcd, ou encore la
chronique Désintox du journal Libération, où tel personnage a pu être qualifié
de « sériai truqueur statistique ».

4.3 Les études comparatives

Autres outils, les « benchmarks », études comparatives, sont très prisées, mais
sujettes à caution. Les consultants qui procèdent à cette démarche reçoivent, à
bon compte, des données précieuses en provenance de nombreux industriels,
à qui ils proposent un classement des uns par rapport aux autres. Ce savoir
pourra être revendu sous des formes diverses. Cette démarche s'apparente
26 Pratique et méthodes de sondages

dans certains cas à de l'espionnage industriel, fournissant nombre de données


sensibles sur les forces et faiblesses des entreprises.
Dans d'autres cas, comme dans celui du « classement de Shanghai des
Universités », la méthodologie et la construction de critères et indicateurs ne
sont pas toujours choisis dans le consensus. On constate que nombre de ces
sondages mondiaux placent en tête, peut-être l'effet du pur hasard, les
institutions et organismes anglo-saxons. Depuis la création de ce classement
en 2003, les universités états-uniennes caracolent en tête du palmarès. Effets
immédiats : en France, de nombreuses universités ont alors été stigmatisées.
Parmi les critères retenus, la recherche réalisée avec le CNRS, qui représente
une part importante, n'est pas considérée. Structurellement donc, les
universités sont sous-évaluées. L'enseignement est peu valorisé, on comptera
plutôt les prix Nobel, les médailles Fields, etc. Pour l'anecdote, le prix Nobel
de la paix, c'est comme si l'industriel Dassault, spécialisé dans l'armement,
l'attribuait. Qui se souvient en effet que Nobel, c'est l'industrie de la
dynamite, et que nous avons là une magnifique opération de communication
d'entreprise ?

4.4 Les enquêtes de satisfaction

Classiquement, une enquête de satisfaction va mesurer l'écart entre l'attente


concernant un produit ou un service, et la perception résultant de sa
consommation. Ces enquêtes sont parfois appelées études de la relation aux
clients. Il s'agira donc d'identifier les attentes potentielles, d'élaborer un
questionnaire pour mesurer l'écart éventuel, la déception ou la satisfaction du
consommateur son degré et ses causes. Selon Ray (2004), « La satisfaction est
un état psychologique, postérieur à l'achat et/ou à la consommation, et relatif
à une base de référence initiale ». C'est en fait un sondage, comme les autres,
mais qui intervient dans un contexte où le paradigme financier, évaluateur, a
recouvert toutes les sphères des rapports sociaux. Il nécessitera les mêmes
précautions de fabrication et d'analyse qu'un autre sondage.
L'enquête de satisfaction est un outil de management pour rétroagir sur
l'organisation du travail. Le client est ainsi mis au travail pour produire une
définition de ses attentes, et c'est en son nom que l'on demandera au
personnel de modifier telle ou telle attitude. L'enquête précise sur un service
aura des effets bénéfiques en cas de compliments, et pourra avoir des effets
désastreux en cas de jugement négatif. Il s'agit de déterminer les causalités
des mesures prises.
Prenons l'exemple d'une enquête de satisfaction portant sur l'évaluation de
la qualité des soins offerts par un hôpital qui vient de réduire drastiquement
son personnel. L'enquête de satisfaction demande aux malades usagers s'ils
sont satisfaits, après avoir attendu des soins, si le personnel présent, parfois
depuis de bien plus nombreuses heures, est bien souriant et accueillant, s'ils
1. Histoire et contexte des sondages 27

ont bien vu les bons spécialistes. Les résultats obtenus évalueront le


personnel, mais pas les directives de la tutelle gestionnaire. En plus, on ne
maîtrisera pas l'échantillon des patients, et les enquêtes s'apparenteront à des
votes de paille. Une enquête de satisfaction devrait donc se doubler, voire être
précédée d'un diagnostic préalable sur l'organisation du travail de la structure
à évaluer, pour estimer son adéquation à la demande.
De manière paradoxale, à l'heure de la sophistication des techniques de
sondage, on voit réapparaître d'autres votes de paille, soit sous la forme de
réponses ouvertes sur des sites d'internet, ou de votation citoyenne ou
populaire sur l'avenir d'un service dont on sait pourtant que tout cela n'a
aucune valeur scientifique.
Ce panorama, très incomplet, permet de mettre en exergue la complexité de
la mesure de l'opinion publique et son corollaire qui est le besoin de qualité
des études et de formation des chercheurs et consultants. Il s'agirait de
renforcer l'existence de pôles de recherches sur l'opinion qui soient
autonomes, et qui puissent maintenir une nécessaire distance critique par
rapport aux impératifs commerciaux ou du pouvoir politique. Des lieux qui
appréhendent la discontinuité et la contradiction entre les opinions, et dont les
travaux rétablissent la possibilité de connaissance et donc d'un débat citoyen
sur l'avenir des sociétés.

BIBLIOGRAPHIE

Béroud, S., et Meynaud, H.Y. (2002). Opinion publique. Les Robins des bois
de l'énergie, (Éd., Cherche-Midi), 5, 133-148.
Meynaud, H.Y. (2009). Comptage « ethno-racial » : solution ou racialisation.
Dans La part de l'étrangère : travail & racisme, (Éd., Le bord de l'eau),
Chapitre 5, 290 pages.
Penner, A.M., et Saperstein, A. (2008). How social status shapes race.
Proceedings of the National Academy of Sciences of the United States of
America, vol. 105, no50, 19628-19630.
Salmon, C. (2007). Storytelling, la machine à fabriquer des histoires et à
formater les esprits. La Découverte, Paris, 240 pages.
Data, L. (2009). Le grand trucage. Comment le gouvernement manipule les
statistiques. La Découverte, Cahiers libres, Paris.
Ray, D. (2004). Mesure de la satisfaction des clients : pratiques et besoins
actuels des entreprises, positionnement des offres et principaux enjeux
méthodologiques. Revue Française de Marketing, numéro spécial sur
« satisfaction et fidélisation », n0197, 7-21.
Dujarier, M.-A. (2008). Le travail du consommateur. De McDO à eBay :
comment nous coproduisons ce que nous achetons. La Découverte, Paris.
28 Pratique et méthodes de sondages

Meynaud, H.Y., et Duclos, D. (2007). Les sondages d'opinion. La


Découverte, coll. Repères, Paris, 4e Édition.
Chapitre 2

Enquêtes sur la santé et l'éducation

1. Une approche comparative pour

ordonner les attentes des usagers

selon leur importance

1
Marie-Ève TREMBLAY et Sylvain VÉGIARD

1.1 Introduction

Faisant partie d'un programme d'enquêtes qui vise à alimenter la réflexion et


la prise de décision des divers acteurs impliqués dans l'organisation des
services de santé au Québec, VEnquête sur la satisfaction des usagers à
Végard des services de santé et des services sociaux du Québec' visait à
dresser un portrait statistique de la satisfaction et des attentes de ces usagers.
Il s'agit d'une enquête par génération aléatoire de numéros de téléphone dont
la collecte a été réalisée de novembre 2006 à juin 2007 auprès de 38 389
répondants ayant consulté un professionnel de la santé et des services sociaux
dans un hôpital, une clinique médicale ou un centre local de services
communautaires (CLSC) au cours des 12 mois précédant l'enquête.
Un des objectifs spécifiques de l'enquête était de mesurer les attentes des
usagers selon leur région de résidence (16 régions sociosanitaires). Un

1 Institut de la statistique du Québec, Québec, Canada.


Courriel : marie-eve.tremblay@stat.gouv.qc.ca ; syIvain.vegiard@stat.gouv.qc.ca.
2 Tous les principaux résultats sont disponibles au http.V/www.stat.gouv.qc.ca.
30 Pratique et méthodes de sondages

ensemble de 41 items très diversifiés (compétence de l'intervenant, délai


raisonnable pour obtenir un rendez-vous, mesures d'hygiène et de salubrité,
etc.) devaient ainsi être classés selon leur importance relative pour mettre en
évidence les principales attentes des usagers.
Diverses approches existent pour mesurer les attentes des usagers. L'une
d'elles consiste à mesurer directement l'importance via une échelle
d'importance présentée au répondant pour chacun des items. L'autre option
est de dériver l'importance à partir de la satisfaction des usagers en
modélisant le lien entre la satisfaction à chaque item et la satisfaction globale.
Cette approche a l'inconvénient d'être une mesure indirecte de l'importance
contrairement à la première, qui présente toutefois un faible pouvoir
discriminant. Nous avons donc cherché à utiliser une méthode de mesure
directe de l'importance, qui conserverait un bon pouvoir discriminant.
Des groupes de discussions ont d'abord été mis sur pied au cours desquels
nous avons demandé aux participants de classer les 41 items en ordre
décroissant d'importance pour eux. Cet exercice a révélé que ce classement
était possible et qu'il s'avérait pertinent et cohérent. Toutefois, lors de
l'enquête, les entrevues étant réalisées au téléphone et le temps disponible
pour administrer les questions sur les attentes des usagers étant limité à
quelques minutes, il était irréaliste de demander à chaque répondant
d'ordonner les 41 items selon ses préférences. C'est pourquoi l'approche
présentée dans cet article a été envisagée.

1.2 La mesure des attentes des usagers :


approche comparative utilisée

L'impossibilité de demander un classement complet des 41 items à chaque


répondant peut être contournée en décomposant l'information décrivant le
classement en 820 comparaisons d'items pris deux à la fois (paires d'items),
en demandant à chaque répondant de se prononcer sur une partie de ces
comparaisons et en agrégeant de nouveau l'information pour reconstituer le
classement. Il s'agit donc d'une approche comparative adaptée au contexte de
l'entrevue téléphonique.
On a ainsi demandé à chaque répondant de se prononcer uniquement sur
10 paires d'items, c'est-à-dire qu'il devait choisir, pour chaque paire, lequel
des deux items il jugeait le plus important ou encore s'ils étaient d'importance
égale. Les paires étaient attribuées par randomisation à chacun des numéros
de téléphone constituant l'échantillon initial. La section du questionnaire
portant sur les attentes des usagers variait donc d'un répondant à l'autre. La
position des 10 paires dans le questionnaire et l'ordre de présentation des
deux items de chaque paire ont également été randomisés.
2. Enquêtes sur la santé et l'éducation 31

Le questionnaire est programmé de telle sorte qu'il puisse accepter, comme


information initiale, les identifiants des items formant les paires pour chacun
des questionnaires. Une table de correspondance entre ces identifiants et les
libellés pour chaque item est ajoutée au questionnaire permettant ainsi que les
paires soient affichées à tour de rôle en temps réel à l'écran de l'intervieweur.
Lors du prétest de l'enquête, 13 paires ont été jugées problématiques, c'est-
à-dire qu'elles se sont avérées très difficiles à répondre parce qu'elles
touchaient des concepts trop voisins ou imbriqués3. Ces paires ont ainsi été
exclues pour l'enquête. Au terme de la collecte, chacune des 807 paires
d'items restantes se retrouve en moyenne 462 fois dans l'échantillon final des
répondants, la distribution allant de 408 à 510 fois.
La méthode, telle que présentée ici, nécessite une grande taille
d'échantillon. Toutefois, elle peut être envisagée pour de plus petits
échantillons si l'on réduit le nombre d'items à classer : on augmente le
nombre de paires par répondant ou on présente les items par groupes de trois
ou quatre plutôt qu'en paires.

1.3 Le classement des attentes des usagers

1.3.1 Estimation des proportions

Le groupe des répondants auquel on attribue une paire donnée peut être vu
comme un échantillon aléatoire d'usagers provenant de la population visée.
Ainsi, une estimation de la proportion des usagers ayant jugé l'item A plus
important que l'item B, applicable à l'ensemble de la population visée, peut
être obtenue en ne retenant que les répondants ayant eu à se prononcer sur la
paire A-B. Évidemment, cela est possible en raison de la randomisation
effectuée initialement et du traitement de la non-réponse adéquat réalisé.
Pour chacune des 807 paires ij présentées aux répondants, on peut donc
procéder à l'estimation de la proportion de verdicts favorables à l'item /
versus l'item /, c'est-à-dire la proportion d'usagers ayant jugé l'item i plus
important que l'item j. On note cette proportion p/j. Plus formellement, la
formule d'estimation de chaque est la suivante :
n n
ij ji
u v
X t . ,a X
k=\ k^l

3 Par exemple, il est difficile de choisir l'item le plus important entre « le respect de la
confidentialité des renseignements » et « le souci d'aménager des locaux qui assurent la
confidentialité des échanges ».
32 Pratique et méthodes de sondages


- wk = poids d'échantillonnage du répondant k ;
- y-fç = variable valant 1 si l'item i est jugé plus important que l'item
j ; 0,5 si les deux items sont jugés d'importance égale et 0 si l'item j
est jugé plus important que l'item i pour les paires présentées dans
l'ordre ij pour le répondant &, & = 1, 2, ;
- yjik =variable valant 1 si l'item i est jugé plus important que l'item
j ; 0,5 si les deux items sont jugés d'importance égale et 0 si l'item j
est jugé plus important que l'item i pour les paires présentées dans
l'ordre ji pour le répondant k, k = \, 2, n- ;
- rijj = nombre de répondants ayant eu à juger la paire ij présentée
dans l'ordre ij ;
- n- = nombre de répondants ayant eu à juger la paire ij présentée
dans l'ordre ji.

L'estimation de la proportion complémentaire à p-, à savoir p- (la


proportion des usagers ayant jugé l'item j plus important que l'item /) est
donnée par: pji = 1 - p-. Pour faciliter la présentation de ces 1614
estimations de proportions p^ et le traitement qui suivra, il est pratique de les
ranger dans une matrice, notée P, comportant 41 lignes et autant de colonnes.

Figure 2.1 Allure générale de la matrice P


1 2 3 y 41
1 P\2 A3 A; A41
2 Ai A3 Ay A41
3 Ai Pn Ay Ami
■ ■■ • •m ■•■
/ Ai Pu Pu A A41

41 An Al2 Al3 Aiy ... iMMB

1.3.2 Imputation des 13 paires manquantes

Comme 13 paires d'items, jugées problématiques, n'ont pas été présentées


aux répondants, on retrouve 26 cellules vides dans la matrice P qu'il faudra
imputer pour parvenir au classement souhaité des 41 items. La démarche
utilisée pour l'imputation des proportions manquantes s'inspire du principe de
la transitivité. Ainsi, si la paire d'items ij est manquante, mais que chacun de
ces deux items a été observé dans une autre paire en compagnie de l'item k,
alors les proportions pik et pkj seront disponibles. Ces informations seront
utiles pour procéder à l'imputation de p-.
2. Enquêtes sur la santé et l'éducation 33

Supposons que pik et pkj valent toutes les deux 1. Cela voudrait dire que
les usagers sont unanimement d'accord pour que, dans le classement, l'item i
soit situé avant l'item k et que l'item k soit situé avant l'item j. Dans ce cas,
on peut déduire que l'item i devrait être situé avant l'item j, ce qui suggère
que Pjj devrait valoir 1. De même, si pik et pkj valent toutes les deux 0, alors
Pij devrait valoir 0. Pour les proportions, plus réalistes, situées entre 0 et 1,
on a que, pour tout item k, l'estimation de p- imputée à partir des
estimations de pjk et pkj est donnée par :

* imp Pik Pkj


+
{PikPkj) {1- Pik){1- Pkj)

En utilisant tous les items k disponibles pour réaliser l'imputation, on


trouve :

«r
X Pik Pkj
' imp _ k<£{i, j};k=\
PU „imp

Z iiPikPkj) + i1 - Pik){i - Pkj))


ke{ij};k=r

où n]pp est le nombre d'items disponibles pour l'imputation de p^, c'est-à-


dire au plus 39 si aucune autre paire problématique n'implique les items i et
j. On complète la matrice P avec les valeurs imputées et on obtient la
matrice r , dont l'entrée ij sera désignée par p-j.
Cette façon de procéder constitue une amélioration par rapport à celle
utilisée lors de V Enquête sur la satisfaction des usagers à P égard des services
de santé et des services sociaux du Québec (Rocheleau, Végiard, Tremblay,
Camirand, Neill et Traoré, 2008). Elle est simplifiée et s'appuie sur de
meilleures bases théoriques.

1.3.3 Compilation des scores et construction du


classement des attentes

Une fois la matrice Pc complétée, la compilation du score pour l'item /, noté


si s'obtient en calculant la moyenne arithmétique des 40 proportions se
trouvant sur la ligne i de cette même matrice :

Hiïj
A J^/

Ce score, toujours compris entre 0 et 1, représente une estimation de la


proportion moyenne des usagers qui jugeraient l'item i plus important,
lorsque comparé avec les 40 autres items un nombre égal de fois. L'item
34 Pratique et méthodes de sondages

obtenant le score le plus élevé reçoit le premier rang dans le classement, et


ainsi de suite jusqu'à l'item obtenant le score le moins élevé, qui arrive en
dernière position. Le classement final s'obtient donc en effectuant un tri
décroissant des 41 scores. Plus formellement, le rang estimé pour l'item i,
noté fj, est donné par q = rang(kv/ ).
Comme les classements reposent sur des estimations, il est important de
tenir compte de la variabilité due à l'échantillonnage inhérente à l'enquête et
ainsi de rendre compte de la stabilité des classements. Puisqu'un même
répondant a dû se prononcer sur 10 paires d'items, les 10 réponses qu'il
fournit risquent d'être liées entre elles (présence de covariances). Comme on
ne peut plus invoquer l'indépendance des informations pour toutes les
réponses fournies par l'ensemble des répondants, le calcul de la variance par
les méthodes classiques est grandement complexifié.
Pour contourner ce problème, la méthode du bootstmp a été utilisée. Cette
technique consiste à construire plusieurs pseudo-échantillons aléatoires
(échantillons bootstmp) par rééchantillonnage à partir de l'échantillon
original. Dans chacun d'eux, les statistiques d'intérêt sont calculées (les
scores et les rangs obtenus dans le classement final) et la variabilité due à
l'échantillonnage d'une statistique est mesurée en observant la variabilité
entre les différents échantillons bootstmp pour cette même statistique. Dans la
présente enquête, 500 échantillons bootstmp ont été générés et les intervalles
de confiance à 95 % ont été obtenus en calculant les percentiles 2,5 et 97,5 de
la distribution des valeurs bootstmp de la statistique d'intérêt, soit le score s,
ou le rang q d'un item. Une amélioration envisagée pour la prochaine
utilisation de cette approche est l'augmentation du nombre d'échantillons
bootstmp pour assurer de meilleures estimations des intervalles de confiance.

1.4 Construction de classements par domaine

Un domaine d'estimation peut être défini pour un sous-groupe d'usagers et


des classements ont pu être produits par sexe, groupe d'âge, région et
composition du ménage. Essentiellement, ces classements sont produits de la
même manière que le classement général, en ne retenant que les données du
sous-groupe d'intérêt.
Afin de comparer le classement d'un sous-groupe d'usagers avec celui des
autres usagers, un test statistique a été réalisé à l'aide de la méthode
bootstmp. Pour chacun des 500 échantillons bootstmp, on construit un
classement pour les usagers du sous-groupe d'intérêt et un classement pour
les autres usagers. La différence entre le rang d'un item obtenu dans ces deux
classements est calculée pour chacun des échantillons, et un intervalle de
confiance à 95 % peut être construit pour la différence de rang. Si la valeur 0
n'est pas incluse dans cet intervalle, on peut déclarer qu'il y a une différence
significative entre les usagers du sous-groupe et les autres usagers.
2. Enquêtes sur la santé et l'éducation 35

1.5 Conclusion

Les résultats obtenus se sont avérés logiques et conformes aux résultats


attendus. Par exemple, des items que l'on présupposait très importants comme
« la compétence de l'intervenant » se sont retrouvés en tête de classement et
d'autres, logiquement beaucoup moins importants, comme le « confort du
mobilier », ont obtenu les derniers rangs du classement.
La méthode peut permettre de construire des classements d'items selon
l'importance ou la préférence, lorsqu'il y a plusieurs items à classer et que les
contraintes du terrain ne permettent pas un classement exhaustif par les
répondants. Elle ouvre donc la porte à des utilisations diversifiées et donne
des possibilités d'analyse intéressantes.

BIBLIOGRAPHIE

Rocheleau, L., Végiard, S., Tremblay, M.-E., Camirand, J., Neill, G. et


Traoré, L (2008). Regard croisé sur la satisfaction et les attentes des
usagers à l'égard des services de santé et des services sociaux du Québec
en 2006-2007. Québec, Institut de la statistique du Québec.

2. Santé au travail : quelle santé ?

quel travail ?

Catherine CAVALIN4 et Sylvie CÉLÉRIER45

Ce texte présente une première étape de description des états de santé des
personnes en âge de travailler (Célérier, 2008). Sur ce point, les enquêtes
statistiques produisent des résultats convergents : les actifs en emploi sont, à
âge équivalent, en meilleure santé que les inactifs ou les chômeurs, et l'état de
santé est d'autant meilleur que Ton s'élève dans la hiérarchie des catégories
socioprofessionnelles (PCS). Nous cherchons à préciser ces résultats généraux
en identifiant des « situations santé-travail » articulant des caractéristiques
professionnelles et de santé des individus. Autrement dit, nous testons la
capacité discriminante de ces deux critères associés pour décrire une
population représentative en vérifiant la pertinence statistique et sociologique
des « situations » ainsi mises au jour.
L'exercice mobilise les données de l'enquête transversale Evénements de
vie et santé (EVS, Direction de la recherche, des études, de l'évaluation et des

4 Centre d'études de l'emploi (CEE). Courriel : catherine.cavalin@cee-recherche.fr.


5 TEPP (ERE 3126, CNRS), CPN-EVE. Courriel : sylvie.celerier@cee-recherche.fr.
36 Pratique et méthodes de sondages

statistiques, Drees, 2005-2006)6 réalisée auprès de 10 000 personnes âgées de


18 à 75 ans. Cette enquête est très riche concernant la santé, mais plus limitée
- bien qu'intéressante pour notre projet - pour cerner les positions par rapport
à l'emploi. Par une analyse des correspondances multiples (ACM), nous
mobilisons deux séries de variables actives, relatives à la santé et à l'emploi
(voir tableau 2.1). Pour cette première étape du projet, l'ensemble de la
population de l'enquête est conservée pour vérifier que nous retrouvons aussi
les situations hors emploi connues (jeunes inactifs, retraités, etc.).
A partir des résultats de l'ACM, neuf types d'articulation santé-travail sont
identifiés, qui se répartissent sur un premier axe factoriel selon un dégradé de
santé physique allant d'une très bonne à une très mauvaise santé. La
numérotation des types reprend l'ordre proposé par ce premier axe, le type 1
occupant la position la plus favorable de ce point de vue et le type 9 la moins
favorable. De façon attendue, ce dégradé va de pair avec un âge croissant. Le
placement des neuf types selon un deuxième axe est moins lisible, dans la
mesure où aucune variable aussi progressive que l'âge ou la santé physique ne
l'organise immédiatement. On observe un effet propre de la construction de
l'ACM : les variables associées aux caractéristiques d'emploi et de travail
étant plus « discrètes » que celles qui rendent compte de l'état de santé
physique, les groupes se distinguent selon les situations spécifiques
enregistrées dans ce domaine (les indépendants, notamment, tendent à se
détacher en tant que tels).

Tableau 2.1 : Séries des variables santé et travail actives de l'ACM


TRAVAIL SANTÉ
Situation par rapport à l'emploi (oui/non) : Score agrégé de santé physique
actif occupé/chômeur/élève/retraité/ (questionnaire Short Form-12v2, ou « SF-
« autres situations » 12v2 »)
Statut (oui/non) : salarié de l'Etat/des Score agrégé de santé mentale (SF-12v2)
collectivités locales, des hôpitaux publics,
des organismes d'habitations à loyers
modérés(HLM)/d'une entreprise d'un
artisan, d'une association/d'un
particulier/aide familial/commerçant,
artisan, chef d'entreprise/indépendant
Limitations actuelles (depuis au moins 6
mois)
Limitations passées (pendant au moins 6
mois)
PCS Maladies chroniques actuelles (2 ou +) ;
oui/non
Maladies chroniques passées (2 ou +) :
oui/non

6 Pour une présentation détaillée de l'enquête voir Beck et al., 2010.


2. Enquêtes sur la santé et l'éducation 37

Ce jeu de la construction de F ACM est certainement une limite de


l'analyse, mais il n'est pas inintéressant pour autant. Nous tentons -
rappelons-le - d'identifier des situations pertinentes de santé et de travail.
Certains types articulent, à parts à peu près équivalentes, les deux séries de
variables actives, l'une relative à la santé et l'autre à l'emploi. Les autres types
sont plus « monodimensionnels » et se distinguent par l'une ou l'autre des deux
séries. Ainsi, le type qui concentre les situations de santé les plus dégradées
(type 9) se trouve-t-il essentiellement défini par cette dimension. Trois types
sont au contraire plutôt structurés par des variables d'emploi. Ils
correspondent à deux des situations d'indépendants (en activité pour le type 3
et retraités pour le type 8) et, pour le troisième (type 1), à la position de jeunes
inactifs encore en formation. Ces trois groupes s'organisent les uns par
rapport aux autres en répliquant le dégradé d'âge et de santé physique : les
jeunes inactifs occupent une position plus favorable que les indépendants
encore en activité et plus encore que les anciens indépendants à la retraite.
Les types qui articulent plus équitablement travail et santé regroupent 70 %
de l'ensemble de la population des 18-75 ans. Leurs caractéristiques sont
synthétisées dans le tableau 2.2 qui découvre des situations plus nuancées que
prévu. Les types dans lesquels les actifs en emploi sont majoritaires (2, 6 et 4)
renvoient à des situations de santé variées, en matière physique comme
mentale, qui ne recouvrent pas seulement les inégalités sociales de santé
connues par ailleurs. Des inactifs ou des actifs hors de l'emploi (types 5 et 8)
présentent une santé mentale et physique proche de celle des actifs en emploi.
Cela donne quelque raison d'interroger l'équivalence entre « bonne santé » et
« travail », au-delà des exceptions déjà connues (les plus âgés, ceux dont les
conditions de travail dégradent la santé, les femmes), d'approfondir les
distinctions entre santés physique et mentale et de compléter les informations
tirées souvent de la santé globalement perçue. En première approximation,
quelque 17% des actifs en emploi travaillent avec ou malgré une santé
dégradée, voire très dégradée. Et le type 6 fait par exemple apparaître une
nette dégradation de la santé mentale des ouvriers et non seulement de leur
santé physique.
Pour conclure, l'ACM parvient à décrire 70 % de la population de référence
articulant les variables de santé et de travail autour de cinq « situations santé-
travail ». Les 30 % de la population restants se définissent principalement par
l'état de santé ou la spécificité des situations par rapport à l'emploi
(indépendants et jeunes inactifs en formation). Telle qu'elle est construite,
l'ACM accentue l'effet du statut professionnel, distinguant par exemple les
salariés du public de ceux du privé d'une façon sans doute exagérée. Elle fait
cependant ressortir une diversité de situations de santé que les analyses
globales, par grands statuts d'emploi, perçoivent mal. Malgré ses limites, elle
incite par conséquent à poursuivre l'investigation sur trois voies : affiner les
observations en resserrant l'analyse aux populations en âge de travailler
38 Pratique et méthodes de sondages

(18-65 ans) et aux âges de plus forte activité (25-55 ans) ; mobiliser d'autres
sources statistiques complémentaires en données de santé et plus riches en
matière d'emploi et reproduire l'analyse en ne retenant que les
caractéristiques de santé comme variables actives (Cavalin et Célérier, 2011).

Tableau 2.2 ; Caractéristiques des types plus « bidimensionnels »


% population TRAVAIL SANTÉ Autres
de référence caractéristiques
(pondéré)
Type 2 36 Actifs occupés Très bonne santé 25-54 ans
Prof, interméd. physique hommes (56 %)
Salariés d'une Bonne santé
entreprise mentale
Type 6 15 Salariés d'une Mauvaise santé 25-54 ans
entreprise physique h/f : id. pop. de
Ouvriers Très mauvaise santé réf.
Actifs occupés mentale
Type 4 10 Salariés de l'Etat, Mauvaise santé 55-75 ans
des collectivités physique Femmes
locales, HLM, hôp. Mauvaise santé (59 %) >bac+2 et
publics mentale bac+2
Retraités
Prof. Interméd.
Type 5 8 Chômeurs et Bonne santé 25-54 ans
personnes au foyer physique Femmes (67 %)
Employé-e-s Mauvaise santé Brevet d'études
Ouvriers mentale du 1er cycle du
2ème degré
(BEPC)
Type 7 2 Inactifs n'ayant Très mauvaise santé 55-75 ans/18-
jamais travaillé physique 24 ans
Personnes au foyer Très mauvaise santé Femmes (85 %)
« Autres situations » mentale BEPC
*Lcs résultats des variables santé physique et mentale (voir tableau 2.1) sont répartis en quatre
types : très bon, bon, mauvais, très mauvais.

BIBLIOGRAPHIE

Beck, F., Cavalin, C. et Maillochon, F. (2010). Violences et santé en France :


état des lieux. La Documentation française, Paris, 274 pages.
Cavalin, C., et Célérier, S. (2011). Santé-travail Quelle santé ? Quel travail ?
Centre d'études de l'emploi. Document de travail n0144, à paraître.
Célérier, S. (2008). Santé précaire au travail : quelques perspectives
sociologiques. Centre d'études de l'emploi. Connaissance de l'emploi,
juillet-août, n056.
2. Enquêtes sur la santé et l'éducation 39

3. Un dispositif spécifique pour l'enquête

Handicap-Santé en France

7
Françoise YAOUANCQ

L'enquête Handicap-Santé en France est une enquête à co-maîtrise d'ouvrage


Insee/Drees (Institut national de la statistique et des études
économiques/Service statistique du Ministère de la Santé).
Cette enquête a pour objectifs de connaître l'état de santé de la population,
d'estimer le nombre de personnes en situation de handicap ou de dépendance,
d'évaluer certains indicateurs de la loi de santé publique. Elle doit aussi
recenser les déficiences, les aides, les limitations, l'environnement social des
personnes en situation de handicap et recueillir des données sur l'état de santé
de tous les Français.
Cette enquête est réalisée en deux phases : l'une auprès des personnes
vivant dans des logements ordinaires, l'autre auprès des personnes vivant en
institutions. Elle est réalisée sur micro-ordinateur grâce à CAPI (collecte
assistée par informatique).
L'enquête auprès des personnes vivant en logements ordinaires a été
réalisée au printemps 2008 auprès d'un échantillon de 40 000 individus ayant
répondu par voie postale ou par téléphone en 2007 à une enquête filtre : Vie
Quotidienne et Santé (VQS). L'échantillon de VQS comportait 140 000
logements tirés dans le recensement de la population. Un questionnaire léger
permettait de classer les 267 000 individus répondants selon la sévérité de
handicap et ainsi de tirer l'échantillon de l'enquête Handicap-Santé en
fonction de l'intensité du handicap.
L'enquête auprès des individus vivant en institution a eu lieu d'octobre à
décembre 2009. Un tirage à deux degrés a été effectué : tirage d'institutions,
puis d'individus vivant en leur sein. 1 567 institutions ont ainsi été tirées pour
10 000 individus échantillonnés et 9 100 interrogés.
Il s'agit ici de présenter le dispositif mis en œuvre à l'occasion du volet
« institutions ».

7 Institut national de la statistique et des études économiques, Direction des statistiques


démographiques et sociales, Unité des méthodes statistiques, chef de projet en
organisation statistique. Courriel : francoise.yaouancq@insee.fr.
40 Pratique et méthodes de sondages

3.1 L'enquête Handicap-Santé en Institutions

L'enquête Handicap-Santé en Institutions se déroule après l'enquête auprès


des ménages. Pour permettre d'atteindre les objectifs sur l'ensemble de la
population, le questionnaire doit être très proche du questionnaire passé
auprès des personnes vivant dans des logements et l'échantillon doit être
complémentaire. Cette enquête vise à mieux connaître les populations en
situation de handicap ou de dépendance vivant dans les institutions. Les
institutions retenues dans le champ de l'enquête sont les établissements
psychiatriques, les établissements pour personnes âgées, les établissements
pour adultes handicapés, et les CHRS (centres d'hébergement et de
réinsertion sociale). Ont été exclus du champ de l'enquête : les prisons qui
nécessitent un protocole particulier, les foyers de travailleurs, les
établissements pour enfants. Ces derniers ont été exclus après les tests : les
enfants quittaient les établissements pendant les vacances scolaires ou les
week-ends pour aller soit chez leurs parents, soit dans leur famille d'accueil.
Les institutions ont été tirées dans le Fichier national des établissements
sanitaires et sociaux (FINESS) du Ministère de la Santé. Les individus ont été
tirés par les enquêteurs à partir d'une liste de pensionnaires établie par les
institutions.

3.1.1 Un protocole particulier

a) Une pré-enquête téléphonique entre avril et juin 2009

Une pré-enquête téléphonique réalisée par les agents des directions régionales
a précédé l'enquête afin de vérifier que la structure était dans le champ de
l'enquête, obtenir l'accord de la structure, et récupérer le nom d'au moins un
correspondant, facilitant ainsi le travail des enquêteurs. Sur 2 300 institutions
ayant fait l'objet de cette pré-enquête, seulement 133 structures ont été
o
écartées dont huit pour refus. Les structures qui refusaient faisaient l'objet
d'un protocole particulier : les directeurs régionaux étaient sollicités pour
convaincre les établissements réticents.
Ces résultats s'expliquent par une communication importante mise en
œuvre afin de faciliter la collecte de l'enquête. De nombreux professionnels
de la santé, les directeurs des différents établissements, les responsables des
services enquêtés ont reçu un courrier les informant du déroulement de cette
enquête. Les différentes étapes et le calendrier y étaient présentés.

8 51 institutions hors champ, 57 institutions inconnues, 17 institutions situées dans une


autre commune.
2. Enquêtes sur la santé et l'éducation 41

b) L'enquête entre octobre et décembre 2009

L'échantillon final de structures a été réalisé parmi les structures dans le


champ de l'enquête ayant répondu à la pré-enquête : il comportait 1 824
institutions, dont une réserve de 257 institutions. Celle-ci devait être
déclenchée si le nombre d'individus interrogés était inférieur à 8 000.
Pour limiter au maximum les non-réponses, les directions régionales ont
renvoyé un courrier aux structures.
L'enquête s'est déroulée en trois phases : un contact téléphonique, une
visite auprès du réfèrent, les entretiens individuels.
Cette enquête a été réalisée par les enquêteurs de l'Insee. Les enquêteurs
commençaient par prendre contact par téléphone auprès de la personne
réfèrent. Très souvent, ils n'avaient pas besoin de présenter l'enquête. Ils
prenaient rendez-vous et donnaient les consignes nécessaires pour permettre
l'établissement de la liste des personnes éligibles au tirage au sort lors de la
visite.
Lors du rendez-vous, ils posaient quelques questions concernant
l'institution et notamment listaient les activités9 que les pensionnaires
pouvaient effectuer au sein de l'établissement. Ils vérifiaient avec le réfèrent
le respect des critères d'éligibilité et numérotaient ensuite la liste. Le nombre
de personnes ainsi éligibles était saisi dans CAPI qui indiquait à l'enquêteur
les numéros des personnes tirées au sort pour l'enquête individus10.
Certaines informations concernant ces personnes étaient ensuite saisies dans
CAPI : nom et prénom, date de naissance, sexe, aptitude à répondre, existence
d'un tuteur ou non... Ils déposaient un questionnaire « données de cadrage »"
au réfèrent chargé de le renseigner entre deux visites de l'enquêteur.
Enfin, un courrier destiné aux personnes aptes à répondre à l'enquête était
laissé au réfèrent. Si des personnes tirées au sort étaient sous tutelle ou
mineures, un courrier spécifique était remis au réfèrent chargé d'informer les
tuteurs ou les parents. En effet, ceux-ci pouvaient s'opposer à ce que leur
protégé, respectivement leur enfant, fasse partie du champ de l'enquête.
Pour clore cette visite, les enquêteurs devaient organiser les rendez-vous
avec les différentes personnes tirées au sort. Pour une personne inapte à
répondre ou mineure, c'est une personne de l'institution qui était désignée.

9 II s'agit par exemple si les personnes peuvent faire des courses, faire la cuisine au sein
de l'établissement. Ces questions évitaient de poser inutilement des questions qui
auraient été sans objet.
10 Le nombre de personnes tirées au sort était selon le type d'établissement de six ou huit
en métropole. Il était de neuf dans les DOM.
11 Ce questionnaire permet de récupérer des infonnations administratives comme la date
d'entrée dans l'établissement, le coût payé par la personne elle-même...
42 Pratique et méthodes de sondages

Les enquêteurs ont souvent réalisé plusieurs visites pour mener les
différents entretiens qui duraient en moyenne une heure par individu. Dans
certains cas, tous les questionnaires étaient réalisés le même jour.
Le questionnaire « données de cadrage » devait être récupéré lors d'une de
ces visites et saisi au domicile de l'enquêteur sous CAPI.

3.2 Les étapes de préparation de l'enquête :


trois tests

Le dispositif de cette enquête a été mis au point grâce à trois tests effectués
avec les enquêteurs de six directions régionales, chacune d'elle participant à
un seul test, afin de ne pas mettre en péril la collecte de l'enquête définitive.
Les structures sélectionnées dans les tests avaient toutes été prévenues
qu'elles pouvaient à nouveau faire partie du champ de l'enquête.
Le premier test est un test papier réalisé en novembre/décembre 2007 afin
de tester le questionnaire, mesurer le nombre de visites nécessaires, les durées
des visites auprès de l'établissement et les temps de passation du
questionnaire. Le bilan a fait apparaître qu'il était important de récupérer les
coordonnées des référents contactés à l'occasion du recensement des
communautés, de mettre en place un soutien psychologique et d'adapter le
questionnaire afin de prendre en compte les spécificités des populations
vivant dans les institutions choisies.
L'objectif du second test (avril/juin 2008) devait tester le protocole. Un
questionnaire réduit papier a été posé aux personnes tirées au sort. Les
enquêteurs ont montré les difficultés du protocole initial : les institutions
sélectionnées dans la base de sondage n'étaient pas toutes dans le champ de
l'enquête, conduisant ainsi certains enquêteurs à une charge de travail quasi
nulle. A la suite de ce test, le protocole a été modifié : la pré-enquête a été
ajoutée. Les enquêteurs ont aussi indiqué que les personnes référents pour le
recensement des communautés n'étaient pas les personnes à contacter pour les
besoins de l'enquête. Ceci a conduit l'équipe conceptrice à demander lors de
la pré-enquête les coordonnées d'un ou deux référents spécifiques.
• ■\ • • r • 12 r r r • r
Le troisième test (janvier/février 2009) a été réalisé sous CAPI. Le
protocole déterminé avec les enquêteurs après le second test a été validé. Il a
permis de tester le dispositif de formation de cette enquête et d'améliorer son
contenu pour répondre aux attentes des enquêteurs. Notamment, prendre
contact avec des institutions est totalement différent de ce qu'ils font
habituellement. Le test a aussi montré que le questionnaire devait encore être

12 La pré-enquête du test a été réalisée fin 2008.


2. Enquêtes sur la santé et l'éducation 43

adapté pour éviter de poser certaines questions sans objet13. Mais une
contrainte très forte a empêché de trop filtrer : le questionnaire devait être
comparable à celui de l'enquête réalisée auprès de personnes vivant en
logement ordinaire. Le questionnaire auto-administré14 destiné à la personne
apte à répondre a été abandonné en raison du très faible taux de réponse.

3.3 Malgré des difficultés rencontrées pendant


la collecte, un très bon taux de réponse

Cette enquête étant spécifique, elle a généré de nombreuses questions de la


part des enquêteurs et des directions régionales.
Les associations de tutelle ont refusé massivement dans un premier temps
que leurs protégés fassent l'objet de l'enquête. Après quelques appels
téléphoniques des directions régionales, elles ont finalement accepté. Le refus
préalable est en réalité due à une mauvaise compréhension du courrier. Celui-
ci avait pourtant été modifié à chaque étape de test pour les mêmes raisons
sans aboutir pour l'enquête définitive à une version correcte.
Le manque de temps des personnels des institutions a été pointé par les
enquêteurs. Mais cela n'a pas gêné l'enquête, certains membres du personnel
soignant ou des éducateurs prenaient leur temps de pause pour répondre aux
enquêteurs.
Une difficulté importante est la récupération des noms de famille des
personnes tirées au sort. Les institutions protègent leurs pensionnaires. Pour
éviter d'avoir des refus massifs, l'équipe conceptrice a autorisé à ne pas
enregistrer les noms de famille. Cette décision affecte l'exploitation de
l'enquête qui prévoit de reconstituer le numéro de sécurité sociale des
individus enquêtés pour récupérer les consommations médicales de chacun et
réaliser dans quelques années un suivi de mortalité.
Les enquêteurs ont indiqué que le questionnaire des données de cadrage a
été mal renseigné par le personnel de l'institution, les questions n'ont pas
toujours été comprises.
Les enquêteurs ont été marqués par cette enquête différente. Même s'ils
sont peu nombreux à avoir fait appel au numéro vert (service d'accueil,
d'information et de vente à distance pour les clients handicapés) mis en place
pour les accompagner, ils disent avoir été rassurés par son existence.

13 Par exemple : il a fallu filtrer le questionnaire pour ne pas poser les questions sur
l'alimentation quand la personne est alimentée par sonde.
14 Ce questionnaire auto-administré permettait de recueillir les consommations d'alcool et
de tabac, notamment.
44 Pratique et méthodes de sondages

Malgré ces difficultés, les résultats de collecte sont très bons. La synergie
entre tous les acteurs est à signaler : cette enquête a été l'objet d'un travail
d'équipe où chacun (enquêteur, agent des directions régionales, hiérarchie et
membres de l'équipe conceptrice) s'est investi pour aboutir aux résultats de
collecte suivants :
Sur 1 567 institutions15, 96 % ont accepté la totalité de la phase institutions,
1 % a accepté, mais refusé le questionnaire des données de cadrage, et 3 %
seulement ont refusé ou sont hors champ16.
10 020 individus ont été échantillonnés : 91 % des entretiens ont été réalisés
en totalité, 1 % des entretiens ont été réalisés, mais les données de cadrage des
individus n'ont pas été récupérées, 8 % sont des déchets. Parmi ces déchets,
44 % sont des refus provenant soit de l'individu s'il est apte, soit des tuteurs,
soit des parents si l'individu désigné est inapte à répondre. 21 % sont des
individus partis vivre dans un logement ordinaire.
Si le résultat global fait apparaître un taux de réponse moyen de 91 % quel
que soit le type de l'institution, des différences existent entre les types
d'établissements. Le taux de réponse est plus bas dans les établissements
psychiatriques, mais il est meilleur que celui généralement constaté dans ce
type d'établissements et meilleur que celui de la dernière enquête en 1998.
Les taux de réponse par type sont les suivants :
1. Établissements pour personnes âgées : 93 %.
2. Établissements pour adultes handicapés : 94 %.
3. Établissements psychiatriques : 83 %.
4. Centres d'hébergement et réinsertion sociale : 88 %.

Cette enquête a été très appréciée de tous les acteurs. Les institutions ayant
participé à l'un des tests et tirées au sort dans le champ de l'enquête ont
souligné les efforts faits pour prendre en compte les difficultés rencontrées
lors des tests. Elle restera gravée dans les mémoires de tous ceux qui ont
contribué à sa réalisation.

15 L'échantillon de réserve n'a pas été déclenché.


16 Certaines institutions ont pu devenir hors champ après la pré-enquête.
2. Enquêtes sur la santé et l'éducation 45

4. Constitution d'une base de sondage à

partir de fichiers de gestion de

départements volontaires et

représentativité nationale

17
Séverine DOS SANTOS

4.1 Présentation de l'enquête

La Drees, service statistique des ministères de la Santé, des Affaires sociales


et du Budget, mène actuellement une enquête auprès des bénéficiaires de deux
prestations dites de compensation du handicap, la prestation de compensation
du handicap (PCH) et l'allocation compensatrice tierce personne (ACTP).
Pour l'analyse des résultats, il était nécessaire de disposer d'un certain
nombre de données administratives et médicales. Les bénéficiaires connaissent
en général peu ou mal ces données. Ces données ont donc été collectées dans
leurs dossiers administratifs. Ainsi, l'enquête comprend deux volets : un volet
en face à face avec le bénéficiaire et un volet administratif.
Les prestations sont attribuées par chaque département ; les informations
nécessaires à la collecte du volet administratif sont contenues dans les
dossiers détenus par les maisons départementales des personnes handicapées
(MDPH), lieu d'accueil et d'évaluation des personnes handicapées.
Les personnes concernées par cette enquête sont celles ayant un accord pour
percevoir la PCH ou l'ACTP, en cours de validité au 31 décembre 2008,
vivant en domicile ordinaire en France métropolitaine, et âgées de 20 à 60
inclus au 31 décembre 2008.
5 000 répondants au volet en face à face étaient attendus. Pour des raisons
de coût et parce qu'il n'existe pas de base nationale, un tirage aléatoire sur
l'ensemble des bénéficiaires n'était pas envisageable. Le tirage a donc été
réalisé en deux étapes : dans un premier temps, un choix des départements,
puis, au sein de chaque département choisi, un tirage aléatoire des bénéficiaires
stratifié selon la prestation perçue.
Pour la première étape, on parle bien de choix et non de tirage aléatoire car
la participation des départements à l'enquête était soumise à leur volontariat.
En effet, pour le volet administratif et l'accès aux dossiers des bénéficiaires la
direction de la MDPH devait donner son accord. Concernant la partie
médicale de ce volet administratif, un médecin de la MDPH devait accepter
de valider le principe de recueil des données. Enfin, la principale condition
était que la MDPH soit en capacité d'extraire de ses bases informatiques les

17 Séverine Dos Santos, Drees, Paris, France. Courriel : severine.dos-santos@sante.gouv.fr.


46 Pratique et méthodes de sondages

informations sur les bénéficiaires entrant dans le champ de l'enquête et de


s'assurer de la présence des différentes variables nécessaires à la constitution
du plan de sondage. En effet, comme aucune base nationale n'existait, c'était
à partir des extractions que la base de sondage serait élaborée.

4.2 Constitution de la base de sondage

4.2.1 Participation des départements

La première étape a été de convaincre des départements parmi les 96 de


France métropolitaine de participer à l'enquête. Afin d'avoir une répartition
des MDPH selon les prestations de leurs bénéficiaires et selon la taille du
département, six strates ont été conçues en fonction du nombre de
bénéficiaires de la PCH, d'une part, et de l'ACTP, d'autre part. Douze MDPH
ont été spontanément volontaires, couvrant toutes les strates préétablies.
Les relances téléphoniques ont ensuite été réalisées de manière ciblée
auprès des non-répondantes afin d'avoir suffisamment de MDPH dans chaque
strate. Au total, dix-huit MDPH ont participé à l'enquête. Le principal motif
de refus de participation a été une incapacité à fournir la base de sondage.
Afin de pouvoir extrapoler les résultats de ces dix-huit départements à la
France métropolitaine, il était important de s'assurer que l'ensemble de ces
départements volontaires avaient des caractéristiques semblables à celles de
l'ensemble du territoire, qu'ils permettaient ainsi de représenter correctement
la situation de la population cible vivant en France métropolitaine.
On observe une légère sous-représentation des populations fortement urbaine
ou vivant dans les espaces à dominante rurale. Néanmoins, les ordres de
grandeur de la répartition sont respectés. En ce qui concerne l'âge, le
pourcentage des 20-59 ans observé sur les 18 départements volontaires est
très proche de celui de la France métropolitaine. Enfin, pour ce qui est de
quelques indicateurs relatifs au handicap, tels que le pourcentage de
personnes dans la population totale percevant l'ACTP ou la PCH, les taux
observés sont très proches. Le ratio entre bénéficiaires de l'ACTP et de la
PCH est également assez similaire. D'autres facteurs (taux de chômage ou
répartition par catégories socioprofessionnelles) ont été comparés et les ordres
de grandeurs sont similaires.
Ainsi, par rapport aux objectifs de l'enquête, les départements volontaires
ont été jugés représentatifs de l'ensemble de la France métropolitaine.

4.2.2 Traitement des fichiers envoyés par les MDPH

Pour constituer la base de sondage, les départements concernés par l'enquête


ont envoyé à la Drees l'extraction de leurs données selon le champ déterminé
2. Enquêtes sur la santé et l'éducation 47

et les variables nécessaires, compte tenu des spécifications générales


transmises.
La première difficulté a été que chaque MDPH dispose de son propre
système infonnatique, souvent composé de plusieurs systèmes de gestion
spécialisés selon la nature de la prestation et/ou la date à laquelle une
demande a été effectuée pour bénéficier de la prestation. Certains départements
ont ainsi envoyé plusieurs fichiers. Pour aboutir à la base finale, deux niveaux
de concaténation ont été réalisés : tout d'abord au niveau de chaque
département, puis sur l'ensemble des départements.
Le premier travail a été d'uniformiser les fichiers par département, c'est-à-
dire de faire en sorte d'avoir les mêmes variables dans les mêmes formats, et
surtout de créer une base d'individus, ayant une ligne par individu et non une
ligne par prestation comme c'était majoritairement le cas.
Pour pouvoir créer cette base d'individus, un travail de recherche de
doublons a été nécessaire, les individus n'ayant pas automatiquement un
identifiant unique, notamment lorsqu'ils avaient été saisis dans des logiciels
différents. La recherche a porté sur les noms-prénoms et sur les noms-date de
naissance. Les noms utilisés étaient les noms de naissance et les noms
maritaux. Les accents, majuscules et traits d'union ont été supprimés avant la
vérification. Un balayage de la liste a ensuite été effectué pour repérer
d'éventuelles fautes de frappe qui auraient échappé à la vérification
automatique. Pour ce travail, la Drees a adressé à la Commission Nationale de
1S
l'Informatique et Liberté (Cnil) une demande d'autorisation d'accès aux
données nominatives.
D'autre part, lorsqu'un même individu avait eu plusieurs décisions,
certaines informations annexes (comme son adresse ou celles de son tuteur
éventuel) n'étaient pas toujours mises à jour. Afin de s'assurer d'avoir des
informations valides, seules les informations liées à la dernière décision ont
été retenues.

4.2.3 Respect du champ de l'enquête

Une fois la base d'individus constituée, il était important de s'assurer du bon


respect du champ de l'enquête.
Les personnes âgées de moins de 20 ans, de plus de 60 ans, décédées en
2009, ayant un début d'accord datant de 2009 ou une fin d'accord antérieure
au 31 décembre 2008, ont été écartées.
Étant donné qu'aucune variable ne permet de repérer de manière immédiate
les personnes vivant en établissement, un travail sur les adresses a été
nécessaire. Tout d'abord, une recherche des termes faisant référence à des

18 Le rôle de la Cnil est de protéger l'individu contre tout usage abusif de données
informatiques le concernant.
48 Pratique et méthodes de sondages

établissements (hôpital, handicap, médical, foyer...) a été réalisée. À partir de


la base des établissements gérée par la Drees, FINESS, les établissements
présents dans les départements concernés, puis dans les communes dans
lesquelles vivent des bénéficiaires, ont été isolés. Puis, il a été vérifié
manuellement si des bénéficiaires avaient comme adresse celle de l'un de ces
établissements. La vérification automatique n'a pas pu être réalisée étant
donné que les formats des adresses n'étaient pas normalisés et qu'aucun outil
n'était disponible dans de brefs délais. Enfin, les adresses auxquelles
habitaient au moins trois bénéficiaires ont été examinées afin de repérer
d'éventuels établissements. Les bénéficiaires résidant aux adresses repérées
comme étant celles d'établissements ont été écartés de la base.
La dernière vérification des bases départementales a concerné le décompte
des bénéficiaires. Un contrôle quantitatif a été réalisé en comparant le nombre
de bénéficiaires par prestation et par département issu des bases traitées à
celui fourni par une enquête annuelle réalisée par la Drees auprès des conseils
généraux (organismes départementaux qui financent la prestation). Cette
vérification a permis de s'assurer que les extractions étaient correctes et que le
champ avait bien été respecté.
La base de sondage a ainsi résulté de la concaténation des différentes bases
départementales apurées.

4.3 Réflexion sur les pondérations

Afin de caractériser les non-répondants au-delà de leur sexe, âge ou prestation


perçue, 1 000 personnes ont été tirées au sort parmi les non-répondants au
volet en face à face. Pour ces 1 000 individus, la Drees a collecté des données
administratives les concernant. En utilisant la méthode des scores, l'analyse
des facteurs de non-réponse au face-à-face (refus, personne non trouvée, etc.)
peut aller au-delà des seules variables utilisées pour le plan de sondage, en
prenant en compte notamment le type de handicap de la personne.
Les données seront ensuite calées en deux temps sur des effectifs et
structures par sexe et âge fournis par une enquête annuelle réalisée par la
Drees auprès de tous les conseils généraux.
Il s'agit, dans un premier temps, de caler la structure des bénéficiaires
répondants dans ces 18 départements sur celle de l'ensemble des bénéficiaires
de ces départements, en modifiant les poids de sondage affectés initialement à
chaque répondant.
En complément des vérifications réalisées sur la représentativité des 18
départements, d'autres analyses seront menées afin de confirmer qu'un
deuxième calage sur l'ensemble des départements de France métropolitaine
est possible pour représenter dans un second temps l'ensemble des
bénéficiaires vivant en France métropolitaine.
2. Enquêtes sur la santé et l'éducation 49

5. Mesure de l'influence des facteurs

socioéconomiques sur l'obésité :

regards croisés des modèles

logistiques et quantiles

19 20
Anastase TCHICAYA et Modou DIA

5.1 Introduction

Le surpoids et l'obésité sont des problèmes de santé qui prennent de plus en


plus d'ampleur dans la plupart des pays développés. La charte européenne sur
la lutte contre l'obésité adoptée en 2006 souligne que « L'épidémie d'obésité
constitue l'un des plus redoutables défis pour la santé publique dans la Région
européenne de l'OMS » (Organisation Mondiale de la Santé). De nombreux
travaux ont montré l'influence des facteurs socioéconomiques sur la
prévalence du surpoids et de l'obésité (Sassi, Devaux, Church, Cecchini et
Borgonovi, 2009 ; Dodd, 2009, Kilicarslan, Isildak, Guven, Oz, Tannover,
Duman, Saracbasi et Sozen, 2006). L'hypothèse sous-jacente est que le faible
niveau socioéconomique constitue en soi un facteur de risque de surpoids et
d'obésité.
Cette communication vise à analyser l'influence des facteurs socioéconomiques
sur le surpoids et l'obésité au Luxembourg à travers l'application des modèles
logistiques et quantiles sur des données d'une enquête portant sur les revenus
et les conditions de vie des ménages. Elle découle des travaux menés dans le
oi
cadre du projet de recherche ESANDE" qui bénéficie du financement du
Fonds National de la Recherche du Luxembourg (FNR).

5.2 Méthodes

5.2.1 Source de données

Les données utilisées proviennent des enquêtes PSELL/EU-SILC (Panel


Socio-Economique Liewen zu Lëtzebuerg/European Union - Survey on
Income and Living Conditions) réalisées par le CEPS/INSTEAD en
collaboration avec le STATEC. Il s'agit d'une enquête de type longitudinal

19 Centre d'Études de Populations, de Pauvreté et de Politiques Socioéconomiques


(CEPS/INSTEAD)- Luxembourg. Courriel : anastase.tchicaya@ceps.lu.
20 CEPS/INSTEAD - Luxembourg. Courriel : modou.dia@ceps.lu.
21 « État de santé et ses déterminants : une approche en termes d'inégalités sociales de
santé ».
50 Pratique et méthodes de sondages

couvrant environ 10 000 personnes (dont près de 8 000 âgées de 16 ans et


plus). Seules les personnes vivant en ménages privés sont interrogées et les
interviews se font en face à face. Sont traitées ici des données des enquêtes de
2005 et 2007.

5.2.2 Données

La variable dépendante d'intérêt est une mesure du poids (y compris le


surpoids et l'obésité) basée sur l'indice Quételet ou l'indice de masse
corporelle (IMC) qui est défini comme le rapport du poids en kilogramme sur
le carré de la taille en mètre (Kg/m2). Il existe deux manières d'utiliser l'IMC,
soit recourir à la forme transformée tenant compte de la classification
internationale de l'OMS (poids normal : IMC < 25 kg/m2, surpoids :
25 < IMC < 30 kg/m2, obésité : IMC > 30 kg/m2), soit considérer ses valeurs
comme elles sont recueillies. Des deux manières de définir notre variable
dépendante d'intérêt découlent l'application de deux types de modèles de
régression : le modèle de régression logistique généralisée et le modèle de
régression quanti le (Koenker et Hallock, 2001), respectivement.
Afin de minimiser les biais potentiels de déclaration qui apparaissent
lorsque les personnes sont amenées à donner séparément leur taille et leur
poids, la valeur de l'IMC est reportée directement par la personne interrogée.
En effet, l'enquêteur présente à la personne interrogée une carte sur laquelle
figurent le poids, la taille et la valeur de l'IMC correspondante.
Les variables socioéconomiques et démographiques utilisées comme
variables explicatives sont l'âge, le sexe, le niveau d'éducation, le revenu du
ménage et la nationalité. Le niveau de vie est défini en quintile de revenu
équivalent selon l'échelle modifiée d'Oxford et le niveau d'éducation est
décomposé en trois modalités : primaire, secondaire et supérieur.

5.3 Résultats

5.3.1 L'effet du revenu

Les coefficients des quatre quintiles sont significativement positifs, à


l'exception du coefficient du « quintile 2 » pour le surpoids dans le modèle
logit généralisé. Les rapports de cotes montrent clairement que les personnes
à faible revenu sont plus susceptibles d'être obèses que celles ayant des
revenus plus élevés. Par exemple, en 2007, des personnes à revenu par
équivalent plus faible (quintile de revenu le plus bas) ont 1,6 fois plus de
chance d'être obèses plutôt que d'avoir un poids normal par rapport à celles
qui ont des revenus plus élevés (quintile de revenu le plus élevé). Concernant
le surpoids, des différences statistiquement significatives existent, mais elles
sont faibles au regard de celles observées au niveau de l'obésité.
2. Enquêtes sur la santé et l'éducation 51

Alors que pour les modèles quantiles, sur l'ensemble des modalités et sur
toutes leurs distributions, aucun coefficient n'est significativement différent
de zéro, à l'exception du voisinage immédiat du 8e décile pour les coefficients
du « quintile 1 » et du « quintile 2 » pour l'année 2005, ainsi que pour l'année
2007 au-delà du 8° décile pour les coefficients du « quintile 2 » et du
« quintile 3 », au voisinage immédiat du 6e décile pour le coefficient du
« quintile 4 » (cf. tableau 2.3).

Tableau 2.3 : Significativité des coefficients de la


modalité « 1er quantile » de revenu par rapport à la modalité
de référence « 5e quintile » de revenu et des coefficients du
modèle logit avec la modalité « Normal » comme référence
Les 10 interdéciles du modèle quantile
Année D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 Modèle
Logit
Normal
(IMC < 25) 2005
2007
Surpoids
(25 < IMC < 30) 2005 * *
2007 *
Obésité
(IMC >30) 2005 * *
2007 *
* = significatif aux seuils au moins de 5 % pour le modèle quantile et au moins de 1 % pour le
modèle logit.
Modèle logit : Plus le revenu est élevé, plus est faible le risque de surpoids ou d'obésité.
Modèle quantile ; Cela n'est vérifié que pour un intervalle inter-décile.

5.3.2 L'effet du niveau d'éducation

Les coefficients sont positifs, significativement différents de zéro et


décroissants du primaire au secondaire pour le modèle logit généralisé. Les
rapports de cotes indiquent des risques plus importants pour les personnes
moins éduquées de se trouver en situation de surpoids ou d'obésité plutôt
qu'en poids normal par rapport à celles qui sont plus éduquées.
Tandis que pour les modèles quantiles, si tous les coefficients sont
significativement positifs, il n'est pas prudent d'établir une hiérarchie parmi
leur niveau, vu l'étendue des intervalles de confiance qui s'agrandit
énormément à partir du 8e décile (cf. tableau 2.4).
52 Pratique et méthodes de sondages

Tableau 2.4 : Signitlcativité des coefficients de la


modalité du niveau d'éducation « Primaire » par rapport à
la modalité de référence « Supérieur » et des coefficients du modèle logit
Les 10 interdéciles du modèle quantile
Annee D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 Modèle
Logit
Normal
(IMC < 25) 2005
2007
Surpoids
(25 < IMC < 30) 2005
2007
Obésité
(IMC > 30) 2005
2007
* = significatif aux seuils au moins de 5 % pour le modèle quantile et au moins de l % pour le
modèle logit avec la modalité « Normal » comme référence.
Modèle logit : Plus le niveau d'éducation est élevé, plus est faible le risque de surpoids ou
d'obésité.
Modèle quantile : En général, cela est vérifié sauf pour 1 ou 2 déciles.

5.4 Conclusion

Les facteurs socioéconomiques, en particulier le revenu et le niveau


d'éducation, ont bien une influence sur la prévalence du surpoids et de
l'obésité. Cependant, cette influence se manifeste différemment selon le type
de modèle utilisé pour en saisir l'essence. Pour ne considérer que ces deux
facteurs socioéconomiques susmentionnés, il apparaît clairement l'existence
de gradient social de surpoids et d'obésité selon le niveau d'éducation et le
niveau de revenu par équivalent et cela pour les deux années étudiées en
appliquant le modèle logistique généralisé. Par contre, concernant la
régression quantile, si la signitlcativité est avérée pour le facteur éducation, il
n'en est pas de même, sauf exception, pour le revenu.

BIBLIOGRAPHIE

Dodd, M.C. (2009). Intertemporal Discounting and Body Weight. School of


Economies, University of Adelaide, Australia. July 2009, 29 pages.
2. Enquêtes sur la santé et l'éducation 53

Kilicarslan, A., Isildak, M., Guven, G.S., Oz, S.G., Tannover, M.D.,
Duman, A.E., Saracbasi, O. et Sozen, T. (2006). Démographie,
socioeconomic and educational aspects of obesity in an adult population.
Journal ofthe National Médical Association, vol. 98, n08, 1313-1317.
Sassi, F., Devaux, M., Church, J., Cecchini, M. et Borgonovi, F. (2009).
Education and obesity in four OECD countries. OECD Health Working
Papers, n046, 1 -46.
Koenker, R., et Hallock, K. (2001). Quantile régression: An introduction.
Journal of Economie Perspectives, 15, 143-156.

6. Enquêtes d'évaluation en éducation, au

tour des maîtres : les enquêtes TALIS et

TEDS-M

Jean DUMAIS22 et Gildas KLEIM23

6.1 Introduction

L'évaluation du rendement des élèves au moyen d'enquêtes internationales


remonte aux années 50. Au cours du temps, les méthodes ont été
standardisées, les techniques d'échantillonnage ont gagné en rigueur et les
pays ont été plus nombreux à participer. Toutefois, si les enseignants sont
couverts par ces enquêtes, ils ne sont généralement pas considérés comme des
unités d'analyse, et les données recueillies à leur sujet sont généralement
traitées comme des attributs de leurs élèves.
En 2006-2008 l'Organisation de coopération et de développement
économique (OCDE) a mené le « Teaching and Le a min g International
Survey » (TALIS) auprès des maîtres en exercice au niveau ISCED 2, niveau
couvrant de la O1" à la 9e année de scolarité (de la classe de 6e à la classe de 3e
dans le système français). Durant la même période (2005-2009),
l'International Association for the Evaluation of Educational Achievement
(IEA) menait le « Teacher Education and Development Study in
Mathematics » (TEDS-M) auprès des finissants des programmes de formation
des maîtres pour le primaire et le début du secondaire, avec spécialisation en
enseignement des mathématiques.
Dans cet article, nous passerons en revue les points saillants de ces deux
études.

22 Statistique Canada, Direction de la Méthodologie. Courriel : jean.dumais@statcan.gc.ca.


23 Statistique Canada, Direction de la Méthodologie. Courriel : gildas.kleim@statcan.gc.ca.
54 Pratique et méthodes de sondages

6.2 TALIS

La gouvernance de l'enquête TALIS a été assurée par le groupe des pays


participants et par l'OCDE, tandis que la Communauté européenne et la
Commission Syndicale Consultative (TUAC) occupaient des fauteuils
d'observateurs à la table d'orientation de l'enquête. La réalisation de
l'enquête avait été confiée, après appel d'offres, au Centre de recherche et de
traitement de données de LIE A (DPC) - fournisseur de services principal - et
à Statistique Canada pour les parties d'échantillonnage et de calcul des poids.
L'OCDE assurait la conception des questionnaires, l'analyse des résultats et
la coordination des travaux.
Au nombre des pays participants, on compte l'Australie, l'Autriche, la
Communauté flamande de Belgique, la Bulgarie, le Brésil, le Danemark,
l'Espagne (sauf le Rioja et les Canaries), l'Estonie, la Hongrie, l'Irlande,
l'Islande, l'Italie, la Corée du Sud, la Lituanie, le Mexique, Malte, les Pays-
Bas, la Norvège, la Pologne, le Portugal, la Slovaquie, la Slovénie et la
Turquie.
TALIS visait principalement à identifier les barrières à l'enseignement
efficient. A cette fin, tant les maîtres que les directeurs des écoles où ils
enseignaient ont fait l'objet d'une enquête par sondage. Le questionnaire
proposé aux maîtres abordait des sujets aussi divers que le développement
professionnel, l'évaluation de rendement, leurs attitudes, pratiques et
convictions ainsi que leur pratique pédagogique dans une classe de référence
(choisie à un moment fixe de la semaine). Les directeurs des écoles
sélectionnées ont quant à eux répondu à des questions portant sur leur niveau
d'autonomie dans la gestion de leur école, les pratiques d'évaluation du
rendement des maîtres, les ressources à disposition de l'école, le climat de
travail et d'étude, l'existence de programme de mentorat ou tutorat pour les
nouveaux maîtres. Des questions d'ordre démographique étaient aussi posées
aux maîtres et aux directeurs.
Dans chaque école sélectionnée, la population cible des maîtres était
composée de tous ceux dont une partie de la tâche d'enseignement était
donnée au niveau ISCED 2 ; aucune discipline n'était exclue. Cependant, les
maîtres travaillant exclusivement en région éloignée, à l'éducation aux
adultes, aux enfants ayant des besoins spéciaux (retard scolaire grave, cécité,
surdité, etc.) et les professionnels non enseignants (psychologue scolaire,
orthophoniste, orienteur, bibliothécaire...) étaient exclus de TALIS.
Le même plan de sondage de base à deux degrés a été appliqué à tous les
pays participant : au premier degré, un minimum de 200 écoles a été choisi
aléatoirement par tirage systématique avec probabilité proportionnelle au
nombre de maîtres. Par la suite au moins 20 maîtres ont été choisis par tirage
aléatoire simple dans chaque école participante. Tous les maîtres ont été
sélectionnés pour l'enquête dans les écoles qui en contenaient moins de 20, et
2. Enquêtes sur la santé et l'éducation 55

le choix de faire un recensement ou tirer un échantillon a été donné aux


responsables nationaux dans les écoles où travaillaient entre 20 et 29 maîtres.
Dans chaque pays, la population d'écoles a pu être stratifiée avant le tirage en
fonction des besoins exprimés par les coordonnateurs nationaux. Certains
participants ont choisi de prendre des échantillons plus grands que ce qui était
minimalement requis. Finalement, une classe de référence, au sujet de
laquelle les réponses devaient porter dans la dernière section du questionnaire,
a été choisie pour chaque maître participant.
Pour pallier l'inévitable non-réponse, chaque école choisie était assortie
d'une ou deux (selon les disponibilités) écoles remplaçantes choisies au
moment du tirage initial. Soulignons que les indicateurs utilisés pour évaluer
la qualité des données recueillies, tels que les taux de participation, ont tenu
compte du recours aux écoles remplaçantes ; le remplacement des maîtres
non-répondants était interdit.
Les taux de participation des écoles et des maîtres ont été calculés pour
chacun des systèmes scolaires participants. Le taux global, défini comme le
produit du taux de participation des écoles par celui des professeurs dans les
écoles participantes, varie de 58,8 %, en Australie à 97,7 % à Malte. Ces taux
de participation ont été utilisés pour établir la cote de qualité à attribuer à
chaque ensemble de données national.
Le tableau 2.5 résume la stratégie de validation et d'arbitrage des
échantillons nationaux. Cette stratégie s'apparente à celle utilisée par le
« Programme for International Student As ses s ment » (PISA) ; elle est moins
exigeante cependant que celle utilisée pour la validation des échantillons par
l'IEA. Notons que le fardeau de la preuve quant à l'impact du biais de non-
réponse revenait au pays concerné.

Tableau 2.5 ; Cotes de qualité en fonction


des taux de participation bruts (non pondérés)
Taux avant remplacement < 75 % > 75 %
Taux après remplacement < 75 % > 75 %
Biais de non-réponse Important Faible Bon
passable
Arbitrage (cote de qualité) pauvre passable
Source : OCDE (2010)

Toutes les estimations ont été calculées au moyen d'estimateurs de Horvitz-


Thompson. Les poids de sondage ont été ajustés pour tenir compte de la non-
réponse (à chaque degré). Les erreurs d'échantillonnage ont été estimées par
la technique des demi-échantillons équilibrés {Balanced Repeated
Replication) de Fay.
Plus de deux millions de maîtres sont représentés par TALIS, sur un
ensemble de 24 systèmes éducatifs participants. L'étude permet de dresser un
56 Pratique et méthodes de sondages

portrait très approfondi de cette population. Nous en résumons ici certains


points parmi les plus significatifs.
Dans la plupart des pays, les maîtres éprouvent un bon niveau de
satisfaction à l'égard de leur emploi et ont le sentiment d'avoir un impact
significatif sur leurs étudiants. Les maîtres investissent aussi dans leur
développement professionnel, et cet investissement va de pair avec un
répertoire de techniques d'enseignement plus vaste. Cependant, près des trois
quarts des maîtres rapportent qu'ils ne s'attendent pas à ce qu'on reconnaisse
les améliorations qu'ils apportent à leur enseignement, que les plus
performants ne sont pas reconnus, que rien n'arrive à ceux qui sont
chroniquement sous la barre.
Au-delà du simple exercice bureaucratique, l'évaluation de rendement et le
feedback participent aussi à l'amélioration de l'enseignement. Ils sont bien
reçus et indiquent un désir de s'améliorer.
TALIS montre qu'un développement professionnel mieux ciblé peut être un
important levier vers l'amélioration de l'enseignement, mais que l'offre de
développement doit être davantage adaptée aux besoins.
Les maîtres rapportent aussi qu'ils utilisent moins les méthodes
d'enseignement individualisées que les méthodes plus traditionnelles, et qu'ils
utilisent encore moins les méthodes qui demandent une plus grande
participation cognitive des élèves.
TALIS indique qu'un leadership efficace exercé par le directeur joue un
rôle important dans le développement des maîtres. Là où l'accent est mis sur
un leadership dit « pédagogique », les directeurs sont davantage enclins à se
servir du développement professionnel pour corriger les lacunes identifiées
lors des évaluations ; on trouve aussi de meilleurs rapports maîtres-élèves,
une plus grande reconnaissance des innovations pédagogiques et davantage de
collaboration entre maîtres.
TALIS était une des premières grandes enquêtes comparatives menées
auprès de maîtres en exercice et un certain nombre de leçons ont été apprises
qui pourront être profitables dans le futur. Ainsi, l'identification correcte de la
population cible demandera la clarification des règles d'inclusion et
d'exclusion. Par ailleurs, les règles régissant l'identification de la classe de
référence n'ont pas été clairement comprises et correctement appliquées dans
quelques pays ; ces règles devraient être révisées. Enfin, si possible, le
contrôle de l'échantillonnage des maîtres dans les écoles devrait être
amélioré.
Au moment de la rédaction de cet article, des discussions ont lieu à l'OCDE
entre pays intéressés sur la suite à donner à TALIS : faut-il reprendre ISCED
2 ou étendre à ISCED 1 (primaire) ou 3 (fin du secondaire) ? Faut-il couvrir
les mêmes sujets, ou ouvrir à de nouveaux thèmes ? Les décisions devraient
être prises dans les mois qui viennent.
2. Enquêtes sur la santé et l'éducation 57

6.3 TEDS-M

Si TALIS s'intéressait aux maîtres en exercice, TEDS-M s'intéressait aux


maîtres en formation, et plus précisément, à ceux qui se destinaient à
enseigner les mathématiques. La gouvernance de TEDS-M était assurée par le
Secrétariat de l'IEA, par le Collège of Education de la Michigan State
University (MSU) et par VAustralian Council for Educational Research
(ACER). La réalisation de TEDS-M a été confiée à une équipe formée de
DPC, Statistique Canada et ACER.
Les systèmes éducatifs suivants ont participé à TEDS-M en tout ou en
partie : l'Allemagne, le Botswana, le Canada (4 provinces), le Chili, Taipei,
l'Espagne (niveau primaire seulement), la Géorgie, la Malaisie, la Norvège,
Oman (niveau secondaire seulement), les Philippines, la Pologne, la Russie,
Singapour, la Suisse (partie genuanophone), la Thaïlande, et les Etats-Unis
(institutions publiques seulement).
L'enquête TEDS-M avait pour but d'identifier les facteurs qui caractérisent
une formation des maîtres (FdM) efficiente. Pour ce faire, quatre populations
cibles ont été identifiées : d'abord, les institutions post-secondaires où des
programmes de fonuation des maîtres, c'est-à-dire dont les diplômés pourront
enseigner les mathématiques, sont offerts ; ensuite les « éducateurs » c'est-à-
dire ceux qui enseignent au moins un cours obligatoire du programme de
FdM durant l'année de l'enquête ; et enfin les « futurs maîtres » au niveau
primaire ainsi que ceux au niveau secondaire, c'est-à-dire les étudiants de
dernière année d'un programme de FdM permettant l'enseignement des
mathématiques à l'un de ces niveaux.
Trois paramètres ont été utilisés pour définir les plans d'échantillonnage
dans chaque pays : le programme, la route (dite consécutive, quand l'étudiant
devait obtenir un premier diplôme en mathématiques avant de poursuivre des
études en pédagogie, ou concurrente quand les deux thèmes étaient abordés
conjointement) et le niveau (enseignement au primaire ou au secondaire).
Le plan de sondage générique prévoyait un échantillon de 50 institutions
par route (consécutive, concurrente) et niveau (primaire, secondaire), de 30
futurs maîtres par institution, route et niveau, de 30 éducateurs en pédagogie
générale par institution et de 30 éducateurs en mathématique et pédagogie des
mathématiques par institution. Selon les pays, on a pu procéder à des
recensements à tous les degrés, à un recensement des institutions mais à des
échantillons d'individus, ou choisi des échantillons à chaque degré.
Soulignons finalement que TEDS-M doit être vu comme un ensemble de
quatre enquêtes distinctes dont les échantillons sont coordonnés pour
optimiser l'utilisation de la base de sondage. Lors de l'analyse cependant, il
n'est pas possible de croiser les données issues de chacune des populations
étudiées.
58 Pratique et méthodes de sondages

La validation et l'arbitrage ont été réalisés pour chacun des 66 échantillons.


Les règles d'arbitrage pour TEDS-M étaient un peu plus rigoureuses que
celles utilisées pour TALIS, mais conformes aux exigences de LIE A, et elles
ont de fait empêché la publication de certains résultats. Les taux de
participation ont été calculés indépendamment pour chaque enquête ; ainsi,
une institution donnée pouvait être considérée comme participante pour
l'enquête auprès des futurs maîtres au primaire, mais comme non-répondante
à l'enquête auprès des éducateurs si moins de 50 % de ceux-ci avaient
participé.
Toutes les estimations ont été calculées au moyen d'estimateurs de Horvitz-
Thompson. Les poids de sondage ont été ajustés pour compenser l'effet de la
non-réponse. Les erreurs d'échantillonnage ont été estimées par la technique
des demi-échantillons équilibrés {Bcilcinced Repecited Replication) de Fay.
TEDS-M a ouvert la voie aux études comparatives internationales par
échantillons probabilistes en milieu universitaire. Il aura fallu beaucoup de
discussions avec l'équipe des concepteurs et avec les pays participants pour
arriver à la mise en place de définitions claires et utilisables des différentes
unités d'intérêt. Nul doute qu'une deuxième édition de TEDS en bénéficiera.
Au moment d'écrire cet article, il est encore trop tôt pour indiquer si des
études équivalentes à propos de l'enseignement des sciences ou des langues
sont envisageables, afin de compléter les panoramas dressés au moyen des
autres études tenues par 1TEA ou l'OCDE. Cependant, l'OCDE a entamé un
processus d'étude de faisabilité pour l'évaluation des compétences
transversales et spécifiques des finissants des programmes de premier cycle
universitaire (Assessment ofHigher Education Learning Outcome).
Les auteurs remercient Fr. D' Sabine Meinck, de 1TEA-DPC ainsi que
Mmc Sylvie Laroche, M. Marc Joncas et M. Pierre Lavallée de Statistique
Canada, pour leurs précieux conseils.

BIBLIOGRAPHIE

OCDE (2009). Creating Effective Teaching and Learning Environment s, Eirst


Results from TALIS, OCDE, Paris.
OCDE (2010). TALIS 2008 Technical Report, OCDE, Paris.
IEA (à paraître). TEDS-M Technical report, IEA, Amsterdam.
2. Enquêtes sur la santé et l'éducation 59

7. Panel de bacheliers 2008 : constitution

de l'échantillon et redressement

Nathalie CARON24, Sylvie LEMAIRE25 et


26
Delphine PERELMUTER

7.1 Le contexte

7.1.1 Les panels d'élèves ou d'étudiants, un outil


indispensable pour le suivi des parcours

Les panels d'élèves ou d'étudiants complètent les données issues des fichiers
administratifs dans la mesure où ils permettent d'observer les parcours des
bacheliers, qu'ils soient ou non en formation, et quelle que soit cette
formation (y compris celles qui ne relèvent pas de l'enseignement supérieur -
comme des formations professionnelles ou artistiques- ainsi que les
formations dispensées dans le cadre de contrats de professionnalisation, par
correspondance ou à l'étranger).
Ils permettent par ailleurs de mettre en évidence, grâce aux données
recueillies, différents facteurs susceptibles d'influer sur l'orientation et les
parcours après le baccalauréat : le passé scolaire du bachelier, son
environnement familial, les conditions de son entrée dans l'enseignement
supérieur, les difficultés rencontrées et l'évolution de ses projets.

7.1.2 Les panels précédents

Le panel de bacheliers 2008 fait suite à deux précédents panels de bacheliers


initiés en 1996 et 2002 :
- Le premier suivi de cohorte dans l'enseignement supérieur s'est situé
dans la prolongation de panels d'élèves sélectionnés à l'entrée en 6e
en 1989. Lorsque les premiers élèves de ce panel sont parvenus au
baccalauréat en 1996, il a été décidé de poursuivre leur suivi dans
l'enseignement supérieur. Les parcours des élèves du panel 89,
devenus bacheliers entre 1996 et 2000, ont ainsi été observés aussi

24 Insee et Ministère de l'enseignement supérieur et de la recherche. Sous-direction des systèmes


d'information et des études statistiques. Courriel : nathalie.caron@education.gouv.fr.
25 Ministère de l'enseignement supérieur et de la recherche. Sous-direction des systèmes
d'information et des études statistiques. Courriel : sylvie.lemaire@education.gouv.fr.
26 Ministère de l'enseignement supérieur et de la recherche, Sous-direction des systèmes
d'information et des études statistiques. Courriel : deIphine.perelmuter@education.gouv.fr.
60 Pratique et méthodes de sondages

longtemps que le jeune suivait une formation, et au plus pendant


quinze années consécutives.
- La même opération a été mise en place lors de l'arrivée au
baccalauréat en 2002 des premiers élèves du panel recruté en 6° en
1995. Le suivi des parcours des bacheliers de ce panel se prolonge
aussi longtemps qu'ils sont inscrits dans une formation et jusqu'à
l'obtention d'un diplôme de niveau bac+5 : il se poursuit encore en
2010.

Aucun panel de collégiens n'a été initié entre 1995 et 2007. Or de


nombreuses évolutions sont intervenues dans l'enseignement supérieur, avec
en particulier la réorganisation des parcours à l'université en trois cycles
licence-master-doctorat (LMD) et l'instauration de nouvelles procédures
d'orientation. Aussi la nécessité est-elle apparue de mettre en place un panel
d'un nouveau type.

7.1.3 Le « dernier-né » : le panel de bacheliers 2008

Une cohorte spécifique de bacheliers 2008 a ainsi été constituée et interrogée


pour la première fois en mars 2009 (voir bibliographie pour les principaux
résultats). Le recrutement de l'échantillon n'intervenant qu'en classe de
terminale, la richesse d'information, en particulier sur le parcours scolaire
antérieur des bacheliers et leur environnement familial est moins grande.
Mais l'intérêt réside dans le fait que tous les individus sont lauréats d'une
même session de baccalauréat et accèdent donc à l'enseignement supérieur
dans le même contexte d'offre de fonuation et de marché du travail.
Les principes restent les mêmes :
- Une interrogation individuelle annuelle des bacheliers, par voie
postale, par voie électronique et par téléphone à partir de l'année
suivant l'obtention du bac et jusqu'à l'obtention d'un diplôme de
niveau master.
- Un tronc commun de questions répétées chaque année et des
questions spécifiques selon le nombre d'années écoulées depuis le
baccalauréat.

7.2 La constitution de l'échantillon

La base de sondage utilisée est l'ensemble des bacheliers des séries générales,
technologiques et professionnelles de la session 2008 (juin et septembre),
scolarisés en 2007-2008 dans un établissement public ou privé (sous contrat et
hors contrat) de France métropolitaine (soit 448 755 bacheliers). Les
bacheliers inscrits dans les départements d'outre mer, qui représentent 3 %
2. Enquêtes sur la santé et l'éducation 61

des bacheliers, ont des particularités en termes de poursuites d'études du fait


de leur situation géographique. Ils ne font pas partie du champ de l'enquête.
12 000 bacheliers ont été sélectionnés par un plan de sondage stratifié avec
sondage aléatoire simple dans chacune des strates.
Les critères qui sont apparus dans les panels précédents comme
déterminants sur les poursuites d'études et les parcours dans l'enseignement
supérieur ont été retenus pour la constitution des strates, à savoir :
- La série de baccalauréat ;
- L'âge au baccalauréat ;
- La mention obtenue ;
- Le sexe.

La prise en compte de ces critères a été complétée par trois préoccupations :


- Avoir suffisamment de bacheliers professionnels qui poursuivent
leurs études, dans la mesure où le précédent panel avait montré un
taux de poursuite d'études de 40 %. De plus, il s'agissait d'accorder
une place particulière aux bacheliers professionnels qui avaient
préparé leur bac par apprentissage, afin d'observer notamment si leur
comportement en matière de poursuite d'études différait des autres.
D'où une surreprésentation de 2 des bacheliers professionnels.
- Faire une place particulière aux bacheliers de l'ancienne série STG
(Sciences et Technologies de la Gestion) où les orientations par
défaut et surtout les sorties sans diplôme de l'enseignement supérieur
sont nombreuses, avec le souci de mieux cerner les difficultés qu'ils
rencontrent. D'où une surreprésentation de 1,5 des bacheliers de cette
série.
- Avoir une bonne « représentation » des bacheliers S malgré leur
nombre élevé (ils représentent plus de la moitié des bacheliers
généraux) en raison de la diversité croissante des orientations qu'ils
prennent.

Au total, près de 40 strates ont été constituées. Le plan de sondage choisi


conduit à une pondération moyenne de 37,4. La pondération des bacheliers
professionnels est proche de 23, celle des bacheliers STG de 31, les autres ont
une pondération proche de 47.

Tableau 2.6 : Répartition des pondérations


Poids 3e Moyenne 1er Poids
maximal quartile quartile minimal
Échantillon (12 000) 47,4 47 37,4 22,8 21,3
62 Pratique et méthodes de sondages

7.3 Les pondérations mises en œuvre

Sur les 12 000 bacheliers interrogés, 10 058 ont répondu à l'enquête (soit un
taux de réponse de près de 84 %). La démarche utilisée pour corriger la non-
réponse a été la même que dans les panels précédents. Après la première
interrogation, une analyse de la non-réponse par une régression logistique a
été réalisée afin de déterminer les variables (ainsi que les modalités associées)
expliquant le mieux répond/ne répond pas à partir des données disponibles
dans la base de sondage. La possibilité d'utiliser pour cette analyse des
variables telles que le contexte de scolarisation en terminale a permis de
corriger l'attrition dans les meilleures conditions. Les variables identifiées
dans l'analyse de la non-réponse sont : la série du baccalauréat, l'âge au
baccalauréat, le sexe, la mention, la catégorie socioprofessionnelle, le statut
de l'établissement de terminale (public/privé), la taille de la commune de
résidence de l'élève, la nationalité regroupée (français/étranger), le statut de
boursier et celui d'apprenti.
Le fichier des répondants a été redressé par calage avec la macro CALMAR
sur la population de référence en utilisant comme variables de calage les
variables précisées ci-dessus. Au final, les pondérations sont comprises entre
21,8 et 73 (voir tableau 2.7).

Tableau 2.7 : Répartition des pondérationsjaprès calage)


Poids 3e Moyenne 1er Poids
maximal quartile quartile minimal
Échantillon (10 058) 73,0 53,7 44,6 34,3 21,8

BIBLIOGRAPHIE

Lemaire, S. (2010). Que deviennent les bacheliers après leur bac ? Choix
d'orientation et entrée dans l'enseignement supérieur des bacheliers 2008.
Note d'information N010.06 série enseignement supérieur et recherche,
Paris, ministère de l'enseignement supérieur et de la recherche.
Lemaire, S. (à paraître en 2011). Les bacheliers S : des poursuites d'études de
plus en plus éclatées. Note d'information série enseignement supérieur et
recherche, Paris, ministère de l'enseignement supérieur et de la recherche.
2. Enquêtes sur la santé et l'éducation 63

8. Méthodologie de comparaison et de

contrôle des performances de

l'enseignement secondaire

27
Souleymane OUEDRAOGO

8.1 Introduction

Conscients que l'éducation est la clé du développement, plusieurs États


africains ont adopté des programmes en vue d'accroître les performances de
leurs systèmes d'éducation formelle. L'éducation est de ce fait l'objet d'un
investissement important tant en ressources financières que humaines. Mais
se pose la question de l'efficacité de ces mesures. Comment évaluer l'impact
des réformes scolaires qu'on entreprend ? Par ailleurs, dans un pays, on peut
être intéressé à comparer entre elles les régions (ou les districts) du point de
vue des performances scolaires. Autrement dit, il est utile de pouvoir donner
périodiquement (trimestriellement ou semestriellement) une estimation de la
note moyenne de chaque région qui refléterait la performance de celle-ci, aux
fins de comparaison avec les autres régions et de contrôle.
Ce travail vise donc à mettre à la disposition des autorités chargées de
l'enseignement secondaire un outil de comparaison et de contrôle des
performances. Cette question intéresse aussi bien les autorités étatiques que
les citoyens. Toutefois, l'épineuse question de la mobilisation des ressources
se pose. Pour autant, le recours aux techniques de sondage devient
incontournable. Cet article présente une méthodologie permettant de
comparer et d'évaluer les performances scolaires au niveau du secondaire. La
performance est appréhendée par la valeur de la moyenne scolaire. On
considérera les établissements secondaires publics, vu que c'est à ce niveau
que les efforts de l'État s'exercent de façon prioritaire. Calculer la moyenne
scolaire des régions permet donc d'estimer la performance scolaire de ces
régions et ainsi d'évaluer l'efficience des ressources allouées. Par ailleurs,
cela permet de relever le niveau scolaire de ces régions par la compétition qui
est suscitée.

8.2 Contexte et justification

La contribution de l'enseignement secondaire au développement des régions


suscite depuis plusieurs années un intérêt qui ne cesse de croître. De plus en

27 Ingénieur Statisticien Économiste, Statisticien à l'Institut National de la Statistique et de


la Démographie 01 BP ; 905 Ouagadougou 01, Burkina Faso.
Courriel : sulej_oued@yahoo.fr.
64 Pratique et méthodes de sondages

plus, on attend des institutions responsables du savoir non seulement qu'elles


mènent rigoureusement les activités pédagogiques, mais aussi qu'elles
prennent une part active au développement économique, social et culturel de
leur région. Pour garantir cela, l'État alloue des ressources financières et
humaines dans chaque région et attend en retour un accroissement de la
performance de l'enseignement secondaire dans celle-ci. Par ailleurs, l'État
peut être intéressé à savoir l'efficacité relative de cette allocation de
ressources dans les différentes régions.
Mais, il se trouve que dans la plupart des États (africains), force est de
constater qu'il y a un manque de dispositif technique de suivi et d'évaluation
des performances dans l'enseignement, particulièrement au niveau
secondaire. Il devient donc utile de mettre en place un instrument qui
permette de vérifier périodiquement le niveau scolaire de chaque région et de
comparer les régions entre elles du point de vue des performances scolaires.
Dans la suite de ce travail, nous utilisons indifféremment les termes « lycée »
et « établissement ».

8.3 Cadre méthodologique

8.3.1 Méthodologie

La méthodologie utilisée dans le cadre de cet article consiste en un sondage à


deux degrés. L'objectif étant de comparer et d'évaluer les performances
scolaires des régions, on échantillonne dans une région. On dispose au départ
d'une liste exhaustive des villes de la région. On tire un échantillon de villes,
puis dans les villes tirées, on tire un échantillon de lycées (collèges). Cela
nous permet d'estimer la moyenne de chaque ville, puis celle de la région. On
applique ce processus à chaque région.
On suppose qu'il y a dans chaque région, M villes (unités primaires) et que
dans chaque ville i il y a /V,- lycées (ou collèges). On va donc, au premier
degré, procéder à la constitution d'un échantillon de villes de taille m. Puis,
au second degré, dans chaque ville sélectionnée, on va tirer un échantillon de
n lycées à partir de la liste exhaustive des lycées qu'elle contient. Les
insuffisances de l'estimation sont liées au problème d'échantillonnage qui
exclut certains lycées qui auraient cependant pu élever ou faire baisser la
moyenne estimée.
Quelques notations : on utilisera les notations suivantes
- La moyenne scolaire sera notée par X,
- Les régions seront indicées par p,
- Les villes sont indicées par X.
2. Enquêtes sur la santé et l'éducation 65

8.3.2 Calcul de la moyenne d'un établissement

La moyenne du lycée j de l'échantillon sera calculée comme étant la


moyenne des moyennes de tous les niveaux (de la sixième à la terminale),
pondérées par un poids défini par les autorités. Chaque niveau d'études est
pondéré par un coefficient ak. Par contre, la moyenne d'un niveau donné (par
exemple la moyenne des classes de 6e) sera la moyenne arithmétique simple
des moyennes des classes de ce niveau.
Ainsi, la moyenne d'un lycée j sera définie par la formule :
k _ K
x a x
i = I. k kj, avec =1
k=\ k=\

où X j est la moyenne du lycée j, les coefficients ak étant les pondérations


correspondant aux poids affectés à chaque niveau. Xkj est la moyenne du
niveau k du lycée j (les niveaux allant de la 6e à la terminale, K est le
nombre total de niveaux, supposé le même pour chaque établissement).

8.4 Estimation de la moyenne de la ville et de la


région

On détermine la note moyenne des lycées de l'échantillon - qui est aussi une
estimation de la note moyenne de la ville X - par la moyenne arithmétique
simple des notes moyennes calculées des lycées sélectionnés. Formellement,
on a :
n
i x
n
X 7=1

où n} est le nombre de lycée de l'échantillon constitué dans la ville X.


De l'estimation de la moyenne d'une ville donnée de l'échantillon, on peut
dériver la note moyenne estimée d'une région p donnée. Celle-ci peut être à
son tour estimée par la moyenne arithmétique simple des moyennes des villes
de l'échantillon. Celle-ci est donnée par :

1 "p _
n
p X=1

où np est le nombre de villes tirées au premier degré dans la région p.


Nous disposons à partir de cela, d'un estimateur de la moyenne des
établissements, de la ville et de la région. Ces estimateurs nous permettent de
faire des comparaisons, et de contrôler les performances de l'éducation.
66 Pratique et méthodes de sondages

8.5 Applicabilité

Cette méthodologie peut-elle être opérationnalisée ? La réponse est oui, étant


donné qu'elle ne nécessite pas, a priori, la mise en place d'une enquête
d'envergure et est donc peu coûteuse. Elle nécessite tout simplement la mise
en place d'un système d'information permettant de collecter les notes
moyennes des classes des lycées ou collèges concernés. Il n'y a pas
d'obstacles majeurs à cela, vu que communément chaque établissement
calcule la moyenne des classes qu'il comporte à la fin de chaque trimestre.
L'unité spatiale utilisée dans ce travail est la région. Toutefois, on peut la
restreindre ou l'étendre à une autre division administrative en fonction de
l'objectif qu'on se définit. Elle peut être appliquée aussi bien dans les pays
développés que dans les pays en développement. On peut également
l'appliquer à l'enseignement primaire ou supérieur.

8.6 Conclusion

Ce travail a eu pour objet de mettre en place une proposition de méthodologie


permettant de donner une estimation de la note moyenne d'une région. Cette
estimation permet de comparer les régions d'un même pays entre elles. Elle a
consisté d'abord au choix d'un échantillon de villes de la région, puis à partir
de ces villes, à sélectionner un échantillon de lycées et à calculer la moyenne.
L'intérêt de cette estimation est de permettre d'évaluer l'impact des efforts
étatiques sur le niveau de performance scolaire des régions afin de mieux
orienter les politiques, de diagnostiquer les anomalies et de proposer des
mesures nouvelles.
11 appartiendra à l'autorité chargée de suivre l'enseignement secondaire de
faire sienne cette méthodologie en vue de pouvoir établir une comparaison
entre les régions du point de vue des performances scolaires.

BIBLIOGRAPHIE

Ardilly, P. (1994). Les techniques de sondage. TECHNIP, Paris.


Keho, Y. (2007). Notes de cours de sondages. Les cahiers de l'ENSEA,
Abidjan.
2. Enquêtes sur la santé et l'éducation 67

9. Analyse du plan de sondage du PASEC

(Programme d'Analyse des Systèmes

Éducatifs de la Conférence des

Ministres de l'Éducation des pays ayant

le français en partage)

28
Kalbi Flavien ZONGO

9.1 Contexte et justification

L'éducation reste une préoccupation internationale. Dans plusieurs pays en


développement les taux bruts de scolarisation sont largement en deçà du seuil
auquel un développement est probable. Les raisons sont entre autres,
l'inadéquation de l'éducation au contexte socioculturel et économique,
l'inégalité en matière de scolarisation entre villes et campagnes, entre garçons
et filles, et entre riches et pauvres, l'inefficacité du système scolaire, etc.
Dans le souci d'atteindre l'éducation pour tous d'ici à 2015 au sein des pays
de la Conférence des Ministres de l'Éducation des pays ayant le français en
partage (CONFEMEN), le PASEC a été élaboré en 1991 avec pour objectifs
d'identifier le système éducatif le moins coûteux et le plus performant ; de
développer dans chacun des États participants une capacité interne et
permanente d'évaluation de leur système éducatif ; de diffuser les méthodes et
les instruments d'évaluation préconisés, de même que les résultats obtenus.
Mais cela n'a été possible qu'à travers une collecte spéciale des indicateurs
de l'éducation. En raison des limites méthodologiques, cet exercice se veut
d'apprécier le plan de sondage du PASEC.

9.2 Présentation du plan de sondage

9.2.1 Population cible/variables d'analyses

Les variables d'études du PASEC sont les scores en début et en fin de cycle.
Leur nature impose à cibler la population scolarisée. Compte tenu de la
particularité de la première année (l'initialisation) et de la sixième année
(l'examen de fin de cycle), le PASEC a retenu les classes de 2e et de 5e année.
La population cible est constituée donc d'élèves de 2e et de 5e année du

28 Démographe à l'Institut National de la Statistique et de la Démographie du Burkina


Faso. Courriel ; zkalbi@gmail.com.
68 Pratique et méthodes de sondages

primaire inclusivement inscrits dans les écoles publiques et privées reconnues


par l'État burkinabé.

9.2.2 Base de sondage et taille de l'échantillon

Une seule base de sondage a été utilisée pour sélectionner l'échantillon et elle
est fournie par le ministère de l'enseignement de base et de l'alphabétisation
(MEBA), mais les données provenaient de la Direction du privé et de la
Direction des Études et de la Planification ; les informations contenues dans
la base concernaient l'année académique précédente ou dataient de deux ans.
Grâce au roh (rate of homogeneity) théorique fixé à 0,4 pour le PASEC VIII,
la taille l'échantillon retenue a été de 180 écoles. Soit 2 700 élèves par niveau
et 15 élèves par classe.

9.2.3 Plan d'échantillonnage et répartition de


l'échantillon

Un échantillon interdépendant a été construit à l'aide d'un plan de sondage à


deux degrés, voire à trois degrés pour les situations où dans l'école
échantillonnée il y avait plusieurs classes de 2e ou de 5e année. La
stratification a consisté à regrouper les écoles selon leur statut public/privé et
selon la région. Douze strates ont été constituées. Une allocation
proportionnelle à la taille de la strate a permis de repartir l'échantillon. De
même à l'intérieur de chacune des strates, les écoles ont été tirées de façon
aléatoire avec probabilité proportionnelle à leur taille.

9.2.4 Pondération et estimations

Les poids finaux du PASEC ont tenu compte seulement de la non-réponse des
écoles. La méthode de repondération a été utilisée pour traiter les non-
réponses totales et celle des imputations multiples pour les non-réponses
partielles. Les scores estimés sont pondérés conformément aux particularités
du plan de sondage, ce sont le score calculé pour les modèles d'analyse
multivariée ; le score calculé pour une mesure dans le temps, le cas échéant ;
le score utilisé pour les comparaisons internationales.

9.3 Critiques méthodologiques du plan

9.3.1 Avantages

- Le plan a regroupé dans l'échantillon une variété de situations


scolaires.
2. Enquêtes sur la santé et l'éducation 69

- Il permet de réaliser des analyses à la fois au niveau école, maître et


élèves et de mettre en évidence des effets propres à l'élève et son
milieu extrascolaire.
- L'échantillon est représentatif, les calculs faciles à effectuer, les
résultats peuvent être automatiquement transposés sur la population.
- Le sondage est réaliste car les taux de sondage sont satisfaisants, soit
un élève sur cent (1/100) en 2e année et deux élèves sur cent (2/100)
en 5e année.

9.3.2 Limites spécifiques au Burkina Faso

- La base de sondage n'était pas bien actualisée : certaines écoles


échantillonnées ne possédaient plus les niveaux 2 et 5. Les poids de
pondérations étaient ceux de la base de sondage et ne correspondaient
pas toujours à la situation pendant l'enquête.
- Les strates ne sont pas homogènes d'un point de vue des
apprentissages scolaires car elles ne sont pas constituées en fonction
des caractéristiques scolaires (statut rural/urbain, le type
simple/multigrade ou double flux de la classe), des variables
corrélées aux acquisitions. Bernard (2003) a d'ailleurs montré que
près de 33 % des disparités de niveau des élèves sont dues aux
caractéristiques de l'école.

9.3.3 Limites générales du plan

- Le fait d'avoir un seul plan de sondage pour les deux niveaux est un
choix délicat : pour une école sélectionnée, lorsqu'une classe de 2e ou
de 5e année a moins de huit élèves, on recours à la jonglerie pour la
remplacer.
- Les ajustements n'ont pas tenu compte de la non-réponse des élèves,
alors le taux est significatif (5,1 % au niveau 5 et 8,8 % au niveau 2).
Les élèves perdus pourraient avoir des caractéristiques différentes des
autres. Cela est d'autant plus vrai car une valeur du roh fixée à 0,4
suppose une hétérogénéité non négligeable à l'intérieur des classes.

9.4 Recommandations

A la lumière de ce qui précède les recommandations sont, entre autres,


- un plan de sondage a priori bien choisi pour chaque niveau d'études,
donc une évaluation sur deux échantillons indépendants ;
70 Pratique et méthodes de sondages

- la prise en compte des non-réponses des élèves vu que leur niveau est
disparate ;
- stratifier en tenant aussi compte des critères souvent disponibles ci-
après : le statut public/privé, localisation en milieu urbain/rural,
classe multigrade/simple.

BIBLIOGRAPHIE

DEP/MEBA BF (2007). Raqpport PASEC Burkina Faso, 131 pages.


Bernard, J.M. (2003). Éléments d'appréciation de la qualité de renseignement
primaire en Afrique francophone. PASEC document de travail 21 pages.
http://www.poledakar.org/lMG/pdf/Oualite_PASEC.pdf.
CONFEMEN (2009). Synthèse régionale des résultats PASEC VII et VIII.
Document de travail, 23 pages.

10. Une nouvelle approche d'identification

des profils d'apprenants et d'adaptation

du contenu

29
Ridouan CHIHEB , Ridwan FAIZI29, Abdellatif EL AFIA 29
et
30
Mohammed TIRARI

Notre objectif dans cet article est de présenter une nouvelle approche pour
améliorer les performances des apprenants. Elle est basée sur l'analyse des
tests d'évaluation, pour identifier les forces et faiblesses de chaque groupe
d'apprenants et leurs proposer un contenu adapté à leurs niveaux.

10.1 Introduction

Face à l'augmentation de l'effectif des apprenants et afin de continuer à


garantir une formation de meilleure qualité, nous proposons de mettre en
place une formation hybride en présentiel et à distance dont le contenu qui
sera proposé doit impérativement répondre au besoin de chaque profil.

29 École Nationale Supérieure d'Informatique et d'Analyse des Systèmes (ENSIAS) -


Université Mohamed V. Souissi, Rabat. Courriel : chiheb@ensias.ma ;
faizi@ensias.ma ; elafia@ensias.ma ;
30 Institut National de Statistique et d'Économie Appliquée, Rabat.
Courriel ; mtirari@hotmail.fr.
2. Enquêtes sur la santé et l'éducation 71

L'identification des profils s'appuie sur l'analyse des résultats des différents
tests d'évaluation.
Pour le besoin de connaître le niveau de chaque apprenant, nous avons
conçu et développé une plateforme de génération aléatoire des tests à partir
d'une banque de questions. Une fois que les résultats des tests sont collectés,
ils feront l'objet d'une analyse factorielle suivie d'une analyse typologique
(classification hiérarchique ascendante) dont l'objectif principal est de classer
les apprenants dans des groupes relativement homogènes en fonction de
l'ensemble des scores obtenus dans chaque chapitre.
Partant du fait que notre démarche s'inscrit dans l'amélioration continue de
l'apprentissage en présentiel, par une adaptation du contenu pour chaque
profil d'apprenants, seuls les résultats du dernier test de chaque apprenant
feront l'objet d'une analyse détaillée. Enfin, pour résoudre le problème
d'adaptation de contenu, nous envisageons d'étudier les possibilités
d'extraction de l'information à partir des documents de référence provenant
du web ou développés par les chargés des cours.
Dans un contexte d'améliorer les performances des apprenants en formation
présentielle par la proposition de formation à distance, notre approche se
distingue par rapport à celle proposée par Durand (2010) en incluant de plus
l'identification des profils d'apprenants et par rapport aux travaux réalisés
dans Delestre, Pécuchet et Gréboval (1998) et Habieb, Tarpin et Prevot
(2003) qui traitent seulement l'adaptation d'un hypermédia pédagogique au
profil cognitif.

10.2 Démarche de la génération des tests et


collecte des scores

Il faut noter que l'objectif principal derrière les tests est seulement de
connaître le niveau des apprenants afin de les aider à surmonter leurs
difficultés dans l'apprentissage d'un contenu assuré dans la formation en
présentiel. Un test a été proposé aux étudiants de première année du cycle
d'ingénieurs dont voici un exemple des résultats obtenus pour quatre
chapitres d'un cours d'anglais.
72 Pratique et méthodes de sondages

Tableau 2.8 ; Exemple des résultats obtenus suite au test


Articles Prépositions Tenses Relative pronouns
1 20 20 16 20
2 20 12 12 04
3 12 12 16 20
4 12 16 16 16
5 12 12 16 08
6 18 08 16 16
7 20 12 12 16
8 16 20 16 16
9 20 16 12 04
10 12 16 12 12
11 20 16 20 20
12 8 12 08 04
13 16 12 16 16
14 16 20 20 16
15 20 16 12 20
16 16 16 12 08
17 12 04 08 12
18 08 16 16 12
19 16 12 16 12
20 12 12 04 08
21 04 16 16 04
22 00 08 04 04

10.3 Mener une analyse factorielle

Cette démarche commence par l'étape de définition du problème (analyse des


scores) et d'identification des variables (chapitres d'un cours d'anglais pour
première année du cycle d'ingénieurs) auxquelles sera appliquée l'analyse
factorielle. Ensuite, on calcule la matrice des corrélations des variables entre
elles et on choisit une méthode d'analyse factorielle. Nous appliquons la règle
de Kaiser pour déterminer le nombre de facteurs à extraire. Puis, les facteurs
doivent être interprétés. Une matrice des corrélations est construite à partir de
résultats des scores (voir tableau 2.9).

Tableau 2.9 : Matrice des corrélations


Articles Prépositions Tenses Relative
pronouns
Articles 1 0,282 0,388 0,493
Prépositions 0,282 1 0,533 0,275
Tenses 0,388 0,533 1 0,555
Relative pronouns 0,493 0,275 0,555 1

L'interprétation des résultats est facilitée par l'identification des variables


dont les coefficients de corrélation sont élevés pour un même facteur, qui peut
2. Enquêtes sur la santé et l'éducation 73

alors être interprété à la lumière des variables qui sont grandement corrélées
pour ce facteur. Comme le montre la figure 2.2, on peut conclure que
l'apprenant 22 est le plus mauvais de tous, les individus 1, 11 et 14 sont ceux
qui n'ont aucune difficulté dans les quatre chapitres étudiés.

Figure 2.2 : Projection des apprenants sur le premier axe factoriel

2-

J-

o-

i-

2-

3-

4- © 22

10.4 Interpréter et établir le profil des groupes

L'objectif de la classification étant de regrouper des apprenants similaires, il


faut évaluer leur degré de similarité ou de différence. L'approche la plus
fréquente consiste à mesurer la similarité en fonction de la distance entre les
paires d'apprenants. La classification hiérarchique ascendante a permis
d'obtenir le groupe 1, constitué de l'apprenant 22. Le groupe 2 a les
apprenants 1, II et 14. Le groupe 3 regoupe les apprenants 12, 17 et 20. Le
groupe 4 a les apprenants 2, 5, 9 et 16. Il faut ensuite interpréter et établir le
profil des groupes par l'examen des centres de groupes. Le groupe 1 possède
les mauvaises notes. Le groupe 2 regroupe les meilleurs apprenants. Le
groupe 3 a des mauvaises notes dans les chapitres 2 et 3.

10.5 Conclusion

Afin d'atteindre les objectifs visés par notre projet, nous avons développé une
plateforme de génération aléatoire de tests, de collecte des scores des
apprenants, de préparation des données et d'identification des profils en
74 Pratique et méthodes de sondages

utilisant des outils intégrés dans la plateforme, dédiés à l'analyse factorielle et


de classification hiérarchique ascendante. 11 est utile d'établir un lien entre les
groupes et leurs formations antérieurs avant d'intégrer notre école de
formation afin de remettre en cause la procédure du recrutement.

BIBLIOGRAPHIE

Durand, C. (2010). La méthode hybride combinant présentiel et formation à


distance : avantages, inconvénients, avenir. Expérience du département de
sociologie de l'Université de Montréal. Sixième colloque francophone sur
les sondages, Tanger, Maroc, 23 au 25 mars 2010.
Delestre, N., Pécuchet, J.P. et Gréboval, C. (1998). L'architecture d'un
hypermédia adaptatif dynamique pour l'enseignement. Conférences sur les
Technologies de l'Information et de la Communication dans les formations
d'ingénieurs et dans l'industrie, INSA de Rouen, 2000.
Habieb, H., Tarpin, F. et Prevot, P. (2003). Modélisation de document
hypermédia pour une représentation adaptative. Copyright ACM 1-58113-
803-2/03/0011, IBM, Caen, France, Novembre 25-28, 2003.

11. Le droit à l'alphabétisation au Burkina

Faso : stratégies d'accélération de

l'alphabétisation par l'évaluation des

besoins

31 32
Wendnso Maria Sidonie GOUEM et Adama TRAORE

11.1 Introduction

L'alphabétisation est un droit humain qui fait partie intégrante du processus


de développement et pour y parvenir, l'Afrique devra faire de ses langues
nationales un outil de réhabilitation culturelle, de promotion socioéconomique
et de renforcement des capacités des individus dans divers domaines.
Alphabétiser mobilise certes beaucoup de ressources pour permettre à
chaque citoyen de lire, écrire et compter, mais telle qu'elle est conduite dans
nos pays, ne nous permet d'engranger dans le meilleur des cas, qu'un fort
taux d'alphabétisation, sans que pour autant l'on ne puisse pronostiquer sur

31 Démographe, Institut National de la Statistique et de la Démographie au Burkina Faso.


32 Inspecteur de l'enseignement de Base, socio-philosophe, Spécialiste en formation
professionnelle non formelle, diplômé du programme Développement et Education des
Adultes (DEDA) de l'Université de Ouagadougou.
2. Enquêtes sur la santé et l'éducation 75

son lien avec le décollage économique escompté. Les échecs rencontrés pour
accroître du point de vue quantitatif le niveau d'alphabétisation sont
également une autre source d'inquiétude, mais tout semble évoluer sans qu'on
ne puisse tirer de véritables enseignements. Aussi alphabétiser ne saurait être
une fin en soi, si alphabétiser ne repose pas sur des compétences techniques
réelles susceptibles d'assurer à son détenteur l'accès à la science et à la
technique universelle.
En effet, en a-t-on tiré des leçons pour engager une refondation en
profondeur du processus d'alphabétisation qui soit à la mesure des défis posés
par la taille de l'analphabétisme au sud du Sahara et particulièrement au
Burkina Faso ? Même si les financements n'ont pas atteint les niveaux
escomptés, c'est l'argument qui est récurrent en pareille circonstance, le peu
de ressources engagés l'a-t-elle été dans un esprit de recherche d'efficacité et
d'efficience ? Selon certaines analystes, la seule certitude est que le
réformisme semble être le jeu favori des acteurs autour du concept « faire »,
comme si cette seule syllabe était la seule responsable de notre
analphabétisme stratégique dans l'approche de la question de
l'alphabétisation : « laisser faire », « faire », « faire-faire », « faire-faire
consolidé », « faire ensemble », etc. Que n'a-t-on pas imaginé avec ce terme !
Dans le même sens, il convient de savoir par rapport à l'alphabétisation ce
qu'elle est et ce qu'elle n'est pas avant de s'interroger sur comment
l'accélérer. De la même manière, on ne peut pas accélérer quelque chose qui
s'ignore ou plutôt dont on ignore tout. Il faudra donc bien définir le concept,
circonscrire son champ, évaluer rigoureusement les besoins avant de se lancer
dans toute aventure stratégique. Au lieu de s'enfermer dans la magie du mot
« faire », il faut plutôt en sortir. A cet égard, une réforme de l'approche
comme celle qui est en cours présentement au Burkina Faso peut être une
propédeutique à toute politique future qui se veut prometteuse en Afrique.

11.2 Intérêt et justification d'une évaluation de


l'alphabétisation

11.2.1 Intérêt et justification

Chaque fois qu'on se penche sur la question de l'alphabétisation, l'on ne peut


pas ne pas se poser certaines questions fondamentales. Difficulté pour le
ministère en charge de la question d'évaluer l'efficacité du dispositif, tant
plusieurs approches ont montré leurs limites. Aussi l'on est en droit de se
demander : à quel niveau peut-on dire que l'individu est alphabète ? Qui
alphabétise (plusieurs partenaires sur le terrain avec des méthodes différentes
et des outils différents, les alphabétiseurs sont-ils eux-mêmes toujours aptes,
sans une école de formation crédible ? Qui alphabétiser et quels outils
76 Pratique et méthodes de sondages

utiliser : sait-on toujours si le nouvel inscrit n'est pas un carriériste ? Le


problème du retour à l'analphabétisme après un cursus scolaire : le fait
d'attendre sept mois avant de passer au second niveau de l'alpha ou à la
campagne suivante garantit-il le maintien des acquis ? Les Centres
permanents d'Alphabétisation méritent-ils leur dénomination dans ce cas ? La
problématique de la méthode de collecte: faut-il attendre tous les 10 ans
avant de connaître le taux approximatif d'alphabétisation ? Le choix de la
langue d'alphabétisation : la question identitaire est-elle réglée avec la
vingtaine de langues instrumentalisées sur les 60 existantes ?

11.2.2 Problématique de la mesure de l'alphabétisation


dans les recensements et les enquêtes

Alphabétiser sa population est une source d'équité économique et d'identité


culturelle, capitale pour une participation créative des citoyens au
développement durable et à l'exercice de la démocratie. Le fait de transmettre
aux individus la capacité de lire, d'écrire et d'entreprendre des compétences
pratiques leur pennet de devenir des acteurs de leur développement
socioéconomique, culturel, social, civique, etc. En général, on restreint le
public analphabète aux personnes qui ne possèdent pas les connaissances et
les compétences de base requises en lecture et en écriture. On fait une
distinction entre analphabète (qui n'a jamais appris à lire et à écrire étant
jeune) et illettré qui désigne une personne ayant été capable de lire et écrire
mais qui ne l'est plus du fait d'un parcours psycho-social compliqué ou très
éloigné. L'alphabétisation au Burkina Faso concerne donc tout public (adulte
ou enfant) qui ne possède pas les bases de l'écrit en français ou dans une
langue locale qu'il ait été scolarisé ou non.

a) Dans les recensements

Une personne est apte à lire et à écrire dans une langue quelconque lorsqu'elle
est capable d'interpréter et de transcrire les faits de la vie quotidienne dans
cette langue. Précisez la principale langue étrangère dans laquelle la personne
sait lire et écrire et la principale langue locale dans laquelle la personne sait
lire et écrire. Cependant, Pour s'assurer qu'un individu sait lire et écrire, on
occulte une dimension importante en se fiant aux déclarations du chef de
famille. 11 fallait poser la question de savoir s'il sait lire, écrire et expliquer
une lettre, ou traduire une lettre dans une langue. Aussi a-t-on attiré l'attention
des enquêteurs pour le cas particulier des enfants de moins de 10 ans qui
fréquentent l'école, les parents peuvent avoir tendance à dire « oui » à la
simple question « Est-ce que (Nom) sait lire et écrire ? » même si l'intéressé
ne sait pas lire et écrire selon la définition retenue, il fallait donc absolument
poser la question suivante : « Est-ce que (Nom) est capable de lire, écrire et
2. Enquêtes sur la santé et l'éducation 77

expliquer une lettre ou traduire cette lettre dans une autre langue ? ». 11 ne
s'agit pas de ceux qui savent seulement lire et écrire les chiffres, mais de ceux
qui savent lire et écrire un texte.

b) Dans les enquêtes sur les conditions de vie des ménages

Dans quelle(s) langue(s) [NOM] sait-il lire et écrire ? : C'est la question qui
est posée aux personne âgées de 10 ans et plus dans le but d'enregistrer le
niveau d'alphabétisation fonctionnelle (l'aptitude à pouvoir lire et écrire des
phrases simples de la vie de tous les jours, ainsi que des textes ordinaires, tels
que les lettres et les journaux). La personne alphabétisée peut l'être dans
n'importe quelle langue tant qu'elle est communément utilisée sous une
forme écrite. Si la personne sait lire mais pas écrire, elle sera considérée
analphabète. Cette enquête n'inclut pas la passation de test rigoureux pour
déterminer les aptitudes à lire et à écrire. Les enquêteurs utilisent leur
jugement et les informations en provenance de la personne interrogée pour
évaluer chaque personne.

11.2.3 Orientation pour enrayer l'analphabétisme

Le bon niveau de scolarité et la continuité dans le temps des études sont des
facteurs positifs de bonnes compétences en lecture et en manipulation des
chiffres. Comme toutes les actions menées en alphabétisation, le raccrochage
scolaire a de bons résultats chez les adultes de moins de 25 ans, grâce aux
organismes d'alphabétisation qui œuvrent dans le pays. Les centres
d'éducation de base non formelle, les centres d'alphabétisation et tous les
acteurs de l'alphabétisation continuent de faire leurs preuves, mais le nombre
de personnes qui ont besoin d'une formation de base ne cesse d'augmenter.
Cette constatation doit encourager les décideurs politiques à favoriser le
développement de l'éducation tout au long de la vie tout en facilitant le retour
aux études scolaires ou la formation continue des adultes en situation
professionnelle. Ces constats soulèvent également d'autres questions, comme
le choix des langues d'alphabétisation, le niveau qui doit être considéré
comme le plus élevé pouvant permettre à un individu d'être fonctionnel et
opérationnel dans une société qui avance en laissant de nombreuses personnes
de côté, sans considération d'égalité ou d'équité. La prévention du décrochage
scolaire et le maintien dans des systèmes de fonnation ont déjà montré des
résultats positifs.
78 Pratique et méthodes de sondages

11.3 Stratégies pour une alphabétisation


intégrale et rapide de la population

La nouvelle stratégie qu'on pourrait baptiser alphabétisation pour tous, entrera


par le niveau communal où un recensement des analphabètes permet de
dresser une cartographie des analphabètes, de leur constituer un fichier
comme on le fait dans le cadre des scrutins électoraux. Une fois le fichier mis
à jour, la campagne tout azimut, procédera par toutes formules à atteindre sa
cible. L'approche dominante devra être celle reposant sur les animateurs
endogènes, sur-formés, contractuels à durée limitée des communes et
subventionnés par le Fonds pour l'alphabétisation et l'éducation non formelle,
via un transfert sur le budget communal avec obligation de rendre compte.

11.3.1 Les aspects méthodologiques

L'enquête utilise une méthodologie par échantillonnage pour trier des


individus de 15 ans ou plus qui seront invités à répondre à un certain nombre
de questions de référence ainsi qu'à des questions conçues pour évaluer les
niveaux d'alphabétisme. Le questionnaire évalue un éventail des niveaux
d'alphabétisme, allant de la lecture à l'écriture, à l'usage des nombres et aux
niveaux élevés d'alphabétisme requis pour participer activement à une société
du savoir. La méthodologie est conçue pour réaliser la comparabilité dans le
temps et dans l'espace et permettre de suivre et évaluer le niveau de
l'alphabétisme.

a) L'échantillonnage

L'échantillon sélectionné pour l'enquête nationale du Burkina Faso sur


l'alphabétisation des adultes couvrira les treize régions. L'enquête aura
recours à un échantillonnage en deux phases : durant la première, des groupes
seront choisis au sein de l'échantillon-maître national. A cet effet, un
échantillon probabiliste de 23 610 ménages soit le centième de l'ensemble des
ménages, répartis selon les seize strates sera sélectionné pour permettre de
disposer d'estimations séparées pour des indicateurs clés pour chaque région
du pays et pour les zones urbaines, rurales et la ville de Ouagadougou.
L'échantillon de grappe par strate sera proportionnel à la taille des grappes
(nombre de ménages). Durant la seconde phase, on procédera à un
échantillonnage systématique des ménages à partir d'une liste de tous les
ménages, dans chaque ZD échantillon, le même nombre de ménages
(n0 = 30) à probabilité égale. La liste des ménages sera donc actualisée à cet
effet. Tous les membres de 15 ans et plus dans les ménages sélectionnés sont
susceptibles de faire l'objet de l'enquête sur l'alphabétisation. Toutefois,
2. Enquêtes sur la santé et l'éducation 79

parmi ces personnes, seule une par ménage sera choisie au hasard pour
répondre au questionnaire individuel et passer le test.

b) Les outils de collecte

Quatre outils d'évaluation de l'alphabétisation seront conçus en consultation


avec un vaste éventail de dépositaires d'enjeux, entre autres l'université de
Ouagadougou, le ministère de l'Education, l'Institut National de
l'Alphabétisation (INA), des organisations religieuses, des groupes de la
société civile et des mouvements associatifs pour assurer leur pertinence
culturelle. On trouve une soixantaine de groupes ethniques au Burkina Faso et
à peu près une vingtaine de groupes linguistiques transcrits. Etant donné que
la politique du gouvernement concernant la langue employée pour
l'enseignement consiste à utiliser les langues locales au niveau de
l'alphabétisation de base et d'introduire le Français an niveau de la post-
alphabétisation. L'enquête sera menée dans les principaux groupes
linguistiques, le français sera employé pour s'adapter à la diversité culturelle
et linguistique dominante.
Un questionnaire des ménages pour dresser la liste des membres de chaque
ménage sélectionné. Les informations recueillies concerneront le sexe, l'âge,
la situation du ménage, la religion, l'ethnie, la présence à l'école/au centre, le
niveau d'instruction, le handicap et la situation professionnelle de tous les
membres du ménage âgés de cinq ans et plus. A partir de ces infonuations, on
identifia les membres du ménage susceptibles de participer à l'enquête et l'un
d'eux sera choisi au hasard pour répondre au questionnaire individuel et à
l'évaluation.
Le questionnaire individuel permet de recueillir les informations portant sur
la participation, l'auto-évaluation du niveau personnel de lecture, d'écriture et
de calcul, les buts de la lecture, de l'écriture et des compétences
mathématiques, le maintien des acquis de l'alphabétisation, des habitudes de
lecture et travail requis ; les opportunités d'occupation et la langue.
Un questionnaire institutionnel distribué à un échantillon de centre
d'éducation des adultes, permet de recueillir des informations sur des
questions relatives à la fourniture de prestations d'éducation des adultes.

11.4 Conclusion

Cette enquête devra répondre aux besoins nationaux en matière de données


relatives à l'alphabétisme en fournissant des profils valides, fiables,
comparables et interprétables des compétences en lecture et en usage des
nombres chez les adultes au niveau national (et aux niveaux sous-nationaux si
souhaitable et faisable). Les données résultant de l'enquête fourniront un
profil national des niveaux d'alphabétisme des populations nationales. Ces
80 Pratique et méthodes de sondages

données peuvent servir à fixer les conditions du programme et fournira des


informations en pourcentage de population à divers niveaux d'alphabétisme.
Elles fourniront également une liaison avec d'autres méthodes de mesure
d'alphabétisation existantes. Le développement des compétences en lecture et
en écriture chez les individus ayant de bas niveaux d'alphabétisme peut être
évalué pour aider à la description des besoins en matière de connaissances et à
la formulation de programmes efficaces d'alphabétisation. Le rapport de
l'enquête devra faire l'objet d'un séminaire de diffusion à but de sensibiliser
et d'interpeler le gouvernement, les parlementaires, les autorités locales, les
organisations religieuses, les organisations de la société civile et les
partenaires du développement tant au niveau national qu'au niveau
décentralisé.

BIBLIOGRAPHIE

Jaspard, M., Brown, E. et Condon, S. (2003). Les violences envers les femmes
en France - Une enquête nationale. La documentation française, Paris.
Bon, F. (1974). Les sondages peuvent ils se tromper ? Calman-Lévy, Paris.
Galabert, J.M. (2005). La commission des sondages : une expérience de
régulation. Dans Etudes en F honneur de Gérard Timsit, Bruxelles,
Bruylant, 309-326.
Gendreau, F. (1993). La population de l'Afrique Manuel de démographie.
KARTHALA - CEPED, Paris, 424 pages.

12. L'enseignement des méthodes

quantitatives : enquête par sondage à la

faculté des sciences juridiques

économiques et sociales d'Oujda

Driss DRIOUCHI33 et Moustapha FAIZI34

12.1 Introduction

Dans cet article, on s'est intéressé à l'évaluation de l'enseignement des


méthodes quantitatives (MQ) pour la discipline économie et gestion de la
faculté des sciences juridiques économiques et sociales d'Oujda. Pour cela, on
a mené une enquête auprès d'une population d'étudiants inscrits dans le

33 Faculté des Sciences Juridiques Economiques et Sociales, Université Mohamed


Premier, BP : 724, Oujda 60000, Maroc. Courriel ; ddriouchi@yahoo.fr.
34 Même affiliation. Courriel : faizi@droit.univ-oujda.ac.ma.
2. Enquêtes sur la santé et l'éducation 81

dernier module des MQ enseigné dans la troisième année de ce qu'on appelle


aujourd'hui, une licence (bachelor). Cette étude nous a permis d'estimer
certains paramètres liés à l'effet d'apprentissage (gain brut moyen et gain
relatif moyen). On a effectué une analyse de la variance (voir dernier
paragraphe), pour déterminer certains facteurs qui favorisent l'apprentissage
des MQ. En plus, cette étude nous a permis de sensibiliser sur le rôle que ces
méthodes peuvent remplir pour l'apprentissage des matières de l'économie et
de la gestion (MEG). Une autre problématique est soulevé et qui n'est pas
moindre est l'enseignement par la langue française des MQ ou des MEG.
Nous entendons par les MQ : les mathématiques (algèbre, recherche
opérationnelle,...), la statistique (statistique descriptive, les probabilités,...) et
l'informatique.
L'enquête est réalisée avec un échantillon composé essentiellement de deux
strates d'étudiants, ceux qui ont choisi l'option analyse économique et ceux
qui ont choisi l'option gestion. Une description de la population, de la
méthode d'échantillonnage ainsi que certains résultats de l'enquête seront
décrits dans les paragraphes qui suivront.

12.2 La population concernée

La population visée est celle des étudiants du semestre 5 (S5), options gestion
et analyse économique. La population observée s'est restreinte aux étudiants
inscrits dans le module 4 dans les deux options (voir tableau 2.10).

Tableau 2.10 : Population observée,


filière : SEG, S5 Session : Automne Décembre 2009)
Option Module4 Inscrits dans le module4

Analyse économique Technique d'analyse et de 91


communication
Gestion Méthodes quantitatives et 302
méthodes de recherche
individu après la formation (respectivement avant la formation).
De même on définit le gain relatif moyen z^, comme le rapport entre le
gain brut moyen et le gain brut moyen idéal, c'est-à-dire,

X
_ ap ~ Xav
=
ZN ,n _
10 x
- aV
Pour calculer des estimations de yN et zN, la méthode d'estimation la plus
naturelle est de les remplacer par le gain brut moyen yn de l'échantillon et le
gain relatif moyen zn de l'échantillon. ic fh = 25 % fh = 25 % fh = 25 %
82 Pratique et méthodes de sondages

12.3 La méthode de sondage

Nous avons décidé de procéder à un sondage basé sur un plan


d'échantillonnage stratifié proportionnel, voir Ardilly (1994).
L (voir tableau 2.11). La construction de l'échantillon dans chaque strate
s'est faite par tirage parmi les étudiants présents dans les cours.
Quelques caractéristiques de l'échantillon d'étudiants peuvent être données
ci-dessous :

Tableau 2. 1 : Répartition de réchantillon sélectionné par option


Option Total inscrits Sélectionnés Taux
(Moduie4) d'échantillonnage
Analyse 91 24 26,4 %
économique
Gestion 302 76 25,2 %
Total 393 100 25,4 %

Pour le genre sexe, on a une répartition de 14 filles et 10 garçons pour la


strate 1, et 50 filles et 25 garçons pour la strate 2. Ces effectifs respectent en
globalité la population mère. Pour l'âge, 78 % des étudiants ont un âge
compris entre 20 et 24 ans, avec une particularité que le mode c'est 20 ans. Le
type de baccalauréat est réparti de la façon, 71 % des étudiants ont un
baccalauréat sciences expérimentales, 13% de sciences économiques et les
autres étudiants ont des baccalauréats divers. L'habitat est caractérisé par un
pourcentage de 45 % des étudiants qui habitent chez leurs parents et 53 %
arrivent de l'extérieur de la ville.

12.4 Analyse des résultats

12.4.1 Effet de l'apprentissage

On donne dans le tableau 2.12 le gain brut moyen et le gain relatif moyen qui
correspondent à six matières enseignées en MQ, ces deux mesures donnent
une première idée sur l'effet de l'apprentissage des MQ.

Tableau 2.12 : Gain brut moyen et gain relatif moyen


ALGEBRE STATI. PROBA. STATI. MATH. RECHE.
DESCR. MATH. FINAN. OPERA.
Gain brut moyen 1,43 3,17 2,09 3,11 4,04 4,47
Gain relatif moyen 30,44 % 53,47 % 38,06 % 44,20 % 54,06 % 53,42 %
2. Enquêtes sur la santé et l'éducation 83

L'effet d'apprentissage est considéré positif si le gain relatif est supérieur à


un seuil limite (ce seuil dépend de la nature de la formation, par exemple pour
une formation technique on peut exiger un gain relatif supérieur à 50 %). On
prendra comme seuil ici 30 % (le même utilisé dans Gérard, 2003).
Dans notre cas, on peut considérer que l'effet de l'apprentissage est positif
dans les modules des MQ, reste à reconnaître les facteurs qui ont contribué à
cet apprentissage. C'est pour cette raison qu'on a fait une analyse de la
variance pour discerner cette relation d'effet et de cause qui peut lier
l'apprentissage avec la pédagogie de l'enseignement ou la passion des
étudiants pour les mathématiques.

12.4.2 Résultats concernant l'objectif de l'enquête

Quelques résultats de cette enquête sont donnés dans cette section, on


focalisera l'analyse sur quelques objectifs de l'enquête :

a) L'apprentissage des MQ, est-il satisfaisant ?

La répartition de la satisfaction exprimée par les étudiants se résume dans le


résultat suivant : 43 % des étudiants sont satisfaits de l'apprentissage des MQ
contre 55 % qui ne sont pas satisfaits. On a pensé qu'a travers les différents
facteurs qui ont fait partie du questionnaire on peut expliquer les raisons qui
font réussir ou peuvent freiner l'apprentissage des MQ. Une étude plus
approfondie sera donnée donc à la fin, grâce à un modèle linéaire généralisé
(voir Droesbcke, Lejeune et Saporta, 2005) et met l'accent sur différents
facteurs.

b) L'impact de l'enseignement des MQ sur les MEG

On a jugé qu'une question directe adressé aux étudiants sur l'impact perçu de
l'enseignement des MQ sur les MEG donnera un jugement collectif fiable.
Ainsi, on remarquera que 70 % des étudiants considèrent qu'une condition
essentielle pour réussir leur apprentissage en MEG est l'apprentissage des
MQ. Cela évoquerai que la plupart des étudiants ont compris
l'indispensabilité des MQ pour la maitrise ou la compréhension des matières
de la discipline sciences de l'économie et de gestion.
De la même manière, on a obtenu un taux de 72 % des étudiants qui
considèrent qu'un bon niveau en MQ va les aider à comprendre les MEG.

c) L'impact de la langue française sur l'enseignement des MQ et


l'enseignement des MEG

A partir des résultats, on constate que 96 % des étudiants sont conscients


qu'un bon niveau en langue française les aide à comprendre les MEG. Ce qui
84 Pratique et méthodes de sondages

est évident, vu la nature des matières enseignées. Par contre seulement 67 %


des étudiants pensent qu'un bon niveau en français les aidera à comprendre
les MQ, ce qui est normal car en mathématiques le langage utilisé est plutôt
symbolique. Les 33 % des étudiants restants estiment que même avec un
niveau faible en français ils sont arrivés à comprendre les MQ.

12.4.3 Analyse de la variance

Dans cette partie, nous avons réalisé une analyse de la variance en utilisant la
procédure anova et glm du logiciel S-plus 2000. Nous avons considéré
l'impact des facteurs Pedag.mq : pédagogie de l'enseignant, Prese.mq :
présence de l'étudiant aux cours des MQ, Inter.mq : intérêt du cours des MQ,
Aime.mq : passion de l'étudiant pour les cours des MQ, sur la satisfaction de
l'étudiant dans son apprentissage des MQ, la variable qui définit la
satisfaction de l'apprentissage des MQ est notée Satis.mq. Le résultat de
l'analyse est donné dans le tableau 2.13.

Tableau 2.13 : ANOVA de l'apprentissage


des MQ en fonction de quatre facteurs
Analysis of Deviance Table

Gaussian model

Response: SATIS.MQ

Terms added sequentially (first to last)


Df Deviance Resid. Df Resid. Dev F Value Pr(F)
NULL 90 60.13187
PEDAG.MQ 1 18.60685 89 41.52502 40.49024 0.0000000
AIME.MQ 1 3.91620 88 37.60882 8.52200 0.0046302
PRESE.MQ 1 0.00045 87 37.60837 0.00097 0.9752205
INTER.MQ 1 0.12586 86 37.48252 0.27388 0.6022850
PEDAG.MQ:AIME.MQ 1 0.09447 85 37.38805 0.20558 0.6515661
PEDAG.MQ:PRESE.MQ 1 0.13691 84 37.25114 0.29793 0,5868027
AIME.MQ:PRESE.MQ 1 0.00153 83 37.24961 0.00333 0.9541562
PEDAG.MQ:INTER.MQ 1 0.02791 82 37.22170 0.06074 0.8060074
AIME.MQ:INTER.MQ 1 0.43044 81 36.79126 0.93668 0.3362449
PRESE.MQ:INTER.MQ 1 0.16953 80 36.62172 0.36892 0.5454277
PEDAG.MQ:AIME.MQ:PRESE.MQ 1 0.39279 79 36.22893 0.85475 0.3581776
PEDAG.MQ:AIME.MQ:INTER.MQ 1 1.19718 78 35.03175 2.60517 0.1107152
PEDAG.MQ:PRESE.MQ:INTER.MQ 1 0.46613 77 34.56563 1.01433 0.3171054
AIME.MQ:PRESE.MQ:INTER.MQ 1 0.09967 76 34.46596 0.21689 0.6427663
PEDAG.MQ:AIME.MQ:PRESE.MQ:INTER.MQ 1 0.00051 75 34.46544 0.00112 0.9734192

L'avant dernière colonne représente la statistique de Fisher, elle est calculée


comme rapport entre le carré moyen expliqué par le modèle et le carré moyen
résiduel.
Nous remarquons dans cette analyse que les seuls facteurs à retenir sont la
pédagogie de l'enseignant et la passion de l'étudiant pour les cours des MQ.
2. Enquêtes sur la santé et l'éducation 85

Tandis que l'assiduité au cours n'est pas prédéterminant dans l'apprentissage


du point de vue des étudiants, un étudiant qui assiste au cours n'est pas
nécessairement l'étudiant qui va apprendre facilement, de même pour l'intérêt
du cours des MQ, il s'avère que même si le contenu de la formation est
intéressant, d'après l'analyse de la variance ce n'est pas un facteur
prédominant pour aider les étudiants à bien mener l'apprentissage des
mathématiques ou des statistiques.
On revient aux deux facteurs qui s'emblerai être bien apprécié par les
étudiants, c'est la méthode de l'enseignement ou la pédagogie utilisé par
l'enseignant, et c'est un facteur qui est à la base de tout bon apprentissage. Le
deuxième facteur qui semble stimuler les étudiants pour un meilleur
apprentissage des mathématiques et des statistiques, est la passion qu'on
exprime pour ces matières, cette passion semble un bon stimulateur pour les
étudiants afin de réussir leurs formations. On peut exprimer la relation de
l'apprentissage avec les deux facteurs cités ci-dessus, par la formule suivante :

Apprentissage des MQ en SEG =


Pédagogie de l'enseignant + Passion de l'étudiant.

Nous espérons mettre en lumière la relation de la réussite des étudiants et


leurs satisfactions dans l'apprentissage, quoiqu'il en soit, une telle satisfaction
sera liée au degré de l'engagement de l'enseignant dans sa démarche
pédagogique et de la passion de l'étudiant dans sa relation avec les matières
des MQ des différentes disciplines.

BIBLIOGRAPHIE

Ardilly, P. (1994). Les techniques de sondage. TECHNIP, Paris.


Droesbeke, J.-J., Lejeune, M. et Saporta, G. (2005). Modèles statistiques pour
données qualitatives. TECHNIP, Paris.
Gérard, F.-M. (2003). L'évaluation de l'efficacité d'une formation. Gestion
2000, vol. 20, n03, 13-33.
Logiciel S-PLUS (2000). Guide to Statistics. Volume 1, MathSoft.
o
(N
<S)
-C
CT1
>-
CL
O
U
Chapitre 3

Enquêtes sociales

1. Enquête longitudinale sur les migrants

en France : comment relever le défi du

suivi d'une cohorte ?

1
Corinne RÉGNARD

1.1 Origine de l'enquête

Les questions d'intégration occupent une place importante dans les débats
actuels. La création du ministère de l'immigration, de l'intégration, de l'identité
nationale et du développement solidaire a encore renforcé l'opportunité de ce
débat mais a aussi permis de rassembler des moyens importants pour faciliter
l'intégration des migrants dans notre société.
Pour compléter l'ensemble d'informations d'origine administrative ou
statistique sur les migrants, le Département des statistiques, des études et de la
documentation (DSED) du Ministère de l'immigration, de l'intégration, de
l'identité nationale et du développement solidaire (MIIINDS) met en place un
dispositif d'enquêtes concernant principalement le domaine de l'intégration.
Ce dispositif est constitué, en tout premier lieu, par l'enquête ELIPA (Etude
longitudinale sur l'intégration des primo-arrivants). Il s'agit d'un suivi de

l Démographe au Département des statistiques, des études et de la documentation du


Ministère de l'immigration, de l'intégration, de l'identité nationale et du développement
solidaire. Courriel : corinne.regnard@iminidco.gouv.fr.
88 Pratique et méthodes de sondages

cohortes de migrants interrogés dès leur admission au séjour permanent en


France (année t) et réinterrogés à t + 1 puis à t + 3. Cette enquête a pour
objectifs d'appréhender le parcours d'intégration des migrants, d'identifier et
de mesurer les difficultés qu'ils rencontrent et d'évaluer le dispositif
d'accompagnement récemment mis en place à travers les contrats d'accueil et
d'intégration (CA1).

1.1.1 Environnement institutionnel

Le principe d'une enquête longitudinale sur les migrants a obtenu un avis


d'opportunité favorable du Conseil national de l'information statistique (Cnis)
en mars 2009.
La première vague de cette enquête s'est vue délivrée un label d'intérêt
général et de qualité statistique par le Comité du Label en novembre 2009.
Un dossier à la Commission nationale informatique et libertés (Cnil) a été
déposé fin novembre.
L'enquête a été incluse dans le programme enquêtes de la statistique
publique pour 2010 (parution au journal officiel (JO) en février 2010).

1.1.2 Protocole d'enquête

II s'agit d'une enquête en face à face et le terrain d'enquête sera pris en


charge par un prestataire extérieur au ministère : la TNS-SOFRES. La collecte
de chacune des vagues sera réalisée par entretiens, d'une durée estimée à
60 minutes, menés par des enquêteurs-interprètes (tous parlant aussi français)
et 13 langues seront proposées.

1.1.3 Champ de l'enquête et base d'échantillonnage

L'enquête concerne un échantillon d'étrangers majeurs admis pour la


première fois en France pour un séjour permanent et accueillis dans le cadre
du contrat d'accueil et d'intégration (CAI). Certains peuvent résider en France
depuis de nombreuses années (étrangers changeant de statut ou encore
régularisés), d'autres viennent tout juste d'arriver.
Le tirage aléatoire de l'échantillon a été réalisé à partir de la base de
sondage de l'Office Français de l'Immigration et de l'Intégration (OFII). La
première vague de l'enquête portera sur un échantillon de 6 000 personnes
accueillies entre septembre et février 2010. L'échantillon a été stratifié selon
la région (4 régions ont été retenues : Ile de France, Provence-Alpes-Côte
d'Azur (PACA), Rhône-Alpes et Alsace ce qui représente environ les 2/3 des
bénéficiaires), la capacité à s'exprimer en français au moment de l'accueil, le
pays d'origine, le motif d'admission au séjour et la durée de séjour en France
avant l'admission. Le terrain de l'enquête parlé a débuté mi-mars 2010 et
devrait durer 3 mois.
3. Enquêtes sociales 89

1.2 Comment relever le défi du suivi d'une


cohorte ?

Le problème majeur dans le suivi d'une cohorte réside dans le suivi des
personnes et donc dans l'attrition de la base avec toutes ses conséquences sur
le plan de la représentativité des résultats dès la première ré-interrogation. Ce
problème est particulièrement aigu pour l'enquête ELIPA dans la mesure où
le motif de la non-réponse peut être directement lié à l'intégration de
l'étranger, donc à l'objet même de l'enquête.
La première expérience en France d'un suivi longitudinal de migrants a été
réalisée par la Direction de la recherche, des études, de l'évaluation et des
statistiques (Drees) en 2006/2007 avec l'enquête « Parcours et profils des
migrants récemment arrivés ou régularisés en France (PPM) ». L'attrition
avait alors été de 38 % entre la première et la seconde vague, s'expliquant en
très grande partie par la perte de vue des personnes (64 %) puis par des
absences de longue durée (20 %) et des refus (14,5 %).

1.2.1 Protocole de suivi pour ELIPA

Le suivi des personnes interrogées en première vague s'appuie sur différents


procédés :
- certains bénéficiaires du CAI poursuivant des formations au-delà de
la première année qui suit l'admission au séjour, l'OFII procède à un
suivi des adresses ;
- un suivi des personnes interrogées a été mis en place par la TNS-
SOFRES : en plus de l'accès à un numéro vert et d'un coupon mis à
disposition, le prestataire procède à un appel téléphonique 6 mois
après l'issue du premier entretien afin de mettre à jour les
coordonnées postales et recueille les intentions de déménagements
pour les mois à venir ;
- mais, le suivi d'ELIPA s'appuie essentiellement sur l'application de
gestion de la délivrance des titres de séjour qui permet de récupérer
l'adresse la plus récente des étrangers interrogés (les étrangers
interrogés devant renouveler leur titre de séjour chaque année, juste
avant l'enquête) mais également de distinguer parmi les non-
réponses, les étrangers qui auront renouvelé leur titre de séjour (réel
refus de répondre ou sortie du champ géographique de l'enquête) de
ceux qui ne l'ont pas renouvelé (sortie de l'échantillon). Ce suivi est
90 Pratique et méthodes de sondages

possible grâce à un identifiant commun à la base de sondage et à


l'application de gestion des titres de séjour2.

1.2.2 Premiers résultats du suivi du pilote de la vague 1

Un test s'est déroulé en septembre 2009 auprès de 316 personnes. En mars


2010, TNS-SOFRES a tenté de recontacter ces personnes. Après 6 mois, 12 %
des numéros de téléphone étaient hors service, 28 % n'ont pas abouti à un
entretien téléphonique (absence ou répondeur) et 1 % des étrangers ont refusé
de répondre. Au final, sur les personnes recontactées, la plupart réside
toujours à la même adresse (84 %) et un quart (26 %) pense déménager dans
les prochains mois.
Quant au suivi grâce à l'identifiant commun, l'appariement entre la base de
sondage et l'application de gestion des titres de séjour, est possible dans 99 %
des cas. L'adresse mentionnée dans la base de sondage correspond dans 85 %
des cas à celle mentionnée dans la base de gestion des titres de séjour.
La qualité du suivi grâce à ce protocole semble donc de très bonne qualité et
laisse espérer, d'une part, une attrition contenue entre chaque vague, mais
également, la possibilité d'expliquer cette attrition permettant à terme un
calcul des poids plus précis.
Pour en savoir plus, ELIPA sur le Web :
http://www.immigration.gouv.fr/spip.php?page=dossiers_det_res&numrubriq
ue=317&numarticle=2133.

BIBLIOGRAPHIE

Algava, E., et Bèque, M. (2008). Nouveaux détenteurs et détentrices d'un titre


de séjour : des trajectoires familiales et professionnelles contrastées.
Regards sur la parité, Insee, 37-50.
Bèque, M. (2009). L'enquête Parcours et Profils des migrants, une approche
statistique originale. Revue Européenne des Migrations Internationales,
vol. 25 n0l, 215-234.
Bèque, M. (2007). Qui sont les nouveaux bénéficiaires d'un titre de séjour en
s
France ? Etudes et Résultats de la Drees, n0612, 8 pages.
Berger, E. (2008). Quel logement pour les nouveaux bénéficiaires d'un titre
de séjour en France ? Études et Résultats de la Drees, n0644, 8 pages.

2 Cette application, dite AGDREF, est gérée par le MIIINDS. En cas d'absence
d'information sur le numéro AGDREF dans la base de sondage, le recueil du numéro
était prévu dans le questionnaire sur la base du volontariat.
3. Enquêtes sociales 91

Régnard, C. (2008). Profils des migrants accueillis dans le cadre du dispositif


public en 2006. Infos migrations de Ministère de l'immigration, n05,
12 pages.

2. Les données sur les migrations

internationales dans les pays de la

CEMAC : sources, concepts et

problèmes de comparabilité

internationale

3
Didier NGANAWARA

La Communauté Economique et Monétaire de l'Afrique Centrale (CEMAC)


est l'une des régions d'Afrique les plus affectées par les migrations
internationales. Mais contrairement à l'Afrique de l'Ouest, les données sur ce
phénomène sont rares en Afrique centrale (Lututala, 2000) et en particulier,
dans la zone CEMAC. Lorsqu'elles existent, elles ne répondent pas de
manière satisfaisante aux besoins de gestion et de politiques. On fait souvent
recours aux informations sur les stocks fournies par les recensements pour
avoir une idée sur les échanges migratoires. Mais la faible fréquence des
recensements ajoutée avec la lenteur des dépouillements et des analyses, rend
souvent les données dépassées et inappropriées pour toute prise de décision
(Poulain, 1992). Ainsi, l'objet de cet article est de passer en revue les
différentes sources de données disponibles sur les migrations internationales
dans les pays de la CEMAC afin de déterminer leur capacité de collecte,
d'examiner les variables saisies, les concepts et les définitions utilisés dans
une perspective comparative. Il est également question d'identifier les
décalages entre les données dans un souci d'harmonisation.

2.1 Sources de données sur les migrations


internationales dans les pays de la CEMAC

2.1.1 Les registres administratifs

Les sources administratives sont les services des Etats membres qui
recueillent des données destinées à l'utilisation des institutions publiques. Les
sources les plus fréquentes sont de trois types : les registres administratifs des

3 Enseignant-Checheur à l'Institut de Formation et de Recherche Démographiques


(1FORD), B.P.1556 Yaoundé (Cameroun). Courriel : dnganawara@iford-cm.org.
92 Pratique et méthodes de sondages

polices des frontières, les fichiers des étrangers résidant dans chaque pays et
les fiches d'immatriculation des émigrés auprès des missions diplomatiques à
l'étranger.
Les polices des frontières recueillent des données sur les flux d'entrée et de
sortie du territoire national à partir des fiches d'embarquement et de
débarquement des aéroports internationaux, des ports, et des notices des
postes de frontières terrestres. Les informations recueillies concernent
l'identité de la personne (nom, prénom, date et lieu de naissance, etc.), la date
d'entrée/sortie du territoire, le pays de provenance/destination, la durée de
séjour, etc.
Les fichiers des étrangers sont constitués à partir des visas et titres de séjour
délivrés aux étrangers installés dans chaque pays. Ils fournissent des
informations relatives à leur nationalité, leur pays de naissance, leur statut
d'activité, le type de visas ou de permis de séjour, leur durée de validité, etc.
Les fiches d'immatriculation des émigrés concernent les nationaux vivant à
l'étranger. Elles sont établies au moment de leur enregistrement auprès des
missions diplomatiques et renseignent sur l'identité de la personne
enregistrée, sa situation professionnelle, son adresse dans le pays d'accueil,
etc.
Cependant, les données collectées par ces sources peuvent servir à élaborer
des séries chronologiques permettant de dégager le profil temporel des flux
migratoires, d'apprécier temporellement le solde migratoire international de
chaque pays, de calculer la population étrangère résidente ou d'estimer le
nombre de ressortissants résidant de manière légale à l'étranger (Ba et
Ndione, 2006). Malheureusement, elles sont peu exploitées du fait que les
structures en charge de la collecte des données manquent de moyens
technique et matériel nécessaires pour bien remplir leur mission.

2.1.2 Les recensements généraux de population

Les recensements généraux de population fournissent des informations sur les


stocks. Les variables qu'ils saisissent sur les migrations internationales ne
sont pas toujours identiques d'un pays à l'autre. Parmi les six pays de la
CEMAC, seul le Gabon a collecté des informations sur le motif du
changement de résidence dans son recensement de 1993. De même, le
Cameroun est l'unique pays a intégré dans le questionnaire du recensement de
sa population en 2005 un module sur l'émigration internationale. Comme
nous le verrons plus tard, la différence observée au niveau de ces variables
pose un problème de comparabilité internationale des données entre les pays.
En outre, les variables sur les pays de naissance et de résidence au moment
du recensement aident à déterminer le nombre de résidents nés à l'étranger.
La durée de résidence permet quant à elle, d'aborder certains aspects du
phénomène migratoire et notamment son caractère récent ou ancien, mais
3. Enquêtes sociales 93

l'information sur cette durée n'a pas été enregistrée dans tous les
recensements des pays de la CEMAC comme celui de la Centrafrique en
2003. Cette variable sert, plus précisément, à déterminer la date de la dernière
migration ou la date d'installation dans le pays du recensement.

2.2 Méthode de mesure directe des migrations


internationales et ses limites

La méthode de mesure directe des migrations internationales est basée


essentiellement sur les données des recensements généraux de population
(RGPH). Ces sources de données permettent d'estimer le nombre de migrants
internationaux durée de vie dans chaque pays, c'est-à-dire le nombre de
migrants recensés dans un pays autre que celui de leur naissance. La méthode
consiste à rapprocher le pays de naissance à celui de résidence au moment du
recensement. Les personnes pour lesquelles ces deux pays diffèrent sont
identifiées comme des immigrants durée de vie tandis que celles pour
lesquelles ils sont identiques sont classées comme des non-migrants. Par
ailleurs, on peut croiser le pays de résidence au moment du recensement avec
le pays de résidence à une date antérieure afin d'apprécier le caractère récent
ou non de la migration. Le croisement des pays de résidence au moment de
l'enquête et à une date antérieure avec le pays de naissance offre la possibilité
de saisir les migrants de retour et les migrants multiples. Les migrants de
retour sont ceux pour lesquels le pays de résidence au moment de l'enquête
est identique au pays de naissance, mais différent du pays de résidence à une
date antérieure.
Cependant, cette méthode présente des limites majeures : elle consiste à
comparer deux situations à un moment donné mais les situations
intermédiaires ne sont pas relevées. La mesure des migrations internationales
à partir du pays de naissance ne permet pas de connaître le calendrier de la
migration ou de savoir à quel moment elle s'est faite. Par conséquent, on est
incapable de calculer les taux de migration par période ou par âge,
indispensables pour une bonne description du phénomène. La mesure à partir
du pays de résidence antérieure et de la durée d'installation ne concerne que
la dernière migration.
Par ailleurs, la mesure de la population émigrée se heurte à de nombreuses
difficultés car les personnes concernées n'étant tout simplement plus là pour
remplir le questionnaire du recensement. Toutefois, certains pays contournent
ce problème en introduisant dans les recensements des questions relatives aux
membres d'un même ménage qui résident dans un autre pays au cours des 12
derniers mois, des 5 dernières années ou depuis plus de 6 mois. Une telle
approche ne renseigne que sur les émigrants récents, les autres n'étant plus
94 Pratique et méthodes de sondages

considérés comme membres du ménage résidant. Tout porte à croire que cette
approche sous-estime le nombre d'émigrants internationaux.

2.3 Les problèmes de comparabilité


internationale des données

Les sources de données diffèrent d'un pays à un autre et les opérations de


collecte ne se font pas au même moment. Par exemple, il est difficile de
comparer les données du recensement de la population du Congo qui datent
de 1996 avec celles de la Centrafrique en 2003 ou du Cameroun en 2005. De
plus, les concepts et les définitions utilisés par ces sources ne permettent pas
toujours de faire des comparaisons entre les pays. En effet, les Nations-Unies
définissent un migrant international comme « toute personne qui change de
pays de résidence habituelle ». On en déduit que, dans les migrations
internationales, les lieux de départ et de destination sont situés dans des pays
différents. Cela a pour conséquence que le même phénomène est mesuré par
deux outils statistiques différents qui utilisent des concepts et des définitions
souvent aussi différents. En outre, tel que défini, le phénomène migratoire
introduit fondamentalement deux notions : l'espace et le temps. La notion
d'espace est caractérisée par les différents lieux que parcourt l'individu et le
temps est exprimé par la notion de durée de résidence dans un lieu. La notion
de l'espace ne pose pas de problème puisque les pays sont délimités par les
frontières. S'agissant de la notion du temps, il n'y a pas de consensus sur la
définition de la durée de résidence. Chaque pays applique ses propres critères.
Ainsi, les recensements réalisés dans les pays de la région présentent
plusieurs périodes ou durées de référence. En ce qui concerne la résidence
antérieure, la Centrafrique (RGPH 2003) a saisi le pays de résidence il y a
un an et 5 ans, le Cameroun (RGPH 2005) a enregistré le pays de résidence il
y a 5 ans et au dernier recensement en 1987. Les autres pays de la CEMAC
ont saisi cette variable dans leurs recensements mais il n'y a pas d'indication
sur le temps écoulé entre la résidence au moment du recensement et la
résidence antérieure.
En outre, les variables sur la migration ne sont pas toujours identiques d'un
pays à l'autre. Rappelons que seul le Gabon a saisi le motif du changement de
résidence pour les résidents. Le Cameroun est l'unique pays à introduire dans
le questionnaire un module sur les émigrés des 5 dernières années avant le
recensement. Un autre obstacle à la comparabilité internationale des données
se situe au niveau des populations cibles qui diffèrent d'un pays à l'autre. À
titre d'exemple, la question sur le lieu de résidence antérieure a été posée aux
personnes âgées de 5 ans et plus pour le lieu de résidence il y a 5 ans, et
16 ans et plus pour le lieu de résidence lors du dernier recensement au
Cameroun, tandis qu'au Gabon, elle s'adresse aux personnes âgées de 10 ans
et plus.
3. Enquêtes sociales 95

En définitive, les sources administratives sont assez riches mais imprécises


et peu exploitées. Les recensements généraux de population ne donnent
qu'une description simplifiée, partielle et ancienne des migrations
internationales (Lalou, 1996). De ce fait, les systèmes de collecte doivent être
améliorés.

BIBLIOGRAPHIE

Ba, H., et Ndione, B. (2006). Les statistiques des travailleurs migrants en


Afrique de l'Ouest. Cahiers des Migrations Internationales, 79F, BIT.
Lalou, R. (1996). Les migrations internationales en Afrique de l'Ouest face à
la crise. Dans Crise et population en Afrique, Etudes du CePeD, (Eds.,
J. Coussy et J. Vallin), Paris, n013, 345-373.
Lututala, M. (2000). Les migrations en Afrique Centrale : caractéristiques,
enjeux et rôles dans l'intégration et le développement des pays de la région.
Poulain, M. (1992). Un projet d'harmonisation des statistiques de migration
internationale au sein de la Communauté Européenne. Revue Européenne
des Migrations Internationales, vol. 8.

3. Biais de non-réponse dans l'enquête

Migrations entre l'Afrique et l'Europe

(MAFE-Sénégal)

Nicolas RAZAFINDRA TSIMA, Stéphane LEGLEYE et


4
Cris BEAUCHEMIN

3.1 Introduction

L'enquête MAFE-Sénégal, réalisée en 20085, vise à fournir des données


représentatives sur les migrations internationales des Sénégalais. L'enquête a
été menée à la fois dans la région de Dakar et dans trois pays de destination.
L'objectif de cette étude est d'évaluer les biais engendrés par la non-réponse

4 Institut national d'études démographiques (Ined), France. Courriels : razafind@ined.fr ;


stephane.legleye@ined.fr ; cris.beauchemin@ined.fr
5 La partie sénégalaise du projet Migrations entre l'Afrique et l'Europe (MAFE) est
coordonnée par F Ined (C. Beauchemin), en association avec l'Institut de Population,
Développement et Santé de la Reproduction de l'Université de Cheikh Anta Diop
(IPDSR, Sénégal). Sont également impliqués : l'Université Pompeu Fabra (P. Baizan),
le Centro Nacional de Investigacion Cientifïcas (A. Gonzalez-Ferrer), et FIERI (Forum
Intemazionale ed Europeo di Ricerche suH'Immigrazione ; E. Castagnone). Pour plus
d'information sur ce projet, voir : http://www.mafeproject.com/.
96 Pratique et méthodes de sondages

totale de niveau ménage et de niveau individuel dans le volet sénégalais de


l'enquête MAFE, sachant que la non-réponse peut perturber les estimations,
d'une part en introduisant des biais potentiels si répondants et non-répondants
diffèrent par rapport aux variables d'intérêt de l'enquête, d'autre part en
diminuant la précision. En première approche, les taux de réponse, 87 % au
niveau ménage et 77 % au niveau individuel, sont plutôt faibles en
comparaison des observations habituelles au Sénégal et dans les pays en
développement (voir par exemple Ndiaye et Ayad, 2006, page 350). A quel
point cependant, la non-réponse biaise-t-elle les résultats de l'enquête ?

3.2 Présentation de l'enquête MAFE

3.2.1 Objectifs

L'enquête MAFE au Sénégal était adressée aux ménages, puis aux individus
de 18 ans y résidant. Le questionnaire ménage décrivait sa composition, les
caractéristiques de ses membres (y compris ceux qui ont migré), les transferts
financiers ou matériels effectués, ainsi que l'habitat et le patrimoine du
ménage. Le questionnaire individuel, biographique, décrivait la vie
matrimoniale, génésique, professionnelle, ainsi que l'histoire migratoire.

3.2.2 Le plan de sondage

En l'absence d'une base de sondage à jour, un tirage à trois degrés a été


effectué. Le premier degré consiste en le tirage des districts de recensements
de 2002 (DR)6. Après avoir stratifié les DR selon la proportion de ménages
migrants observée au recensement, 60 d'entre eux ont été sélectionnés selon
une probabilité proportionnelle au nombre de ménages. Ensuite, un
dénombrement des ménages de chacun des 60 DR a été réalisé. Dans chaque
ménage, la présence d'un « migrant » a été relevée par l'agent dénombreur7.
Le second degré a consisté en un tirage stratifié de 22 ménages par DR
sélectionné, en surreprésentant les ménages comportant des migrants. Le
troisième degré est la sélection des individus au sein du ménage. Tous les
migrants de retour et conjoints de migrants étaient interrogés, tandis qu'un
individu était tiré au sort parmi les autres.

3.2.3 Les pondérations

La « pondération ménage » initiale tient compte de la probabilité de tirage des


DR, puis des ménages. Elle a été corrigée de la non-réponse en la multipliant

6 Zones de dénombrement, utilisées lors du recensement sénégalais de 2002, au nombre


de 2 109 dans la région de Dakar, et comptant 139 ménages en moyenne.
7 La question posée était ; votre ménage comporte-t-il un migrant ?, sans autre précision.
3. Enquêtes sociales 97

par l'inverse du taux de réponse, estimé par strate du DR et strate du ménage


(seules variables disponibles pour les ménages répondants et non-répondants).
La « pondération individu » initiale est égale au produit du poids ménage
redressé et de l'inverse de la probabilité de tirage dans le ménage. Elle a aussi
été corrigée de la non-réponse en la multipliant par l'inverse des taux de
réponse des individus, calculés par groupes homogènes obtenus par
régression logistique. Les variables explicatives retenues pour cette régression
ont été la strate de l'individu, le sexe, l'âge, la taille du ménage, et le rang de
contact8.

3.3 Les non-réponses au niveau ménage

1 143 ménages sur 1 320 échantillonnés ont répondu à l'enquête ménage, soit
un taux de réponse de 87 %, légèrement inférieur à ce qui avait été anticipé
(90 %). L'essentiel de la non-réponse provient de refus (89 %), peu de
ménages ayant été absents ou injoignables.
Afin de nous faire une idée des biais engendrés par cette absence de réponse
de certains ménages, nous avons calculé des taux de non-réponse, puis
comparé les estimations obtenues avec la pondération initiale et la
pondération corrigée pour quelques variables d'intérêt.
Dans l'enquête MAFE, deux variables sont disponibles chez les ménages
répondants et ceux non-répondants : la strate du DR en dix postes, obtenue en
classant les DR selon la proportion de ménages migrants observée au
recensement 2002, et la strate du ménage recueillie lors du dénombrement.
On n'observe pas de variation importante ou régulière de taux de réponse
selon la strate du DR. Par exemple, dans la strate où la proportion de migrants
a été la plus faible au recensement de 2002, de même que dans la strate où
elle a été la plus élevée, les taux de réponse sont identiques (88,5 %). De
même, les taux de réponse ne sont guère différents chez les ménages
« migrants » et « non-migrants », respectivement 85,5 % et 87,6 %. Ainsi, la
non-réponse de niveau ménage ne semble pas corrélée avec la proportion de
migrants de la zone, ni avec le statut migratoire du ménage.
Lorsqu'on compare les estimations obtenues chez les répondants, selon la
pondération utilisée, on constate un faible écart entre les estimations. Par
exemple, la proportion de ménages de la région de Dakar comprenant un
migrant est estimée à 47,1 % si on utilise la pondération initiale, et à 47,4 % si
on utilise la pondération redressée. La proportion de ménages ayant reçu un
transfert financier au cours de l'année écoulée est estimée à, respectivement
45 % et 45,4 %.

8 C'est-à-dire le rang de la tentative de contact au bout de laquelle l'individu a pu être


interrogé.
98 Pratique et méthodes de sondages

Malgré leurs limites, les différents indicateurs calculés montrent finalement


que les biais de non-réponse au niveau ménage sont plutôt faibles.

3.4 Les non-réponses au niveau individu

1 067 individus sur 1 387 échantillonnés ont répondu à l'enquête, soit 77 %.


Les individus n'ont pu être enquêtés, car ils ont été impossibles à joindre
(57 %), car ils ont refusé l'enquête (27 %) ou car ils étaient finalement
inéligibles (16 %).
L'évaluation des biais de non-réponse est ici menée de plusieurs manières :
par les taux de réponse, par les comparaisons d'estimations selon la
pondération utilisée et, enfin, en étudiant les différences entre répondants
faciles ou difficiles à joindre.
Les taux de réponse sont assez similaires selon le sexe et la strate de tirage
(Tableau 3.1). En revanche, ils varient selon l'âge, les plus âgés (60 ans ou
plus) répondant sensiblement moins fréquemment que les plus jeunes.
Les estimations obtenues sont très proches quelle que soit la pondération
individu utilisée. Par exemple, la proportion d'individus ayant eu trois enfants
ou plus est estimée à 49,4 % si on utilise la pondération initiale, et à 50,1 % si
on utilise la pondération redressée. Les estimations de la proportion
d'individus ayant séjourné au moins un an en dehors du Sénégal sont même
identiques avec les deux pondérations.

Tableau 3.1 : Taux de réponse des inc ividus (en %)


Sexe Â(3® Strate de tirac e
Hommes Femmes 25-29 30-39 40-59 60 ou Migrant Conjoint Autre
+ de de
retour migrant
80,1 78,4 82,8 79,9 80,2 68,7 76,8 79,1 79,9

Les enquêteurs ont réalisé parfois jusqu'à dix tentatives pour contacter un
individu échantillonné et lui proposer l'enquête. 10 % des interviews n'ont pu
se faire qu'au bout de quatre tentatives de contact ou plus. Par rapport aux
répondants joints plus facilement, ces répondants difficiles à joindre sont plus
nombreux à avoir eu trois enfants ou plus (54 % contre 50,8 %). Toutefois, le
pourcentage d'entre eux ayant séjourné un an ou plus hors du Sénégal
(20,4 %) n'est pas très différent de celui des répondants faciles à joindre
(18,2%). Des pourcentages proches sont également observés pour le fait
d'avoir effectué des transferts réguliers à l'étranger (8,7 % contre 7,6 %).
On peut faire l'hypothèse que les caractéristiques de ces personnes difficiles
à joindre sont assez proches de celles des individus qu'on n'a pas pu enquêter.
Les résultats montrent alors que les individus non redondants ne sont pas très
différents des répondants par rapport aux variables d'intérêt de l'enquête.
3. Enquêtes sociales 99

3.5 Conclusion

Le niveau de la non-réponse à l'enquête MAFE-Sénégal a paru assez élevé. Si


les refus ont été la principale raison de la non-réponse au niveau ménages, les
difficultés à joindre les personnes en ont été la principale cause au niveau
individu. Le taux de refus assez élevé au niveau ménage peut éventuellement
résulter d'une appréhension des enquêtés vis-à-vis du thème de l'enquête, les
migrations internationales vers l'Europe étant un sujet assez sensible.
Toutefois, les différents indicateurs que nous avons pu calculer dans cette
étude semblent montrer que la non-réponse n'engendre pas de biais important,
dans la mesure où elle touche aussi bien les ménages concernés par les
migrations que ceux qui ne le sont pas. Au niveau individus, on observe la
même tendance, à savoir des biais de non-réponse relativement modestes
malgré un taux de non-réponse élevé. La principale conséquence des non-
réponses pour l'enquête MAFE-Sénégal serait donc une baisse des précisions,
due à la diminution de la taille d'échantillon. Ces observations pourraient être
approfondies par une étude des non-réponses partielles et du contenu des
réponses au questionnaire.

BIBLIOGRAPHIE

Ndiaye, S., et Ayad, M. (2006). Enquête Démographique et de Santé au


Sénégal 2005. Calverton, Maryland, USA : Centre de Recherche pour le
Développement Humain [Sénégal] et ORC Macro, 467 pages.
http://www.measuredhs.com/pubs/pub_details.cfm?ID=583.

4. Structure des ménages et prise en

charge des enfants à Madagascar :

apports et limites des Enquêtes

Démographiques et de Santé

9
Frédérique ANDRIAMARO et Valérie DELAUNAY10

La démographie de la famille reste encore peu répandue dans les pays du Sud,
tout particulièrement à Madagascar. Les études réalisées au niveau national
ou régional, ne fournissent que des données assez globales sur les familles et

9 Université Paris X Nanterre/Université Catholique de Madagascar.


Courriel : a_fredo@hotmail.com.
10 Institut de Recherche pour le Développement, UMR 151 LPED/Université Catholique
de Madagascar. Courriel ; valerie.delaunay@ird.fr.
100 Pratique et méthodes de sondages

ménages malgaches (taille des ménages, âge moyen des chefs de ménage,
niveau d'instruction des chefs de ménage,...), mais les connaissances sur les
structures des ménages à Madagascar restent encore très rares.
Néanmoins, comme la plupart des pays d'Afrique subsaharienne,
Madagascar a bénéficié du programme des Enquêtes Démographiques et de
Santé (EDS) à quatre reprises, en 1992, 1997, 2003 et 2008-2009.
Christine Tichit propose une méthode de reconstitution de la composition
familiale des ménages à partir des EDS (Tichit, 2008). Dans les EDS, le
questionnaire prévoit, pour chacun des membres du ménage, l'enregistrement
du lien de parenté avec le chef de ménage. En cela, le fichier ménage produit
par ces enquêtes ne permet pas une analyse fine des structures. Mais
l'exploitation d'autres informations, que Ton trouve dans les questionnaires
adressés aux femmes de 15 à 49 ans et aux enfants de moins de 15 ans permet
de repérer les différents noyaux qui composent le ménage. Dans cette
communication, nous appliquons cette méthode aux données des EDS menées
à Madagascar en 1992, 1997 et 2003-2004.

4.1 Variables utilisées

Le principe de la méthode repose sur trois groupes de variables :


- le lien de parenté avec le chef de ménage (fichier ménage) ;
- la situation matrimoniale de la femme, sa situation de résidence vis-à-
vis du conjoint et le rang d'enregistrement de son conjoint dans le
ménage (fichier femme) ;
- la survie et la cohabitation avec les parents des enfants de moins de
15 ans (fichier ménage).

Le lien de parenté est utilisé pour déterminer l'appartenance au noyau


principal ou secondaire. Le second groupe de variables permet d'identifier
tous les couples présents dans le ménage, qu'ils relèvent ou non du noyau
principal. Le troisième groupe de variables permet de repérer les enfants de
noyau parental, de noyau monoparental, de noyau recomposé, les enfants
confiés et les orphelins.
Il est alors possible d'établir une typologie du noyau principal et du(des)
noyau(x) secondaire(s). La typologie du ménage découle alors de celle du
noyau principal et de la présence ou non de noyaux secondaires.
Dans le cas de Madagascar, les variables nécessaires sont disponibles dans
les trois enquêtes à l'exception du rang d'enregistrement du conjoint dans le
ménage (fichier femme) n'est enregistré que pour l'enquête de 2003. Ceci a
pour implication qu'il n'est pas possible de construire la typologie des noyaux
secondaires pour les enquêtes 1992 et 1997.
3. Enquêtes sociales 101

4.2 Typologie des ménages

11 semblerait donc que l'on mesure ici un phénomène de nucléarisation de la


famille par l'organisation résidentielle en unité plus petite et plus simple.
Néanmoins, cette classification apporte peu de précision sur ces changements.

4.2.1 Typologie détaillée des ménages

Nous avons produit une typologie beaucoup plus détaillée, en utilisant la


méthode proposée par Christine Tichit. Cette typologie des ménages distingue
4 groupes de ménages : les ménages parentaux (couple avec enfants, avec
plus ou moins d'autres membres) ; les ménages monoparentaux (un seul
parent avec au moins un enfant et plus ou moins d'autres membres) ; les
ménages conjugaux (couples sans enfants plus ou moins d'autres membres) ;
et les ménages dont le chef de ménage est sans enfants ni conjoint (plus ou
moins d'autres membres), (Tableau 3.2).
Les typologies des ménages à Madagascar pour les 3 périodes montrent une
prédominance des ménages parentaux, qui représentent plus de la moitié des
ménages. Parmi eux, plus de la moitié sont des ménages parentaux simples,
soit « nucléaires ».

Tableau 3.2 : Répartition des ménages


selon la typologie détaillée et l'année d'enquête
Type de ménage 1992 1997 2003/04
Freq. % Freq. % Freq. %
Parental 3 052 52,26 3 838 53,52 4 288 50,93
parental simple 1 509 25,39 2 160 30,12 2 584 30,69
parental + au moins 1 noyau secondaire 237 3,99 232 3,24 205 2,43
parental + au moins 1 membre extérieur 1 360 22,88 1 446 20,16 1 499 17,8
Monoparental 611 10,28 666 9,29 809 9,61
monoparental simple 215 3,62 270 3,77 364 4,32
monoparental + au moins 1 noyau secondaire 76 1,28 106 1,48 89 1,06
monoparental + au moins 1 membre extérieur 320 5,38 290 4,04 356 4,23
Conjugal 1 037 17,44 1 249 17,42 1 518 18,03
conjugal simple 331 5,57 463 6,46 613 7,28
conjugal + au moins 1 noyau secondaire 175 2,94 180 2,51 190 2,26
conjugal + au moins 1 membre extérieur 531 8,93 606 8,45 715 8,49
Chef de ménage sans enfants ni conjoint 1 190 20,02 1 418 19,78 1 805 21,44
CM seul 422 7,1 512 7,14 692 8,22
CM + au moins 1 noyau secondaire 238 4 273 3,81 306 3,63
CM + au moins 1 membre extérieur 530 8,92 633 8,83 807 9,58
Total 5 944 100 7 171 100 8 420 100
102 Pratique et méthodes de sondages

La comparaison de la répartition des ménages selon la typologie produite à


partir des trois enquêtes permet de constater certains changements au cours du
temps. Ainsi, la part des ménages nucléaires tend à augmenter entre 1992 et
2003, passant de 25 à près de 31 %, alors que les ménages élargis diminuent.
De même, les ménages monoparentaux simples, conjugaux simple et isolés
tendent à augmenter.
On constate donc une augmentation des ménages simples au détriment des
ménages étendus. Ceci se traduit par une diminution de la taille des ménages.
Celle-ci passe en effet de 5,2 à 4,5 personnes en moyenne.
Il ne s'agit pas seulement d'une nucléarisation des ménages, mais d'une
augmentation de toutes les formes simples de ménages, c'est-à-dire sans
collatéraux, ascendants, enfants confiés, qu'il s'agisse de couples avec ou
sans enfant, de parent seul ou chef de ménage sans conjoint et sans enfant.

4.2.2 Ménages avec noyaux secondaires

Un noyau secondaire est défini comme une cellule parentale, composé d'au
moins un parent et un enfant. Il peut s'agir d'un couple avec leur enfant
(parental), d'un couple avec l'enfant d'un des deux membres du couple
(recomposé) ou d'un seul parent avec son enfant, marié ou non (on distingue
les noyaux monoparentaux célibataires des noyaux monoparentaux dont le
conjoint réside ailleurs). Un certain nombre d'indicateurs concernant les
noyaux secondaires sont présentés dans le tableau 3.3.
La présence de noyaux secondaires concerne 12,2 % des ménages en 1992,
11 % en 1997 et 9,4 % 2003. Les ménages concernés comprennent entre 1 et
4 noyaux secondaires, mais le nombre moyen de noyaux secondaires reste
très proche de 1. Ces noyaux secondaires sont plus fréquents dans les
ménages parentaux et dans les ménages dont le chef est seul et sans enfants.
La tendance va vers une nette augmentation des noyaux secondaires dans ce
dernier type de ménage.

Tableau 3.3 : Proportion des ménages secondaires et leur répartition


1992 1997 2003
Proportion de ménages
avec noyaux secondaires 12,2 11,0 9,4
Répartition des ménages avec noyaux secondaires dans les granc s groupes de
ménages
Parental 32,6 29,3 26,0
Monoparental 10,5 13,4 11,3
Conjugal 24,1 22,8 24,1
isolé 32,8 34,5 38,7
3. Enquêtes sociales 103

4.3 Les enfants confiés

La grande majorité des enfants vivent avec leurs parents biologiques (près de
65 % des à enfants). Une partie des enfants vivent avec leur mère seule (17 à
18 %), suite à une séparation plutôt qu'au décès du père ; peu d'enfants vivent
avec leur père seul (4 à 6 %) et cette proportion tend à diminuer. Enfin une
partie des enfants ne vivent ni avec leur père ni avec leur mère (13 à 14 %) et
cette proportion tend à augmenter. Dans la grande majorité des cas, les
parents biologiques sont en vie. Il ne s'agit donc pas d'orphelins, mais
d'enfants confiés. Ces enfants sont confiés en grande partie à leurs grand-
parents (60%) ou à d'autres parents (15%). Une partie d'entre eux sont
déclaré comme enfant adopté ou confié, dans la variable « lien de parenté » et
on perd donc l'information sur un lien de parenté éventuel.
On s'interroge alors sur la prise en charge de ces enfants confiés. A qui
sont-ils confiés ?
Parmi les enfants qui ne résident ni avec le père ni avec la mère, nous
pouvons observer comment se répartit le lien de parenté avec le chef de
ménage (Tableau 3.4). La majorité de ces enfants sont dans le ménage de
leurs grands-parents (près de 60 % pour les 2 dernières enquêtes). Une part
importante sont codé « enfant adopté ou confié », ce qui ne renseigne pas sur
le lien de parenté. Cette modalité ne devrait pas figurer dans la liste des liens
de parenté et constitue une limite à l'analyse.

Tableau 3.4 : Lien de parenté avec le chef


de ménage - enfants ne résidant pas avec leur père ni leur mère
1992 1997 2003
petit-fils/fille 52,78 59,52 59,08
frère/sœur 4,75 4,32 5,21
autre parent 17,82 14,63 15,38
enfant adopté/confié 17,19 11,71 15,29
autre 7,47 6,03 4,96
effectifs 1 728 2 058 2 380

BIBLIOGRAPHIE

Tichit, C. (2008). Appréhender la composition familiale des ménages dans les


Enquêtes Démographiques et de Santé, Paris, Centre Français sur la
Population et le Développement (CEPED), 87 pages.
104 Pratique et méthodes de sondages

5. L'harmonisation européenne des

enquêtes « Budget des Ménages » : état

des lieux et futurs développements

11 12
Peter-Paul BORG et Guillaume OSIER

5.1 Introduction

La plupart des états développés réalisent au niveau national des enquêtes dites
« Budget des Ménages » (EBM). Dans leur forme la plus courante, il s'agit
d'enquêtes par sondage portant sur un échantillon de ménages privés avec
pour but de collecter de manière détaillée les dépenses de consommation des
ménages sur certains postes de dépense tels que définis par la nomenclature
COICOP. Aujourd'hui, les EBM sont reconduites régulièrement dans la
plupart des pays européens. Leur principal objectif au niveau national est de
permettre la mise à jour des pondérations de l'Indice des Prix à la
Consommation (IPC). Par ailleurs, certains postes de la consommation des
ménages dans le système des comptes nationaux sont évalués en recourant
aux données EBM. Même si quelquefois les coefficients de pondération de
l'IPC sont basés directement sur les chiffres de la Comptabilité Nationale, les
EBM restent néanmoins une des sources d'information pour établir ces
derniers.

5.2 Les enquêtes budget des ménages au


niveau européen

Depuis la fin des années 80, la Commission Européenne, par l'entremise


d'Eurostat, a décidé de collecter les données EBM nationales environ tous les
cinq ans. Le but est d'obtenir des données comparables au niveau européen
sur les budgets des ménages. Les dernières vagues de collecte des EBM ont
porté sur les années 1988, 1994, 1999 et 2005. La prochaine vague doit porter
sur l'année 2010.
Une caractéristique fondamentale de la collecte au niveau européen est
qu'elle n'est encadrée par aucune base légale (à la différence d'autres
collectes comme l'enquête sur les forces de travail - EU-LFS - ou les
statistiques communautaires sur les revenus et les conditions de vie - EU-
S1LC). Même si des recommandations ont été faites au niveau européen pour

11 Office Statistique des Communautés Européennes (Eurostat), Luxembourg.


Courriel : peter-paul.borg@ec.europa.eu.
12 Service Central de la Statistique et des Etudes Économiques (Statec), Luxembourg.
Courriel : guillaume.osier@statec.etat.lu.
3. Enquêtes sociales 105

une meilleure harmonisation des données EBM entre les pays, les états
membres conservent une grande liberté sur les choix méthodologiques : plan
d'échantillonnage, concepts et définitions à utiliser, mode de collecte des
données.
L'objectif final de la collecte EBM au niveau européen est de produire pour
chaque pays un certain nombre d'indicateurs relatifs aux dépenses de
consommation des ménages privés ainsi qu'à la structure des dépenses
moyennes de consommation. Ces indicateurs sont accessibles depuis la base
de données en ligne d'Eurostat (NewCronos)13.

5.3 La collecte EBM 2005

5.3.1 Description générale

La dernière vague de collecte des EBM portait sur l'année de référence 2005.
Elle a couvert les 27 pays de l'Union Européenne (UE), ainsi que la Croatie,
la Norvège et la République de Macédoine. La majorité des pays ont transmis
à Eurostat des fichiers de micro-données, même si quelques uns ont choisi de
transmettre seulement des tableaux agrégés contenant les principaux
indicateurs-cible.
La taille moyenne de l'échantillon national EBM pour les pays de l'UE27
était de 9 735 ménages, ce qui est tout à fait satisfaisant à la vue d'autres
enquêtes sur les ménages. Si on compare par exemple les tailles des
échantillons EBM avec celles de l'enquête EU-SILC pour l'année 2005, on
voit que l'échantillon EBM est plus important aux niveaux UE15, UE25 et
UE27. En outre, il est intéressant de constater que la couverture géographique
de l'EBM est meilleure. Ceci peut s'expliquer en partie par les difficultés
liées à la mise en application par certains pays des dispositions du règlement
européen pour EU-SILC.

5.3.2 Principaux problèmes rencontrés au niveau de la


qualité des données

Un certain nombre de questions peuvent se poser sur la précision des données


EBM. Bien que la taille moyenne de l'échantillon pour les pays de l'UE27
soit satisfaisante, cette valeur cache aussi de grandes différences entre les
pays : par exemple, la taille d'échantillon est de 1 570 ménages pour les Pays-
Bas, contre 52 217 pour l'Allemagne.
Un autre problème vient des taux de réponse qui s'avèrent particulièrement
faibles dans certains pays, notamment la Belgique (6 %) et le Luxembourg

13 http://epp.eurostat.ec.europa.eii/portal/page/portal/living_conditions_and_sociaI_protection/
data/database.
106 Pratique et méthodes de sondages

(18 %). En fait, les enquêtes budget des ménages impliquent une charge de
travail particulièrement lourde pour les ménages, qui doivent noter chaque
jour leurs dépenses dans des carnets. Et tous les ménages ne tiennent pas une
comptabilité exacte de leurs dépenses qui faciliterait grandement les réponses
aux questions sur les achats non périodiques.
La non-réponse est un problème pouvant nuire gravement à la qualité des
données : elle entraîne une perte de précision, puisque la taille effective de
l'échantillon diminue. Par ailleurs, elle risque de biaiser les résultats, surtout
si les ménages non-répondants ont un profil différent de celui des ménages
répondants. En plus d'endommager la précision des données, la non-réponse
nuit à leur comparabilité. 11 sera en effet difficile de comparer les données de
deux pays ayant chacun des taux de réponse très différents : c'est le cas par
exemple de la Roumanie (90 %) et de la Belgique (6 %).
L'absence de la variable « Loyer fictif » pour certains pays pose un sérieux
problème de comparabilité. Un loyer fictif (Imputed rent en anglais) est
généralement attribué aux ménages qui sont propriétaires de leur logement. Il
correspond au loyer que le ménage percevrait de son logement si celui-ci était
loué au prix du marché. Une pratique courante dans les EBM est de
considérer le loyer fictif à la fois comme un revenu et une dépense non-
monétaire (d'une certaine façon, on « dépense » le logement que l'on occupe).
L'expérience a montré que l'absence de cette variable influe sensiblement sur
l'estimation de la dépense totale moyenne des ménages.
Par ailleurs deux pays, en l'occurrence l'Allemagne et la République
Tchèque, ont tiré leurs échantillons EBM en utilisant des méthodes non-
probabilistes (quotas pour la République Tchèque, échantillonnage de
volontaires pour l'Allemagne). Ceci pose à l'évidence un autre sérieux
problème de comparabilité lorsqu'on compare les données de ces pays avec
celles de pays ayant échantillonné selon des méthodes probabilistes.
Enfin, un autre problème de comparabilité vient de la collecte des dépenses
pour l'éducation et la santé. De nombreux pays disposent en effet de systèmes
d'éducation et de santé largement publics et qui sont directement financés via
l'impôt. Dans ce contexte, un ménage pourra déclarer ne rien dépenser pour
ces deux postes, même si en réalité la dépense se fait par un autre canal. A
l'inverse, d'autres pays auront des systèmes d'éducation et de santé privés
beaucoup plus développés. Le niveau de dépenses des ménages pour
l'éducation et la santé sera alors plus élevé.

5.3.3 Comparaison avec d'autres sources

La cohérence avec d'autres sources est une autre dimension essentielle de la


qualité d'une statistique. Dans le cas de l'EBM, on peut comparer le revenu
net disponible des ménages avec celui collecté à partir de l'enquête EU-SILC.
Les principaux indicateurs issus de l'enquête EU-SILC sont des indicateurs
3. Enquêtes sociales 107

de pauvreté, comme le taux de pauvreté (pourcentage d'individus dont le


revenu net disponible est inférieur au seuil de pauvreté). On trouvera aussi des
indicateurs dits d'inégalité comme le coefficient de Gini. La figure 3.1 montre
qu'il ne semble pas y avoir de biais significatif entre les indicateurs calculés à
partir de l'EBM et ceux calculés à partir de EU-SILC. Les écarts entre les
deux sources s'expliquent principalement par le fait qu'elles reposent sur des
échantillons différents.

Figure 3.1 : Taux de pauvreté et coefficient


de Gini, comparaison EBM 2005 et EU-SILC 2005

The Gini coefficient

DK / AT

20.0 2SO 300 35.0 40 0


fil SU I

At-risk-of-poverty rate

—i—
100 Tsô 200"
EU-SILC
108 Pratique et méthodes de sondages

5.4 Conclusion

La collecte EBM au niveau d'Eurostat a permis de constituer une importante


base de données sur les conditions de vie des ménages. Avec plus de 3 000
visites depuis leur mise en ligne sur le site d'Eurostat, les données EBM
figurent parmi les plus demandées par les utilisateurs. Des problèmes de
qualité persistent, surtout liés à la comparabilité, mais ils ne sont pas si
différents de ceux des Statistiques réglementées comme EU-SILC ou EU-
LFS. Par ailleurs, chaque nouvelle vague de collecte est l'occasion
d'améliorer un peu plus l'instrument.
Les enquêtes budget des ménages trouvent aussi d'autres applications. Par
exemple, de nombreux pays ont développé des mesures de pauvreté dites
« absolues », qui reposent sur la notion de panier « minimal » de biens et de
services que les ménages doivent être en mesure de pouvoir s'offrir. Les EBM
sont alors une source de données essentielle pour la construction d'un tel
panier. Enfin, on peut aussi citer tout le travail qui est fait autour de la mesure
du bien-être (dans la foulée du rapport Stiglitz), et qui est intéressé par les
données sur les dépenses des ménages. Bref, on voit que les données EBM
sont en train de trouver un nouveau souffle auprès des utilisateurs.

6. Analyse comparative de la qualité des

plans de sondage dans les enquêtes

sur les dépenses des ménages en

Afrique de l'Ouest : cas des pays de

l'UEMOA

14
Ousman KORIKO

6.1 Introduction

Dans le cadre du projet de rénovation de l'Indice Harmonisé des Prix à la


Consommation (IHPC), les pays membres de l'Union Economique et
Monétaire Ouest Africaine (UEMOA) ont réalisé en 2008 une enquête sur les
dépenses des ménages (EDM) selon une méthodologie commune, dans les
principales agglomérations que sont Cotonou (Bénin), Ouagadougou (Burkina
Faso), Abidjan (Côte d'Ivoire), Bissau (Guinée Bissau), Bamako (Mali),
Niamey (Niger), Dakar (Sénégal) et Lomé (Togo). Il s'agit d'une enquête
budget consommation (EBC) qui fournit des éléments essentiels pour une
analyse explicative de la pauvreté.

14 AFRISTAT. Courriel : ousman.koriko@afristat.org.


3. Enquêtes sociales 109

Les deux principaux concepts de cette enquête sont le ménage et la dépense


de consommation d'un ménage. Les définitions adoptées sont conformes à la
résolution 1 de la 17° conférence internationale des statisticiens de travail
(C1ST) de décembre 2003 concernant les statistiques des revenus et des
dépenses de ménages. Ainsi, le ménage est un groupe de personnes
apparentées ou non, vivant ensemble sous le même toit, partageant des repas
en commun et reconnaissant l'autorité d'un chef de ménage. Au sens de cette
enquête, la dépense de consommation est définie selon l'approche d'acquisition
des biens et services. Elle est monétaire ou non. Les dépenses non monétaires
sont valorisées aux prix déclarés par les ménages.
On a mis en œuvre un plan de sondage aréolaire stratifié à deux degrés, à
probabilités inégales. Au premier degré, on a tiré m = 84 zones aréolaires
dénommées zones de dénombrement (ZD), proportionnellement à leur effectif
de ménages ou de population. Au deuxième degré, on a tiré à probabilités
égales, un nombre constant de n, = 12 ménages par ZD.
L'objet du présent article porte sur l'analyse comparative de la qualité des
estimations des dépenses de consommation produites à partir d'un dispositif
harmonisé d'enquête. Il s'agit de répondre aux questions suivantes : i) le
dispositif harmonisé a-t-il conduit à des résultats fiables ? ii) quelles sont les
erreurs imputables au plan de sondage mis en œuvre par chaque pays ? et iii)
quelles sont les améliorations à proposer ?

6.2 Analyse comparative des précisions des


estimations des dépenses annuelles de
consommation

Globalement, l'EDM de 2008 a connu un taux de réponse très satisfaisant de


plus de 96 % dans chaque agglomération, illustrant l'amélioration méthodologique
apportée à l'enquête et l'efficacité de la stratégie de collecte des données.
Selon les résultats de cette enquête, les dépenses de consommation des
ménages de la zone UEMOA sont à plus de 90 % monétaires.
Les coefficients de variation calculés se situent tous en dessous de 8 %. Les
estimations sont bonnes d'autant plus que leur intervalle de confiance
respectif est moins large. Les précisions des résultats sont meilleures pour les
villes de Cotonou, de Niamey et de Lomé avec un taux moyen de 5 %. Deux
enseignements importants sont à tirer de cette partie : i) la détermination de la
taille de l'échantillon est fonction de la probabilité d'apparition du
phénomène étudié et non de la taille de la population de chaque ville et ii) les
critères de stratification doivent être bien discriminants.
110 Pratique et méthodes de sondages

Tableau 3.5 : Taux de réponse et coefficients de variation


de l'estimation de la dépense totale de consommation
Villes/Pays Cotonou Ouagadougou Abidjan Bissau Bamako Niamey Dakar Lomé
(Bénin) (Burkina Faso) (Côte (Guinée (Mali) (Niger) (Sénégal) (Togo)
d'Ivoire) Bissau)
Nombre
de strates 3 2 1 2 7 2 4 2
Taux de
réponse
(%) 100 97,3 99,4 98,9 97 98 99,2 96,6
Coefficient
de
variation
(%) 5,5 6,2 7,1 6,4 6,4 5,7 6,2 5,1
Source : Calculs faits par AFRISTAT.

6.3 Analyse comparative des effets liés au plan


de sondage

Le plan de sondage utilisé est un sondage autopondéré à deux degrés. L'effet


de sondage {Design Effect, noté DEFF) est obtenu en rapportant l'estimateur
de la varianee de l'estimation calculé selon le plan de sondage utilisé à
l'expression de l'estimateur de la même varianee calculé dans le cas d'un
sondage aléatoire simple (SAS): DEFF = V(7,)/V'(r)SAS. L'expression de
l'effet de grappe, noté p, est obtenue par la relation : DEFF = 1 + p(n -1),
où n désigne le nombre moyen de ménages enquêtés par ZD. Les effets de
grappe jusqu'à 0,2 sont tolérables dans un sondage à deux degrés. L'effet de
grappe est surtout élevé pour les villes de Bissau, Bamako, Dakar et Lomé.
Une simulation a été faite par la suite en tirant au hasard à partir du fichier
des ménages enquêtés, respectivement 75 % et 50 % de ménages, tout en
maintenant le nombre d'unités primaires à 84. Le but est d'apprécier jusqu'à
quel niveau on peut faire baisser la taille de l'échantillon final et obtenir de
bonnes précisions des estimations. Les pondérations spatiales initiales des
ménages sélectionnés ont été respectivement multipliées par 4/3 et 2 dans les
deux cas de simulation. D'après les résultats de la simulation, l'effet de
grappe reste acceptable pour les villes de Cotonou, Ouagadougou, Abidjan et
Niamey. Par contre, il s'aggrave pour les autres villes. Cet exercice profiterait
surtout aux villes dont les effets de grappe sont faibles.
3. Enquêtes sociales 111

Tableau 3.6 : Effets calculés, effets et coefficients de variation simulés


Nombre Effets calculés par Effets et coefficients
de l'enquête (m = 84 et de variation simulés
strates n = 1 008)
Ville DEFF Effet de Effet de Effet de CV(%)
grappe grappe (p) grappe (p) m = 84 et
(P) m = 84 et m = 84 et n = 756
n = 504 n = 756
Cotonou 3 1,316 0,029 0,053 0,012 6,1
Ouagadougou 2 1,179 0,017 -0,061 0,021 7,2
Abidjan 1 2,814 0,166 0,155 0,143 7,4
Bissau 2 4,941 0,363 0,429 0,387 6,8
Bamako 7 4,426 0,322 0,391 0,345 6,9
Niamey 2 2,374 0,128 0,216 0,109 6,0
Dakar 4 3,89 0,265 0,365 0,373 7,1
Lomé 2 3,749 0,259 0,567 0,371 5,9
Source : calcul d'AFRISTAT.

6.4 Simulation de la répartition de l'échantillon


pour les villes à effet de sondage important

Avec un échantillon de 1 008 ménages répartis sur 84 grappes à raison de 12


en moyenne grappe, les résultats de l'enquête ont montré des effets de
sondage élevés pour quatre villes. La simulation a alors porté sur
l'augmentation du nombre d'unités primaires et la diminution du nombre
moyen d'unités secondaires par grappe dans le but de réduire les effets de
sondage respectifs d'un facteur y. On a recherché le couple (a, (3) tel que
^2 = oc x 77, Qt m2 = fi x m, qui permet de satisfaire la relation DEFF2 = y x
DEFF,. Le rapport des variances s'écrit : V^/V, = DEFF2/DEFF1. Or, V(T) =
DEFFxV(r)SAS et V{T)SAS = N2{\ - f) s2/n. Le sondage étant
autopondéré, on a /î = m x 77. Alors, on a :

V
2 - 1 " A -, ml'Tl -, DEFF2
Vj 1 - /, ^2^2 E)EFFI

ou encore

^2 Y ..1-/2
Vi a|3 1- '

On a aussi /2 = ocP/j. Après simplification, on obtient p = 1 / a.


112 Pratique et méthodes de sondages

Dans l'exemple qui suit, on fait l'hypothèse que y =0,5 et a =0,75. Alors,
on obtient (3 =1,33. Les effets de grappe sont tous améliorés pour les villes de
Bissau, Bamako, Dakar et Lomé, avec un échantillon de 112 unités primaires
et un nombre constant de 9 ménages par unité primaire.

Tableau 3.7 ; Simulation de la répartition de Téchantillon pour


les villes à effet de sondage important (y = 0,5, a= 0,75 et p= 1,33)
VILLE Bissau Bamako Dakar Lomé
deff2 2,471 2,213 1,945 1,875
n2 9 9 9 9
P2 0,184 0,152 0,118 0,109
1712 112 112 112 112
Source : calculs faits par AFRISTAT.

6.5 Proposition d'amélioration du dispositif


d'enquête harmonisée

Les bonnes pratiques sont présentées ci-après pour améliorer le dispositif


d'enquête harmonisé : i) une mise à jour cartographique avant le tirage des
unités primaires dans le but de réduire l'asymétrie de la distribution des tailles
des unités primaires ; ii) la conception des questionnaires, le calendrier des
visites et la technique d'observation participent à l'amélioration des taux de
réponse et de la qualité des données ; iii) l'optimisation du plan de sondage
sous contrainte est importante ; et iv) l'élaboration d'un aide-mémoire sur le
traitement des données est indispensable pour permettre un traitement
harmonisé et produire des indicateurs comparables.

6.6 Conclusion

L'EDM 2008 a le mérite d'être exécutée pour la deuxième fois, après celle de
1996, avec succès dans les principales agglomérations des pays membres de
l'UEMOA. Les résultats obtenus sont fiables et comparables. Cependant,
force est de constater que l'application d'un plan de sondage identique induit
des effets différents selon les agglomérations. De bonnes pratiques sont
proposées pour l'amélioration du dispositif d'enquête.
3. Enquêtes sociales 113

7. L'enquête Famille et logements

associée au recensement de 2011

Wilfried RAULT15 Magall MAZUY16 André RIVIÈRE 17

et Laurent TOULEMON18

L'enquête « Famille » a été mise en place en France en 1954 pour étudier la


fécondité des femmes et compléter les deux principales sources de données
démographiques que sont le recensement de la population et l'état-civil.
Adossée au recensement général de la population, elle a été réalisée en 1954,
1962, 1975, 1982, 1990 et 1999 avec un format de questionnaire assez stable
et auprès d'un vaste échantillon. En 1999, l'enquête a évolué pour mettre
davantage l'accent sur l'histoire familiale et mieux rendre compte de sa
complexité croissante. Elle a alors été élargie aux hommes. La prochaine
édition de l'enquête sera réalisée en 2011 par l'Insee avec la collaboration de
l'Ined, de la Direction de la recherche, des études, de l'évaluation et des
statistiques (Drees) et de la Caisse nationale des allocations familiales (Cnaf).
Cette nouvelle enquête Famille, nommée « Famille et logements » (EFL), se
concentrera sur la diversité des configurations familiales et leur localisation
géographique. Elle sera la première enquête associée au recensement dans sa
forme rénovée depuis 2004.

7.1 Le protocole d'enquête : continuités et


évolutions

Le protocole mis en œuvre pour les précédentes éditions sera en partie


maintenu :
- dépôt-retrait : l'agent recenseur distribue un questionnaire de quatre
pages auto-administré en plus des bulletins individuels et de la feuille
de logement ;
- tous les adultes d'un sexe donné doivent remplir le bulletin de
l'enquête Famille, pour les ménages tirés au sort.

Au final, le recueil de 320 000 questionnaires est attendu pour 2011.


Si la philosophie générale de l'enquête est inchangée par rapport à ses
versions antérieures, les transformations récentes du recensement ne sont pas

15 Institut national d'études démographiques (Ined). Courriel : wilfried.rault@ined.fr.


16 Institut national d'études démographiques (Ined). Courriel : mazuy@ined.fr.
17 Institut national de la statistique et des études économiques (Insee).
Courriel : andre.riviere@insee.fr.
18 Institut national d'études démographiques (Ined). Courriel : toulemon@ined.fr.
114 Pratique et méthodes de sondages

sans effets sur la collecte des données de l'enquête Famille. Désormais, à


l'instar de ce qui vaut pour l'enquête annuelle de recensement (EAR), toutes
les communes ne participent pas à l'enquête annuelle et les communes
enquêtées sont responsables de la collecte. Une opération pilote a été menée
dans le cadre de F EAR de 2010 dans cinq régions (Aquitaine, Centre, Nord -
Pas-de-Calais, Ile-de-France, Franche Comté). Plus de 22 000 questionnaires
ont été collectés. Malgré ce nouveau protocole de collecte, la non-réponse
n'est pas supérieure à celle de 1999, et la qualité de la collecte du
recensement n'est pas affectée par l'enquête Famille. Toutefois, une opération
de sensibilisation des communes s'avère nécessaire.

7.2 Le renouvellement thématique de l'enquête

7.2.1 Multirésidence et enregistrement au recensement

Le questionnaire comprend un module thématique qui varie à chaque édition


de l'enquête. En 2011 ce volet sera consacré à la multi-résidence. Des
questions spécifiques s'adresseront aux personnes qui vivent habituellement
dans plusieurs logements : motif de la multi-résidence (professionnel,
familial, scolaire), type et localisation de l'autre logement, relations avec les
autres personnes qui y résident.
Par ailleurs, la localisation des logements des répondants, de leurs enfants
partis et de leurs parents offrira une image de la dispersion géographique du
réseau familial, inscrivant ainsi la multi-résidence dans l'univers des
logements occupés par les proches.
Enfin, les questions sur la multirésidence, similaires à celles introduites
dans les enquêtes de l'Insee auprès des ménages (Toulemon et Pennec, 2010),
permettront d'avoir des éléments sur le risque de double compte au
recensement, pour les répondants et pour leurs proches (parents, enfants),
offrant ainsi une possibilité d'évaluer la qualité des informations issues du
recensement.

7.2.2 La diversité des configurations conjugales et


familiales

L'enquête décrira les situations conjugales et familiales dans leur diversité :


couples mariés, pacsés ou en union libre, élevant ou non des enfants
communs et/ou de l'un des conjoints. La liste des enfants et beaux-enfants
précisera les liens de filiation et la corésidence (totale ou partielle) des enfants
avec leurs parents, permettant de mieux définir les contours des familles
recomposées et d'améliorer la connaissance des familles monoparentales dont
le nombre continue de croître (Chardon, Daguet et Vivas, 2008). De même, la
co-résidence (totale ou partielle) des adultes avec leurs parents sera décrite.
3. Enquêtes sociales 115

Les questions liées à la vie en couple, au logement et à la multirésidence


permettront de mener des études spécifiques sur les couples non-cohabitants.
L'étude de populations dont les effectifs sont trop faibles pour être
exploitables dans d'autres enquêtes pourra être réalisée grâce à l'importance
de la taille de l'échantillon de l'EFL. C'est en particulier le cas des familles
monoparentales dont le parent est un homme.
Il sera possible d'étudier les couples de même sexe et l'homoparentalité
grâce à une question sur le sexe du conjoint ou de la conjointe de la personne
enquêtée et l'abandon des formulations hétérosexuées dans le questionnaire.
Par exemple, tandis que la version antérieure du questionnaire homme faisait
allusion à une « conjointe », il est désormais question d'un(e)
« conjoint(e)/ami(e) ». L'enquête Famille et logements palliera certaines
limites des données actuelles concernant les couples de même sexe fondées
sur des échantillons représentatifs mais de taille trop restreinte ou sur des
échantillons dits « de convenance » qui reposent sur la participation
volontaire des personnes enquêtées. La qualité des données sera garantie par
le protocole d'enquête qui recueille un bulletin par personne de plus de 18 ans
d'un sexe donné dans un même ménage. Il sera ainsi possible d'extraire du
fichier d'exploitation les « faux couples de même sexe », qui apparaissent
dans toutes les enquêtes du fait d'erreurs de saisie ou de déclaration et nuisent
considérablement à la qualité des données. Mis en regard des informations sur
les enfants présents dans le ménage, cet ensemble de données apportera des
éléments de connaissance inédits de l'homoparentalité, attendus par les
instances scientifiques, politiques et sociales.

7.3 Le Pacte civil de solidarité (Pacs)

Parmi toutes les innovations permettant l'étude des situations familiales,


l'enquête Famille et logements présentera un intérêt particulier pour l'étude
du pacte civil de solidarité. Cette forme d'union connaît un essor
ininterrompu depuis sa création en novembre 1999 : on comptait en 2009
deux Pacs pour trois mariages (Prioux et Mazuy, 2009). Plus de dix ans après
sa mise en place, les données sur le Pacs sont encore très lacunaires.

7.3.1 Limites des sources actuelles

Il importe de rappeler les faiblesses des données actuellement disponibles sur


le Pacs pour saisir l'intérêt de l'enquête Famille dans ce domaine. À l'image
du statut ambivalent du Pacs, à mi-chemin entre dispositif privé permettant
d'organiser une vie commune et forme publique de reconnaissance du couple
(Rault, 2009), le traitement du Pacs par la statistique publique est ambigu.
Parce qu'il n'est pas considéré comme un état matrimonial légal, le statut de
pacsé(e) n'est pas demandé dans le bulletin individuel de recensement, qui
116 Pratique et méthodes de sondages

distingue les situations suivantes : célibataire/marié(e) (ou séparé(e) mais non


divorcé(e))/veuf ou veuve/divorcé(e). Actuellement, les données sur le Pacs
sont principalement fournies par le ministère de la Justice. Celles-ci (établies
sur une base trimestrielle) sont limitées : âges des partenaires, types de
couples pacsés, répartition géographique. Certaines enquêtes réalisées en
population générale permettent certes de saisir des tendances (Rault et Letrait,
2010), notamment sur les profils sociaux des partenaires, mais les effectifs
sont souvent trop faibles pour entreprendre des études approfondies.

7.3.2 Les apports de l'enquête Famille à l'étude du


Pacs

L'enquête Famille et logements constituera une source nouvelle pour étudier


avec plus de précision le pacte civil de solidarité, tant sur un plan
démographique que sociologique. Le questionnaire permettra d'étudier les
Pacs au moment de l'enquête. Il sera possible de saisir des éléments sur la
distribution sociale du Pacs et son évolution (depuis le vote de la loi en 1999,
puis à chaque modification du texte en 2005, 2006 et 2007) grâce au recueil des
professions des pacsé(e)s et de la date d'enregistrement19. On en saura plus sur
les Pacs des couples de même sexe dont les effectifs sont très faibles dans les
autres enquêtes. Une question sur le fait d'avoir été pacsé avant un mariage
(avec la même personne) permettra aussi d'éclairer certains aspects du
processus de combinaison du Pacs et du mariage. L'enquête Famille et
logements de 2011 constituera ainsi une source de données majeure pour le
renouvellement des connaissances relatives à la famille et à la vie privée.

BIBLIOGRAPHIE

Chardon, O., Daguet, F. et Vivas, E. (2008). Les familles monoparentales.


Des difficultés à travailler à se loger. Insee Première, 1195.
Prioux, F., et Mazuy, M. (2009). L'évolution démographique récente en
France : dix ans pour le Pacs, plus d'un million de contractants. Population,
64(3), 445-494.
Rault, W. (2009). L'invention du Pacs. Pratiques et symboliques d'une
nouvelle forme d'union. Presses de Sciences-Po, « Sociétés en
mouvement », Paris.

19 En plus des données issues du Tronc commun des ménages des enquêtes de f Insee qui
comprend une question sur le Pacs depuis 2009. C'est l'empilement des différents TCM
sur plusieurs années qui apportera à terme des données utiles pour l'étude du pacte civil
de solidarité.
3. Enquêtes sociales 117

Rault, W., et Letrait, M. (2010). Formes d'unions différentes, profils


distincts ? Comparaison des partenaires d'un Pacs et des mariées.
Sociologie, 3.
Toulemon, L., et Pennec, S. (2010). Multi-résidence in France and Australia:
Why count them? What is at stake? Double counting and actual family
situations. Démographie Research, à paraître.

8. Enquête de Suivi de la Pauvreté au

Sénégal (ESPS_2005_2006) :

échantillon probabiliste stratifié à deux

degrés

20
Fatou Bintou NIANG CAMARA

8.1 Introduction

Au stade actuel, le problème social majeur réside sans conteste dans la forte
incidence de la pauvreté dans les pays en développement surtout en Afrique
subsaharienne, d'où l'importance accordée à la lutte contre la pauvreté par le
Sénégal et leurs partenaires au développement. Les programmes nationaux de
lutte contre la pauvreté offrent des opportunités pour la mobilisation de tous
les acteurs à la formulation et la mise en œuvre de politiques sociales. Cela
contribuerait ainsi à la réalisation des Objectifs du Millénaire pour le
Développement à l'horizon 2015.
L'Enquête de Suivi de la Pauvreté au Sénégal de 2005 (ESPS_2005) s'est
inscrite dans ce cadre et a été réalisée par la Direction de la Prévision et de la
Statistique (DPS), devenue Agence Nationale de la statistique et de la
Démographie (ANSD) grâce à l'appui financier et logistique de l'Agence du
Fonds de Développement Social (AFDS). Les principaux objectifs de
1,ESPS_2005 sont :
1. de collecter les informations nécessaires à l'identification et à la
classification des groupes cibles de populations et ;
2. de fournir dans un court délai, des données de base nécessaires au
suivi du développement économique et social du pays.

20 Agence Nationale de la statistique et de la Démographie (ANSD) Sénégal.


Courriel : fatou.niang@ansd.sn.
118 Pratique et méthodes de sondages

8.1.1 Plan de sondage

a) Taille de l'échantillon

Elle porte sur un échantillon de 13 600 ménages répartis entre le milieu urbain
(8 564 ménages) et le milieu rural (5 036 ménages). On a onze domaines
d'études qui correspondent aux onze régions administratives du Sénégal,
divisées en 3 départements chacune, sauf la région de Dakar qui en compte
quatre. Chaque département est stratifié en urbain et rural.
L'échantillon est constitué de 820 Districts de Recensement (DR) au total,
dont 505 en milieu urbain et 315 en milieu rural. Dans chaque strate ou
département, 25 DR sont tirés, 15 en milieu urbain au sein des communes et
10 en milieu rural au sein des communautés rurales. Ce qui donne par
conséquent, un total de 16 ménages à enquêter tous milieux confondus.
Toutefois, dans les milieux urbains de Kébémer (Louga), Kanel (Matam),
Ranérou (Matam), et de Oussouye (Ziguinchor) où on y enregistrait une
insuffisance de nombres de DR par rapport aux autres, le nombre de ménages
à enquêter a dépassé 16, surtout pour Ranérou qui ne comportait qu'un seul
DR. Dans ce cas, tous les 164 ménages qui l'ont composé ont été enquêtés.
Il convient de souligner que la base de sondage est constituée de la liste des
districts de recensement (DR) obtenus avec la cartographie réalisée dans le
cadre de la réalisation du Recensement Général de la Population et de
l'Habitat de 2001 (RGPH/2001). Elle est organisée en fichier informatique et
comporte 10 000 DR environ. Cette base a servi au tirage des 820 DR de
l'ESPS_2005.

b) Tirage des DR

La technique d'échantillonnage est un tirage systématique avec probabilité


proportionnelle à la taille. La sélection consiste à tirer m DR à l'intérieur de
chaque milieu d'un département de N DR, soit 16 en milieu urbain et 10 en
milieu rural. Le tirage est aléatoire au niveau des strates puisqu'il est accordé
à chaque unité statistique (DR) la probabilité d'être tirée selon sa taille. Ici, la
taille des DR correspond au nombre de ménages dans le DR.
Le caractère aléatoire, condition fondamentale, est lié au fait que le tirage
est fait au hasard par utilisation d'une algorithmique informatique de tirage
pour générer automatiquement un nombre aléatoire. Le tirage des DR est
effectué par la méthode des totaux cumulés. Elle consiste d'abord, à faire la
somme cumulée des effectifs de chaque DR, soient nx + /î2, ..., cela aboutit
72
à l'obtention de « = X /- Equité, on procède au calcul du pas de sondage
qui est différent d'une strate à une autre : K = n!m, m étant le nombre de DR
à tirer dans la strate.
3. Enquêtes sociales 119

Cela conduit à une subdivision de l'intervalle [1, n] en m sous-intervalles


de K nombres chacun. On tire au hasard un nombre k entre 1 et A' et on
détermine la suite des m nombres en prenant k, k + K, k + 2K ...k +
(m - 1) K. On choisit les unités correspondantes à chacun des nombres selon
la tranche à laquelle elles appartiennent. En général le DR tiré est celui sur la
liste dont l'effectif cumulé est égal ou supérieur à ce numéro de sondage.

c) Tirage des ménages

Au total, 16 ménages seront tirés par DR tous milieux confondus. La


technique de tirage des ménages se fera à l'aide d'une table d'échantillonnage
élaborée pour la cause. Il s'agit d'abord de numéroter chaque DR de 1 à /V.
La taille du DR est /?,, le nombre total de ménages qui composent le DR i. 16
est le nombre minimal de ménages qu'un DR peut avoir et 338, le nombre
maximal. Il faut souligner qu'on a la même procédure de tirage. A ce niveau,
on se situe au second degré de tirage. Ainsi, on calcule le pas K qui est /?, sur
le nombre de ménages à tirer qui est 16, pour ensuite calculer le premier
ménage k à tirer. Le deuxième ménage est la somme du pas et du premier
ménage tiré. Tous les autres s'obtiennent par la somme du ménage précédent
et du pas. Le tirage des ménages pourrait se résumer comme suit : k, k +
K, k + 2K ...k + (16 - 1) K.

Tableau 3.8 : Récapitulatif de la taille de


l'échantillon de l'ESPS 2005
Région Département Échantillon_DRs Échantillon_Ménages
Urbains Ruraux Total Urbains Ruraux Total

Dakar 25 0 25 400 0 400


Dakar Guédiawaye 25 0 25 400 0 400
Pikine 25 0 25 400 0 400
Rufisque 15 10 25 240 160 400
TOTAL 90 10 100 1 440 160 1 600
Bambey 15 10 25 240 160 400
Diourbel Diourbel 15 10 25 240 160 400
Mbacké 15 10 25 240 160 400
TOTAL 45 30 75 720 480 1 200
120 Pratique et méthodes de sondages

Tableau 3.8 (suite) : Récapitulatif de la taille de


l'échantillon de l'ESPS 2005
Région Département Échantillon_DRs Échantillon_Ménages
Urbains Ruraux Total Urbains Ruraux Total

Fatick 15 10 25 240 160 400


Fatick Foundiougne 15 10 25 240 160 400
Gossas 15 10 25 240 160 400
TOTAL 42 30 72 720 480 1 200
Kaffrine 15 10 25 240 160 400
Kaolack Kaolack 15 10 25 240 160 400
Nioro 15 10 25 240 160 400
TOTAL 45 30 75 720 480 1 200
Kolda 15 10 25 240 160 400
Kolda Sédhiou 15 10 25 240 160 400
Vélingara 15 10 25 240 160 400
TOTAL 45 30 75 720 480 1 200
Kébémer 12 10 22 240 160 400
Louga Linguère 15 10 25 240 160 400
Louga 15 10 25 240 160 400
TOTAL 42 30 72 720 480 1 200
Kanel 7 10 17 240 160 400
Matam Matam 15 10 25 240 160 400
Ranérou 1 15 16 164 236 400
TOTAL 23 35 58 644 556 1 200
Dagana 15 10 25 240 160 400
Saint-Louis Podor 15 10 25 240 160 400
Saint-Louis 15 10 25 240 160 400
TOTAL 45 30 75 720 480 1 200
Bakel 15 10 25 240 160 400
Tambacounda Kédougou 15 10 25 240 160 400
Tambacounda 15 10 25 240 160 400
TOTAL 45 30 75 720 480 1 200
Mbour 15 10 25 240 160 400
Thiès Tivaouane 15 10 25 240 160 400
Thiès 15 10 25 240 160 400
TOTAL 45 30 75 720 480 1 200
Bignona 15 10 25 240 160 400
Ziguinchor Oussouye 5 10 15 240 160 400
Ziguinchor 15 10 25 240 160 400
TOTAL 35 30 65 720 480 1 200
SENEGAL 505 315 820 8 564 5 036 13 600
3. Enquêtes sociales 121

9. Quelle stratégie d'échantillonnage pour

évaluer l'impact d'un projet

d'urbanisation dans un bidonville de

Djibouti ?21

22 23
Sébastien MERCERON , Sandrine MESPLE-SOMPS et
24
Laure PASQUIER-DOUMER

Le Projet de Développement Urbain Intégré (PDUI) de Balbala, un quartier


défavorisé de Djibouti, vise à améliorer les conditions de vie de ses habitants.
Le PDUI, financé par l'Agence Française de Développement, consiste à
développer des infrastructures, des équipements collectifs et des programmes
sociaux. Les impacts attendus du programme sont une stabilisation de
l'habitat, un meilleur accès à l'emploi (voir figure 3.2), une amélioration de la
santé et de la sécurité.

Figure 3.2 : Les impacts attendus du PDUI : l'exemple de l'emploi


Produits du PDUI Résultats du PDUI Impact à CT du PDUI
Formations Meilleur accès aux
professionnelles Meilleure employabilité emplois formels
Accompagnement des jeunes
professionnel Diminution des taux de
chômage et de sous-
Chantiers HIMO donne emploi
l'expérience Meilleur accès au
bassin d'emploi
Voiries secondaires

Augmentation des revenus


Aide à l'entreprenariat d'activité
Création de micro-entreprises
Extension électricité

21 Ce travail a été financé par l'Agence Française de Développement et s'inscrit dans un


partenariat avec l'Agence Djiboutienne de Développement Social (ADDS) et la
Direction de la Statistique et des Études Démographiques (DISED). Nous remercions
l'ensemble du personnel de ces différentes institutions avec qui nous avons collaboré et
sans qui ce travail n'aurait pu avoir été réalisé.
22 Institut national de la statistique et des études économiques, UMR 225 DIAL, CREST.
Courriel : merceron@dial.prd.fr.
23 Institut de recherche pour le développement, UMR 225 DIAL.
Courriel : mesple@dial.prd.fr.
24 Institut de recherche pour le développement, UMR 225 DIAL.
Courriel : pasquier@dial.prd.fr.
122 Pratique et méthodes de sondages

L'évaluation de l'impact de ce grand projet implique de pouvoir identifier


ses effets sur les ménages par rapport à une situation dite contrefactuel le dans
laquelle ce projet n'aurait pas eu lieu. Ainsi, une simple comparaison ex-
post/ex-ante ne permet pas d'isoler les effets nets du projet dans un contexte
où les conditions de vie des populations sont affectées par de nombreux
paramètres extérieurs au projet (comme la situation macro-économique du
pays ou le développement de bassins d'emplois locaux).
Ceci requiert de comparer la population ciblée avec une population témoin,
non affectée par le projet et de caractéristiques urbanistiques et
socioéconomiques comparables. Cette approche « en double différence » fait
l'hypothèse d'une même évolution dans la population témoin que dans la
zone PDUI en l'absence de projet. Cette hypothèse pouvant s'avérer forte,
nous avons souhaité être aussi en mesure de construire un contrefactuel en
considérant l'hétérogénéité du programme à l'intérieur de la zone PDUI :
l'impact s'analyse alors en distinguant l'évolution différentielle entre les
ménages selon leur degré d'exposition au programme. Un ménage vivant dans
un logement isolé loin de toutes infrastructures et qui se voit bénéficier d'une
nouvelle route desservie par des bus, d'un accès rapide à de nouveaux centres
communautaires, sera fortement exposé aux effets du projet, tandis qu'un
ménage vivant déjà au bord d'une des grandes routes qui entourent la zone
PDUI avant le démarrage du projet ne se verra pas davantage désenclavé.
La stratégie d'évaluation est celle d'une enquête menée au début et à la fin
du programme auprès de 1 000 ménages de Balbala, dont 700 de la zone
PDUI et 300 d'une zone témoin. Le questionnaire en face à face vise à
mesurer à la fois les résultats du programme et ses impacts nets sur la
population. Le plan d'échantillonnage de l'enquête de référence est un
élément fondamental de la stratégie d'évaluation : il doit assurer la
représentativité des échantillons cible et témoin et d'autre part permettre de
mesurer l'évolution contrastée selon le degré d'exposition au programme. Les
mêmes ménages sont interrogés avant le démarrage du projet et à nouveau
quatre ans après, dans une approche en panel permettant de dégager des
évolutions réelles et de tenir compte de l'hétérogénéité individuelle. Ceci pose
la question du dépistage (« tracking »), c'est-à-dire la nécessité de retrouver
après quatre ans les ménages enquêtés dans un contexte où l'habitat est peu
stabilisé, surtout dans la zone témoin : un suivi précis des chefs de ménage est
mis en place (coordonnées téléphoniques, localisation GPS) et une analyse
des facteurs d'attrition est prévue (suivi à mi-parcours des déménagements,
insertion d'éléments sur la qualité et sur la non-réponse dans le questionnaire
de fin).
Le repérage de terrain avec des experts de l'urbanisme et des associations
de quartiers, ainsi qu'un recours à l'imagerie satellitaire, ont été nécessaires
pour déterminer les Zones de Dénombrement (ZD) de la population
témoin selon deux critères :
3. Enquêtes sociales 123

- l'absence de projets d'urbanisation prévus sur la zone,


- leur apparente similarité avec la zone PDUI en termes de conditions
de logement et d'infrastructures.

Le plan de sondage proposé est aréolaire à deux degrés, stratifié au niveau


des îlots (grappes de 5 à 15 logements). Une fois un îlot sélectionné,
l'ensemble de ses ménages est interrogé du fait des contraintes de budget, de
logistique et de localisation précise des ménages.
La stratification des îlots est réalisée selon trois indicateurs :
1. L'indicatrice d'appartenance à la zone PDUI ou à la zone témoin.
2. Le niveau de précarité du logement : cette variable est corrélée avec
la principale variable d'intérêt de l'enquête (le niveau de vie du
ménage). En présence d'effet de grappes dû au tirage par îlot, cette
stratification permet d'améliorer la précision des indicateurs cibles.
Elle permet aussi de contrôler la similarité des échantillons témoin et
PDUI, et leur représentativité respective. Pourtant collectées, les
données du Recensement de la Population Djiboutienne n'étaient pas
saisies, ni disponibles. Une opération ad hoc a permis de saisir sur
place quatre variables du Recensement de la Population sur les
caractéristiques du logement pour l'ensemble des zones PDUI et
témoin : le matériau des murs, l'alimentation en eau, le type
d'éclairage, le statut d'occupation ont été utilisés pour construire un
score de précarité du logement. Les valeurs des tertiles de la moyenne
du score par îlots de la zone du projet fournissent une classification
des îlots selon trois strates de précarité.
3. Le niveau d'enclavement du ménage : l'enclavement d'un logement
est défini par le temps mis par un ménage pour atteindre les
transports en commun. Pour un îlot, la distance de chaque îlot à la
route la plus proche desservie par les bus est utilisée comme
indicateur pour mesurer !'« intensité du programme », car plus les
ménages sont enclavés initialement, plus le projet modifiera leur
accès aux routes et aux infrastructures. A partir du géoréférencement
des routes et des îlots dans un Système d'Information Géographique,
les îlots sont ainsi classés en trois strates d'enclavement.

L'enquête est alors constituée de 18 strates (neuf en zone PDUI et neuf en


zone témoin).
Un tel tirage par grappes de logement a été rendu nécessaire par l'absence
d'une base de sondage des ménages, l'obsolescence de l'adressage cadastral
des logements et les fortes contraintes budgétaires. Les conséquences
attendues du plan de sondage sont classiques : la réduction de la précision due
à l'effet de grappe est atténuée par la stratification. L'hétérogénéité
intragrappe, mesurée par l'écart-type du score de précarité et du score
124 Pratique et méthodes de sondages

d'enclavement, est en général d'autant plus importante que l'îlot est de taille
importante.
L'analyse des résultats et des intervalles de confiance devra prendre en
compte ce plan de sondage aréolaire stratifié. La dispersion des pondérations
des ménages enquêtés est relativement forte du fait des différentiels de taux
de sondage appliqués dans les différentes strates formées par le croisement
des trois critères de stratification. Il ne s'agit cependant pas d'une allocation
optimale de Neyman car l'allocation suit une logique spécifique : les taux
appliqués sont d'autant plus élevés que l'îlot est enclavé, précaire et dans la
zone PDU1 (notre population cible).

Figure 3.3 : Carte satellitaire du quartier de


Hayabley identifié comme zone témoin
(Ilots numérotés à Fintérieur de chaque ZD)
V
* s
M
éPrX'SÉ
syrif: *

r-

.-.asJri
-.3 :<

t.-

K j**

OS :
15 S r*-'
trz «
r-'
n

3* * &e.rdBBL
issamsb
V I . 7i
"D '' S
O V f"
c
D Wi
Û ^EV
■R
o urff.JI'fsIKal ' r. —Or
(N
O
-C
en
>-
CL
O
(J
3. Enquêtes sociales 125

10. Enquête sur la SAnté MENTale et les

Addictions chez les sans logement

franciliens (SAMENTA) ; une double

contrainte d'enquête

Marc-Antoine DETREZ25, Caroline DOUAY25,


Yann LE STRAT26, Pierre CHAUVIN27 et Anne LAPORTE25

10.1 Introduction

L'enquête Samenta répond à une demande de la Préfecture de Paris et de la


Mairie de Paris, concernant l'estimation des troubles psychiatriques et des
addictions parmi les personnes sans logement personnel en Ile-de-France.
Cette étude permet d'actualiser et d'approfondir nos connaissances, plus de
dix ans après l'enquête de référence française sur les troubles psychiatriques
chez les personnes sans logement (Kovess et Mangin-Lazarus, 1999) et près
de dix ans après la dernière enquête de l'Insee sur les sans domicile.
Par ailleurs cette étude s'inscrit dans le cadre d'une enquête nationale sur
une population et des thèmes proches menée par l'OFDT*" .

10.2 Matériel et méthodes

10.2.1 Population

En 1995, l'Institut national d'études démographiques (Ined) a mené la


première enquête sur les sans domicile parisiens (Marpsat et Firdion, 2000).
Sa méthodologie a ensuite été reprise par l'Insee dans le cadre de l'enquête
nationale réalisée auprès des personnes sans domicile en 2001 (SD2001)
(Brousse, 2006). L'Institut national de la statistique et des études
économiques (Insee) a défini la population de l'étude de la façon suivante :
« toute personne était dite sans domicile un jour donné, si elle avait dormi la
nuit précédente dans un lieu non prévu pour l'habitation ou si elle était prise
en charge par un organisme fournissant un hébergement gratuit ou à faible
participation ».
La définition de la population de l'étude Samenta reprend celle de SD2001
à des fins de comparaisons. Seule la période de référence diffère puisqu'elle a

25 Observatoire du Samusocial de Paris. Courriel : ma.detrez@samusociaI-75.fr.


26 Institut de Veille Sanitaire, département des maladies infectieuses.
27 Institut de Veille Sanitaire, département des maladies infectieuses.
28 Observatoire Français des Drogues et Toxicomanie.
126 Pratique et méthodes de sondages

été prolongée à cinq jours au lieu de la veille de l'enquête. Cette différence,


qui joue peu sur les estimations, permet de rester dans une approche
transversale de la collecte (Brousse, 2006) et de capter des personnes qui
peuvent être hébergées chez des amis ou des parents pour une nuit, mais qui
demeurent sans solution d'hébergement pérenne. Ainsi la définition de la
population de Samenta est : toute personne majeure, francophone, en état de
comprendre et de répondre et ayant, au cours des cinq jours précédents, eu
recours à un service d'hébergement ou dormi dans un lieu non prévu pour
l'habitation.
Un échantillon de 840 personnes a été constitué avec un taux de
participation de 71 %.

10.2.2 Plan de sondage

Une base de sondage de 910 services recensés dans 216 communes d'Ile de
France a été établie à partir de différentes sources. Un plan de sondage à trois
degrés, inspiré de la méthode Ined-Insee, a été mis en place. Au premier
degré, après stratification les services ont été tirés aléatoirement et
proportionnellement à leur taille. Au second degré, les jours d'enquête ont fait
l'objet d'un tirage aléatoire à partir des jours ouvrables des services. Au
troisième degré, les usagers ont été tirés de façon aléatoire soit à partir d'une
liste soit à partir d'un point de passage obligatoire dans le cas des structures
ne disposant pas de liste. L'échantillon surreprésente la population parisienne
(70 %), les femmes (50 %) et les jeunes de moins de 25 ans (25 %).

10.2.3 Analyse statistique

Les estimations prennent en compte le plan de sondage et la pondération.


Dans un premier temps les poids de sondage ont été calculés de manière
classique comme le produit de l'inverse des probabilités d'inclusion. La
méthode généralisée du partage des poids (Lavallée, 2002) a ensuite été
appliquée afin de prendre en compte la fréquentation multiple des services par
les personnes sans logement personnel. Un module a été intégré dans le
questionnaire permettant le recueil des données nécessaire à la mise en place
de cette méthode (semainier sur les cinq jours précédent l'entretien, habitudes
et comportements sur les 12 derniers mois etc.). Ainsi pour chaque enquêté, le
nombre de liens avec la base de sondage sur les cinq jours précédent
l'entretien a pu être calculé et estimé sur la période de l'enquête. L'analyse
statistique a été réalisée sous STATA 10.1®.
3. Enquêtes sociales 127

10.3 La procédure diagnostique

La procédure diagnostique dans Samenta est inspirée de celle de l'étude sur la


prévalence des troubles mentaux chez les personnes incarcérées en France
(Falissard, Loze et Gasquet, 2006).
• • f OQ • ■ ■
Pour Samenta nous avons utilisé le MINI comme outil diagnostic
standardisé, et un binôme d'enquêteurs composé d'un enquêteur professionnel
et d'un psychologue clinicien. Ce dernier observait l'interaction entre
l'enquêteur et l'enquêté pendant le déroulement du questionnaire et réalisait
ensuite un entretien clinique ouvert. Le psychologue allait débriefer
ultérieurement avec un psychiatre sous certaines conditions cliniques : avoir
au moins un trouble détecté par le MINI, avoir un MMSE {mini-mental sîate
examinatiori) dont le score était inférieur ou égal à 23 (à partir de ce score,
l'atteinte cognitive est légère), être polyconsommateur de produit psycho-
actif, avoir déjà eu au moins un recours aux soins psychiatriques et/ou selon
l'appréciation du psychologue clinicien. Ce débriefing permettait de poser ou
non un diagnostic à partir de la C1M-1030.
Un test de la procédure diagnostique, avant l'enquête principale, a confirmé
la nécessité de la présence des deux cliniciens en plus de l'outil standardisé
(MINI) pour produire des diagnostics fiables.

10.4 Quelques résultats

La somme des poids des 840 individus constitue une estimation du nombre de
personnes adultes francophones ayant fréquenté les services d'aide
franciliens, pendant une semaine moyenne de la période d'étude. Cette
estimation s'élève à 21 176 personnes avec un intervalle de confiance à 95 %
de [17 582 ; 24 770]. La proportion d'hommes est de 65 % [54 ; 74], l'âge
médian est de 37 ans avec un écart interquartile de 18 ans, la proportion de
personnes ayant la nationalité française est estimée à 46 % [39 ; 52] et 29 %
[18; 41] déclarent travailler. La prévalence des troubles psychiatriques
sévères s'élève à 31 % [25 ; 38], la prévalence des troubles de la personnalité
à 21 % [16; 27]. Les troubles non sévères de l'humeur concernent 16%
[9 ; 26] de la population et le risque suicidaire moyen et élevé 13 % [9 ; 18].
La présence d'au moins une addiction a été détectée chez 29 % [22 ; 37] de la
population, 21 % [16; 27] présentent une dépendance à l'alcool et 16%
[11; 22] consomment régulièrement du cannabis.

29 Mini International Neuropsychiatrie Interview.


30 Classification Internationale des Maladies 10e révision.
128 Pratique et méthodes de sondages

10.5 Les limites de l'étude

Cette étude ne permet pas le calcul d'estimations sur l'ensemble des


personnes sans logement en Ile-de-France mais sur la sous-population des
personnes fréquentant les services d'aide. Celle-ci peut faire l'objet d'une
sous estimation. En effet, des oublis dans le recensement des services et/ou
des erreurs dans le comptage des prestations les jours d'enquête ont pu se
produire.
Les prévalences peuvent également avoir été sous estimées. Les personnes
peuvent du fait de leur pathologie refuser de participer à l'enquête.
Concernant la prévalence des addictions, elle peut être sous-estimée comme
l'est généralement la déclaration de comportements illicites, malgré un
questionnaire totalement anonyme.

10.6 Conclusion

Malgré ces limites, l'alliance entre une méthode de sondage complexe


adaptée à la population et une méthodologie en épidémiologie psychiatrique
sophistiquée a permis d'obtenir un échantillon aléatoire diversifié et une
bonne estimation des troubles psychiatriques et des addictions. En
comparaison avec la population générale, les sans domicile sont plus touchés
par les problèmes psychiatriques, en particulier les plus sévères, c'est-à-dire
les troubles psychotiques. Concernant les addictions, la fréquence élevée de
dépendance à l'alcool est confirmée, toutefois la proportion de personnes ne
consommant jamais d'alcool est plus élevée qu'en population générale. Les
consommations élevées de drogues étaient moins fréquentes qu'attendu.
Enfin, ces premiers résultats ont déjà permis de faire un certain nombre de
recommandations aux pouvoirs publics.

BIBLIOGRAPHIE

Ardilly, P., et Le Blanc, D. (2001). Échantillonnage et pondération d'une


enquête auprès de personnes sans domicile : un exemple français.
Technique d'enquête. Vol. 27, n0l, 117-127.
Brousse, C. (2006). Définition de la population sans-domicile et choix de la
méthode d'enquête. Insee - Méthodes n0l 16, partie 1.
Falissard, B., Loze, J.-Y. et Gasquet, I. (2006). Prevalence of mental disorders
in French prisons for men. BMC Psychiatry, vol. 6, 33.
Kovess, V., et Mangin-Lazarus, C. (1999). The prevalence of psychiatrie
disorders and use of care by homeless people in Paris. Social Psychiatry
and Psychiatrie Epidemiolgy, 34, 580-587.
3. Enquêtes sociales 129

Kovess, V., et Mangin-Lazarus, C. (1999). The prevalence of psychiatrie


disorders and use of care by homeless people in Paris. Social Psychiatry
and Psychiatrie Epidemiology, vol. 34, 580-587.
Lavallée, P. (2002). Le sondage indirect, ou la Méthode généralisée du
partage des poids. Éditions de l'Université de Bruxelles, Belgique, Éditions
Ellipses, France.
Marpsat, M., et Firdion, J.-M. (2000). La rue et le foyer : une recherche sur
les sans-domicile et les mal-logés dans les années 90. Travaux et document
de Flned, n0144.

11. Enquête sur les usages de produits

psychoactifs des populations sans

domicile de France métropolitaine

31
Stanislas SPILKA , Olivier LE NEZET 32,
33
Stéphane LEGLEYE et François BECK34

11.1 Des pratiques stigmatisées mais mal


connues

Dans la continuité des enquêtes initiées par l'Institut national d'études


démographiques (Ined) et l'Institut national de la statistique et des études
économiques (Insee) sur les sans domicile, l'Observatoire Français des
Drogues et des Toxicomanies (OFDT) a monté en 2008, en partenariat avec
l'Institut National de Prévention et d'Éducation pour la Santé (INPES), une
nouvelle enquête afin d'explorer les spécificités en termes de pratiques
addictives et de comportements de santé d'une population échappant en
grande partie aux dispositifs d'enquêtes quantitatives classiques. En effet, si
les études sur les usages de substances psychoactives des personnes sans
domicile sont relativement nombreuses au niveau international, la plupart
d'entre elles, et notamment celles concernant plus particulièrement la
consommation d'alcool, présentent des prévalences pouvant varier fortement
d'une enquête à l'autre. La diversité de ces résultats reflète en grande partie
celle des populations cibles, des méthodologies employées et des indicateurs
utilisés.

31 Observatoire français des drogues et des toxicomanies. Courriel : stspi@ofdt.fr.


32 Observatoire français des drogues et des toxicomanies.
33 Institut national d'études démographiques.
34 Institut national de Prévention et d'éducation pour la santé.
130 Pratique et méthodes de sondages

En 2001, l'Insee a mis en œuvre en France la première enquête nationale


d'envergure auprès d'une population représentative de personnes sans
domicile. Si cette enquête était avant tout une tentative de quantifier une
réalité mal connue, elle s'est efforcée de faire apparaître l'importance
respective des facteurs individuels et structurels qui conduisent aux formes
d'extrême précarité, dans le but ultime d'orienter l'action des pouvoirs
publics et sociaux (Join-Lambert, 2006). Cette enquête avait en particulier
pour la première fois permis de montrer que si l'alcoolisation des personnes
sans domicile dépendait de la diversité des populations et des situations vis-à-
vis du logement, elle apparaissait globalement moindre que celle observée en
population générale du même âge. Ce résultat relativement inattendu devait
cependant être pris avec prudence compte tenu des limites des indicateurs
construits à partir des quelques questions posées mises en regard de celles
utilisées dans les enquêtes nationales en population générale (Beck, Legleye
et Spilka, 2006). En outre, l'enquête ne permettant d'étudier parallèlement les
éventuelles consommations de drogues illicites, l'étude des addictions parmi
la population sans domicile restait malgré tout particulièrement sommaire.
L'objectif de l'enquête réalisée en 2008 était donc double : le premier
consistait à expérimenter un dispositif d'interrogation des usages de drogues
licites et illicites auprès d'une population dite « sans domicile » qui garantisse
la comparabilité des estimateurs avec ceux observés en population générale.
Le second était d'établir une première mesure nationale des usages de
drogues (tabac, alcool, cannabis, cocaïne...) au sein de cette même
population.
En outre, un objectif connexe était de tester des questions spécifiques
concernant les usages de drogues afin de mieux mesurer des changements tant
en terme de produits que de mode de consommation. En effet, depuis
quelques années une population relativement jeune et marginalisée présentant
souvent des polyconsommations importantes de drogues et des modes
d'usages spécifiques partage avec la population sans abri l'espace urbain
public rendant possible une porosité des comportements de consommation de
drogues entre ces différentes populations.

11.2 Une enquête en CHRS

L'enquête mise en œuvre par l'OFDT a été menée conjointement avec


l'Observatoire du SAMU (Service d'aide médicale urgente) social qui
réalisait une enquête similaire sur la région Île-de-France (Laporte, 2010).
L'échantillon repose sur un plan de sondage à deux degrés (sélection des
centres d'hébergement, puis des individus en leur sein). Le terrain s'est
déroulé en mars-avril 2009 sur l'ensemble du territoire métropolitain parmi
une population hébergée en Centres maternels, Centres d'hébergement et de
réinsertion sociale (CHRS) et en Centres d'hébergement d'urgence (CHU)
3. Enquêtes sociales 131

garantissant ainsi une large représentation des situations parmi les personnes
sans hébergement personnel. Selon les structures, il s'agit en effet de
solutions d'hébergement plus ou moins stable : en CHRS, les personnes
peuvent être hébergées pour une durée de 6 à 12 mois, alors que dans les
centres d'hébergement d'urgence il s'agit d'un abri pour la nuit. La
population non couverte par l'enquête correspond à la fois à une partie des
personnes qui se sont installées dans une vie à la rue, en tente notamment,
ainsi qu'aux situations les plus proches de l'insertion (type salarié vivant à
l'hôtel). L'absence des individus donuant au moment de l'enquête dans des
lieux non prévus pour l'habitation (squats, lieux publics, caravanes...) est
susceptible d'avoir constitué un biais de représentativité, même si durant
l'hiver un certain nombre d'entre eux sont amenés à fréquenter les
hébergements d'urgence.
Les critères d'inclusion étaient le fait d'être majeur et francophone. Au
total, 1 954 personnes ont été interrogées par des enquêteurs professionnels au
sein de 160 centres d'hébergement répartis sur l'ensemble du territoire,
auxquels il convient d'ajouter ceux interrogés en Ile-de-France lors de
l'enquête réalisée par le SAMU de Paris à la même période. L'enquête a été
réalisée par questionnaire lors d'un entretien d'une heure en face à face, avec
un enquêteur professionnel recueillant les données sur support papier.
L'échantillonnage a été réalisé en janvier 2009, à partir de la base nationale
recensant les centres d'hébergement métropolitains. Seuls neuf centres ont
refusé de participer à l'enquête et ont été remplacés par une structure
équivalente (choix raisonné). Après avoir reçu un courrier, les structures
participantes ont été contactées par les enquêteurs afin d'organiser une
prévisite qui devait permettre l'organisation des passations. Lors de cette
première visite, les enquêteurs devaient alors déterminer à l'aide d'une table
de nombre aléatoire les personnes à interroger. Le tirage s'effectuait sur la
liste des résidents, numéro de chambre ou de lit un jour donné (le nombre de
personnes à interroger était fixé proportionnellement au nombre de personnes
inscrites sur la liste). Afin de pallier les refus, les enquêteurs devaient
sélectionner un nombre supérieur de personnes et lorsqu'une d'entre elles
refusait de répondre, elle était alors remplacée en respectant toutefois l'ordre
du tirage aléatoire.
Les tableaux 3.9 et 3.10 montrent la diversité des situations et des réalités
individuelles confirmant l'hétérogénéité des publics sans domicile. Derrière
ces situations, on retrouve des comportements d'usages tout aussi variés
interdisant les généralités. Les analyses, en cours et qui seront publiées à la
fin de l'année 2010, laissent toutefois apparaître des consommations souvent
supérieures à celles observées parmi la population générale du même âge.
Pour conclure, cette première expérience confirme l'intérêt de mener avec
des outils de mesure standardisés des études parmi une population précaire
même si certaines adaptations sont bien évidemment nécessaires. Un taux de
132 Pratique et méthodes de sondages

participation moyen de Tordre de 70 % confirme Tacceptabilité de l'enquête,


tant de la part des structures que des personnes hébergées.

Tableau 3.9 : Pourcentage d'hommes et


de femmes selon le type d'hébergement

Homme (52 %) Femme (48 %)


Centre d'hébergement et de réadaptation
69% 69%
sociale (CHRS)
Centre d'hébergement d'urgence (CHU) 31 % 10%
Centre Maternel 21 %

A
Tableau 3.10 : Age des personnes selon le sexe

Homme (52 %) Femme (48 %)

moins de 30 ans 23% 46%


30 à 49 ans 50% 46%
50 ans et plus 27% 8%

BIBLIOGRAPHIE

Beck, F., Legleye, S. et Spilka, S. (2006). L'alcoolisation des personnes sans


domicile : remise en cause d'un stéréotype. Economie et Statistique, n0391-
392,131-150.
Laporte, A. (2010). Rapport sur la santé mentale et les addictions chez les
personnes sans logement personnel d'Île-de-France. Observatoire du SAMU
social de Paris, 225 pages.
Join-Lambert, M. (2006). Une enquête d'exception. Sans-abri, sans-domicile :
des interrogations renouvelées. Économie et Statistique, n0391-392, 3-14.
3. Enquêtes sociales 133

12. De la nation au quartier, l'observation

des drogues entre approches

quantitative et qualitative

35 36
Stanislas SPILKA , Stéphane LEGLEYE et
3
François BECK '

12.1 Introduction

D'après une abondante littérature épidémiologique, les usages de drogues


apparaissent fortement liés à l'urbanité et la densité d'agglomération.
Toutefois, ces études portent principalement sur une population adulte, le plus
souvent marginalisée. Qu'en est-il de la population des adolescents habitant
les grandes métropoles ?
Pour explorer cette question, l'Observatoire Français des Drogues et des
Toxicomanies (OFDT) a mis en œuvre entre 2004 et 2008 des travaux
statistiques qui vont pour la première fois croiser un regard qualitatif et
quantitatif sur les usages de drogues. En mixant ces deux méthodes d'enquête,
l'objectif était de conjuguer deux démarches où les avantages d'une méthode
de collecte comblaient les lacunes de l'autre afin d'atteindre une meilleure
compréhension des comportements d'usages de drogues.

12.2 L'enquête quantitative

En 2004, l'OFDT a réalisé dans un premier temps en partenariat avec la ville


de Paris une enquête statistique par questionnaire autoadministré auprès d'un
échantillon représentatif de l 552 jeunes de 17-18 ans résidant à Paris intra-
muros. Il s'agissait d'étudier la distribution des usages à partir d'un
découpage de la capitale géographiquement cohérent distinguant des zones
homogènes et contrastées tant du point de vue économique et social que de
TO
celui de l'habitat . Si l'enquête a permis de parfaire la connaissance des
consommations de drogues des adolescents à Paris en montrant notamment
que leurs usages de produits psychoactifs ne se distinguaient de ceux de leurs
homologues Français du même âge, elle a surtout mis en évidence que les
comportements de consommations se différenciaient nettement selon les

35 Observatoire français des drogues et des toxicomanies. Courriel : stspi@ofdt.fr.


36 Institut national d'études démographiques.
37 Institut national de prévention et d'éducation pour la santé.
38 Ce découpage, qui a été établi à partir de la connaissance de l'arrondissement de
résidence des répondants, oppose grossièrement les arrondissements du quart sud-ouest
aux profils plus favorisés à ceux du quart nord-est aux profils plus populaires.
134 Pratique et méthodes de sondages

quartiers de résidence des jeunes interrogés. Ainsi, l'alcool, le tabac, le


cannabis, le poppers et la cocaïne étaient moins souvent consommés par les
jeunes Parisiens du nord-est que par ceux du sud-ouest. Seule l'héroïne
apparaissait légèrement plus expérimentée dans le nord-est de la capitale. La
plupart de ces résultats étaient confirmés dans des modèles multivariés
contrôlant les caractéristiques économiques et sociales des enquêtés (Beck,
Legleye et Spilka, 2005). Le quartier apparaît alors comme un marqueur qui,
s'il identifie et rapproche les jeunes qui y vivent, peut également les
distinguer voire les opposer à ceux des autres quartiers plus riches ou plus
pauvres.

12.3 Objectifs de la recherche

Les principales hypothèses invoquées pour expliquer ces disparités


géographiques reposaient sur des contrastes importants entre les jeunes des
milieux populaires et favorisés pour ce qui relève des conditions matérielles et
du registre des opinions et de la culture. Dans un deuxième temps, l'OFDT a
donc souhaité les éprouver directement en mobilisant des données qualitatives
issues d'entretiens. Cette nouvelle enquête devait permettre de questionner,
par exemple, l'hypothèse qu'une moindre consommation dans les
arrondissements les plus populaires pouvait résulter de la relative difficulté
que les jeunes ont dans ces quartiers à disposer de lieux privés de
consommation sûrs à l'abri des regards adultes et des parents (qu'il s'agisse
des bars, restaurants ou discothèques ou bien de l'impossibilité matérielle de
disposer chez soi ou chez un ami d'une chambre où se retrouver).

12.4 L'enquête qualitative

L'enquête a consisté à mener des entretiens individuels semi-directifs en face


à face qui décrivaient la situation scolaire et le mode de vie des personnes,
leurs rapports aux produits, leurs réseaux sociaux et le rôle que ces derniers
jouent dans les consommations de produits psychoactifs.
Compte tenu des objectifs, les critères d'inclusion combinaient des
exigences d'arrondissement de résidence et de milieu social. Ainsi, les jeunes
interrogés, dont la moyenne d'âge était de 17 ans V2, résidaient d'une part
dans le XVIe arrondissement (couvrant la plus grande partie du sud-ouest
parisien qui correspondait à une des quatre zones distinguée lors de l'étude
quantitative) et, d'autre part, dans la zone nord-est couvrant les
arrondissements du (XVIIIe, XIXe et XXe). Tous les jeunes interrogés ont été
questionnés dans des lieux où l'anonymat et la confidentialité ne pouvaient
être mis en péril. Le recrutement s'est fait à proximité ou à la sortie des
établissements scolaires, dans les espaces publics ou dans des cafés. Les
entretiens se sont déroulés entre les mois de mars et juin et les mois de
3. Enquêtes sociales 135

novembre et décembre 2008. Au total, 51 entretiens d'une heure environ ont


été réalisés auprès de 80 adolescents. Par construction de l'échantillon, les
contrastes apparaissent très nets entre les deux groupes d'adolescents qui
étaient chacun relativement homogène. Les 50 jeunes qui vivaient dans les
arrondissements du nord-est de la capitale appartenaient clairement à un
milieu social modeste, voire défavorisé (leurs parents étaient agents d'entretien,
nourrices, bagagistes, etc., ou encore sans activité professionnelle). Les 30
adolescents rencontrés dans le 16e arrondissement étaient issus d'un milieu
très favorisé. Par ailleurs, les adolescents des deux groupes se distinguaient
par leur parcours scolaire, les premiers suivaient des études professionnelles
courtes et avaient souvent connu des échecs scolaires, alors que les seconds
suivaient des études générales et se destinaient à faire des études supérieures.
Enfin, si les adolescents des « beaux quartiers » ont généralement accepté de
se livrer facilement lors de l'entretien, ceux des quartiers plus populaires se
sont montrés davantage hésitants parfois méfiants, préférant souvent faire les
entretiens à deux. Les degrés de confiance en soi, dans l'avenir et dans les
institutions et le dispositif d'enquête étaient à l'avenant. 11 est vraisemblable
que ce dernier trait distinctif s'exprime également lors de l'enquête par
questionnaire autoadministré sans qu'il soit possible pour l'instant d'en
préciser l'impact.

12.5 Conclusion

Si les entretiens ont conforté la plupart des hypothèses formulées pour


comprendre les différences de consommation entre le sud-ouest et nord-est
parisien, ils en ont déplacé toutefois un peu la portée ou le propos, ce qui en
retour a ouvert de nouveaux angles de compréhension.
Retenons, par exemple, les différences de perception des risques encourus.
Dans un premier temps, les discours tenus par les adolescents apparaissent
relativement homogènes, s'agissant notamment du consensus fort sur les
produits les plus dangereux comme l'héroïne. Cependant, les opinions se
révèlent au final nettement plus clivées et les raisons « d'avoir peur »
constituent une véritable ligne de partage entre les adolescents des
arrondissements du sud-ouest et ceux du nord-est. L'expérimentation ou
l'usage occasionnel de drogues illicites sont perçus par les adolescents du
quart nord-est comme très risqués alors que pour les adolescents du quart sud-
ouest, ces pratiques sont vécues comme ponctuelles, hédonistes et devant
cesser de manière naturelle avec l'entrée dans la vie adulte, synonyme de
carrière professionnelle et de vie familiale. Cette projection structure et
légitime l'usage dans le présent. Dans le discours des adolescents du nord-est
parisien, la consommation de drogue s'inscrit dans une tout autre perspective.
Considérant la première prise comme fatale (hors celle de cannabis), ils
appréhendent l'usage de drogues « dures » qui pour eux est invariablement
136 Pratique et méthodes de sondages

suivi de l'apparition d'une dépendance. Or, si la dépendance et la


consommation compulsive qui l'accompagne leur apparaissent dangereuses,
ce n'est pas tant pour ses conséquences en matière de santé que par les risques
financiers qu'elle fait encourir, estimant ne pas disposer des ressources
nécessaires pour y pourvoir. Une telle représentation est totalement absente
des discours des jeunes rencontrés dans le quart sud-ouest : sans nier les
dangers, ces derniers apparaissent persuadés de pouvoir contrôler leurs
expériences et leurs consommations. Leur entourage familial et leurs pairs -
comme la nécessité d'assumer leurs responsabilités scolaires pour réussir leur
vie future - constituent, selon eux, des éléments de contrôle suffisants. Un
autre enseignement majeur peut être noté concernant l'importance des réseaux
sociaux dans la structuration des usages. En effet, les réseaux sociaux
apparaissent formidablement antagonistes : denses, rassurants et valorisant les
expérimentations pour les jeunes du quart sud-ouest, ils apparaissent à
l'inverse pour ceux du nord-est très clairsemés et inhibiteurs de ces
expériences perçues comme dangereuses. Si le rôle des pairs s'était révélé
rapidement comme un facteur associé aux usages, les entretiens ont montré
que ce n'est pas tant la densité du réseau social qui importe que la nature des
liens qui unissent les membres. A l'homogénéité rassurante de l'entre-soi
bourgeois s'opposent des groupes étendus et plus hétérogènes, comprenant
des amis, la fratrie, des connaissances, mais aussi de simples relations de
quartier, composant des ensembles moins solides et plus variables aux
relations apparemment moins fermes.
Ces quelques enseignements illustrent bien l'intérêt d'inscrire l'observation
des usages de produits psychoactifs dans leur contexte écologique. Les zones
étudiées, si elles correspondent à des profils socioéconomiques spécifiques, se
superposent également à des modes de vie, des perceptions sur les drogues ou
encore des réseaux sociaux qui organisent les usages de drogues.
Bien sûr, les motifs d'usage qui ressortent des entretiens n'épuisent pas
l'ensemble des motivations de comportements d'usages. D'autres entretiens
auprès de sous-populations différentes feraient immanquablement émerger
d'autres éléments de compréhension. Toutefois, les perspectives qu'offrent
ces travaux vont permettre de renouveler les questionnements dans les
enquêtes par questionnaire et favoriser la prise en compte d'éléments
nouveaux pour la mise en œuvre de politiques de prévention.

BIBLIOGRAPHIE

Beck, F., Legleye, S. et Spilka, S. (2005). Les usages de drogues des


adolescents parisiens. Saint-Denis, OFDT, 101 pages.
Spilka, S., Tribess, A., Le Nézet, O., Beck, F. et Legleye, S. (2010). Les
usages de drogues des adolescents parisiens - Étude qualitative. Mairie de
Paris, 96 pages.
3. Enquêtes sociales 137

Pinçon, M., et Pinçon-Chariot, M. (2004). Sociologie de Paris. Lci


Découverte, Coll. Repère, 121 pages.

13. Observatoire urbain de population : le

cas de Ouagadougou

Idrissa OUILI39

13.1 Introduction

L'institut Supérieur des Sciences de la Population de l'Université de


Ouagadougou a mis en place en 2008 un Observatoire de la Population de
Ouagadougou (OPO) dont l'objectif est de créer un système de surveillance
sanitaire et démographique et d'utiliser ces données pour décrire et expliquer
les disparités sanitaires sociales et spatiales de la ville.
Nous nous proposons à travers ce papier, de présenter le principe du
système de surveillance démographique de Ouagadougou, la méthodologie du
choix des zones à suivre, la méthode de collecte de données.

13.1.1 Le principe des Systèmes de Surveillance


Démographique

Les observatoires de population ont connu un grand développement depuis les


années 80 surtout en Afrique dans le but de palier au manque de statistiques
sanitaire fiables et régulièrement mises à jour. Le Système de Surveillance
Démographique (SSD) est la pièce maîtresse d'un observatoire de population.
C'est un système de collecte de données démographiques où l'on suit pendant
une longue durée la population étudiée. Les SSD suivent une zone bien
précise, et, en général les résultats ne sont valables que pour la zone suivie.
Cependant, ils permettent de comprendre les grandes tendances
démographiques et contribuent considérablement à l'amélioration des
connaissances scientifiques sur plusieurs thématiques dont la santé. Ce
système commence par un recensement de base au passage tQ suivi d'une
mise à jour régulière des informations sur les individus, ménages et
habitations aux passages .
En permettant de disposer d'une plateforme de recherche, le SSD est ainsi
le socle des études qui visent à mesurer l'évolution d'un phénomène ou l'effet
d'une intervention sur une population car elle fournit des données très
précises tant sur la population exposée (notamment l'effectif de la population

39 Ingénieur de recherche ; Institut Supérieur des Sciences de la Population (ISSP)


Université de Ouagadougou (BF). Courriel : iouili@issp.bf ; ouilidriss@hotmail.com.
138 Pratique et méthodes de sondages

suivie exprimé en personnes-jours) que sur le phénomène lui-même. L'OPO


est bâtit sur ce système.

Figure 3.4 : Schéma du principe de base d'un SSD

SORTIES Décès Emigration

Recensement
Cohorte dynamique (Mise à jour par des passages périodiques)
de base

ENTREES Naissances Immigration

13.1.2 Le choix des zones de surveillance

Pour répondre à notre objectif, il convient d'adopter une stratégie qui permet
de fournir des résultats utiles tout en respectant la logique d'un observatoire
qui veut que l'on suive une zone bien précise. Pour fournir des résultats utiles,
deux stratégies possibles s'offraient à nous.
La première consistait à travailler sur des populations vulnérables, et tester
des interventions sanitaires sur ces populations. Quant à la deuxième, elle
visait à fournir aux décideurs des indicateurs à l'échelle de la ville pour les
guider dans la hiérarchisation des politiques sanitaires.
La deuxième stratégie qui vise une représentativité de la ville entière,
suggère un échantillon aléatoire. Si elle est adaptée pour les enquêtes
ponctuelles, elle l'est moins pour un suivi démographique dans un milieu
urbain caractérisé par une forte mobilité. En plus, avoir des résultats
régulièrement mis à jour sur toute la ville de Ouagadougou qui compte un
million quatre cent mille habitants semble être idéaliste en raison de coûts
énormes que cela peut engendrer.
Nous avons donc privilégié la première stratégie qui permet de mettre
l'accent sur les acteurs qui travaillent au sein de la population et qui voudront
faire une intervention pouvant améliorer les conditions sanitaires des
populations vulnérables.
Pour concrétiser le choix des zones à suivre, trois critères ont été définis. Le
premier critère met l'accent sur la possibilité de pouvoir réaliser des
interventions dans la zone et mesurer leur impact. Pour cela, il faudra au
minimum deux grandes zones non contigûes et comparables sur le plan
sociodémographique. Ensuite, pour que les interventions puissent être
bénéfiques et visibles, il faut travailler avec des populations vulnérables et
moins mobiles. Les populations les plus vulnérables se rencontrent dans les
zones périphériques de la ville. Enfin, la taille de l'échantillon a été choisie de
3. Enquêtes sociales 139

sorte à pouvoir estimer les causes de la mortalité des enfants. Elle a été
estimée à environ 80 000 individus.

13.1.3 La technique de collecte des données

Un observatoire de population engendre des coûts énormes, relatifs à la


collecte des données. Il faut donc trouver un moyen de réduire les dépenses
liées à la collecte tout en gardant des données de qualité.
Le développement des nouvelles technologies de l'information offre cette
possibilité. En effet avec l'apparition des PDA (Personal Digital Assistant), il
est possible de réduire considérablement le coût de la collecte des données
tout en améliorant leur qualité. Parmi les différents types existants, nous
avons choisi pour notre collecte les Pocket PC (PPC).
La collecte dans un SSD débute avec un recensement de base. Une fois ce
recensement effectué, la collecte de routine (chaque 6 mois dans le cas de
l'OPO) consiste à mettre régulièrement à jour les informations sur les
individus, les ménages et leurs habitations.

Figure 3.5 : Schéma de collecte des données avec le Pocket PC

Tclpcliai geinpiil des


données (Fm)
Server vers PPC

( oueUion d'eneius
Entretien siu le terra m

iransfert periodiqur PPC vers seiver

Base de
données
<< lu oui lion »

, Transi
Transfert Base brouillon vers base d analyse

Base «le
données
d'analyse

La mise à jour des données du passage t commence par un téléchargement


des informations de base du passage / -1, permettant d'identifier les
ménages et individus sur le terrain.
140 Pratique et méthodes de sondages

Chaque enquêteur se rend dans les ménages qui lui sont attribués et procède
à la mise à jour des informations sur les individus, les ménages et leurs
habitations. Un premier contrôle est réalisé à ce niveau à travers les filtres et
autres contrôles de cohérence sur les modules des questionnaires. Lors ces
entretiens, des incohérences peuvent apparaître entre les données collectées au
passage r - 1 et le passage en cours entraînant des corrections.
Une fois les données collectées, il faut les transférer des PPC vers le server.
Ce transfert se fait en deux étapes.
Tout d'abord, les données collectées sont quotidiennement transférées du
PPC vers une première base de données qu'on appelle base « brouillon »
(base en production) via internet. Une fois par semaine et à la fin de la
collecte des données pour ce passage, une validation de cette base
« brouillon » est réalisée. Ces validations permettent de détecter des
incohérences et erreurs qui sont soit corrigées sur place ou sur le terrain sous
forme de « Retour Terrain » (RT). Après la dernière validation des données de
la base « brouillon » à la fin du passage, ces données sont transférées vers la
base d'analyse, grâce à une application informatique. À l'issue de ce transfert,
une validation finale est effectuée sur l'ensemble des données de la base
d'analyse (données de tous les passages y compris le passage en cours). A
cette validation, un contrôle d'intégrité de la base est réalisé. Cela peut à son
tour entrainer des corrections d'erreur sur place ou par des retours terrain.
C'est après correction des erreurs issues de cette validation finale que la base
peut enfin être mise à la disposition des chercheurs pour exploitation.
Cette technique permet d'alléger la collecte de données des observatoires de
population, améliore la qualité des données par l'intégration des contrôles à
plusieurs niveaux de la collecte, rend les données disponibles plus rapidement
et surtout réduit considérablement le coût de la collecte.

13.2 Conclusion

Avec un choix judicieux de la zone et une technique de collecte adaptée, on


peut réaliser un observatoire urbain. Dans l'OPO, avec la possibilité
d'identifier les individus déjà suivis par le système, le PPC permet de
résoudre le problème commun des observatoires qui est la mesure de la
migration interne. L'utilisation friture de la biométrie permettra plusieurs
autres applications liées à l'amélioration de la qualité des données.

BIBLIOGRAPHIE

African Population and Health Research Center (APHRC) (2000). Population


and health dynamics in Nairobi's informai settlements. Report of the
Nairobi cross-secîional slums survey (NCSS).
3. Enquêtes sociales 141

Indepth (2008). Indepth resource Kit for Démographie Surveillance System.


UERD (2005). Observatoire de la population à Ouagadougou. Rapport
d'évaluation de la phase pilote.

14. Décliner nationalement un projet

d'enquête internationale : l'expérience

des enquêtes Genderand Génération

en France, Russie et Géorgie

40
Cécile LEFÈVRE

14.1 Le programme d'enquêtes comparatives


Gender and Génération

La comparaison de données chiffrées devrait idéalement conduire à


s'interroger sur la comparabilité des conditions de production de ces données.
A l'occasion d'un programme d'enquêtes précis, celui des enquêtes GGS
{Gender and Génération Surveys), et de leur réalisation dans trois pays, la
France, la Russie et la Géorgie, cet article propose de revenir sur cette
question de la comparabilité des données d'enquêtes sociodémographiques,
en se situant à la croisée des problématiques de méthodologie d'enquêtes et de
comparaisons internationales.
Le programme d'enquêtes GGS a été lancé en 2000 par la Population
Activités Unit (PAU) des Nations Unies. Il s'agit d'un programme d'enquêtes
internationales centrées sur la description et l'explication des évolutions de la
famille, en privilégiant deux grands axes d'étude : les relations de genre et les
relations entre générations. Deux autres dimensions susceptibles de jouer un
rôle déterminant dans les comportements démographiques sont prises en
compte dans le questionnement : la dimension subjective (normes, intentions,
attitudes et valeurs) et la dimension économique (activité, revenus). Autre
nouveauté, l'approche longitudinale, avec trois passages, à intervalle de
trois ans et la mise en place parallèlement d'une base de données
contextuelles. Tous les pays participant à ce programme se sont engagés à
faire passer un questionnaire le plus proche possible du questionnaire initial
{core questionnaire), et ce, suivant une méthodologie la plus comparable
possible. Mais les questions et les problématiques sous-jacentes à ces

40 Administrateur de l'Institut national de la statistique et des études économiques (Insee),


Chercheur associé à l'Institut national d'études démographiques (Ined).
Courriel : lefevre@ined.fr.
142 Pratique et méthodes de sondages

questions ne prennent pas le même sens dans tous les pays. Et la gestion du
terrain peut également prendre des formes variées.
Nous avons étudié la manière dont trois pays, la Russie en 2004 et 2007, la
France en 2005 et 2008, et la Géorgie en 2006 et 2009, ont réalisé les deux
premières vagues de cette enquête. Comment ont-ils adapté le questionnaire
standard ? Ont-ils eu des soucis de traduction ? Ont-ils rencontré des
difficultés communes ou spécifiques sur le terrain ? L'enquête répondait-elle
à des préoccupations scientifiques similaires ? Avec la réalisation de la
seconde vague, la comparabilité des méthodes et des résultats est de plus
réinterrogée par les différences de mise en oeuvre des dimensions
longitudinales de l'enquête.
La déclinaison nationale d'un projet d'enquête tel que GGS s'est traduite
dans la méthode de sondage et procédure de collecte d'une part, et dans le
contenu et la formulation du questionnaire d'autre part. Pour les trois pays
retenus, nous envisageons ce double aspect.

14.2 La mise en œuvre : échantillonnage et


collecte sur le terrain sous contraintes
nationales

Le tableau 3.11 synthétise de manière comparative les différentes manières de


mise en œuvre de la première vague des enquêtes GGS. Les trois pays ont
suivi la principale consigne édictée au niveau international : interroger 10 000
(au moins) femmes et hommes âgés de 18 à 79 ans. Dans les trois pays
également, la responsabilité scientifique de l'enquête revient à un institut de
recherche spécialisé dans les questions de population et/ou de politique
sociale. Pour les autres aspects de la mise en œuvre sur le terrain, chaque pays
a utilisé ses ressources dans des cadres nationaux différents. En France,
l'enquête a été réalisée conjointement entre l'Institut national d'études
démographiques (Ined) et l'Institut national de la statistique et des études
économiques (Insee), et les entretiens ont donc été réalisés sous CAPI
(collecte assistée par informatique) par les enquêteurs de l'Insee. Ceci
explique en partie la durée plus courte des entretiens. En Russie, la collecte
sur le terrain a été sous-traitée. En Géorgie, le centre de recherche sur la
population a choisi de recruter et former lui-même ses enquêteurs. En France,
le partenariat et le cofïnancement ont été importants (huit partenaires), mais
sont restés dans le cadre français et public. En Russie, les deux principaux
partenaires financiers ont été le Fonds de pension russe d'une part, intéressé
par des questions additionnelles sur les retraites, et l'Institut de recherche
allemand Max Planck de Rostock. La Géorgie s'est tournée vers F Ined pour
un soutien scientifique et financier, et également au Fonds des Nations Unies
pour la Population (FNUAP). Les taux de réponse sont dans les trois pays
3. Enquêtes sociales 143

satisfaisants : très bons en Géorgie, bons pour une enquête ménage en France,
ainsi qu'en Russie, à la nuance près de grandes variations entre grandes villes
et campagne.

Tableau 3.11 : Réalisation des enquêtes GGS


rre vague en France, Russie, et Géorgie
France Russie Géorgie
Titre de l'enquête Etude des relations Parents et enfants, Relations familiales et
familiales et hommes et femmes, soutien
intergénérationnelles dans la famille et la intergénérationnel
société
Taille de 10 079 11 260 10 000
l'échantillon (18-79 ans) (18-79 ans) (18-79 ans)
Période de Automne 2005 Eté 2004 Printemps 2006
collecte
Organisme Ined en collaboration Institut indépendant de Centre géorgien de
responsable avec l'Insee politique sociale recherche sur la
population (GCPR)
Réalisation sur le Réseau des Sous-traitance à un Enquêteurs formés par
terrain enquêteurs de l'Insee institut de sondage le GCPR
Mode de collecte Collecte assistée par Questionnaire papier Questionnaire papier (en
informatique (CAPI) 525 enquêteurs géorgien ou en russe)
560 enquêteurs 130 enquêteurs
Partenariat et National et public National (Institut de National (Institut de
financement (ministères, caisses recherche, Fonds de statistique) et
d'assurance retraite russe) et international (Ined,
sociale...) international (Institut France et FNUAP)
Max Planck de Rostock,
Allemagne)
Durée moyenne 65 minutes 1,5 à 2 heures 1,5 à 2 heures
de l'entretien
Taux de réponse 70% Très variable : de 15 % à 85%
Moscou à 90 % en zone
rurale

14.3 L'adaptation du questionnaire

Les trois pays ont également joué le jeu de la comparabilité concernant le


questionnaire. Ils ont tous respecté l'architecture du core questionnaire défini
au niveau du groupe de travail international4' et conservé une très grande
majorité des questions prévues. Cependant, un certain nombre de

41 Sur la coordination du projet ; http://www.unece.org/ead/pau/ggp. Et UNECE, 2005,


Générations and gender Survey. Survey instruments, New York and Genova, United
nations.
144 Pratique et méthodes de sondages

modifications ont dû être réalisées. On peut distinguer les adaptations


communes aux trois pays des modifications spécifiques et nationales.
Les trois pays ont été confrontés au même problème de titre : « genre et
génération » n'était pas compris dans le langage commun par les enquêtés.
Chacun a donc développé une périphrase, assez proche en France et en
Géorgie. Les trois pays ont eu la même difficulté à traduire le terme
« partner » anglais du questionnaire de base, et ont également développé une
périphrase. La traduction et les tests dans les trois pays ont donc révélé
comment quelques questions formulées en anglais et de manière abstraite
pouvaient être mal comprises sur le terrain, quel que soit le pays concerné,
mais ces pays n'ont pas toujours tranché ensuite de la même manière.
Par ailleurs, ces trois pays, ayant une culture et une histoire économique,
sociale et politique bien différentes, ont rencontré des difficultés spécifiques.
Deux exemples l'illustrent bien. Les questions sur la situation professionnelle
ne tenaient pas compte des spécificités des marchés du travail russe et
géorgien (où de nombreux retraités travaillent, où avoir un second emploi est
fréquent). La notion de ménage qui semblait initialement univoque ne renvoie
pas non plus aux mêmes réalités : la cohabitation de plusieurs générations
dans le même logement étant beaucoup plus fréquente en Russie et a fortiori
en Géorgie qu'en France, les questions sur l'aide au sein du ménage et sur les
solidarités familiales ont alors un sens un peu différent.
Enfin chaque équipe nationale souhait développer plus avant certains
thèmes, pour des raisons de recherche, de politique publique, ou encore de
partenariat : par exemple, en Géorgie la question des avortements sélectifs
entre filles et garçons ; en Russie, les questions d'opinions sur le système de
retraite ; en France, celle de la fécondité médicalement assistée.
Ainsi, même avec un souci de rester fidèle au questionnaire de référence, un
ensemble de raisons conduisent à des nécessaires aménagements (suppression
de questions, modification de filtres, reformulation d'items ou encore l'ajout
de questions). Les chercheurs qui se lancent dans des études comparées
doivent bien connaître, repérer et comprendre ces écarts par rapport au core
Questionnaire, qui constituent en eux-mêmes une source d'information riche
et utile. Il est important, pour progresser dans le domaine des comparaisons
internationales, non seulement de produire des données proches, mais aussi de
documenter au mieux la manière dont ont été réalisées les enquêtes.

BIBLIOGRAPHIE

Blum, A., Lefèvre, C. et Sebille, P. (Dir.) (2009). La famille d'Est en Ouest,


Comparaisons internationales à partir des enquêtes GGS. Revue d'études
Comparatives Est-Ouest, vol. 40, n03-4.
Régnier-Loilier, A. (Dir.) (2009). Portraits de famille. Collection Grandes
Enquêtes, Ined.
3. Enquêtes sociales 145

15. Échantillon aléatoire ou par quotas :

bilan tiré de l'enquête EVS 2008 en

France

Pierre BRÉCHON42

Le dispositif mis en place pour la partie française de l'European Values


Survey (EVS) en 200843 permet de tester la qualité comparée d'un
échantillonnage aléatoire ou par quotas, constituant ainsi une expérimentation
originale. Il était prévu 3 000 entretiens réalisés par l'institut de sondages
Lavialle (ISL), la moitié en aléatoire, la moitié par quotas. Estimant qu'un bon
échantillon de sondages repose assez largement sur une forte dispersion
géographique, il fut décidé de limiter le nombre d'entretiens à six par zone et
donc de sélectionner aléatoirement 250 communes44 (ou arrondissements pour
Paris, Lyon et Marseille) pour chaque sous-échantillon.
Ne pouvant disposer d'une bonne liste de population pour tirer des adresses
de ménages, les l 500 entretiens aléatoires ont été sélectionnés selon la
méthode des itinéraires (random route), en constituant une liste de 3 750
adresses de logements par relevé de noms sur les boites aux lettres lors d'un
premier passage d'enquêteur45, avant qu'un second ne vienne réaliser
l'entretien avec une personne du ménage sélectionnée selon la méthode Kish.
Le ratio entre adresses disponibles (3 750) et entretiens attendus (l 500) était
donc de 2,5, correspondant à un taux minimal de réussite de 40 %46. Mais
l'objectif était de faire nettement mieux. Pour cela, cinq visites au domicile, à
des moments différents de la journée et de la semaine, étaient prévues (au
moins une le week-end et une en soirée).
Les 1 500 autres entretiens ont été réalisés selon une méthode dite par
« quotas renforcés » comportant un quota croisé entre sexe et âge (en quatre
catégories), la profession du chef de ménage (actuelle ou dernière exercée en
six groupes socioprofessionnels), le diplôme en cinq niveaux. L'introduction

42 Professeur de science politique, chercheur à PACTE (IEP Grenoble/CNRS, France),


président d'ARVAL, Association pur la recherche sur les systèmes de valeurs.
Courriel : pierre.brechon@iep-grenoble.fr.
43 Les résultats ont été publiés dans Bréchon et Tchernia (2009) et Bréchon et Galland
(2010).
44 Selon une matrice par région et taille d'agglomération, au prorata de sa part dans la
population française métropolitaine de 18 ans et plus, soit 500 zones géographiques de
recueil au total.
45 Respectant un itinéraire à partir de quatre adresses de départ dans la commune et une
méthode de sélection des noms sur les boîtes aux lettres dans les immeubles.
46 Calculé sur le nombre d'adresses sélectionnées, correspondant en principe à des
logements occupés. Mais certains logements se trouvent de fait inoccupés.
146 Pratique et méthodes de sondages

de ce dernier critère pour établir un modèle réduit de la population alourdit


nettement les contraintes de l'enquêteur, mais assure une bien meilleure
représentativité des échantillons, comme on pourra le vérifier par la suite.

15.1 La réalisation du terrain, de mai à août 2008

On découvrit assez vite que la réalisation de la partie aléatoire était lente, du


fait de la difficulté à obtenir les entretiens et du nombre exigé de visites. Dans
certaines zones, il fallut inclure une ou deux adresses supplémentaires pour
pouvoir arriver aux l 500 entretiens attendus. Le tableau 3.12 présente le
bilan. 3 993 adresses ont été utilisées. Un contact n'a pu être établi qu'avec
74 % des adresses, certains logements pouvant être vacants et d'autres ne
connaître qu'une présence très intermittente de leurs occupants. Le contact
avec l'individu aléatoirement sélectionné a, de fait, été établi pour 49 % des
ménages. Du fait du refus de certains individus choisis, le taux de succès par
rapport à la liste de population représentative n'est finalement que de 37,6 %,
ce qui est faible. Sur les personnes sélectionnées, le taux de succès est bien
sûr bien meilleur (76,8 % acceptent) et peut même être considéré comme bon,
par rapport à tout ce qu'on sait des attitudes croissantes de refus de réponse
aux enquêtes. L'essentiel du problème réside en fait dans la difficulté à établir
le contact avec certains ménages et individus aléatoirement choisis.

Tableau 3.12 : Taux de succès de l'échantillon aléatoire


Adresses % sur les % sur les % d'acceptation par la
exploitées 3 993 adresses contacts avec le personne sélectionnée
ménage
Contacts établis
avec le ménage 2 952 74
Contacts avec
l'individu choisi 1 952 49 66,1
Entretiens réalisés 1 501 37,6 50,1 76,8

De plus, le suivi sociodémographique de la constitution de l'échantillon


faisait apparaître début juillet un sensible manque de jeunes de 18 à 29 ans
(dû uniquement à l'échantillon aléatoire). Le déficit de jeunes était pour nous
problématique, voulant disposer d'un échantillon d'au moins 600 personnes
de 18-29 ans pour étudier les valeurs des jeunes Français. Nous avons donc
décidé d'inclure un échantillon complémentaire par quotas de 70 jeunes de
18-29 ans, pour corriger le manque de jeunes dans la partie aléatoire de
l'échantillon.
3. Enquêtes sociales 147

15.2 Comparaison infrastructurelle

L'échantillon aléatoire se révèle un peu trop féminin (2,4 points d'excédent)


et un peu trop âgé (excès de 3,7 de 60 ans et plus, déficit de 3,5 de 18-29 ans).
L'échantillon par quotas est beaucoup plus proche des chiffres recherchés.
Concernant les groupes socioprofessionnels, les deux ensembles comportent
des écarts, mais relativement limités : le manque le plus important concerne
les professions indépendantes, fortement sous représentées. Cette catégorie,
aux horaires professionnels chargés, répond difficilement aux enquêtes, et la
longueur du questionnaire (une heure) est probablement assez rédhibitoire
pour elle. On note par ailleurs un excès de 4,7 points de professions
intermédiaires dans l'échantillon aléatoire. Enfin, il manque d'individus
faiblement scolarisés et il y a trop d'études universitaires, tout spécialement
dans la partie aléatoire : l'excès y est de 7,8 points pour seulement 3,4
d'excédent de diplômes supérieurs au bac dans la partie par quotas.
L'échantillon par quotas apparaît jusque-là plutôt de meilleure qualité, ce
qui est normal puisqu'il s'agissait des critères contrôlés. Mais la déficience de
l'aléatoire s'accroît lorsqu'on considère d'autres variables socioculturelles.
On observe tout d'abord un excédent de ruraux et un déficit d'habitants des
grandes villes dans l'échantillon aléatoire. Ceci est confirmé par la région de
résidence : la région parisienne (au sens des zones d'études et d'aménagement
du territoire, ZEAT) ne représente que 13,3 % de l'échantillon aléatoire, mais
18,9% de l'échantillon par quotas. Si la distribution régionale a bien été
respectée dans la partie par quotas, elle ne put l'être pour la partie aléatoire.
La réalisation du nombre d'entretiens désiré n'a été possible qu'en
compensant les manques des régions parisienne et méditerranéenne par des
excédants dans le Sud Ouest, le Sud Est, le Bassin parisien Ouest et l'Ouest. 11
semble en fait très difficile de réunir (dans un temps raisonnable, ici quatre
mois) les entretiens prévus dans des grandes villes où les gens sont peu
présents à leur domicile. Dans les zones rurales ou semi-urbaines,
l'échantillonnage aléatoire a un bien meilleur rendement.
L'écart observé le plus important porte sur le niveau de revenu du ménage
(10,1 points entre les deux sous-ensembles, l'aléatoire étant plus riche,
comme il est plus diplômé). Notons enfin un écart sensible (7,8 points) pour
les appartenances associatives : selon l'échantillon aléatoire, les Français sont
plus associatifs que selon l'échantillon par quotas.

15.3 Comparaison superstructurelle

Ces différences infrastructurelles sensibles n'ont en fait que des effets limités
sur les opinions et les valeurs, ce qui est au fond peu étonnant puisque les
relations entre valeurs et variables infrastructurelles ne sont souvent que
d'intensité faible ou moyenne. Une comparaison systématique montre que,
148 Pratique et méthodes de sondages

même sans pondération, les écarts sont en général faibles entre les deux sous-
échantillons. Les écarts les plus importants (sur une dizaine de variables)
atteignent entre 4 et 6 points. L'échantillon par quotas apparaît un peu plus
critique (personnes plus insatisfaites de leur travail, plus critiques à l'égard du
fonctionnement démocratique, faisant une moindre confiance au parlement et
au gouvernement), il est aussi plus matérialiste, plus attaché à la permissivité
et aux libertés des comportements et des choix individuels. Le phénomène
s'explique assez bien par le caractère plus jeune et plus urbain de l'échantillon
par quotas.
L'échantillon par quotas est aussi un peu moins sociable, moins politisé,
plus abstentionniste, ce qui va contre l'idée parfois soutenue selon laquelle
l'échantillon par quotas surreprésente les personnes extraverties, sociables,
ayant envie de s'exprimer47. De plus, si cette hypothèse était vérifiée, on
devrait observer des taux de sans-réponse moins élevés dans l'échantillon par
quotas. Or les écarts sont en la matière très faibles. L'hypothèse n'est donc
pas vérifiée sur cet échantillon par quotas renforcés, avec contrôle du niveau
de diplôme. C'est plutôt l'inverse qui s'est produit dans notre cas : plus
diplômé, l'échantillon aléatoire est plus sophistiqué et participatif, il manque
- encore plus que l'échantillon par quotas - de minorités défavorisées, par
exemple des étrangers (4,6 par quotas, 2,7 en aléatoire).
Le problème redoutable expérimenté pendant la réalisation du terrain a donc
bien été de réussir à limiter les problèmes de l'échantillon aléatoire, alors que
la réalisation du plan d'échantillonnage par quotas s'est révélée sans surprise,
et donnant un échantillon plutôt meilleur, à moindre coût. Heureusement, ces
faiblesses ne semblent pas avoir d'effets importants sur les réponses dans les
différents domaines de valeurs au centre de l'étude. La proximité globale des
réponses obtenues dans les deux échantillons permet de conclure qu'il est
parfaitement légitime, en utilisant une pondération qui fait disparaître une
partie des différences brutes, de considérer l'échantillon comme un ensemble
unique.
L'échantillon aléatoire est certainement une bonne pratique lorsqu'on peut
disposer d'une très bonne liste de population et pour des échantillons de taille
importante. Le pis-aller du random route est largement un leurre. La méthode
est très coûteuse pour un résultat décevant. L'échantillonnage par quotas,
pratiqué sur un nombre suffisant de critères et avec un contrôle très strict des
enquêteurs, se révèle un très bon mode d'administration.

47 En cas de refus d'un enquêté potentiel, l'enquêteur par quotas passerait très vite à la
porte voisine. Alors que l'enquêteur aléatoire devrait insister fortement puisqu'il a peu
d'adresses en réserve et que le taux de réussite est contrôlé.
3. Enquêtes sociales 149

BIBLIOGRAPHIE

Bréchon, P., et Tchemia, J.-F. (Dir.) (2009). La France à travers ses valeurs,
Armand Colin.
Bréchon, P., et Galland, O. (Dir.) (2010). L'individualisation des valeurs,
Armand Colin.

16. Les principales étapes d'une enquête

auprès des ménages à l'Insee

Pascale PIETRI48 et Françoise YAOUANCQ49

16.1 Les trois grands rendez-vous institutionnels

De l'expression des besoins à l'enquête sur le terrain, en passant par les


grands rendez-vous institutionnels, la réalisation d'une enquête auprès des
ménages exige une méthodologie rigoureuse. Il y a quelques années, une
nouvelle organisation a été mise en place à l'Institut national de la statistique
et des études économiques (Insee) afin de rationaliser le processus de
production de ces enquêtes.
Tout d'abord, une enquête même périodique fait l'objet d'une expression
des besoins. L'expression des besoins est rédigée par le maître d'ouvrage de
l'enquête, soumise au comité des investissements de l'Insee. Il s'agit de faire
une première description et évaluation des besoins et du coût total de
l'opération. En général, le chef de projet en organisation statistique (CPOS)
est désigné après que le comité des investissements a rendu son avis.
L'inauguration du projet s'accompagne en général d'un séminaire de
lancement qui réunit tous les acteurs. Ce moment important permet de
recenser les particularités de l'enquête, les risques potentiels, de brosser le
calendrier de l'opération. On y dispose d'une première version du Core (cadre
organisationnel de réalisation d'enquêtes). Dès lors les opérations concrètes
commencent : il s'agit des tests qui accompagnent les grands rendez-vous
institutionnels.

16.1.1 Le Cnis délivre l'avis d'opportunité

L'enquête est d'abord présentée au Conseil national de l'information


statistique (Cnis) par la maîtrise d'ouvrage. Pour une enquête donnée, le Cnis

48 Chef de projet en organisation statistique (unité de Méthodologie statistique, division


Coordination des activités d'enquêtes et des méthodes de collecte (CAEMC)).
49 Chef de projet en organisation statistique (unité de Méthodologie statistique, division
Coordination des activités d'enquêtes et des méthodes de collecte (CAEMC)).
150 Pratique et méthodes de sondages

analyse et vérifie l'opportunité de réaliser l'opération au vu des besoins


d'information et des enquêtes statistiques publiques déjà existantes. 11 délivre
alors un avis d'opportunité qui confère sa légitimité à une enquête. Après
cette étape, en général, le test papier de l'enquête est réalisé (voir plus loin).

16.1.2 Le comité du Label donne le label d'intérêt


général et de qualité statistique

Le second rendez-vous extrêmement important est le passage devant le comité


du Label. Il ne peut se faire si l'avis d'opportunité n'a pas été accordé.
L'examen par le comité du label a pour objectifs de vérifier l'adéquation du
projet d'enquête (méthodologie, questionnaire) à « l'état de l'art » et aux
objectifs. Dans ce sens, le comité du label (au sein du Cnis) veille à ce que la
collecte d'informations soit conforme aux objectifs affichés lors de la
discussion d'opportunité, à la minimisation de la charge des enquêtés et à la
confidentialité ainsi qu'au respect de la vie privée. La maîtrise d'ouvrage doit
donc préparer un dossier très précis.
Le comité du label délivre alors le label d'intérêt général et de qualité
statistique. Il peut demander au ministre, qui prendra la décision finale
d'entériner l'enquête, que celle-ci soit déclarée obligatoire. C'est en théorie
après ce rendez-vous que le questionnaire peut être « blaisifié », c'est à dire
mis sous la forme d'un questionnaire électronique en vue du test CAPI (voir
plus loin).

16.1.3 La Cnil est chargée de veiller au respect de la loi


« Informatique et libertés »

La Commission nationale de l'information et des libertés (Cnil) est chargée de


veiller au respect de la loi « Informatique et libertés » qui prévoit la protection
de la vie privée. Elle est toujours représentée au comité du label lorsqu'il
examine les enquêtes auprès des ménages.
Toute enquête auprès des ménages constitue un traitement de données à
caractère personnel. Elle doit donc faire l'objet d'une formalité préalable
auprès de la Cnil avant d'être mise en œuvre. Il existe principalement trois
types de formalités : la déclaration, l'avis de la Cnil (selon le cas, l'avis de la
Cnil doit être suivi par un arrêté ou un décret en Conseil d'État, autorisant le
traitement est nécessaire), l'autorisation explicite de la Cnil pour le traitement
de données qui ont pour objet l'interconnexion de fichiers ayant des intérêts
publics différents ou ceux qui portent sur des données sensibles.
3. Enquêtes sociales 151

16.2 La préparation des opérations est conjointe


à ces différentes validations

Une enquête auprès des ménages s'inscrit dans un planning d'enquêtes mis à
jour plusieurs fois par an. Dès les prémices, une période de collecte est
assignée pour chaque projet en fonction des autres projets. Les contraintes
sont nombreuses - les ressources ne sont notamment pas illimitées - et les
acteurs multiples. Cette période assignée peut évoluer en fonction de plusieurs
paramètres : les décisions politiques concernant le projet, les financements
disponibles, la définition du contour de l'enquête.
Lorsqu'il est certain que l'enquête pourra être réalisée, le projet entre dans
une phase de gestation active, phase qui commence environ deux ans à
deux ans et demi avant la période de collecte prévue. Nous nous intéresserons
aux enquêtes dont le questionnaire est informatisé (logiciel Biaise). On parle
également de questionnaire électronique.

16.2.1 Les principaux acteurs d'une enquête

Une enquête fait intervenir de multiples acteurs. Maîtrise d'ouvrage et


maîtrise d'œuvre sont ainsi les piliers de toute nouvelle enquête auprès des
ménages.
La maîtrise d'ouvrage exprime la demande, conçoit le besoin et recherche
les financements nécessaires à la réalisation du projet. Sous la responsabilité
du maître d'ouvrage, le concepteur de l'enquête est chargé plus
particulièrement de l'élaboration du questionnaire, de l'exploitation des
fichiers et de la rédaction de publications.
La maîtrise d'œuvre exécute et réalise l'enquête sur le terrain. Elle
comprend la maîtrise d'œuvre méthodologique et statistique et la maîtrise
d'œuvre informatique.
D'autres acteurs de l'Insee50 sont associés ou jouent un rôle important.
Les enquêtes mobilisent bien évidemment les enquêteurs du réseau et les
divisions enquêtes ménages (DEM) des directions régionales pour réaliser les
tests puis la collecte.
Le CPOS est chargé de la mise en œuvre et de la coordination de chacune
des étapes permettant la réalisation de l'enquête, en appui des concepteurs
pour les décharger des aspects d'organisation et de pilotage du projet. Il agit
sous la responsabilité du maître d'œuvre statistique.
La maîtrise d'œuvre informatique est assurée par le chef du département
des applications et des projets (DAP). il coordonne les équipes informatiques.

50 II s'agit notamment du département chargé de gérer les moyens manuels ou de saisie.


152 Pratique et méthodes de sondages

Le troisième protagoniste essentiel d'une enquête est, au sein de la maîtrise


d'œuvre informatique, le responsable informatique d'enquête (RIE). L'équipe
statistique est formé du concepteur, du RIE et du CPOS.
Plusieurs comités (comité de pilotage, comité de suivi) permettent à
l'ensemble de fonctionner.

16.2.2 Les trois rendez-vous techniques

a) Le test papier

La préparation d'une enquête est soumise à deux tests sur le terrain et se clôt
par une répétition générale. Le premier est le « test-papier ». Il peut être
précédé de groupes de discussions dits focus group, tests plus informels qui
permettent de valider un protocole, de s'assurer qu'un sujet sensible peut être
accepté par les enquêtés. Ce test papier a lieu en général après le passage
devant le Cnis et avant le passage devant le comité du label. Les focus group
et le test papier sont essentiels : ils engagent fortement l'équipe statistique et
les directions régionales concernées.
Après ce premier test, le questionnaire est validé par le comité du label. Le
questionnaire est alors mis sous format électronique dynamique (ou
« datamodel » de l'enquête) : les réponses aux questions orientent le
questionnement de façon adaptée du fait des spécifications et des filtres.

b) Le test Capi

Le test Capi est l'étape décisive de la mise au point de l'enquête. Elle


nécessite les spécifications du questionnaire (un questionnaire et tous les
filtres, liens et contrôles qui le définissent). C'est la responsabilité du
concepteur. Le CPOS assure une relecture.
Cette étape nécessite également les spécifications dites de gestion qui
comprennent les indications relatives au poste enquêteur, au poste de gestion
et éventuellement au poste concepteur si l'enquête en est dotée. Ces
spécifications permettent de gérer toutes les situations d'enquête, le suivi de
la collecte et les éléments permettant de rémunérer les enquêteurs. Elles sont
de la responsabilité du CPOS.
Pour mener à bien un test Capi, les éléments de rémunération doivent être
calculés. Pour cela, le protocole de l'enquête doit être établi, la durée de
passation des questionnaires estimée, le budget de l'enquête calculé...
Mais le test Capi est également l'occasion de préparer tous les documents
d'enquêtes nécessaires à la collecte (dépliant, lettres avis, autres lettres
officielles, questionnaire papier si l'enquête y fait appel, instructions aux
enquêteurs, cartes codes...). C'est aussi le seul moment où l'équipe statistique
va former des gestionnaires et enquêteurs simultanément. Le contact direct
3. Enquêtes sociales 153

entre les concepteurs et les enquêteurs est toujours très riche d'enseignements.
La plupart des supports de formation sont donc également mis au point, et
préfigurent le module de formation de l'enquête.
C'est en général à cette occasion, lors de la confrontation avec le terrain et
les enquêteurs, que l'équipe conceptrice prend conscience de difficultés
encore mal appréciées. Pour y rémédier, les modifications entre la version du
« datamodel » du test Capi et celle de la répétition générale peuvent être
importantes. Par ailleurs, le protocole de l'enquête peut être légèrement
modifié, le questionnaire évolue... Tout ceci peut également entraîner des
modifications dans les spécifications des postes de collecte et de gestion.

c) La répétition générale

La répétition générale est la dernière épreuve avant la mise en production de


l'enquête, c'est-à-dire avant le déploiement des postes de collecte (et de
gestion) auprès des services régionaux d'enquête. Cette étape vise à vérifier
que tout fonctionne correctement y compris la récupération des données via
les circuits informatiques : les dysfonctionnements des spécifications de
gestion sont en principe corrigés, les enseignements sur le questionnaire tirés
du test Capi ont été pris en compte et intégrés. En principe, les modifications
doivent être mineures mais ce n'est pas toujours le cas. Cette dernière
vérification est très utile.
Pour réaliser ce test qui se fait en bureau, le CPOS rédige un cahier de cas
possibles, c'est en somme un cahier d'exercices. Les services régionaux qui
se sont portés candidats pour le test vont les réaliser sur un poste enquêteur,
mais en bureau. Ils vont ensuite rendre compte de tous les incidents notés,
éventuellement des bugs rencontrés...
A ce moment, le poste de collecte est donc testé, ainsi que le poste de
gestion qui gère la réception et l'envoi des questionnaires, la fonction
apurement et le suivi de l'avancement de l'enquête, ainsi que la rémunération
des enquêteurs (lien CAPI-SAIGE). Enfin « l'aval Capi » de l'enquête est à
nouveau effectué : récupération des questionnaires, des données, analyse de
l'exhaustivité de ces dernières et confection des fichiers. A l'issue du bilan de
la répétition générale, il reste en général peu de choses à corriger. Les postes
de collecte et de gestion de l'enquête pourront alors être déployés.
Toutes ces étapes s'enchaînent selon un calendrier établi par le CPOS en
accord avec l'ensemble des équipes concernées. Dans le meilleur des cas, ce
calendrier ménage des temps qui permettent que les opérations se déroulent
dans les meilleures conditions : c'est ainsi qu'entre le passage devant le
comité du label et le test Capi, on dispose de six à neuf mois pour que
l'informatisation du questionnaire et les spécifications du poste de collecte et
de gestion soient programmées ; de même on dispose en général de six mois
environ entre le test Capi et la répétition générale.
154 Pratique et méthodes de sondages

16.2.3 L'enquête sur le terrain

En parallèle, l'équipe statistique a également prévu les opérations de tirage de


l'échantillon ; le concepteur produit une note à l'attention de la division
« échantillonnage et traitement statistique » (ETSD) qui effectuera le tirage.
Cette partie très importante ne doit pas être négligée, notamment si le tirage
est complexe ou s'il fait appel à des fichiers autres que les bases de tirage
classiques (Octopusse à partir de 2009). Le CPOS veille à ce que le calendrier
prévu soit respecté. L'échantillon est tiré dans les six mois qui précèdent la
date de début de la collecte. L'édition des fiches-adresses papier issues du
tirage de l'échantillon est réalisée dans les trois mois qui précédent le début
de la collecte et au plus tard huit semaines avant. Sur ces aspects, les divisions
d'enquêtes ménages (DEM) ont besoin de connaître l'allocation quantitative
et géographique suffisamment tôt pour gérer leur réseau d'enquêteurs et
préparer l'ensemble du matériel nécessaire aux enquêteurs. Quelques
semaines avant le début de la collecte, les échantillons sont mis à disposition
par l'administrateur Capi, sous la forme d'un carnet de tournée propre à
chaque enquêteur.
On s'approche ainsi de la collecte. L'équipe statistique forme les équipes de
gestionnaires de l'enquête dans les DEM (environ trois mois avant le début la
collecte). Ces équipes formeront à leur tour les enquêteurs, en général moins
d'un mois avant le démarrage de la collecte.
Ainsi, après une aventure qui aura la plus souvent duré plus de deux ans, la
collecte démarre enfin. Cette étape n'est pas de tout repos. En début de
collecte, nombreuses sont les questions qui remontent au CPOS et au
concepteur. Le suivi de collecte effectué en DEM est doublé d'un suivi
centralisé qui permet de disposer de tableaux hebdomadaires d'avancement
par région de collecte. En cours de collecte, l'équipe statistique est en général
moins sollicitée.
Si du point de vue du CPOS, l'essentiel est ainsi assuré, il reste encore
beaucoup de tâches à accomplir jusqu'à l'obtention des fichiers de travail et la
mise à disposition du fichier dit de production et de recherche (FPR). Un
calendrier des différentes étapes aval est défini dans le Core afin d'aider
l'équipe conceptrice et le RIE. Les délais de mise à disposition du FPR
dépendent fortement de la qualité de la collecte mais, en théorie, des premiers
résultats sont disponibles dans un délai de six mois après la fin de la collecte.
3. Enquêtes sociales 155

17. L'enquête post censitaire de

couverture : « plan de sauvetage » du

3e recensement général de la

population et de l'habitat du

Cameroun ?

51
Marcel NKOMA

17.1 Introduction

A l'issue de la réalisation du troisième recensement général de la population


et de l'habitat (RGPH) réalisé par le Cameroun en 2005, une enquête post
censitaire (EPC) a été réalisée l'année suivante, soit un an après le début du
dénombrement. Le but du présent article est d'analyser la pertinence de la
réalisation de cette enquête qui aurait dû intervenir un à deux mois après le
dénombrement. La particularité de l'EPC du 3e RGPH par rapport aux deux
autres EPC précédentes organisées au Cameroun en 1976 et 1987, vient du
fait qu'elle comporte deux types d'objectifs nouveaux. Le premier objectif
était l'évaluation de la qualité des données relatives aux variables « âge » et
« sexe » ; le deuxième était relatif à l'estimation des indicateurs récents de la
dynamique naturelle de la population du Cameroun. Si le premier type
d'objectif s'inscrit dans la ligne naturelle des objectifs de l'EPC, le deuxième
type d'objectif par contre, trouve sa justification non seulement dans le but de
mobiliser les fonds pour organiser l'EPC mais aussi dans l'appréciation de
l'évolution récente des indicateurs de fécondité et de mortalité au Cameroun.
Mais l'objectif premier de l'enquête post censitaire du 3e RGPH était de
déterminer le taux d'omission et les doubles comptes en 2005. Dans la plupart
des recensements de population, les omissions sont relativement courantes,
mais leur importance totale en valeur relative n'excède généralement pas 2 %
dans les pays développés et 10 % dans les pays en développement.
Dans le cas particulier du 3L RGPH, il y a très certainement eu des
omissions lors du dénombrement, particulièrement les omissions de localité
entières par le fait des insuffisances des travaux cartographiques en milieu
urbain, du fait de la réalisation des travaux cartographiques censitaires
deux ans avant le début d'intervalles du dénombrement. Dans ces conditions,
on s'interroge si la réalisation de l'EPC à un an d'intervalle du dénombrement
de 2005, ne remettrait-elle pas en cause les avantages généralement reconnus

51 Démographe, Chercheur, Ministère de l'Economie, de la Planification et de


l'Aménagement du Territoire (MINEPAT), BP : 8415 Yaoundé - Cameroun, Tél :
(237) 96074522. Courriel : nkoma_fr@yahoo.fr.
156 Pratique et méthodes de sondages

à ces types d'enquêtes qui sont normalement exécutés un à deux mois après la
fin des opérations du dénombrement. Pour apporter une réponse à cette
interrogation, notre analyse mettra l'accent principalement sur les
considérations méthodologiques ayant permis la réalisation de l'EPC afin de
redresser les donnés du 3e RGPH.

17.2 Conception de l'EPC

L'EPC a été de ce fait conçue à l'image des enquêtes à passages répétés des
années 70 expérimentées sous les auspices du Groupe de Démographie
Africaine (GDA). Le questionnaire ménage de l'enquête comporte des
questions rétrospectives spécifiques à poser aux populations vivant dans les
zones de dénombrement retenues dans l'échantillon. Ces questions ont été
agencées puis formulées pour être adaptées aux objectifs de l'opération et
pour tenir compte en outre, du fait que la période de référence des données
recueillies est particulièrement longue : une année.
La conception de l'enquête post-censitaire du 3e RGPH n'a pas entièrement
été indépendante du recensement dans la mesure où la base de sondage est
constituée par les ZD du recensement, les agents enquêteurs ont été recrutés
parmi les meilleurs agents recenseurs et formés spécialement aux procédures
de collecte des données de l'enquête, puis affectés dans un autre
arrondissement que celui dans lequel ils ont travaillé lors du dénombrement
principal et les chefs d'équipe ont été choisis parmi les cadres du BUCREP
dont la plupart avaient pris part à l'encadrement des travaux du
dénombrement en novembre 2005. Les travaux de collecte des données se
sont déroulés du 11 novembre au 15 janvier 2007.

17.3 Échantillonnage

L'échantillon retenu est un échantillon stratifié représentatif comprenant des


strates et des sous-strates. Chaque strate est subdivisée en deux sous-strates :
une sous-strate urbaine et une sous-strate rurale. En principe une strate
correspond à une région administrative ; toutefois, dans les départements du
Wouri et du Mfoundi, on a dérogé à cette règle en raison d'une part, du statut
politico-administratif particulier de ces deux départements, et d'autre part, de
l'effectif de la population dans chacun de ces deux départements. Dans
certains cas, il a été nécessaire de redresser par choix raisonné, l'échantillon
obtenu pour obtenir la taille de l'échantillon souhaitée, c'est-à-dire celle
correspondant approximativement à 2 % de la population de la sous-strate
considérée.
3. Enquêtes sociales 157

17.4 Exploitation des données

L'exploitation des données de l'EPC (au travers de l'appariement des chefs de


ménage) a débuté dès la fin de la phase de la reconnaissance des limites de la
ZD échantillon et de la numérotation des structures et des ménages. A la fin
de cette première phase de l'enquête, le superviseur chef d'équipe disposait
des premiers résultats requis pour comparer l'évolution des caractéristiques
démographiques de la ZD échantillon tirées des données portées dans le
Cahier de tournée de l'agent recenseur (CTAR) lors du dénombrement avec
celles obtenues à l'issue de la première phase de réalisation de l'enquête sur le
terrain. Un premier rapport était établi à ce stade de l'enquête.
Par la suite en salle du Bureau central des recensements et des études de
population (BUCREP), les travaux de collationnement des questionnaires
ménage du dénombrement et ceux de l'EPC avaient été réalisés sous la
supervision directe des cadres du BUCREP. C'est à l'issue de cette phase que
les statuts définitifs de dénombrement des ménages et d'appariement de leurs
membres étaient établis. Les questionnaires des ménages recensés dans les
ZD-échantillon dont on n'avait pas trouvé la moindre trace lors de l'enquête
ont été aussi saisis avec des codes particuliers en ce qui concerne leur statut
de dénombrement et celui d'appariement de leurs membres. La saisie des
questionnaires ménages n'a pas posé de problèmes particuliers, même s'il a
été nécessaire de procéder à l'apurement des données saisies pour établir
certaines cohérences internes de ces données.
Les indicateurs ont été calculés à partir des données relatives aux ménages
ordinaires, dans la mesure où les données recueillies à leur sujet ont été
vérifiées et confrontées, d'abord sur le terrain avec celles figurant dans les
CTAR, puis en salle du BUCREP avec celles figurant dans les questionnaires
ménage du recensement lors de la phase de collationnement des ménages.
En ce qui concerne les « ménages enquêtés, mais non recensés suite à une
installation récente dans le domicile actuel » ; et les « ménages recensés, mais
non retrouvés à l'enquête », les informations obtenues à leur sujet à l'issue de
la phase du collationnement des ménages ont permis de reclasser une bonne
partie d'entre eux.

17.5 Calcul du taux d'omission

Ainsi, à partir des différentes catégories de ménages ordinaires dont le statut


de dénombrement a été établi à l'issue de la phase du collationnement des
ménages ainsi que celui de chacun de leurs membres, on a procédé au calcul
des taux d'omission. L'objectif premier de cette EPC étant la détennination
du degré d'exhaustivité du dénombrement, on a retenu comme taux
d'omission, l'estimateur à partir duquel il sera possible de dériver des
coefficients de redressement des effectifs bruts observés. Au niveau d'une
158 Pratique et méthodes de sondages

strate, le tirage des ZD-échantillon a été réalisé avec des probabilités inégales
proportionnelles à leur taille (méthode des totaux cumulés). Le taux
d'omissions dans une strate a été obtenu en faisant la moyenne pondérée des
taux d'omission empirique calculés dans chaque ZD-échantillon ; les
coefficients de pondération utilisés sont les inverses des probabilités de tirage
des ZD-échantillon. Au niveau de l'ensemble du pays, le taux d'omission
global a été calculé comme une moyenne pondérée des taux calculés dans
chaque strate, en utilisant comme coefficients de pondération, le
démographique de chaque strate dans l'univers.
Dans cette démarche, on a raisonné comme si au niveau de chaque strate, la
« vraie population » totale de la strate en question, comportait deux catégories
de ménages :
- les individus omis lors du dénombrement en proportion ;
- et les individus recensés lors du dénombrement en proportion.

La proportion « ph » peut dès lors être considérée comme la moyenne « m »


d'une variable de Bernolli « X » prenant la valeur « 1 » si l'individu a été
omis lors du dénombrement et la valeur « O » si l'individu a été recensé.
L'estimation de la proportion « ph » à partir d'un sous échantillon (strate
« h ») de taille « nh » se ramène donc à celle « ph ».
En définitive, les considérations méthodologiques ci-dessus mentionnées
ont permis de juger probants les résultats obtenus de l'EPC, puis de les
utiliser effectivement dans le processus de redressement des données du
fichier brut du 3e RGPH pour la production des résultats définitifs.

BIBLIOGRAPHIE

Mfoulou, R. (2009). Quels enseignements tirer de la récente expérience


Camerounaise de réalisation du troisième Recensement Général de la
Population et de l'Habitat 1 Conférence d'évaluation des besoins sur
l'analyse de recensement (NACCA), Dakar, 11-13 Novembre.
BUCREP (2006). Troisième Recensement Général de la Population et de
l'Habitat, enquête post-censitaire. Manuel du superviseur.
Déclaration de Québec sur la sauvegarde et la mise en valeur des
recensements africains, juin 2007.
3. Enquêtes sociales 159

18. Spécification de correction

automatique : cas de l'apurement des

données du recensement général de la

population et de l'habitation de 2006 du

Burkina Faso

52
Lougué SIAKA et Bonkoungou ZAKALIYAT53

18.1 Introduction

Le recensement est une opération très lourde et très conteuse qui doit se
réaliser chaque dix ans dans les pays en développement selon les Nations
Unies. C'est la seule opération statistique qui permet d'avoir l'effectif total de
la population d'un pays donné en l'absence d'un état civil qui fonctionne
correctement. Elle apparaît donc comme une opération assez importante dans
les pays pauvres d'autant plus que l'état civil est généralement déficitaire.
Comme la plupart des opérations de collecte statistique, les données des
recensements sont le plus souvent entachées d'erreurs. D'où la nécessité de
faire des corrections.
Plusieurs types d'erreurs peuvent être rencontrés et les techniques utilisées
pour effectuer des corrections de celles-ci ne font pas toujours l'unanimité.
Tandis que certaines techniques de correction ne souffrent pas d'ambiguïté,
d'autres, par contre, peuvent induire des formes d'erreurs ou même déformer
la réalité. Ainsi, une analyse préalable de la qualité des données s'impose
pour décider de la validité de l'ensemble des données.
L'apurement des données commence sur le terrain et se poursuit au bureau.
Une grande partie de l'apurement des données s'effectue généralement par
programmation informatique qui est qualifié de « spécification de correction
automatique ». Le dernier recensement général de la population et de l'habitat
(RGPH) du Burkina Faso a eu lieu en décembre 2006. Les données collectées
ont fait l'objet de plusieurs types d'apurement. 11 s'agira, ici, de partager cette
expérience.

52 Postgraduate Student at AIMS, Cape Town (South Africa). Adresse URL


http;//users.aims.ac.za/~siaka/. Courriel : siaka@aims.ac.za ou louguesiaka@yahoo.fr.
53 Chef du Département Études, formation et suivi-évaluation au Secrétariat permanent du
Conseil national de population (SP/CONAPO) 09 BP 624 Ouagadougou 09, Burkina
Faso. Courriel : zakaliyat@yahoo.fr.
160 Pratique et méthodes de sondages

18.2 Contexte et justification

La lourdeur des recensements peut engendrer un certain nombre


d'insuffisances. Parmi celles-ci, figure l'incohérence qui peut subvenir entre
des faits et leur traduction. La correction automatique des données apparait
comme une tentative de rattraper des erreurs commises à un moment ou à un
autre au cours du processus de réalisation d'un recensement et qui tendent à
déformer la réalité.
Les corrections automatiques obéissent à un certain nombre de principes qui
sont : la modification des parasites, la détermination d'un seuil de tolérance et
la recherche de la qualité.
La modification des parasites consiste à assurer une correction automatique
des données. Au niveau de la détermination des tolérances, il s'agit d'indiquer
le nombre de réponses non valides et incohérentes admis avant que l'équipe
de vérification adopte des mesures correctives. La recherche de la qualité doit
être une quête permanente et jouer un rôle important dans tous le processus du
recensement.
Le RGPH de 2006 du Burkina Faso s'inscrit dans cette logique. Le
traitement des données a révélé certaines incohérences qui nécessitaient un
examen approfondi afin d'aboutir à des réponses plus cohérentes et
acceptables à l'utilisation. Cela a commencé d'abord par la vérification des
données afin de mettre en évidence les omissions et les incohérences dans
l'enregistrement de données. Ensuite, l'imputation qui a consisté à introduire
les corrections nécessaires. La vérification a défini les procédures spécifiques
adaptées à l'identification et au traitement des omissions et des données
aberrantes. Les opérations d'imputation ont modifié les données non valides
et résolu les incohérences détectées dans l'ensemble des informations
introduites.

18.3 Méthodes de correction et d'imputation des


données

Les données recueillies dans tous les recensements et toutes les enquêtes
comportent des valeurs manquantes qui correspondent aux informations
manquantes pour diverses raisons. Les méthodes utilisées pour introduire les
corrections nécessaires dépendent du type de données considéré. Dans la
plupart des cas, il est possible d'attribuer aux données en cause des codes
valides, tout en étant assuré de leur exactitude et en utilisant les réponses
apportées à d'autres questions.
Il existe deux techniques automatiques d'imputation des données erronées.
Il s'agit de l'imputation par la méthode cold deck qui est utilisée pour les
données manquantes ou inconnues. Le programme de vérification attribue une
3. Enquêtes sociales 161

réponse déterminée à une valeur manquante à partir d'un ensemble de valeurs


prédéterminées, ou impute la réponse suivant une règle de proportionnalité à
partir d'une distribution de réponses valides. 11 y a aussi l'imputation par la
méthode hot deck qui est applicable aussi bien au niveau des données
manquantes que des données incohérentes ou non valides.

18.4 De l'élaboration du document de


spécification à l'application des
spécifications au cas du Burkina Faso

La spécification technique de correction des données est basée sur la


connaissance du pays et de la population ainsi que leurs habitudes. Ce qui
nécessite une bonne revue de littérature sur les domaines concernés et la
présence de spécialistes dans le domaine. Pour ce qui est du cas du Burkina
Faso, il a été retenue que : « Les non déclarés ont été acceptés pour toutes les
variables sauf pour le sexe ».
La spécification des données avait pour but de répondre à un certain nombre
de préoccupations dont :
- la réduction de la proportion des non déclarés des différentes
variables ;
- la correction des incohérences susceptibles d'apparaître entre un
certain nombre de variables ;
- l'élimination des valeurs manquantes (les non réponses).

18.5 Approche critique des données définitives


du RGPH 2006 du Burkina Faso

Toute vérification aussi poussée qu'elle soit, ne saurait remplacer un bon


travail de dénombrement. Le processus de vérification est efficace lorsque les
imputations s'appliquent aux omissions et aux incohérences aléatoires. Si des
erreurs systématiques affectent la collecte de données, la vérification ne peut
pas améliorer la qualité de ces données quelle que soit la complexité des
procédures mises en œuvre.
Dans le cadre du RGPH de 2006, un dispositif à plusieurs niveaux a été mis
en place afin de réduire les risques d'erreurs. Des difficultés ont été
rencontrées surtout au niveau des sections comme la migration et la fécondité.
Au niveau de la migration. Il s'est agi d'un grand nombre de « Non déclarés »
et de la modalité « Ne sait pas » auxquelles il a été difficile d'imputer des
valeurs. En effet, les résidences antérieures des populations sont très difficiles
à déterminer. Les gens se souviennent très souvent du nom du village de
naissance ou de résidence antérieure mais pas celui de la commune de
162 Pratique et méthodes de sondages

rattachement encore moins celui de la région. Au Burkina Faso, la subdivision


administrative du pays en régions date de 2002 et son effectivité est assez
récente. Et, plusieurs communes, dans des régions différentes ont des noms
qui se ressemblent. La gestion des « non déclarés » au niveau de la migration
est très sensible car, mal faite, elle pourrait d'une part affaiblir la migration
dans les zones où les non déclarés sont nombreux ou grossir la migration
d'une région si une répartition est faite.
Concernant la fécondité, le problème se pose dans la spécification des
données. Il ne devrait pas avoir de sexe non déclaré des cas pareils qui sont
récupérables par les données sur la fécondité alors que les données sur la
fécondité peuvent être récupérées par la déclaration du sexe. Dans le cas du
Burkina Faso, les personnes pour lesquelles le sexe a été déclaré ont été
utilisées pour réduire les non déclarés et les incohérences au niveau de la
fécondité. Ensuite, la fécondité a été utilisée pour réduire les non déclarés au
niveau de la variable sexe. Enfin, le sexe imputé de façon aléatoire pour les
autres individus a servi à finaliser l'apurement au niveau de la fécondité.

18.6 Enseignements à tirer de la spécification


des données du Burkina Faso

Il s'agit d'archiver les aspects positifs et négatifs obtenus, afin d'améliorer la


qualité aussi bien du recensement actuel que ceux à venir. Et aussi, déterminer
ce qui fonctionne correctement de ce qui ne l'est pas. Il faut établir si les
aspects du processus qui fonctionnent correctement peuvent être améliorés et
simplifiés, pour que les utilisateurs disposent plus facilement des résultats. En
outre, il ne faudrait pas d'excès dans les vérifications qui risquent de retarder
la publication des résultats. Il est plus judicieux de consacrer les moyens
financiers en priorité à l'amélioration de la qualité de la phase de
dénombrement du recensement que de se fier à une quelconque correction.
De la spécification du statut de résidence : il est important de décider dès la
collecte des données s'il est admissible d'avoir un ménage où tous les
membres sont des visiteurs.
Spécification et saisie des données : tous ces documents doivent être
élaborés avec l'appui de l'équipe en charge de la spécification des données.
Car, toutes les décisions prises à ce niveau se répercutent automatiquement
sur les spécifications des données.
Le manuel de spécification rédigé devra servir de base pour l'élaboration
d'un programme de spécification. La spécification doit se faire en même
temps que la saisie des données.
Une fois que la base de données disponible, il faut s'assurer que les non
déclarés ne dépassent pas les 5% (norme statistique). Cela permet aussi de
voir si toutes les variables ont été renseignées ainsi que la vraisemblance des
3. Enquêtes sociales 163

données selon les modalités des variables. Mettre l'accent sur les données
relatives au code des localités et à l'activité économique.

18.7 Conclusion

Au RGPH de 2006, la spécification n'a pas été faite au même moment que la
saisie. Lorsque les données sont produites, elles sont au fur et à mesure
passées sous le programme de spécification et les erreurs apparaissent. C'est
ainsi qu'il a été possible de tester la fiabilité des corrections proposées. Cette
activité a été faite après la saisie des données. Ce qui a prolongé le temps
consacré à la disponibilité des données. Alors que cela aurait eu l'avantage de
déceler les erreurs de saisie et aussi de revenir immédiatement si besoin sur
les questionnaires. Dans la mesure où la saisie se fait par commune, province
ou par région, il peut y avoir des problèmes particuliers liés à une commune
spécifique que des agents de terrain ou de saisie peuvent facilement détecter
et corriger. Une autre difficulté, et non la moindre, est l'absence de
documentation sur les spécifications des données des opérations de
recensements passés. Or ces archives, en relevant les difficultés du passé
auraient aidés à mieux orienter les travaux.
Au terme de cette analyse il faut, pour assurer une meilleure qualité des
données de recensement à venir :
- Mettre en place et commencer la rédaction du document de
spécification dès le début de la phase préparatoire de l'opération ;
- Appliquer le programme de spécification technique au fur et à mesure
que les données sont saisies afin de déceler certaines erreurs
spécifiques à des régions ce qui rendrait plus performant et réaliste
les spécifications techniques ;
- Mettre en place une équipe fonctionnelle d'archivage de tous les
documents de l'opération tels que les rapports de terrain de tous les
agents de terrain ainsi que des superviseurs. Il en est de même des
rapports des différents ateliers et réunion afin d'améliorer les
spécifications dans la mesure où certaines informations supposées
être des erreurs pourraient provenir de décisions de terrain ou de
réunions antérieures.
164 Pratique et méthodes de sondages

19. Devons-nous pondérer par le vote à

l'élection précédente ?

54 55
Claire DURAND , Isabelle VALOIS et
56
Mêlante DESLAURIERS

19.1 Contexte

La pratique qui consiste à ajuster les données de sondages électoraux en


utilisant une ou plusieurs déclarations de vote à une élection précédente est
apparue dès les premières années des sondages et est couramment utilisée
surtout en Europe, particulièrement au sein des firmes qui utilisent la méthode
des quotas. D'abord utilisée pour corriger la sous-estimation de l'intention de
vote pour les partis communistes durant la période de la « guerre froide », elle
vise maintenant à corriger un phénomène similaire pour les partis d'extrême
droite. Recommandée par la Market Research Society après les sondages
catastrophiques de l'élection britannique de 1992, elle permet d'atténuer
l'effet des variations dans la composition sociopolitique des échantillons.
Cette pratique est parfois contestée. Selon Waldahl et Aardal (1982), elle
tendrait à entraîner une sous-estimation du vote extrémiste dont l'intention est
en hausse et une surestimation du même vote lorsque l'intention est en baisse.
Cet article se propose de revisiter cette question qui a fait l'objet de peu de
recherches au cours des dernières décennies. Trois questions sont posées : 1)
Le rappel de vote est-il fiable ? 2) Quels sont les déterminants de la fiabilité
du rappel de vote ? 3) Quelles sont les conséquences de l'utilisation du rappel
de vote ?

19.2 Méthodologie

Trois séries de bases de données ont été utilisées pour examiner les questions
posées. Ce sont d'une part, les données du Panel électoral français (PEF) en
ce qui a trait aux élections présidentielles françaises de 2002 et de 2007,
d'autre part, les données de l'Étude électorale canadienne (EEC) de juin 2004
qui s'est poursuivie par un panel pour les élections de janvier 2006 et de
septembre 2008, et enfin, les données de notre propre enquête panel, effectuée

54 Département de sociologie. Université de Montréal.


Courriel : claire.durand@umontreal.ca.
55 Département de sociologie, Université de Montréal.
Courriel : isabelle.valois@umontreal.ca.
56 Département de sociologie, Université de Montréal.
Courriel : melanie.deslauriers.2@umontreal.ca.
3. Enquêtes sociales 165

par la firme CROP, pour ce qui est des élections québécoises de mars 2007 et
de décembre 2008. Dans les cas de la France et du Québec, il y a présence
d'un parti ou d'un candidat de droite de type populiste, alors que ce n'est pas
le cas pour le Canada, sauf peut-être pour une composante du vote
conservateur de 2004.
Les analyses portent a) sur le rappel de vote comparé au vote réel, ce qui
permet d'évaluer la fiabilité du rappel et, pour le Québec, son évolution dans
le temps, b) sur le double rappel de vote (pour le Québec et le Canada), ce qui
permet d'estimer la prévalence de la non-fiabilité et d'en étudier les
déterminants individuels, et enfin c) sur l'estimation de l'intention de vote
utilisant le redressement par le rappel de vote, ce qui permet d'estimer les
conséquences de la pratique dans diverses situations.

19.3 Résultats

19.3.1 Le rappel de vote est-il fiable ?

Le tableau 3.13 montre la distribution du rappel du vote pour certains partis


de droite ou d'extrême droite, et ce, pour huit élections. On peut y constater
que, dans le cas de la France, le rappel du vote pour le Front National est
sous-estimé, et ceci, même juste après l'élection. Ceci confirme ce qui avait
été constaté pour les sondages commerciaux (Durand, Biais et Larochelle
2004 ; Durand, 2008).

Tableau 3.13 : Rappels de vote


Vote Rappels de vote
France Vote Front En 2002 En 2007
National
2002 16,9% 10,3% 11,9 %
2007 10,4% 6,4 %
Canada Vote En 2004 En 2006 En 2008
Conservateur
2000 37,7 % 29,6 %
2004 31,7 % 25,3 % 26,9 %
2006 36,3 % 38,0 % 37,8 %
2008 37,7 % 37,5 %
Québec Vote Action En 2004 En 2007 En 2008
démocratique (CES)
du Québec
2003 18,2% 10,6% 9,0 %
2007 30,8 % 32,1 % 21,6 %
166 Pratique et méthodes de sondages

Par ailleurs, nous avons trois mesures de double rappel de vote. Pour
l'élection canadienne de 2004, 21 % des personnes réinterviewées déclaraient
un vote différent en 2006 qu'en 2004 alors que, pour ce qui est du vote de
2006 déclaré de nouveau en 2008, il s'agissait de 29 % des répondants. Pour
ce qui est de l'élection québécoise de 2007, 25 % des personnes
réinterviewées en 2008 donnaient une information différente de celle donnée
après l'élection. Le mauvais rappel n'est donc pas un phénomène rare.

19.3.2 Quels sont les déterminants de la fiabilité du


rappel de vote ?

L'évolution de la distribution du rappel de vote pour l'Action démocratique


du Québec (ADQ) entre l'élection de mars 2007 et celle de décembre 2008
montre que cette distribution se détériore avec le temps et suit l'évolution des
intentions de vote. Toutefois, au niveau individuel, quelles sont les
caractéristiques des personnes qui « mémorisent mal » leur comportement de
vote ?
Les trois analyses de régressions logistiques visant à prédire le mauvais
rappel de vote ont donné des résultats similaires : les personnes les plus
susceptibles de mal se remémorer leur vote antérieur sont habituellement plus
jeunes et moins scolarisées. Toutefois, pour deux élections sur trois - Canada
2004 et Québec 2007 -, cet effet est entièrement médiatisé par l'intérêt
déclaré pour la campagne électorale et la stabilité des opinions politiques, de
même que, pour l'étude électorale canadienne, la présence et la force de
l'identification partisane. De plus, les personnes qui ont déclaré avoir voté
pour l'ADQ au Québec et pour les petits partis au Canada sont plus
susceptibles de mal se rappeler leur vote.

19.3.3 Quelles sont les conséquences de l'ajustement


par le rappel de vote ?

Pour ce qui est de la France, alors que les sondeurs utilisant le redressement
par la déclaration de vote à l'élection précédente avaient sous-estimé le vote
pour le Front National en 2002 (Durand et coll., 2004) et surestimé ce même
vote en 2007 (Durand, 2008), le redressement par le rappel de vote utilisant
les données du PEF 2007 entraîne une amélioration de l'estimation du vote
Front National. Pour ce qui est du Québec, l'utilisation du redressement
provoque une hausse de l'estimation des intentions de vote pour l'ADQ pour
les deux élections, ce qui aurait amené une meilleure estimation du vote
uniquement en 2007. Enfin, pour ce qui est du Canada, le redressement
entraîne une forte surestimation du vote pour le Parti Conservateur en 2004.
Par contre, en 2006 et en 2008, ce redressement ne change pratiquement rien.
3. Enquêtes sociales 167

19.4 Conclusion

En résumé, le rappel de vote est moins fiable lorsqu'un parti ou un candidat


populiste de droite est présent et cette fiabilité diminue avec le temps. 11 est
moins fiable chez les personnes moins stables politiquement, moins
intéressées à la politique et ayant voté pour des petits partis ou des partis
populistes. Enfin, l'impact du redressement par le rappel de vote semble
varier selon les causes de non-fiabilité : le redressement parfois améliore
l'estimation (France, PEF 2007, Québec 2007), parfois la détériore (Canada,
EEC 2004) et parfois ne change rien ou presque (Canada, EEC 2006 et 2008).
Il nous apparaît qu'il faut être particulièrement prudent lorsque, dans une
campagne électorale donnée, un parti de droite populiste est présent et en
évolution et ce, d'autant plus que la clientèle de ces partis apparaît avoir des
caractéristiques similaires à celles des personnes qui se souviennent mal de
leurs votes précédents.

BIBLIOGRAPHIE

Durand, C., Biais, A. et Larochelle, M. (2004). The poils in the 2002 French
presidential élection: An autopsy. Public Opinion Quarterly, vol. 68, n04,
602-622.
Durand, C. (2008). The Poils of the 2007 French presidential campaign: Were
lessons learned from the 2002 catastrophe? International Journal of Public
Opinion Research, vol. 20, n03, 275-298.
Waldahl, R., et Aardal, B.O. (1982). Can we trust recall data? Scandinavian
Political Studies, vol. 5, n02, 103-116.
168 Pratique et méthodes de sondages

20. Usage de données administratives et

analyses secondaires d'enquêtes dans

l'étude du risque routier en France

Mouloud HADDAK57 et Pascal POCHET 58

20.1 Introduction

Dans un contexte où la réalisation d'enquêtes statistiques ad hoc est


généralement coûteuse et complexe à mettre en œuvre, le recours aux bases
de données administratives et les analyses secondaires d'enquêtes s'avèrent
essentiels dans un objectif d'étude. Analyser l'accidentologie routière dans
toutes ses dimensions nécessite bien entendu de disposer de données sur les
accidents de la route, mais également sur l'exposition au risque et sur les
caractéristiques de mobilité, et éventuellement de les enrichir par des données
spatiales contextuelles. La nature très diverse des sources de données et leur
caractère souvent partiel sinon parcellaire posent la question des liens qui
peuvent être faits entre elles. Cette présentation des sources de données n'a
pas l'ambition d'être exhaustive. Elle a pour objectif de pointer leur intérêt et
leurs limites dans la perspective de mises en relation de ces sources
d'informations qui visent à en améliorer la portée et la pertinence (Bayart,
Bonnel et Morency, 2009). Nous nous appuyons pour cela sur l'exemple de
l'analyse des inégalités sociales et spatiales de risque routier59.

20.2 Les bases de données d'accidentologie

20.2.1 Les procès verbaux d'accidents

Les procès verbaux (PV) d'accidents sont rédigés par les forces de l'ordre à
l'issue du constat des faits et des auditions des impliqués, des ayant droit et
des éventuels témoins. Ils sont destinés en priorité à la justice. Ces PV sont
numérisés et centralisés par l'association AGIRA (Association pour la

57 Unité Mixte de Recherche Épidémiologique et de Surveillance Transport Travail


Environnement (INRETS - InVS - Université Lyon l).
Courriel : mouloud.haddak@inrets.fr.
58 Laboratoire d'Économie des Transports, UMR CNRS 5593, Université de Lyon (École
Nationale des Travaux Publics de l'État). Courriel : pascal.pochet@entpe.fr.
59 Réflexions menées à l'occasion d'une recherche pour la DRI (MEEDDM) dans le cadre
du PREDIT G02 « Qualité et sécurité des systèmes de transport » et le Cluster
Recherche « Transport, Territoire et Société » de la Région Rhône-Alpes.
3. Enquêtes sociales 169

Gestion des Informations sur le Risque Automobile) pour les diffuser ensuite
aux sociétés d'assurance concernées par l'indemnisation des victimes.
Portant sur les accidents corporels uniquement, les PV recueillent nombre
d'informations, sur les circonstances de l'accident : date, heure, lieu, type et
état de la voirie, météo, type de collision, caractéristiques des véhicules
impliqués, usage d'équipements de protection ou de sécurité ; sur l'accidenté :
âge, sexe, activité - profession (peu précise), possession du permis de
conduite et date d'obtention. En l'état, l'adresse du domicile de l'accidenté est
recueillie mais pas saisie. Cette information est pourtant essentielle si l'on
souhaite mener une analyse socio-territoriale fine (à l'échelle de l'Iris60). En
l'état actuel du système de recensement des accidents routiers, une telle
analyse nécessite de numériser les PV et de coder les adresses à l'Iris à l'aide
de bases d'adresses et de système d'information géographique (Alam, Fleury,
Godillon, Medikane, Millot, Peytavin et Saint-Gerand, 2010). La lourdeur de
ce travail de reconstitution permet difficilement de le généraliser à un large
territoire.
Enfin, certains accidents ne sont pas recensés, comme le montrent des
comparaisons avec le registre des accidentés du Rhône (Amoros, Martin et
Laumon, 2007). 11 s'agit notamment des accidents légers, sans antagoniste. Il
est vraisemblable que ces sous-déclarations soient inégalement distribuées
socialement ou spatialement, ce qui peut être source de biais dans la mesure
des disparités de risque routier.

20.2.2 Le fichier des BAAC

Le fichier des BAAC (Bordereau d'Analyse des Accidents Corporels de la


Circulation) est alimenté par les procès verbaux des forces de l'ordre suite à
leurs interventions lors d'un accident de la circulation avec dommage
corporel. Les limites des BAAC sont liées au recueil des accidents par le biais
des PV. L'ONISR (Observatoire National Interministériel de Sécurité
Routière) est chargé d'en assurer l'analyse au plan national. Seule base de
recensement nationale des accidents routiers, le fichier des BAAC permet
certains traitements statistiques informant sur les disparités sociales de risque
routier, à la précision du recueil près. Il est à signaler enfin qu'il alimente la
base de données européenne CARE61 sur les accidents corporels.

20.2.3 Le registre des accidentés du Rhône

Géré par l'ARVAC, association dévolue au recueil et à la diffusion de ses


informations, le registre des accidentés du Rhône existe depuis 1996. La
source d'informations est ici de nature médicale : professionnels de santé,

60 Ilots Regroupés pour l'Information Statistique.


61 http;//ec.europa.eu/transport/road_safety/observatory/statistics/care_en.htm.
170 Pratique et méthodes de sondages

médecins ou établissements hospitaliers. Par son mode de recueil, ce registre


permet de connaître la gravité des blessures dues à l'accident. Second apport
par rapport aux PV et au fichier des BAAC, le registre recense mieux les
accidents bénins ou n'impliquant qu'un seul véhicule ; de même, les biais de
recueil selon les différentes catégories apparaissent plus réduits (Amoros
et coll., 2007). 11 offre ainsi une vue plus réaliste du panorama des accidents,
mais aussi des différenciations à l'œuvre en matière d'accidentologie routière.
Il peut enfin servir de vivier pour des enquêtes complémentaires auprès des
accidentés comme par exemple une enquête cas-témoins sur les pratiques de
mobilité auprès des adolescents (Haddak, Pochet, Vari, Licaj,
Randriantovomanana et Mignot, 2009).
Moins complet que les BAAC sur les circonstances de l'accident, ce
registre ne comporte pas de données socioéconomiques sur l'accidenté, mais
seulement son âge, sexe, adresses de résidence et d'accident. Un recueil de la
profession (PCS) de la personne (et, pour les enfants, de la PCS des parents),
constituerait une amélioration sensible, ouvrant la voie à l'analyse simultanée
de l'impact des facteurs sociaux individuels (ou du ménage) et contextuels
(liés au lieu de résidence) par des analyses multi-niveaux.

20.2.4 Les données des assureurs

Les compagnies d'assurance réunies au sein de deux familles, la Fédération


Française des Sociétés d'Assurances (FFSA) et le Groupement des
Entreprises Mutuelles d'Assurances (GEMA), publient des statistiques de
sinistralité chaque année (FFSA, 2003). Ces fichiers recensent les victimes
non responsables, dont les dossiers ont été traités dans l'année : décès,
victimes avec incapacité partielle permanente (IPP) ou simple interruption
temporaire de travail (ITT sans IPP). Outre les caractéristiques de la victime
et la gravité de ses incapacités, ces fichiers informent sur les indemnisations,
les délais de consolidation des blessures et les délais de règlement des
dossiers.

20.3 Données sur la mobilité et l'exposition au


risque

Les indicateurs simples tels que la mortalité ou la morbidité dues aux


accidents de la route donnent une vision biaisée du risque routier.
L'élaboration d'indicateurs d'exposition au risque se révèle indispensable.
Selon le degré de précision recherché dans l'analyse, des données sur l'offre
de transport (longueur et nature du réseau routier, flotte de véhicules
immatriculés), de permis de conduire, de comptages de trafic, ou encore de
consommation de carburant, peuvent se révéler suffisants, en particulier pour
des comparaisons internationales globales. Toutefois, dès lors qu'il s'agit de
3. Enquêtes sociales 171

distinguer dans l'analyse différents modes de transport, différentes catégories


de population et de mesurer précisément la mobilité (par le nombre de km
parcourus, le budget-temps de déplacement ou encore le nombre de
déplacements), des données d'enquêtes « ménages » sont indispensables.

20.3.1 L'enquête nationale transport

Sous la maîtrise de l'Institut national de la statistique et des études


économiques (Insee) et l'Institut national de recherche sur les transports et
leur sécurité (Inrets), la dernière Enquête Nationale « Transports &
Déplacements » (ENTD) a été réalisée en 2007-2008 et fait suite à celle de
1993-94 (Madré et Maffre, 1994), Cette enquête très détaillée et complexe à
réaliser recueille (dans le cas de TENTD 2007-08) :
- La mobilité de semaine et la mobilité de week-end, locale et de
longue distance, pour un individu du ménage tiré au sort (« kish »)62 ;
- Pour les individus du ménage de 6 ans et plus63, les accidents de la
circulation ayant entraîné des dommages corporels au cours des cinq
dernières années (selon l'appréciation de l'enquêté, que ces
dommages aient donné lieu ou non à des soins médicaux). Chaque
accident est décrit précisément (date, circonstances, modes, etc.) ;
- Enfin, pour un véhicule tiré au sort, quelques questions sur les
accidents avec dommages matériels qu'il a subis au cours des 12
derniers mois (Insee, 2008).

L'enquête nationale transport est ainsi la seule base statistique qui permette
de rapprocher, pour un même individu, sa situation sociale, ses conditions de
réalisation de la mobilité, les caractéristiques de cette mobilité et la survenue
d'accidents routiers. L'échantillon de TENTD, 20 200 ménages en 2008 (dont
18 600 individus de 6 ans et plus), ouvre la voie à des analyses par type
d'espace (urbain/périurbain/rural, sur un regroupement de régions, voire sur
une taille de ville...). Mais, pour des raisons de fiabilité statistique, son
utilisation ne peut porter sur des espaces trop restreints ou spécifiques, ni sur
des analyses spatiales trop désagrégées, et ce, à plus forte raison si Ton se
concentre sur une catégorie de population ou d'usagers particulière. Pour cela,
peuvent être mobilisées les enquêtes ménages déplacements (EMD) locales.

62 Concernant la motorisation des ménages et l'usage des véhicules, une autre enquête
nationale, le Panel Parc Auto Sofres analysé par TINRETS-DEST, offre des possibilités
d'analyse importantes.
63 S'ils ne sont pas en cours de scolarisation ; ou pour un scolaire ou étudiant du ménage
tiré au hasard parmi l'ensemble des individus actuellement scolarisés.
172 Pratique et méthodes de sondages

20.3.2 Les enquêtes ménages déplacement locales

Réalisées périodiquement dans les grandes agglomérations françaises depuis


les années 70, les EMD sont construites autour d'un recueil de la mobilité de
la veille (jours de semaine, hors vacances scolaires) des différents membres
de plus de quatre ans des ménages enquêtés. Les EMD respectant
généralement la méthodologie standard définie par le Certu (Centre d'Etudes
sur les Réseaux, les Transports, l'Urbanisme et les constructions publiques),
leurs résultats sont comparables spatialement et temporellement. L'aire
d'étude inclut au moins le périmètre des transports urbains (PTU) et tend à
s'élargir au moins au SCOT (Schéma de Cohérence Territoriale), offrant des
informations sur la mobilité des résidents périurbains, voire de certaines zones
rurales proches comme à Grenoble (2001-02) ou à Lyon (2005-06).
Un relevé des fréquences habituelles d'usage des modes de transport
mécanisés complète les informations sur l'usage des modes de la veille
(Certu, 2008). Ce relevé fréquentiel se révèle en particulier très utile pour bien
circonscrire l'exposition au risque routier d'usagers de modes rares comme le
deux-roues motorisé, pour lesquels le recueil des déplacements de la veille
n'est pas suffisant. Toutefois, le recours aux EMD ne permet pas de connaître
l'exposition au risque des usagers des différents modes de transport pendant
les week-ends et les vacances scolaires (Pochet, Haddak, Licaj, Vari,
Randriantovomanana et Mignot, 2010). Un enrichissement des bases EMD
avec des données contextuelles sur les zones de résidence à l'aide
d'informations sur les Iris apparaît potentiellement très utile, il se heurte
toutefois concrètement à la non-concordance du découpage le plus fin des
EMD avec le découpage en Iris.
Aucune information spécifique aux accidents routiers n'est demandée dans
les EMD locales. Toutefois, dans le cas du département du Rhône où l'on
dispose à la fois du registre Arvac (en ne considérant que les accidents
intervenus en semaine, hors vacances scolaires), et de l'EMD de 2005-06
(réduite au département du Rhône), le rapprochement de ces deux types
d'informations rend possible, pour des catégories d'âge, de genre et socio-
territoriales (par exemple pour des zones avec/sans Zone Urbaine Sensible)
l'estimation des taux d'exposition au risque routier par mode de transport
(Pochet et coll., 2010).

20.4 Des enjeux d'harmonisation, de mise en


relation et d'enrichissement des bases de
données

Au niveau européen, dans la perspective de la mise en place d'un


Observatoire Européen en Sécurité Routière (ERSO), le projet SafetyNet (6e
programme-cadre de recherche et de développement puis le projet DaCoTA,
3. Enquêtes sociales 173

« Road safety Data Collection, Transfer and Analysis » (7e PCRD), visent en
particulier à harmoniser et à mettre en commun les données de sécurité
routière au sein de la base CARE (y compris les nouveaux pays membres) et à
l'enrichir par l'adjonction de diverses données communes : données
d'exposition au risque, indicateurs de performance en sécurité routière. Des
actions de recherche visent également à harmoniser les enquêtes, de mobilité
des ménages notamment, à l'aide des nouvelles technologies, comme l'action
Cost Shanti. Citons aussi la 3e enquête sur le comportement des conducteurs
européens (SARTRE3, 2006).
Au plan national, le paysage des bases de données se transforme très
rapidement ces dernières années, par l'essor de nouveaux réseaux de bases de
données : réseau Quetelet en sciences humaines et sociales, plateforme
PLASTICO64 en épidémiologie (Goldberg, Quantin, Guéguen et Zins, 2008).
Sous cette impulsion, les débats autour de l'évolution du fichier BAAC et des
accès aux PV, la création d'une plateforme intégratrice à l'Inrets autour de la
question des grandes bases de données en transport65 montrent des évolutions
vers une meilleure intégration des différentes bases de données (Fontaine,
Gourlet, L'Hoste et Muhlrad, 2003). La mise en relation des données de
nature très diverse (de trafic, de mobilité, d'accident, d'ordre
socioéconomique) laisse néanmoins ouvertes différentes questions : autour
des enjeux institutionnels d'une mise en place d'une plateforme scientifique
et technique commune et des enjeux réglementaires ; du respect des règles de
la commission nationale de l'informatique et des libertés (Cnil) ; des aspects
techniques concernant les modalités d'appariement individuel de données à
caractère personnel et l'enrichissement de bases de données par la fusion
d'informations issues de fichiers de source différente ; et des modalités de
centralisation et de mise à disposition en retour, aux chercheurs, des bases de
données ainsi constituées.

BIBLIOGRAPHIE

Amoros, E., Martin, J.-L. et Laumon, B. (2007). Estimating non-fatal road


casualties in a large French county, using the capture-recapture method.
Accident Analysis and Prévention, vol. 39, n03, 483-490.
Bayart, C., Bonnel, P. et Morency, C. (2009). Survey mode intégration and
data fusion: Methods and challenges. Dans Transport survey methods:
Keeping up with a changing world, (Eds., P. Bonnel, M. Lee-Gosselin,
J. Zmud et J.-L. Madré), Bingley (UK), Emerald, 587-611.

64 PLAte-forme Scientifique et Technique pour l'aide à la gestion de COhortes et de


grandes enquêtes) est financée par ITReSP (Institut de Recherche en Santé Publique).
65 Bases de Données en Sécurité Routière : http;//pfï-bdsr.inrets.fr/.
174 Pratique et méthodes de sondages

Certu (2008). L'Enquête Ménages Déplacements «Standard Certu », Guide


méthodologique, Lyon, (Éd., du Certu - Coll.) « Références ».
Alam, T., Fleury, D., Godillon, S., Medikane, M., Millot, M, Peytavin, J.-F.
et Saint-Gerand, T. (2010). Inégalité sociale et risque routier, l'apport d'une
approche territorialisée. Les Cahiers Scientifiques du Transport, n057,
45-62.
Fontaine, H., Gourlet, Y., L'Hoste, J. et Muhlrad, N. (2003). Inventaire
critique des données nécessaires à la recherche en sécurité routière.
Rapport de convention DSCR/INRETS.
Goldberg, M., Quantin, C., Guéguen, A. et Zins, M. (2008). Bases de données
médico-administratives et épidémiologie : intérêts et limites. Courrier des
Statistiques, n0124, 59-70.
Haddak, M., Pochet, P., Vari, J., Licaj, I., Randriantovomanana, E. et
Mignot, D. (2009). Enquêtes pilotes, projet Isomerr Jeunes rapport de
convention n02, DRI - Prédit G02, Inrets - Let.
Insee (2008). Enquête Nationale Transports et Déplacements 2007-2008.
Questionnaire, Paris, Insee, Direction Générale.
Pochet, P., Haddak, M., Licaj, L, Vari, J., Randriantovomanana, E. et
Mignot, D. (2010). Différenciations et inégalités sociales de mobilité chez
les jeunes. Analyses de l'enquête ménages déplacements de Lyon 2005-
2006, projet Isomerr Jeunes rapport de convention n03 DRI - Prédit G02,
Inrets - Let.
SARTRE3 (2006). Les conducteurs européens et le risque routier, (Éd.,
Inrets). Rapport sur les analyses approfondies, http://sartre.inrets.fr, Vol. 2.
Madré, J.-L., et Maffre, J. (1994). L'enquête transports et communications
1993-94. Courrier des Statistiques, n069.
FFSA (2003). Assurance automobile : les sinistres corporels en 2002. Paris.
Chapitre 4

Enquêtes économiques

1. Traitement des données administratives

pour leur utilisation dans les enquêtes

auprès des entreprises de Statistique

Canada

1
Richard LAROCHE

1.1 Contexte

Les données administratives constituent une source précieuse de


renseignements sur plusieurs aspects de la société. Leur utilisation dans les
enquêtes menées par les organismes officiels de statistiques procure de réels
avantages, les principaux étant la réduction du fardeau de réponse et la
diminution des coûts associés à la collecte des données.
Statistique Canada, dont le rôle consiste, entre autres, à recueillir, analyser
et publier des renseignements statistiques sur les activités sociales et
économiques du pays, se sert abondamment des données administratives dans
le cadre de ses nombreuses enquêtes auprès des entreprises. Cela est possible
parce que l'Agence du revenu du Canada (ARC), responsable de percevoir les
taxes et les impôts au nom du gouvernement du Canada, partage plusieurs
ensembles de données avec Statistique Canada.

1 Statistique Canada, Division des méthodes d'enquêtes auprès des entreprises, Ottawa,
Canada. Courriel : richard.laroche@statcan.gc.ca.
176 Pratique et méthodes de sondages

Parmi les données partagées, soulignons le fichier d'impôt des entreprises


constituées en société, le fichier d'impôt des entreprises non constituées en
société, le fichier de la taxe sur les produits et services (TPS), ainsi que le
fichier des retenues salariales.
De nombreux défis se posent au moment de l'utilisation des données
administratives n'ayant pas été recueillies à des fins statistiques. Cet article
présente quelques-unes des difficultés rencontrées lors de l'utilisation de ces
données administratives, ainsi que les étapes de traitement élaborées pour
surmonter ces difficultés. Il sera particulièrement question du fichier d'impôt
des entreprises constituées en société.

1.2 Utilisations

Dans les enquêtes auprès des entreprises de Statistique Canada, les données
administratives peuvent être utilisées aux fins suivantes : création et mise à
jour de bases de sondage, vérification et imputation, tabulation directe,
remplacement de la collecte des données, variables auxiliaires, validation,
évaluation. Le lecteur peut consulter Yung, Rancourt et Hidiroglou (2007)
pour une description plus détaillée des différentes utilisations des données
administratives.

1.3 Quelques difficultés

Le fichier le plus important pour les enquêtes annuelles auprès des entreprises
est celui qui concerne l'imposition des sociétés. La présente section donne
une liste non exhaustive des obstacles rencontrés lors de son utilisation.
Même si ces difficultés sont décrites dans un contexte bien précis, celles-ci
sont communes à plusieurs sources de données administratives. Lavallée
(2007) donne une liste élargie de ces difficultés.

1.3.1 Erreurs

Même si certaines vérifications sont normalement effectuées par l'organisme


responsable de recueillir les données administratives, la raison d'être de ces
vérifications n'est pas la production de statistiques fiables et de qualité.
Parfois, peu de contrôle est effectué sur certaines variables. Certaines erreurs
de saisie, de cohérence ou de codage peuvent donc se glisser dans les fichiers
administratifs.

1.3.2 Variables optionnelles

Même si le fichier d'impôt des entreprises constituées en société compte


plusieurs centaines de variables, seulement huit d'entre elles sont obligatoires.
4. Enquêtes économiques 177

Certaines des variables optionnelles sont pourtant essentielles pour les


programmes d'enquêtes.

1.3.3 Variables génériques

Les variables génériques sont utilisées par les entreprises ne pouvant fournir
de renseignements détaillés. Étant donné que les différentes enquêtes ont,
entre autres, besoin des variables détaillées à l'étape de l'estimation, ces
variables génériques doivent nécessairement être réparties parmi les détails
qui leur sont associés.

1.3.4 Concepts

Les définitions sur lesquelles les données fiscales sont fondées ne coïncident
pas toujours avec celles qui doivent être utilisées dans les enquêtes pour des
raisons d'uniformité avec le Système de comptabilité nationale ou pour les
besoins d'analyse. Un outil est donc nécessaire pour faire le lien entre les
deux concepts.

1.3.5 Actualité

Pour permettre aux enquêtes utilisant les données administratives de terminer


les étapes de vérification, d'imputation et d'estimation dans les plus brefs
délais, une base de données fiscales complètes pour l'année de référence Y Y
doit être disponible au plus tard le 30 septembre YY + l. Or, en date du
30 septembre YY + l, des données pour environ 70 % des entreprises ont été
reçues de l'ARC. Les données administratives ne sont donc pas toutes
disponibles au moment où leur utilisation est requise.

1.3.6 Structure

L'information reçue de l'ARC est au niveau de la structure juridique. Ce


genre de structure détermine ce qu'est l'entreprise au point de vue légal. Une
entité juridique peut, par exemple, exploiter plusieurs usines et être
propriétaire d'entreprises de commerce de gros et de détail. Une base de
sondage composée d'entités juridiques ne conduirait pas à un plan
d'échantillonnage efficace pour une enquête ciblant un secteur d'activité
précis. Il s'avère donc nécessaire de transformer la structure juridique
(composée d'entités hétérogènes) en une structure statistique (composée
d'entités homogènes).

1.4 Traitement

Les difficultés présentées à la section précédente peuvent toutes être


surmontées grâce aux méthodes de traitement décrites ci-dessous. Plus de
178 Pratique et méthodes de sondages

détails sur ces méthodes peuvent être obtenus dans Andrews, Hamel,
Martineau et Rondeau (2007).

1.4.1 Vérifications et corrections

Dès leur réception à Statistique Canada, les données du fichier d'impôt des
entreprises constituées en société sont vérifiées et corrigées, le cas échéant.
Le processus commence par la détection des valeurs aberrantes. Ensuite, on
vérifie l'équilibre des états financiers en s'assurant de l'égalité de certaines
équations de base. On s'assure également que la somme des composantes
d'une section donnée est égale au total de la section.
Il arrive parfois que des champs ne pouvant prendre que des valeurs
positives soient négatifs (et vice-versa). Lorsqu'une telle situation se produit,
ces valeurs sont transférées dans un champ équivalent où elles prendront une
valeur positive (ou négative dans la situation contraire).
D'autres vérifications, telles que celles portant sur la présence de
chevauchement des périodes fiscales pour un même enregistrement ou la
cohérence entre le revenu calculé à des fins comptables et le revenu calculé
aux fins de la Loi de l'impôt sur le revenu, sont aussi effectuées.
Les erreurs sont corrigées de façon systématique s'il est possible de le
faire ; des corrections manuelles sont effectuées dans le cas contraire.

1.4.2 Imputation déterministe

Lorsque des données historiques ou des données similaires provenant d'autres


sources administratives sont disponibles, ces renseignements sont utilisés
pour imputer de façon déterministe certaines variables. Lorsqu'une variable
est imputée, un montant équivalent est soustrait d'un autre champ afin de
conserver l'équilibre des états financiers et de ne pas modifier le total des
revenus et des dépenses.
Les variables les plus importantes traitées par cette méthode sont les
inventaires, les amortissements, ainsi que les salaires et traitements.

1.4.3 Désagrégation des variables génériques

Les états financiers fournis par les entreprises sont formés de différentes
sections nommées « bloc ». Un bloc est en général composé d'une variable
générique et d'un ou de plusieurs détails. La variable générique est un champ
de type « non classé ailleurs » et sert à déclarer les montants qui ne l'ont pas
été dans les champs détaillés. Les variables génériques sont fréquemment
utilisées, car la déclaration des champs détaillés n'est pas obligatoire.
Lorsqu'un montant apparaît dans le champ générique d'un bloc, il doit être
réparti parmi les détails de ce même bloc dans le but d'éviter une sous-
estimation de ces détails. L'idée générale derrière la méthodologie utilisée
4. Enquêtes économiques 179

pour désagréger les variables génériques est simple, mais son élaboration et sa
mise en œuvre ont présenté de nombreux défis. Cette méthodologie peut
brièvement être résumée par les trois étapes suivantes :
a) définir des classes homogènes à partir des entreprises ne déclarant
que des détails pour un bloc donné ;
b) déterminer la classe à laquelle appartient une entreprise déclarant un
générique pour le bloc considéré ;
c) utiliser, dans chaque classe, la distribution des détails des répondants
pour imputer les détails des entreprises ayant déclararé un générique.

Cette méthodologie nécessite un travail de modélisation rigoureux. Voir


Huang et Ladiray (2005) pour plus de détails.

1.4.4 Lien entre données fiscales et données d'enquête

Dans le but d'uniformiser et de rendre comparable les données recueillies par


les différentes enquêtes de Statistique Canada et les données administratives
reçues de l'ARC, Statistique Canada a créé le Plan comptable. Ce dernier est
une méthode uniforme de mise en correspondance des données de l'impôt sur
le revenu, des variables d'enquête ainsi que des concepts du Système de
comptabilité nationale (Brodeur et Ravindra, 2007).
Un tel système de classification donnant des liens solides entre le domaine
des enquêtes auprès des entreprises et celui des données administratives est
essentiel pour utiliser les renseignements fiscaux, afin de remplacer ou
compléter les données d'enquête. En plus de rendre les deux ensembles de
données comparables, il a comme avantage de normaliser les enquêtes tout en
simplifiant les questionnaires.

1.4.5 Imputation massive

L'imputation massive est la solution employée pour remédier au problème


d'actualité des données administratives. Deux méthodes sont utilisées pour
imputer les données du fichier d'impôt des entreprises constituées en société
non reçues de l'ARC. Si des données fiscales sont disponibles pour l'année
précédente, une imputation historique avec tendance est utilisée. Sinon, une
imputation par plus proche voisin est effectuée (les variables d'appariement
proviennent alors soit du fichier de la TPS, soit de données historiques, soit
du registre des entreprises de Statistique Canada). A la suite du processus
d'imputation, la base de données est mise à jour à chaque mois. Les données
réelles nouvellement reçues remplacent alors les données imputées.
180 Pratique et méthodes de sondages

1.4.6 Création des unités statistiques

Au Canada, 99 % des entreprises ont une structure simple, c'est-à-dire


qu'elles oeuvrent dans une seule sphère d'activité et dans un seul endroit
géographique. Pour ces entreprises, les structures juridique, opérationnelle
(représentation des activités liées à la production de biens et à la prestation de
services) et statistique sont les mêmes. Pour les entreprises restantes, on
définit d'abord la structure opérationnelle au moyen d'un exercice de
profilage qui se fait en communiquant avec les entreprises. Cette structure
opérationnelle est par la suite convertie en indicateurs statistiques à quatre
niveaux (entreprise, compagnie, établissement, emplacement). Ces
indicateurs, offrant une description normalisée des activités de l'entreprise,
constituent la structure statistique.

1.5 Lignes directrices

Statistique Canada a élaboré des lignes directrices pour toutes les étapes
principales d'une enquête (Statistique Canada, 2009). Certaines de ces lignes
directrices ont trait à l'utilisation des données administratives. En voici
quelques-unes :
- utiliser les données administratives lorsqu'elles constituent une
solution de rechange rentable à la collecte de données ;
- entretenir des liens avec le fournisseur des dossiers administratifs ;
- documenter la nature et la qualité des données administratives.

Ces lignes directrices sont toutes mises en pratique. Par exemple, des
réunions bilatérales entre Statistique Canada et l'ARC ont lieu régulièrement,
un document résumant la qualité des données administratives est produit
chaque année (voir Lebreux et MacEachem, 2009) et des initiatives sont en
cours pour trouver des moyens d'accroître l'utilisation de données
administratives.

1.6 Remerciements

L'auteur remercie Claude Julien, Pierre Lavallée, Abdelnasser Saïdi, François


Brisebois et Dominique Lavoie pour leurs commentaires judicieux.
4. Enquêtes économiques 181

BIBLIOGRAPHIE

Andrews, J., Hamel, N., Martineau, P. et Rondeau, C. (2007). Methodology


for the Processing and Imputation of Corporations Data. Produit n0l 1-617E
2007-009 au catalogue de Statistique Canada.
Brodeur, M., et Ravindra, D. (2007). Enquête unifiée auprès des entreprises -
nouveaux horizons. International Conférence on Establishments Surveys.
Montréal, 18 au 21 juin 2007.
Huang, R., et Ladiray, D. (2005). Imputation de distributions dans les données
fiscales administratives. Recueil du Symposium 2005 de Statistique Canada,
produit n0l 1-522-X1F au catalogue de Statistique Canada.
Lavallée, P. (2007). E&I Stratégies to Improve Statistics Using Tax Data:
Discussion Paper. International Conférence on Establishments Surveys.
Montréal, 18 au 21 juin 2007.
Lebreux, J., et MacEachern, K. (2009). Evaluation de la qualité des données
sur les sociétés incorporées (T2) produites par la Division des données
fiscales - Données 2008. Document interne.
Statistique Canada (2009). Statistique Canada : lignes directrices concernant
la qualité, produit n012-539-X au catalogue de Statistique Canada.
Yung, W., Rancourt, E. et Hidirouglou, M. (2007). Administrative data in
Statistics Canada's business surveys: The présent and the future. Seminar
on Registers in Statistics - methodology and quality. Helsinki, 21 au 23 mai
2007.

2. Ajustement des estimations pour le

programme des Statistiques financières

trimestrielles des entreprises

Pierre DAOUST2 et James BRENNAN 3

2.1 Introduction

Le programme des Statistiques financières trimestrielles des entreprises


(SFTE) est la principale source de renseignements récente à Statistique
Canada en ce qui concerne le secteur des entreprises privées constituées en
société. Le programme publie des estimations sur les variables normalisées de
la comptabilité, y compris les bénéfices, les comptes et épargnes des bilans et
les investissements au Canada. Ces renseignements sont utilisés par le

2 Pierre Daoust, Statistique Canada. Courriel ; pierre.daoust@statcan.gc.ca.


3 James Brennan, Statistique Canada. Courriel : james.brennan@statcan.gc.ca.
182 Pratique et méthodes de sondages

gouvernement fédéral, les banques et les autres institutions, et fournissent un


intrant essentiel pour le Système de comptabilité nationale (SCN) du Canada.
La méthodologie d'estimation du programme trimestriel implique un
ajustement des poids d'échantillon pour quelques entreprises influentes, ainsi
qu'un calage de ces poids selon des caractéristiques importantes des sociétés
actives au trimestre courant. Les estimations trimestrielles non désaisonnalisées
sont par la suite étalonnées annuellement aux Statistiques financières et
fiscales annuelles (SFFA), un recensement de données financières disponibles
environ un an après la fin de l'année de référence.
La méthodologie d'estimation du programme trimestriel sera détaillée à la
section 2.2. Des résultats sur l'ampleur des ajustements mentionnés seront
présentés à la section 2.3 et la section 2.4 résumera quelques initiatives visant
la réduction de cette ampleur. Enfin, la conclusion suivra à la section 2.5.

2.2 Méthodologie d'estimation du programme


trimestriel

2.2.1 Plan de sondage

Le Relevé trimestriel des états financiers (RTEF), l'enquête principale du


programme trimestriel, recueille des renseignements auprès des entreprises
privées constituées en société pour 80 agrégats industriels de l'économie
canadienne. La base de sondage du RTEF est extraite du Registre des
entreprises (RE) de Statistique Canada (Statistique Canada, 2007).
La population du RTEF est stratifiée par agrégat industriel et par taille,
selon le revenu d'exploitation et les actifs des entreprises. En général, dans
chaque agrégat industriel, les plus grosses entreprises forment la strate à tirage
complet (TC), les entreprises de taille moyenne forment une ou deux strates à
tirage partiel (TPI et TP2), et les petites entreprises forment la strate à tirage
nul (TN).
Les limites des strates sont calculées lors d'un trimestre d'actualisation ;
elles sont définies pour atteindre la précision désirée pour l'estimation du
revenu et des actifs, et sont fixées pour les trimestres suivants. Seuls les actifs
sont considérés pour les industries financières (banques, caisses populaires,
etc.) puisqu'ils représentent généralement un indicateur plus efficace de
l'importance économique de ces entreprises.
Un échantillon aléatoire simple stratifié est sélectionné. Lors du trimestre
d'actualisation, l'échantillon est choisi afin de maximiser la couverture avec
l'échantillon du trimestre précédent (Kish et Scott, 1971). Pour les trimestres
suivants, l'échantillon est mis à jour suite aux changements de la population
enquêtée (décès et naissances) et pour tenir compte de quelques entreprises
ayant connu une très forte croissance. La taille de l'échantillon total est
4. Enquêtes économiques 183

d'environ 5 500 entreprises. Plus de détails peuvent être obtenus dans Daoust,
Bohossian, Gauthier, Deniers et Nicholas (2008) et Bohossian, Daoust et
Gauthier (2009).

2.2.2 Estimation de totaux des agrégats industriels

Les estimations sont dérivées distinctement pour deux composantes ; la


population enquêtée (les strates à TC et à TP) et la population à tirage nul
(strate à TN). Le poids selon le plan d'échantillonnage de quelques unités
influentes est préalablement ajusté (forcé à 1), afin d'éviter des problèmes
importants de précision des estimations.
Pour la population enquêtée, le Système généralisé d'estimation de
Statistique Canada (Équipe de soutien de Système généralisé d'estimation,
2005) est utilisé afin d'ajuster les poids d'échantillon selon les effectifs de la
population de post-strates, extraits du RE pour le trimestre courant estimé.
Ces post-strates sont définies selon les 80 agrégats industriels et les limites de
strate des revenus et des actifs.
Pour la population à TN, l'estimation pour chaque agrégat industriel se fait
en multipliant une estimation de la variation entre le trimestre précédent et le
trimestre courant, qui est dérivée selon les données de la partie enquêtée ainsi
que des renseignements connexes extérieurs à l'enquête, par l'estimation de la
population à TN du trimestre précédent.

2.2.3 Étalonnage des estimations trimestrielles selon


les totaux des statistiques annuelles

L'étalonnage des estimations trimestrielles non désaisonnalisées des SFTE


selon les totaux annuels des SFFA redresse les estimations de la composante à
TN, et ajuste la partie enquêtée afin de la rendre complémentaire à la partie à
TN. Cela permet d'éviter des problèmes de couverture, tout en cherchant à
améliorer les estimations de variables plus volatiles (tels les bénéfices).
L'étalonnage se fait pour la plupart des 80 agrégats industriels, une fois que
les données des SFFA sont publiées, et est refait une année plus tard à partir
de données révisées. L'étalonnage est fait séparément pour la population
enquêtée et la population à TN, tel que décrit dans le tableau 4.1.
Dans le tableau 4.1 YT(d,) (où T= 1,2, 3,4) représente les estimations
trimestrielles du total d'une des 59 variables communes entre les programmes
trimestriels et annuels pour un agrégat industriel dh et FT ^(r//) a la même
définition pour une variable détaillée des SFTE liée à cette variable commune.
La valeur Rk (d;) représente le quotient entre l'estimation du total d'une
variable détaillée des SFTE et d'une variable commune, estimé selon les
données du quatrième trimestre des SFTE. Finalement, AT {dj ) est une
allocation trimestrielle de l'ajustement annuel dérivée à l'aide des estimations
trimestrielles de quelques variables importantes des SFTE. Les ajustements
184 Pratique et méthodes de sondages

trimestriels sont utilisés pour l'année de référence correspondante aux


données des SFFA, et sont également projetés aux estimations des années
futures.

Tableau 4.1 : Étape de l'étalonnage des SFTE selon les SFFA

Variables des
Étape Variables des bilans
états de revenus

Ajustement annuel pour

<<f
une variable commune
NO

ii
i

entre les SFTE et SFFA T=l

Ajustements annuels
pour les m variables
détaillées des SFTE Kid,) = Âid,) * R^d,)
liées à une variable
commune (/< = 1, ..., m)
Ajustements trimestriels
pour les variables ÂT,, w = M4) * Àjid,)
des SFTE
Estimations
trimestrielles ajustées =
^T,*, Ajustée CO ^T.kid/) + ÂT
des SFTE

Ce processus est complété par une substitution de données au niveau des


entreprises, où les valeurs imputées pour des entreprises simples non-
répondantes de l'enquête trimestrielle sont remplacées par des valeurs
rapportées selon des déclarations fiscales récentes.

2.3 Ampleur des ajustements aux estimations


des SFTE

2.3.1 Post-stratification

La figure 4.1 donne un aperçu de l'ampleur des ajustements pour les trois
premiers trimestres de 2009 selon les actifs, les revenus d'exploitation et les
bénéfices d'exploitation.
L'ajustement est relativement petit pour tous les trimestres (moins de 1 %)
pour les industries non financières (nf). Le premier trimestre fut un trimestre
d'actualisation. On note ensuite que l'incidence des ajustements augmente à
mesure que l'on s'éloigne de cette actualisation, ce qui est tout à fait
prévisible. Par contre, les ajustements sont pratiquement nuls et plus
irréguliers pour les industries financières (f). Cela est lié à la dominance des
entreprises à tirage complet dans la population enquêtée de ces industries.
4. Enquêtes économiques 185

Figure 4.1 : Ampleur de la post-stratification


Industries financières et non financières
Différence (après calage-avant calage)

1,0% -
0,8% - □ f actifs
□ f revenus
0,6% - □ f bénéfices
0,4%
□ nf actifs
0,2% - ZI nf revenus
0,0% a nf bénéfices
0,2%

2.3.2 Étalonnage selon les statistiques annuelles

La figure 4.2 illustre l'incidence de cet ajustement pour le premier trimestre


des années 2003 à 2007 pour les actifs, les revenus d'exploitation et les
bénéfices.
Pour les industries non financières (nf), les ajustements sont relativement
petits, en particulier pour les revenus et les actifs qui sont utilisés pour la
stratification et le calcul de la taille de l'échantillon dans le plan de sondage.
En revanche, pour les industries financières (f) les ajustements sont plus
importants pour les revenus et les bénéfices, qui sont plus volatiles que les
actifs pour ces industries et qui ne sont pas utilisés dans le plan de sondage.

Figure 4.2 : Ampleur de l'étalonnage

Industries financières et non financières


Différence (après ajustement-avant ajustement)

10,0%
□ f actifs
5,0% "I a f revenus
i f bénéfices
0,0% LTjj i da. ^J] rJ L
□ nf actifs
-5,0% 1 □ nf revenus
nf bénéfices
-10,0%
T1 2003 T1 2004 T1 2005 T1 2006 T1 2007
186 Pratique et méthodes de sondages

2.4 Quelques initiatives de réduction de


l'ampleur des ajustements

2.4.1 Stabiliser la population enquêtée/échantillonnée

La première initiative vise en grande partie à améliorer l'estimation des flux


financiers selon les SFTE. La stabilisation de la population enquêtée ou
échantillonnée permettra de réduire l'importance des ajustements par calage,
et permettra de mieux contrôler les projections futures des ajustements aux
estimations trimestrielles entre les cycles d'actualisation.
Différents aspects de l'actualisation de l'échantillon sont présentement à
l'étude, qui vise à établir un équilibre entre le maintien d'un plan de sondage
efficace pour les estimations trimestrielles et la nécessité de garder aussi
stable que possible la variation des estimations entre trimestres et l'estimation
des flux financiers. Les aspects suivants sont considérés :
a) Changer la fréquence du processus d'actualisation : le cycle est passé
d'une actualisation aux cinq ans avant 1999 à une actualisation
annuelle entre 1999 et 2009.
b) Considérer des fréquences différentes d'actualisation selon les
caractéristiques des agrégats industriels, puisque la population de
certaines industries évolue plus rapidement que d'autres.
c) Considérer une actualisation avec des limites de strates fixes (plutôt
qu'une actualisation complète, avec détermination de nouvelles
limites de strates) afin d'ajuster la répartition de l'échantillon entre
les trimestres d'actualisation complète.

Pour les trimestres de mise à jour, des zones tampons sont présentement à
l'étude. La zone tampon est une règle de résistance utilisée afin de réduire la
migration des entreprises entre les strates ou post-strates. Dans la figure 4.3,
simplifiée à une dimension, les flèches pâles indiquent les unités pour
lesquelles la migration n'est pas permise, tandis que les flèches foncées
indiquent où cela est permis. Une première version a été mise en œuvre pour
restreindre le mouvement des unités entre la partie à TP vers la strate à TC au
premier trimestre 2010. Une étude effectuée en 2009 a aussi démontré que de
petites zones tampons permettraient de restreindre considérablement les
mouvements d'unités entre la partie enquêtée et la partie à tirage nul.
4. Enquêtes économiques 187

Figure 4.3 : Zone tampon

TC
..tt Ne permet
TI pas de migrer
TPI . ■ /
^

TP2 W T r~
Permet de migrer
jJL.
——n
TN

2.4.2 Améliorer les estimations de la composante à


tirage nul

La divergence des tendances de la population enquêtée et celles de la


population à tirage nul, notée pour quelques agrégats industriels, provoque
parfois des lacunes pour l'estimation de la variation entre les trimestres de la
portion à TN selon les données de la population enquêtée. Des alternatives
sont considérées, en particulier l'utilisation des données de la taxe sur les
produits et services. Cette approche, restreinte à certains agrégats industriels,
pourrait permettre soit de valider l'estimation actuelle, soit d'améliorer la
méthodologie actuellement employée en tenant compte de cette information
auxiliaire.

2.4.3 Améliorer la méthodologie de l'étalonnage selon


les données annuelles

La méthodologie de l'étalonnage selon les données annuelles pourrait


possiblement être améliorée. Quelques idées ont été suggérées :
a) Synchroniser les composantes de population enquêtée et de la
population à TN par appariement des bases de sondage des
programmes trimestriels et annuels.
b) Procéder à des ajustements partiels, par exemple par estimation
composite entre l'estimation trimestrielle et le total des données du
programme annuel.
c) Analyser d'autres approches potentielles en considérant l'expertise du
Centre de recherche et d'analyse en séries chronologiques de
Statistique Canada.
188 Pratique et méthodes de sondages

2.5 Conclusion

Les ajustements apportés aux estimations pour le programme des SFTE se


justifient par l'évolution dynamique de la population enquêtée et de son
échantillon, ainsi que par la disponibilité du programme des SFFA qui permet
de maintenir une estimation fiable de la population à tirage nul et d'améliorer
les estimations de quelques variables plus volatiles de la population enquêtée.
Des initiatives sont en cours afin de réduire l'ampleur de ces ajustements,
principalement afin de réduire la variation des estimations entre trimestres,
ainsi que d'améliorer l'estimation des flux financiers.
Les auteurs aimeraient remercier Sylvie Gauthier, Michelle Simard,
Danielle Lebrasseur, Dominique Lavoie et Jean Leduc pour les commentaires
constructifs.

BIBLIOGRAPHIE

Daoust, P., Bohossian, N., Gauthier, S., Deniers, G. et Nicholas, J. (2008).


Quarterly survey of fmancial statistics for enterprises. Actes de conférence,
Section des méthodes d'enquête, Société statistique du Canada.
Bohossian, N., Daoust, P. et Gauthier, S. (2009). The sample design of the
quarterly survey of fmancial statements: Review and improvements. Actes
de conférence, Section des méthodes d'enquête, Société statistique du
Canada.
Kish, L., et Scott, A. (1971). Retaining units after changing strata and
probabilities. Journal of the American Statisîical Association, vol. 66,
n0335, 461-470.
Statistique Canada (2007). Statistics Canada Business Register - A Brief
Guide. Statistique Canada, Rapport technique.
Équipe de soutien du Système généralisé d'estimation (2005). GES v4.3
Overview. Statistique Canada, Rapport technique.
4. Enquêtes économiques 189

3. L'Implémentation du manuel EDIMBUS

à l'OFS

Daniel KILCHMANN4

3.1 Introduction

Le manuel EDIMBUS (Editing and Imputation in Cross-Sectional Business


Surveys in the European Statistical System), Luzi, Di Zio, Guamera, Manzari,
De Waal, Pannekoek, Hoogland, Tempelman, Hulliger et Kilchmann (2007), qui
décrit les bonnes pratiques pour la préparation statistique des données
d'enquêtes transversales auprès des entreprises, a été développé dans le projet
EDIMBUS. Ce projet était une collaboration des instituts nationaux de
statistique d'Italie (1STAT), des Pays-Bas (CBS) et de la Suisse (OFS), et a
été partiellement financé par Eurostat.
L'Office fédéral de la statistique a décidé de définir ses processus de
préparation statistique des données et de standardiser leur suivi en se basant
sur le manuel EDIMBUS. Le service de méthodes statistiques a été chargé de
mener à bien ce projet en collaboration avec les différentes unités de
production. En parallèle, la restructuration des processus informatiques,
entreprise dans l'ensemble de l'OFS, a permis de mettre en œuvre sur le plan
informatique les concepts principaux et les recommandations les plus
importantes du manuel EDIMBUS.
Après un bref résumé de l'état actuel à l'OFS et de l'historique du manuel
EDIMBUS, nous présenterons le projet d'implémentation et ensuite son état
d'avancement pour des enquêtes auprès des entreprises.

3.2 État actuel à l'OFS

Les enquêtes de l'OFS sont traditionnellement organisées indépendamment


l'une de l'autre. Les processus de préparation statistique des données (PPSD),
souvent appelés 'plausibilisation', validation, contrôle des données,
apurement, etc., sont ainsi organisés et mises en œuvre différemment. Ces
différences se manifestent dans le procédé adopté et les méthodes
implémentées ainsi que dans la documentation du PPSD. Une standardisation
est nécessaire pour améliorer la comparabilité, la qualité du PPSD et les
données résultantes.

4 Office fédéral de la statistique, Neuchâtel, Suisse.


Courriel : daniel.kilchmann@bfs.admin.ch.
190 Pratique et méthodes de sondages

Cette standardisation est facilitée par différents projets de modernisation en


cours à l'OFS qui consistent à redéfinir :
- les enquêtes auprès des entreprises en introduisant leur coordination,
- le recensement de la population (enquête registre complétée par des
enquêtes par échantillonnage à partir de 2010),
- le système informatique (production centralisée, d'outils partagés),
- le manuel de gestion de projets5.

3.3 Manuel EDIMBUS

Un projet dans le domaine de la préparation statistique des données (PSD) a


été encouragé par Eurostat sur la base du code de bonnes pratiques. 11 avait
pour objectifs de développer un outil pour l'harmonisation de la PSD dans le
Système Statistique Européen et d'améliorer la qualité dans les instituts
nationaux de statistique (INS).
Le projet EDIMBUS a été lancé afin de rassembler les bonnes pratiques
existantes de la PSD. Ce projet a duré de janvier 2006 jusqu'en juillet 2007 et
a bénéficié d'un financement partiel d'Eurostat.
Le manuel EDIMBUS résulte de ce projet et couvre tous les aspects du
PPSD. 11 sert aux responsables des enquêtes comme base pour évaluer ou
redéfinir leurs PPSD.

3.4 Implémentation du manuel EDIMBUS à


l'OFS

Bien que le service de méthodes statistiques de l'OFS encourage l'application


des résultats de différents projets européens, comme EUREDIT Project
(2004) et DACSEIS Project (2004), aucun procédé généralisé du PPSD est
appliqué à ce jour. L'OFS a décidé de se baser sur le manuel EDIMBUS pour
introduire un tel procédé, ce qui revient à une standardisation couvrant la
procédure de conception du PPSD, la stratégie pour tester les méthodes, en
partie les méthodes de contrôle des données et d'imputation ainsi que le
contrôle et la documentation du PPSD. Quatre actions ont été définies pour
arriver à cette fin à l'OFS :
1. Etablir des lignes directrices couvrant tous les aspects du PPSD.

5 Le manuel de gestion de projets de l'OFS englobe toutes les étapes de gestion de la


première esquisse visant à décrire la production d'une statistique jusqu'à l'introduction
du processus de production.
4. Enquêtes économiques 191

2. Préparation d'une liste d'indicateurs standard utiles à mesurer la


qualité des données et à évaluer l'impact du PPSD sur les résultats et
son pilotage. Il s'agit d'un sous-ensemble d'indicateurs du manuel
EDI M BUS complété pour les besoins de l'OFS et regroupé selon le
public cible des différentes publications de l'OFS.
3. Meilleure incorporation du PPSD dans le manuel de gestion de
projets.
4. Soutien à la modélisation du PPSD afin de faciliter l'évaluation du
potentiel d'optimisation du PPSD.

L'implémentation finale est planifiée pour la fin de l'année 2010 pour les
premières enquêtes auprès des entreprises. Par contre, l'évaluation du
potentiel d'optimisation ne peut se faire qu'après deux à trois cycles de
l'enquête. Toutes les enquêtes de l'OFS devraient être standardisées à long
terme sur la base des premières implémentations du manuel EDI M BUS.

3.4.1 Standardisation de la PSD

La standardisation de la PSD est définie afin d'atteindre les trois buts


fondamentaux de la PSD définis dans Granquist et Kovar ( 1997) :
1. Evaluer la qualité des données brutes au début de la PSD.
2. Améliorer la qualité de l'enquête.
3. Préparer des données pour l'analyse.

Il s'ensuit qu'il est indispensable de séparer la détection de valeurs


inconsistantes de leurs traitements et d'utiliser des flags de contrôle et de
traitement afin d'évaluer la qualité des données brutes et de pouvoir améliorer
la qualité de l'enquête.
Un élément essentiel de la standardisation est la définition du PPSD lequel
peut être divisé en trois phases, figure 4.4.
La première phase a été appelée préparation initiale des données dans le
manuel EDIMBUS et commence dès que des données brutes (et codées) sont
disponibles sous forme électronique. Cette phase consiste à détecter et traiter
des erreurs dont on connaît la cause et l'unique valeur d'imputation possible
(changements de valeurs et imputation pour des valeurs manquantes) pour
résoudre le problème.
La deuxième phase s'appelle micro-préparation des données et réunit la
détection d'inconsistances au niveau individuel et le traitement des valeurs
manquantes et inconsistantes selon la décision lors de la préparation sélective
('Influence' dans la figure 4.4). La préparation sélective répartit le flux des
données selon l'influence des observations sur les résultats finaux dans une
partie traitée interactivement (rappels téléphoniques, recherche d'informations
complémentaires, etc.) et une partie traitée avec des méthodes automatiques.
192 Pratique et méthodes de sondages

Le but de la préparation sélective est de limiter les cas à traiter


interactivement aux observations influentes parce que ce traitement est en
règle générale non-reproductible et plus coûteux que le traitement
automatique. Un potentiel d'optimisation de la PSD réside souvent dans
l'utilisation et la définition de la préparation sélective.

Figure 4.4 : PPSD dans le processus de production d'une enquête

Imliahsation Données
hrules

Conception + Préparation Phase 1 :


réalisation initiale Préparation initiale des données

Enquête + Inlluence ?
saisie
Phase 2 :
Micro-préparation des données
l'I'SI ) Préparation Préparation
interactive automatique

Analyses Macro- Phase 3 :


préparation Macro-préparation des données

Rapports Qualité ?

Fin Fin

La troisième phase s'appelle macro-préparation des données et englobe la


détection de valeurs aberrantes et toutes les comparaisons des estimations
avec la dernière enquête et des sources externes pour détecter des résultats et
évolutions inhabituels. La détection des problèmes se fait donc à un niveau
macro tandis que le traitement s'effectue en règle générale au niveau micro.
Le PPSD peut différer d'une statistique à l'autre mais il est toujours
composé des phases mentionnées ci-dessus. Le modèle du PPSD peut, et dans
certains cas, doit être adapté selon :
- le type de l'enquête ; la phase de macro-préparation précède souvent
celle de micro-préparation dans des enquêtes conjoncturelles à cause
des délais de production des résultats,
- le nombre de variables de l'enquête ; les variables de moindre
importance ne sont souvent pas traitées interactivement,
- l'utilisation de données administratives spécifiques à chaque
enquête ; leur disponibilité peut influencer le déroulement du PPSD.
4. Enquêtes économiques 193

L'évaluation de l'efficacité et de l'impact des différentes méthodes utilisées


requiert la sauvegarde de l'état des données à différentes étapes du PPSD, par
exemple après chaque phase. Cette fonctionnalité de sauvegarde est donc un
pré-requis pour le nouveau système informatique.

3.4.2 Méthodes standard

Les méthodes implémentées peuvent être différentes selon l'enquête, mais il y


a un ensemble de méthodes communes dans les enquêtes auprès des
entreprises. Ces méthodes ne couvrent pourtant pas entièrement le PPSD.
1. Préparation initiale : la majorité des enquêtes procède à des
imputations déterministes basées sur des règles. Un outil
d'importation dans SAS depuis un fichier Excel a été développé.
2. Micro-préparation : des évolutions inhabituelles de valeurs au niveau
de l'observation sont détectées à l'aide de la méthode de Hidiroglou-
Berthelot (Hidiroglou et Berthelot, 1986).
3. Macro-préparation : des valeurs extrêmes sont détectées à l'aide de la
règle MAD (médian absolute déviation). Soit yk la valeur de
l'observation k de la variable y et S l'échantillon tiré dans une
population U. La médiane des yk, med = mcdk€Syk, est utilisée pour
calculer les résidus par rapport à celle-ci : rk = yk - med. Le MAD
est définie par la médiane des valeurs absolues des résidus,
mad = med^lrj. Les valeurs qui dépassent un intervalle autour de
med sont alors détectées comme valeurs extrêmes :

med ± c' • mad, où c' = c ■ 1,4826.

Le paramètre c doit être choisi par l'utilisateur en fonction de la


distribution des résidus. Une autre méthode courante à l'OFS consiste
à utiliser un estimateur par le quotient robuste en une étape (one-step
ratio-estimator), Hulliger (1999). Cet estimateur permet soit de re-
pondérer les valeurs extrêmes soit d'utiliser les poids de
robustification pour les détecter.

3.5 État d'avancement

La deuxième version des lignes directrices et la liste des indicateurs standard


seront soumises à la consultation interne de l'OFS cet été, puis intégrées dans
le nouveau manuel de gestion de projets utilisé dès début 2011.
Le soutien à la modélisation du PPSD est terminé, car les responsables des
enquêtes ont acquis les connaissances nécessaires pour le faire. Le service de
méthodes statistiques de l'OFS est chargé de la supervision.
L'implémentation du manuel EDIMBUS est en cours pour différentes
enquêtes auprès des entreprises (Indice de la production, des commandes et
194 Pratique et méthodes de sondages

des chiffres d'affaires dans la construction. Statistique de la production et de


la valeur ajoutée, Dépenses de protection de l'environnement des entreprises)
et pour toutes les enquêtes liées au nouveau recensement. D'autres enquêtes
auprès des entreprises suivront ces prochains mois.
Citons à titre d'exemple l'enquête sur l'indice de la production, des
commandes et des chiffres d'affaires, qui est une enquête conjoncturelle. Il
s'agit en fait d'une enquête 'pilote' avec implémentation du manuel
EDTMBUS dans une enquête auprès des entreprises. Les buts de ce pilote du
point de vue de l'implémentation du manuel EDIMBUS sont les suivants :
1. Evaluer l'effet du modèle EDIMBUS sur la qualité, la transparence et
la reproductibilité de la PSD.
2. Evaluer le potentiel d'optimisation après trois cycles de l'enquête
pour déterminer si possible des règles pour la préparation sélective.
3. Implémenter des méthodes standard de contrôle et d'imputation
également applicables dans d'autres enquêtes.

Le PPSD a débuté en avril 2010 par des rappels téléphoniques et a duré


jusqu'en juin. Il est donc un exemple d'un PPSD adapté aux besoins de
l'enquête, vu qu'il n'y avait pas de préparation initiale.

3.6 Conclusions

La standardisation du PPSD nécessite un procédé coordonné se basant sur des


lignes directrices couvrant tous les aspects du PPSD et résultant dans des
procédés standardisés de gestion de projets et de modélisation du PPSD. Un
procédé généralisé pour le PPSD ne peut être implémenté de manière efficace
que si une implémentation adéquate au niveau informatique, qui répond aux
besoins d'archivage du PPSD et fournit des outils partagés, est disponible.
L'étendue de la standardisation ne peut pas être définie de manière rigide au
préalable à cause de la nécessité d'adaptation du PPSD aux besoins d'une
enquête. D'où le besoin de lignes directrices définissant le cadre pour le
PPSD et servant de base de décision pour juger les modifications du PPSD
standard.
Le gain en efficacité dû à l'implémentation du manuel EDIMBUS ne peut
être évalué qu'après plusieurs cycles d'une enquête. Par contre le gain en
transparence et reproductibilité est mesurable dès la première application.
4. Enquêtes économiques 195

BIBLIOGRAPHIE

DACSEÏS Project (2004). Data Quality in Complex Surveys within the New
European Information Society, http://www.dacseis.de.
EUREDIT Project (2004). Towards Effective Statistical Editing and
Imputation Stratégies - Findings of the Euredit project.
http://www.cs.york.ac.iik/eiiredit/results/resiilts.html.
Granquist, L., et Kovar, J. (1997). Editing of survey data: How much is
enough? Dans Survey Measurement and Process Quality. New York : John
Wiley & Sons, Inc. 415-435.
Hidiroglou, M.A., et Berthelot, J.-M. (1986). Contrôle statistique et
imputation dans les enquêtes-entreprises périodiques. Techniques
d'enquête, 12, 1,79-89.
Hulliger, B. (1999). Simple and robust estimators for sampling. Dans
Proceedings of the Section of Research Methods, American Statistical
Association, 54-63.
Luzi, O., Di Zio, M., Guamera, U., Manzari, A., De Waal, T., Pannekoek, J.,
Hoogland, J., Tempelman, C., Hulliger, B. et Kilchmann, D. (2007).
Recommended Practices for Editing and Imputation in Cross-Sectional
Business Surveys.

4. Winsorisation sur les enquêtes

annuelles auprès des entreprises

françaises

6 7
Fabien GUGGEMOS et Philippe BRtON

4.1 Des entreprises aux caractéristiques


atypiques, mais non aberrantes

Les enquêtes sectorielles annuelles (ESA), menées par l'Institut national de la


statistique et des études économiques (Insee), permettent de recueillir les
valeurs d'un grand nombre de variables économiques d'intérêt auprès d'un
échantillon d'entreprises françaises. Elles fournissent de ce fait les données à
partir desquelles sont produites annuellement les statistiques structurelles
d'entreprises, par branches et par secteurs d'activité.

6 Institut national de la statistique et des études économiques, Direction des statistiques


d'entreprises, Paris. Courriel ; fabien.guggemos@insee.fr.
7 Institut national de la statistique et des études économiques, Direction des statistiques
d'entreprises, Paris. Courriel : philippe.brion@insee.fr.
196 Pratique et méthodes de sondages

Comme dans toute autre enquête statistique, la présence de points atypiques


au sein des ESA est cependant inévitable. La notion de point atypique
recouvre l'ensemble des entreprises dont les caractéristiques (variables
d'intérêt, poids...) diffèrent fortement de celles observées en moyenne sur
l'ensemble de la population d'entreprises considérée. Comme on est
confronté à des variables d'intérêt positives à distribution asymétrique, les
points atypiques désignent plus précisément les entreprises aux valeurs des
variables très élevées.
Les erreurs, qu'elles soient commises lors du remplissage des
questionnaires par les entreprises ou lors de la saisie de ces derniers, sont
souvent avancées comme principale source d'explication à la présence de
points atypiques. Pourtant, d'autres facteurs justifiant le caractère atypique
d'une entreprise existent et nécessitent, a posteriori, un traitement statistique
éventuellement distinct des méthodes traditionnelles de corrections d'erreurs.
Dans les ESA, comme dans l'ensemble des enquêtes statistiques, on
retrouve ainsi régulièrement des entreprises dont les réponses ou le poids de
sondage, bien qu'anormalement élevés en comparaison avec les autres unités
de leur strate d'appartenance, ne sont pas entachés d'erreurs de mesure. On
qualifie alors de telles entreprises de points atypiques non aberrants,
correspondant au concept de représentative outliers souvent évoqué dans la
littérature anglo-saxonne.
Ce phénomène est essentiellement dû au décalage temporel existant entre
les données utilisées pour établir le plan de sondage des ESA et celles
récoltées au cours de celles-ci. En effet, pour définir l'échantillon de
l'enquête, les entreprises sont d'abord classées par strates homogènes en
fonction de leur taille - mesurée en termes d'effectifs - et de leur secteur
d'activité ; ces deux infonnations doivent donc être déjà disponibles dans la
base de sondage et de ce fait provenir de sources passées (ESA de l'année
précédente par exemple). Lorsque les entreprises répondent à l'enquête de
l'année en cours, celles ayant connu entre-temps un changement de secteur
d'activité ou une forte hausse de leurs effectifs ont des valeurs qui les
« positionneraient » ailleurs que dans la strate dans laquelle elles sont
affectées par le plan de sondage.

4.2 Winsoriser, un moyen d'améliorer la qualité


des estimations

Ces points atypiques non aberrants sont très problématiques dans la mesure
où ils contribuent à augmenter fortement l'instabilité des estimateurs utilisés
pour produire les statistiques par branches et par secteurs. En effet, selon
qu'ils sont présents ou non dans l'échantillon de l'enquête, ces statistiques
peuvent prendre des valeurs très différentes ! En d'autres termes, s'ils ne font
4. Enquêtes économiques 197

pas l'objet d'un traitement adéquat, la précision des statistiques produites et


diffusées est médiocre.
Mais modifier les caractéristiques d'un point atypique non aberrant n'est
pas non plus pleinement satisfaisant ! Celles-ci n'étant pas entachées d'erreurs
de mesure, leur réévaluation non seulement n'est pas naturelle, mais introduit
en outre du biais dans les estimations.
Il s'agit donc de trouver une procédure scientifique réalisant un bon
compromis entre ces deux considérations contradictoires. Jusqu'à présent, en
présence d'entreprises aux valeurs extrêmement élevées comparées à leurs
semblables, la pratique la plus commune consistait à ramener à 1 le poids de
sondage de telles entreprises pour limiter leur influence. Cette méthode, certes
simple dans son application, ne reposait pas sur des arguments
scientifiquement établis. Dorénavant, des techniques dites de winsorisation
seront utilisées pour traiter les points atypiques non aberrants dans le cadre
des ES A, assurant un compromis optimal entre l'amélioration de la précision
des statistiques structurelles et l'introduction d'un faible biais en contrepartie.
Ces procédures tirent leur nom de Charles P. Winsor, éminent biostatisticien
né en 1895 et décédé en 1951.
Le principe de la winsorisation est extrêmement simple. Au sein d'une
strate h de taille Nh où l'échantillon d'enquête contient nh entreprises, on
considérera qu'une entreprise i de poids de sondage whj est atypique dès lors
que son chiffre d'affaires yhi dépasse un seuil Kh prédéfini à l'avance.
Winsoriser consiste alors simplement à remplacer le chiffre d'affaires yhi par
une nouvelle valeur yhj, définie de la manière suivante :
c \
n
h h
1 - K
h si yu * K
h
y iu = v * V Nh y
'■
yhi si yhi < Kh.

Il s'agit bel et bien d'une procédure de traitement des points atypiques


puisque le chiffre d'affaires n'est en réalité modifié que pour les entreprises
où ce dernier est supérieur au seuil Kh. Dans ce cas, le chiffre d'affaires
« winsorisé » yhi constitue une révision à la baisse du chiffre d'affaires initial
yhi, réduisant ainsi la variance des données dans la strate h et par suite celle
des statistiques produites. On revient au paragraphe suivant sur la question du
traitement des variables « autres » que le chiffre d'affaires.
En agissant de la sorte, on s'assure en outre du respect des objectifs fixés.
En effet, plus le taux de sondage dans la strate est élevé, plus l'aléa
d'échantillonnage - donc l'instabilité des estimations - est faible, et moins le
traitement des points atypiques non aberrants se justifie. La forme
mathématique retenue pour yhi abonde en ce sens, puisque la correction
apportée par la winsorisation est d'autant moins importante que le taux de
sondage dans la strate se rapproche de 1.
198 Pratique et méthodes de sondages

La recherche du compromis optimal entre l'objectif de réduction de la


variance d'estimation et celui de limitation du biais repose alors sur le choix
des valeurs à utiliser pour les seuils de strates au-delà desquels les entreprises
sont considérées comme atypiques. 11 est aisé de voir que des seuils fixés trop
bas favorisent le premier objectif tandis qu'à l'inverse des seuils trop hauts
privilégient le second. La détermination des seuils à employer pour les ESA a
été effectuée en suivant une procédure proposée par Kokic et Bell (1994).
Celle-ci consiste à choisir les valeurs des seuils qui minimisent l'erreur
quadratique moyenne - somme de la variance et du carré du biais - des
statistiques que l'on souhaite produire. Kokic et Bell parviennent ainsi à
exhiber le jeu de seuils optimaux en se plaçant dans un cadre asymptotique,
bien adapté au contexte des ESA. Pour plus de détails à ce sujet, on renvoie le
lecteur à l'article de Kokic et Bell (1994).

4.3 Winsoriser le poids de sondage, une


approche équivalente, mais plus intuitive

Il faut souligner que la démarche décrite jusqu'à présent permet de détecter et


traiter les entreprises au chiffre d'affaires atypique, sans aucunement
considérer ni modifier les valeurs prises par les autres variables d'intérêt. Pour
chacune de ces dernières, on pourrait bien évidemment envisager d'appliquer
la même procédure de winsorisation et lui attribuer de la même façon un jeu
de seuils par strates. Cependant, agir ainsi détruirait la cohérence entre les
traitements des différentes variables puisqu'une entreprise pourrait être
considérée comme atypique pour certaines variables d'intérêt, mais pas pour
d'autres.
Aussi a-t-il été décidé pour les ESA d'appliquer la procédure de
winsorisation au chiffre d'affaires y, puis de modifier un certain nombre de
variables z selon les mêmes proportions. En d'autres termes, la valeur
prise par ces variables pour l'entreprise i sera remplacée par =
Zhj • (y/j/Zy/,/)- Le caractère atypique des entreprises n'est donc jugé qu'en
regard du chiffre d'affaires qu'elles déclarent. L'hypothèse, assez bien
vérifiée en pratique, d'une forte corrélation entre celui-ci et les autres
variables est donc nécessaire pour garantir la pertinence du traitement opéré
sur ces dernières.
En définissant de manière analogue le poids de sondage winsorisé
w
hi = whi ' (f/z/Zy/î/)' il est aisé de vérifier que le calcul des statistiques
prenant en compte le traitement des points atypiques non aberrants peut
s'effectuer de deux manières strictement équivalentes :
1. D'une part, utiliser les variables d'intérêt winsorisées, pondérées par
les poids de sondage initiaux ;
4. Enquêtes économiques 199

2. D'autre part, utiliser les variables d'intérêt initiales, pondérées par les
poids de sondage winsorisés.

La seconde approche présente l'avantage de ne modifier qu'une seule


quantité, le poids de sondage. De plus, elle épouse mieux l'idée « intuitive »
selon laquelle on préfère éviter de modifier une donnée non entachée
d'erreurs : pour contrer l'impact néfaste d'un point atypique non aberrant,
mieux vaut réviser à la baisse la pondération qui lui est associée.

4.4 Des tests probants

La procédure de winsorisation a été testée dans un premier temps sur des


données passées, celles des enquêtes annuelles d'entreprises de l'année 2007.
Alors que l'échantillon correspondant comprenait près de 150 000
entreprises, seulement 343 ont été détectées comme atypiques. Pour
l'ensemble des variables d'intérêt testées et la plupart des domaines de
diffusion, on observe malgré tout que winsoriser procure des gains importants
- voire très importants (jusqu'à 80 % dans certains cas) - en termes de
variance et d'erreur quadratique moyenne pour l'estimation de totaux ; tandis
que dans le même temps, le biais relatif (rapport du biais sur l'estimation)
induit demeure très faible, dépassant rarement le pourcent. Le tableau 4.2
illustre ces conclusions dans le cas particulier de l'estimation du total du
chiffre d'affaires dans les sous-secteurs constitutifs du commerce de détail.

Tableau 4.2 : Biais relatif et gains en erreur quadratique moyenne par


application de la procédure de winsorisation (estimation du total du
chiffre d'affaires dans les sous-secteurs du commerce de détail)
Domaines de diffusion Biais Gain en
relatif erreur
(en %) quadratique
moyenne
(en %)
Commerce de détail en magasin non spécialisé 0,166 30,588
Commerce de détail alimentaire en magasin spécialisé 0,360 3,392
Commerce de détail de carburants en magasin spécialisé 1,222 14,097
Commerce de détail d'équipements de l'information et de la
communication en magasin spécialisé 0,807 12,307
Commerce de détail d'autres équipements du foyer en
magasin spécialisé 1,731 50,829
Commerce de détail de biens culturels et de loisirs en
magasin spécialisé 0,475 12,706
Autres commerces de détail en magasin spécialisé 0,452 28,416
Commerce de détail sur éventaires et marchés 0,441 3,301
Commerce de détail hors magasin, éventaires ou marchés 0,627 20,502
200 Pratique et méthodes de sondages

Suite à ces tests probants, la procédure de winsorisation a été intégrée au


processus de production des statistiques structurelles d'entreprises de l'insee.
Il faut noter que deux éléments de complexité viennent interférer avec le
schéma classique relatif à l'utilisation de l'estimateur usuel, Xv^/.V/ ; le
premier est dû au fait que les poids initiaux sont, comme dans beaucoup
d'enquêtes d'ailleurs, modifiés en fonction d'un calage de l'échantillon, et est
donc à prendre en compte dans l'application de la procédure. Le deuxième est
lié à l'utilisation, pour la production de certaines statistiques, d'estimateurs
combinés mixant données administratives et données d'enquête (Brion,
2009). 11 est aisé de voir sur les formules de ces estimateurs composites que la
winsorisation appliquée à l'estimateur classique donne également, en général,
de la robustesse aux estimateurs combinés.

BIBLIOGRAPHIE

Brion, Ph. (2009). L'utilisation combinée de données d'enquête et de données


administratives pour la production des statistiques structurelles
d'entreprises. Communication aux Journées de méthodologie statistique de
l'Insee 2009.
Chambers, R.L. (1986). Outlier robust finite population estimation. Journal of
the American Statistical Association, vol. 81, n0396, 1063-1069.
Hidiroglou, M.A., et Srinath, K.P. (1981). Some estimators of a population
total from simple random samples containing large units. Journal of the
American Statistical Association, vol. 76, n0375, 690-695.
Kokic, P.N., et Bell, P.A. (1994). Optimal winsorizing cutoffs for a stratified
finite population estimator. Journal of Officiai Statistics, vol. 10, n04, 419-
435.
Searls, D.T. (1966). An estimator for a population mean which reduces the
effect of large true observations. Journal of the American Statistical
Association, vol. 61, n0316, 1200-1204.
4. Enquêtes économiques 201

5. Une procédure de détermination

automatique des seuils de

macrocontrôles par simulation sur

données passées

8
Emmanuel GROS

5.1 Le contrôle des données dans le système


Esane

Initiée en 2005, la rénovation du système de production de statistiques


structurelles d'entreprises a abouti en 2009 à la mise en production du
système Esane (Enquêtes Structurelles ANnuelles d'Entreprises). Cette
refonte s'est traduite par plusieurs changements méthodologiques majeurs (cf.
Brion (2009) pour plus de détails) : utilisation intensive des données
administratives et refonte des questionnaires en conséquence, production de
statistiques à l'aide d'estimateurs composites exploitant conjointement
données administratives et données d'enquêtes, mise en œuvre de techniques
de calage, nouveau processus de contrôle des données, etc.
En ce qui concerne le contrôle des données, le système retenu consiste en
un processus en deux étapes, qui combine microcontrôles automatiques et
vérification sélective des données. Dans un premier temps, une procédure de
contrôle-redressement automatique passe en revue les données individuelles,
afin de détecter et de corriger, via des techniques d'imputation, les données
les plus atypiques, ainsi que la non-réponse. Dans un second temps, une
procédure de vérification sélective des données est appliquée sur les données
issues de la première étape, afin de déterminer les unités à contrôler
manuellement.
Cette procédure de vérification sélective, qui constitue la pierre angulaire
du nouveau processus de contrôle des données, repose essentiellement sur
l'utilisation de scores mesurant l'impact d'une unité particulière sur une
statistique donnée. Ces scores permettent de classer les unités en fonction de
leur influence sur la statistique considérée : pour chaque score, une unité est
considérée comme influente si la valeur de son score dépasse un certain seuil,
à déterminer. Cette caractérisation des unités, score par score, sert ensuite de
base au calcul d'un indicateur de priorité global, qui permet in fine de
déterminer les unités pour lesquelles un contrôle approfondi par les
gestionnaires s'avère indispensable. On se reportera à Gros (2009) pour une

8 Institut national de la statistique et des études économiques.


Courriel : emmanuel.gros@insee.fr.
202 Pratique et méthodes de sondages

présentation plus détaillée du processus de contrôle des données du système


Esane.

5.2 La procédure de détermination automatique


des seuils

5.2.1 Principes théoriques

Le point le plus délicat de ce processus de vérification sélective réside dans le


réglage des seuils associés aux différents scores. Dans le cas d'une enquête
périodique, telle l'enquête sectorielle annuelle (ESA) qui se trouve au cœur du
système Esane, la meilleure méthode consiste à procéder par simulation à
partir des données des enquêtes passées. En effet, on dispose sur le passé à la
fois des données brutes, à contrôler, et des données finales, considérées
comme contrôlées manuellement et donc correctes, sur l'ensemble des unités.
Grâce à ce matériau, il est possible de calculer rétrospectivement chaque
score à partir des données brutes, puis d'observer l'évolution de la statistique
d'intérêt en fonction du nombre d'entreprises manuellement contrôlées (c'est-
à-dire pour lesquelles la donnée brute a été remplacée par la donnée finale), le
contrôle des unités s'effectuant par ordre de score décroissant. On obtient
alors une courbe similaire à celle de la figure 4.5, de laquelle on déduit, par
examen visuel, la valeur du seuil : ce dernier est choisi de manière à rendre
négligeable l'erreur de mesure résiduelle, qui résulte de la non-vérification de
certains questionnaires.
s
Figure 4.5 : Evolution de l'estimateur du chiffre d'affaires 2007 de la
branche « Commerce de détail alimentaire en magasin spécialisé » en
fonction du nombre d'entreprises contrôlées
16000D0Q

15500D0Q

15000000

l 450000 Q
-- ■ ■■—— —
y
l 4 00000 0
0 500 10 0 0 15 0 0 2000 2500 3000
4. Enquêtes économiques 203

Sur cet exemple, on constate que le contrôle des 500 unités les plus
influentes pour le score local considéré - soit moins de 20 % du total des
unités contrôlables - suffît pour obtenir un estimateur robuste : l'impact de
contrôles supplémentaires sur des unités moins influentes est quasiment nul.
En conséquence, le seuil de ce contrôle peut être défini comme la valeur du
score de la 500e unité.
Le nombre de seuils à calculer dans le cadre du système Esane se comptant
en centaine de milliers9, il est évidemment impossible de procéder par examen
visuel pour chaque série ; la méthode artisanale de détermination des seuils
décrite ci-dessus a donc été automatisée.
Cette procédure automatique s'appuie toujours sur l'analyse de l'évolution
de la statistique d'intérêt en fonction du nombre d'entreprises contrôlées, mais
le caractère négligeable de l'erreur de mesure résiduelle est cette fois-ci
mesuré à l'aune de l'erreur d'échantillonnage : le seuil est automatiquement
déterminé de telle sorte que l'erreur de mesure résiduelle soit dominée par
l'écart-type de l'estimation. En pratique, la valeur du seuil correspond au score
de la première entreprise10 à partir de laquelle l'estimation reste à l'intérieur
d'un intervalle centré sur l'estimateur final et de magnitude égale à un
pourcentage donné de l'écart-type de l'estimation".

5.2.2 Mise en œuvre pratique et problèmes rencontrés

L'application de cet algorithme aux macrocontrôles du système Esane


conduit, dans la majeure partie des cas, à des résultats satisfaisants et
conformes à l'esprit de la vérification sélective des données : les seuils ainsi
déterminés amènent à contrôler un nombre d'unités en général assez restreint.
Toutefois, cette procédure automatique se révèle particulièrement sensible à
la qualité des données passées, ce qui conduit à deux types de problèmes :
- d'une part, il subsiste dans les données utilisées pour les simulations
des unités affectées par des phénomènes particuliers (restructurations,
changement d'activité principale, etc.) dont l'effet ne peut être
détecté par les procédures classiques de vérification sélective, et qui
perturbent de ce fait le mécanisme de détermination automatique des
seuils (cf. figure 4.6, où une unité ayant un faible score s'avère avoir
un impact important sur l'agrégat du fait de son implication dans une
restructuration). Dans la procédure de contrôle du système Esane, de
telles unités seront systématiquement traitées en amont de la phase de
vérification sélective. En conséquence, nous avons neutralisé l'impact

9 Autant qu'il y a de croisements possibles type de score ® variable à contrôler ® niveau


de validation.
10 Repérée par la droite verticale rouge sur la figure 4.5.
11 Intervalle délimité par les deux droites horizontales rouges sur la figure 4.5.
204 Pratique et méthodes de sondages

de telles unités lors de la détermination automatique des seuils, de


façon à obtenir des seuils appropriés ;

Figure 4.6 : Exemple d'unité perturbatrice et correction de son impact

203ÛÛÛÛD

20200000

20 1 0000D

20000000

19900QDD
0 500 1000 1500

- d'autre part, il arrive pour certains secteurs que les erreurs de mesure
soient, dès le départ, négligeables devant l'erreur d'échantillonnage -
soit parce que la variance de l'estimateur était très importante sur le
passé, soit parce les entreprises avaient directement bien répondu lors
de l'enquête précédente - ce qui conduit à des seuils particulièrement
élevés, d'où un risque de sous-contrôle. Afin de prévenir ce risque,
un « filet de sécurité » a été mis en place, sous la forme d'un niveau
de seuil maximal toléré, ce qui assure qu'aucune unité importante ne
passe au travers des contrôles.

BIBLIOGRAPHIE

Brion, P. (2009). The implementaîion of the new system of French structural


business statistics. UN/ECE Work Session on Statistical Data Editing,
Neuchâtel.
Gros, E. (2009). Setting eut ojf scores for sélective editing in structural
business statistics: An automatic procédure using simulation study.
UN/ECE Work Session on Statistical Data Editing, Neuchâtel.
4. Enquêtes économiques 205

6. Estimation de l'offre céréalière au

Burkina Faso à partir de l'enquête

permanente agricole 2008-2009

12 13
Adama KOURSANGAMA et Ouambi YAMEOGO

6.1 Introduction

Le secteur agricole constitue, après celui du tertiaire, un des piliers de


l'économie burkinabé. En effet, le secteur agricole emploie plus de 75 % de la
population active et contribue pour environ 30 % à la formation du produit
intérieur brut du pays. Cependant, le pays connaît un faible taux de
commercialisation des produits céréaliers. Dans le souci d'augmenter l'offre
céréalière, des dispositions de collecte de données ont été prises. Aujourd'hui
avec le Recensement général de l'agriculture (RGA) dont la mission est
l'actualisation des données structurelles sur le monde rural, des indicateurs
tels que l'estimation du volume de la production agricole appréhendé à travers
l'enquête permanente agricole pourront être améliorés.
C'est dans ce contexte que cet article se propose d'exposer une
méthodologie de collecte de données basée sur un sondage à deux degrés
stratifié et dont l'objectif était l'estimation annuelle de la production
céréalière de la campagne 2008-2009.

6.2 Méthodologie

6.2.1 Champ du module pluvial

Le module pluvial couvre le milieu rural (le milieu urbain est exclu). Le
domaine d'étude ou domaine de significativité des résultats est la province.

6.2.2 Échantillonnage

Le module de base est suivi à travers un échantillon obtenu par l'application


d'un plan de sondage à deux degrés. Au premier degré, les unités primaires
sont les villages et au second degré les unités secondaires sont les ménages
agricoles. Au premier degré, 1 500 unités primaires ont été sélectionnées
suivant un tirage à probabilité inégale et sans remise. La probabilité

12 Ingénieur-Statisticien économiste à la Direction Générale de la Promotion de


l'Économie Rurale (DGPER). Courriel : koursanga@yahoo.fr.
13 Ingénieur-Statisticien à la Direction Générale de la Promotion de l'Économie Rurale
(DGPER). Courriel ; emmanona@yahoo.fr.
206 Pratique et méthodes de sondages

d'apparition d'une unité primaire est proportionnelle à sa taille en nombre de


ménages. Au second degré, 7 300 ménages sont sélectionnés à raison de cinq
(5) ménages par unité primaire. Les ménages ont été obtenus par tirage
aléatoire simple. Chaque ménage d'une même unité primaire a la même
probabilité d'apparaître dans l'échantillon.

a) Stratification

Afin d'améliorer la précision des estimations de la production végétale, les


ménages agricoles de chaque province ont été scindés en deux strates : la
strate des petits producteurs et la strate des gros producteurs. La stratification
a été faite par analyse des données des enquêtes agricoles passées et celles
issues du module agricole du RGPH 2006 (Recensement Général de la
Population et de l'Habitat) réalisé en tandem avec l'INSD (Institut Nationale
de la Statistique et de la Démographie).

Tableau 4.3 : Caractéristiques des strates


Moyenne
Taille
du Superficie de
Strate ménage l'exploitation Charrue Charrette Bœuf Âne
Ménage gros
11 5,5 ha 1 1 2 1
producteurs
Ménage petits
6 2,2 0 0 1 0
producteurs

En somme, les ménages de chaque province ont été scindés en deux strates.
Les unités primaires sont obtenues par regroupement des ménages d'un même
village appartenant à la même strate. Ainsi, un village peut se retrouver dans
les deux strates et formé ainsi deux unités primaires. C'est ce qui explique le
fait qu'on ait 1 500 unités primaires et 1 311 villages réels dans l'échantillon.

b) Répartition de l'échantillon entre les provinces

L'échantillon des 7 300 ménages a été fixé en fonction du niveau de précision


désiré pour l'estimation de la production végétale et fruitière. Sa répartition
entre les provinces a été faite selon l'allocation optimale qui consiste à
affecter un échantillon plus élevé aux provinces où le coefficient de variation
de la production céréalière est élevé par rapport à celle où il est moins élevé.
Cette allocation donne des résultats plus précis que l'allocation
proportionnelle où on repartit l'échantillon proportionnellement à la taille de
chaque province.
4. Enquêtes économiques 207

6.2.3 Les questionnaires

Le cahier 2, parmi les quatre cahiers constituant les questionnaires, est celui
utilisé pour estimer la production définitive. Les variables utilisées pour
l'estimation de la production par spéculation sont la superficie et le
rendement. L'ensemble des parcelles de tous les ménages échantillons sont
mesurés de façon objective à l'aide de boussoles et de rubans, et un carré de
rendement est posé sur chaque parcelle pour le calcul du rendement par
spéculation. La superficie d'une spéculation dans une province donnée est
obtenue en extrapolant la superficie obtenue dans chaque ménage échantillon
par le coefficient de pondération du ménage (il est l'inverse de la probabilité
d'apparition du ménage). Le rendement d'une culture (en pure, en principal
ou en secondaire) est obtenu par la moyenne simple des rendements obtenus à
l'aide des carrés de rendement posés sur les parcelles.

6.2.4 Méthode de calcul de la production prévisionnelle


de céréales

La méthode de prévision de la production de céréales est une combinaison de


la méthode déclarative (interview direct des producteurs) et de la méthode par
observations satellitaires de la biomasse.
La production prévisionnelle d'une spéculation pour l'année t est donnée
par :

P, = (1 + r*) x /?,_! x S,

avec
- P, : la production prévisionnelle de la campagne en cours ;
- : le rendement de la campagne passée ;
- 5, : la superficie de la campagne actuelle.

r est la variation attendue des rendements obtenue par une combinaison de la


méthode SIF (Statistique Agricole, Institution technique de coopération Agricole
et Famine Early Waming System Network)^ et de la méthode traditionnelle :

r* = (1 - a) x Rw + a x INDVICOR


- Rw : la variation des rendements attendue par le paysan obtenue par
interview (entre le 1 et le 15 septembre). Elle est égale à :

14 La méthode SIF correspond à la variation des rendements obtenus par les observations
satellitaires de la biomasse (TND1VCOR). Autrement dit, il s'agit du ratio des indices de
végétation entre la décade d'un mois donné (en octobre généralement) de la campagne
en cours par rapport à la même décade du même mois de la campagne passée.
208 Pratique et méthodes de sondages

Rw = -Q- - 1
1 +5
- (2 : le ratio entre la production attendue et la production de la
campagne passée obtenue par la déclaration du producteur ;
- 5 : la variation des superficies de la campagne en cours par rapport
aux superficies définitives de la campagne passée et est égale à :

S,-,
- IND/VCOR : la variation des rendements obtenue par les
observations satellitaires de la biomasse. C'est le ratio des indices de
végétation entre la décade d'un mois donné (en octobre
généralement) de la campagne en cours par rapport à la même décade
du même mois de la campagne passé ;
- a : la part de la variation du rendement expliquée par l'indice de
végétation. Des analyses ont montré qu'elle est supérieure à 75 %
(0,75 < a < 1).

6.2.5 Résultats de l'estimation

Tableau 4.4 : Présentation des résultats de l'estimation

Régions du pays Estimation de la Production


production effective réalisée
CENTRE 54 310 55 338
PLATEAU CENTRAL 202 335 172 676
CENTRE-NORD 271 757 275 417
CENTRE-OUEST 365 416 413 149
CENTRE-SUD 202 147 194 117
SAHEL 241 892 210 489
MOUHOUN 709 180 752 690
EST 300 108 513 488
CENTRE-EST 270 185 344 495
NORD 392 867 265 469
SUD-OUEST 254 496 255 983
HAUTS-BASSINS 579 195 661 909
CASCADES 194 661 210 348
BURKINA FASO 4 038 549 4 325 569
4. Enquêtes économiques 209

6.3 Conclusion

Ce présent article a eu pour objectif de présenter une méthodologie permettant


d'estimer la production céréalière de la campagne agricole 2008-2009. Cette
estimation répond à un double souci.
Premièrement, elle permet de comparer non seulement la production
prévisionnelle à celle définitive par région et même par province, et
deuxièmement, elle offre des perspectives d'orientation de politiques de
développement agricoles. L'intérêt de cette estimation est de permettre
d'évaluer l'impact des efforts étatiques sur le niveau de performance de
production des agriculteurs burkinabés dans un contexte de crise alimentaire
et de problème d'approvisionnement des marchés ruraux et urbains.

BIBLIOGRAPHIE

Ardilly, P. (1994). Les techniques de sondages. Paris, Technip.


Keho, Y. (2007). Notes de cours de sondages. Abidjan, Les cahiers de
l'ENSEA.
MAHRH/BCRA (2006-2010). Première phase du récemment général de
l'agriculture {RGA). Rapport d'analyse des résultats préliminaires.
Kaboré, M. (1997). Formulation d'une méthodologie pour l'enquête
maraîchère au Burkina Faso. Rapport technique, juillet.

7. La méthode des forêts aléatoires

appliquée à l'Observatoire de la Ruralité

dans le cadre du projet Campus Paysan

à Madagascar

Salima TAÏBI-HASSANI15 et Manasé BEZARA 16

7.1 Origine du projet : l'implication


d'enseignants-chercheurs nord-sud

Dans le cadre d'un modèle de développement local adapté « Campus


Paysan » à Tamatave -Madagascar, il a été reconnu que le volet observatoire
de la ruralité représente un des éléments clés du programme (Taïbi-Hassani,

15 Esitpa Rouen Lamsad & LMRS UMR 6085 France. Courriel : staibi@esitpa.org.
16 Laboratoire Raphaël Salem LMRS UMR 6085 France.
Courriel : manase.bezara@univ-rouen.fr.
210 Pratique et méthodes de sondages

Bezara et Rajaonarivelo, 2006). Près de 80 % de la population de Tamatave


vit principalement de l'agriculture mais sous sa fonne traditionnelle, il
s'ensuit une faible productivité et un niveau de rendement très bas. Face à
cette situation, l'Université de Tamatave a fait appel à différents partenaires
pour l'accompagner à s'engager dans une voie de recherche de solutions et
devenir un outil développement local. Dans cette perspective le projet
Campus Paysan a été mis en place et a pour mission de fonner des paysans
(campusards) et de détecter des paysans leaders. Le campus paysan est un
espace universitaire délocalisé, pour la formation et la promotion de la
ruralité. Il a été initié en 2005 dans le cadre d'une coopération décentralisée
entre les Régions Haute-Normandie (France) et Tamatave (Madagascar) en
partenariat avec l'Esitpa. Il s'inscrit résolument dans le cadre des orientations
stratégiques du développement rural. C'est dans ce contexte qu'un dispositif
de collecte de données a été mis en place, l'observatoire de la ruralité de
Tamatave (ODRT). En effet, il est important de disposer de données exactes
et actualisées tant pour évaluer les progrès et planifier les investissements que
pour assurer l'efficacité des analyses et de la mise en œuvre du projet (Reyes
et Due, 2009). Le questionnaire porte sur les critères de différenciation des
structures d'exploitation et des niveaux de productivité rizicole ainsi que des
degrés de diversification et de valorisation des productions et des conditions
socio-économiques d'amélioration des revenus.

7.2 L'Observatoire de la Ruralité de Tamatave

Le questionnaire est structuré en plusieurs parties décrites ci-dessous.


L'analyse des résultats a pour premier objectif, de mieux apprécier la situation
des paysans et d'avoir une cartographie des productions de la Région et pour
second objectif de mesurer l'impact du projet. Plus précisément, cet
observatoire permettra de mieux connaître les spécificités de la population
rurale, d'identifier les détenninants de la productivité rizicole des
exploitations agricoles locales, d'élaborer des indicateurs technico-
économiques. Enfin, il permettra aussi de tester le modèle développement
« Campus Paysan », d'adapter le contenu des formations à l'évolution des
besoins du milieu rural et d'orienter les activités de production aux demandes
des marchés.

7.2.1 Le questionnaire

Les différentes parties du questionnaire sont décrites ci-dessous.


1. Situation globale de l'exploitation : main d'œuvre familiale, niveau
d'instruction de l'individu enquêté, surface exploitée, assolements,
types d'élevages et effectifs, statut des terres,...
4. Enquêtes économiques 211

2. Critères de productivité rizicole : Type de rizière, Quantité produite


sur une année et niveau d'autosuffisance, capacité d'achat en riz,
densité de semis, modes de fertilisation, accès à l'irrigation,...
3. Modes de commercialisation : Lieux de vente, fréquence des ventes,
temps de déplacement sur les lieux de vente,...
4. Trajectoire de Texploitation : destination des productions, motivation
au changement, transmission de l'exploitation,...
5. Attentes en terme de développement agricole : types de services à
proximité et accès, facteurs limitants de la productivité agricole,
intérêts des regroupements de paysans,...
6. Niveau de richesse : sources de revenus, revenus et dépenses,...

7.2.2 Méthodologie pour la Région d'Atsinanana

D'abord une première phase a été réalisée pour évaluer le dispositif, 12


villages ont été sélectionnés. 180 questionnaires ont été exploités dans la
Région d'Analanjirofo et ont permis d'améliorer le questionnaire.
Le sondage stratifié à deux degrés a été privilégié. La Région d'Atsinanana
compte 84 communes rurales que nous avons classées par taille. Trois classes
ont été retenues. Nous avons procédé au tirage au sort de 10 communes dans
chaque classe et ensuite tiré au hasard 50 habitants par commune. Au total
1 500 exploitations ont été sélectionnées. Seuls 1 400 questionnaires ont été
totalement exploités pour la suite de l'étude.

7.3 Résultats

7.3.1 La méthode des forêts aléatoires

Léo Breiman (2001) a proposé une famille de méthodes de classification


appelée Random Forests (Breiman, 2001) basées sur le concept de
randomisation. Soit Y la variable réponse à expliquer, Xi, ..., X,, les p
variables d'entrées, et n le nombre d'observations. Une forêt aléatoire (RF)
consiste en un nombre arbitraire (un ensemble) d'arbres simples, utilisés pour
calculer un vote pour la classe la plus populaire (classification), ou dont les
réponses sont combinées (moyennées) pour obtenir une estimation de la
variable dépendante. En utilisant les RF, nous obtenons une amélioration
significative de la prévision par rapport aux techniques classiques telles que
CART (Prasad, Iverson et Liaw, 2006 ; Peters, De Baerts, Verhoest, Samson,
Degroeve, De Becker et Huybrechts, 2007). La méthode des forêts aléatoires
a été mise en œuvre sur le logiciel Statistica Data Miner en utilisant un
échantillon d'apprentissage pour estimer la règle d'affectation et un
échantillon test pour tester le modèle respectivement de taille 1 000 et 400.
212 Pratique et méthodes de sondages

Au total 200 arbres on été utilisés dans les deux analyses qui suivent. Une
centaine de facteurs a été prise en compte.

7.3.2 Étude sur l'autosuffisance

Nous avons essayé d'expliquer les raisons de l'autosuffisance à partir de


l'ensemble des données d'enquêtes. La question « Êtes vous autosuffisant en
riz ? » est à réponse binaire (oui ou non). Les résultats sur les échantillons
d'apprentissage et test nous montrent d'excellents taux de classement (86 %
et 83 %). La méthode des forêts aléatoires a permis de dégager les critères qui
expliquent le mieux l'autosuffisance alimentaire. En effet un agriculteur sera
autosuffisant s'il est ouvert sur le monde extérieur et entrevoit d'autres
possibilités que l'agriculture comme métier pour ses enfants ou pour lui-
même, vit plutôt en famille (et non pas en groupe, ou seul) s'oriente vers une
culture de rente comme le poivre, mais évite la culture du café et s'oriente
vers la production vivrière en priorité, utilise une densité de semis élevée, et
évite de mélanger les types différents d'agriculture. Enfin, il se dégage qu'il a
fait des études, anticipe sur l'avenir, vit dans un lieu accessible par route ou
proche d'un lieu de vente. Les cultures du riz et du maïs sont parmi ses
priorités.

7.3.3 Étude sur le rendement en riz

En appliquant la méthode des forêts aléatoires pour expliquer le rendement en


riz, il en résulte les constats suivants. Le rendement en riz est plus élevé si,
par ordre d'importance le paysan malgache, travaille seul, utilise une densité
de semis élevé vend principalement dans une grande ville (et non pas au
village ou au marché) a accès aux produits vétérinaires directement au sein de
son village, ne vit pas loin de son lieu de vente et maîtrise les techniques
d'irrigation. La matrice de confusion nous renvoie un taux d'individus bien
classés excellent aussi bien sur l'échantillon d'apprentissage (95 %) que sur
l'échantillon test (90 %).

7.4 Conclusion

Cette étude a permis de nous éclairer sur les critères à prendre en compte pour
améliorer le rendement d'une exploitation. Les résultats de cette enquête
permettent à l'équipe technique du Campus Paysan de mieux adapter les plans
de formations et répondre aux besoins des campusards (rizipisciculture,
gestion, irrigation, soins vétérinaires, micro crédits...).
L'Observatoire de la Ruralité de Tamatave constitue un outil d'analyse de
la situation agricole dans la Région et permet de collecter des données pour
dégager des indicateurs fiables de développement local et mesurer l'impact du
Campus Paysan.
4. Enquêtes économiques 213

BIBLIOGRAPHIE

Breiman, L. (2001). Random Forests. Machine Leaming, 45, 5-32.


Peters, J., De Baerts, B., Verhoest, N.E.C., Samson, R., Degroeve, S.,
De Becker, P. et Huybrechts, W. (2007). Random forests as a tool for
ecohydrological distribution modelling. Ecological Modelling, 207,
304-318.
Prasad, A.M., Iverson, L.R. et Liaw, A. (2006). Newer classification and
régression tree techniques: Bagging and random forests for ecological
prédiction. Ecosystems, 9, 181 -199.
Taïbi-Bassani, S., Bezara, M. et Rajaonarivelo, R. (2006). Rapport de
Synthèse Campus Paysan. Université de Tamatave, Région Haute
Normandie, Esitpa, pages 28.
Reyes, C., et Due, E. (2009). Les faits, une arme contre la pauvreté. Le
système de suivi communautaire de la pauvreté. Centre de recherches pour
le développement international, 118.

8. Le Réseau des Observatoires Ruraux -

un outil alternatif pour l'analyse de la

vulnérabilité en milieu rural

17 18
Jossie RANDRIAMIANDRISOA et Nirina RABEVOHITRA

8.1 Étude de cas sur les ménages dirigés par


des femmes à Manakara et Farafangana -
Madagascar

Les observatoires ruraux ont été initialement mis en place à Madagascar en


1995 dans le cadre du projet MADIO (Madagascar-DIAL-Orstom-INSTAT)
afin d'illustrer à travers quatre sites les problématiques clés des économies
paysannes malgaches. En effet, des lacunes en matière d'informations
statistiques sur le milieu rural, et sur le secteur agricole en particulier, ont
prévalu alors que l'économie malgache a fait l'objet de mutations profondes
suite au lancement du Programme d'Ajustement Structurel au début des
années 1980.

17 Centre de recherche pour le Développement de l'Université Catholique de Madagascar


(CRD - UCM), Université de Versailles St-Quentin-en-Yvelines (UVSQ).
Courriel : randriajossie@yahoo.fr.
18 Réseau des Observatoires Ruraux (ROR). Courriel : bnirabevohitra@gmail.com.
214 Pratique et méthodes de sondages

Au terme de quatre années de phase expérimentale réussie, le ROR a été


créé en 1999 avec la mise en œuvre de 13 observatoires. Le ROR est reconnu
comme étant la seule source de données existant à Madagascar sur les
tendances en milieu rural et l'une des rares bases de données en Afrique
portant sur une période aussi étendue (DIAL, 2007)l9.
La concentration géographique des sites d'enquêtes rend la collecte de
données moins onéreuse et promeut ainsi les passages répétés de manière
annuelle. Dans ce sens, les observatoires ruraux contribuent à la production
d'informations statistiques régulières et à jour pour combler les données
représentatives qui ne peuvent être produites qu'avec des intervalles de temps
relativement étendus.
Par ailleurs, avec sa méthodologie de collecte de données, le ROR pennet
également la constitution d'un panel cylindré d'individus, un outil de
recherche d'importance cruciale pour l'analyse de la trajectoire des individus.
Mais il est également possible de réaliser un zoom sur une problématique
quelconque et de mettre en exergue des phénomènes pouvant passer inaperçu
à l'échelle des statistiques représentatives. Enfin, les données sont
d'envergure transversale et donc fortement intéressantes pour l'analyse de la
pauvreté ou de la vulnérabilité.

8.2 Une méthodologie fondée sur des valeurs


illustratives

Le ROR réalise des enquêtes à passages répétés, sur une base annuelle, dont
l'unité statistique est le ménage. Les investigations sont conduites sur un
échantillon de 500 ménages par observatoire en moyenne. Le mode
d'échantillonnage a recours à un choix raisonné, conçu en étroite
collaboration avec les opérateurs de terrain chargés de la collecte des données
et commandités par les partenaires financiers.
Les enquêtes ROR sont d'ordre rétrospectif et en vue d'assurer une
synchronisation avec le calendrier agricole, la période de référence s'étale
d'octobre de l'année «-là septembre de l'année n. Du fait de son échelle
d'intervention, les données du ROR ne font l'objet d'aucune représentativité
statistique, tant à l'échelle nationale que régionale. En conséquence, en
extrapoler les données ne peut être entrepris à moins d'une procédure
scientifiquement et statistiquement valable et rigoureuse. La vocation du ROR
consiste plutôt à illustrer une problématique particulière du monde rural, des
informations qui demeurent tout de même fidèles à la réalité des campagnes.

19 http://www.dial.prd.fr/dial_enquetes/dial_enquetes_observatoires.htm.
4. Enquêtes économiques 215

8.3 Démarche méthodologique de l'étude de cas

Pour vérifier l'hypothèse de plus grande vulnérabilité des ménages dirigés par
des femmes, la démarche méthodologique adoptée comprend trois étapes.
Dans un premier temps, une analyse comparative sur la base des dotations en
capital des ménages en fonction du genre du chef de ménage est effectuée.
Ensuite, une mesure de la vulnérabilité est proposée. Enfin, un modèle
économétrique de type probit est élaboré pour vérifier l'influence des
variables sociodémographiques (âge, sexe, niveau d'instruction du chef de
ménage, ratio de dépendance démographique et économique) ainsi que
d'autres variables relatives aux divers types de capital détenus par les
ménages sur la probabilité d'être pauvre ou non. Les données utilisées aux
fins de l'analyse sont tirées d'un panel de 712 ménages enquêtés de 2005 à
2008 dans les observatoires ruraux de Farafangana (403 ménages) et
Manakara (309 ménages) localisés dans le Sud-est de Madagascar. Par
rapport à l'ensemble du réseau, ces deux observatoires se caractérisent par
une incidence relativement élevée de ménages dirigés par des femmes,
environ un ménage sur quatre.

8.4 Des inégalités de genre beaucoup plus


marquées pour certains types de capital

Le capital physique, évalué à travers la possession de terres et de cheptel


bovin, et le capital humain, ramené à l'éducation du chef de ménage, ont été
particulièrement discriminants. Les résultats montrent, en moyenne, un accès
plus difficile des ménages dirigés par des femmes à la terre, à travers un
nombre de parcelles possédées plus faible, des superficies rizicoles cultivées
beaucoup plus étroites et une proportion plus importante de ménages
cultivateurs sans terre. De plus, les ménages dirigés par des femmes semblent
avoir plus de mal à constituer un cheptel bovin, un actif productif essentiel
mais aussi une fonne d'épargne de précaution.
Concernant l'éducation, les proportions de femmes chefs de ménages qui
ont été à l'école ou qui savent lire et écrire sont plus faibles, presque deux fois
moins élevées dans l'observatoire de Manakara, que pour leurs homologues
masculins. Dans ce dernier observatoire, les hommes chefs de ménage sont,
en moyenne, restés plus longtemps à l'école et comptent, en proportions, plus
de personnes ayant achevé le cycle primaire.
Les différences observées pour les variables relatives au capital social
(transferts) et financier (épargne) ne sont pas aussi marquées que pour les
deux types de capital précédents, cependant des disparités sont aussi
observées. Il apparaît que les ménages dirigés par des femmes ont plus de mal
à constituer une épargne, sous quelle que forme que ce soit. En revanche, ils
reçoivent plus souvent de transferts, en particulier de transferts entre ménages,
216 Pratique et méthodes de sondages

et la valeur moyenne des transferts reçus est beaucoup plus élevée. Il faut
toutefois souligner le caractère instable et précaire de ce type d'assurance
informelle.

8.5 Vulnérabilité et sexe du chef de ménage,


des situations différentes d'un observatoire
à l'autre

La mesure de la vulnérabilité proposée dans cet article a été inspirée des


travaux de Zhang et Wan (Zhang et Wan, 2008) qui ont défini la vulnérabilité
comme « la probabilité de tomber dans la pauvreté dans le futur ». Dans notre
cas, un seuil de pauvreté relative correspondant à 60 % du revenu médian de
chaque observatoire pour 2008 a été utilisé. La vulnérabilité dans cet article
correspond donc à la probabilité d'être parmi les pauvres de l'observatoire de
référence en 2008. La loi de distribution des revenus des ménages sur les trois
années précédentes (2005 à 2007) a ainsi été identifiée. Le test de normalité
de Shapiro et Wilk s'étant révélé positif, la fonction de densité de la loi
normale a été retenue avec comme paramètres le revenu permanent des
ménages et l'écart-type des revenus sur les trois années antérieures à 2008.
Les valeurs moyennes de cette mesure de la vulnérabilité révèlent qu'à
Farafangana, aucune différence significative n'est observée entre les deux
ménages dirigés par des femmes et les ménages dirigés par des hommes, la
probabilité d'être parmi les pauvres correspondent respectivement à 25 % et
26 %. En revanche, l'hypothèse de plus grande vulnérabilité des ménages
dirigés par des femmes est confirmée à Manakara où les ménages dirigés par
des femmes ont 19 % de chance d'être parmi les pauvres, contre 11 % pour
les ménages dirigés par des hommes. Les résultats obtenus à Farafangana
soulèvent ainsi des pistes de recherche futures quant à l'existence de
mécanismes qui compenseraient les désavantages initiaux des ménages
dirigés par des femmes sur le plan des dotations en capital.

8.6 Analyse de la vulnérabilité à travers des


tests probit

Les résultats des tests ont mis en évidence que les ménages dirigés par des
femmes ont significativement plus de chance d'être pauvres dans les deux
observatoires. En effet, le fait d'avoir un individu du sexe féminin à la tête du
ménage augmente de 18 % la probabilité d'être pauvre à Farafangana et de
15 % à Manakara. Par contre, le niveau d'instruction du chef de ménage
présente une influence négative sur la vulnérabilité dans les deux
observatoires.
4. Enquêtes économiques 217

Lorsqu'on a intégré les variables relatives aux dotations en capital des


ménages, les résultats ont laissé transparaître des disparités au niveau des
deux observatoires. Le sexe du chef du ménage demeure un facteur
déterminant de la vulnérabilité à Manakara ; le fait qu'un ménage soit dirigé
par une femme y augmente le risque de vulnérabilité de 6 %. Par opposition à
cela, cette variable n'a plus affiché d'influence significative sur la
vulnérabilité à Farafangana, ce qui rejoint les résultats présentés dans le
paragraphe précédent. En revanche, dans les deux observatoires, la détention
d'actifs fonciers et la possession d'épargne semblent être des atouts pour
réduire la vulnérabilité.
Les modèles élaborés dans cet article ont été simples mais ont néanmoins
pu dégager des résultats intéressants. Etant donné le caractère crucial des
analyses pointées sur la pauvreté et la vulnérabilité dans le contexte actuel de
la lutte contre la pauvreté, la présente étude peut fournir une piste de
recherche à approfondir. L'intérêt de la mobilisation de données dynamiques
a également été justifié du fait que les revenus passés ont été pris en compte
dans l'analyse de la pauvreté.

BIBLIOGRAPHIE

Dercon, S. (2006). Vulnerability: A micro-perspective, QEH Working Paper


Sériés, document de travail n0149.
Droy, L, Ratovoarinony, R. et Roubaud, F. (2000). Les observatoires ruraux à
Madagascar. Une méthodologie originale pour le suivi des campagnes.
Staîeco n095-96-97.
Rasolofo, P. (2005). Le réseau des observatoires ruraux : un système
d'infonuation pour le suivi annuel des mutations socio-économiques en
milieu rural.
Droy, L, Rasolofo, P. et Robilliard, A.S. (2004). Le réseau des observatoires
ruraux à Madagascar : quel apport pour le suivi-évaluation de la politique
de lutte contre la pauvreté ?
Lallau, B. (2008). La pauvreté en mouvement. Essai sur le développement
contemporain de l'analyse microéconomique de la vulnérabilité.
Communication pour le colloque Pauvreté et misère dans l'histoire de la
pensée économique, 27-28 novembre, Sciences Po Lille.
Zhang, Y., et Wan, G. (2008). Can We Predict Vulnerability to Poverty?
UNU-W1DER, document de recherche no2008/82.
218 Pratique et méthodes de sondages

9. Le secteur informel des TIC au Burkina

Faso : une analyse du profil des acteurs

à travers un sondage aléatoire

20
Fabris 14/. COMPAQ RE

Le secteur informel des Technologies de l'Information et de Communication


(TIC) est devenu un réservoir de main-d'œuvre et le refuge de plusieurs
chômeurs en Afrique et au Burkina Faso, en particulier. Un aperçu du profil
des acteurs à travers un sondage aléatoire que cet article présente penuet
d'avoir une photographie du secteur et de contribuer à l'efficacité des
politiques d'emploi. Les résultats montrent un profil jeune à majorité
masculine et urbaine, favorisant les hommes plus que les femmes.

9.1 Introduction

Le dynamisme d'un système économique est généralement mesuré par quatre


indicateurs selon le carré magique de Kaldor. L'emploi constitue l'axe où tout
se recoupe : considéré comme input, il est intrinsèquement lié à l'inflation21 et
à la compétitivité d'une économie. Le plein emploi constitue l'idéal recherché
de toute société. Les pays en développement ont vu émerger un secteur
informel au côté de celui dit formel, à tel point que face à une démographie
galopante, il occupe de nos jours une grande proportion de la population (70 à
80 %). De ce fait, le secteur informel touche tous les secteurs d'activités, dont
celui des TIC.

9.2 Contexte et justification

Le secteur des TIC connait une émergence particulière ces dernières années
en Afrique. Notons en effet à titre d'illustration que l'Afrique enregistre un
taux de croissance annuel moyen de 65 % du nombre des abonnés au
téléphone mobile contre respectivement 24, 38 % pour les Amériques et
l'Europe sur une moyenne mondiale de progression de 33 % (World Bank,
2006).
Les problèmes de faible taux d'alphabétisation, du chômage galopant et de
la pauvreté ont induit une main-d'œuvre abondante, mais non qualifiée. C'est
pourquoi le secteur informel des TIC connait une extension considérable.

20Master en économie publique et statistique appliquée, Institut de Recherche Empirique


en Economie Politique(IREEP), Burkina Faso. Courriel : faweco84@yahoo.fr.
21 Courbe de Phillips.
4. Enquêtes économiques 219

L'étude sur le secteur informel dans les principales agglomérations de sept


États membres de l'Union Économique et Monétaire Africaine (UEMOA) en
2003 en témoigne : 36,7 % de jeunes de moins de 26 ans sont dans le secteur
informel. Étant donné la contribution du secteur informel des TIC dans le
secteur informel toutes catégories confondues (environ 21 % en terme de
chiffre d'affaires22) au Burkina Faso, l'on ne peut se contenter
d'extrapolations, ni l'ignorer en matière de politique d'emploi. Dès lors, la
connaissance du profil des acteurs du secteur informel des TIC s'impose et se
révèle d'une importance cruciale pour l'orientation des politiques de
promotion d'emploi.

9.2.1 Objectif général

Il s'agit de contribuer à l'efficacité des politiques d'emploi et de façon


générale des politiques envers la jeunesse.

9.2.2 Objectifs spécifiques

- Connaître les caractéristiques sociodémographiques (sexe, niveau


d'instruction, milieu géographique) des promoteurs et de la main
d'œuvre dans le secteur informel des TIC.
- Connaitre la structure du secteur informel des TIC (principal domaine
d'activité et zone d'activité, et profil des acteurs).

9.3 Cadre conceptuel

Les définitions du secteur informel varient selon le critère utilisé juridique,


importance économique, intensité capitalistique et sociale. Ferchiou (1994)
considère les entreprises informelles comme étant celles qui évoluent en
marge de la légalité, dans une situation d'a-légalité, l'État acceptant cette
situation soit par impuissance, soit par indulgence. Mais le critère juridique
semble trop restrictif pour d'autres auteurs. Chaze et Traoré (2000), par
exemple, pensent que ce critère n'est pas réaliste, car dès lors que ces
entreprises paient des taxes (cas de la Contribution du Secteur Informel au
Burkina Faso), du moins pour une grande partie d'entre elles, ces dernières
sont implicitement reconnues juridiquement.
Ellis et Faure (1995) définit les entreprises informelles comme des unités à
petite échelle où le salariat est absent (ou limité), où le capital avancé par actif
est faible, mais où il y a néanmoins échange de biens et services onéreux.

22 Association Yam-Pukri, « Dynamiques et rôle économique et social du secteur informel


des TIC en Afrique de l'Ouest et du centre. Cas du Burkina Faso, du Cameroun et du
Sénégal ».
220 Pratique et méthodes de sondages

Dans ces imités, les règles dominantes ne sont pas salariales, mais
coutumières, hiérarchiques, affectives et les relations de proximité
essentielles.
Il est généralement admis que le secteur informel est constitué d'activités
économiques qui ne sont pas enregistrées, non pas par la volonté de se
soustraire aux réglementations en vigueur, mais plutôt par l'incapacité des
réglementations à s'appliquer à des réalités de nature difficile à saisir. Il
comprend les entrepreneurs individuels travaillant à leur propre compte sans
employer de salariés de façon permanente et ceux qui peuvent employer des
salariés de façon permanente, mais le font à un taux de salaire en dessous
d'un certain seuil, en l'occurrence le Salaire Minimum Industriel Garanti
(SMÏG).
En passant en revue les différentes conceptions du secteur informel, il est
loisible de constater qu'il n'y a pas de consensus, et que les critères varient
d'une définition à l'autre. Pour les besoins de notre analyse, nous allons
adopter celle proposée par le Professeur Abdoulaye Niang (Niang, 1996) de
l'Université Gaston Berger et qui nous paraît la plus compréhensive. Cette
conception permet de définir le secteur informel des TIC comme les activités
décrites ci-dessus et relatives aux technologies numériques combinant les
télécommunications, l'informatique et l'audiovisuel.

9.4 Méthodologie

9.4.1 Méthode de collecte de données

Le manque de données sur le secteur informel des TIC a exigé tout d'abord un
recensement pour la constitution d'une base de sondage qui a servi à
l'échantillonnage. Un échantillon de l 000 unités d'exploitations a été pris sur
toute l'étendue du territoire burkinabé. Pour assurer la représentativité de
l'échantillon, le sondage aléatoire proportionnel a été considéré ; les critères
utilisés sont le sexe, le domaine d'activité (télécommunication, informatique
et internet, audiovisuel numérique) et la zone géographique (milieu urbain ou
rural).

9.4.2 Définition des variables

Pour atteindre nos objectifs, les variables suivantes seront explorées : sexe,
niveau d'instruction, zone géographique, domaine d'activité, rémunération
mensuelle.
4. Enquêtes économiques 221

9.4.3 Méthode d'analyse

Nous avons utilisé les statistiques descriptives de tendance centrale


(fréquence relative, moyenne, médiane) pour décrire les caractéristiques des
promoteurs et de la main-d'œuvre dans le secteur informel des TIC.

9.5 Résultat

9.5.1 Profil selon le sexe

La plupart des promoteurs du secteur informel des TIC sont des hommes
(86 %), les femmes ne représentant que 14 %.

9.5.2 Profil selon l'âge

En moyenne, les promoteurs ont un âge de 31 ans. Mais cette moyenne ne


doit pas voiler la disparité de l'âge. En effet la majorité (58 %) des
promoteurs ont un âge compris entre 25 et 34 ans, c'est-à-dire une population
jeune. Huit promoteurs sur 100 sont âgés de plus de 35 ans, tandis que 34 %
ont un âge compris entre 12 et 24 ans.

9.5.3 Profil selon le milieu de résidence

En général, plus de 50 % des promoteurs sont en milieu urbain. Les 23 %


viennent du milieu péri urbain et 21 % du milieu rural.

9.5.4 Profil selon le secteur d'activité

Le secteur de télécommunication est l'activité principale dominante (85 %)


dans le secteur informel des TIC.

9.5.5 Profil selon le niveau d'instruction

La majorité des promoteurs ont un niveau d'instruction primaire (31 %) ou de


secondaire général (31 %). 18 promoteurs sur 100 n'ont reçu aucune
éducation formelle.

9.5.6 Rémunération de la main-d'œuvre

La rémunération est sélective, car les hommes gagnent en moyenne


28.045 FCFA23 et les femmes 13.840 FCFA. Les femmes gagnent donc
environ deux fois moins que les hommes, loin de la moyenne générale de
22 067 FCFA. Cette différence est significative au seuil de 5 %.

23 Francs de la Communauté Financière Africaine.


222 Pratique et méthodes de sondages

9.6 Conclusion

Le secteur informel des TIC se révèle être un refuge pour la frange jeune non
qualifiée de la population du Burkina Faso. En effet, le niveau d'instruction y
est relativement minime avec une rémunération moyenne inférieure au SMIG.
Le secteur des TIC, dominant en milieu urbain et majoritairement du domaine
de la télécommunication, ne favorise pas les femmes.

BIBLIOGRAPHIE

Annuaire statistique de l'UEMOA (2001). Série n0l, décembre 2003.


Chaze, C., et Traoré, F. (2000). Les défis de la petite entreprise en Afrique
pour une politique globale d'appui à l'initiative économique : des
professionnels africains proposent, (Ed., L. Mayer/RAMPE), 115.
Chéneau-Loquay, A. (2003). Les TIC sont elles compatibles avec l'économie
informelle en Afrique ? http://www.cities.lyon.fr/articles/21 l.html.
Ellis, S., et Faure, Y.-A. (1995). Entreprises et entrepreneurs africains ; (Éd.,
KARTHALA-ORSTOM), 626.
Ferchiou, R. (1994). Micro entreprises du secteur informel à Tunis : obstacles
de caractère légal et institutionnel. Bureau International du Travail, Genève,
Document de Travail, Série Wep 2-19/WP-51.
Niang, A. (1996). Le secteur informel, une réalité à réexplorer : ses rapports
avec les institutions et ses capacités développantes. Dans Africci
Development, Volume XXI, n0l, 57.
World Bank (2006). Information and Communications for Development,
Global Trends and Policies.
4. Enquêtes économiques 223

10. Le « changement d'adresse » comme

une deuxième phase

d'échantillonnage : l'exemple de

l'Enquête sur ISBLSM au Sénégal

24
Moussa THIAM

10.1 Introduction

Le Système de comptabilité nationale (SCN) définit les Institutions sans but


lucratif au service des ménages (ISBLSM) comme 1,« ensemble des unités
privées dotées de la personnalité juridique, dont la fonction principale
consiste à fournir à des groupes particuliers de ménages des biens et services
non marchands, c'est-à-dire gratuitement ou à un prix non économiquement
significatif ». Elles sont présentes dans des domaines aussi divers que : la
politique et le social, le culte, le sport, la culture, etc. Du fait de leurs statuts
juridiques, les actionnaires (adhérents) de ces organisations ne peuvent se
partager leurs profits ou leurs revenus : on parle d'économie sociale.
Pour mieux prendre en compte ce secteur dans les comptes nationaux du
Sénégal, une enquête est menée. L'étude a pour objectif de collecter, à partir
d'une base de sondage mise à jour, des données relatives à l'activité des
organisations du secteur des ISBLSM.
Pour cela, une base de sondage est élaborée à partir du répertoire NINEA
(Numéro d'identification des entreprises et associations) en identifiant à partir
du régime juridique les organisations qui composent le secteur. Toutefois, la
localisation des cibles n'est pas garantie par les adresses qui figurent dans la
base. De même, la base peut contenir des doublons ou des organisations en
cessation d'activité.
Cet article, en s'inspirant de cette étude, propose une démarche pour
prendre en compte ces difficultés inhérentes à la base de sondage. La
démarche est basée sur l'échantillonnage double. Il s'agit de s'inscrire dans
un cadre de travail « quasi deux phases » ou la « non-réponse totale » due ici
aux unités non retrouvées, mais retenues dans la population (unités ayant
changé d'adresse) est considérée comme une deuxième phase
d'échantillonnage.

24 Moussa Thiam, Ingénieur stat. économiste/comptable national. Agence Nationale de la


Statistique et de la Démographie (ANSD) du Sénégal. Courriel : moussa.thiam@ansd.sn.
224 Pratique et méthodes de sondages

10.2 Description de la démarche

On dispose d'une population U stratifiée en huit strates (Organisations


non gouvernementales, Fondations, Syndicats, Partis politiques, Amicales,
Associations sportives et culturelles, Associations religieuses, autres). Des
échantillons indépendants sont tirés dans chaque strate pour obtenir un
échantillon de première phase 5|.
L'enquêteur dispose de la liste des organisations de l'échantillon de
première phase avec la dénomination, l'adresse et éventuellement un numéro
de téléphone. Les infonuations collectées et l'interprétation retenue dans
chaque cas sont décrites dans le tableau 4.5.

Tableau 4.5 : Les paramètres de la population


Echantillon informations auxiliaires Interprétation Décision
« hors champ »
Retrouvées à l'adresse Répondant
Non-répondant
Non retrouvées à « hors champ »
l'adresse, mais nouvelles Répondant
adresses retrouvées Non-réponse
totale
Unités
Non retrouvées à Considérées
choisies
l'adresse, connues à Changements comme « non-
dans
l'échantillon l'adresse, mais nouvelles d'adresse réponse totale »
adresses non retrouvées (champs)
de première
phase Non retrouvées à Considérées
Unités non
l'adresse, inconnues à comme en
considérées dans
l'adresse et nouvelles cessation
la population
adresses non retrouvées d'activité
Non retrouvées à
Unités non
l'adresse, connues à Cessation
considérées dans
l'adresse, mais en d'activité
la population
cessation d'activité

Les organisations retrouvées constituent l'échantillon de deuxième phase


^2/, pour chaque strate, avec 52/, ç= slh cz Uh d'où ^ = U/^i5/? ^ S] c: U.
L'échantillon de deuxième phase est alors tiré suivant un plan de poisson.

10.3 Estimations

Pour estimer le total (ressources, dépenses, salaires versés, etc.) et sa variance,


les notations suivantes (Tableau 4.6) sont utilisées.
On note nm, l'estimation de la probabilité d'inclusion de première phase
{P(ke slh)). D'où le poids de sondage de première phase wlkh =
nïkh = Nh / nh. Pour l'échantillon de deuxième phase, de taille Pour une
taux est
strate h donnée, la probabilité d'inclusion est ^kh- estimé par le
rapport entre le nombre d'unités retrouvées (questionnaires déposés) et la
4. Enquêtes économiques 225

taille de l'échantillon de première phase corrigée du taux d'unité hors champs


et = n
^Ikh ^2kh = \h(l~ ah) ! n
2h-

Tableau 4.6 : Notation


Libellé Notation Formule de calcul
Population totale N ^ = X,A
Population par strate h Nh
Taille de l'échantillon de "u, n]h < N, avec «, =
première phase
Taille de l'échantillon de «2/, n2h < nUl < Nh avec n2 = Yi.'h,. et n2 < n, <
deuxième phase
Taux « hors champ25 » Rapport entre le nombre d'unités hors champs sur
la population de la strate
Population corrigée par "hc Population de la strate ajustée du taux d'unités
strate hors champ =Nh{\-ah)

Pour une strate donnée, l'estimateur par expansion du total pour une strate
h est :

tyh = E ^ïkh^mykh = Z ûmykh- (!)


k kes
^2h 2h
Ainsi, l'estimateur du total, pour la population, est :

= Z Z Khykh- (2)
h k&Sjh

ty est un estimateur sans biais de ty = Puisque tyh est un


estimateur sans biais de tyh = X/ce^ >^/? (Tillé, 2001) et que les échantillons
d'une strate à l'autre sont indépendants.
L'estimateur de la variance de tyh est donnée par Sàmdal, Swensson et
Wretman (1992) :

"D Var(f,,)
_ = Z Z ûuhwxkhylhykh ^klh
I-cc. . /cr. .
kes2hles2h TllL/Z-TT
\klh 2klh
a
Q A
A-
2klh
fNj + X X w\ihW\khyihykh^
£rl
kes2hles2h ' 2klh

-C
ai = Vlh+ï2h. (3)
>-
CL
o
U
25 Unité ayant cessé d'activité ou dont l'activité ne répond pas à la définition des ISBLSM.
226 Pratique et méthodes de sondages

Le calcul de l'estimateur de la variance n'est pas toujours aisé. Toutefois,


comme c'est le cas ici, l'utilisation d'un plan de poisson à la deuxième phase
A
permet de simplifier le calcul de V^/,. En effet, dans le cas d'un plan de
= n n
poisson, 2i< 2i Pour k * l. Ainsi, Caron (1999) montre que :

t2h = A. (4)
K
kesjh 2kh ^Xkh

Cette expression se calcule sans difficulté, tous les éléments étant connus.
De même,

1/
v _ V1 ^\klh ~ ^\kli^\lh) .. ..
\h - lu 2-j ~ : : : : y^kh
kes2h les2h nlklhn\khn\lhK2khn2lh

/
^ (1 nUh) 1 1
-2 y2kh (5)
kzsjh ^kh V 2kh ^2kh y

et comme le plan de première phase est un tirage aléatoire simple dans chaque
strate, alors, nWh peut être estimé comme suit :

/^l/
nmh = ^/7|/,—— pour k * L (6)
Nh(Nh - 1) H

(4), (5) et (6) permettent sans difficulté de calculer la variance du total.

10.4 Conclusion

Cette démarche a permis de prendre en compte le problème des unités non


retrouvées et des organisations en cessation d'activité. Toutefois, l'hypothèse
que le changement d'adresse n'est pas corrélé aux variables d'intérêt n'a pas
fait l'objet de vérification empirique.

BIBLIOGRAPHIE

Haziza, D., et Beaumont, J.-F. (2006). Estimation simplifiée de la variance en


présence d'échantillonnage à deux phases. Méthodes d'enquêtes et
sondages : pratiques européenne et nord-américaine, Dunod, Paris, 367-
372.
Brion, P., Caron, N. et Pietry-Bessy, P. (2005). Redresser la non-réponse
totale dans les enquêtes entreprises : les pièges à éviter. Illustration avec
l'enquête Innovation. Insee, Paris.
4. Enquêtes économiques 227

Fuller, W.A. (2003). Estimation de la variance par rééchantillonnage pour le


plan à deux phases du National Resources Inventory. Défis reliés à la
réalisation d'enquêtes pour la prochaine décennie. Statistique Canada,
2-10.
Hidiroglou, M.A. (2001). L'échantillonnage Double. Techniques d'enquête.
Vol. 27, n02, 157-169.
Tillé, Y. (2001). Théorie des sondages: échantillonnage et estimation en
populations finies. Dunod, Paris, 180-187.
Caron, N. (1999). Le logiciel POULPE: Aspects Méthodologiques. Insee,
Paris, Méthodes n084-85-86, 174-199.
Hidiroglou, M.A., et Sàmdal, C.-E. (1995). Use of Auxiliary Information for
Two-phase sampling. Statistique Canada, 873-878.
Sàmdal, C.-E., Swensson, B. et Wretman, J. (1992). Model Assisted Survey
Sampling. New York : Springer-Verlag.

11. Enquête à échantillonnage complexe :

le Cas de l'Enquête GPL au Cameroun

Christophe KANA KENFACK26

11.1 Contexte de l'étude

En 2001 le gouvernement camerounais a créé un Comité Ad hoc chargé du


suivi mensuel du Gaz de Pétrole Liquéfié (GPL) constitué des représentants
du Ministère des Mines, de l'Eau et de l'Energie (MINMEE) ; du Ministère
du Développement Industriel et Commercial (MINDIC), et des sociétés
impliquées dans la production, le stockage, la distribution, les importations et
les exportations du gaz domestique . Ce Comité a entrepris de mener une
vaste étude du marché de ce produit dans le but
- d'estimer les besoins du marché national de gaz domestique à court,
moyen et long termes ;
- d'évaluer, sur la même période, la production nationale et déterminer
le niveau prévisible des importations.

Cette étude nécessite outre une recherche documentaire et l'exploitation de


données secondaires issues de diverses sources, des recherches qualitatives

26 INS-Cameroun, Département de la Coordination et de la Recherche.


27 La liste exhaustive des membres du Comité Ad hoc chargé du suivi mensuel du GPL
comprend : MINMEE, MINDIC, SNH, CSPH, SONARA, SCDP, TOTAL, TEXACO,
MOBIL, SCTM, CAMGAZ et TRADEX.
228 Pratique et méthodes de sondages

(environnementales, etc.) et des enquêtes quantitatives sur l'offre et la


demande de GPL et des produits de substitution, notamment une enquête
statistique (GPL) pour mesurer les fréquences et les niveaux de
consommation, ainsi que l'offre de ce produit et les contraintes rencontrées
par les distributeurs.
Pour la réalisation de cette enquête statistique, le Comité Ad hoc de suivi du
marché du GPL a sollicité l'appui technique de l'Institut National de la
Statistique du Cameroun (INS).

11.2 Échantillonnage

II convient de présenter le plan d'échantillonnage d'abord pour le volet


« ménages » avant de passer au volet « consommateurs du secteur tertiaire »
puis au volet « Unités de vente de GPL ».

11.2.1 Échantillonnage du Volet ménages

a) Base de sondage

L'échantillon des ménages envisagé pour l'enquête GPL était un sous-


échantillon de la deuxième Enquête Camerounaise Auprès des Ménages
(ECAM II) réalisée en 2001.
Lors de cette opération, 10 992 ménages ordinaires avaient été enquêtés
avec succès à partir de 12 000 prévus. Ils avaient été sélectionnés selon un
sondage stratifié à plusieurs degrés, les critères de stratification étant la région
et le milieu de résidence.
Il convient d'adopter a priori la même stratification du pays que celle de
l'ECAM II dans le cadre de l'enquête GPL. En effet, les résultats de l'ECAM
II ont confirmé la présomption selon laquelle la consommation énergétique
des ménages, en particulier celle du gaz domestique, varie significativement
suivant la région et le milieu de résidence.
De plus, la poursuite de la connexion entre les deux enquêtes non seulement
au niveau du plan de sondage, mais également en ce qui concerne les ménages
à tirer, fera en sorte que l'échantillon des ménages de l'enquête GPL soit
autant que possible un sous-échantillon de l'ECAM II.

□ Les principaux avantages de cette connexion sont :

- la possibilité d'utilisation des éléments de cartographie de l'ECAM II


dans le cadre le l'Enquête GPL,
- la possibilité de simplifier l'élaboration du plan de sondage de
l'enquête GPL en le dérivant tout simplement de celui d'une
opération crédible de grande envergure comme l'ECAM II,
4. Enquêtes économiques 229

- la possibilité d'alléger le questionnaire d'enquête GPL par exemple


en éliminant certaines questions redondantes par rapport à
l'ECAM 11,
- la possibilité de bénéficier de l'expertise de l'INS, maître d'œuvre de
l'ECAM II et organisme public en charge de la coordination
statistique et de l'harmonisation des concepts et méthodologies au
Cameroun.

b) Tirage de l'échantillon

Compte tenu de l'objectif de l'enquête GPL qui est de disposer de résultats au


niveau régional en distinguant d'une part le milieu urbain du milieu rural, et
d'autre part les ménages pauvres des ménages non pauvres, il a été convenu
que l'échantillon final comprenne au moins 2 500 ménages et, en plus de la
stratification utilisée à l'ECAM II, de procéder à une stratification de
l'échantillon de l'ECAM II suivant le niveau de vie du ménage.
Pour maximiser les chances d'atteindre cette taille minimum de
l'échantillon, il avait été convenu de cibler un sous-échantillon d'environ
3 000 ménages issus de l'échantillon de l'ECAM IL
Etant donné les disparités existantes entre les effectifs enquêtés à l'ECAM
II selon la région, le milieu et le niveau de vie des ménages, la fraction de
tirage des ménages pour l'enquête GPL après la dernière stratification suivant
le niveau de vie devrait être variable d'une sous-strate à l'autre. Afin de
disposer de résultats assez robustes d'une part par milieu et d'autre part par
niveau de vie dans chaque région, il avait été convenu d'enquêter un
minimum de 60 ménages.
En milieu urbain, les ménages pauvres identifiés à l'ECAM II étaient
sélectionnés à concurrence de 50 % au moins en moyenne dans les trois
provinces septentrionales, dans l'Ouest et le Nord-Ouest, et en totalité dans le
reste du pays ; tandis que la fraction de tirage des ménages non pauvres était
respectivement de 1/8 à Yaoundé et à Douala, et 1/2 en moyenne ailleurs.
En milieu rural, la fraction de sondage des ménages identifiés à l'ECAM II
comme étant pauvres sera de 1/4 dans l'Est et le Sud-Ouest, et de 1/6 dans le
reste du pays ; celle des ménages non pauvres étant constante et égale à 1/6.
Compte tenu de la distribution des ménages observée à l'ECAM II dans
chaque région selon le milieu de résidence et le niveau de vie, et afin de
limiter le nombre de localités à visiter, l'on avait envisagé de procéder au
tirage d'un sous-ensemble des zones d'enquête (ZD) à visiter (au moins 50 %
par région) pour y trouver le nombre de ménages retenus. Ainsi, un total de
440 ZD sur les 612 de l'ECAM II (soit 72 %) avait été retenu dans le cadre
de l'échantillon du volet ménage de l'enquête GPL.
230 Pratique et méthodes de sondages

11.2.2 Échantillonnage du volet « Consommateurs du


secteur tertiaire »

Pour ce volet d'enquête, il a été convenu d'enquêter environ 600 structures


toutes catégories confondues susceptibles de disposer de services de
restauration, et donc, de consommer du GPL. La notion de catégorie distingue
ici :
- les structures hôtelières (hôtels, auberges, campements, motels sans
ci priori un service de restauration) ;
- les structures de restauration (les restaurants publics, les structures
hôtelières disposant d'un service de restauration a priori d'après les
informations disponibles et les restaurants universitaires) ;
- les formations sanitaires (publiques et privées) ;
- les ménages collectifs (internats, prisons, orphelinats).

La base de sondage utilisée pour le tirage de l'échantillon des unités ciblées


du secteur tertiaire a été fournie par le Comité ad hoc chargé du suivi mensuel
90 t
du marché de GPL au Cameroun*" . La collecte de données nécessaire à la
mise sur pied de cette base s'est effectuée pendant les mois de juin, juillet et
août 2003 dans toutes les provinces du Cameroun.
La méthodologie de tirage retenue pour le volet secteur tertiaire était un
tirage stratifié à un degré. Hormis les restaurants universitaires, le nombre de
structures à enquêter par région avait été obtenu en répartissant
(proportionnellement à leur poids29) les 600 structures à enquêter.
Pour chaque région d'enquête, la répartition de l'échantillon entre les
différentes catégories de structures s'est fait en donnant la priorité aux
structures de restauration qui sont a priori les principales consommatrices de
GPL. Elles devraient représenter 50 % au moins de l'échantillon. 15 % était
réservé aux structures hôtelières sans restauration a priori, 15 % aux ménages
collectifs et 20 % aux structures de santé.

28 En dépit de quelques problèmes de non exhaustivité présumés pour cette base, de


l'indisponibilité ou de l'incertitude sur l'information a priori relative à l'existence ou
non d'un service de restauration utilisant du GPL dans plusieurs de ces structures du
secteur tertiaire, on s'en est contenté faute de meilleure base de sondage et ce n'est
qu'au cours de l'enquête qu'on confirmera ou non l'utilisation du GPL ou d'autres
sources d'énergie de cuisson dans les différentes structures visitées.
29 Le poids d'une région est le nombre de structures qu'elle possède hormis les restaurants
universitaires.
4. Enquêtes économiques 231

11.2.3 Échantillonnage du volet « Unités de vente du


GPL »

La contrainte de taille minimale pour l'échantillon des unités de vente


(stations-service et revendeurs agréés) de GPL était fixée à 300. Cet
échantillon devant être tiré de la base de sondage fournie par le Comité Ad
Hoc de Suivi mensuel du GPL et qui donnait en principe pour chacun des
cinq réseaux agréés de distribution de GPL au Cameroun (TOTAL, MOBIL,
TEXACO, CAMGAZ et SCTM) ainsi que pour la combinaison
CAMGAZ-MOBIL et par province, la liste et la localisation (arrondissement
et parfois le quartier d'implantation ou le contact téléphonique) des unités de
vente de ce produit.
Les unités de vente agrées de GPL sont, des stations-service ou de « gros
revendeurs » s'approvisionnant directement auprès des sociétés de
distribution.
Il convient de préciser que ces unités sont presque toutes implantées en
milieu urbain, généralement dans les principales métropoles.
En prévoyant un maximum de 20 % d'unités de réserve pour anticiper les
non réponses ou les unités non visitées par exemple pour cause de difficulté
de repérage ou d'accès sur le terrain, et les questionnaires invalides après
enquête, l'on se propose de tirer un échantillon d'environ 360 unités de vente
agréées. Cet échantillon était obtenu en procédant dans chaque région
d'enquête à des tirages indépendants aux taux de 50 % parmi les stations-
service de chaque réseau de distribution (TOTAL, MOBIL et TEXACO) et
parmi les unités agréées à CAMGAZ (peu nombreuses), et 25 % parmi celles
de SCTM relativement nombreuses.
Pour la mise en œuvre pratique, on a procédé à des tirages systématiques
dans la liste disponible pour chaque strate, des unités qui ont été
préalablement triées par ordre croissant d'arrondissement. On a retenu
d'office toutes les unités d'une strate si leur nombre est inférieur ou égal à 2.
On note donc une forte concentration urbaine de l'échantillon, notamment
au niveau des chefs-lieux de province où se trouvent respectivement près de
Va de l'échantillon des unités de vente agréées de GPL, 58 % des ZD
regroupant 46% de l'échantillon des ménages, et près de 45% structures
sélectionnées dans le secteur tertiaire.

11.3 Extrapolation des Résultats

11.3.1 Extrapolation des résultats du volet ménage

Le calcul des coefficients d'extrapolation s'est fait en deux étapes. Dans un


premier temps, les résultats de l'enquête GPL avaient été extrapolés à tout
l'échantillon ECAM IL Ceci a nécessité que l'on ait au préalable calculé la
232 Pratique et méthodes de sondages

probabilité pour qu'un ménage figurant dans l'échantillon ECAM figure dans
l'échantillon GPL. La seconde étape a consisté à utiliser les coefficients
d'extrapolation utilisés à l'ECAM 11 pour extrapoler les résultats sur
l'ensemble des ménages du Cameroun.

11.3.2 Extrapolation du volet « Consommateurs du


secteur tertiaire »

Pour une région donnée k{k allant de 1 à 12), la probabilité Pik pour qu'une
structure de type i(i allant de 1 à 5) soit tiré est : Pik = nik / Nik. où nik est le
nombre de structures de type i tirées et enquêtées dans la région k et Nik le
nombre total de structures de type / dans la région k.
Ainsi, le coefficient d'extrapolation d'une structure tirée de type i dans la
région k qui est l'inverse de la probabilité de tirage de la structure est :
c
ik = Nik1 "tk-
Les restaurants universitaires ont tous a priori un coefficient
d'extrapolation égal à 1.

11.3.3 Extrapolation du volet « Points de vente agréés


du GPL »

Pour une région donnée k{k allant de I à 12) et un réseau de distribution j


donné 0 = 1 à 6), la probabilité P^ pour qu'une unité de vente agréée de
type i (i allant de 1 à 3) soit tiré est :
n
Pijk - ijk ! Nijk

où nilk est le nombre d'unités de vente agrès de type i tirées et enquêtées


dans le réseau de distribution j dans la région k et le nombre total
d'unités de type i du réseau de distribution j dans la région k.
Ainsi, le coefficient d'extrapolation correspondant à une unité agréée de
vente tirée de type i du réseau de distribution j dans la région k est l'inverse
de la probabilité de tirage de cette unité de vente c'est-à-dire :
= n
Cijk Nijk ! ijk-

BILIOGRAPHIE

Ardilly, P. (1994). Les techniques de sondage. Technip, Paris.


Chapitre 5

Enquêtes longitudinales et rétrospectives

1. Peut-on suivre, en longitudinal, une

population jeune et mobile ? Les

apports de l'enquête ELAP

2
Géraldine VIVIER Pernelle ISSENHUTH et
3
Isabelle FRECHON

1.1 Le devenir des jeunes sortant de l'ASE

En France, I40 000 jeunes de moins de 21 ans sont pris en charge par l'Aide
Sociale à l'Enfance (ASE) et accueillis en famille d'accueil, en foyer ou en
studio... (ONED, 2008). Alors que la majorité d'entre eux quitteront les
dispositifs ASE autour de 18 ans, on sait peu de choses sur la période qui suit
la fin de placement. Les travaux de Firdion (2006) montrent une forte
surreprésentation des personnes ayant été placées parmi les jeunes sans
domicile (35 % des 18-24 ans) et les études sur le devenir adulte d'anciens
placés, bien que plus « optimistes », soulignent aussi une période de sortie
difficile. Leurs trajectoires restent néanmoins mal connues. Les études
prospectives sont rares, inexistantes même en France (Frechon et Dumaret,

1 Ingénieur de recherche, Service des Enquêtes, Ined. Courriel : vivier@ined.fr.


2 Chargée d'études, UR6, Ined. Courriel ; pernelle.issenhuth@ined.fr.
3 Chargée de recherche, UMR 8085 Printemps CNRS, UR6 Ined.
Courriel : frechon@ined.fr.
234 Pratique et méthodes de sondages

2008) et les études rétrospectives ne permettent pas de cerner précisément les


difficultés rencontrées ; biais de mémoire et de sélection des personnes
retrouvées des années après leur sortie de l'ASE, petits échantillons ou
monographies limitent la précision et la portée des données recueillies. Le
projet ELAP4 vise donc à saisir les processus d'autonomisation économique,
résidentielle et familiale de ces jeunes dans le cadre d'un suivi longitudinal.
Pour relever des défis méthodologiques, juridiques et éthiques inhérents à ce
projet (Vivier, Frechon et Issenhuth, 2009, Issenhuth, Vivier et Frechon,
2009), une étude de faisabilité a été menée. Cet article en restitue les
principaux enseignements.

1.2 Suivre de jeunes sortant de placement

1.2.1 Les défis d'une enquête prospective

Le projet ELAP vise à suivre, sur 5 ans et au fil de plusieurs vagues de


collecte, un échantillon de l 000 jeunes « sortants » de protection de
l'enfance. Alors que dans chaque département, l'ASE répertorie l'ensemble
des enfants pour lesquels une mesure est financée, on dispose a priori d'une
base de sondage permettant de tirer un échantillon représentatif de ces jeunes.
Toutefois, comment enquêter des jeunes mineurs, protégés ? Et s'agissant
d'une population très mobile, dans quelle mesure peut-on limiter l'attrition et
suivre dans le temps un échantillon représentatif de jeunes ? Pour éclairer ces
questions, une enquête de faisabilité5 a été conduite en 2009.

1.2.2 Le protocole de l'étude de faisabilité

En avril 2009, l'ASE de Paris comptait I 4I9 jeunes de 17 à 21 ans (dont un


tiers mineurs), répartis de façon égale à Paris, en région parisienne et en
province. A partir du fichier ASE, un échantillon de 424 jeunes a été construit
de manière raisonnée en vue de :
- tester la procédure (spécifique) d'enquête auprès de jeunes mineurs ;
- évaluer l'attrition entre les deux vagues de collecte ;
- limiter la dispersion géographique (et les coûts) pour le test.

Ce test visait à interviewer in fine 100 jeunes : une première fois en face-à-
face au printemps 2009, et une seconde fois par téléphone, à l'automne de la
même année. Une fois l'identité graphique de l'enquête créée (logo, charte
graphique), une plaquette de présentation d'ELAP, un argumentaire destiné
aux équipes éducatives, une lettre-avis adaptée à chaque type d'interlocuteur

4 Étude Longitudinale sur l'Autonomisation après un Placement.


5 Financée par le Haut commissariat aux solidarités actives (DEESSES) et l'Ined.
5. Enquêtes longitudinales et rétrospectives 235

ont été rédigés et adressés aux différents acteurs concernés par l'étude :
centres gestionnaires, structures et familles d'accueil, jeunes échantillonnés et
parents de ces jeunes dès lors qu'il s'agissait de mineurs. En effet, pour ces
derniers (n = 70), les responsables légaux devaient être préalablement
informés de leur droit à refuser l'interview de leur enfant. Au final, 262
fiches-contact ont été distribuées aux dix enquêteurs formés pour ce test. Sur
chacune figuraient l'identité du jeune, son âge, son adresse postale, le nom de
sa famille d'accueil ou de l'établissement dans lequel il vivait. Au verso,
l'issue de chaque tentative de contact devait être notée : prise de rendez-vous,
contact avec un éducateur, refus, interview réalisée... ainsi que le jour et
l'heure de chaque essai. Une dizaine de tentatives (à des jours et horaires
variés) était requise avant d'abandonner, le cas échéant, une fiche.

1.3 Les enseignements de l'étude de faisabilité

1.3.1 Accéder directement aux jeunes en 1ere vague


Globalement, le taux de participation à l'enquête de première vague s'élève à
41 % et le taux de refus à 10%. L'analyse des fiches-contact montre que la
principale difficulté réside dans le fait d'accéder directement aux jeunes :
dans un cas sur deux, l'enquêteur n'a pu communiquer avec le jeune. Si 7 %
des jeunes se sont avérés impossible à joindre (ne répondant pas au
téléphone), 12% ont été impossible à contacter, leur famille d'accueil ou
institution faisant barrage à l'enquêteur. Lorsque l'on considère ceux pour
lesquels un contact direct a été établi, de sorte à ce que le jeune s'exprime
librement et personnellement, les niveaux de participation et de refus montent
respectivement à 76 % et 18%.
Pour les mineurs, ces difficultés d'accès se situent aussi en amont du travail
de prise de contact par l'enquêteur. Si un seul refus a été exprimé parmi les
responsables légaux qui ont été informés de l'étude, 19 jeunes mineurs ont
d'emblée été exclus de la collecte faute de n'avoir pu identifier et/ou informer
leurs parents (sans domicile fixe, vivant à l'étranger ou n'habitant plus à
l'adresse indiquée).
Par ailleurs, et en dépit des consignes données, 18 % des fiches ont été peu
exploitées par les enquêteurs. Cette insuffisante exploitation des fiches
montre aussi une inégale difficulté à contacter les jeunes selon le type
d'hébergement (famille d'accueil, Foyer de Jeunes Travailleurs, foyer
collectif ou logements éclatés6). Si 4 tentatives de contact ont été en moyenne
nécessaires pour réaliser un entretien, 30 % des questionnaires ont été
collectés au terme de 6 tentatives de contact ou plus. Ces efforts permettent

6 Les logements dits « éclatés » sont des chambres ou des studios géographiquement
dispersés, qui ne se situent pas à l'adresse principale de la structure qui les gère.
236 Pratique et méthodes de sondages

alors de capter des profils de jeunes différents, ceux vivant notamment dans
des hébergements plus autonomes. Enfin, 10 % des jeunes n'étaient plus, au
moment de l'enquête, dans la structure indiquée dans le fichier ASE, ce qui
confirme la forte mobilité, y compris intra-institutionnelle, de ces jeunes.

1.3.2 Seconde vague d'enquête : une faible attrition

La seconde vague d'enquête a été menée, environ 5 mois plus tard, par 8 des
10 enquêteurs ayant participé à la première phase. Annoncé par courrier,
l'entretien téléphonique d'une quinzaine de minutes visait principalement à
évaluer l'attrition tout en actualisant certaines informations collectées en
première vague.
94 % des jeunes initialement interviewés ont pu être recontactés et la quasi
totalité d'entre eux (à l'exception de 2) ont accepté de participer à cette
seconde étape - la plupart se déclarant aussi d'accord sur le principe d'un
troisième entretien. De nouveau, 4 tentatives de contacts ont été nécessaires,
en moyenne, pour réaliser un entretien mais un tiers des questionnaires ont
requis 6 appels ou plus, 7 jeunes restant finalement impossibles à joindre.
La plupart des jeunes enquêtés en première vague (92 %) avaient accepté de
donner leur numéro de téléphone portable (6 % n'en ayant pas, 2 % refusant
de le communiquer) ce qui a bien sûr considérablement facilité la collecte
suivante et permis de recontacter les jeunes malgré leur importante mobilité
intra ou extra-institutionnelle. Un tiers des jeunes avaient en effet changé de
lieu de vie entre les deux vagues. Le recueil de divers types de coordonnées et
le maintien de contacts réguliers restent néanmoins primordiaux pour éviter
l'attrition. De ce point de vue, si très peu d'adresses email ont été collectées
en première vague, 2 jeunes sur 3 avaient en revanche mentionné une
« personne relais » (parfois deux) susceptible de faire le lien avec eux en cas
de changement de coordonnées. L'exploration des liens entre les jeunes et ces
personnes relais montre la prédominance de la sphère institutionnelle dans ces
réseaux relationnels. Sur 74 personnes citées, 48 appartiennent à l'univers de
l'ASE (famille d'accueil, éducateur, responsable de foyer...), 15 à la sphère
amicale et enfin 11 sont des membres de la famille.
Si les résultats de cette seconde vague sont très satisfaisants, cette
expérience montre néanmoins l'importance de conduire, durant les 12 à 18
premiers mois du suivi au moins, des vagues de collecte plus rapprochées
(tous les 6 mois environ) qu'initialement projeté. Cet étroit suivi est non
seulement important pour limiter l'attrition mais c'est aussi une nécessité
pour collecter des informations précises sur les changements, nombreux et
rapides, qui jalonnent les trajectoires professionnelles et résidentielles de ces
jeunes en fin de placement et durant leurs premières années d'autonomisation.
5. Enquêtes longitudinales et rétrospectives 237

BIBLIOGRAPHIE

Firdion, J.M. (2006). Influence des événements de jeunesse et héritage social


au sein de la population des utilisateurs des services d'aide aux sans-
y
domicile. Economie et Statistique, n0391-392.
Frechon, I., et Dumaret, A.C. (2008). Bilan critique de 50 ans d'études sur le
devenir adulte des enfants placés. Neuropsychiatrie de l'enfance et de
l'adolescence, 56, 35-147.
Issenhuth, P., Vivier, G. et Frechon, I. (2009). Concilier les droits de chacun :
une éthique en dynamique. Session : Le sociologue contraint par le droit,
Colloque International « Droit d'enquêter, droit des enquêtés », Université
de Limoges.
ONED (2008). Quatrième rapport annuel au Parlement et au Gouvernement
de l'Observatoire National de l'Enfance en Danger. 78 pages.
Vivier, G., Frechon, I. et Issenhuth, P. (2009). Following Youth Out of Care,
Observation versus Interférence: The Ethics of a Follow-up. Session:
Surveying Sensitive Subjects, Third Conférence of the European Survey
Research Association, Varsovie.

2. L'expérience des enquêtes

biographiques en Afrique

7
Philippe ANTOINE

2.1 Introduction

Les enquêtes biographiques permettent de mettre en perspective différents


événements concernant la vie d'un individu depuis sa naissance jusqu'au
moment de l'enquête. Depuis une quinzaine d'années, ce type d'enquête a
pris de l'ampleur en Afrique (Sénégal, Togo, Madagascar, Cameroun, etc.) où
de nombreuses innovations méthodologiques ont été introduites. Ils'agit
principalement de comparer les itinéraires sociodémographiques de trois
générations ayant respectivement 25 à 34 ans, 35 à 44 ans et 45 à 59 ans au
moment de l'enquête. Elles offrent de multiples potentialités analytiques pour
comprendre les transformations sociodémographiques souvent masquées dans
les enquêtes transversales.

7 Directeur de recherche à l'Institut de recherche pour le développement (IRD) ; Unité


mixte de recherche (UMR), Centre Français sur la Population et le Développement
CEPED, (Ined-IRD-Université Paris Descartes).
238 Pratique et méthodes de sondages

2.2 Les outils de la collecte biographiques

Le questionnaire utilisé est un questionnaire à modules retraçant les


principales étapes de la vie de chaque enquêté. La passation d'une fiche
Ageven précède l'administration du questionnaire.

2.2.1 La fiche Ageven

Le recueil des biographies s'appuie sur un bon repérage dans le temps des
événements vécus par l'enquêté. Peu de personnes mémorisent les dates des
événements vécus, mais en revanche, l'enchaînement des événements
familiaux est facilement gardé en mémoire. Dans le cas de ces enquêtes, pour
aider les personnes enquêtées à placer dans le temps les principaux moments
de leur vie, nous avons eu recours à la fiche Ageven (Antoine, Bry et Diouf,
1987) qui met en correspondance les âges et les événements. Les événements
vécus sont replacés au fur et à mesure de l'entretien sur une fiche où figurent
une échelle de temps (années calendaires) et la durée écoulée depuis
l'événement.

2.2.2 Le questionnaire

Le questionnaire proposé reprend la logique des questionnaires dits tri-


biographiques (Courgeau et Lelièvre, 1989). Il a été adapté au contexte des
différents pays africains où il a été utilisé. Le principe du questionnaire
biographique est d'insister sur les aspects de la vie de l'individu qui changent
au cours du temps. Dans chacun des modules, il s'agit de remplir autant de
colonnes qu'il y a de changements de statut. Quatre modules sont retenus :
1. Le module résidentiel retrace le cheminement migratoire et le
parcours résidentiel. Il comporte des questions sur l'évolution des
conditions d'habitat et sur l'évolution du statut d'occupation.
2. Le module activité couvre les différents épisodes de la vie active de
l'individu en particulier en adaptant des questions aptes à caractériser
la nature de l'emploi dans le secteur moderne ou informel. Le module
incorpore aussi les périodes de scolarisation et de formation.
3. Le module vie matrimoniale, prend en considération la complexité
des situations et des formes d'union possibles allant de l'union libre
sans cohabitation à la polygamie.
4. Le dernier module permet de saisir la descendance, afin d'analyser
les interrelations entre vie génésique et le reste de la biographie.
Certains questionnaires détaillent le cursus scolaire, voire professionnel,
de chacun des enfants de chaque enfant.
5. Enquêtes longitudinales et rétrospectives 239

2.3 Des résultats nouveaux

2.3.1 L'analyse

Différentes analyses à partir des enquêtes biographiques sont envisageables.


Certaines sont purement descriptives, à partir notamment des fonctions et
paramètres des tables de survie. Un des principaux modèles utilisés dans
l'analyse explicative des biographies est le modèle à risques proportionnels de
Cox (Trussell, Hankinson et Tilton, 1992). La variable dépendante est le
risque instantané que connaît un individu de vivre le passage d'un état à un
autre, encore dénommé transition. La régression est faite non pas sur la
caractéristique acquise par l'individu à l'issue de sa vie, mais sur la
caractéristique acquise à chaque instant de son existence jusqu'au moment de
l'enquête. Le recours à ce type de modèle nécessite surtout un effort
important de conceptualisation de la question étudiée. Ce type d'analyse
permet donc, en dépassant l'analyse transversale, de prendre en considération
les différents états qu'a connus un individu tout en tenant compte de la
dimension du temps dans l'analyse causale. Il a fallu également mettre au
point un certain nombre de procédures spécifiques pour fusionner les fichiers
et préparer l'analyse biographique (Bocquier, I996a).
Dans plusieurs domaines ces enquêtes ont apporté des résultats novateurs
comme l'analyse de l'évolution des comportements au cours du temps. La
méthodologie choisie de privilégier la comparaison des jeunes générations
aux générations antérieures. Une grande part des études conduites à donc
privilégier l'analyse des différentes étapes marquant les premiers événements
de la vie adulte : le premier emploi (Bocquier, 1996b) ou le premier logement
(Diagne, 2006). Un recul de l'âge aussi bien d'accès au premier emploi
rémunéré, que d'autonomie résidentielle et de constitution de la famille est
observé des générations aînées aux plus jeunes. Le sort de ces derniers est
d'autant plus inéquitable que, ni leur niveau d'éducation plus élevé, ni le fait
de différer leur passage au statut d'adulte ne leur permettent d'échapper à une
dégradation de leurs conditions, relativement à celles connues par leurs
parents, au moment de leur insertion (Antoine, Razafindrakoto et Roubaud,
2001).

2.3.2 L'analyse du parcours matrimonial

Le recul de l'âge au premier mariage des femmes est souvent imputé à une
série de facteurs liés plus ou moins directement à l'urbanisation ; scolarisation
plus importante des filles, activité des femmes, en particulier dans le secteur
moderne de l'économie, adoption de nouveaux comportements et de
nouvelles conceptions des relations sentimentales avant le mariage. L'effet de
générations est bien mis en évidence dans les différentes enquêtes
240 Pratique et méthodes de sondages

biographiques : on relève une entrée nettement freinée pour la plus jeune


génération. Dans la plupart des capitales africaines, les hommes en situation
de précarité (apprentissage, chômage) connaissent un net ralentissement de
leur rythme d'entrée en union. Les tensions sur le marché de l'emploi qui
affectent spécialement les jeunes gens en restreignant leur accès à l'emploi,
les conduit à différer leur mariage. L'absence de logement autonome
contribue également à freiner leur entrée en union. Les enquêtes
biographiques ont également mis en évidence l'importance du divorce
(Antoine et Dial, 2005) et l'intensité du remariage. La modélisation du risque
de divorce fait apparaître certaines tendances fortes rencontrées dans toutes
les villes. Parmi elles, nous citons le manque de travail du mari et l'absence
de logement autonome du couple. A travers la biographie des hommes, on
peut décrire certains aspects de la dynamique matrimoniale et des
interrelations entre polygamie et divorce. Dans les unions polygames urbaines,
les premières épouses divorcent bien plus que les secondes (Antoine, 2006).

2.4 Conclusion

L'expérience accumulée en Afrique ces dernières années montre qu'il est


possible pour des équipes de recherche nationale d'appliquer des techniques
jusqu'alors jugées utilisables seulement dans les pays développés. Les
enquêtes biographiques semblent très bien adaptées à la réalité des terrains
V
africains et demeurent d'un coût relativement faible. A partir d'un échantillon
souhaitable de 2 000 à 2 500 personnes à l'échelle d'une ville ou d'une région
d'un pays, on peut obtenir des résultats fiables sur des interrelations
complexes entre variables économiques, démographiques et sociales. En
analysant les effets de la crise économique sur la transition démographique,
on tente d'appréhender les interrelations entre les sphères économique et
sociodémographique. Ce type d'enquête offre une alternative aux
méthodologies traditionnelles d'analyse dans les pays en développement. Les
enquêtes biographiques permettent de mieux révéler les liens entre l'activité,
les itinéraires migratoires et les histoires familiales que traversent les
populations. Cette démarche dépasse l'analyse transversale traditionnelle qui
ne rend pas compte des dynamiques temporelles. Elle s'inscrit dans tout un
courant qui tend à renouveler la collecte des données démographiques
concernant la mobilité spatiale et sociale (Groupe de réflexion sur l'approche
biographique, 1999).

BIBLIOGRAPHIE

Antoine, P., Bry, X. et Diouf, P.D. (1987). La fiche « Ageven ». Techniques


d'enquête, Vol. 13, n02, 173-181.
5. Enquêtes longitudinales et rétrospectives 241

Antoine, P., Razafindrakoto, M. et Roubaud, F. (2001). Contraints de rester


s
jeune ? Evolution de l'insertion dans trois capitales africaines : Dakar,
Yaoundé, Knianaxxax'wo. Autrepart, n0l8, Paris, 17-36.
Antoine, P., et Dial, F.B. (2005). Mariage, divorce et remariage à Dakar et
Lomé. Dans Familles au Nord, Familles au Sud, (Dir., K. Vignikin et
P. Vimard), Academia-Bruylant, Louvain-la-Neuve, 689 pages, 205-232.
Antoine, P. (2006). The complexities of nuptiality: From early female union
to maie polygamy in Africa. Dans Demography: Analysis and Synthesis, A
s
Treatise in Population Studies, (Eds., G. Caselli, J. Vallin et G. Wunsch),
Elsevier, Académie Press, Vol. 1,355-371.
Bocquier, P. (1996a). L'analyse des enquêtes biographiques à l'aide du
logiciel Stata. Paris, Centre Français sur la Population et le Développement
(CEPED), Coll. Documents et Manuels n04, 208 pages.
Bocquier, P. (1996b). L'insertion et la mobilité professionnelle à Dakar.
Paris, IFAN-ORSTOM, Collection Études et thèses, 312 pages.
Courgeau, D., et Lelièvre, E. (1989). L'analyse démographique des
biographies. Manuel de l'Institut national d'études démographiques (Ined),
Paris, PUF, 289 pages.
Diagne, A. (2006). L'entrée en vie adulte à Dakar. Thèse de doctorat en
démographie Université de Paris I, Institut de démographie, 380 pages.
Groupe de réflexion sur l'approche biographique (GRAB) (1999).
Biographies d'enquêtes. Bilan de 14 collectes biographiques, Ined, Paris,
s
1RD, Réseau Socio-Economie de l'habitat, Collection Méthodes et savoirs
n03, 340 pages.
Trussell, J., Hankinson, R. et Tilton, J. (1992). Démographie applications of
event history analysis. Oxford, Clarendon Press, 276 pages.

3. Enquête biographique sur la nuptialité

dans le Sud marocain

8
Le/Va BOUFRAIOUA

3.1 La nuptialité au Maroc

Au début du XXe siècle, le caractère tribal et rural de la société marocaine


favorisait en général le mariage dans la parenté et en particulier les unions
entre cousins germains. En I966, l'âge moyen au lei mariage des femmes était

8 Leila Boufraioua, Doctorante en démographie, Centre de Recherche Population et


Société (CERPOS), Université Paris X Nanterre. Courriel ; leilaboufraioua@live.fr.
242 Pratique et méthodes de sondages

de 18 ans, et celui des hommes de 24 ans, nombre de jeunes filles étaient donc
mariées dès la puberté. C'est au début des années 1980 que l'âge au 1CI
mariage des femmes enregistre un net recul de quatre ans pour atteindre en
moyenne 22 ans contre 27,7 ans pour les hommes (recensement). Depuis plus
d'un quart de siècle, le schéma nuptial a connu de profonds changements. En
l'espace de quelques décennies, les mariages précoces ont laissé place aux
mariages tardifs et le choix du conjoint, qui relevait autrefois de l'autorité des
aînés, laisse aujourd'hui une plus grande liberté aux jeunes générations.
Cependant, cette liberté de choix du conjoint reste entravée par le wali, c'est-
à-dire le tuteur matrimonial. Dans l'esprit du législateur, le tuteur est établi
dans l'intérêt de la femme. Le wali prend en charge la conclusion du contrat
de mariage, cette procédure s'établit devant deux notaires appelés les
« Adoul ». L'article 11 de la Moudawana dresse par ordre de priorité la liste
des tuteurs allant du père à n'importe quel autre membre masculin de la
famille. Le futur époux peut conclure personnellement son contrat de mariage,
tandis que la femme doit désigner un tuteur pour conclure son mariage. En
2004, le code de la famille a été réformé, et la tutelle matrimoniale est
annulée, même si dans les faits elle se maintient encore. Paradoxalement,
l'endogamie familiale est restée à un niveau stable (1/3 des mariages) et le
célibat définitif rare (autour de 3 %). En 2004, les indicateurs de nuptialité
indiquaient une hausse radicale de l'âge au Ie' mariage, les hommes se
mariant en moyenne à l'âge de 31 ans contre 26 ans pour les femmes.

3.2 Contexte de Sidi Ifni

L'étude vise à analyser l'évolution de la nuptialité dans le Sud marocain et


plus particulièrement dans la ville de Sidi Ifni, où l'âge au lei mariage est
relativement tardif. C'est une ville côtière qui se situe au sud-ouest de la
région Sous Massa Drâa. Ancienne colonie espagnole, Sidi Ifni a été
rétrocédé au Maroc très tardivement, en janvier 1969. Elle fait partie du
territoire de la tribu des Ait Baahmrane, une confédération de neuf sous
tribus, dont huit tribus berbères et une tribu arabe. Sidi Ifni comptait 19 967
habitants en 2004, où l'âge médian de la population est estimé à 22 ans (cf.
pyramide des âges).
Nous nous sommes intéressés à cette région car le dernier recensement,
réalisé en 2004, révèle des résultats démographiques surprenants pour cette
ville en comparaison à l'ensemble de la population marocaine. Selon ces
résultats du recensement, l'âge moyen au lei mariage à Sidi Ifni est de 31 ans
(34 ans pour les hommes et 29 ans pour les femmes) alors qu'au niveau
national, l'âge moyen au Ie' mariage est de 29 ans (31 ans pour les hommes et
26 ans pour les femmes). Ainsi à Sidi Ifni, les hommes et les femmes se
marient en moyenne trois ans plus tard qu'au niveau national. De plus,
lorsque l'on effectue une comparaison entre la primonuptialité observée en
5. Enquêtes longitudinales et rétrospectives 243

ville et celle de sa région (Sous Massa Drâa) on constate qu'à Sidi Ifni, les
hommes se marient quatre ans plus tard, et les femmes trois ans plus tard
qu'au niveau régional. Cependant, le recensement ne permet pas de
comprendre et d'expliquer ce retard de l'âge au 1er mariage, d'où la nécessité
d'effectuer une enquête de terrain. Il s'agit d'observer les transformations
progressives des régimes de nuptialité qui ont touché la ville de Sidi Ifni. Les
évolutions sociales, notamment l'âge au 1er mariage particulièrement élevé à
Sidi Ifni, révèlent-elles un changement dans le système matrimonial ? Quel
est le degré de similitude ou de dissemblance qui existe entre les schémas de
primonuptialité féminins et masculins. Le retard au 1er mariage chez les
hommes et les femmes répond-il à l'évolution des mêmes variables
explicatives ? Quels sont les facteurs qui ont contribué à un éventuel
affaiblissement du modèle culturel traditionnel du mariage ? Selon les
recensements ou les enquêtes sociodémographiques précédentes, les raisons
invoquées pour justifier ce retard à la primonuptialité, plus particulièrement
chez les femmes, sont généralement la scolarisation, l'accès à l'emploi des
jeunes filles, et chez les hommes la crise économique (le chômage et la crise
du logement). Dans le cadre de l'étude d'un phénomène aussi complexe que
la nuptialité, nous proposons une approche diachronique des évolutions de la
primonuptialité, en analysant conjointement les changements socioculturels,
économiques et la dynamique des structures familiales afin d'expliquer ce
retard de calendrier du premier mariage.

Figure 5.1 : Population de Sidi Ifni selon le sexe et l'âge en 2004


ANNÉES ANNÉES
DE NAISSANCE DE NAISSANCE
I9IJ4 100 1904
HOMMES FEMMES
19 M I9H
924 19/1

934 19 il

1911 944

954 1991
1991
191.1
1974 19/J

1981 1901

994 1994

2004
1200 1000 -A a: 0 o *n 6:; 1000 1200
Effectifs en centimes Effectifs en centaines
Source : Recensement 2004.
244 Pratique et méthodes de sondages

3.3 La population étudiée

Nous avons effectué une enquête biographique auprès d'hommes et de


femmes âgés de 15 à 35 ans résidant à Sidi Ifni en 2009, quelle que soit leur
situation matrimoniale. Les 15-35 ans représentent 37% de la population.
Nous avons enquêté 5 % de cette population, soit 404 personnes, dont 42 %
d'hommes et 58 % de femmes. La spécificité de notre enquête biographique
réside dans la collecte parallèle de plusieurs événements qui permettent de
reconstituer l'histoire de vie de l'individu depuis sa naissance jusqu'au
moment de l'enquête, soit la trajectoire résidentielle, la trajectoire
professionnelle, la trajectoire familiale (naissance, mariage, décès, co-
résidence des conjoints, ascendants et descendants) ou encore la trajectoire
nuptiale (circonstance de la rencontre, la prise de décision, la vie conjugale).
Cette approche permet de rendre compte des interactions des différents
domaines d'implication des individus, mais également de rattacher ces
événements aux contextes dans lesquels évoluent les trajectoires individuelles,
associant ainsi les niveaux micro et macro-social. Par conséquent, l'enquête
biographique, qui permet de saisir l'imbrication des différents phénomènes
démographiques (niveau d'étude, situation professionnelle, religion,
migration...) et leurs effets sur la nuptialité, se présente alors comme la
méthode la plus appropriée dans le cadre de cette recherche. Notre
questionnaire est structuré en neuf modules à caractère biographique et une
partie consacrée aux caractéristiques sociodémographiques des personnes
enquêtées permettant de définir leurs profils en matière d'âge, d'origine, de
diplôme, de statut d'activité, et des questions d'opinion sur les rapports de
genre relatifs au mariage. Par cette méthode nous tentons de matérialiser les
actions humaines, où les phénomènes sont en interaction les uns avec les
autres, afin d'analyser leurs incidences sur le retard au lei mariage à Sidi Ifni.

3.4 Premiers résultats

Le système matrimonial à Sidi Ifni reposait autrefois sur des mariages


précoces et sans le consentement des concerné(e)s. Actuellement, on
enregistre un retard à la primonuptialité masculine et féminine qui correspond
à des processus différents selon le sexe.
En effet, pour les femmes, l'accès à l'éducation, l'allongement de la
scolarité et l'émergence d'un pouvoir de négociation lors du choix du conjoint
contribuent à ébranler le système matrimonial traditionnel en retardant l'âge
au 1er mariage. Pour les générations nées au début des années 1980, on
observe une scolarisation massive des jeunes filles dès l'âge de 7 ans et une
prolongation de la durée des études. Ce phénomène a eu un effet non
négligeable sur le relèvement de l'âge au 1er mariage des femmes.
5. Enquêtes longitudinales et rétrospectives 245
v
A Sidi Ifni, l'autorité parentale dans le choix du conjoint s'est maintenue et
ce, malgré la suppression de la tutelle matrimoniale en 2004. Selon notre
enquête, 95 % des femmes ont contracté un mariage en présence d'un tuteur
(père ou oncle) ; dans 65 % des cas, le mariage a eu lieu après l'année 2004.
L'enquête révèle que lorsque les parents s'opposent au choix de leurs filles,
dans 60 % des cas ces dernières s'enferment dans un célibat prolongé. Cette
étude permet de mettre en lumière l'incidence de l'autorité des ainés sur leurs
enfants. En effet, le choix du conjoint dépend fortement des parents, la liberté
des jeunes femmes se limite essentiellement à refuser le ou les époux
proposés, voire dans le meilleur des cas à suggérer un conjoint. Le
consentement parental se révèle donc être un élément déterminant dans le
processus qui retarde le mariage.
Contrairement aux femmes, le retard au lei mariage chez les hommes
s'explique principalement par des difficultés d'accès au marché de l'emploi.
Dès 1969, la ville de Sidi Ifni se marginalise et subit une crise économique
importante. L'histoire de vie des enquêtés témoigne de la pérennité de cette
crise et de son impact sur leurs parcours. En effet, un quart des hommes
rencontrent des difficultés d'accès au marché du travail. 50 % des hommes
célibataires âgés de 15 à 35 ans exercent une activité économique précaire,
alors que les hommes mariés sont 97 % à exercer une activité économique
stable. Les jeunes hommes rencontrent des difficultés à constituer le capital
économique nécessaire pour une mise en couple (la dot, la célébration du
mariage et l'installation du ménage).
De plus, à Sidi Ifni, la crise économique s'accompagne d'une crise du
logement. La pénurie de logements (manque d'espace constructible) est un
facteur pouvant expliquer le retard au 1er mariage des hommes. Selon notre
enquête, un tiers des couples vit chez les parents de l'époux, pour certains la
cohabitation patrilocale permet le mariage et constitue une phase
intermédiaire avant la décohabitation. Ce sont souvent les parents qui se
révèlent être un soutien financier et matériel, indispensable pour leurs enfants.
Ce contexte favorise le maintien des structures familiales traditionnelles en
ville.
Ainsi, les deux principaux facteurs à l'origine du retard à la primonuptialité
sont l'allongement de la scolarité et l'émergence d'une plus grande liberté
lors du choix du conjoint chez les femmes, l'accès à l'emploi stable et au
logement chez les hommes. Ces premiers résultats seront complétés par des
analyses ultérieures.
246 Pratique et méthodes de sondages

4. << Devenir parent à Ouagadougou » :

l'expérience d'une enquête

biographique originale en milieu urbain

africain

Anne-Emmanuèle CALVÈS 9, Jean-François KOBIANÉ 10


,
11 12
Bilampoa THIOMBIANO et Alexis LOYE

4.1 Problématique et objectifs

Depuis une quinzaine d'années, la fécondité et la santé de la reproduction des


jeunes en Afrique-subsaharienne ont fait l'objet d'une attention grandissante
dans la communauté scientifique internationale. Cet intérêt est né des
préoccupations publiques concernant les problèmes associés à l'activité
sexuelle et procréatrice des jeunes célibataires : taux importants d'infection au
VIH/SIDA, grossesses non-désirées et avortements clandestins, déperdition
scolaire des adolescentes suite à une grossesse, marginalisation économique
et stigmatisation sociale des mères célibataires et de leurs enfants.
Malgré l'importance de ces problèmes, les généralisations en matière de
sexualité et fécondité prénuptiales sont périlleuses. Si, sous l'effet de la
scolarisation, la croissance urbaine et, plus récemment, de la crise
économique, l'âge au premier mariage a reculé et l'expérience de la fécondité
prénuptiale s'est clairement développée dans la plupart des pays africains,
particulièrement dans les villes, le statut de la procréation avant le mariage et
les risques sociaux et sanitaires qui lui sont associés sont, en effet, très
variables. L'activité procréatrice des jeunes citadins s'inscrit aujourd'hui dans
des unions sexuelles multiples aux logiques diverses et les trajectoires de
constitution de la famille et d'accès à la parentalité se sont complexifiées
(Calvès, Kobiané et Martel, 2007).
L'objectif principal du projet de recherche « Devenir parent à
Ouagadougou » (DPO) est d'étudier les nouvelles dynamiques d'entrée dans
la vie féconde dans la capitale du Burkina Faso. Plus précisément, il vise à
analyser le calendrier et les modalités d'entrée en vie féconde des jeunes
Ouagalaises et Ouagalais et leurs déterminants et à étudier les conséquences
sociales et sanitaires des grossesses et naissances prénuptiales.

9 Département de sociologie, Université de Montréal. Courriel : anne.calves@umontreal.ca.


10 Institut Supérieur des Sciences de la Population. Courriel : jfkobiane@issp.bf.
11 Institut Supérieur des Sciences de la Population. Courriel : bgnoumou@issp.bf.
12 Institut Supérieur des Sciences de la Population. Courriel : asloye@issp.bf.
5. Enquêtes longitudinales et rétrospectives 247

4.2 Méthodologie et déroulement de la collecte

La méthodologie mobilisée dans le présent projet est celle de « l'analyse des


biographies » ou « analyse des transitions » qui joue depuis vingt ans un rôle
prépondérant dans l'étude du changement et de la causalité en sciences
sociales. Parce qu'elles permettent une analyse dynamique des phénomènes
sociaux, impossible avec des données d'enquêtes transversales traditionnelles,
les données biographiques issues d'enquêtes rétrospectives ou d'enquêtes
panels sont de plus en plus utilisées par les chercheurs (GRAB - Groupe de
réflexion sur l'approche biographique, 1999). La recherche en Afrique
n'échappe pas à la règle. Même si les enquêtes de type panel y restent rares,
un nombre croissant d'enquêtes rétrospectives recueillent des biographies
quantitatives constituées des principaux événements connus par un individu
depuis sa naissance et ce, dans des domaines comme la résidence, l'activité
économique, l'éducation, la vie matrimoniale et familiale (Calvès et Marcoux,
2004). C'est dans cette tradition que s'inscrit la collecte de données du projet
DPO.
La collecte de données s'est déroulée de novembre 2009 à février 2010
auprès d'un échantillon aléatoire stratifié, représentatif de la capitale
burkinabé et composé de 2 036 jeunes adultes : 1 109 femmes (20-29 ans) et
927 hommes (25-34 ans). Afin de collecter des biographies détaillées auprès
des individus de notre échantillon, deux outils ont été utilisés : une fiche Age-
s
Evénement (AGEVEN), un outil qui s'est déjà avéré utile dans plusieurs
enquêtes biographiques en Afrique, et un questionnaire biographique à
modules. La fiche AGEVEN vise à aider les enquêtés à se remémorer au
mieux les événements constitutifs de leur parcours de vie, à les classer
temporellement les uns par rapport aux autres et à vérifier la cohérence des
événements entre eux. Ainsi, l'enquêteur demande à l'enquêté de situer les
principaux événements de sa vie familiale (cohabitation, mariage, naissance
etc.), résidentielle (lieux de résidence) et professionnelle (périodes de
scolarité, travail, chômage) qu'il reporte dans une fiche à colonnes (une pour
chaque domaine de la vie) graduée selon l'âge et la date. La fiche AGEVEN
est complétée en début d'entretien et finalisée (pour les modules
« sensibles ») lors de la passation du questionnaire biographique.

4.3 Originalité du questionnaire biographique

Le questionnaire biographique comporte six modules correspondant à


différentes sphères de la vie de l'individu. Les trois premiers modules sont
des modèles biographiques assez « classiques ». Le premier recueille des
données sur les origines sociales de renquêté(e) : profession des parents, âge,
religion, ethnie. Le deuxième module dresse un itinéraire complet de toutes
ses résidences de plus de six mois (date et lieu d'installation, nature de
248 Pratique et méthodes de sondages

l'habitat, composition du ménage). Le troisième module retrace les périodes


d'activité (études, au foyer, chômage, travail) d'au moins six mois (dates de
début et de fin, type d'activité et le statut dans l'activité, source de soutien
financier, niveau scolaire etc.). L'itinéraire résidentiel et la biographie
d'activités ont été reconstitués depuis l'âge de 6 ans pour chaque individu.
Si plusieurs enquêtes biographiques ont permis de prendre en compte la
diversité des unions matrimoniales en Afrique dans l'étude de la fécondité
(Antoine, 2002), les biographies d'unions qu'entretiennent les célibataires
sont plus rares. Le quatrième module du questionnaire va au-delà du parcours
matrimonial typique (dates des cérémonies traditionnelles, religieuses, et
civiles) et collecte des informations sur la première relation, la relation
actuelle, et toutes les relations qui ont duré plus de 6 mois ou qui ont donné
lieu à une grossesse : condition de la rencontre, caractéristiques du (de la)
partenaire au début et à la fin de la relation, date de l'initiation sexuelle,
utilisation de contraceptives au début et à la fin de la relation, date de
présentation aux familles respectives le cas échéant, dates des événements
matrimoniaux le cas échéant, date et motif de la rupture le cas échéant. Ce
« parcours amoureux » permettra d'appréhender la diversité des unions
qu'entretiennent des jeunes citadins à différents stades de leur vie et de
replacer leurs comportements procréateurs au sein du couple dans lesquels ils
s'inscrivent.
Des informations sur l'ensemble des enfants nés vivants ont été également
recueillies à l'aide du cinquième module du questionnaire. Pour chaque
enfant, on a demandé à l'enquêtée la date de naissance, le sexe, les
caractéristiques du père (ou mère), et les caractéristiques de la relation au
début de la grossesse, mais aussi le niveau de soutien paternel durant la
grossesse et reconnaissance de l'enfant (visite, soutien financier etc.). Pour
chaque enfant encore en vie, les enquêtés ont été interrogés sur les modalités
de prise en charge et la résidence de l'enfant à la naissance et aujourd'hui.
Ces données permettent d'étudier l'entrée en vie féconde des hommes, un
sujet qui demeure encore sous-étudié comparativement à la fécondité des
femmes. Elles rendent également possible l'analyse de l'impact de la nature
de la relation sur la reconnaissance paternelle, la résidence et les modalités de
prise en charge des enfants.
Enfin, puisque les données d'enquête sur l'avortement en Afrique collectées
à l'extérieur des hôpitaux sont rares et, lorsqu'elles existent, sont
généralement transversales, le dernier module du questionnaire visait à établir
un historique des avortements. Pour chaque avortement, on a interrogé les
enquêté(e)s sur les méthodes, le lieu, le financement, les motivations, et le
processus de décision mais aussi sur les caractéristiques de la relation et du ou
de la partenaire au moment de la découverte de la grossesse. Ces biographies
datées permettront d'établir le lien entre les risques d'avortement et les
5. Enquêtes longitudinales et rétrospectives 249

facteurs socio-économiques affectant ces risques (les caractéristiques de la


femme, du partenaire et de la relation au moment de la grossesse notamment).

4.4 Quelques défis et leçons du terrain

Le processus de nettoyage des données étant toujours en cours, nous ne


disposons pas encore d'informations précises sur la qualité des données
recueillies. Le bilan de la collecte a pourtant permis de relever d'ores et déjà
quelques défis et difficultés relatifs à la passation du questionnaire qu'il
convient de souligner très brièvement ici.
Dans l'ensemble, le questionnaire a été souvent jugé trop long et exigeant
par les enquêtés, hommes comme femmes. Bien qu'il s'adressait à des jeunes
adultes (à la biographies théoriquement moins longue) et malgré nos efforts
lors de la conception du questionnaire pour alléger les modules biographiques
classiques (résidence et activités), le fait que l'enquête DPO ciblait « des
citadins qui n'ont pas le temps » a constitué, selon l'équipe d'enquêteurs, un
défi de taille. La collecte des informations sur le partenaire et ses
caractéristiques à différents moments de la vie de enquêtés (début et fin de la
relation, au moment de chaque grossesse), notamment, a été souvent jugée
redondante par les enquêté(e)s.
Concernant la nature « délicate » de certains modules, nous avons constaté
que les hommes interrogés ont éprouvé peu de difficultés à aborder les sujets
de l'initiation sexuelle, des relations amoureuses antérieures et des
avortements. Toutefois, ils ont eu des difficultés à se souvenir des dates de ces
événements notamment des mois, comme par exemple la date de rupture des
différentes relations amoureuses. Malgré nos craintes initiales, les femmes,
elles aussi, ont souvent répondu sans problème à tous les modules, incluant
celui sur l'avortement. Cependant, les femmes mariées étaient parfois
réticences à déclarer et à décrire leurs anciennes relations. Enfin, comme les
hommes, les femmes ont éprouvé quelques difficultés à se souvenir des dates
de début et fin des relations.

BIBLIOGRAPHIE

Antoine, P. (2002). L'approche biographique de la nuptialité : application à


l'Afrique. Dans Traité de démographie (Volume TI : Les déterminants de la
fécondité), (Éds., G. Caselli et coll.), Ined, Paris.
Calvès, A.-E., et Marcoux, R. (Dir.) (2004). Enquêtes biographiques en
Afrique francophone. Cahiers Québécois de Démographie, vol. 33, n02,
360 pages.
250 Pratique et méthodes de sondages

Calvès, A.-E., Kobiané, J.-F. et Martel, E. (2007). Changing transition to


adulthood in urban Burkina-Faso. Journal of comparative family studies,
vol. 38, n02, 265-283.
GRAB - Groupe de réflexion sur l'approche biographique (1999).
Biographies d'enquêtes. Bilan de 14 enquêtes, Ined/PUF, Paris.

5. Migrations internationales et

trajectoires matrimoniales :

l'exemple des migrations

sénégalaises

13 14
Cris BEAUCHEMIN , Arnaud BRINGÉ et
15
Elisabeth MORAND

Bien que l'articulation des trajectoires migratoires et familiales soit une


question lourde d'enjeux, peu de données sont actuellement disponibles pour
étudier cette question. Du point de vue politique, le souci contemporain des
pays du Nord de contrôler l'immigration les conduit, de plus en plus, à
restreindre les possibilités de regroupement familial ou à contrôler le mariage
des étrangers. Par ailleurs, l'articulation des trajectoires migratoires et
matrimoniales peut être révélatrice de profondes mutations sociales. Dans les
pays africains, on parle de plus en plus de l'émergence de migrations
féminines « autonomes » qui marqueraient une profonde évolution des
rapports de genre. La migration internationale jouerait aussi de plus en plus
un rôle émancipateur pour les jeunes hommes en quête d'autonomie
économique et de reconnaissance sociale. L'objectif de cette communication
est de tester ces différents modes d'articulation entre vies migratoires et
matrimoniales.

13 Institut national d'études démographiques (Ined). Courriel : cris.beauchemin@ined.fr.


14 Institut national d'études démographiques (Ined). Courriel : bringe@ined.fr.
15 Institut national d'études démographiques (Ined). Courriel : elisabeth.morand@ined.fr.
5. Enquêtes longitudinales et rétrospectives 251

5.1 Données et méthode

Les données utilisées sont celles de l'enquête MAFE-Sénégal'6 (Migrations


entre l'Afrique et l'Europe). Celle-ci a été réalisée au Sénégal, dans la région
de Dakar, auprès d'un échantillon de ménages et d'individus aléatoirement
sélectionnés, et en Europe (France, Espagne, Italie) auprès de migrants
sélectionnés selon diverses méthodes (Beauchemin et Gonzalez, 2009).
L'enquête comportait un questionnaire ménage et un questionnaire individuel
biographique'7. Cet article exploite un sous-échantillon des données
biographiques. Les analyses sont restreintes aux seuls individus âgés de 15 et
1X
40 ans ' qui ont vécu au moins une année dans un autre pays que le Sénégal.
Dans le cadre du questionnaire biographique, les dates des unions
successives ont été recueillies, ainsi que les pays où les enquêtés et leur(s)
conjoint(s) ont résidé au moins une année. Les trajectoires matrimoniales et
résidentielles sont donc observées à l'échelle de l'année19. Chaque année,
nous décrivons Vétat des individus par un code qui correspond à un
assemblage ordonné de deux ou trois lettres qui, chacune, rendent compte
d'une information sur (1) le pays de résidence d'ego, (2) l'état matrimonial
d'ego, (3) la nationalité du conjoint si égo est en union. La combinaison de
ces lettres produit 10 états différents décrits dans le tableau 5.1.

16 Les résultats présentés dans cet article exploitent les données de l'enquête MAFE-
Sénégal. La partie sénégalaise du projet Migrations entre l'Afrique et l'Europe (MAFE)
est coordonné par l'Ined (C. Beauchemin), en association avec l'Institut de Population,
Développement et Santé de la Reproduction de l'Université de Cheikh Anta Diop
(IPDSR, Sénégal). Sont également impliqués : l'Université Pompeu Fabra (P. Baizan),
le Centro Nacional de Investigacion Cientificas (A. Gonzalez-Ferrer), et FIERI (Forum
Internazionale ed Europeo di Ricerche suH'Immigrazione ; E. Castagnone). L'enquête a
été réalisée grâce au soutien financier de l'Ined, de l'Agence Nationale de la Recherche,
de la région Ile de France Région, et du programme FSP 'Migrations internationales,
recompositions territoriales et développement dans les pays du Sud.
17 Pour plus de détails sur cette enquête (questionnaires, méthodologie, document de
travail...), voir le site : http://www.mafeproject.com/.
18 Le seuil de 15 ans permet d'exclure les migrations des enfants de l'analyse (qui par
nature ne sont pas liées à un événement matrimonial concernant ego) sans pour autant
perdre les premières unions précoces, relativement fréquentes dans la population
féminine sénégalaise. Le seuil de 40 ans permet, quant à lui, d'éviter une trop grande
hétérogénéité dans les durées d'observation des individus, sans perdre pour autant un
trop grand nombre d'événements, ceux-ci survenant essentiellement avant l'âge de
40 ans. NB : pour les personnes nées après 1968, la période d'observation s'arrête avant
40 ans, à l'âge de l'enquête. Au total, 734 individus sont inclus dans l'analyse, dont 562
enquêtés en Europe (migrants actuels) et 172 au Sénégal (migrants de retour).
19 On considère donc comme simultanés deux événements pouvant ne pas être proches
dans le temps (21 ans 1 mois et 21 ans 11 mois). L'absence d'information sur les mois
de migrations ou les dates des unions impose cette contrainte.
252 Pratique et méthodes de sondages

Tableau 5.1 : Codification des états


Etat matrimonial Nationalité du Lieu de résidence d'ego
d'ego conjoint Sénégal (S) Etranger (E)
Seul (S) - SS ES
Union Sénégalais (s) SCS ECS
cohabitante (C) Autre (x) SCx ECx
Union Sénégalais (s) STS ETS
transnationale (T) Autre (x) Six ETx
Définitions :
- Seul : célibataire, divorcé ou veuf
- Union co-habitante : les 2 conjoints vivent dans le même pays
- Union transnationale : les 2 conjoints vivent dans des pays différents

La trajectoire d'un individu est décrite par la séquence constituée des états
pris chaque année entre 15 et 40 ans^ . On aura, par exemple, la séquence
répétée suivante : SS-SS-SS-SS-SS-SS-SS-SS-SS-SS-ES-ES-ES-ES-ES-ETS-
ETS-ETS-ETS-ETS-ETS-ETS-ETS-ETS-ETS-ETS, que l'on peut aussi noter
sous la forme : SS/10-ES/5-ETS/11 (état suivi du temps passé dans cette état).
La trajectoire des individus peut aussi être analysée en faisant abstraction du
nombre d'années passées dans chaque état. On parle alors de séquence non
répétée qui, appliquée à l'exemple précédent, prend la forme suivante : SS-
ES-ETS.
Notre objectif est de décrire, de manière synthétique, l'articulation des
trajectoires migratoires et matrimoniales des 734 individus observés. Faute de
> • • xi 21 t •
place, nous ne présenterons ici que les résultats" d'une seule technique
d'analyse : l'identification des séquences les plus fréquemment observées.
' • • 22
Les analyses sont effectuées en distinguant le sexe"" et le statut migratoire au
moment de l'enquête (l'échantillon sénégalais concerne des migrants de
retour, l'échantillon européen des migrants actuels). Tous les résultats
présentés sont pondérés. La construction des variables et la constitution des
fichiers d'analyse ont été réalisées avec le logiciel STATA®, les statistiques
descriptives sur les séquences avec le package Traminer du logiciel R
(Gabadinho, Ritschard, Studer et Millier, 2008).

5.2 Résultats

En première approche, la comparaison des séquences féminines et masculines


fait apparaître les trajectoires des femmes plus hétérogènes et plus complexes
que celles des hommes. Ainsi, dans l'échantillon européen les 10 séquences

20 On enregistre donc un maximum de 26 états pour les individus ayant atteint 40 ans
avant l'année de l'enquête. Pour le plus jeune individu de l'échantillon, 10 états
seulement sont enregistrés.
21 Les résultats d'autres techniques seront présentés dans une publication ultérieure.
22 Afin de distinguer les spécificités des trajectoires masculines et féminines.
5. Enquêtes longitudinales et rétrospectives 253

les plus fréquentes recouvrent 57 % des trajectoires féminines, contre 73 %


(Tableau 5.2).

Tableau 5.2 : Séquences les plus fréquemment observées


parmi les hommes et les femmes enquêtés en Europe (Top 10)
Cas Femmes N % Cas Hommes N %
F1 SS-STS-ECS 21 13,3 m SS-SCS-ETS 101 24,7
F2 SS-ES 18 11,3 H2 SS-ES-ETS 62 15,1
F3 SS-ES-ECS 10 6,3 H3 SS-ES 58 14,0
F4 SS-SCS-STS-ECS 9 5,7 H4 SS-ES-ECx 17 4,3
F5 SS-STx-ECx 8 5,4 H5 SS-ES-ETS-ECS 16 3,9
F6 SS-SCS-ECS 7 4,7 H6 SS-ES-ECS 15 3,7
F7 SS-ECS 5 3,4 H7 SS-SCS-ETS-ECS 9 2,2
F8 SS-ES-ECx 4 2,6 H8 SS-ETS 7 1,8
F9 SCS-STS-ECS 4 2,5 H9 SS-SCS-ETS-ES 7 1,7
F10 SS-SCS-SS-ES-ECS 3 2,0 H10 SS-SCS-SS-SCS-ETS 6 1,5
Ensemble des 10 plus Ensemble des 10 plus
fréquents 89 57,3 fréquents 300 72,9
Total des individus de Total des individus de
l'échantillon 156 100,0 l'échantillon 411 100,0

Chez les hommes, deux figures émergent nettement : d'une part, celle du
migrant solitaire marié. Le cas H1 représente la plus simple et la plus
fréquente séquence de ce type ; Ego d'abord célibataire au Sénégal (SS),
épouse une sénégalaise (SCS) et part à l'étranger en laissant sa conjointe au
pays (ETS). Le cas H10 est une variante de Hl. L'état de couple transnational
(ETS) peut être relativement durable. Il peut être suivi d'un regroupement
familial (H7), d'une rupture (H9, cas plus rare), ou encore d'un retour au pays
d'ego. Ceci n'est pas un cas fréquemment observé dans l'échantillon
européen" . En revanche, il est relativement fréquent parmi les migrants de
retour : au moins 18 % d'entre eux ont eu une trajectoire du type SS-SCS-
ETS avant de rentrer au pays. La deuxième figure masculine émergente est
celle du migrant célibataire. Au moment de la troncature, 14 % des hommes
ont eu une trajectoire très simple du type SS-ES (cas H2). D'autres sont entrés
en union, et il n'est pas rare que cette union ait été conclue avec une femme
restée au Sénégal. Les migrants partis célibataires, mariés à distance
représentent ainsi 21 % des observations pondérées du top 10 (H2, H5, H8).
Chez les femmes enquêtées en Europe, le cas le plus fréquemment observé
(13 %) renvoie au cas type de l'épouse regroupée (El) : la femme contracte
une union au Sénégal (SS-SCS), son conjoint part à l'étranger (STS) et elle le
rejoint (ECS). Si l'on tient compte des variantes du cas FI (F4, F5, F7, F9), il
ressort qu'environ un tiers des migrantes résidant en Europe ont rejoint leur

23 Cela supposerait que le migrant ait fait un retour au Sénégal, puis un retour en Europe.
254 Pratique et méthodes de sondages

conjoint en immigrant. 11 reste que nombre de femmes ont migré alors


qu'elles étaient célibataires. On ne peut exclure que certaines ont migré jeunes
pour, par exemple, rejoindre leur père dans le cadre du regroupement familial.
Cependant, la fréquence des séquences impliquant des migrations de femmes
seules (F2, F3, F8, F10) tend à conforter l'hypothèse d'une autonomisation
des migrations féminines.
Ces résultats exploratoires sur les articulations entre histoires migratoires et
histoires conjugales tendent plutôt à conforter quelques processus observés
dans les recherches qualitatives : autonomisation des migrations féminines,
recours des jeunes hommes à la migration pour accéder à la reconnaissance
sociale... Ils permettent, par ailleurs, de relativiser la place du regroupement
familial dans les pratiques des migrants : si ce type de migration apparaît dans
les séquences des hommes et des femmes, il n'apparaît jamais comme un type
écrasant tous les autres par son poids relatif. Des analyses complémentaires
sont cependant nécessaires pour approfondir ces résultats (analyse du temps
passé dans chaque état, classification automatique par optimal matching,
déterminants du regroupement familial).

BIBLIOGRAPHIE

Beauchemin, C., et Gonzalez, F.A. (2009). Multi-country surveys on


international migration: An assessment of sélection biases in destination
countries. Migrations between Africa and Europe (MAFE), Document de
travail, (http://www.mafeproject.com/), 43 pages.
Gabadinho, A., Ritschard, G., Studer, M. et MUller, N.S. (2008). Mining
sequence data in R with the TraMineR package: A user's guide University
of Geneva, (http://mephisto.unige.ch/traminer).

6. Attrition entre les deux premières

vagues de \'Étude des relations

familiales et intergénérationnelles

24
Arnaud RÉGNIER-LOILIER

6.1 Introduction

Les enquêtes « panel », qui consistent à interroger les mêmes personnes à


plusieurs reprises (avec des périodicités variables selon les enquêtes), se sont

24 Institut national d'études démographiques (Ined).


Courriel : arnaud.regnier-loilier@ined.fr.
5. Enquêtes longitudinales et rétrospectives 255

développées en France au cours des dernières années. Si l'apport du


longitudinal par rapport au transversal est bien connu, les enquêtes à passages
répétés posent un certain nombre de problèmes d'ordre méthodologique, dont
celui de la déperdition de l'échantillon initial. Plus celle-ci est importante
et/ou sélective, plus on court le risque de biais lors des exploitations. Il
importe donc d'en limiter au maximum l'étendue.
En 2005, la France25 a pris part à un projet d'enquête longitudinale et
comparative (le Générations and Gender Programme : GGP) centrée sur les
dynamiques de construction de la famille (Vikat, Spéder, Beets, Billari,
Buhler, Désesquelles, Fokkema, Hoem, MacDonald, Neyer, Pailhé, Pinnelli,
s
et Solaz, 2005) en mettant en place « l'Etude des relations familiales et
intergénérationnelles » (ERFI) (Régnier-Loilier, 2009). La première vague a
eu lieu auprès de 10 079 personnes âgées de 18 à 79 ans. La seconde vague,
réalisée trois ans plus tard en 2008, a permis de réinterroger 6 534 personnes.
Une troisième et dernière vague est programmée en 2011.
On se propose ici de décrire rapidement l'attrition observée entre les deux
premières vagues de ERFI, après avoir rappelé le protocole de suivi des
personnes entre les deux vagues et les principales raisons de l'attrition.

6.2 Protocole de suivi et sorties d'échantillon

6.2.1 Suivi des répondants entre deux vagues

Au terme du questionnaire de la première vague de l'enquête ERFI (2005),


l'enquêteur demandait à chaque répondant : « Nous envisageons de
réinterroger dans trois ans les personnes qui ont répondu à ce questionnaire.
Accepteriez-vous que l'Ined reprenne de nouveau contact avec vous dans
trois ans, sans que cela représente un engagement de votre part ? ». Si la
réponse était positive, une « fiche de suivi » était complétée. Outre les
coordonnées du répondant, on demandait également les coordonnées d'une ou
de deux « personnes relais » susceptibles de nous transmettre la nouvelle
adresse du répondant en cas de « perte de vue ».
Sur les 10 079 répondants à la première vague de l'enquête ERFI, 11 % ont
refusé que l'on garde contact en vue d'une seconde interrogation. Après
l'enquête, un courrier de remerciement avait été adressé à chacun, dans lequel
on demandait aux personnes n'ayant pas accepté le suivi si « vraiment » elles
ne souhaitaient pas participer à la seconde vague. Cette relance a permis de
récupérer quelques personnes. Le taux de refus a donc été in fine légèrement
inférieur à 10 %.

25 Représentée par l'Ined et avec le soutien de l'Institut national de la statistique et des


études économiques (Insee).
256 Pratique et méthodes de sondages

L'ined a assuré le « suivi » du panel entre 2005 et 2008 en mettant


V
régulièrement à jour les adresses. A cette fin, cinq courriers ont été adressés
aux répondants, soit un tous les six mois : lettre de remerciements, premiers
résultats afin de les intéresser à l'étude, carte de vœux, annonce de la seconde
vague d'enquête. En outre, un site Internet avait été mis en place avant le
début de la collecte pour donner une « visibilité » à l'enquête et favoriser la
participation au panel {http://www-erfi.ined.fr). Les personnes pouvaient
informer de leur changement d'adresse par courrier, téléphone ou courriel.

6.2.2 Différentes sorties d'échantillon

Au terme des trois années de suivi, l'échantillon constitué avant la seconde


vague comptait encore 8 341 fiches-adresse. Le contact a donc été perdu avec
un peu plus de 750 personnes entre 2005 et 2008. Dans 70 % des cas, ces
« perdus de vue » n'avaient pas donné de personnes-relais (contre 45 % pour
les personnes encore dans le panel) et nous ne disposions pas de coordonnées
téléphoniques pour 54 % d'entre eux (contre 8 %, respectivement), limitant
ainsi les chances de retrouver les coordonnées du répondant. En 2008
(seconde vague), seuls 6 534 répondants ont été interrogés. Le décalage entre
la base d'adresses et le nombre d'entretiens réalisés correspond principalement à
des refus de participer à la seconde vague (790 personnes), à des adresses non
valides (déménagements pour lesquels nous n'avions pas été informés) et à
des personnes sorties du champ de l'étude (décédées, parties à l'étranger). Le
taux d'attrition total s'élève donc, entre les deux premières vagues de
l'enquête ERFI, à 35 %.

6.3 Caractéristiques de l'attrition

Une présentation descriptive des caractéristiques de l'attrition a donné lieu à


publication, avec une distinction opérée entre les « refus d'être réinterrogé au
terme de la première vague », les « perdus de vue entre 2005 et 2008 » et les
«refus de répondre en 2008 » (Régnier-Loilier, 2010). Ces résultats
montraient notamment un effet marqué de la localisation géographique
(région), mais aussi de l'âge et des variables qui y sont corrélées (niveau
d'études, situation conjugale et familiale, etc.). Pour mesurer l'effet propre de
chacune d'elles, une régression logistique a été ajustée (figure 5.2).
5. Enquêtes longitudinales et rétrospectives 257

Figure 5.2 : Probabilités estimées (%) d'attrition (modèle logit)

-X. X
_x_
o / X. o X
0
00 O 00
o 0 000
o

STATUT
D'OCCUPATION DU
LOGEMENT

• o
.aie - V /

ONATUf E TAILLE DE L'UNITE URBAINE ETAT DE SANTE INTENTION DE MODE DE COHABITATION CATEGORIE
GRISAT ON PERÇUE DEMENAGER DANS SOCIOPROF3SIONNELLE
IXPRES i LES 3 ANS
Source : Ined-Insee, ERFI-GGS1-2, 2005-2008
Légende : rond grisé : facteurs ayant une influence significative sur la probabilité
d'attrition, au seuil de 5 % ; croix : facteurs dont l'influence est non significative.
Lecture : la « personne de référence » (réunissant l'ensemble des caractéristiques de
référence : un homme, de 30 à 34 ans, etc.) a une probabilité de 31,2 % de ne pas avoir
été réinterrogé en 2008 (ligne continue). La probabilité pour une femme réunissant les
mêmes caractéristiques de référence est de 28,6 %, « toutes choses égales par
ailleurs », probabilité significativement inférieure à celle des hommes.
258 Pratique et méthodes de sondages

Outre les facteurs de risque décrits précédemment, on tient compte de l'état


de santé perçu du répondant en 2005" et du fait d'avoir ou non accepté de
signer « l'autorisation exprès » au terme du questionnaire de 2005. On devait
en effet obtenir le « consentement exprès » des personnes, au sens de l'article
8 de la loi informatique et libertés, pour enregistrer leurs réponses à deux
questions spécifiques qualifiées de « sensibles » par le Comité du Label : la
religion d'origine ou d'appartenance et le fait d'être ou non pacsé, c'est-à-dire
avoir contracté un Pacte civil de solidarité (alternative juridique au mariage).
Bien que l'on ait rappelé aux enquêtés que les données étaient confidentielles
et qu'aucun lien ne pouvait être établi entre les informations nominatives et
les réponses, 6 % des personnes ont refusé l'enregistrement de leurs réponses.
Le refus de signer ce document pourrait être lié au refus de participer au
panel : il peut s'agir d'un refus « de principe » de signer tout type de
documents sur lesquels sont portées des informations nominatives.
De manière synthétique, l'attrition observée entre les deux premières
vagues de l'enquête ERFI n'a pas été aléatoire, mais a davantage touché
certaines catégories de répondants : personnes seules, hommes, jeunes ou
/V
personnes âgées, de nationalité étrangère, résidant en Ile-de-France ou dans
les régions méditerranéennes, locataires, inactives, en mauvaise santé, ayant
l'intention de déménager dans les trois prochaines années (résultats
relativement « conformes » à ceux observés dans d'autres enquêtes
longitudinales : Razafindratsima, Kishimba et l'équipe Cocon, 2004 ; Mazuy,
Razafindratsima et de la Rochebrochard, 2005 ; Couppié, Gasquet et Lopez,
2007).

BIBLIOGRAPHIE

Couppié, T., Gasquet, C. et Lopez, A. (2007). L'enquête Génération 98 à


sept ans. Dans Quand la carrière commence... Les sept premières années
de vie active de la génération 98, (Dir., T. Couppié, C. Gasquet et
A. Lopez), Céreq, (http://www.cereq.fr/carriere/QCC.pdO, 7-11.
Mazuy, M., Razafindratsima, N. et de la Rochebrochard, F. (2005).
Déperdition dans l'enquête « Intentions de fécondité ». Documents de
travail, 129.
Razafindratsima, N., Kishimba, N. et l'équipe Cocon (2004). La déperdition
dans la cohorte Cocon entre 2000 et 2002. Population, 59(3-4), 419-448.
Régnier-Loilier, A. (2009). ERFI : du projet international à l'enquête
française. Dans Portraits de familles, (Dir., A. Régnier-Loilier), Chapitre I,
31-56.

26 Un certain nombre de refus de participer à la seconde vague parmi des personnes ayant
accepté de participer au panel en 2005 sont en effet parvenus au service des enquêtes
pour ce motif.
5. Enquêtes longitudinales et rétrospectives 259

Régnier-Loilier, A. (2010). La déperdition dans les enquêtes longitudinales :


l'exemple de l'enquête « Étude des relations familiales et intergénération-
nelles ». Courrier des Statistiques, 128, 55-62.
Vikat, A., Spéder, Z., Beets, G., Billari, F.C., Biihler, C., Désesquelles, A.,
Fokkema, T., Hoem, J.M., MacDonald, A., Neyer, G., Pailhé, A.,
Pinnelli, A. et Solaz, A. (2007). Générations and gender survey: Towards a
better understanding of relationships and processes in the life course.
Démographie Research, 17(14), 389-440.

7. La mesure de l'audience Internet en

France

27 28
Aurélie VANHEUVERZWYN et Eléna VOUGE

7.1 Introduction

L'objectif du dispositif de mesure d'audience Internet, opéré en France par


Médiamétrie/ZNetRatings, est de déterminer de manière mensuelle le nombre
de visiteurs des sites Internet. Elle repose sur un panel de 25 000 individus de
2 ans et plus. Le comportement des panélistes est observé à l'aide d'un
logiciel mouchard installé soit à leur domicile soit sur leur lieu de travail. On
observe une frange de plus en plus importante de la population ayant accès
depuis les deux lieux mais, leur comportement n'est mesuré que sur un seul
de ces lieux.
Pour obtenir une estimation de la duplication entre les deux lieux, un
dispositif de fusion des échantillons domicile et lieu de travail a été mis en
place. Cet article s'attache à présenter en détail la méthode de fusion
statistique retenue.

7.2 Méthodologie

7.2.1 Structure du panel

Avant juillet 2008, le panel de mesure d'audience d'Internet était constitué de


trois sous-échantillons disjoints observés sur l'ensemble de leurs lieux de
connexion. Ainsi les individus ayant accès à Internet depuis leur domicile et

27 Aurélie Vanheuverzwyn, Directeur Analyses et Méthodes Scientifiques, Médiamétrie.


Courriel : avanheuverzwyn@mediametrie.fr.
28 Eléna Vouge, Chargée d'Études Statistiques, Médiamétrie.
Courriel : evouge@mediametrie.fr.
260 Pratique et méthodes de sondages

leur lieu de travail étaient alors mesurés sur les deux lieux. Les taux de
recrutement et de maintien de ce sous-échantillon déclinant d'année en année,
il a été décidé de laisser aux panélistes le choix du lieu d'installation. Le panel
compte depuis cette date deux échantillons d'intersection non vide :
- les panélistes observés à domicile,
- ceux observés sur leur lieu de travail.

Le questionnaire qui est administré au recrutement permet d'identifier les


individus « mixtes », c'est-à-dire ayant en réalité plusieurs lieux de
connexion. Ce sont ces individus qui vont être l'objet du traitement statistique
détaillé ci-après.
La fusion vise à rapprocher, pour chaque individu mixte observé à domicile,
un individu sosie observé sur le lieu de travail. Une fois déterminé le couple
receveur/donneur, le surf du donneur sur le lieu de travail sera greffé au
receveur observé à domicile. On aura donc, pour chaque individu déclarant
deux lieux de connexion, une estimation du surf sur les deux lieux. Les
individus mixtes observés sur le lieu de travail n'interviendront plus
directement dans les calculs d'audience.

Figure 5.3 : Sous-échantillons suivant le lieu de mesure

Exclusifs
domicile

Mixtes <=> Mixtes

Exclusifs
travail
Domicile ivail

7.2.2 Indicateurs de qualité de la fusion

Les individus mixtes observés sur le lieu de travail sont moins nombreux que
ceux observés à domicile. Le premier contrôle de qualité de la fusion porte sur
l'utilisation de la base des donneurs. Les objectifs sont les suivants :
- utiliser le plus grand nombre possible de donneurs,
- minimiser le nombre de réplications d'un même donneur.

Ces deux objectifs ont pour but de favoriser la diversité des comportements
d'audience sur le lieu de travail et de veiller à ne pas répliquer des
comportements qui pourraient être atypiques.
5. Enquêtes longitudinales et rétrospectives 261

Le second contrôle porte sur les résultats de duplication site par site. En
effet, on dispose d'un historique allant jusqu'en juin 2008 de duplications
observées sur des individus réellement observés sur leurs deux lieux de
connexion. On dispose par ailleurs d'une enquête externe permettant de
recueillir, en déclaratif, les lieux de connexion sur un certain nombre de sites.
L'indicateur de duplication se calcule de la manière suivante :

Audience Deux lieux


Duplication =
Audience Domicile u Travail

7.2.3 Variables de fusion

En toute rigueur, seules les variables communes sont utilisables dans le calcul
des distances entre individus. Or les seules informations strictement
communes sont des variables sociodémographiques. Des premiers tests ont
été menés avec ces seules variables, mais les résultats obtenus en termes de
duplications étaient très faibles. Si ces variables sociodémographiques sont
discriminantes sur le volume global de connexions à Internet, elles ne le sont
pas suffisamment au niveau des sites visités.
Les similitudes entre les sites visités depuis le domicile et le lieu de travail
ont été étudiées, sur le panel « historique », dans le but d'appréhender les
comportements communs qu'il pouvait y avoir entre les deux lieux. Cette
analyse nous a permis d'identifier un certain nombre de sites dont la
duplication est suffisamment élevée pour pouvoir les considérer comme
variables communes.
Pour toutefois ne pas mettre sur le même plan les variables
sociodémographiques, strictement communes, et les variables de connexion,
les premières sont utilisées pour la constitution de strates au sein desquelles
seront réalisées les fusions. Ces variables seront par conséquent des
contraintes obligatoires dans le rapprochement des individus.

7.2.4 Calcul de distance

Au sein de chaque strate sociodémographique, on calcule l'ensemble des


distances entre donneurs et receveurs.
La fonction de distance choisie est celle de Levenshtein. Elle permet de
pénaliser les différences de comportement (visite ou non d'un site Internet) en
tenant compte de la couverture du site en question :

d(i, j) = X 1% - yjk + 1 Visite et Non Visite x couverture(Â:).


k

Plus concrètement, des différences de comportement sur un site Internet à


une forte couverture seront plus pénalisantes que sur des sites plus petits.
262 Pratique et méthodes de sondages

Afin de maximiser le nombre de donneurs utilisés, l'affectation des


donneurs est réalisée selon l'algorithme suivant :
1. Calcul des distances dans les bornes [0, 1],
2. Restriction aux donneurs tels que : d{i,j) < + 0,1,
3. Calcul du nombre de fois où un donneur est susceptible de donner
(pour l'ensemble de la base des receveurs),
4. Choix du donneur qui maximise :
/ 1
aléa exp
nb de dons potentiels

avec alea une variable uniforme aléatoire entre 0 et I.

7.3 Mise en application

7.3.1 Règles pour les variables de ponts

Les sites Internet participant au calcul de distance exposé précédemment ont


été sélectionnés, strate par strate, de la manière suivante :
- taux de couverture minimum de 10 %,
- écarts de couverture non significatifs entre le domicile et le lieu de
travail (test de Strident à 5 %).

7,3.2 Tests réalisés

Au cours du 4e trimestre 2009, des tests ont été réalisés dans le but de vérifier
les résultats obtenus et leur stabilité dans le temps.
Sur le plan statistique, les résultats sont satisfaisants. Près de 80 % des
donneurs potentiels sont utilisés avec un nombre maximum de dons pour un
même donneur de 8. Par ailleurs, quelle que soit la strate étudiée, l'utilisation
des donneurs est uniforme.
Pour ce qui est des niveaux de duplication obtenus, ceux-ci sont cohérents
avec les résultats historiques et on observe des hiérarchies comparables à
l'enquête externe menée en parallèle.

7.4 Conclusion

La méthode présentée dans cet article a été adoptée à partir du mois de janvier
2010. Après quelques mois d'applications, les résultats sont stables et
cohérents avec les différentes sources de validation.
5. Enquêtes longitudinales et rétrospectives 263

Toutefois, la validation des résultats s'avère délicate du fait des biais


inhérents au recueil déclaratif sur lequel repose l'enquête externe. Des
alternatives sont à l'étude pour améliorer le processus de validation et garantir
la pertinence des résultats produits.

BIBLIOGRAPHIE

Lejeune, M. (2001). Traitements des fichiers d'enquêtes. Presses


Universitaires de Grenoble.
Rassler, S. (2002). Statistical Matching. Springer.
Vanheuverzwyn, A. (2009). Fusion des études de référence de la mesure
d'audience Radio, TV, Internet et Presse. X' Journées de Méthodologie
Statistique de VInsee.
o
(N
<S)
-C
CT1
>-
CL
O
U
Chapitre 6

Collecte de donnés et

sondages en ligne

1. Le nouvel échantillon Maître

« OCTOPUSSE >> de l'insee

1
Marc CHRISTINE et Sébastien FAIVRE

1.1 Le nouveau Recensement de l'insee

Depuis janvier 2004, le recensement de la population s'effectue de manière


annuelle. Pour les petites communes (moins de 10 000 habitants au recensement
de 1999), il est réalisé de manière exhaustive au cours d'une période de
5 ans : chaque petite commune a été affectée aléatoirement à un « groupe de
rotation » recensé une année donnée. Pour les grandes communes ( 10 000
habitants ou plus), on dispose d'un Répertoire d'Immeubles Localisé (RIL)
mis à jour chaque année, qui contient des listes d'adresses, réparties
aléatoirement en cinq groupes de rotation ; au sein de chaque groupe annuel,
un échantillon d'adresses est tiré2. L'ensemble des logements qu'elles
contiennent est alors recensé. Ainsi, le recensement couvre chaque année une

1 Institut national de la statistique et des études économiques (Insee), Direction générale,


Unité Méthodes Statistiques.
Courriel : marc.christine@insee.fr ; sebastien.faivre@insee.fr.
2 Les adresses au-dessus d'un certain seuil, dites « grandes adresses », étant retenues
exhaustivement.
266 Pratique et méthodes de sondages

fraction de chaque grande commune, mais il n'y a plus d'exhaustivité de la


couverture sur une période supra-annuelle.
Les échantillons des enquêtes ménages réalisées par l'Institut national de la
statistique et des études économiques (Insee) sont, depuis les années 60, tirés
dans les fichiers de logements issus de chaque recensement « général »3. Ce
système n'est plus compatible avec le nouveau recensement et, notamment,
son caractère désormais rotatif et partiel. Il était donc nécessaire de repenser
complètement le système4. Un nouvel Échantillon-Maître « OCTOPUSSE »
(Organisation Coordonnée de Tirages Optimisés Pour une Utilisation
Statistique des Échantillons) a donc été mis en service par l'Insee à l'été
2009.

1.2 Principes fondateurs du système


OCTOPUSSE

Les enquêtes de l'Insee étant réalisées pour l'essentiel en face à face, il


importe de concentrer la collecte dans des zones géographiques données
(issues d'une étape de sélection aléatoire) pour maintenir les coûts d'enquête
(notamment ceux liés aux déplacements des enquêteurs) dans des enveloppes
raisonnables. Il faut donc maintenir un tirage à deux degrés, le premier degré
étant celui des unités primaires, mais le nouveau recensement conduit à
redéfinir complètement la nature et le mode de constitution de ces unités
primaires.
Par ailleurs, l'innovation principale du futur système consiste à bénéficier
de la « fraîcheur » du nouveau recensement, c'est-à-dire à tirer parti du fait
que l'on dispose chaque année d'une base de logements venant d'être
recensés, couvrant une fraction certes aléatoire du territoire, mais sélectionnée
de manière à fournir des estimateurs sans biais de paramètres relatifs à la
population et aux logements. A nouveau découle de cet objectif un principe
structurant : se servir comme base de sondage, pour les enquêtes réalisées au
cours de l'année n + 1, des listes de logements recensés au début de l'année
n. Ce principe permettra en particulier de mieux cibler des populations
spécifiques (à partir de caractéristiques récentes connues au dernier recensement),
de réduire les cas de hors-champ (transformations ou destructions de logements)
et de s'affranchir d'un système spécifique complémentaire pour la couverture
des logements les plus récents (base de logements neufs).

3 Lesquels étaient complétés par des listes de logements « neufs », construits après le
dernier recensement, alimentées par les fichiers de pennis de construire.
4 L'enquête Emploi n'entre pas dans le champ de ce système : son échantillon est
aréolaire et, depuis le début 2009, les logements sont tirés en grappes à partir des
fichiers fiscaux.
6. Collecte de donnés et sondages en ligne 267

1.3 De nouvelles unités primaires

1.3.1 La constitution des ZAE

La construction des nouvelles unités primaires (ou ZAE : Zones d'Action


Enquêteurs) a suscité un travail méthodologique innovant et relativement
complexe. Chaque grande commune constituant une ZAE à elle toute seule
(puisque couverte par le recensement chaque année), il s'agissait de construire
des ZAE au sein des 35 000 petites communes françaises, c'est-à-dire des
agrégats composés de petites communes appartenant à chacun des cinq
groupes de rotation, avec un nombre minimal de 300 logements principaux
dans chacun de ces groupes (afin de disposer chaque année d'une réserve
suffisante de logements), tout en visant à minimiser l'étendue géographique
de ces zones. La première contrainte doit permettre de tirer à tout moment des
échantillons dans la base annuelle du recensement de l'année précédente, la
deuxième traduit la nécessité de limiter les déplacements des enquêteurs. Une
solution automatisée performante a pu être mise en œuvre : on a ainsi
constitué 2 893 ZAE-PC (petites communes) sur l'ensemble du territoire
(auxquelles s'ajoutent 850 grandes communes).

1.3.2 Le tirage des ZAE

Un échantillon de ZAE a ensuite été tiré au sein de chaque région avec des
probabilités proportionnelles à leur taille et sous des conditions d'équilibrage
impliquant différentes données sociodémographiques : nombre de résidences
principales, revenu fiscal total, âge en trois tranches, répartition des logements
dans les espaces urbain/périurbain/rural. Les grandes communes au-dessus
d'un certain seuil sont d'office et peuvent avoir plusieurs enquêteurs affectés.
Les autres sont sélectionnées aléatoirement et attribuées chacune à un
enquêteur.

1.3.3 Le calage des ZAE


La « représentativité » des ZAE tirées constitue un des enjeux majeurs du
projet OCTOPUSSE. Il convient de rappeler que, à partir des ZAE tirées, on
construit non pas une mais cinq bases de sondages annuelles correspondant à
chacune des cinq années du cycle de recensement : chaque année, la base de
sondage annuelle est formée par la fraction des ZAE tirées recensée lors de la
dernière enquête annuelle de recensement.
On a cherché à analyser la qualité du tirage des ZAE en comparant :
- Les estimations (à partir des cinq bases de sondage annuelles) du
total « France entière » de différentes variables auxiliaires (obtenues
à partir des totaux observés sur les communes appartenant aux
268 Pratique et méthodes de sondages

fractions recensées des ZAE tirées, supposés connus, c'est-à-dire


avant tirage des logements au second degré) ;
- avec le vrai total France entière pour ces variables (connu par des
sources exhaustives, le Recensement général de la Population (RP) de
1999, notamment).

On constate des erreurs relatives, plus ou moins importantes, variables d'un


groupe de rotation à l'autre, quel que soit le type d'estimateur retenu,
notamment pour la segmentation par type d'espace (rural/périurbain/urbain) et
la répartition du nombre de personnes employées par secteur (variables
imparfaitement ou pas prises en compte dans l'équilibrage lors du tirage).
Ces erreurs peuvent altérer la qualité des estimations, en particulier pour les
enquêtes annuelles mesurant des évolutions, puisque, par construction, les
communes impactées d'une année sur l'autre sont distinctes (pour les
ZAE-PC).
Une solution pour remédier à ce problème est d'effectuer chaque année un
(re)calage des ZAE tirées, de façon que les estimations de totaux issues des
fractions recensées de ces ZAE correspondent aux vraies valeurs pour le
groupe de rotation considéré. Les variables de calage ont été, d'une part, les
variables d'équilibrage utilisées lors du tirage des ZAE ; d'autre part, les
variables d'emploi par secteur et la répartition par tranches de taille d'unité
urbaine.
Une validation empirique de cette méthode a été opérée sur la base de
l'échantillon de ZAE tiré. Ces travaux montrent que le calage a ainsi permis
d'obtenir une erreur relative égale à zéro sur les variables de calage, sans la
voir augmenter pour les autres variables d'intérêt. Les poids des ZAE ainsi
obtenus (aléatoires) remplacent les poids initiaux de tirage.
On a donc mis en place une méthodologie innovante de calage des unités
primaires qui permettra également d'incorporer chaque année une information
récente en calant sur les données du nouveau RP (alors que la construction et
le tirage des ZAE ont utilisé des données du RP 1999).

1.4 Le tirage des logements

L'objectif fondamental lors du tirage de l'échantillon d'une enquête donnée


est d'assurer l'équiprobabilité finale des logements5. Cependant, l'autre
objectif de tirer, au sein de chaque ZAE sélectionnée aléatoirement, un
nombre égal de fiches-adresses (pour des raisons d'organisation de la
collecte), conduit à la recherche d'une solution de compromis.

5 Même dans le cas où le concepteur d'enquête souhaite assurer une surreprésentation de


certaines catégories de logements ou de ménages, la première étape de l'échantillonnage
est un tirage à probabilités égales.
6. Collecte de donnés et sondages en ligne 269

L'obtention d'un échantillon de logements à probabilités égales se fait en


deux étapes.
- Au sein des grandes communes, on cherche tout d'abord à corriger
les inégalités entre les probabilités de tirage des logements au sein
d'une même ZAE (dues aux taux de sondage différents des logements
dans le RP, selon le type d'adresse à laquelle ils appartiennent). On
procède pour cela à un rééchantillonnage des logements, qui constitue
une nouvelle phase de tirage. On obtient à l'issue de cette phase une
« base utile » dans laquelle chaque logement chargé a une probabilité
identique.
- Pour une enquête donnée, les logements seront tirés au moyen d'un
tirage systématique à probabilités égales au sein de la base utile de
chaque ZAE sélectionnée (formée de petites communes ou d'une
grande).

Les allocations de logements à tirer dans chaque ZAE sont déterminées à


partir des poids des ZAE issus de l'étape de recalage (recalculés chaque
année) en cherchant à rendre les poids finaux des logements les plus voisins
possible, sous la contrainte de la taille totale d'échantillon et de contraintes
pratiques à respecter au niveau de la réalisation des enquêtes (nombre
minimum et maximum de fiches-adresses à tirer par ZAE...).

BIBLIOGRAPHIE

Christine, M., et Faivre, S. (2009). Le projet OCTOPUSSE de nouvel


Échantillon-Maître de l'Insee, Actes des Journées de Méthodologie
Statistiques 2009.
270 Pratique et méthodes de sondages

2. Le recours au web pour augmenter la

participation à une enquête

téléphonique : exemple du Baromètre

santé médecins généralistes 2009

Arnaud GAUTIER 6, Valérie BLINEAU 7, Isabelle EVRARD 8,


8
Julien MOUSQUES et François BECK 6

2.1 Introduction

L'Institut National de Prévention et d'Education pour la santé réalise à un


rythme quinquennal les Baromètres santé Médecins Généralistes, enquêtes
téléphoniques décrivant les opinions et pratiques en matière de prévention des
praticiens libéraux (Gautier, 2005). Ces enquêtes, dont les échantillons sont
constitués par sondage aléatoire simple, nécessitent un niveau de participation
élevé des médecins sélectionnés pour assurer la validité des résultats. Or, les
taux de réponses des enquêtes téléphoniques en population générale comme
auprès des professionnels de santé libéraux, sont en nette diminution depuis
une dizaine d'années (Beck, Guilbert, Gautier et Arwidson, 2008 ; Gautier,
2008). Le mode d'interrogation retenu étant un motif récurrent de refus, le
recours à d'autres moyens de passation du questionnaire semblait dès lors
nécessaire. L'infonnatisation généralisée des médecins de ville permettait
alors d'envisager l'utilisation du web comme mode d'interrogation de cette
population spécifique, 85 % ayant une connexion Internet à leur cabinet en
2007 (Aulagnier, Obadia, Paraponaris, Saliba-Serre, Ventelou, Verger, Les
membres du comité de pilotage et Ventelou, 2007).
C'est dans ce contexte qu'a été mise en place dans le cadre du Baromètre
santé médecins généralistes 2009, une enquête « on line » alternative à
l'enquête par téléphone afin de limiter les refus de participation.

2.2 Procédure

2.2.1 La mise en place

Le cadre des Baromètres santé imposant de garder une méthodologie


comparable pour le suivi des évolutions, substituer d'emblée à l'enquête
téléphonique une enquête web apparaissait tout à fait inadapté pour le

6 Direction des affaires scientifiques, Inpes. Courriel ; amaud.gautier@inpes.sante.fr.


7 Institut de sondages GfK-ISL.
8 Institut de recherche et documentation en économie de la santé.
6. Collecte de donnés et sondages en ligne 271

renouvellement de l'enquête. Le choix s'est alors porté vers la proposition


d'une enquête « on line » à destination des médecins ayant refusé après un
premier appel téléphonique.
Ainsi, tout numéro de téléphone ayant conduit à un refus exprimé par le
médecin lui-même, par son secrétariat ou par un correspondant non identifié
(personne ayant raccroché sans laisser l'enquêteur présenter l'étude) a été
rappelé par une équipe restreinte d'enquêteurs particulièrement expérimentés.
Un délai de 7 jours minimum a été appliqué avant de contacter à nouveau les
médecins. Lors de ce rappel, la proposition de répondre par téléphone était
tout de même renouvelée, à part pour les médecins ayant explicitement
évoqué le mode de collecte par téléphone comme motif initial de refus, pour
qui l'enquête web était proposée directement.
La proposition du web a été étendue, une semaine avant la fin prévue du
terrain d'enquête, à l'ensemble des médecins n'ayant pu honorer les rendez-
vous fixés avec eux pour répondre à l'enquête.

2.2.2 Le calendrier

Pour la bonne réalisation du terrain d'enquête, il était important de ne pas


proposer la possibilité de répondre « on line » trop tôt afin de ne pas inciter
les enquêteurs à moins argumenter lors du premier appel téléphonique, ni trop
tard afin de laisser du temps aux médecins pour répondre sans repousser
considérablement la date de fin d'enquête. Ainsi, trois semaines après le début
du terrain téléphonique (6 novembre 2008), l'équipe dédiée pour le rappel des
refus a été mise en place (soit le 27 novembre). Les envois des invitations
« on line » ont débutés le 4 décembre alors que près de 1 400 interviews par
téléphone avaient déjà été réalisées (sur 2 000 prévues). Tout médecin n'ayant
pas répondu au questionnaire au bout de deux semaines recevait une nouvelle
invitation. Le 23 janvier 2009, une relance générale indiquant pour la
première fois la date de fin d'enquête (31 janvier) était effectuée.

2.2.3 Le questionnaire et la gestion du site

Le questionnaire web était techniquement identique au questionnaire


téléphonique (notamment sur la gestion des filtres, la rotation aléatoire de
certains items, la possibilité d'interrompre le questionnaire pour le reprendre
plus tard...). Quelques adaptations ont néanmoins été nécessaires sur
certaines questions, telles que l'indication des items « non concerné » ou
« nsp » qui n'étaient pas cités à l'oral par les enquêteurs.
La création du site a été réalisée par la société Voxco qui s'est également
chargée de l'hébergement du site. L'envoi des invitations et des relances a été
géré par GfK-ISL, société retenue pour la collecte de l'ensemble des données.
272 Pratique et méthodes de sondages

2.3 Résultats

2.3.1 Le bilan des appels

Au total, l 836 généralistes ont été rappelés afin que leur soit proposé ce
questionnaire « on line ». Parmi eux, 129 ont finalement accepté de répondre
par téléphone et 532 ont donné leur accord pour répondre par internet (en
acceptant de transmettre leur adresse mail). Parmi ces derniers, 286 n'ont pas
répondu, 47 ont abandonné en cours de questionnaire, et pour 14, un
problème d'adresse mail n'a pas permis de les inviter à se connecter sur le site
Internet mis en place; au final, 185 ont répondu au questionnaire web
représentant près de 9 % de l'échantillon final (n = 2 083) et 10 % des primo-
refusants. Le taux de participation global est ainsi passé de 48,0 % à 57,1 %.
Le taux de réussite diffère selon la qualification initiale des adresses : il est
relativement faible pour les appels ayant conduit à un raccrochage (4,2 %) ou
à un refus de la part du secrétariat (5,5 %) contrairement aux situations de
refus du médecin (13,2 %). Le taux de réussite pour les médecins n'ayant pu
honorer les rendez-vous téléphonique est quant à lui particulièrement
important (9,9 %) alors même que les médecins n'ont eu qu'une semaine pour
répondre.

2.3.2 Les connexions

Pour 40 % des 185 médecins ayant répondu au questionnaire web, une relance
par mail a été nécessaire. Près des deux tiers (63,8 %) ont répondu en une
seule fois, 18,9 % en deux fois. Plus de 2 connexions ont été nécessaires pour
17,3 % des médecins (le maximum atteignant 12 connexions).
Un quart des interviews a été réalisé la dernière semaine, suite à la relance
générale. La majorité des interviews a été réalisée à des horaires et dates pour
lesquels l'enquête téléphonique ne pouvait être assurée : 27,8 % des
connexions ont eu lieu entre minuit et 5 heures du matin, 24,9 % entre 5 et 8
heures et 17,8 % entre 21 heures et minuit. Une sur dix a eu lieu le dimanche.
La durée globale pour répondre au questionnaire « on line » s'est avérée
équivalente à celle de l'enquête téléphonique, soit 25 minutes.

2.3.3 Des caractéristiques et opinions différentes

La population de généralistes atteinte par l'intermédiaire de l'enquête web


s'est révélée plus masculine que celle interrogée par téléphone (77,8 % versus
69,0 %, p < 0,05). En revanche, aucune différence significative n'a été
observée selon l'âge ou le lieu d'exercice des praticiens.
Si la réalisation de l'échantillon complémentaire n'a pas considérablement
modifié la structure sociodémographique de l'échantillon global, elle a
6. Collecte de donnés et sondages en ligne 273

néanmoins permis de se rapprocher de la structure de la population des


médecins libéraux telle que fournie par différentes sources (Cegedim®,
SN1R, et ADEL1).
Les médecins ainsi « rattrapés » se distinguent par un nombre d'actes
quotidiens important et une participation moindre aux réseaux de santé ou à
des journées de Formation Médicale Continue. Après analyses multivariées
intégrant l'ensemble des variables sociodémographiques et caractéristiques de
la pratique médicale, certaines opinions diffèrent des médecins interrogés par
téléphone : ainsi, ils se sentent moins efficaces dans l'éducation de leurs
patients asthmatiques et diabétiques, pensent avant tout que la prévention est
du ressort des généralistes et non d'autres professionnels de santé tels que les
spécialistes et se déclarent moins satisfaits par l'exercice de leur profession.

2.4 Conclusion

La réalisation d'une enquête alternative web en complément de l'enquête


téléphonique a permis d'augmenter largement la participation globale à
l'enquête en touchant des médecins habituellement difficiles à joindre,
notamment ceux déclarant un nombre élevé d'actes par jour. La proportion
importante de connexions réalisées en dehors des horaires de l'enquête
téléphonique en témoigne. Cette enquête web a ainsi permis d'être tout à fait
conforme à la structure de la population des médecins généralistes libéraux
disponible par diverses sources administratives.
La mise en place d'une telle enquête reste cependant délicate : il est
nécessaire d'augmenter la durée du terrain d'enquête et d'imposer des
consignes strictes aux enquêteurs dédiés à l'appel des refus. Il est également
assez difficile de concevoir un questionnaire totalement équivalent,
notamment en ce qui concerne les items et consignes non citées à l'oral par
les enquêteurs.

BIBLIOGRAPHIE

Aulagnier, M., Obadia, Y., Paraponaris, A., Saliba-Serre, B., Ventelou, B.,
Verger, P., Les membres du comité de pilotage et Ventelou, B. (2007).
L'exercice de la médecine générale libérale. Premiers résultats d'un panel
dans cinq régions françaises. Etudes et résultats, no610.
Beck, F., Guilbert, P., Gautier, A. et Arwidson, P. (2008). L'acharnement
téléphonique dans les enquêtes est-il justifié ? Dans Méthodes de sondages -
Cours et cas pratiques - Master, écoles d'ingénieurs, (Dir., P. Guilbert,
D. Flaziza, A. Ruiz-Gazen et Y. Tillé), Dunod, Paris, 254-259.
Gautier, A. (2005). Baromètre santé médecins/pharmaciens 2003, INPES.
Gautier, A. (2008). Enquête Nicolle 2006, INPES.
274 Pratique et méthodes de sondages

3. Mise en place et évaluation d'une

enquête ouverte sur Internet. Le volet

individu de l'enquête ELVIRE

Efi MARKOU9, Nicolas RAZAFINDRATSIMA 10


et
11
Bernard DE CLE DAT

3.1 Introduction

Cette étude vise à présenter et à évaluer une enquête « ouverte » : le


questionnaire était mis sur Internet, et chacun pouvait répondre librement,
sans échantillonnage préalable. Quelles raisons ont fait entreprendre ce type
d'enquête et sous quelles conditions ? Quel bilan peut-on faire de
l'échantillon obtenu ? Ces questions seront abordées en utilisant les données
recueillies puis en comparant les caractéristiques des répondants avec les
données externes disponibles.

3.2 Pourquoi une enquête ouverte ?

3.2.1 L'Enquête sur les langues vivantes dans la


recherche publique en France

Motivée par le débat sur l'internationalisation grandissante de la recherche et


l'usage privilégié de l'anglais, l'Enquête sur les langues vivantes dans la
l *)
recherche publique en France (ELVIRE) " visait à établir un état des lieux des
pratiques en matière de langue des scientifiques français qui travaillent dans
le cadre de la recherche publique - et à recueillir leurs opinions.
Le champ de l'enquête était composé des scientifiques appartenant aux
unités de recherche des principaux établissements publics de recherche et
d'enseignement supérieur. Faisant l'hypothèse que la quasi-totalité des
scientifiques est familière avec Internet, les questionnaires Web étaient
privilégiés, une version papier étant pour autant disponible.

9 Institut national d'études démographiques (Ined, FR). Courriel ; markou@ined.fr.


10 Institut national d'études démographiques (Ined, FR). Courriel ; razafind@ined.fr.
11 Institut national d'études démographiques (Ined, FR). Courriel ; decledat@ined.fr.
12 ELVIRE a été réalisée en 2007-2009 par le Service des enquêtes de l'ined sous la
responsabilité scientifique de François Héran.
6. Collecte de donnés et sondages en ligne 275

La consultation était divisée en deux volets, chacun disposant de son propre


questionnaire ;

a) Le volet Unité

Dans un premier temps, les directeurs des unités de recherche ont été appelés
à répondre sur les langues pratiquées dans le cadre de leur unité, pour les
publications, les séminaires et les rencontres internationales en France, mais
aussi pour les traductions et les formations. Ils étaient également invités à
exprimer leurs propres opinions sur révolution internationale des pratiques,
les perspectives, les politiques convenables et leurs objectifs et moyens. Le
remplissage du questionnaire durait en moyenne une heure.
La consultation était exhaustive : l'ensemble des 3 645 directeurs d'unités
éligibles ont été contactés. Durant la collecte (décembre 2007 - avril 2008) et,
après plusieurs relances, 1 946 directeurs ont rempli le questionnaire (53 %).

b) Le volet Individu

Après les directeurs, ELVIRE s'est adressée aux membres (chercheurs,


ingénieurs et doctorants) des unités éligibles. Le questionnaire fut plus court
(une vingtaine de minutes) mais avec une structure équivalente. Ce volet était
une enquête ouverte, sans échantillonnage préalable. Durant la collecte
(novembre 2008 - janvier 2009), 8 883 réponses éligibles ont été reçues.

3.2.2 Le volet Individu : les conditions d'une enquête


ouverte

La constitution de la base de sondage des unités de recherche a été possible


après de longues démarches auprès des institutions concernées. Cependant, la
création d'une liste exhaustive et fiable des membres de ces unités s'est
avérée impossible. Différentes stratégies de tirage probabiliste d'individus en
l'absence de liste ont été testées, mais sans donner des résultats satisfaisants.
Néanmoins, les démarches pour obtenir la liste des unités et de leurs
membres ont permis de remplir un ensemble des conditions permettant
d'atteindre, en principe, tous les individus appartenant au champ de
l'enquête : au moins un contact dans chaque unité de recherche (le directeur et
souvent les secrétaires) et une liste de 30 000 membres dont on connaissait
l'unité d'appartenance, l'adresse électronique et certaines autres caractéristiques.
Cette double base de départ a permis de concevoir un protocole basé sur la
diffusion de l'information par « boule de neige » auprès de la population
cible. L'épine dorsale de la diffusion était constituée, d'une part par les
directeurs des unités auxquels nous avons demandé de relayer l'information
auprès de leurs membres, d'autre part par les 30 000 personnes déjà recensées
276 Pratique et méthodes de sondages

auxquelles nous avons demandé de remplir le questionnaire et de diffuser


l'information autour d'eux. Afin de parer aux éventuels dysfonctionnements
de ce dispositif nous avons multiplié les lieux de diffusion en contactant les
établissements de recherche, les bibliothèques scientifiques et les associations
professionnelles des scientifiques et des doctorants. Les moyens de contacts
étaient également variés : lettres postales, courriels, affiche, site Internet.

3.3 Une évaluation des données obtenues

L'évaluation des données peut être réalisée en utilisant des informations


internes ou externes à l'enquête.

3.3.1 La diffusion de l'information

La question « comment avez-vous eu connaissance de cette enquête ? »


renseignée par 95 % des répondants, permet d'appréhender l'effet boule de
neige. 40 % d'entre eux ont déclaré avoir été informés directement par
l'équipe ELVIRE, tandis que 60% ont indiqué seulement des sources
indirectes (information transmise par les directeurs des unités, les présidents
des établissements, les associations professionnelles, d'autres collègues ou au
moyen de l'affiche de l'enquête). L'information directe est ainsi minoritaire
face aux sources indirectes, ce qui montre que l'information était bien relayée,
touchant une partie de la population cible non répertoriée au départ.

3.3.2 Des répondants intéressés par le thème, mais pas


seulement

Une autre question portait sur les raisons de la participation, et permet de


savoir si l'enquête a recruté seulement les chercheurs particulièrement
sensibles à la problématique des langues dans la recherche, ou si d'autres
chercheurs, moins sensibles au sujet, se sont aussi exprimés. 2 répondants sur
3 ont rempli cette question ouverte. Parmi eux, 29 % ont déclaré une raison
non directement liée au thème de l'enquête (par exemple à la suite d'une
demande de leur directeur d'unité). Cela semble signifier que l'enquête n'a
pas concerné uniquement des personnes particulièrement intéressées par le
délicat sujet des langues utilisées dans la recherche en France.

3.3.3 Une évolution des caractéristiques des


répondants au fil du temps

Au fil de l'avancement de l'enquête, les caractéristiques des répondants ont


évolué. Par exemple, la part des chercheurs en sciences de la matière s'est
effondrée, passant de 44 % parmi les 10 % premiers répondants, à 28 % parmi
les 10 % derniers répondants. Au contraire, la part des chercheurs en sciences
6. Collecte de donnés et sondages en ligne 277

de la vie ou en sciences humaines et sociales (SHS) a progressé. De même, la


part des chercheurs les plus jeunes (39 ans ou moins) a faibli au fil du temps :
ils représentaient 56 % des répondants en début d'enquête, contre 38 % à la
fin. En revanche, la part des chercheurs de 50 ans ou plus, et surtout des
60 ans ou plus a progressé. Ces résultats vont à nouveau dans le sens d'une
diversification des personnes ayant répondu à l'enquête ELV1RE.

3.3.4 Comparaison avec des données externes

Une comparaison a été menée entre ELVIRE-individus et les données du


ministère de l'Enseignement Supérieur et de la Recherche (MINESR) sur le
champ des enseignants (les titulaires et les associés) exerçant dans les
établissements publics d'enseignement supérieur au cours de l'année
universitaire 2006-2007 (MINESR, 2007).
On constate un faible écart entre les répartitions par sexe ou par discipline
agrégée (sciences vs sciences humaines et sociales). En revanche, la
répartition selon l'âge diffère de manière importante selon les deux sources :
les jeunes enseignants titulaires (moins de 35 ans) sont sur-représentés dans
ELVIRE, au contraire des enseignants en fin de carrière (55 ans ou plus) qui,
eux, sont sous-représentés (tableau 6.1).

Tableau 6.1 : Répartition des enseignants titulaires

Age de l'enseignant Toutes disciplines SHS Sciences


MINESR Elvire MINESR Elvire MINESR Elvire
Moins de 35 ans 10,1 21,0 7,5 15,4 11,9 25,1
35-39 ans 16,2 19,5 15,9 18,1 16,4 20,5
40-44 ans 17,6 20,0 16,7 20,1 18,1 19,9
45-49 ans 13,6 13,0 13,2 12,8 13,8 13,2
50-54 ans 11,3 10,1 12,7 13,4 10,4 7,8
55-59 ans 14,4 7,8 16,0 10,6 13,4 5,8
60 ans ou + 16,7 8,5 17,9 9.7 16,0 7,6
Total 100 100 100 100 100 100

3.4 Conclusion

L'enquête ELVIRE-individus a été conduite comme une enquête ouverte par


Internet, en raison de l'impossibilité de mettre en œuvre un sondage
probabiliste. Cependant, la base de sondage des unités de recherche, ainsi que
les listes partielles d'individus disponibles ont permis d'obtenir une base de
diffusion d'information efficace, et de diversifier la population atteinte.
L'échantillon obtenu sur-représente les jeunes enseignants-chercheurs, et la
faisabilité d'un redressement pourrait être étudiée.
278 Pratique et méthodes de sondages

BIBLIOGRAPHIE

MINESR (2007). Démographie des personnels enseignants affectés dans


l'enseignement supérieur au cours de l'année 2006-2007. Ministère de
l'enseignement supérieur et de la recherche, Bureau des études de gestion
prévisionnelle (DGRH Al-1), 130 pages.

4. Une évaluation du biais de

représentativité des enquêtes en ligne

13
Régis BIGOT et Patricia CROUTTE

4.1 Principe de l'expérience

Aujourd'hui, en France, plusieurs instituts d'étude spécialisés dans les


enquêtes en ligne considèrent qu'un échantillon exclusivement composé
d'internautes peut être représentatif de l'ensemble de la population dès lors
que sa structure reflète celle de la population générale, en veillant notamment
à ce que certains groupes soient correctement représentés (les seniors ou les
personnes peu diplômées en particulier).
Dans l'expérience suivante, nous testons l'efficacité de la méthode
consistant à « redresser », par un calcul de pondération, un échantillon
d'internautes de telle sorte que sa structure sociodémographique reflète au
mieux celle observée en population générale.
Pour cet exercice, nous mobilisons la vague de janvier 2009 de l'enquête
« Conditions de vie et Aspirations des Français ». Cette enquête, transversale
et répétée deux fois par an depuis 1978, est réalisée en face-à-face auprès de
2 000 personnes représentatives de la population Française âgée de plus de
18 ans, recrutées selon la méthode des quotas et interrogées à leur domicile.
Les critères de stratification sont les suivants : à l'intérieur de chaque
ZEAT14, les sous-échantillons doivent respecter la structure de la population
de chaque grande région selon le sexe croisé par l'âge, la Profession -
Catégorie Sociale (PCS) et la taille de l'agglomération. L'intérêt de cette
enquête pour cette expérience est qu'elle propose un large champ
d'observation des attitudes, des comportements et des opinions dans de
nombreux domaines (famille, environnement, logement, nouvelles
technologies, opinions politique, pratiques sociales, pratiques culturelles,

13 Régis Bigot, CREDOC, Paris. Courriel ; bigot@credoc.fr ; Patricia Croutte, CREDOC,


Paris. Courriel : croutte@credoc.fr.
14 Les ZEAT, zones d'aménagement et d'étude du territoire, partitionnent la France en
huit grandes régions.
6. Collecte de donnés et sondages en ligne 279

etc.) ; l'inconvénient est qu'elle ne se base pas sur un échantillonnage


probabiliste.
Dans la vague de janvier 2009, les personnes disposant d'une connexion à
Internet à domicile représentent 65 % de l'échantillon, soit 1 300 personnes
sur les 2 000 individus interrogés. L'exercice consiste à comparer les attitudes
des 1 300 internautes (avant et après redressement) avec celles des 700 non-
internautes, puis avec celles de l'ensemble de l'échantillon (2000).

4.2 Méthodologie

La qualité du redressement dépend beaucoup des variables utilisées pour le


calage. A notre connaissance, les instituts d'étude en ligne se contentent
souvent d'utiliser uniquement le sexe, l'âge, la région, la taille de
l'agglomération, voire la PCS. Or, on sait que les internautes présentent des
spécificités fortes par rapport à l'ensemble de la population, et ces seuls
critères ne suffisent pas à les caractériser correctement15 : ils sont
significativement plus diplômés, plus aisés, plus jeunes ; les cadres, les
professions intermédiaires, les professions intellectuelles supérieures et
libérales, de même que les étudiants, y sont largement sur-représentés.
Inversement, les seniors, les personnes peu diplômées, les ouvriers non
qualifiés et certains employés y sont nettement sous-représentés. Malgré la
rapide diffusion d'Internet dans les foyers français (le taux d'équipement est
en effet passé de 4 % en 1998 à 65 % aujourd'hui), le « fossé numérique »
reste important : 79 % des 25-39 ans sont connectés, contre seulement 20 %
des 70 ans et plus ; 89 % des cadres le sont, contre 65 % des ouvriers ; c'est
aussi le cas de 87 % des diplômés du supérieur, contre 36 % des non-
diplômés, de 87 % des plus aisés, contre 49 % des plus modestes.
Une régression logistique montre que le taux d'équipement varie en réalité
selon 6 facteurs sociodémographiques : le niveau de diplôme, l'âge, le revenu,
la PCS, le nombre de personnes dans le foyer et la taille de l'agglomération.
Le sexe et la région ne jouent pas.
Le calage sur marge a donc été établi en fonction des 6 critères
discriminants. Après le calcul de pondération, l'écart maximum entre les
pourcentages demandés et les pourcentages obtenus est de 1,5 points ; le
poids minimum est de 0,4 et le poids maximum est de 3,3. L'échantillon des
« redressé » des internautes ressemble beaucoup à celui de la population
générale ; mais si l'on devait renouveler cette expérience, il pourrait être
intéressant, pour consolider les résultats et limiter la dispersion des poids, de

15 Bigot Régis et Croutte Patricia, La diffusion des technologies de l'information et de la


communication dans la société française, collection des rapports du CRÉDOC, n0261,
novembre 2009, Paris, http://www.arcep.fr/uploads/tx_gspublication/etude-credoc-
2009-111209.pdf.
280 Pratique et méthodes de sondages

travailler avec un échantillon plus important en fusionnant par exemple deux


ou trois vagues d'enquêtes.

4.3 Principaux résultats

Dans un certain nombre de cas, le redressement ne corrige pas les écarts entre
les internautes et la population générale. Par exemple, 63 % des internautes
sont partis en vacances au cours des douze derniers mois, contre 34 % des
non-internautes. Après redressement, le taux de départ dans l'échantillon des
internautes diminue à 59 %, mais reste éloigné du taux observé en population
générale (53 %).

Figure 6.1 : Proportion d'individus qui sont


partis en vacances au cours des 12 derniers mois (en %)

70

60

50

40

30

20

10

0 i— —r
Internautes Non Échantillon Ensemble de la
internautes d'internautes population
redressé

Source : CRÉDOC, calculs à partir de l'enquête « Conditions de vie et Aspirations »,


2009.

Dans d'autres cas, le calcul de pondération a permis de corriger les écarts.


Par exemple, 20 % des internautes déclarent souffrir d'un handicap ou d'une
maladie chronique, contre 35 % des non-internautes. Après redressement, on
retrouve à peu près le pourcentage enregistré en population générale (25 %).
Nous avons répété ces calculs pour 104 opinions et comportements. Sur
l'ensemble des variables analysées, les internautes ont, avant redressement,
6. Collecte de donnés et sondages en ligne 281

des attitudes similaires16 à celles de la population générale dans 43 cas ; le


redressement permet de retrouver les résultats observés en population
générale dans 44 cas, mais cette opération est insuffisante dans 17 cas.

Figure 6.2 : Proportion (Findividus déclarant


souffrit d'un handicap ou d'une maladie chronique (en %)
40 35
35
30
25
20
15
10
5
0 n— —r
Internautes Non internautes Échantillon Ensemble de la
d'internautes population
redressé

Source : CRÉDOC, calculs à partir de l'enquête « Conditions de vie et Aspirations »,


2009.

Figure 6.3 : Bilan de l'expérience

Le redressement est
insuffisant dans 17
cas où les
internautes étaient a Les internautes sont
priori différents similaires, avant
redressement, à la
population générale
Le redressement est dans 43 cas
efficace dans 44 cas
où les internautes
étaient a priori
différents

Source : CRÉDOC, calculs à partir de l'enquête « Conditions de vie et Aspirations »,


2009.

16 Le problème de l'enquête mobilisée est qu'elle ne permet pas, en toute rigueur, de


comparer les pourcentages entre eux selon les règles applicables à un échantillon
probabiliste (rappelons qu'il s'agit d'une enquête selon la méthode des quotas).
Néanmoins, et faute de mieux, nous avons appliqué les calculs de comparaison entre
pourcentages comme s'il s'agissait d'un échantillon probabiliste.
282 Pratique et méthodes de sondages

Sans surprise, le redressement est insuffisant dans le domaine des sciences


et des nouvelles technologies : équipement en téléphone mobile, en téléphone
fixe, en appareil photo numérique, en lecteur DVD ; attitudes par rapport à
l'informatique, confiance dans le progrès technique, attirance pour les
innovations technologiques. Mais le redressement a également été inopérant
dans d'autres domaines, sans que l'on puisse facilement expliquer pourquoi :
départs en vacances, jugements sur l'homoparentalité ou opinion par rapport
au mariage et au divorce, possession d'une automobile ou de certains biens
d'équipement.

4.4 Conclusion

Cette expérience montre qu'un redressement peut être efficace dans un grand
nombre de cas pour corriger les biais liés au fait que l'on n'interroge que des
internautes. Mais ce redressement n'est pas toujours efficace, même lorsque
les calculs de pondération cherchent à contrôler très précisément le profil des
internautes. D'autres facteurs que les critères sociodémographiques entrent en
ligne de compte ; le fait, en soi, d'être internaute ou pas est lié, toutes choses
égales par ailleurs, à des attitudes, des opinions ou des comportements
spécifiques.
La principale limite de cette expérience tient à son côté « artificiel ».
L'idéal consisterait plutôt à réaliser deux enquêtes en même temps : l'une en
face-à-face et l'autre sur Internet, afin de comparer les résultats de ces deux
modes de recueil des données. En particulier, ce test ne dit rien du problème
d'auto sélection. La plupart des enquêtes en ligne sont en effet réalisées via
des access panels : les panélistes ont demandé ou accepté d'être interrogés
régulièrement ; non seulement ils n'ont pas été choisis au hasard, mais le
risque que certains soient des « professionnels » des enquêtes est non nul.
6. Collecte de donnés et sondages en ligne 283

5. Prospection des voies d'application des

sondages en ligne pour le suivi de

l'insertion des jeunes diplômés sur

données Afrobaromètre

17
Sondo EloiSOMTINDA

5.1 Introduction

Le chômage des jeunes, et plus particulièrement celui des diplômés, constitue


l'un des problèmes majeurs auxquels sont confrontées actuellement la plupart
des économies. Une insertion efficace des jeunes diplômés nécessite un suivi
de ces jeunes afin de fournir des informations détaillées sur leurs situations
dans le temps et dans l'espace. Ainsi, des enquêtes régulières doivent être
faites pour la collecte de ces données. Dans les pays en voie de
développement, les sondages réalisés à cet effet sont des interviews faits à
vue. La conduite de ce type de sondage s'avère conteuse, même si efficace.
En effet, cela exige le recrutement d'enquêteur et de contrôleurs pour la
collecte des données. Ainsi, il faut les former, prendre en charge leur
déplacement, hébergement, sans oublier le perdiem.
Avec l'essor des technologies de communication et de l'information
devenues des vecteurs centraux des sociétés contemporaines, bon nombre
d'instituts de sondage des pays développés ont recours au sondage en ligne
(via téléphone ou Internet). Les pays en voie de développement sont restés
pendant longtemps en marge de cette stratégie. Les raisons d'un tel constat
sont, entre autres, le faible niveau de revenu des populations, le faible niveau
d'éducation de ces derniers, mais aussi le manque de statistiques réelles sur
les utilisateurs de ces outils qui suscitent tant de curiosité en ce temps présent.
Cependant, ces problèmes ne devraient pas se poser avec acuité dans certains
domaines, comme celui de l'insertion des jeunes diplômés, dans la mesure où
les diplômés seraient plus disposés à utiliser ces nouvelles technologies de
communication. C'est ce qui justifie leur forte utilisation dans le secteur de
l'insertion dans les pays développés. Les pays les moins développés devraient
aussi s'en servir. Mais encore faut-il que l'on sache exactement si les
diplômés utilisent ces outils. Ainsi, on serait amené à savoir si la pratique des
sondages en ligne pour des études d'insertion des jeunes diplômés serait
possible d'être réalisée efficacement dans les pays africains.

17 SOMTINDA Sondo Eloi, assistant de recherche du Professeur Léonard Wantchekon,


Institut de Recherche Empirique en Économie Politique (1REEP), BP 02 BP 372
Cotonou République du Bénin. Courriel : somson4@yahoo.fr.
284 Pratique et méthodes de sondages

L'objectif de ce travail est d'explorer les possibilités de mise en œuvre de


sondage en ligne dans les pays africains. Nous allons nous appuyer sur les
d'enquêtes réalisées par le réseau Afrobaromètre afin d'atteindre notre
objectif. Il s'agira de présenter les avantages et les inconvénients de cette
pratique et de faire un état des lieux sur la fréquence d'utilisation du
téléphone portable et de l'Internet, tout en estimant la probabilité d'utilisation
à forte fréquence de ces outils.

5.2 Les avantages et inconvénients des


sondages en lignes

5.2.1 Le téléphone portable

Les sondages via téléphone portable sont aujourd'hui la modalité d'enquête


qui permet d'obtenir les meilleurs taux de réponse. Ils s'avèrent très rapides
parce qu'ils permettent, toutes choses égales par ailleurs, de contacter
systématiquement les personnes à interviewer. Cela permet de gagner
énormément en temps. Cependant, cette stratégie de sondage n'est pas
assortie d'inconvénients, même si elle présente de nombreux avantages. Cela
a été bien présenté par Beaupère et Giret (2008). La première est la durée : il
est souvent difficile de soumettre un questionnaire téléphonique dont la durée
excéderait un quart d'heure ou vingt minutes, surtout quand l'enquêté n'y est
pas préparé. Par ailleurs, le fait que les jeunes aient, dans nombre de cas, un
téléphone portable peut être une difficulté et un coût supplémentaire. En effet,
au moment où on l'appelle, la personne peut être occupée, hors de son
domicile, ne pas être en situation de se concentrer sur les questions qui vont
lui être posées. Ce dernier inconvénient pourrait être résolu en demandant au
répondant s'il est possible de le recontacter, dans des délais brefs, sur un poste
fixe.

5.2.2 L'Internet

L'avantage des sondages à travers l'Internet est son caractère intime. En effet,
les répondants peuvent répondre franchement ce qu'ils pensent sans être
influencés par l'intervieweur. On sait que pour les sujets délicats, il vaut
mieux éliminer l'intervieweur du processus qui entraîne des réponses
socialement acceptables et pas vraiment la vérité. Les sondages en ligne sont
aussi plus fiables, car pour certains types de questions, il est préférable
d'utiliser le sondage en ligne, car on peut montrer des images. Ils permettent
en outre de joindre plus facilement certaines catégories de personnes qui sont
très actives et difficilement accessibles au téléphone (jeunes qui sortent
beaucoup, cadres actifs, médecins, etc.). Cette stratégie de sondage possède
néanmoins des inconvénients. Le principal est le taux de non-réponses élevées
6. Collecte de donnés et sondages en ligne 285

dû au fait que le questionnaire électronique pourrait être classé, mis de côté et


oublié.

5.3 L'utilisation des technologies de la


communication et de l'information :
téléphone et Internet

Dans cette partie il sera question de présenter les fréquences d'utilisation du


téléphone portable et de l'Internet par les jeunes diplômés et d'estimer la
probabilité d'une plus grande utilisation de chacun de ces outils. Nous
commencerons par présenter les statistiques sur l'utilisation du téléphone
portable et de l'internet, puis nous présenterons les résultats de l'estimation
des probabilités de forte utilisation de ces deux instruments de
communication.

5.3.1 L'utilisation du téléphone portable et de l'Internet

Les figures 6.4 et 6.5 nous présentent les proportions d'utilisation du


téléphone et de l'Internet à différent niveau d'éducation.

Figure 6.4 : L'utilisation du téléphone


portable en fonction du niveau d'éducation
89.51

80

■ Pas d'éducation
Niveau primaire
■ Niveau secondaire
■ Niveu universitaire

Jamais Moins Quelques Quelques Tous les


d'une fois fois par fois par jours
par mois mois semaine

Source : À partir des données Afrobaromètre.


286 Pratique et méthodes de sondages

Figure 6.5 : L'utilisation de l'Internet


en fonction du niveau d'éducation
2 JSL
100 J* 81
90
80
70 74
60
■ Pas d'éducation
50
Niveau primaire
40
■24",83 ■ Niveau secondaire
30 ?n.?8
1! ,83 ■ Niveuuniveisilaire
20 10À
10 19 1,2 li
0
Jamais Moins Quelques Quelques Tous les
d'une fois fois par fois par jours
par mois mois semaine

Source : À partir des données Afrobaromètrc.

Les figures ci-dessus montrent que les diplômés utilisent en plus grande
proportion le téléphone portable et l'Internet. L'ampleur de l'utilisation du
téléphone portable croît presque pratiquement avec le niveau d'éducation. Il
en est de même avec l'Internet, mais la proportion des diplômés (20,28 %) qui
font usage de l'Internet régulièrement est relativement basse, mais non
négligeable. Sur la base de ces résultats, on pourrait d'emblée croire qu'un
sondage en ligne via Internet dans les pays africains ne serait pas efficace. Ce
serait se tromper largement. Un sondage pour l'insertion des diplômés serait
d'autant plus efficace que les diplômés ont une forte probabilité d'avoir
recours au téléphone et l'Internet comme moyen de communication et
d'information. Fort de cela, nous estimons dans la partie suivante l'estimation
de cette probabilité.

5.3.2 L'utilisation du téléphone portable de l'Internet


par les Africains

Le point passé nous a permis de formuler une présomption sur le lien existant
entre le niveau d'éducation et l'usage du téléphone portable et de l'Internet.
Cette partie nous permet de tester cette hypothèse du lien positif entre ces
deux variables. Nous avons utilisé à cet effet un modèle de régression logit
multinomial où la variable dépendante est l'utilisation du téléphone portable
et de l'Internet, et le vecteur des variables indépendantes contient le niveau
d'éducation, la confiance interpersonnelle, le genre, le milieu de résidence, la
pauvreté vécue et le niveau de sécurité sociale.
6. Collecte de donnés et sondages en ligne 287

De la régression, il ressort d'une part le lien entre le niveau d'éducation et


l'usage du téléphone portable et d'autre part celui avec l'usage de l'Internet. 11
se dégage que le niveau d'éducation affecte positivement l'utilisation du
téléphone portable et de l'Internet. De même, il s'avère qu'il est plus probable
qu'un diplômé utilise tous les jours le téléphone portable ou l'Internet. Par
ailleurs, cette même probabilité est aussi plus élevée pour l'Internet que pour
le téléphone portable, même si un plus grand nombre de diplômés utilisent le
téléphone portable.
Par ailleurs, la probabilité pour qu'un diplômé du supérieur utilise plus
fréquemment le téléphone portable ou l'Internet est aussi fonction du sexe de
l'individu, de son milieu de résidence et de sa pauvreté vécue. Les hommes
plus que les femmes ont une probabilité plus grande d'utiliser
quotidiennement le téléphone portable et l'Internet. Les mêmes conclusions
se dégagent aussi avec les diplômés urbains et ruraux. Les urbains sont plus
susceptibles d'utiliser tous les jours le téléphone portable et l'Internet que les
ruraux. La pauvreté vécue par les diplômés ne constitue en aucun cas un frein
pour ceux-ci de faire usage au jour le jour de ces outils de communication. En
effet, les résultats démontrent que l'utilisation plus fréquente du téléphone
portable et de l'Internet est fonction croissante du niveau de pauvreté vécue.
Cela pourrait s'expliquer par le fait que les diplômés dont les conditions de
vie sont les plus difficiles sont plus en quête d'informations concernant les
offres d'emploi et cela à travers ces moyens d'information.

5.4 Conclusion

Les sondages par téléphone portable et par Internet sont des méthodes de
sondage dont les observations peuvent être utilisées par un bon nombre de
pays africains, bien qu'elles présentent des inconvénients. Les fréquences
d'utilisation quotidienne du téléphone portable par les diplômés s'avèrent fort
élevées. Il en est de même pour la probabilité d'usage réguler de ces
instruments de communication et d'information. La recherche d'informations
sur l'Internet est, par contre, moins pratiquée par la plupart des diplômés.
Néanmoins, la probabilité qu'un diplômé utilise fréquemment l'Internet est
grande, ce qui rend possible son utilisation par les observatoires. Cependant,
cela doit se faire avec de mesures prudentielles, car l'adresse des étudiants est
rapidement mise hors service lors de leur sortie.
Il émane aussi de nos analyses que le critère genre doit être pris en compte
lors d'une pratique de sondage en ligne à travers le téléphone portable et
l'Internet. Par ailleurs, la pauvreté vécue par les diplômés ne constitue pas un
obstacle au recours de ces méthodes. Elle en est plutôt, une raison.
288 Pratique et méthodes de sondages

BIBLIOGRAPHIE

Beaupère, N., et Giret, J.-F. (2008). Les enjeux méthodologiques posés par le
suivi de l'insertion des diplômes de l'enseignement supérieur au niveau
local, régional et national. Nef, n028.

6. Vers une nouvelle méthodologie des

enquêtes en santé réalisées à partir

d'abonnés au téléphone

18
Nathalie BELTZER , Régis BIGOT19, François BECK20,
Laurent TOULEMON21, Christophe DAVID22,
Isabelle G REM Y 23 et Josiane WARSZAWSKI24

6.1 Introduction

La couverture téléphonique s'est fortement modifiée ces dernières années en


France avec l'apparition de la téléphonie mobile et l'arrivée sur le marché de
multiples opérateurs. Aucun annuaire commun à l'ensemble des opérateurs
n'est actuellement disponible.
Une partie de plus en plus importante de la population, en abandonnant le
filaire au profit du mobile, ou en choisissant un autre opérateur que
l'opérateur historique France Télécom, n'est plus joignable par les méthodes
de sondage utilisées précédemment dans les enquêtes réalisées par téléphone
auprès de la population générale adulte (Bigot et Croutte, 2008 ; Beck et
Guilbert, 2007). Une enquête complémentaire était réalisée sur un échantillon
tiré au sort de détenteurs de ligne mobile par génération aléatoire de numéros
de téléphone, en ne retenant que les sujets ne possédant pas de ligne filaire.
La mise en œuvre de la 6^ enquête téléphonique KABP25 portant sur les
connaissances, attitudes, croyances et comportements face au VlH/sida de la
population habitant en France métropolitaine (Beltzer, Fénies, Halfen, Lert,
Levu et Lydié, 2005) est l'occasion de tester de nouvelles modalités de

18 Nathalie Beltzer, ORS Ile-de-France, Paris. Courriel : n.beltzer@ors-idf.org.


19 Régis Bigot, CREDOC, Paris. Courriel ; bigot@credoc.fr.
20 François Beck, INPES, Saint-Denis. Courriel : francois.beck@inpes.sanle.fr.
21 Laurent Toulemon, Ined, Paris. Courriel : toulemon@ined.fr.
22 Christophe David, 1PSOS, Paris. Courriel : christophe.david@ipsos.com.
23 Isabelle Grémy, ORS Ile-de-France, Paris. Courriel : i.gremy@ors-idf.org.
24 Josiane Warszawski, 1NSERM, Univ Paris-Sud Kremlin-Bicêtre.
Courriel : josiane.warszawski@insenn.fr.
25 KABP : Knowledge, attitudes, beliefs and practices.
6. Collecte de donnés et sondages en ligne 289

sélection d'un échantillon capable de couvrir au mieux la population résidant


en France.
L'enquête, réalisée au cours du premier semestre 2010 auprès de 11 000
personnes, a été conçue pour comparer plusieurs modalités d'échantillonnage,
avec pour contrainte de pouvoir comparer les résultats avec les vagues
antérieures. L'enquête a été précédée par un test pilote dont certains résultats
sont présentés ici.

6.2 Nouvelle méthodologie des enquêtes KABP

6.2.1 Deux modalités d'échantillonnage

Deux types d'échantillon sont sélectionnés, le premier parmi l'ensemble des


numéros de téléphone filaire, le second parmi l'ensemble des numéros de
téléphone mobile. En l'absence d'un annuaire téléphonique universel
regroupant l'ensemble des opérateurs présents sur le marché français, les
numéros de téléphone fîlaires comme mobiles sont générés totalement
aléatoirement.

6.2.2 Deux versions du questionnaire

Dans la mesure où il était supposé difficile d'interroger une personne sur


mobile pendant 35 minutes sans intemiption (durée moyenne du questionnaire
KABP), deux versions du questionnaire sont proposées.
1. L'une dite classique reprend le questionnaire des enquêtes précédentes
avec le même déroulement des questions.
2. La seconde, dite version modifiée, reprend exactement les mêmes
informations, mais dans un ordre différent. Cette nouvelle version
permet de s'assurer de l'exploitation de questionnaires non terminés
en raison d'une interruption accidentelle ou volontaire, en regroupant
dans la première partie les questions les plus importantes.

6.2.3 Test pilote


Préalablement à l'enquête principale, un test pilote a été réalisé afin de
vérifier le bon déroulement du questionnaire, et de tester le protocole
d'accroché des personnes jointes par mobile, notamment l'envoi d'un SMS
annonçant l'enquête aux numéros tirés au sort. Le test pilote s'est déroulé sur
trois semaines fin 2009 auprès de 99 personnes sur téléphone filaire et 200 sur
téléphone mobile.
290 Pratique et méthodes de sondages

6.3 Principaux résultats du test pilote

6.3.1 Participation

La participation a été plutôt bonne. Le taux de refus (ménage et individus) a


été de 22 % pour l'échantillon de numéros de téléphone filaire (« échantillon
filaire ») et de 28 % pour l'échantillon de numéro de téléphone mobile
(« échantillon mobile »), avec un taux d'abandon en cours de questionnaire de
l % et 3 % respectivement. Ces interruptions interviennent assez tôt dans le
questionnaire, en version classique comme en version modifiée.

6.3.2 Intérêt de l'envoi d'un SMS

Un SMS était envoyé avant la première tentative d'appel à la moitié de


l'échantillon mobile pour annoncer l'enquête et en donner le site internet. Le
numéro de téléphone de l'appelant était indiqué mais il commençait par 0800
pouvant laisser croire aux personnes interrogées qu'il s'agissait d'une
démarche commerciale. Toutefois, les résultats de l'étude FECOND^6 qui suit
un protocole d'enquête similaire et dont le test pilote a été réalisé simultanément
aboutissent au même résultat, alors que le numéro présenté était un numéro
régional (0156....).
Les enquêteurs ont trouvé plus aisé le contact avec les personnes ayant reçu
le SMS, mais cet envoi n'a pas amélioré significativement la participation à
l'enquête. Dans le groupe n'ayant pas reçu de SMS, 26,5 % des numéros ont
abouti à la réalisation d'une interview, versus 19,3 % dans le groupe ayant
reçu le SMS27. Les refus et les arrêts en cours de questionnaire étaient
identiques dans les deux groupes : 12 %.

6.3.3 Principales conclusions du test pilote

Le test pilote a montré qu'il est possible d'interroger des hommes et des
femmes pendant près de 45 minutes sur un téléphone mobile, durée plus
longue que celle prévue initialement.
Il a été décidé de ne pas envoyer dans l'enquête réelle de SMS d'annonces
aux personnes interrogées via leur mobile. A chaque tentative de contact, un
numéro régional (en 01) d'accès gratuit s'affiche, plutôt qu'un numéro
masqué ou un numéro en 0800, afin de laisser la possibilité aux personnes
interrogées de rappeler en cas de coupure accidentelle.

26 Cette enquête a pour objectif d'étudier les enjeux en santé reproductive des femmes et
des hommes âgés entre 15 et 49 ans en s'appuyant sur une approche biographique.
27 II se pourrait que le groupe ayant reçu le SMS leur précisant le numéro qui serait
présenté au moment de la tentative d'appel ait filtré les appels.
6. Collecte de donnés et sondages en ligne 291

6.4 Les principes méthodologiques retenus


pour l'enquête principale

L'enquête auprès de 11 000 personnes a démarré en janvier 2010, la fin du


terrain étant prévue fin juin 2010. La méthodologie d'échantillonnage retenue
est résumée dans la figure 6.6.

Figure 6.6 : Méthodologie d'échantillonnage de KABP 2010

Échantillon lilairc Échantillon portable


(numéros en 01 à 05) (génération nombre 06)

Queslionnaire Questionnaire Queslionnaire Queslionnaire


Classique : Modifié: Classique: Modifie

Group
000 000 Groupe Groupe Ha Groupe llb
sur-échantillon iiiin N = 4 000 N = I 000
franciliens ,

Au total, quatre groupes ont été constitués :


- Les groupes la et 1b ont été sélectionnés à partir des numéros
géographiques fixes (c'est-à-dire les numéros de téléphone
commençant par 01, 02, 03, 04, 05) : 4 000 personnes habitant en
France métropolitaine et un sur-échantillon de 1 000 en Ile-de-France
ont reçu la version classique du questionnaire, selon des modalités
comparables à celles des enquêtes KABP précédentes (groupe la) ;
1 000 personnes ont reçu la version modifiée (groupe Ib) ;
- Les groupes lia et llb ont été sélectionnés à partir des numéros
mobiles (c'est-à-dire les numéros commençant par 06, 07) ; 4 000
individus ont reçu la version classique (Ha) et 1 000 personnes la
version modifiée (llb).

La comparaison de la participation et du niveau de plusieurs indicateurs


sociodémographiques et comportementaux classiques de KABP entre les
groupes la et Ib ou (lia et llb) permettra de tester l'effet « ordre des
questions ». Leur comparaison entre les groupes I et II permettra de tester
l'effet « modalités d'échantillonnage ».
292 Pratique et méthodes de sondages

6.5 Conclusion

L'enquête réelle offrira une opportunité expérimentale unique de comparer


deux méthodes d'échantillonnage et deux versions du questionnaire pour
mener une étude nationale par téléphone sur les connaissances, attitudes et
comportements en relation avec le risque d'infections sexuellement
transmissibles en population générale.

BIBLIOGRAPHIE

Beltzer, N., Fénies, K., Halfen, S., Lert, F., Levu, S. et Lydié, N. (2005). Les
connaissances, attitudes, croyances et comportements face au VIH/sida en
France - Évolutions 1992-1994-1998-2001-2004. Rapport de FORS Ile-de-
France.
Bigot, R., et Croutte, P. (2008). La diffusion des technologies et de la
communication dans la société française. Rapport du CREDOC, Paris.
Beck, F., et Guilbert, P. (2007). Baromètres santé : un éclairage sur leur
évolution. Dans Baromètre santé 2005 : Attitudes et comportements de
santé, (Éds., F. Beck, P. Guilbert et A. Gautier), INPES, Saint-Denis, 27-43.

7. Audio-CASI vs CATI : l'influence du

mode de collecte sur la mesure des

pratiques addictives

François BECK28, Romain GUIGNARD 28


,
29 30
Catherine CAVAL IN , Florence MAILLOCHON et
31
Stéphane LEGLEYE

7.1 L'influence du mode de collecte dans les


enquêtes sur les sujets sensibles

La manière de collecter des données revêt une importance cruciale et est


devenue depuis quelques décennies une dimension essentielle du travail de
recherche en sciences sociales, en particulier lorsque celui-ci porte sur des
sujets sensibles. Dans ce contexte, chaque étape de construction de l'enquête

28 Institut national de Prévention et d'éducation pour la santé.


Courriel : francois.beck@inpes.sante.fr.
29 Centre d'études de l'emploi (CEE).
30 Centre Maurice Halbwachs, CNRS UMR 8097, ENS, EHESS.
31 Institut national d'études démographiques.
6. Collecte de donnés et sondages en ligne 293

est essentielle à la qualité finale des données obtenues : de l'élaboration du


plan de sondage à la passation du questionnaire, puis au redressement des
données.
Les conclusions des études anglo-saxonnes sur l'effet du mode de collecte
menées depuis plusieurs décennies ont assez clairement souligné la
supériorité du recours à des questionnaires auto-administrés sur les autres
modes de collecte pour la déclaration de comportements susceptibles de
compromettre les enquêtés (Turner, Ku, Rodgers, Lindberg, Pleck et
Sonenstein, 1998; Aquilino, 1994), notamment en raison notamment du
respect de l'anonymat qu'il assure ostensiblement.
En France, ce type de recherche est plus rare. Or, le contexte français
pourrait se singulariser, dans la mesure où les études méthodologiques
menées depuis le début des années 1990 sur les enquêtes portant sur des sujets
sensibles ont montré que les enquêtes téléphoniques offraient de solides
garanties de fiabilité (ACSF, 1992). Toutefois, auprès des adolescents et des
jeunes adultes, le questionnaire papier auto-administré semble fournir de
meilleurs résultats que le téléphone dans le domaine de la consommation de
drogues, surtout illicites (Beck et Peretti-Watel, 2001).

7.2 Un dispositif d'enquêtes de grande ampleur

La réalisation en 2005, à quelques mois d'intervalle et par des modes de


recueil différents, de deux grandes enquêtes nationales représentatives des 18-
75 ans résidant en ménage ordinaire, l'enquête Événements de vie et santé
(EVS) d'une part et le Baromètre santé 2005 d'autre part, fournit une
opportunité exceptionnelle d'étudier l'influence du mode de collecte sur la
mesure des prévalences de comportements sensibles tels que les consommations
de substances psychoactives. Les questions relatives aux addictions y ont été
posées de manière quasi identique, mais les modes de passation de ces deux
enquêtes étaient le face à face avec recours à un questionnaire auto-administré
par ordinateur avec écoute au casque (Audio-CASI) pour les modules
contenant les questions les plus sensibles dans le cas d'EVS (Cavalin, 2009),
et la Collecte Assistée par Téléphone et Informatique (CATI) pour le
Baromètre santé (Beck, Guilbert et Gautier, 2007). Si les études sur
l'influence du mode de collecte portent le plus souvent sur des échantillons
expérimentaux de taille modeste, celle envisagée ici jouit de la puissance
statistique de l'échantillon constitué par le regroupement de deux enquêtes
qui fournit une base d'environ 33 000 individus pour la tranche d'âge étudiée,
à savoir les personnes âgées de 18 à 64 ans.
294 Pratique et méthodes de sondages

7.3 Des différences relativement faibles entre


les deux modes de collecte

En dépit des tailles d'échantillons importantes des deux enquêtes, qui offrent
une très bonne sensibilité aux tests, la plupart des différences observées selon
le mode de recueil de données se sont révélées non significatives, en dehors
de la consommation d'alcool. Ces résultats persistent après ajustement sur le
sexe, l'âge, la vie de couple, la situation professionnelle et le niveau de
diplôme dans des modèles logistiques.

Tableau 6.2 : Indicateurs d'usage de substances des 18-64 ans


Comparaison entre A-CASI (EVS) et CATI (Baromètre santé 2005)
Baromètre
EVS santé 2005
n = 8 350 n = 24 674
% % significativité
Alcoolisation à risque au cours de la vie 14,4% 10,3% p< 0,001
Au moins six verres d'alcool en une même
occasion 32,8 % 37,5 % p< 0,001
Expérimentation(a) de cannabis 25,4 % 26,6 % NS
Usage actuel de cannabis (au moins un
usage dans les 12 derniers mois) 7,4 % 7,5 % NS
Usage régulier de cannabis (au moins 10
usages dans les 30 derniers jours) 2,5 % 2,5 % NS
Expérimentations de :
Cocaïne 2,5 % 2,6 % NS
Amphétamines 1,2 % 1,5 % NS
Ecstasy 2,3 % 1,9% NS
Champignons hallucinogènes 2,2 % 2,7 % NS
Héroïne 1,1 % 0,8 % NS
LSD 1,6 % 1,6 % NS
N.B. Les pourcentages pour les indicateurs du Baromètre santé 2005 sont pondérés
selon la probabilité d'inclusion de l'individu et standardisés sur la structure sexe*âge de
l'enquête EVS.
(a) L'expérimentation désigne le fait d'avoir déjà consommé au moins une fois un produit au cours de sa vie.
Lecture ; Parmi les individus interrogés dans l'enquête EVS, 14,4 % présentent une alcoolisation à risque (au
sens du Deta, test court de repérage). Ils sont 10,3 % dans le Baromètre santé 2005.

En outre, il apparaît que les hommes âgés de 18 à 29 ans déclarent plus


souvent une consommation actuelle de cannabis dans l'enquête auto-
administrée, alors que les personnes âgées de 30 à 44 ans déclarent plus
souvent avoir expérimenté le cannabis dans l'enquête téléphonique. Après
contrôle des effets de structure, les consommations de champignons
hallucinogènes, d'amphétamines et de cocaïne chez les 30-44 ans sont
également plus souvent déclarées dans l'enquête téléphonique, et ce, plus
particulièrement pour les femmes. Les hommes de 18 à 29 ans ont, quant à
eux, tendance à rapporter plus fréquemment une expérimentation d'ecstasy,
d'amphétamines, de LSD et d'héroïne avec l'auto-administré par A-CASI.
6. Collecte de donnés et sondages en ligne 295

Tableau 6.3 : Propension à déclarer un usage dans


l'enquête EVS par rapport au Baromètre santé, par âge et sexe
Odds ratio ajustés (ORa)
EVS vs Baromètre Santé Hommes Femmes
par sexe et tranche d'âge
ORa IC 95% ORa IC 95%
Alcoolisation à risque au cours
de la vie 18-64 ans 1,44 1,29 1,61 1,32 1,13 1,75
18-29 ans 1,25 0,96 1,62 1,37 0,97 1,92
30-44 ans 1,34 1,10 1,62 1,07 0,82 1,40
Expérimentation de cannabis 18-64 ans 0,80 0,73 0,88 0,91 0,82 1,00
(au moins un usage au cours
de la vie) 18-29 ans 1,01 0,84 1,20 0,97 0,83 1,14
30-44 ans 0,73 0,64 0,84 0,85 0,74 0,98
Usage régulier de cannabis 18-64 ans 1,07 0,86 1,33 1,14 0,82 1,58
(au moins 10 usages dans les 30
derniers jours) 18-29 ans 1,19 0,91 1,56 1,04 0,69 1,56
30-44 ans 0,88 0,60 1,30 1,33 0,73 2,45
Champignons hallucinogènes 18-64 ans 0,73 0,58 0,91 0,59 0,41 0,85
18-29 ans 1,22 0,89 1,68 0,73 0,41 1,30
30-44 ans 0,50 0,34 0,75 0,54 0,31 0,93
Ecstasy 18-64 ans 1,09 0,86 1,37 0,94 0,67 1,33
18-29 ans 1,58 1,17 2,14 0,97 0,59 1,50
30-44 ans 0,76 0,51 1,13 1,02 0,60 1,75
Amphétamines 18-64 ans 1,01 0,76 1,35 0,38 0,23 0,62
18-29 ans 2,55 1,61 3,89 0,99 0,40 2,42
30-44 ans 0,67 0,40 1,12 0,39 0,18 0,87
LSD 18-64 ans 0,89 0,68 1,17 0,83 0,52 1,31
18-29 ans 1,92 1,27 2,92 0,31 0,07 1,33
30-44 ans 0,66 0,42 1,06 1,57 0,84 2,95
Cocaïne 18-64 ans 0,92 0,74 1,13 0,65 0,46 0,91
18-29 ans 1,40 0,99 1,96 1,00 0,58 1,63
30-44 ans 0,82 0,60 1,12 0,60 0,38 0,97
Héroïne 18-64 ans 1,04 0,74 1,46 1,09 0,65 1,82
18-29 ans 1,90 1,06 3,40 0,95 0,27 2,56
30-44 ans 0,78 0,46 1,25 0,96 0,44 1,89
N.B. Les variables d'ajustement sont l'âge, la situation matrimoniale et professionnelle et le niveau de
diplôme. En italique, figurent les ORa significatifs.

7.4 Conclusion

En population adulte, nos résultats laissent penser que le contexte français se


singularise en partie des nations anglo-saxonnes. Les usages de drogues
illicites déclarés à l'aide du questionnaire Audio-CASI s'avèrent très proches
de ceux relevés dans l'enquête téléphonique. L'Audio-CASI semble en
296 Pratique et méthodes de sondages

revanche se prêter particulièrement bien à la déclaration de consommation de


boissons alcoolisées. A partir des résultats de modèles logistiques, il apparaît
que l'Audio-CASI semble convenir surtout aux jeunes hommes, tandis que le
téléphone offre des résultats convaincants pour les femmes et les personnes
plus âgées (ceci dit en considérant, implicitement, que les fréquences les plus
élevées d'usages illustrent une plus grande pertinence du mode de collecte).
Ainsi, avec des nuances suivant les populations étudiées, ces deux modes de
collecte apparaissent ci priori bien adaptés aux sujets sensibles.

BIBLIOGRAPHIE

ACSF investigators (1992), Analysis of sexual behavior in France (ACSF): A


comparison between two modes of investigation, téléphoné survey and
face-to-face survey. AIDS, n06, 315-323.
Aquilino, W.S. (1994). Interview mode effects in surveys of drug and alcohol
use. Public Opinion Quarterly, n058, 210-240.
Beck, F., Guilbert, P. et Gautier, A. (Dir.) (2007). Baromètre santé 2005,
Attitudes et comportements de santé, INPES, St-Denis, 608 pages.
Beck, F., et Peretti-Watel, P. (2001). Influence du mode de collecte sur les
usages de drogues illicites déclarés par les 15-19 ans. Population, vol. 56,
n06, 963-986.
Cavalin, C. (2009). Comment questionner les violences subies ? Relations
entre méthodes de collecte et résultats. Journées de Méthodologie
Statistique, 23-25 mars, Paris.
Turner, C.F., Ku, L., Rodgers, S.M., Lindberg, L.D., Pleck, J.H. et
Sonenstein, F.L. (1998). Adolescent sexual behavior, drug use, and
violence: Increased reporting with computer survey technology. Science,
(280), 867-873.
6. Collecte de donnés et sondages en ligne 297

8. Les yeux dans les yeux : les différences

de réponses au téléphone et en face-à-

face dans l'enquête Changements

Organisationnels et Informatisation

2006

32
Elisabeth ALGAVA

L'enquête Changement Organisationnel et Informatisation (COI) est un


dispositif couplant une enquête auprès des entreprises et une enquête auprès
des salariés de ces mêmes entreprises. Elle a été réalisée en 2006 par le Centre
d'études de l'emploi (CEE), l'Institut national de la statistique et des études
économiques (Insee), la Direction de l'animation de la recherche, des études
et des statistiques (DARES), la Direction de la recherche, des études, de
l'évaluation et des statistiques (Drees) et la Direction générale de
l'administration et de la fonction publique (DGAFP). Sélectionnés dans les
déclarations annuelles de données sociales (DADS), les salariés ont été
interrogés par téléphone après recherche dans l'annuaire de leur numéro.
Dans les cas où ce contact était impossible, les enquêteurs devaient se rendre
au domicile de l'enquêté. Seuls 14 % des 14 351 entretiens auprès de salariés
du privé ont finalement été réalisés en face-à-face car les instructions données
aux enquêteurs les incitaient à recourir au téléphone en priorité. En face-à-
face ou par téléphone, le questionnaire était rigoureusement identique. Il est
donc possible d'observer si au biais de sélection (ce ne sont pas les mêmes
personnes qui sont interrogées par téléphone et en face-à-face) s'ajoute un
biais de réponse : une même personne interrogée au téléphone ou en face-à-
face donne-t-elle les mêmes réponses ?

8.1 Qui répond en face-à-face ?

Dans les consignes aux enquêteurs, le face-à-face était le mode de collecte à


privilégier lorsque l'entretien ne pouvait pas avoir lieu par téléphone et en
premier lieu si l'enquêté n'était pas dans l'annuaire. Toutefois, il n'y a pas
d'équivalence : 70 % des répondants qui n'étaient pas dans l'annuaire ont été
interrogés par téléphone, après que l'enquêteur s'est rendu au domicile et a
obtenu un numéro par un proche (téléphone mobile, logements dégroupés
totaux, listes d'exclusion). A l'inverse, 6 % des personnes dans l'annuaire ont
été finalement interrogées en face-à-face, soit qu'un rendez-vous ait été pris

32 DARES, Département Conditions de travail et santé.


Courriel ; elisabeth.algava@dares.travail.gouv.fr.
298 Pratique et méthodes de sondages

par téléphone, soit qu'elles aient été injoignables par téléphone mais
contactées directement à leur domicile.
85 % des questionnaires ont été passés par des enquêtrices, les femmes
étant très majoritaires dans le réseau de l'Insee. Lorsque l'enquêteur est un
homme, l'entretien s'est plus souvent déroulé en face-à-face (19% contre
13 %). Cet écart reste d'ampleur importante toutes choses égales par ailleurs
et l'odd ratio associé est de 1,8. La présence des hommes enquêteurs, bien que
toujours minoritaire, est en effet très variable selon les régions et le type
d'agglomération notamment. Enquêteurs hommes comme femmes ont moins
souvent recours au face-à-face dans l'agglomération parisienne et dans les
zones rurales ou les petites agglomérations et ce comportement dépend assez
peu du sexe de l'enquêté.
Le niveau de diplôme et la catégorie socioprofessionnelle dessinent une
opposition très marquée entre ceux qui sont interrogés par téléphone - les
cadres et les plus diplômés - et ceux que les enquêteurs rencontrent en face-à-
face - les ouvriers, les personnes moins diplômées. Ainsi, 25 % des salariés
de niveau d'études primaire sont interrogés en face-à-face, contre 5,5 % de
ceux passés par une grande école ou une école d'ingénieur. Plus
généralement, le face-à-face est plus fréquemment utilisé auprès des
personnes qui semblent avoir une insertion sociale et professionnelle plus
fragile : celles qui ont un handicap ou un problème de santé qui les empêche
d'effectuer certaines tâches ou de tenir certains postes, celles dont les deux
parents sont nés à l'étranger ; celles qui vivent dans une famille
monoparentale ou encore celles qui travaillent moins de 35 heures par
semaine.

8.2 Des réponses différentes en face-à-face ?

Compte tenu des différences de profil constatées entre répondants en face-à-


face et répondants par téléphone, l'effet du mode de collecte a été étudié à
l'aide de régressions logistiques en essayant de contrôler du mieux possible
ces différences. La variable dépendante des analyses est un indicateur de
conditions de travail et pour chacun de ces indicateurs, c'est l'effet de la
variable « être interrogé en face-à-face » qui est analysé. Les variables de
contrôle sont ; l'âge en 4 tranches, le diplôme en quatre catégories, la région
de résidence, la taille d'unité urbaine en 4 tranches, le type de famille (6
catégories), le fait d'avoir ses deux parents nés à l'étranger, le fait d'avoir un
handicap ou un problème de santé gênant professionnellement, le nombre
d'heures travaillées (4 catégories), le groupe socioprofessionnel (4 catégories), le
secteur (4 catégories), le fait de ne pas avoir un contrat à durée indéterminée et
le nombre d'années dans l'entreprise, le fait d'être dans l'annuaire ou non,
l'équipement informatique du ménage et le fait d'avoir des horaires de travail
6. Collecte de donnés et sondages en ligne 299

atypiques (travailler habituellement soit la nuit, soit le samedi, soit le


dimanche).
Trois constats principaux se dégagent :
1. Il existe des différences de réponse à certaines questions sur les
conditions de travail qui semblent liées au mode de passation. Sur
cent deux indicateurs analysés, vingt-trois sont significativement
affectés. En règle générale, les réponses données en face-à-face
dressent un portrait moins favorable des conditions de travail de
l'enquêté et il apparaît moins satisfait de celles-ci. Seize des vingt-
trois indicateurs ont une tonalité clairement négative. Par exemple,
les personnes interrogées en face-à-face sont plus nombreuses à dire
qu'elles ont tous les jours l'impression d'être débordées dans leur
travail (odd-ratio - OR - du face-à-face par rapport au téléphone :
1,34). Quatre ne sont ni positifs ni négatifs (être adhérent ou
sympathisant d'un syndicat par exemple, OR =1,22). Trois
seulement sont clairement positifs : les personnes interrogées en face-
à-face déclarent par exemple moins souvent manquer de compétences
pour effectuer correctement leur travail.
2. Les différences selon le mode de collecte sont plus marquées en fin
d'entretien et sur les questions les plus subjectives (aussi placées en
général vers la fin du questionnaire). Les quatre derniers modules
regroupent 27 % des indicateurs analysés mais 48 % de ceux pour
lesquels l'effet est significatif. Le dernier module « Bilan » comporte
des questions particulièrement subjectives : quatre des six indicateurs
tirés de ce module sont significativement affectés par le mode de
passation. Le climat de l'entretien (confiance et installation dans le
thème des conditions de travail) se met en place progressivement et
c'est sans doute en fin d'entretien que les effets des différences de
conditions de passation sont les plus perceptibles. La forte
significativité des écarts (OR = 1,34) sur la question « Au cours des
douze derniers mois, avez-vous eu un ou plusieurs accidents du
travail, mêmes bénins, qui vous a(ont) obligé(s) à vous faire soigner
(hors accidents de trajet) ? » s'explique sans doute en partie par cet
effet de « fin d'enquête ». Il s'agit plutôt à première vue d'une
question assez objective. Certes la part d'interprétation du sens des
termes peut être importante. Certes, aussi, l'enquêté peut avoir oublié
un incident bénin ou être gêné de rapporter un accident qu'il n'a pas
déclaré à la sécurité sociale, etc. Ces éléments expliquent l'omission
de certains accidents et leur effet peut être atténué en face-à-face.
Mais la position de cette question sur les accidents, dans la dernière
partie, « Bilan », entre une question sur le sentiment d'être débordé et
une question sur la reconnaissance de son travail à sa juste valeur
300 Pratique et méthodes de sondages

influe sans doute aussi sur les réponses données et la différence selon
les modes de collecte.
3. Les hommes semblent plus confiants et expansifs en face-à-face tandis
que les femmes semblent plus indifférentes au mode de passation. Pour
les hommes, vingt-trois indicateurs sont significativement affectés par le
mode de collecte, onze seulement pour les femmes. Une des pistes
d'interprétation consiste à dire que les hommes au téléphone se limitent
plus souvent aux réponses convenues, qu'ils estiment attendues du fait
notamment de leur intériorisation du rôle social de l'homme au travail.
Pour un homme comme pour une femme, décrire ses conditions de
travail comme mauvaises n'est ni très facile ni très valorisant. Mais la
marche à franchir serait plus haute pour les hommes.

Il existe des limites méthodologiques inhérentes à ce type d'analyse : il


reste toujours possible qu'une dimension expliquant à la fois le mode de
passation et les réponses aux différentes questions ait été omise. Par exemple,
il est possible, et même probable, que les enquêteurs qui favorisent le face-à-
face soient aussi ceux qui ont une conception plus « sociale » de leur fonction
et une plus grande empathie à l'égard des enquêtés. Toutefois, une fraction de
ces différences est sans doute imputable au mode de passation lui-même et aux
effets d'interactions différentes entre l'enquêté et l'enquêteur: l'expression de
plaintes concernant les conditions de travail semblerait favorisée par la relation
de face-à-face.
Les différences observées par Ardenti et Mathieu (2007) entre les réponses
données en face-à-face à un questionnaire fermé et celles données lors
d'entretiens semi-directifs dans le cadre d'une enquête sociologique
ressemblent de façon éclairante à celles observées ici entre face-à-face et
téléphone : confiance croissante au cours du déroulement de l'entretien,
difficulté particulière à aborder certains thèmes (la santé, les accidents...).
En dépit d'un questionnement identique, entretiens téléphoniques et
entretiens en face-à-face ne sont donc pas équivalents. L'entretien en face-à-
face, même dans le cadre d'une enquête statistique avec des questions
fermées, se situe à mi-chemin entre l'entretien téléphonique et l'entretien
qualitatif en face-à-face réalisé par des sociologues de terrain : plus propice à
l'épanchement, il permet aux salariés d'évoquer plus librement leurs relations
de travail, leurs difficultés ou les conflits dans lesquels ils sont engagés.

BIBLIOGRAPHIE

COI (2006). Les dispositifs d'enquêtes sur les Changements Organisationnels


et l'Informatisation (COI), http://www.enquetecoi.net/.
6. Collecte de donnés et sondages en ligne 301

Accardo, J., Baschieri, E. et Jaluzot, L. (2009). Enquêtes téléphoniques auprès


des ménages : peut-on utiliser l'annuaire ? Présentation aux Journées de
Méthodologie Statistique 2009, Insee.
Gollac, M. (1997). Des chiffres insensés ? Pourquoi et comment on donne un
sens aux données statistiques. Revue française de sociologie, 1997, vol. 38,
n0l, 5-36.
Ardenti, R., et Mathieu, R. (2007). Travail soutenable et gestion de l'emploi
et de la main d'œuvre. Rapport remis à la Direction de l'animation de la
recherche, des études et des statistiques (DARES), juin 2007.

9. Le baromètre politique CEVIPOF sur la

confiance : un dispositif d'enquête

mixte innovant

33
Flora CHANVRIL et Viviane LE HAY34

9.1 Objectifs de recherche

Le baromètre de la confiance politique a été initié en France en décembre


2009 par le CEVIPOF35, en partenariat avec Edelman Trust et l'Institut Pierre
Mendès France36. Ce projet naît d'un contexte politique et socio-économique
propice. A mi-mandat présidentiel, il s'agit de disposer d'une mesure
longitudinale des différentes dimensions de la confiance jusqu'en 2012 et de
mieux comprendre l'issue du scrutin de l'élection présidentielle à venir.
Parallèlement au cycle présidentiel, la séquence électorale est riche (élections
régionales en 2010, élections cantonales en 2011). Le contexte actuel de crise
économique peut également influencer le jeu politique. Enfin, d'un point de
vue conceptuel, l'objectif est de préciser la ou les articulation(s) entre les
grandes dimensions de la confiance : se combinent-elles ensemble ou sont-
elles indépendantes les unes des autres ? Si les enquêtes électorales
antérieures (Baromètre Politique Français et Panel Electoral Français de 2006
et 200737) ont en effet révélé l'importance des différentes dimensions de la
confiance, à la fois sur le choix électoral et les comportements d'abstention,
les logiques de ce concept aux multiples facettes (confiance politique ou non
politique, confiance interpersonnelle, confiance en soi) sont mal connues.

33 CEVIPOF, Sciences Politiques, Paris. Courriel : flora.chanvriI@sciences-po.fr.


34 CEVIPOF, Sciences Politiques, CNRS, Paris. Courriel : viviane.lehay@sciences-po.fr.
35 http;//www.cevipof.com.
36 http;//edelman.com/trust/2010 ; http://www.mendes-france.fr.
37 http;//www.cevipof.com/bpf/barometre/bar0.htm ;
http;//www.cevipof.com/PEF/2007/PEF2007.htm.
302 Pratique et méthodes de sondages

Parallèlement à ces interrogations heuristiques, s'est posée une question


d'ordre méthodologique : dans quelle mesure les réponses apportées par les
répondants sont-elles susceptibles d'être influencées par le mode
d'administration ? Pour y répondre, la première vague du baromètre s'est
déroulée de façon quasi simultanée selon deux modes d'administration : un
terrain téléphonique (CAT1, Computer Assisted Téléphoné Interviewing) et un
terrain en ligne (CAWI, Computer Assisted Web Interviewing). Les contenus
des deux questionnaires sont similaires. Après avoir exposé les grandes
caractéristiques d'échantillonnage des deux terrains, cet article dégage deux
importantes différences qui dépendent directement du mode de passation.

9.2 Comparabilité des dispositifs d'enquête

Pour chaque enquête (CAT1/CAWI), l'échantillon porte sur la population de


nationalité française inscrite sur les listes électorales. Les tailles d'échantillon
sont comparables (respectivement, 1 502 et 1 475 personnes interrogées), tout
comme les dates de terrain (respectivement, du 9 au 19 décembre et du 22 au
30 décembre 2009).
La méthode de stratification, par région et catégorie d'agglomération, est
' ■ • 38 '
également identique . Un échantillonnage par quotas a été retenu dans les
deux cas, mais selon des critères en partie différents. Le sexe et l'âge ont fait
l'objet d'un quota croisé dans l'enquête CATI, et de deux quotas séparés dans
l'enquête CAWI. C'est la profession du chef de ménage qui a servi de quota
dans la première enquête et la profession de la personne interrogée dans la
seconde39. Enfin, le niveau de diplôme n'est une variable de quota que dans
l'enquête CATI.
La comparaison des distributions de ces quotas montre que la variable de
sexe est la seule à être comparable entre les deux enquêtes (U de Cramer =
0,010). Ce n'est pas le cas de la profession de la personne interrogée40, de
l'âge et du niveau de diplôme (respectivement, V de Cramer = 0,117, 0,138,
0,274). Dans l'enquête CAWI, les retraités et les professions intermédiaires,
les 50-64 ans, ainsi que les diplômés inférieurs au bac sont sous-représentés,
tandis que les ouvriers et les employés, les moins de 50 ans, et les personnes
très diplômées sont surreprésentés. Ces différences de diplôme constituent un
phénomène classique dans les enquêtes traitant du politique.

38 Dans l'enquête CAWI, les communes de moins de 20 000 habitants sont sous-
représentées ; celles de plus de 100 000 habitants sont sur-représentées.
39 Dans le premier cas les retraités sont recodés selon leur ancienne profession, dans le
second ils ne le sont pas.
40 Cette variable est présente dans l'enquête CATI, donc comparable, même s'il ne s'agit
pas d'un quota.
6. Collecte de donnés et sondages en ligne 303

La mesure des effets du mode de passation dans les réponses observées a


nécessité la mise en place d'un protocole d'analyse tenant compte de ces
différences de constitution des échantillons.

9.3 Comparabilité des mesures des dimensions


de la confiance entre les deux enquêtes

9.3.1 Méthododologie statistique

Une procédure statistique en trois étapes a été adoptée. Premièrement, des tris
croisés, selon le mode d'administration, ont permis de sélectionner les
questions retenues pour l'analyse. Seules celles pour lesquelles les
distributions des modalités de réponse sont statistiquement exploitables sans
recodage41 et dont le V de Cramer était supérieur ou égal à 0,15 ont été
conservées : 32 questions sur les 75 questions communes aux deux
enquêtes42, présentant un effet brut du mode d'administration, ont ainsi été
retenues. Deuxièmement, des régressions logistiques multinomiales ont été
réalisées sur les variables de confiance afin de raisonner « toutes choses égales
par ailleurs ». Elles permettent de mesurer l'effet du mode d'administration tout
en introduisant dans le modèle les cinq variables sociodémographiques
communes aux deux enquêtes et comparables (sexe, âge, niveau de diplôme et
profession de la personne interrogée, catégorie d'agglomération). Troisièmement,
les probabilités prédites obtenues ont enfin été comparées par des tests de
Student, pour mieux comprendre les écarts engendrés par ces deux modes
d'interrogation. L'ensemble de ces régressions montre un effet significatif du
mode d'administration. Cela confirme son influence massive sur la mesure
des concepts de la confiance.

9.3.2 Résultats

Deux principaux phénomènes apparaissent de façon systématique43.


L'exemple présenté ici, sur la dimension de la confiance en soi, les réunit. A
l'affirmation «en général j'ai une image très positive de moi-même», les
répondants devaient indiquer s'ils s'estimaient tout à fait, plutôt, plutôt pas,
pas du tout d'accord, ou s'ils n'étaient ni d'accord, ni pas d'accord.
Dans l'exemple et pour toutes les variables ordinales au nombre impair de
modalités, on observe un resserrement plus important de la distribution autour
des modalités médianes dans l'enquête CAWI comparé au mode CATI

41 C'est-à-dire celles comportant au moins 5 % de répondants pour chacune des modalités


de réponse, qui permettent donc une analyse statistique brute des choix de réponses.
42 Le questionnaire CATI comprend 100 questions.
43 Pour davantage de lisibilité, l'article ne présente que le cas des variables ordinales.
304 Pratique et méthodes de sondages

(figure 6.7) : le choix des modalités extrêmes, plus engageantes, diminue


fortement, et les répondants se tournent davantage vers les modalités de
réponses modérées. La présence d'une modalité centrale « ni d'accord, ni pas
d'accord », particulièrement neutre, renforce d'autant plus le phénomène.
D'autre part, « l'image positive de soi » diminue considérablement entre
l'enquête CATI et l'enquête CAW1 pour se reporter principalement vers la
modalité centrale : la désirabilité sociale, qui peut pousser les répondants à
donner une meilleure image d'eux-mêmes quand ils interagissent avec un
enquêteur, explique bien ce phénomène.
Plus généralement, pour les variables ordinales sans modalité centrale
(nombre pair de modalités), les phénomènes de désirabilité sociale,
notamment de plus grande confiance, sous toutes ses formes même politiques
(CATI), et de resserrement de la distribution (CAWI) sont toujours présents44.

45
Figure 6.7 : Histogramme des probabilités prédites et écarts
75% - -- 0,75
607< -- 0,6
457 -- 0,45
307© -- 0,3
157 0,15
I i: WD ♦♦ HH
07 ♦♦
157. -- -0,15
307
Tout a Plutôt Ni ni Plutôt Pas du Tout à Plutôt Ni ni Plutôt Pas du
fait pas tout fait pas tout
d acc. d'acc. d'acc. d'acc.
CATI □ CAWI B Ecarts (CATI - CAWI)

9.4 Conclusion

Les différences de distribution observées entre les deux dispositifs d'enquête


ne sont pas le fait d'une seule dimension de la confiance, mais de toutes. Ces
variations résultent de deux logiques distinctes. Premièrement, sur internet,
l'interviewé peut visualiser simultanément toutes les modalités de réponse, en
particulier les modalités modérées, moins « audibles » lors d'une enquête
CATI46. La présence d'une modalité de réponse centrale peut alors davantage
constituer un refuge pour le répondant en mode CAWI. Deuxièmement, la
désirabilité sociale produite par l'interaction avec un enquêteur est bien plus
l'apanage des enquêtes par téléphone ; celle-ci s'atténue lors d'une enquête
CAWI, puisque l'interviewé se retrouve seul face à son écran. Outre les biais

44 Le resserrement de la distribution n'existe pas dans le cas des variables binaires.


45 *** indique un seuil de significativité inférieur à 0,01 (c'est-à-dire p < 0,01).
46 L'écoute favorise la mémorisation des deux modalités extrêmes.
6. Collecte de donnés et sondages en ligne 305

d'échantillonnage spécifiques à chacun des deux modes, ils présentent des


limites propres : si la moindre désirabilité sociale, caractéristique des enquêtes
en ligne, est plus que souhaitable, le resserrement des distributions
qu'engendre ce mode de passation pose en revanche problème. L'usage d'une
méthode mixte, combinant les deux méthodes dans le cadre d'un
échantillonnage unique suivi d'un split, permettrait de tirer avantageusement
profit des qualités propres à chacun de ces deux modes d'administration d'une
enquête.

BIBLIOGRAPHIE

Fricker, S., Galesic, M., Tourangeau, R. et Yan, T. (2005). An expérimental


comparison of web and téléphoné surveys. Public Opinion Quarterly,
vol. 69, n03, 370-392.
Mayer, N. (2002). Les dimensions de la confiance. Dans La démocratie à
l'épreuve. Une nouvelle approche de l'opinion des Français, (Dir.,
G. Gmnberg, N. Mayer et P.M. Sniderman), Presses de Sciences Po, Paris,
87-107.

10. Intérêt du modèle « Hurdle » pour la

compréhension des comportements de

mobilité dans un protocole d'enquête

mixte

47
Caroline BAYART et Patrick BONNEL

10.1 Introduction

Face au déclin des taux de réponse des enquêtes ménages déplacements, il est
nécessaire que les recherches sur les méthodes d'enquêtes travaillent sur la
mise en place de protocoles d'enquête mixtes. Dans cette perspective, le
Laboratoire d'Économie des Transports a mené une enquête web auprès des
non-répondants à l'enquête ménages déplacements, administrée en face-à-face
sur l'agglomération lyonnaise en 2005-2006 (Bayart et Bonnel, 2008).
L'analyse comparative des données montre que, globalement, les répondants
en face-à-face se déplacent davantage que les répondants web (3,31 vs 3
déplacements quotidiens). Cet écart s'explique par une forte proportion de
personnes immobiles, en particulier dans l'enquête web (environ une

47 Laboratoire d'Économie des Transports, ENTPE, Université Lumière Lyon 2, CNRS.


Courriel : caroline.bayart@entpe.fr ; patrick.bonnel@entpe.fr.
306 Pratique et méthodes de sondages

personne sur cinq ne se déplace pas vs 11 % en face-à-face). Enfin, la faible


proportion de personnes n'effectuant qu'un seul déplacement, quelle que soit
l'enquête, laisse penser qu'une fois la décision de se déplacer prise, les
répondants effectuent plusieurs déplacements.
Il est donc nécessaire de traiter cette immobilité en tentant de répondre
séparément à deux questions. Comment expliquer que certains individus se
déplacent alors que d'autres restent immobiles durant la période de
référence ? Une fois la décision de mobilité prise, qu'est-ce qui pousse
certaines personnes à se déplacer davantage que d'autres durant la même
période ? La littérature s'est souvent interrogée sur les déterminants du niveau
de mobilité, sans déterminer si les facteurs qui conditionnent la mobilité sont
les mêmes que ceux qui influencent son intensité (Bayart, 2009). L'objectif de
cet article est de connaître les déterminants de la mobilité déclarée, sans
éliminer de l'échantillon les individus qui sont restés immobiles durant la
période de référence et de comparer les résultats obtenus sur les deux
échantillons, web et face-à-face.

10.2 Le modèle de type Hurdle

Les données utilisées en microéconomie sont souvent caractérisées par une


censure de la variable dépendante, ici le nombre de déplacements déclarés.

10.2.1 Pour poser le problème

Plusieurs facteurs peuvent expliquer l'immobilité des répondants, comme la


volonté de ne pas communiquer l'information, une maladie ou une absence
d'activité le jour de référence des déplacements. Par ailleurs, le niveau de
mobilité des personnes mobiles est très variable selon leurs caractéristiques
sociodémographiques. Ceci nous amène à supposer que le modèle statistique
qui détermine la probabilité de se déplacer diffère de celui qui détermine la
fréquence des déplacements. Dans les modèles standards applicables aux
données de comptage, comme le modèle de Poisson, ces deux procédés sont
forcés d'être identiques (Grogger et Carson, 1991). C'est pourquoi nous
utilisons un modèle de type Hurdle (Mullahy, 1986), ou modèle à obstacle,
scindé en deux parties. Nous estimons d'abord la probabilité individuelle de
se déplacer durant la période de référence (processus de choix binaire). Puis,
conditionnellement à cette décision, nous estimons ensuite la fréquence
déclarée des déplacements.
Nous estimons la décision de faire un déplacement initial et d'effectuer des
déplacements additionnels à l'aide des mêmes variables explicatives dans les
deux modèles, ce qui permet de comparer directement les coefficients estimés
dans les deux équations.
6. Collecte de donnés et sondages en ligne 307

10.2.2 Formalisation économétrique

Nous considérons une variable aléatoire j,- distribuée selon une loi de Poisson
avec G,- = exp(P'v/), Xj étant un vecteur de variables explicatives et p un
vecteur de paramètres. Si ^ est positive, alors nous pouvons écrire :

P(};/>O) = l-exp(-0,).

Par ailleurs, nous pouvons calculer la probabilité de y,-, conditionnellement


à la réalisation de l'événement y,- >0 :

P(yi ^>0) = (expi-Q^Qf/yi !)/(! - expf-©,)).

S'agissant d'un modèle non linéaire, nous utilisons la méthode du


maximum de vraisemblance pour évaluer les paramètres P du modèle. Afin
d'évaluer la pertinence de l'utilisation d'un modèle Hurdle, nous comparons
la valeur de Log-vraisemblance du modèle Hurdle et celle du modèle de
Poisson simple. Si l'écart est significatif, l'utilisation d'un modèle Hurdle
permet de mieux rendre compte de l'influence des facteurs explicatifs sur la
variable étudiée qu'un modèle de Poisson simple.

10.3 Application aux données de l'enquête


ménages déplacements

Pour illustrer nos propos, nous utilisons les données issues de l'enquête
ménages déplacements réalisée à Lyon en 2006. L'analyse est menée sur
l'échantillon web, d'une part, et face-à-face, d'autre part (tableau 6.4).

Tableau 6.4 : Mise en perspective, par échantillon,


des déterminants de la décision de mobilité et de son intensité
Echantillon face-à-face Echantillon web
Variables (n = 11 577) (n = 361)
Décision de Niveau de Décision de Niveau de
mobilité mobilité mobilité mobilité
Sexe : homme + - NA NA
Age - - - -
Nb de voitures + + NA NA
Possession du permis + + NA NA
Nb de personnes - - + +
Inactif - + - +
Nb d'enfants + + - +
Revenu déclaré + + + +
Téléphone portable + + NA NA
308 Pratique et méthodes de sondages

10.3.1 Principaux résultats dans l'échantillon face-à-face

Dans l'échantillon face-à-face, il ressort d'un modèle de poisson simple que le


fait d'être un homme influence négativement le niveau de mobilité. Le
modèle de Poisson de type Hurdle met en évidence un effet plus complexe :
les hommes ont une probabilité plus forte de réaliser un premier déplacement,
mais une fois la décision de mobilité prise, alors leur niveau de mobilité est
plus faible que celui des femmes.
Les variables liées à la motorisation (nombre de voitures du ménage et
permis de conduire), la possession d'un téléphone portable et le fait de
déclarer ses revenus ont un impact positif sur la décision de se déplacer, et le
nombre de déplacements déclarés, quel que soit le modèle considéré.
A contrario, plus les répondants appartiennent à des ménages de grande taille
et plus ils sont âgés, plus leur probabilité de se déplacer et leur niveau de
mobilité sont faibles.

10.3.2 Principaux résultats dans l'échantillon web

Moins de variables sont significatives dans les modèles explicatifs de la


mobilité appliqués à l'échantillon des répondants web, ce qui peut s'expliquer
notamment par la taille réduite de l'échantillon (361 individus).
Le fait d'être inactif incite fortement les individus à ne pas se déplacer
durant la période de référence. Mais une fois la décision de mobilité prise,
cette variable a une influence positive sur le niveau de mobilité des
répondants. Ce constat est identique dans l'échantillon face-à-face. De même,
le fait d'appartenir à une famille possédant de nombreux enfants semble
réduire la probabilité de se déplacer dans le modèle de Hurdle, alors que son
influence sur la mobilité est positive.
La probabilité de se déplacer et le niveau de mobilité augmentent avec le
nombre de personnes du ménage et le fait de déclarer son revenu. A contrario,
l'âge des répondants a un impact négatif très important sur la mobilité des
internautes. Le genre n'est pas une variable qui impacte significativement la
mobilité des répondants web. Il en est de même du téléphone portable et des
variables de motorisation. L'échantillon web étant constitué principalement
de personnes actives ayant un bon niveau d'éducation et d'emploi, ces
variables ne permettent pas de les distinguer.

10.4 Conclusion48

L'utilisation du modèle de type Hurdle permet de mettre en évidence le fait


que les déterminants de la mobilité sont différents de ceux de son intensité.
Nous pouvons d'abord dissocier les déterminants exclusifs (variables qui

48 Le lecteur intéressé par des développements pourra consulter (Bayart, 2009).


6. Collecte de donnés et sondages en ligne 309

n'affectent que la décision de mobilité ou son intensité) des déterminants qui


affectent à la fois la mobilité et la fréquence des déplacements. Nous
observons que certains effets sont stables et similaires entre les deux
échantillons, alors que d'autres ont une influence stable sur la mobilité, mais
opposée entre les échantillons.
Nos résultats confirment l'hypothèse que modéliser uniquement la décision
d'effectuer un seul déplacement laisse de côté d'importantes informations
concernant la fréquence des déplacements effectués par les répondants. D'un
autre côté, ne considérer qu'un modèle explicatif du niveau de mobilité ne
permet pas de rendre compte des facteurs qui influencent la décision de
mobilité durant la période de référence.
Il existe certaines raisons au fait que des individus déclarent ne pas s'être
déplacés durant la période de référence de l'enquête (réels immobiles, oubli
des déplacements effectués ou échappatoire pour réduire le niveau de
pénibilité associé à l'enquête...) (Madré, Axhausen et Brôg, 2007). Si notre
travail contribue à la littérature empirique sur l'estimation dissociée des
déterminants de la mobilité et de son intensité, il ne permet toutefois pas de
différencier les différents types d'immobiles.

BIBLIOGRAPHIE

Bayart, C. (2009). Le potential du web pour les empiètes de mobilité urbaine.


Thèse pour le doctorat de sciences économiques, Laboratoire d'Economie
des Transports, Université Lyon2, ENTRE, Lyon, 361 pages.
Bayart, C., et Bonnel, P. (2008). Enquête web auprès des non-répondants de
l'enquête ménages déplacements de Lyon 2005-2006. Rapport pour le
PREDIT, Laboratoire d'Economie des Transports, Lyon, 256 pages.
Grogger, J.T., et Carson, R.T. (1991). Model for truncated counts. Journal of
applied econometrics, vol. 6, 225-238.
Madré, J.-L., Axhausen, K.K. et Brôg, W. (2007). Immobility in travel diary
surveys. Transportation, vol. 34, n0l, 107-128.
Mullahy, J. (1986). Spécification and testing of some models. Journal of
Econometrics, vol. 33, 341-365.
310 Pratique et méthodes de sondages

11. Une méthode de prise en compte du

dégroupage total dans le plan de

sondage des enquêtes téléphoniques

auprès des ménages

François BECK, Arnaud GAUTIER, Romain GUIGNARD et


49
Jean-Baptiste RICHARD

11.1 Introduction

Le téléphone a permis de nombreux progrès dans les enquêtes relevant des


sciences sociales et de la santé publique. Les enquêtes téléphoniques sont en
effet moins coûteuses, plus faciles à encadrer et plus rapides que les enquêtes
en face à face. Néanmoins, leurs concepteurs sont désormais confrontés à
différents types de populations : les abonnés au téléphone fixe, parmi lesquels
il faut distinguer ceux qui ne figurent pas sur f annuaire ou ceux qui ont
abandonné l'opérateur historique pour les nouveaux opérateurs (dégroupage
total), et les possesseurs exclusifs de téléphone portable (mobiles exclusifs).
Si le téléphone reste un excellent moyen de toucher les individus résidant en
France (environ 1 % des personnes ne disposent d'aucun équipement), la part
importante des usagers en liste rouge et surtout des mobiles exclusifs a
complexifié les méthodes élaborées depuis le début des années 1990. Après
avoir brièvement présenté les Baromètres santé et rappelé les données
actuelles de la téléphonie en France, il s'agira ici de présenter une méthode
originale de prise en compte du dégroupage total et de montrer en quoi les
individus qui se trouvent dans ce cas diffèrent du reste de la population.

11.2 Présentation des Baromètres santé et de


leur méthode

11.2.1 Objectifs des Baromètres santé

Les Baromètres santé ont été créés au début des années 1990 (Baudier,
Dressen et Alias, 1994). Depuis près de vingt ans, ces enquêtes permettent de
suivre les principaux comportements, attitudes et perceptions liés aux prises
de risques et à l'état de santé de la population résidant en France
métropolitaine : tabagisme, alcoolisation et consommations d'autres drogues,

49 Institut National de Prévention et d'Éducation pour la Santé (1NPES).


Courriel ; francois.beck@inpes.sante.fr.
6. Collecte de donnés et sondages en ligne 311

pratiques vaccinales, comportement sexuel, dépistage des cancers, pratique


d'une activité physique, nutrition, qualité de vie, sommeil, accidents, douleur,
consommation de soins, santé mentale... (Beck, Guilbert et Gautier (Dir.),
2007). Elles permettent à la fois l'étude des déterminants de ces différents
thèmes, mais aussi de les envisager eux-mêmes comme des déterminants de
l'état de santé de la population.

11.2.2 Évolutions de la méthode

Dès l'origine des Baromètres santé, un certain nombre de choix


méthodologiques ont été opérés, qui allaient se pérenniser sur l'ensemble des
exercices ultérieurs : la solution d'une enquête transversale répétée,
téléphonique, reposant sur un échantillon probabiliste a ainsi été retenue.
En 2000, seuls les numéros fixes étaient interrogés. Les numéros de
téléphone des ménages étaient d'abord tirés au sort dans un fichier issu de
l'annuaire téléphonique puis, afin d'interroger également les ménages sur liste
rouge, le dernier chiffre de chaque numéro était incrémenté (+ l). La sélection
de l'enquêté parmi les éligibles au sein du foyer s'est faite par la méthode
« anniversaire » jusqu'en 2005, et par la méthode « Kish » à partir de 2008.
La méthode mise en place en 2000 a été adaptée en 2005 afin de prendre en
compte la part croissante des mobiles exclusifs. Leur échantillon a ainsi été
constitué de manière indépendante de celui des lignes fixes. Les préfixes des
numéros de téléphone attribués par l'Autorité de régulation des communications
électroniques et des postes (ARCEP) aux différents opérateurs nationaux ont
été utilisés pour la stratification de l'échantillon. La fin des numéros a ensuite
été générée de façon aléatoire. Une question filtre permettait, dès le début de
l'entretien, de mettre hors cible les individus possédant également une ligne
fixe dédiée au moins en partie à la téléphonie à leur domicile.

11.3 Évolution récente de la téléphonie

11.3.1 La structure de la téléphonie en France

L'équipement des foyers en téléphonie filaire n'a cessé d'augmenter en


France jusqu'à la fin des années 1990 pour atteindre 96% de ménages
équipés en 1997. Entre 1997 et 2005, la part des abonnés au téléphone fixe a
baissé au profit de celle des possesseurs exclusifs de portable, qui
représentaient 16 % des individus à la fin de cette période. Depuis, grâce au
développement des offres groupées haut débit intemet-téléphone-télévision, la
téléphonie filaire a retrouvé un second souffle qui a diminué la part des
mobiles exclusifs à 12 % des Français en 2009 (Bigot et Croutte, 2009).
312 Pratique et méthodes de sondages

Figure 6.8 : Part des individus joignables


uniquement sur téléphone portable

18
16

12

2
0 —
1998 2000 2002 2004 2006 2008

Sources : Enquête « Conditions de vie et aspirations des Français » 2009, Crédoc,


ARCEP ; Baromètre santé 2005 ; Baromètre santé nutrition 2008, INPES.

11.3.2 Le développement du dégroupage total

Dans le contexte de rouverture du marché des communications en 2003,


l'opérateur historique s'est vu dans l'obligation de donner l'accès au réseau
de téléphonie fixe aux autres opérateurs. La possibilité d'un dégroupage total
a donc fait perdre des abonnés à France Télécom. Selon l'ARCEP, le parc des
postes en dégroupage total qui était inférieur à 100 000 (soit 0,4 % des foyers)
début 2005, n'a cessé de s'accroître depuis pour concerner en 2009 plus de 5
millions de foyers (soit environ 15 % des foyers). La portabilité, possibilité de
conserver l'ancien numéro géographique en cas de changement d'opérateur,
est intervenue assez rapidement après l'ouverture du marché, de sorte que les
foyers qui ne sont joignables que par un numéro commençant par un 08 ou 09
(numéro automatiquement attribué lors d'un dégroupage total, parfois à l'insu
de l'abonné) représentaient en 2008 une part faible de l'ensemble de la
population (2,5 %), mais en augmentation. Pour une même ligne téléphonique,
on peut donc avoir un numéro géographique et/ou un numéro en 08 ou 09.

11.3.3 Constitution d'un échantillon ad hoc

En 2010, l'annuaire universel géré par l'ARCEP progresse, mais reste


insuffisant, y compris sur les lignes fixes. En conséquence, nous ne disposons
d'aucune base permettant de savoir si un numéro en 08 ou 09 correspond à un
numéro géographique attribué pour la même ligne ou pas.
A cause de l'impossibilité de gérer les doubles comptes entre numéros
géographiques et numéros en 08 ou 09, il n'était pas possible d'intégrer ces
derniers à la base de sondage des téléphones fixes. Néanmoins, il apparaissait
6. Collecte de donnés et sondages en ligne 313

illégitime de les exclure d'emblée de la population enquêtée, en l'absence


d'informations sur cette population. Cette précaution a nécessité une
adaptation de la méthode d'enquête qui consiste à identifier les « dégroupés
en 08 ou 09 purs » par le biais des mobiles exclusifs. En effet, la quasi-totalité
(environ 95 %) des dégroupés totaux possède un téléphone portable. Ainsi,
grâce à une question filtre posée à l'échantillon des mobiles exclusifs, il a été
possible de récupérer les ménages déclarant détenir aussi une ligne fixe, mais
ne correspondant à aucun numéro géographique.

11.4 Un profil singulier

A partir des résultats du Baromètre santé nutrition de 2008, il est possible de


caractériser ces « dégroupés en 08 ou 09 purs » (Beck, Gautier et Guignard,
2009). Tout comme celle des mobiles exclusifs, cette population est
massivement composée de jeunes adultes, 70 % d'entre eux ayant entre 19 et
44 ans, contre seulement 38 % des détenteurs d'un numéro géographique. Ils
habitent nettement plus souvent dans une agglomération de plus de 200 000
habitants que les deux autres groupes. Si les mobiles exclusifs sont en
proportion plus nombreux à être au chômage, affichent des revenus et des
diplômes moins élevés et comptent davantage d'ouvriers, ces caractéristiques
de précarité ne sont en revanche pas observées chez les « dégroupés en 08 ou
09 purs », qui affichent pour leur part des situations globalement favorables
en termes de diplôme, de salaire et de profession et de catégorie
socioprofessionnelle. Ces différences persistent après standardisation sur le
sexe et l'âge des individus de l'échantillon des numéros géographiques.

11.5 Conclusion

Au final, le champ de l'enquête ne laisse de côté quasiment que les personnes


ne disposant d'aucun équipement téléphonique. Les caractéristiques
sociodémographiques des différents échantillons soulignent une réalité sociale
différente selon le mode d'équipement téléphonique.

BIBLIOGRAPHIE

Baudier, F., Dressen, C. et Alias, F. (1994). Baromètre Santé 1992. CFES,


168 pages.
Beck, F., Guilbert, P. et Gautier, A. (Dir.) (2007). Baromètre santé 2005,
Attitudes et comportements de santé, INPES, Saint-Denis, 608 pages.
Beck, F., Gautier, A. et Guignard, R. (2009). Méthode d'enquête du
Baromètre santé nutrition 2008 : une évolution dans la continuité. Dans
Baromètre santé nutrition 2008, (Dir., H. Escalon, C. Bossard et F. Beck),
Saint-Denis, 39-63.
314 Pratique et méthodes de sondages

Bigot, R., et Croutte, P. (2009). La diffusion des technologies de


l'information et de la communication dans la société française, Credoc,
Paris, 220 pages.

12. Mesures des revenus et inégalités de

mobilité quotidienne à Douala

Lourdes DIAZ OLVERA, Didier PLAT et Pascal POCHET50

12.1 Estimation des revenus en contexte africain

Dans les villes africaines, les inégalités socio-spatiales de mobilité et d'accès


aux aménités urbaines sont très marquées (Diaz Olvera, Plat et Pochet, 2008).
En se concentrant sur la construction et l'entretien de voies routières, les rares
investissements en transport urbain profitent en premier lieu à la minorité de
citadins accédant à la voiture (Vasconcellos, 2001). La mesure des inégalités
liées au revenu, à travers les enquêtes statistiques, apparaît essentielle pour
mettre en évidence les enjeux redistributifs des politiques publiques.
Pour pallier les difficultés d'estimation des ressources des ménages et en
considérant que leur niveau de vie est mieux mesuré par la consommation que
par le revenu, les enquêtes sur les conditions de vie recueillent l'ensemble des
dépenses (Deaton et Grosh, 2000). Un tel recueil n'est pas envisageable dans
des enquêtes ménages sur la mobilité, car celles-ci consacrent déjà un temps
important au recueil des activités et des déplacements quotidiens (Behrens,
Diaz Olvera, Plat et Pochet, 2006). À partir de simulations, nous étudions, sur
le cas de Douala, l'impact comparé de modes de recueils, individualisé et
détaillé vs centralisé et simplifié, des revenus sur les disparités de
consommation de transport.

12.2 Un recueil du revenu individualisé et détaillé

Dans le cadre de l'enquête Pauvreté et Mobilité Urbaine (PMU, Sitrass,


2004), un recueil individualisé et détaillé des revenus a été réalisé. En effet, le
chef de ménage n'est pas toujours en mesure de renseigner l'enquêteur sur la
situation financière de chaque membre du foyer. Posées à chaque individu de
plus de 10 ans du ménage, des questions précises sur les revenus liés à ses
activités professionnelles ainsi que sur différentes sources de revenus non
professionnels (en provenance de l'extérieur du ménage) permettent de limiter

50 Laboratoire d'Économie des Transports, UMR CNRS 5593, Université de Lyon (École
Nationale des Travaux Publics de l'État). Courriel : lourdes.diaz-olvera@entpe.fr ;
didier.plat@entpe.fr ; pascal.pochet@entpe.fr.
6. Collecte de donnés et sondages en ligne 315

les oublis de déclaration (Figure 6.9). Des périodes de temps différenciées, de


la journée à l'année selon le type de revenu, s'adaptent aux déclarations des
enquêtés. Ce dispositif réduit sensiblement le taux de non-réponse sur les
différents postes de revenu et rend plus précise la reconstitution du montant
total des revenus des individus, puis de leur ménage. Une attention
particulière doit cependant être portée à la confusion fréquente entre chiffre
d'affaire et bénéfice pour les petits commerces notamment, d'une part, et aux
double-comptes entre individus d'un même ménage, d'autre part. Le respect
de la définition de chaque type de revenu et le contrôle de la qualité des
données doivent être poursuivis depuis la formation du personnel de terrain
jusqu'à l'apurement des données.

Figure 6.9 : Recueil des revenus individuels (membres de plus de 10 ans)


N0 Type de ressources monétaires (FCFA) Vous Périodicité Montant
recevez... * (FCFA)
1. Oui
2. Non
51 Salaire/traitement/bénéfice activité principale
52 Salaire/traitement/bénéf. activités secondaires
53 Salaire/traitement/bénéf. autres activités prof.
54 Ensemble revenus professionnels (51+52+53)
55 Loyers, rentes
56 Dons, cadeaux, pensions alimentaires,
mandats...de personnes externes au ménage
57 Allocations familiales, bourses, pensions
58 Autres
59 Ensemble des autres revenus (55+56+57+58)
60 Ensemble des revenus individuels (54+59)
*1. Quotidienne, 2. Hebdomadaire, 3. Mensuelle, 4. Trimestrielle, 5. Semestrielle, 6. Annuelle,
7. Autre, préciser. Source : enquête PMU (Sitrass, 2004).

12.3 Simulations de distributions de revenu avec


un dispositif simplifié et analyse comparée

Quelle est l'ampleur des disparités sociales de mobilité selon la précision des
revenus ? Pour le savoir, ce mode de recueil est mis en perspective avec celui
utilisé dans l'enquête sur le cadre de vie des populations de Yaoundé et
Douala (CAVIE, 2002). Dans cette enquête, les revenus de l'ensemble des
membres du ménage sont obtenus par le biais d'un seul informateur (le chef
de ménage ou son conjoint) et pour un nombre plus limité de postes.
La comparaison de l'impact du mode de recueil des revenus sur les mesures
d'inégalités est effectuée par simulation, dans l'enquête PMU, de revenus
selon un mode de recueil simplifié. Cette simulation consiste en une mise à 0
aléatoire de certains revenus de l'enquête PMU pour aboutir à la même
316 Pratique et méthodes de sondages

répartition des individus selon les catégories de revenu principal que celle
issue de l'enquête CAV1E (Tableau 6.5). Trois cent simulations ont été
réalisées. Les coefficients de concentration obtenus avec les revenus observés
sont comparés à la moyenne des coefficients de concentration avec revenus
simulés (Tableau 6.6). Ces coefficients, obtenus en triant les individus ou les
ménages par revenu croissant, mesurent les écarts de surface entre la courbe
de concentration de l'indicateur de mobilité et la droite d'équi-répartition.

Tableau 6.5 : Répartition des individus selon la source principale de


revenu et probabilités utilisées pour les simulations de distributions de
revenu sur réchantillon de l'enquête PMU
Source principal de revenu Enquête Enquête Probabilité de mise
individuel PMU CAVIE des revenus à 0 pour
les simulations
Activité professionnelle 49,1 43,8 0,1082
Allocations, loyer ou autre 4,5 2,0 0,5608
Dons 21,0 2,7 0,8713
Sans revenu 25,4 51,5
Ensemble 100,0 100,0

Tableau 6.6 : Coefficients de concentration de différents indicateurs de


mobilité selon les revenus observé et simulés
Indicateur de mobilité ou de Revenu observé Revenus simulés
consommation de transport (enquête PMU) (n = 300)
Moyenne Écart-type
Nombre de déplacements tous modes 0,024 0,028 0,007
BTT* tous modes 0,101 0,093 0,014
Nb de déplacements modes motorisés 0,262 0,211 0,019
BTT modes motorisés 0,273 0,218 0,021
Dépenses individuelles pour les TC** 0,277 0,208 0,019
Dépenses individuelles tous modes
(y compris véhicules privés) 0,430 0,331 0,035
Dépenses des ménages pour les TC 0,217 0,184 0,013
Dépenses des ménages tous modes 0,356 0,311 0,024
* Budget-Temps de Transport ** Transports Collectifs.

Le nombre quotidien de déplacements et le budget-temps transport tous


modes de transport sont les indicateurs de mobilité les plus également répartis
selon les revenus individuels. Ce sont aussi ceux pour lesquels l'enjeu d'une
mesure précise des revenus est le plus limité. En effet, lorsque les revenus
sont inexistants ou bas, les citadins compensent le moindre accès aux modes
6. Collecte de donnés et sondages en ligne 317

motorisés par une pratique intensive de la marche à pied, ce qui explique la


valeur proche de 0 des indices de concentration de ces deux indicateurs.
L'intérêt d'un recueil précis des revenus apparaît plus nettement si l'on se
focalise sur les indicateurs socialement les plus discriminants, soit ceux qui se
rapportent aux modes de transport motorisés. Un recueil moins précis minore
les inégalités de mobilité motorisée, avec des indices de concentration simulés
inférieurs de 20 % à ceux issus des données observées. Cette sous-estimation
ne touche pas identiquement toute la population ; elle est surtout due à une
mauvaise évaluation de la situation des pauvres, comme le montre la courbe
de concentration des dépenses individuelles pour la mobilité (Figure 6.10).

Figure 6.10 : Courbes de concentration de la dépense totale de transport


selon les distributions de revenu observée et simulées*
1.0

Observee
o Simulées
| 0-8 "
w
Q)
W
c
(D
Q.
^ 0.6 -
w
0)
"D
-0)
=3

CD
O)
S
C

O
Q-

0.2 0.4 0.6 0.8 1.0


Pourcentage cumulé des individus
* seules les cinq premières simulations sont présentées.

Deux résultats émergent de cette étude sur Douala. De façon relativement


attendue, un recueil individualisé et détaillé des revenus améliore l'évaluation
du niveau de vie. Plus précisément, il limite tout particulièrement les biais
d'estimation des revenus des pauvres, les plus touchés par les problèmes
quotidiens de déplacements. Il rend en cela possible une meilleure prise en
compte des questions d'équité dans l'accès au transport et à la ville.
318 Pratique et méthodes de sondages

BIBLIOGRAPHIE

Behrens, R., Diaz Olvera, L., Plat, D. et Pochet, P. (2006). Collection of


passenger travel data in Sub-Saharan African cities: Towards improving
survey instruments and procédures. Transport Policy, vol. 13, n0l, 85-96.
CAV1E (2002). Enquête sur le cadre de vie des populations. Institut National
des Statistiques, Yaoundé.
Deaton, A., et Grosh, M. (2000). Consumption. Dans Designing Household
Survey Questionnaires for Developing Countries, (Eds., M. Grosh et
P. Glewwe), Oxford, Oxford University Press, 91-133.
Diaz Olvera, L., Plat, D. et Pochet, P. (2008). Household transport
expenditure in Sub-Saharan African cities: Measurement and analysis.
Journal of Transport Geography, vol. 16, n0l, 1-13.
Sitrass (2004). Pauvreté et mobilité urbaine. Rapport pour le SSATP no09/04,
http://www4.worldbank.org/afr/ssatp/Resources/PapersNotes/Douala.pdf.
Vasconcellos, E.A. (2001). Urban Transport, Environment and Equity. The
Case for Developing Countries. Earthscan, Londres.
Chapitre 7

Théorie des sondages

1. Allocation optimale pour un plan à

plusieurs degrés. Application à

l'estimation de la fraude tarifaire

grandes lignes à la SNCF

Maguelonne CHANDESRIS Guillaume CHAUVET et


2
Jean-Claude DEVILLE

1.1 Problématique et sélection de l'échantillon


de voyageurs

A la Société National des Chemins de Fer (SNCF), des moyens visant à lutter
contre la fraude tarifaire sont déployés quotidiennement, pour autant ce
phénomène reste par nature difficilement mesurable et quantifiable. Cette
recherche vise à fournir une méthodologie scientifique solide pour mieux
quantifier ce phénomène à la fois en nombre (taux de fraude) et en montant
(perte financière associée). Pour cela, l'idée est de s'appuyer sur les données
issues des contrôles quotidiens effectués à bord des trains.

1 Maguelonne Chandesris, Optimisation des Revenus, Direction Innovation et Recherche,


SNCF, Paris, France. Courriel : maguelonne.chandesris@sncf.fr.
2 Guillaume Chauvet et Jean-Claude Deville, Laboratoire de Statistique d'Enquête,
CREST/ENSAI, Campus de Ker Lann, 35170 Bruz, France. Courriel : chauvet@ensai.fr ;
deville@ensai.fr.
320 Pratique et méthodes de sondages

Les données collectées consistent en un échantillon de voyageurs ayant fait


l'objet d'un contrôle à bord. La procédure de sélection de cet échantillon
n'étant pas connue de façon détaillée, elle a fait l'objet d'une modélisation
réaliste sous forme d'un plan de sondage à deux degrés, stratifié au premier
degré.

1.2 Notations et estimation de la perte

Une unité primaire d'échantillonnage est constituée par la donnée d'un train,
d'un tronçon et d'une date (ttd). La population Uj des unités ttd est découpée
en H strates notées Un, ..., UIH de tailles respectives M,, ..., MH. On note
également TV,, ..., NH le nombre (connu) respectif d'unités voyageur dans
chacune des strates. Lors du premier degré de tirage, un échantillon
d'unités ttd est sélectionné par sondage aléatoire simple de taille m]h dans
chaque strate Ulh. Un échantillon Sih de nih unités voyageur est ensuite
sélectionné parmi les Nih unités voyageur de chaque unité primaire uih e SIh.
La somme totale Th non réglée par les fraudeurs dans la strate UIh peut être
estimée sans biais par

fh=M2L ^ ^ (1)

m n
\h uiheS,il ih keSih

en notant tkih la somme totale non réglée par l'unité voyageur k de uih, que
l'on suppose relevée sans erreur si l'individu k est contrôlé. Comme le
nombre d'unités voyageur dans chaque strate est connu, on peut également
utiliser un estimateur par le ratio (Chandesris, Chauvet et Deville, 2010). Un
estimateur de variance sans biais pour V(Th) est donné par
/ \ 2
m \h n ih \ vt(ih)
v(fh) = Ml I - y Ni 1 (2)
Mhy m m
\h \h uiheSlh "ihj ih

avec d'une part, sf^ = 1 / (nih - 1) XagS' ^kih ~ la dispersion estimée


de la somme non réglée dans l'unité ttd ujh, où Tih = \/nih Xags Yih donne la
somme moyenne non réglée par unité voyageur dans l'unité ttd uih, et d'autre
part, sf(Ihj = 1 / {m]h - 1)X„7 eslh (Yh ~ h) ^ dispersion estimée des
sommes non réglées dans la strate Unv où Tih = Nih/nih Yih donne
l'estimation du montant total des sommes non réglées dans l'unité ttd uih,
voir par exemple Tillé (2001, page 178).
7. Théorie des sondages 321

1.3 Optimisation de l'allocation d'individus


supplémentaires

Si la précision de ces indicateurs est jugée insuffisante, notamment pour les


domaines d'intérêt, la SNCF envisage de sélectionner un suréchantillon afin
de disposer d'estimations plus fiables. Cette section propose une méthode
permettant de calculer une allocation optimale pour cet échantillon
complémentaire, ainsi qu'une application sur la base des données collectées
par la SNCF.

1.3.1 Déterminer les tailles d'échantillons optimales

On dispose d'observations réparties sur mIh unités primaires et on considère


que l'échantillonnage d'unités secondaires (les unités voyageur) ne dépend
que de caractéristiques techniques et est donc intangible. L'optimisation
décrite porte sur une variable ykih quelconque.
On note Yh l'estimateur du total de la variable ykih sur la strate U^, obtenu
en remplaçant dans la formule (!) la variable tkih par ykih. Un estimateur de la
variance de Yh, obtenu à l'aide de la formule (2), peut se réécrire sous la
forme

l l Vy{ih)
S l - ih
v T
i h) = y{Ih) + Z Niih - MhSy(Ih) (3)
m, M h ihesh N;ih nih

où les mh constituent l'allocation finale dans la strate U//,, l'allocation initiale


avant suréchantillonnage étant égale à mlh. La quantité

1 ^ . n;ih Vy{ih)
Dl = s2ym + E Niih 1 - (4)
M h ihesh N;ih ih

constitue l'estimation d'un paramètre relatif à la strate U[h qu'on considérera


en première approximation comme indépendant du nombre mh d'unités
primaires. Le premier terme du second membre de (4) est en principe
dominant et le second est une correction qui tend vers zéro quand le taux de
sondage de la strate tend vers zéro. On considère que les taux de sondage par
strate sont suffisamment faibles pour que le second terme de (4) soit
négligeable.
Notons \=MhDhl'YJH=xMjDj. L'optimisation consiste à déterminer les
tailles d'échantillon mh qui minimisent :
H
A2

h — \ mh

sous les contraintes :


322 Pratique et méthodes de sondages

mlh < inh < Mh pour h = 1, ...H, (5)

et

sr=imA=m w

l'allocation globale m étant fixée et supérieure à m, = Xf=imi/r obtient


ainsi un problème de programmation linéaire qui peut être résolu grâce à des
procédures d'optimisation classiques.

1.3.2 Application aux données SNCF

Nous avons réalisé des applications numériques pour étudier où une


réallocation des moyens de contrôle s'avérerait le plus efficace pour
augmenter la précision des indicateurs. Un exemple de résultat est fourni ci-
dessous en comparant quatre allocations (données du mois de septembre 2008
pour le TGV Méditerranée - Paris Côte d'Azur) :
- Allocation actuelle : ml = mh,
- Réallocation complète : m* = m. On réalloue complètement les
moyens de contrôle au sein des strates, à nombre total de ttd
échantillonnés constant,
- Allocation complémentaire : on garde l'allocation actuelle à laquelle
on rajoute des contrôles supplémentaires m* > m,
- Allocation totale : c'est l'allocation qui réalise le minimum de
variance mh = Mh.

Pour chaque allocation, on fournit le nombre de ttd attribué par strate ainsi
que la valeur obtenue pour la somme S = X/^i

Tableau 7.1 : Résultats d'allocation pour restimation de la perte


financière
Allocation mT m 2* m 3* m 4* m* S
Allocation actuelle 147 81 231 221 680 1,6 10'3
Réallocation complète 108 59 334 179 680 1,5 lO"3
Allocation complémentaire 212 136 592 225 1 165 0,9 10"3
Allocation totale 212 240 2 249 225 2 926 0,5 lO 3

BIBLIOGRAPHIE

Chandesris, M., Chauvet, G. et Deville, J.-C. (2010). Estimation de la fraude


tarifaire grandes lignes à la SNCF. Rapport Technique.
Deville, J.-C. (1999). Estimation de variance pour des statistiques et des
estimateurs complexes : linéarisation et techniques des résidus. Techniques
d'enquête, 25, 219-230.
7. Théorie des sondages 323

Cochran, W.G. (1977). Sampling Techniques. New-York ; John Wiley &


Sons, Inc.
Kuhn, H.W., et Tucker, A.W. (1951). Nonlinear programming. Proceedings
ofT'1 Berkeley Symposium, 481-492, University of Califomia Press.
Tillé, Y. (2001). Théorie des sondages : échantillonnage et estimation en
population finie. Dunod, Paris.

2. Tirages coordonnés d'échantillons

poissoniens

Desislava NEDYALKOVA, Lionel QUALITÉ et Yves TILLÉ3

2.1 Introduction

Nous proposons une généralisation de la méthode de Brewer, Early et Joyce


(1972) pour tirer des échantillons coordonnés positivement ou négativement.
Cette méthode répond aux besoins exprimés par l'Office Fédéral de la
Statistique (OFS, Neuchâtel, Suisse) pour organiser ses enquêtes auprès des
entreprises. L'OFS souhaite pouvoir sélectionner des panels, des panels
rotatifs, et des enquêtes ponctuelles en contrôlant au mieux la charge de
réponse des unités. La méthode doit être basée sur des numéros aléatoires
pennanents et un tirage indépendant des unités (échantillonnage transversal
de Poisson). Pour organiser une nouvelle enquête, le sens de coordination
avec les enquêtes précédentes, ainsi que l'ordre de priorité de ces
coordinations doit être fourni.
L'OFS organise chaque année plusieurs enquêtes auprès des entreprises.
Certaines de ces entreprises sont enquêtées à plusieurs reprises. Parfois cela
ne peut être évité, par exemple pour les grandes entreprises qui sont en
général sélectionnées d'office. Il est malgré tout souhaitable de pouvoir
garantir aux entreprises que l'on ne les interroge que le strict minimum de fois
imposé par les objectifs de précision. Considérons deux des aspects de la
charge d'enquête des entreprises : le nombre de fois qu'elles vont être
enquêtées et le temps qui s'écoule entre les enquêtes. Le nombre moyen de
fois qu'elles sont enquêtées ne dépend que de leurs probabilités d'inclusion,
et l'on ne peut pas forcément leur promettre de le diminuer. En effet, pour
chaque enquête, les entreprises reçoivent des probabilités d'inclusion qui sont
calculées de manière à obtenir la meilleure précision possible. Une entreprise
qui reçoit les probabilités d'inclusion n],..., n1 pour les enquêtes d'une année
donnée sera enquêtée en moyenne ti1 +... + n' fois cette année-là, de

3 Institut de Statistique, Université de Neuchâtel.


324 Pratique et méthodes de sondages

n'importe quelle manière que l'on procède. Le seul moyen de diminuer ce


paramètre est de réduire une ou plusieurs probabilités d'inclusion, et donc de
sacrifier la précision des enquêtes.
Néanmoins, dans le cas d'enquêtes réparties dans le temps, on peut essayer
de garantir aux entreprises qui sont sélectionnées à une enquête qu'elles vont
être « dispensées » d'enquêtes pendant un moment. La régularité avec
laquelle les unités sont sélectionnées peut être contrôlée en choisissant une
bonne méthode de tirage. Par exemple, si l'on veut faire cinq enquêtes et
qu'une entreprise reçoit la probabilité d'inclusion 0,2 à chacune de ces
enquêtes, elle sera en moyenne enquêtée une fois. La méthode naïve serait de
la sélectionner ou non de manière indépendante à chaque enquête. Elle
pourrait donc être échantillonnée 0 fois, 1 fois, 2 fois, etc. jusqu'à 5 fois. En
sélectionnant les cinq échantillons de manière coordonnée, on peut garantir à
cette entreprise qu'elle va être sélectionnée à une et une seule de ces enquêtes.
Lorsqu'elle est échantillonnée, on peut donc lui assurer qu'elle ne participera
pas à une autre enquête. Plus généralement, lorsque la somme des probabilités
d'inclusion d'une entreprise aux différentes enquêtes est comprise entre deux
entiers j et 7+1, un tirage coordonné permet d'être certain qu'elle va être
sélectionnée soit j fois, soit j + 1 fois. Avec des enquêtes indépendantes, la
même unité aurait pu être sélectionnée à toutes les enquêtes. Les tirages
coordonnés sont particulièrement intéressants pour les entreprises dont la
somme des probabilités d'inclusion est inférieure ou égale à 1, car dans ce cas
on peut leur assurer qu'elles seront enquêtées une fois au maximum. La
méthode que nous décrivons dans ce document permet d'organiser tous les
types d'enquêtes (ponctuelle, panel, panel rotatif...) dans une population
dynamique (naissances, décès, scissions et fusions d'unités) en offrant la
garantie aux entreprises qu'elles seront enquêtées le moins fréquemment
possible, sous contrainte des probabilités d'inclusion qui leur ont été
attribuées.

2.2 Principe de base

Chaque unité de la population est traitée indépendamment des autres unités.


Pour chaque unité, on va définir des zones de sélection dans l'intervalle [0, 1],
de longueurs égales aux probabilités d'inclusion désirées, et dont le
recouvrement est déterminé par la coordination entre les enquêtes. Pour
comprendre le principe, prenons une unité comme exemple.
- Lors de la première enquête, l'unité a une probabilité de sélection tt1,
et reçoit son numéro aléatoire permanent X compris entre 0 et 1. On
place alors tt1 sur le segment [0, 1] (voir Figure 7.1).
7. Théorie des sondages 325

Figure 7.1 : Zones de sélection, lere enquête

s1 H
i-
0 717

Le segment [0, 1] est ainsi divisé en deux parties (dont l'une pourrait
éventuellement être vide si tc1 est égal à 0 ou \). Si X est dans la
première partie, c'est-à-dire compris entre 0 et n\ l'unité est
sélectionnée à la première enquête, dans l'échantillon s\ et sinon
elle n'est pas sélectionnée.
- Lors de la deuxième enquête, on peut choisir de coordonner
positivement par rapport à la première, ou bien négativement. Ici
encore, on va définir une zone de sélection constituée d'un ou
plusieurs intervalles inclus dans [0, 1] et de longueur totale ti2, la
probabilité d'inclusion de l'unité à la deuxième vague. Si l'on veut
obtenir une coordination positive, il faudra choisir une zone qui ait la
plus grosse intersection possible avec la zone de sélection de la première
enquête [0, ti1 [, et au contraire, si l'on veut une coordination
négative, il faudra choisir une zone qui ait la plus petite intersection
possible avec cet intervalle. Ainsi, dans le cas de la coordination
positive, la zone de sélection de l'unité à la deuxième enquête sera
1 • • • • O
incluse dans [0, n [ si cela est possible, c'est-à-dire si n est plus
petit que ti1 (voir Figure 7.2).

Figure 7.2 : Coordination positive, 1er cas

s21" i
si i- 1.

m m

9 1
Si ti" est plus grand que n, la zone de sélection contiendra tout
l'intervalle [0, ti1 [, et une partie de l'intervalle [ti1, 1] (voir
Figure 7.3).
326 Pratique et méthodes de sondages

Figure 7.3 : Coordination positive, 2e cas

s2 [ 1
s1 i- H
4-
0 7T/1 1

La sélection ou non de l'unité aux deux enquêtes est déterminée par


l'appartenance de X aux zones de sélection : si X est dans
l'intersection de ces zones, l'unité sera sélectionnée les deux fois. Si
X est dans l'une des zones de sélection, mais pas dans l'autre, l'unité
ne sera sélectionnée qu'à l'enquête correspondante, et enfin si X
n'est dans aucune de ces deux zones, l'unité n'est pas sélectionnée.
Le segment [0, 1] est maintenant découpé en trois intervalles, et à
chacun de ces intervalles correspond un tirage de l'unité soit pour les
deux enquêtes, soit pour l'une des enquêtes, soit dans aucune des
deux enquêtes.
- Le deuxième cas possible est celui de la coordination négative. Dans
ce cas, il faut déterminer une zone de sélection pour la deuxième
enquête qui recoupe le moins possible celle de la première enquête. Il
s'agit en fait exactement du même problème que précédemment, mais
les rôles de [0, ti1 [ et [tt1, 1] ont été intervertis. Si ti1 + ti2 est
inférieur à 1, la zone de sélection de la deuxième enquête sera
112.. t r *
[71,71 +7r[ (voir Figure 7.4, on prend de préférence la zone de
sélection dans [ti1, 1]).

Figure 7.4 : Coordination négative, 1er cas

h
t -J
é* 1 \ •
0 1
** t*+

1 2 . t
Si Ti+Ti est supérieur à 1, la zone de sélection sera
[tt1, 1] u [0, ti2 + tc1 - 1] (voir Figure 7.5).
7. Théorie des sondages 327

Figure 7.5 : Coordination négative, 2e cas

s2 j- - - -j [ -j
1
s j- — j "j :
o*—^ i *
nl + nî-\ 4 1

Ici encore, le segment [0, 1] est découpé en trois intervalles, et


l'appartenance de ^ à ces intervalles détermine le tirage de l'unité
aux deux enquêtes.
- De manière générale, une fois que t enquêtes sont passées, le segment
[0, 1 ] est divisé en r + 1 intervalles, dont certains peuvent être vides.
L'appartenance de ^ à l'un de ces intervalles détermine exactement à
quelles enquêtes l'unité est sélectionnée et à quelles autres elle n'est
pas sélectionnée. Pour déterminer la zone de sélection de l'unité à la
r+ 1e enquête, on détermine lesquels de ces / + 1 intervalles doivent
faire partie de cette zone, ou posséder la plus grande intersection
possible avec elle, et dans quel ordre de priorité. La connaissance des
sens de coordination désirés et de l'ordre de priorité demandé permet
de donner un score à ces t + 1 intervalles. La zone de sélection sera
composée des intervalles ayant les plus grands scores tant que la
longueur totale de ces intervalles ne dépasse pas la probabilité
d'inclusion 7r'+l, et le cas échéant d'une partie de l'intervalle suivant
dans l'ordre de priorité de telle manière que la zone de sélection ait
une longueur exactement égale à tt' '

2.3 Propriétés

Ce système permet de gérer les naissances et décès d'unités. En effet, une


nouvelle unité sera simplement ajoutée à la base de sondage avec un passé
vierge et un numéro aléatoire nouveau. Une unité décédée reçoit
naturellement une probabilité d'inclusion nulle aux enquêtes suivantes. Le
traitement des unités étant indépendant, cela ne vient pas compliquer les plans
de sondage. Les scissions et frisions d'entreprises sont également possibles.
Le seul problème est de décider quel passé (partition de [0, 1] et numéro
aléatoire) est attribué à ces nouvelles unités. Dans la plupart des cas, on
affecte aux unités provenant de fusions ou de scissions le passé d'une unité
parente.
Il est possible d'organiser des panels rotatifs avec ce système. Ceux-ci
seront en fait des assemblages de plusieurs sous-échantillons correspondant à
des blocs de rotation (voir Qualité, 2009). En jouant sur le caractère positif ou
328 Pratique et méthodes de sondages

négatif de la coordination entre ces blocs, on peut à chaque instant mettre à


jour un bloc (en retirer les unités décédées et ajouter des unités nouvellement
apparues dans la population), ou bien sélectionner un bloc entièrement
nouveau pour remplacer celui qui sort du panel.
La méthode permet d'obtenir une coordination optimale entre l'enquête en
cours et celle avec laquelle elle doit être coordonnée en priorité. La
coordination avec les enquêtes dont la priorité est plus faible n'est plus
optimale, mais reste maximale sous les contraintes imposées par la
coordination avec les enquêtes prioritaires.
L'inconvénient principal de cette méthode est que les tailles d'échantillon
ne sont pas fixes. Cependant, dans une grande partie des enquêtes, comme les
enquêtes auprès des entreprises, l'utilisation d'estimateurs calés permet
d'annuler quasiment complètement la perte de précision liée à la variabilité de
la taille de l'échantillon.
Sur le plan pratique, cet algorithme nécessite de stocker et de manipuler des
données dont la taille n'augmente que linéairement avec le nombre
d'enquêtes. Notre implémentation en SAS fonctionne tout à fait correctement
en utilisant le registre des entreprises comme base de sondage (environ
500 000 unités en Suisse), ou même une population fictive de 8 millions
d'unités.

BIBLIOGRAPHIE

Brewer, K., Early, L. et Joyce, S. (1972). Selecting several samples from a


single population. Austmlian Journal ofStatistics, 3, 231-239.
Qualité, L. (2009). Unequal probability sampling and repeated surveys.
Thèse de doctorat, Université de Neuchâtel, Suisse.

3. Coordination d'échantillons : un aperçu

de la méthode JALES+

Pascal ARDILLY4 et Olivier SAUTORY5

3.1 Contexte et objectif

Ce qui suit présente certaines caractéristiques d'une méthode généraliste de


coordination d'échantillons d'entreprises appelée JALES+. Mise au point par
Christian Hesse de l'Insee, elle permet d'une part de coordonner

4 Institut national de la statistique et des études économiques (Insee), Unité des méthodes
statistiques ménages. Courriel : pascal.ardilly@insee.fr.
5 Insee, Unité des méthodes statistiques entreprises. Courriel : olivier.sautory@insee.fr.
7. Théorie des sondages 329

négativement des échantillons et d'autre part de gérer la mise à jour de


« panels » (coordination positive) tout en organisant la rotation des unités qui
les composent. Nous ne considérerons ici que le cas de l'échantillonnage de
Poisson et nous nous limiterons à la coordination négative. JALES+ associe
une fois pour toutes à chaque unité de la base de sondage un numéro au
hasard entre 0 et 1, puis le transforme à l'occasion de chaque échantillonnage6
et applique in fine un algorithme de sélection basé sur ces nombres
transformés afin que certaines propriétés soient respectées. Le tirage des
échantillons doit s'effectuer en tenant compte de la charge d'enquête
accumulée par chaque unité de la base : plus elle est lourde, moins l'unité doit
avoir de chance d'être échantillonnée.
Techniquement, la coordination est une façon de construire une méthode de
sélection d'une suite d'échantillons dans le temps sous la contrainte que
l'échantillonnage effectué à chaque date respecte les probabilités de sélection
prédéfinies. Si Tikt désigne la probabilité de sélection de l'unité k au tirage /
et si nk tu est la probabilité de sélection de k conjointement aux tirages t et
w, la coordination «positive» correspond à m > nk t ' nk u et 'a
coordination « négative » à nk tll < nk ^ nk u. La coordination positive est
recherchée lors des mises à jour de panels, la coordination négative est une
manière évidente de limiter la charge des entreprises. On peut aussi
rechercher simultanément les deux types de coordination.

3.2 La méthode de référence du décalage


constant

A / = 0, pour chaque unité k de la base de sondage, on tire coA., un réel au


hasard entre 0 et LA une date t quelconque, on tire l'échantillon s,, et k a
une probabilité de sélection nk r On fixe un réel d entre 0 et 1, et on décide :

& g 5, <=> % e \cl,cl + (1)

Cette stratégie respecte évidemment les probabilités t. On maintiendra

d constant dans le temps pour coordonner positivement et on modifiera d au


cours du temps pour coordonner négativement. Une méthode simple impose
d = c x{t - \) où c est un réel connu fixé. Si on considère deux tirages
successifs de Poisson à / et / + 1, pour tout k dans st, on montre que, sous la
condition en général vérifiée que c + Tik t+\< le taux de rotation est

r \ n n
k,t k,t+l
rk t = P(k <£ st+l\k g stj = Max< Min —, 1
n
K k,t y 71 k,t

6 Soit un tirage classique pour un échantillon séparé, soit une mise à jour complète
(actualisation + rotation) pour un panel.
330 Pratique et méthodes de sondages

Ainsi, une fois c fixé, les imités à faible probabilité de sélection (en
pratique de petites tailles), auront un taux de rotation rk r égal à 1, donc ne
feront qu'un passage ponctuel dans le panel - ce qui n'est pas souhaitable
dans le cas d'un panel renouvelé partiellement.

3.3 Une méthode contrôlant les taux de rotation

On peut viser un maintien dans le panel d'une unité k « en moyenne » durant


Dk périodes (en pratique 2 < Dk < 5). Si

1 . ^k,t ^k, t+l


rkt = Max
D
k ' KkJ

et si on retient cl = rk t x Tik p alors le taux de rotation est exactement égal à


rk t. Cette méthode est une méthode de décalage adapté à l'unité.

3.4 La fonction de coordination : un outil


généralisant les méthodes de décalage

Les deux méthodes précédentes sont du type k e st <=> gk ,((%) e [0, ,[


où gk t est une fonction de [0, 1] dans [0, 1] (équation 1). La première
revient à choisir gk f{u)k) = U)k - dt où r/, = + c x (/ - 1) et la seconde
conduit à gkA{(ak) = % et = % - Yi~^rk u x nk u à toute date
t >2. On peut généraliser cette approche avec d'autres fonctions gk t{^k)
ayant de bonnes propriétés, appelées « fonctions de coordination ». De
manière générale, une fonction de coordination g est une application
mesurable de [0, 1[ dans [0, 1[ conservant la loi uniforme: si P est la
probabilité uniforme sur [0, 1], alors = P. Ainsi, g conserve la longueur
des intervalles par image réciproque. La conséquence essentielle est que les
échantillonnages marginaux (à chaque tirage donc) respectent les probabilités
de sélection. En effet, pour tout t :

P{k s s,) = p(a(%) e [o, TCM[) = /"•'([(), TtM[) = p([o, = KkJ.

En jouant sur la forme fonctionnelle g (en fait gk ,), on va créer les


corrélations souhaitables dans le temps entre les échantillons successifs, et à
tout moment les probabilités nk t seront respectées.

3.4.1 La fonction dite du « décalage constant


amélioré »

Cette méthode est utile pour renouveler partiellement des panels : elle relève
donc tout autant d'un esprit de coordination positive que de coordination
négative. Elle permet aux petites unités de rester « suffisamment longtemps »
7. Théorie des sondages 331

dans le panel. On suppose qu'on gère un unique panel réinterrogé chaque


année. Soit un entierD > 2 représentant l'inverse d'un taux de rotation cible
« idéal » (D = 3 si on pense souhaitable qu'une unité reste 3 ans dans le
panel) et une constante c (inférieure à 1). Soit a l'année courante. Pour
a = 1, on initialise le panel avec l'identité gk ]{(ûk) = (ûk. Ensuite, on définit
cûo(«) = {a - \) • c pour a > 2 Qt (à/(a) = co0(«) + l • c pour tout / = 1, 2,
3,..., D. On pose ^(co) = D x (co - co/.i^)) dès que co/.,^) < co < co/^)
(/= 1, 2, 3,..., D) et ga(co) = co - co0(«), (équation 1), en dehors de
[co0(a), coD(«)[. Les fonctions ga sont affines par morceaux, donc
mesurables et conservent les longueurs des intervalles. Chaque année a, la
fonction de coordination g se décale vers la droite de c. On vérifie que le
taux de rotation des unités qui posent a priori le plus de problèmes dans la
méthode du décalage constant (celles où nk t est « petit ») vaut 1 / D dès lors
que nk n'évolue pas ou augmente « modérément » avec le temps. On peut
ainsi obtenir une vraie panélisation des petites unités. Les cas d'effondrement
de la probabilité d'inclusion entre t et r + 1 restent les cas à problème, mais
d'une certaine façon ce résultat est tautologique : si Tik t+X est tout petit
devant Tik n il faut évidemment s'attendre à une sortie très rapide du panel
quoi qu'on fasse !

3.4.2 La technique dite « pas à pas »

La méthode « pas à pas » est plus naturellement conçue pour la coordination


négative et prend en compte les charges cumulées d'enquête. Elle fait en sorte
que les unités les moins chargées soient échantillonnées en priorité, en
respectant évidemment les iik r Elle peut servir aussi à de la coordination
positive, en particulier à la mise à jour de panels (non abordé ici). La notion
de charge la plus simple est le nombre d'enquêtes auxquelles l'unité a déjà
participé, mais on peut introduire des notions de charge différenciées d'une
enquête à l'autre. Si on associe la charge ponctuelle t à l'individu k

participant à l'échantillon st, la charge cumulée de k à t s'écrit Fk t(u>k) =


X/k/Ta t ' h t ) 0ù est a
l fonction indicatrice qui vaut 1 si co^
conduit à retenir â: à r, et 0 sinon. C'est une variable aléatoire bornée qui ne
dépend que de %. On pose F^o(co) = 0. Puisque la probabilité de sélection
est d'autant plus grande que le nombre aléatoire transformé gk ,(%) est
petit, on aimerait trouver gk r(co) vérifiant

V (B, et co2 : r^K) < ((co2) => Sic,t(®k,i) < SmK.2)- (2)

On appelle «palier» de F tout sous-ensemble A de [0, 1] tel qu'il existe


un réel jc vérifiant r_(x) = A avec P(A) > 0. En pratique, les paliers sont
des réunions d'intervalles. On montre que la fonction

G(m) = Pr(]-00, r((û)[) = p{u\r(u) < r(a))}


332 Pratique et méthodes de sondages

vérifie la propriété recherchée (2), a une image incluse dans [0, 1] et possède
les mêmes paliers que F (à un ensemble de mesure nulle près). On vérifie que
pour chaque j dans l'image de G, P{u\G(ii) < y} = y. Enfin, on montre que
si f n'a pas de palier, l'image de G est exactement [0, 1] et G est alors une
fonction de coordination. On conçoit facilement que F ne soit composée -
par constaiction - que de paliers. Le palier est une situation très courante
correspondant à des algorithmes sélectionnant k en fonction du positionnement
de U)k par rapport à certains seuils. Or G n'est intéressante que lorsqu'elle
constitue une fonction de coordination : donc si F a au moins un palier, il faut
transformer G en une autre fonction g de façon à ce que cette transformée ait
une image qui soit égale à [0, 1]. Des développements complexes montrent
que si que les paliers forment un ensemble de type (J/A' ^ convient de
retenir

Vco s [0, 1] g((o) = G(co) + I1a(m) jlA.n[o,„](«¥"•


i
Les fonctions de charges cumulées sont des fonctions en escalier, donc
constituées uniquement de paliers. La fonction de coordination g est donc
affine par morceaux, chaque morceau étant une droite de pente 1 délimitée
par les mêmes valeurs que celles qui délimitent les paliers de la fonction en
escalier. De plus, cette fonction est bijective.
Sur le plan opérationnel, la constaiction de g n'est pas compliquée. On
considère un palier de F : on sait que G a un palier exactement au même
emplacement, d'ordonnée égale à la longueur du sous-ensemble de [0, 1]
correspondant aux points co dont le palier se situe en dessous de A. Pour
obtenir g, on « incline » chaque palier de façon à le transformer en un
segment de droite de pente 1, en conservant sa longueur et en le faisant
pivoter de 45 degrés autour de son extrémité gauche. Il est fortement conseillé
de vérifier in fine que la fonction obtenue g est surjective.
On rappelle qu'on a adopté la règle k est <=> co^. g Ak t où Ak t =
gk f[0, nk ,[. Le réel aléatoire coA. étant fixé, on connaît par avance l'appartenance
ou non de l'unité aux échantillons futurs dès lors qu'on connaît les nk l et les
Yk t (réaliste à échéance de quelques enquêtes). Pour une meilleure
compréhension de la dynamique du processus, il faut bien distinguer trois
familles d'éléments : les fonctions de co - soit Q f(co) et ^ ,(00) - les
paramètres exogènes réels nk [ et yk t, et enfin les ensembles Ak n qui ont le
premier rôle puisqu'ils résument toute l'histoire de l'unité k en terme
d'appartenance ou non aux échantillons successifs. Juste après une enquête t
on dispose de la fonction de charge cumulée rk fioS). On en tire la fonction
de coordination gk puis l'ensemble Ak r A ce stade, on peut donc
préciser la valeur de 1^ (co). A partir de Ak t et de Yk t, on obtient la
nouvelle charge cumulée puisque Vco : F^+i(co) = F^ ?(co) + Ykj - \Ak i (co).
7. Théorie des sondages 333

11 ft

^■k,t ^k,t

A partir des co^. fixés une fois pour toutes, on obtient (par avance si les
paramètres exogènes sont connus) la composition exacte de tous les
échantillons s[ puisque st ={/:|co/: g AmÎ- ^ant Q1100 enchaîne des tirages
coordonnés négativement (échantillons séparés ou premier tirage d'un panel),
si yk [ ne dépend pas de l'enquête alors les charges cumulées tendent à
s'uniformiser et ,(00) se rapproche d'une fonction constante. Sur longue
période, si les tirages sont coordonnés négativement, les différences de
charges (c'est-à-dire l'amplitude des variations de la fonction F^. ^(co))
restent bornées et même petites. En effet, si à un instant donné la charge d'une
unité k est plutôt faible (relativement aux autres unités), elle sera plus
vraisemblablement tirée, et donc sa charge augmentera. Si au contraire sa
charge est élevée, il se passera plus de temps avant qu'elle ne soit retirée, ce
qui permettra aux autres unités de la rattraper. On peut vérifier que pour toute
enquête t, lorsque f = y on a | F^ f(co,) - F^ ,((02) | < y, quels que soient

les réels co, et 0)2 dans [0, 1].


Si yk [ = y, la charge cumulée Fk f((o) possède toujours un ou deux
paliers. La situation où il y a un unique palier est la moins fréquente : elle
correspond à des configurations extrêmes revenant de manière périodique.
Lorsqu'il y a deux paliers, ils sont de niveaux respectifs X, • y et Çkt + 1) • y
où Xt est un entier qui augmente régulièrement avec le temps t. Dans ce cas,
il existe un seuil co^ , L tel que, soit nkt<\-(ùktL et Ak [ =
soit nk t>\-(ûk t L et AM=[0, tc^+co^-i] U
[a)A. l L, 1]. Dans le cas « dégénéré » où on tombe sur une fonction G(ol)) qui
n'a qu'un seul palier, alors G est identiquement nulle et gk ,(co) = co : on
revient à la situation initiale.
L'histoire d'une unité donnée au cours du temps dépend donc
fondamentalement des valeurs nk t, (x>k et yk t. Dans le cas particulier où
n
k,t= nk Pour tout t et Y/M = Y-t Pour tout L on Peilt ^a're ^a conjecture
suivante. Posant x = Inf {/? e | ^7 x Tiy. e A^}, le lissage parfait des charges
d'enquête s'effectue pour la première fois à l'enquête de rang x, et ensuite
régulièrement toutes les x enquêtes, selon un processus parfaitement
périodique. Après l'enquête x, toute unité de probabilité nk est incluse dans
exactement x x tc^ enquêtes. Prenons nk = 0,1, donc x = 10. L'unité est tirée
une fois, puis n'est pas tirée durant les 9 enquêtes suivantes, puis est tirée de
nouveau, etc. Au bout de 10 enquêtes exactement, toutes les unités de
probabilité 0,1 ont été retenues dans une enquête et une seule (charge
parfaitement lissée). Soit nk = 0,8, x = 5 : au bout de cinq enquêtes, toutes les
334 Pratique et méthodes de sondages

unités de probabilité 0,8 se trouvent dans exactement quatre enquêtes. On


montre aussi qu'à t = 2, toute unité ayant > 1 / 2 a été enquêtée au moins
une fois.

4. Résultats asymptotiques pour la

Méthode systématique de Deville

Guillaume CHAUVET7 et Jean-Claude DEVILLE 8

4.1 Notation et tirage systématique de Deville

Nous considérons une population finie d'individus U constituée de N unités


représentées par leurs labels N, avec les caractéristiques associées
y{\),y{k),... y(N). Un échantillon s est un sous-ensemble de U
sélectionné avec des probabilités d'inclusion n =[7r(l),..., 7r(Â:),... 7r(A^)]'. On
suppose sans perte de généralité que les probabilités d'inclusion vérifient
0 < n{k) < 1 pour chaque unité k eU, avec n = 'a ta^e
d'échantillon souhaitée. Soit
k
V(fc) = £>(/) VkeU,
i=i

avec 1/(0) = 0. Une unité k sera dite frontalière s'il existe un entier i tel que
V(k -!)</< V(k). Les unités frontalières sont notées kh i = - 1, et
pour toute unité frontalière kh on note ai = i - V{ki - 1) et /?, = V{kj) - \ .
En particulier, on a ()<«,,/?, <!. Une microstrate £/,,/ = 1, ..., n, est
l'ensemble des unités k ûq U telles que < k < kj, avec par convention
ko = 0 et k,, = N. Notons que les microstrates peuvent se chevaucher,
puisqu'une unité frontalière peut appartenir à deux microstrates adjacentes.
Pour toute microstrate U, , on note également

«, =[«;(*,•_]), •••>«,(£), -ajkj]',

avec afk) = si k = afk) = ai si k = ki et afk) = n(k) sinon. On


aZte£/,.c'iW = 1-
Nous nous intéressons à un plan de sondage particulier, appelé dans la
littérature tirage systématique de Deville (Deville, 1998 ; Tillé, 2006). Le
tirage systématique de Deville de paramètre n est défini dans
l'Algorithme 7.1. L'échantillon s est constitué des unités k telles que

7 École Nationale de la Statistique et de l'Analyse de l'Information.


Courriel : guillaume.chauvet@ensai.fr.
8 École Nationale de la Statistique et de l'Analyse de l'Information.
Courriel ; deville@ensai.fr.
7. Théorie des sondages 335

/, (/:) = 1 pour un entier i = 1, n. Il est obtenu par des tirages successifs de


taille 1 dans chaque microstrate, et le plan de sondage est donc de taille fixe
par construction. Les variables aléatoires w, sont générées de façon à ce
qu'une unité frontalière ne puisse pas être sélectionnée deux fois. Deville
(1998) montre que cet algorithme respecte exactement les probabilités
d'inclusion n et donne une formule explicite pour les probabilités d'inclusion
d'ordre deux.

Algorithme 7.1 : Sélection d'un


échantillon selon la méthode systématique de Deville
1. À l'étape 1
(a) On génère une variable aléatoire ii] selon une loi uniforme sur [0, 1].
(b) Pour toute unité k de t/, on pose /,(£) = 1 si V(& - 1) < Mj < V(k), et
I\{k) = 0 sinon.

2. À l'étape i
(a) On génère une variable aléatoire Uj :
(i) si l'unité £,•_] a été tirée à l'étape i - 1, selon une loi uniforme sur [/?,_], 1].
(ii) si l'unité &,_| n'a pas été tirée à l'étape / - 1, selon une loi uniforme sur
et
[0, /?z_|] avec une probabilité /(I - «/_i)(l - fy-iX selon
une loi uniforme sur [0, 1] sinon.
(b) Pour toute unité k de U, on pose /, (&) = 1 si
V{k - \) < Uj + (/ - 1) < V(k), et /,(&) = 0 sinon.

4.2 Procédure de sélection jointe

Dans le cas particulier où =0, / = 1, ...,n - 1, les microstrates sont non


chevauchantes et la méthode systématique de Deville est équivalente au tirage
stratifié de taille 1 dans chaque microstrate, avec les probabilités d'inclusion
n. Intuitivement, l'algorithme est proche d'un tirage stratifié si les
probabilités d'inclusion des unités frontalières sont faibles. Les échantillons
sélectionnés à l'aide de cet algorithme bénéficient alors d'un effet de
stratification, qui tend à réduire la variance si la variable d'intérêt est
positivement corrélée à la variable ordonnant la population.
Pour le montrer, une procédure de sélection conjointe de deux échantillons
est donnée dans l'Algorithme 7.2. Clairement, le vecteur aléatoire (iq, ..., w,,)'
obtenu dans cet algorithme possède la même distribution que le vecteur
obtenu dans l'Algorithme 7.1, et conduit donc également à la sélection d'un
échantillon selon la méthode systématique de Deville. Le vecteur aléatoire
(vj, v„y obtenu dans l'Algorithme 7.2 conduit à la sélection d'un
336 Pratique et méthodes de sondages

échantillon de type stratifié, avec des sélections indépendantes d'une


microstrate à l'autre, mais avec la possibilité de sélectionner deux fois dans
l'échantillon une unité frontalière. A chacune des étapes de l'algorithme, il
existe une très forte probabilité que le même aléa soit utilisé pour la sélection
des deux échantillons. En conséquence, les estimateurs correspondant à ces
deux échantillons seront proches.

Algorithme 7.2 : Sélection coordonnée d'un échantillon selon


la méthode systématique de Deville et d'un échantillon de type stratifié
1. À l'étape 1
(a) On génère une variable aléatoire w, = V| selon une loi uniforme sur [0, 1].
(b) Pour tout k de U, on pose I\ik) = J\(k) = 1 si - 1) < m, < V(k), et
/,(£) = J^k) = 0 sinon.

2. À l'étape i
(a) On génère une variable aléatoire vy
(b) Pour toute unité k de U, on pose Jjik) = 1 si
V(k -1) < v,- + (i - 1) < V{k), et J^k) = 0 sinon.
(c) On génère une variable aléatoire Uj :
(i) si l'unité a été tirée à l'étape i - 1, selon une loi uniforme sur [/?,_!, 1].
(ii) si l'unité £,_] n'a pas été tirée à l'étape i — 1, selon une loi uniforme sur
[0, /?,_]] avec une probabilité ai_]bi_l/(1 - «,_])(! - bj_]), et en
prenant Uj = v,- sinon.
(d) Pour toute unité k de U, on pose /, (/:) = 1 si
V{k - \) < ui + (/ - 1) < V{k), et /,(/:) = 0 sinon.

On note

/=U6t/: i= \

et

1=1

On montre facilement que E(Y{sd)) = E{Y(st)) = Y, où £"(.) désigne


l'espérance sous le mécanisme d'échantillonnage associé à l'Algorithme 7.2.
D'autre part, en raison de l'indépendance des (v,, ..., v„)', on a

v(y(î") = =tvi,
7. Théorie des sondages 337

où V/(.) désigne la variance sous le mécanisme d'échantillonnage.

4.3 Résultat obtenu

Nous considérons une suite d'expériences obtenues de la façon suivante.


Nous supposons l'existence d'une suite de plans de sondage permettant de
sélectionner des échantillons sN de taille nN dans des populations UN, avec
nN —> co quand W —> co.
Pour simplifier, l'indice N est omis dans ce qui suit. Nous faisons
également les hypothèses suivantes :
Cl.max,.[7c(fc,)] = 0{n~U2).

y^)
Cl: — Y; Cl; m. -Y:
Tiiki) l/2
C2. max,- =0{n ) et max,- = 0{n-V2).
V: v;

La condition Cl signifie que les probabilités d'inclusion des unités


frontalières deviennent négligeables quand la taille d'échantillon devient
grande. La condition C2 garantit que la variance associée aux unités
frontalières est arbitrairement faible, pour les tirages associés à chacune des
microstrates. Notons que ces conditions ne portent que sur les unités
frontalières ; en particulier, aucune contrainte n'est imposée pour les
probabilités d'inclusion des unités non frontalières.
Proposition : Sous les conditions C1 et C2, on a :
£.j- j?(.vi/) _ j/(v) j2
y[j/(v)] N^>co *

En utilisant une remarque de Hajek (1960), on en déduit que F('u/) et F(s/>


ont les mêmes propriétés en termes de variance et de lois limites. Comme
F<s/) est une somme de variables aléatoires indépendantes, sa variance
s'obtient facilement et sa normalité asymptotique peut être obtenue sous une
condition de type Lindeberg.

BIBLIOGRAPHIE

Deville, J.-C. (1998). Une nouvelle (encore une !) méthode de tirage à


probabilités inégales. Rapport Technique, Insee.
Hajek, J. (1960). Limiting distributions in simple random sampling from a
finite population. Publications of the Mathematical Institute of the
Hungarian Academy of Sciences, 5, 361-374.
Tillé, Y. (2006). Sampling Algorithms. New-York : John Wiley & Sons, Inc.
338 Pratique et méthodes de sondages

5. Tirage systématique des Zones de

Dénombrement avec le logiciel R

Francis BATOMEN9 et Justin KAMENI10

L'Institut National de la Statistique (1NS) du Cameroun réalise des enquêtes


par sondage pour la plupart des collectes de données qu'il effectue, vu le coût
élevé des recensements. Pour les enquêtes auprès des ménages, ceux
interviewés sont choisis dans les Zones de Dénombrement (ZD)
échantillonnées. Le tirage systématique est retenu pour le choix des ZD car il
permet d'assurer l'éparpillement de l'échantillonnage des ménages dans une
région d'enquête.
Le logiciel R est libre et offre un environnement de programmation, donc
d'automatisation des opérations. Cet article propose ainsi une fonction R
permettant d'effectuer soit le tirage séquentiel des ZD échantillon, soit le
tirage systématique proportionnellement à la population de la ZD. Cette
fonction a été testée sur la base de sondage issue de la cartographie du
Deuxième Recensement Général de la Population et de l'Habitat (RGPH)
avec la répartition de l'échantillon de la Troisième Enquête Camerounaise
auprès des Ménages (ECAM3). Désormais, disposant de la base de sondage et
de la répartition de l'échantillon, TINS du Cameroun peut aisément effectuer
le tirage des ZD sous R pour une enquête auprès des ménages.

5.1 Introduction

L'une des missions de TINS du Cameroun est de rendre disponibles les


données et les indicateurs statistiques nécessaires à la gestion économique et
sociale du pays. À ce titre, il doit collecter et analyser les données relatives à
la situation socio-économique (pauvreté, chômage, etc.) à travers des études
et enquêtes auprès des ménages. Compte tenu du coût élevé du recensement
qui consiste à interviewer chaque individu de la population cible (Grais,
2000), la collecte des données auprès d'un échantillon de cette population
cible s'impose, il s'agit de l'enquête par sondage. Il est nécessaire de retenir
la méthode de sondage devant assurer la représentativité de l'échantillon.
Pour la plupart de ses enquêtes comme les Enquêtes Camerounaises auprès
des ménages (ECAM1, ECAM2, ECAM3), les Enquêtes sur l'Emploi et le
Secteur Informel (EESI1, EES12), l'Enquête Démographique Santé (EDS),

9 Département des Statistiques Démographiques et Sociales de l'Institut National de la


Statistique du Cameroun. B.P. I34 Yaoundé, Cameroun. Courriel : fbatomen@yahoo.fr.
10 Ministère de l'Énergie et de l'Eau. B.P. 70 Yaoundé, Cameroun.
Courriel : just_kam2001@yahoo.fr.
7. Théorie des sondages 339

TINS obtient du Bureau Central des Recensements et des Études de


Population (BUCREP) la base de sondage constituée de la liste des ZD. Pour
ces enquêtes d'envergure nationale, le plan de sondage retenu peut être de
type aléatoire stratifié à deux ou trois degrés suivant le phénomène
principalement étudié. Ce travail s'intéresse au choix des ZD échantillon qui
intervient le plus souvent au premier degré.
A l'INS, le tirage systématique des ZD est effectué dans une feuille de
calcul Excel, ce qui rend l'opération longue et fastidieuse vu le nombre élevé
de ZD dans la base de sondage. De surcroît, la prise en compte de l'évolution
de la base de sondage n'est pas aisée. L'automatisation de cette opération
s'avère ainsi nécessaire. L'objet de cet article est donc de proposer des
fonctions R devant permettre à l'INS d'effectuer le tirage systématique des
ZD, quelle que soit l'évolution de la base de sondage, et aussi de simuler
plusieurs tirages.

5.2 Base de sondage

La base de sondage obtenue du BUCREP est la liste des ZD qui sont des
portions habitables du territoire national. A partir des dix régions que compte
le Cameroun, l'INS constitue douze régions d'enquête. Les deux métropoles
Douala et Yaoundé constituent des régions d'enquête à part entière et sont
considérées comme des strates urbaines. Quant aux dix autres régions
d'enquête, elles sont subdivisées en trois strates chacune, à savoir la strate
urbaine, la strate semi-urbaine et la strate rurale.

5.3 Algorithme du tirage systématique des ZD

Le tirage systématique des ZD se fait proportionnellement à la population de


la ZD (en nombre de personnes), information toujours disponible dans la base
de sondage pour chaque ZD. Ainsi, dans une strate donnée, le pas du tirage
est égal au cumul de la population de ses ZD divisé par la taille de
l'échantillon. L'algorithme du tirage dans une strate est donc :
1. Calculer progressivement le cumul de la population: les ZD de la
strate étant classées suivant leur contigûité, pour chaque ligne,
calculer l'effectif cumulé de la population des ZD qui la précédent, y
compris elle-même ;
2. Calculer le pas du tirage : diviser la population totale de la strate par
la taille de l'échantillon dans la strate ;
3. Pour le tirage de la première ZD : choisir de façon aléatoire un
nombre compris entre 1 et la partie entière du pas et puis identifier le
rang de cette première ZD. Pour cela, parcourir la colonne du cumul
de la population et identifier le rang de la ZD pour laquelle l'effectif
cumulé est supérieur ou égal au nombre aléatoire tiré ;
340 Pratique et méthodes de sondages

4. Pour les n - 1 ZD restantes, combiner la règle générale de tirage


systématique et la méthode de détermination de rang ci-dessus.

5.4 Implémentation sous R

L'environnement R offre d'excellentes fonctions pour effectuer le tirage


aléatoire et la simulation. La fonction sample permet de sélectionner de façon
aléatoire un nombre dans une plage spécifiée en entrée. Quant à la fonction
set.seed, elle permet d'initialiser le générateur de nombres aléatoires.
La mise en application du tirage systématique sous R passe par une
décomposition de l'opération. Une fonction Décision détermine le rang de la
ZD à sélectionner pour une valeur donnée de l'effectif cumulé de la
population. Une fonction Tirage Un effectue le tirage systématique
proportionnellement à la population de la ZD pour une strate donnée. Une
autre fonction de tirage systématique simple a été proposée (TirageSeq). Elle
permet aussi d'effectuer le tirage non proportionnel dans une seule strate.
Par appel de ces différentes fonctions, on effectue le tirage systématique des
ZD dans chaque strate de chaque région d'enquête. Il est nécessaire de
rappeler que dans chaque région d'enquête, le tirage est indépendant entre les
strates. Pour effectuer le tirage des ZD, l'INS peut désormais utiliser la
fonction TirageSystem. Pour l'appel de cette fonction, quatre informations
sont indispensables :
a) La liste des ZD (argument Base de la fonction TirageSystem) : il
s'agit d'un dataframe (structure de données sous R se présentant
comme un tableau) devant contenir les différentes colonnes
suivantes :
- la région d'enquête (argument Région) ;
- l'arrondissement (argument Arrond) ;
- la strate (argument Strate). Cette colonne peut prendre trois
valeurs, l pour la strate urbaine, 2 pour la strate semi-urbaine et 3
pour la strate rurale ;
- la population de chaque ZD (argument Pop) ;
- le numéro RGPH de la ZD (argument NumRGPH).

b) La répartition de l'échantillon par strate et selon la région d'enquête :


il s'agit d'un dataframe (argument REPART) devant contenir les
différentes colonnes suivantes :
- la région d'enquête (argument REG) ;
- le nombre de ZD à tirer dans la strate urbaine (argument
NBJJRB) ;
7. Théorie des sondages 341

- le nombre de ZD à tirer dans la strate semi-urbaine (argument


NB_SUR) ;
- le nombre de ZD à tirer dans la strate rurale (argument NB_RUR).

c) Le choix du type de tirage : il s'agit de l'argument proporîional


prenant la valeur TRUE si le tirage est proportionnel à la population
de la ZD et FALSE sinon (tirage séquentiel).
d) La valeur d'initialisation du générateur de nombres aléatoires
(argument seed). La valeur par défaut est 123.

La fonction TirageSysîem fournit en sortie la liste des ZD qui ont été


sélectionnées (lignes de la base de sondage initiale) dans un dataframe.

5.5 Conclusion

La fonction finale de tirage systématique TirageSysîem a été testée sur la base


de sondage issue de la cartographie du deuxième RGPH. Elle permet de tirer
plusieurs échantillons suivant les valeurs initiales du générateur de nombres
aléatoires. L'un des avantages de cette fonction est le fait qu'elle s'exécute
avec les librairies par défaut de R.

BIBLIOGRAPHIE

Ardilly, P. (1994). Les techniques de sondage. Éditions TECHNIP, Paris.


Grais, B. (2000). Méthodes statistiques Techniques statistiques. Troisième
Édition, Dunod, Paris, France.
Institut National de la Statistique (2001). Deuxième enquête camerounaise
auprès des ménages (ECAM2). Document de méthodologies. Tome 1.
Méthodologie générale.
Institut National de la Statistique (2001). Deuxième enquête camerounaise
auprès des ménages {ECAM2). Document de méthodologies. Tome 2.
Cartographie et dénombrement.
Institut National de la Statistique (2005). Enquête sur l'Emploi et le Secteur
Informel (EES[). Document de méthodologie.
Institut National de la Statistique (2007). Troisième enquête camerounaise
auprès des ménages (ECAM3). Document de méthodologie générale.
Paradis, E. (2005). R pour les débutants. Institut des Sciences de l'Évolution.
Université Montpellier II, France.
R Development Core Team (2008). R: A language and environmenî for
statistical Computing. R Foundation for Statistical Computing, Vienna,
Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
342 Pratique et méthodes de sondages

Tillé, Y. (2001). Théorie des sondages Échantillonnage et estimation en


populations finies. Dunod, Paris, France.

6. Estimation de la variance dans le cas

d'un tirage systématique d'unités

primaires avec remise

11 12
Jean-Marie DAWAGNE et Robert MILANO

6.1 Le contexte de cette étude

A l'Institut National de Statistiques (INS) de Belgique, le plan de sondage


généralement utilisé pour les enquêtes par enquêteur auprès des ménages est
un tirage à deux ou trois degrés.
Au premier degré, les unités primaires (UP) tirées sont des unités
géographiques (communes ou partie de communes) :
- l'univers est généralement stratifié par région ou par province ;
- le tirage est un tirage systématique (SYS), proportionnel à la taille
des communes, avec remise ;
- à chaque tirage d'une UP correspond un groupe confié à un
enquêteur ;
- une même unité géographique de grande taille peut être sélectionnée
plusieurs fois : autant de groupes sont alors constitués.

Au second degré, on sélectionne les ménages (US) : chaque groupe


comprend un nombre fixe de ménages. Chaque membre du ménage est
interrogé.
Ce tirage systématique avec remise présente deux avantages :
1. La taille des groupes est fixe, ce qui simplifie la gestion des
enquêteurs.
2. On peut montrer que le plan est autopondéré, chaque ménage ayant,
par province, la même probabilité d'être tiré.

Or, il n'existe pour ce plan de sondage aucun estimateur non biaisé de la


variance. L'objectif de cette étude est d'évaluer, dans une situation proche de
la réalité du terrain, le meilleur estimateur de la variance parmi les options

11 Institut National de Statistiques, Belgique.


Courriel : jean-marie.dawagne@economie.fgov.be.
12 Institut National de Statistiques, Belgique. Courriel ; robert.milano@economie.fgov.be.
7. Théorie des sondages 343

qu'offre la macro POULPE développée par l'Institut national de la statistique


et des études économiques (Insee) de France et utilisée depuis peu par FINS.
Pour ce faire, on part d'un univers connu, dont on connait totaux et
proportions. On tire 500 échantillons dans cet univers. Pour chacun d'eux, on
estime le paramètre recherché {Total, Taux, Seuil). La variance de ces
différents estimateurs est ensuite calculée à l'aide de la macro POULPE, ceci
selon cinq approches différentes. On calcule aussi la « vraie » variance de
chacun de ces estimateurs sur base des 500 échantillons, variance ensuite
comparée aux variances estimées via POULPE.

6.2 Étapes de l'étude

6.2.1 Base de sondage et plan de sondage

Fichier initial : toutes les déclarations nationales à VImpôt sur les Personnes
Physiques (IPP) de l'année 2007 (±11 M d'individus), contenant les variables
identifiant les provinces, communes, ménages, âges, genres et revenus.
Le plan de sondage comporte deux degrés. Premier degré : par province, on
trie la base de sondage sur le revenu moyen de la commune. Ensuite, tirage
systématique - stratifié par province - de 275 communes avec remise, tirage
proportionnel à la taille (PPT) de la commune (= #ménages/commune). Pour
chacune des 11 provinces, le nombre de communes tirées est fixé a priori.
Second degré : dans chaque commune tirée, on sélectionne un groupe de 40
ménages par sondage aléatoire simple (SAS) (#ménages = 275*40 = 11 000).
Finalement : tous les membres du ménage sont interrogés.
On veut estimer la variance des estimateurs suivants : Seuil de pauvreté
(l arpt = 60 % de la médiane), Total des pauvres, Taux de pauvreté (l arpr),
Total des « actifs occupés » (BIT1), Total des « chômeurs » (BIT2), Total des
« inactifs » (BITS). POULPE est donc testé sur des totaux et proportions.
Notation : En général, la notation suit celle de Sàrndal, Swensson et
Wretman (1992). Mi =taille de l'UP i ; M = ^iMi ;m =nombre de tirages
d'UP, qui correspond à la taille d'échantillon (avec doublons) au premier
degré ; /V, = nombre de ménages dans l'UP i ; N = X, U' =40 = nombre
de ménages à tirer dans une UP sélectionnée dans un tirage v donné ;
nt = nombre total de ménages tirés dans l'UP i, étant donné que l'UP peut être
tirée plus d'une fois ; nT = X'JLi'V

6.2.2 Estimation de la variance sur les échantillons

Il n'existe pas d'estimateur non biaisé de la variance, car le tirage au premier


degré est systématique : les probabilités d'inclusion doubles sont donc nulles
pour un grand nombre de combinaisons d'UP. On va donc rechercher des
estimateurs alternatifs - selon cinq approches distinctes - de la variance,
344 Pratique et méthodes de sondages

calculables par POULPE, et tester sur un exemple proche de la réalité la


qualité des estimations qu'ils fournissent.

a) Approche SAS

Les probabilités de tirage des US étant constantes par strate, un premier


estimateur de la variance de l'estimateur fHT de Horvitz-Thompson (HT) -
simple, mais probablement inadapté - serait de considérer le tirage comme un
SAS sans remise. L'estimateur est alors :

N'
^i(h-rr) - 1 - ys-
N

L'estimation est directe, modélisant le plan de sondage comme étant un


SAS dans l'univers des ménages.

b) Approche PPT avec remise (CLU)

Si on se place dans la perspective du tirage PPT avec remise, on obtient


m
t; \ HL M a;. !!L— 1 M V. p
f = _L y _â_ - _L Y M y yk _ y Y ^ ^ = Y yk
_ ^ m ^ ^ Il ^^_ A// _// 4L M; .//
™ v=i PL v=i Miv , Tik v=im M ■ n; 71,

où Pj =Mi /M est la probabilité que TUP i soit tirée lors du tirage v. Ceci
suggère l'estimateur de la variance suivant (Sâmdal et coll., 1992, page 151) :

1
V(f) = -X -1 (1)
m(m - l)v=i
Pi.

Les conditions d'utilisation de cet estimateur ne sont pas tout à fait


remplies. En effet, dans un tirage PPT avec remise, les UP successives sont
tirées indépendamment les unes des autres. Dans le cas du tirage SYSPPT, ce
n'est clairement pas le cas. L'estimateur de la variance est donc biaisé.
L'estimation de la variance utilise ici la méthode « ulîimate cluster ».

c) Approche tirage à deux degrés, sans remise (SUP)

POULPE n'offre pas l'option d'estimer la variance de SYSPPT. Dans ce cas,


la documentation de POULPE suggère d'utiliser les formules du sondage
PPT. Cette option est intéressante, sauf pour les unités de grande taille, tirées
avec remise. Pour un SYS avec grandes unités, la littérature suggère de retirer
les unités de taille supérieure au pas P et de construire une strate pour chacune
de ces unités. Si on se place dans une perspective HT, tirage à deux degrés, on
7. Théorie des sondages 345

peut calculer les probabilités d'inclusion des UP et des US. Pour les UP, on
peut facilement montrer que la probabilité d'inclusion des UP vaut

, [Mf/P si M: < P
TC • —
[ 1 sinon, constituant la strate exhaustive.

Dans les unités de taille <P, on a n[l = n / et on peut considérer que


l'on travaille avec un plan de sondage à deux degrés, le premier proportionnel
à la taille (PPT), le second SAS de taille n. On ne tient cependant pas compte
du tri de la base de sondage. Pour les unités de taille <P, la situation est
moins claire. Cependant, on considère qu'elles sont chacune une strate à part
entière, où le tirage est un SAS de taille fixe /?, = n * m,-, où mi correspond au
nombre de tirages de l'UP i. On obtient assez facilement un estimateur de la
variance. Estimateur imparfait. D'abord, le nombre d'US sélectionnées dans
une UP de taille supérieure au pas prend deux valeurs :

Uj = n* U\ avec probabilité Pirij = « * m,) = R{M, ! P) ! P

Hj = n* ih avec probabilité P(/7/ = n* 112) = \ l ! P) ! P,

où m, et ih sont les deux valeurs possibles pour le nombre de sélections pour


l'UP i et R( ) est le reste de l'argument. Il est donc abusif de considérer qu'il
s'agit d'un SAS de taille fixe. Ensuite, parler de stratification implique
l'indépendance des sondages entre strates. Or, dans ce plan de sondage, la
taille de l'échantillon dans une UP dépend de la taille de l'échantillon dans les
autres UP. L'utilisation de l'estimateur pour plan stratifié n'est donc pas non
plus tout à fait pertinente. Enfin, le poids de sondage n / P des US est en
réalité constant par strate. Or, dans les unités de grande taille, le poids de
sondage ici vaudrait Kk = nj n1/ = l* nmi / M i valeur différente de n ! P,
sauf si la taille de l'UP est un multiple du pas.

d) Approche SAS par groupe (SAG)

De manière un peu simplifiée, on peut considérer que notre plan de sondage


consiste à découper l'univers en groupes de taille P, et dans chaque groupe
tirer un échantillon de taille fixe n. C'est exactement le cas si l'UP est de
taille P. Ceci néglige la division de chacune de ces tranches en UP de tailles
< P. Comme les UP sont triées sur une variable en principe corrélée avec les
variables d'intérêt, on peut espérer que les UP sont suffisamment homogènes
pour que cette approximation ne soit pas trop lâche. On considère donc que
l'univers est divisé en strates de tailles P, et que l'on tire un SAS de taille n
dans chaque strate.
346 Pratique et méthodes de sondages

e) Approche SYS sur ménages (SYS)

On effectue un tirage systématique directement dans le fichier des ménages


stratifié selon les provinces et trié selon les communes et les revenus moyens
des ménages. Dans POULPE, on utilise alors l'option SYS.

6.2.3 Mise en œuvre dans POULPE

Remarque : pour chaque échantillon, on doit linéariser le taux et le seuil (de


pauvreté) avant de recourir à POULPE (Deville, 1999). Pour trois des
estimateurs étudiés (un taux, un total, un seuil), le box-plot des 500 variances
estimées figure 7.6, ceci pour chacune des cinq approches :

Figure 7.6 : Les box-plot des 500 variances estimées


9.5E-C5 5.8E+09 13400
9.1E-05 5.6E+09 Ftl 129C0
8.7E-05 5.<tEt09 2400
5.2E+09 içrr
B.it-05
5.0E+09 MCI
7.3E-05 0900
7.5E-05 r 4.SE+09
ic-iu:
4.6Et09 99:,'
L 7,)E-C5 P 4.4Ef09
3 6,71-05 94:::
5 4.2E+09 eçcc
£o 4.0E+09 E4CC
i|5,3E-D5 e9C0
t Î.8E+09
O5.5E-05 >3,61109 ,Mff
L
55,11-05 s3.4EtQ9
0 [ 6400
j; 4,7E-05 j E 3.21+09
Î4,J£-D5- ^.ûE+og 5900
94n-
Î.3E-S5 2.9Ei09
49'
3.51-05 2.6E109 4!CC
0
3.1E-3S; 2.4E+09 .:9CC
2.71-05; 2.21+09 ;4ii
:: E
2.JE-05; 2.0E+09 24,:,: Univart
1.21-05 jnlyirs I.8E109 Ur vers t 24m'
1.6Et09 14,::
1,5E-05' 30 P :ag 2-s C-U SJP SAG srs
SiS 2JJ 3UP SAG STS

6.2.4 Qualité des différentes estimations de la variance

La qualité des cinq estimations de la variance peut être évaluée selon


plusieurs critères. Nous avons retenu : le biais, l'erreur quadratique moyenne
(EQM) et vérifié si l'intervalle de confiance à 95 % couvre suffisamment bien
la vraie valeur du paramètre. Pour les variances des six estimateurs, on a :
7. Théorie des sondages 347

Tableau 7.2 : Biais et EQM des


cinq différentes estimations de la variance
BIAIS Actifs occup Chômeurs lot inactifs Seuil pauvre Taux pauvre Tôt pauvre

GLU 8,08E+08 3,25E+07 1,41 E+09 1 386,6 1,86E-05 1,20E+09

SAG -2,09E+07 -1,00E+07 -1,22E+08 -57,3 8,84E-06 3,11 E+08

SAS 3,72E+09 4,51 E+08 8,87E+09 6 150,5 5,94E-05 5,25E+09

SUR 2,08E+08 5,01E+06 7,65E+07 337,8 1,10E-05 4,50E+08

SYS 1,57E+09 3,97E+08 4,74E+09 2 194,8 4,85E-05 3,38E+09


EQM
GLU 7,0439E+17 1,9501 E+15 2,3261 E+18 2 452 556,6 3,5835E-10 1,5683E+18

SAG 9,0220E+14 1,9783E+14 2,6792E+16 154 743,5 8,0337E-11 1,1146E+17

SAS 1,3824E+19 2,0437E+17 7,8804E+19 39251 092,4 3,5508E-09 2,7743E+19

SUR 5,7406E+16 3,4242E+14 8,0417E+16 370911,5 1,2538E-10 2,3415E+17

SYS 2,4564E+18 1,5806E+17 2,2532E+19 5272231,0 2,3754E-09 1,1542E+19


2
Biais et EQM (biais +var) des cinq différentes estimations da la variance.

Figure 7.7 : L'estimation de la variance


obtenue avec POULPE selon les cinq approches
% recouvremerit SOO int conf «5%
1 oo.o
99.5
99.0
98.5
98.0
97.5
97.0
96.5
96.0
95.5
95.0
94.5
94.0
93.5 i r
1 r
OLU SAG SAS SUR SYS
Approche estimation variance dans POULPE
stat ^ bit1 bit2 -f- bit3
I arpr H I arpt tôt pauvr
348 Pratique et méthodes de sondages

6.3 Conclusions (provisoires)

Dans cette étude, POULPE a été utilisé selon cinq approches. Il ressort que :
1. Ces cinq approches livrent des estimateurs des différentes variances
(totaux et seuils) biaisés. L'approche « SAS Groupes » est
généralement la moins biaisée (biais important pour Taux Pauvreté).
2. L'approche « SAS Groupes » a l'EQM le moins élevé pour tous les
estimateurs étudiés.
3. Pour l'estimation de totaux et de seuils, l'approche « SAS Groupes »
livre généralement les variances estimées les plus petites. Raison
pour laquelle les intervalles de confiance à 95 % dans ce cas
recouvrent moins fréquemment la « vraie valeur » des paramètres.
4. La dispersion des 500 variances estimées sur les 500 échantillons
tirés est elle aussi la plus faible dans l'approche « SAS Groupes ».

L'approche « SAS Groupes » est la meilleure des cinq approches étudiées.


D'autres approches et d'autres estimateurs seront prochainement étudiés, dans
l'espoir de dégager des estimations de variances moins biaisés que celles
obtenues ici. Question : vaut-il la peine de développer un nouveau module
dans POULPE intégrant les tirages SYS PPS ? Peut-on s'attendre à un gain de
précision justifiant cet effort, sachant que l'estimateur de la variance est
forcément biaisé ?

BIBLIOGRAPHIE

Sârndal, C.-E., Swensson, B. et Wretman, J. (1992). Model Assisted Survey


Sampling, Springer-Verlag.
Deville, J.-C. (1999). Estimation de variance pour des statistiques est des
estimateurs complexes : linéarisation et techniques des résidus. Techniques
d'enquête, Statistique Canada, 25, n02, 2 1 9-23 0.
7. Théorie des sondages 349

7. Progrès récents en matière d'estimation

sur petits domaines à Statistique

Canada

13
Michel A. HIDIROGLOU

7.1 Introduction

L'expression petit domaine fait référence à une population pour laquelle on ne


peut produire des statistiques d'intérêt fiables à cause de certaines limites des
données disponibles. Une région géographique (par exemple une province, un
comté ou une municipalité), un groupe démographique (par exemple un
groupe d'âge selon le sexe) ou un groupe démographique à l'intérieur d'une
région géographique sont des exemples de domaines. La demande de données
sur les petits domaines a augmenté considérablement ces dernières années.
Cette demande, qui se reflète dans la plupart des enquêtes auprès des
entreprises et des ménages, ne peut être satisfaite en appliquant les méthodes
d'estimation directe par domaine, car en raison des petites tailles
d'échantillon réalisées pour les petits domaines, la fiabilité de ces estimations
est insuffisante. Il importe donc d'étudier d'autres moyens de produire des
estimations sur petits domaines, en s'appuyant sur des données auxiliaires
bien corrélées avec les variables d'intérêt et disponibles pour les petits
domaines d'intérêt. L'étude des méthodes d'estimation sur petits domaines ne
date pas d'hier à Statistique Canada, ayant débuté durant les années 70 avec
les travaux de Singh et Tessier (1975). Drew, Singh et Choudhry (1982) ont
proposé une méthode dépendante de l'échantillon qui a été utilisée pour
produire des estimations sur petits domaines de l'emploi et d'autres
statistiques de l'emploi au niveau infraprovincial. Dick (1995) a modélisé le
sous-dénombrement net au Recensement canadien de 1991. Récemment, You
(2008) a effectué plusieurs études portant sur l'Enquête sur la population
active du Canada en vue d'examiner les avantages associés à l'utilisation d'un
certain nombre de méthodes d'estimation sur petits domaines. L'élaboration
de méthodes d'estimation sur petits domaines adaptées aux enquêtes de
Statistique Canada tombe à point nommé, car il existe maintenant une
littérature abondante sur le sujet, dont le livre de Rao (2003).
Le plan de l'article est le suivant. À la section 7.2, nous résumons
brièvement différents types de méthodes d'estimation sur petits domaines. A
la section 7.3, nous décrivons la méthodologie permettant de développer un
système flexible pour l'estimation sur petits domaines. À la section 7.4, nous

13 Division de la recherche et de l'innovation en statistique, Statistique Canada.


Courriel : mike.hidiroglou@statcan.gc.ca.
350 Pratique et méthodes de sondages

illustrons comment les méthodes d'estimation sur petits domaines peuvent


être appliquées par la voie de l'Enquête sur la participation et les limitations
d'activités. A la section 7.5, nous concluons l'article.

7.2 Méthodes d'estimation sur petits domaines

Une population étudiée U est constituée de N éléments distincts (ou unités


finales) identifiés au moyen des étiquettes j = 1, ..., N. Un échantillon s est
sélectionné dans U avec la probabilité p{s), et la probabilité d'inclusion du
je élément dans l'échantillon est jCy. Le poids de sondage de chaque unité
sélectionnée j e s est défini comme étant Wj = l / n ^ Supposons que U,
désigne un domaine (ou sous population) d'intérêt, i = 1, ..., M. Désignons par
Sj = s n Uj la partie de l'échantillon s qui tombe dans le domaine U,-. La
taille d'échantillon réalisé de Sj est une variable aléatoire où 0 < n,- < A,.
Le nombre de petits domaines où est strictement plus grande que 0 sera
désigné par m, où m < M.
if M• • 7* ••
Les données auxiliaires Zj = (zy,, Zjp) utilisées pour l'estimation sur
petits domaines seront connues soit au niveau de l'élément pour chaque
j g U, soit sous forme de totaux Zy ou de moyennes
Zj = Z^/Nj, pour chaque petit domaine i = 1, ..., lil. Le poids final associé
à l'unité j est désigné par n'y : ce poids sera normalement égal au produit du
poids de sondage original et d'un facteur de correction qui reflète l'intégration
de données auxiliaires (par la régression ou par calage), ainsi que la non-
réponse. Notons que les données auxiliaires x utilisées dans le facteur de
correction peuvent différer celles utilisées pour l'estimation sur petits
domaines. Le problème habituel dans l'estimation sur petits domaines
011
consiste à estimer le total de domaine Yj =X/et/.>'/ moyenne de
domaine ^ = Yj/Nj, où A,, le nombre d'éléments dans Uj, peut être connu
ou non. Nous définissons y,-y comme étant égal à y j si j g Uj, et à 0
autrement. Nous définissons de la même façon une variable indicatrice :
elle est égale à 1 si j g Uj et à 0 autrement. Le total du petit domaine Yj peut
également s'écrire sous la forme Yj =X /et/ Yij =X7€(/ yjair
L'estimation des paramètres de population peut être directe ou indirecte.
Un estimateur direct utilise les valeurs de la variable d'intérêt, y, uniquement
pour les unités de l'échantillon se trouvant dans le domaine d'intérêt.
Toutefois, un inconvénient important de ce genre d'estimateurs est qu'ils
peuvent produire des erreurs types inacceptablement grandes, surtout si la
taille d'échantillon dans le domaine est petite ou nulle. L'estimateur direct est
donné par Yj DIR= ù^yy Les facteurs de correction qui font partie du
poids final peuvent être calculés pour des sous-ensembles de la population
qui varient du domaine d'intérêt U/ à la population U. La moyenne
correspondante est Yi DIR = Yi DIR/Ni DIR, où Ni D[R =
7. Théorie des sondages 351

Un estimateur indirect (Yj [NDIr ou Yj /nd/r) emprunte de l'information aux


divers petits domaines par modélisation des variables dépendantes en fonction
des variables indépendantes sur un certain nombre de petits domaines. Les
estimateurs indirects donnent d'assez bons résultats (c'est-à-dire accroissent
indirectement la taille effective de l'échantillon et, donc, diminuent l'erreur
type) si les modèles obtenus sur l'ensemble des petits domaines tiennent
encore au niveau du petit domaine en question. Les écarts par rapport au
modèle donneront lieu à des biais de grandeur inconnue. L'estimateur indirect
le plus simple est Vestimateur synthétique. Il utilise l'information fiable d'un
estimateur direct pour un grand domaine englobant plusieurs petits domaines,
et cette information sert à obtenir un estimateur indirect pour un petit
domaine. L'une des hypothèses associées à l'estimateur synthétique est que
les relations sur l'ensemble des petits domaines sont vérifiées pour les petits
domaines individuels. Si cette hypothèse est fausse, l'estimateur synthétique
peut présenter un biais assez important. Pour atténuer le biais éventuellement
associé aux estimateurs synthétiques Yi SYN, on peut les combiner à des
estimateurs directs ^ D//? en calculant une moyenne pondérée. L'estimateur
composite résultant est donné par Yi SAE = DIR + (1 - y,) Yi Syn où
0 < Yj- < 1.
Dans les premières versions de ^ SAF (voir Schaible (1978), par exemple),
un yi optimal était obtenu en minimisant l'erreur quadratique moyenne
(EQM) de Y-, SAE. L'estimateur composite résultant avait une erreur quadratique
moyenne plus faible que celle de n'importe laquelle de ses composantes. Un
inconvénient de cet estimateur est qu'il dépend de quantités de population
inconnues.
Il existe deux types d'estimateurs sur petits domaines qui dépendent de la
façon dont les modèles sont appliqués aux données : les estimateurs au niveau
du domaine et les estimateurs au niveau de Vunité. Les estimateurs au niveau
du domaine sont dérivés de modèles spécifiés au niveau du domaine, quand
les observations sont des estimations de domaine d'une variable étudiée
fondées sur des données d'enquête (Fay et Herriot, 1979). Les estimateurs au
niveau de l'unité sont dérivés de modèles dans lesquels les observations sont
les unités de l'échantillon d'enquête étudiées (Battese, Harter et Fuller, 1988).
Pour les estimations sur petits domaines baséesy sur des données au niveau
• • T — '
du domaine, les observations sont (0,, Z, ), où 0, = g(Yi DIR) représente les
variables d'intérêt pour une certaine fonction g(») spécifiée et Zf
représente le vecteur de données auxiliaires de dimension p disponible pour
chaque petit domaine i = 1, ..., M. Les 0,- sont habituellement des moyennes
ou des totaux. L'estimateur direct correspondant est Qi DjR = Yj D/R. Pour les
estimations sur petits domaines basées sur des données au niveau de l'unité,
T •• r * T
les observations sont (y7-, Zy), où les yj sont les variables d'intérêt et Zj est
le vecteur de variables auxiliaires de dimension p disponible pour chaque
observation j = 1, ..., N, où N =
352 Pratique et méthodes de sondages

7.3 Vers un système flexible d'estimation sur


petits domaines

La théorie statistique de l'estimation sur petits domaines fondée sur un


modèle est assez complexe et, souvent, les logiciels dont disposent les
instituts nationaux de statistique ne conviennent pas pour effectuer les calculs
nécessaires de façon simple dans un environnement de production. Par
conséquent, le développement d'un système flexible d'estimation sur petits
domaines devrait être avantageux à la fois comme système de production et
comme outil d'apprentissage des méthodes d'estimation sur petits domaines.
Les procédures d'estimation sur petits domaines peuvent aussi être
programmées de manière ponctuelle. Toutefois, pour développer ce genre de
programmes personnalisés, il faut connaître les méthodes d'estimation sur
petits domaines, ainsi que la programmation. Par conséquent, nous avons
entrepris de développer un système flexible d'estimation sur petits domaines
qui permettra de commencer à calculer ce genre d'estimations en production à
Statistique Canada. Un travail de développement comparable a eu lieu au
début des années 1990 dans le cas du Système généralisé d'estimation
(Estevao, Hidiroglou et Sàrndal, 1995). Les programmes informatiques
développés dans le cadre du projet EUR ARE A de 2004 constituent une
source importante de documentation et de code. Cependant, cet ensemble de
programmes n'est pas représentatif des progrès les plus récents dans le
domaine de l'estimation sur petits domaines et n'est plus en mode de
développement. A l'heure actuelle, Statistics Netherlands (Boonstra,
Van Den Brakel, Buelens, Krieg et Smeets, 2008) développe un système
flexible d'estimation sur petits domaines. Les exigences de base d'un tel
système incluent : la détermination du type de méthode utilisée (au niveau du
domaine ou au niveau de l'unité) ; l'intégration du plan d'échantillonnage
dans l'estimation des statistiques principales (estimation des paramètres
d'intérêt) et des statistiques secondaires (erreur quadratique moyenne) ; le
lissage des composantes intragroupe et intergroupes de la variance qui font
partie des procédures d'estimation sur petits domaines ; la confirmation que la
somme des estimations concorde avec des estimations fiables à un niveau
d'agrégation plus élevé (c'est-à-dire les totaux) ; et l'élaboration d'outils
diagnostics pour tester l'adéquation des modèles.
Un prototype a été construit récemment pour calculer des estimations sur
petits domaines en utilisant la méthode au niveau du domaine. Il comprend un
certain nombre de procédures pour estimer la variance sous le modèle. En
outre, il peut étalonner les estimations sur petits domaines de façon qu'elles
concordent avec des estimations directes fiables à un niveau d'agrégation plus
élevé. Les estimations au niveau du domaine 0/ SAE associées à un ensemble
de petits domaines Uj peuvent être étalonnées sur l'estimation directe
7. Théorie des sondages 353

M s e
Ydir = associée à U = U/=i^/ ' ^es sont
mutuellement
exclusives et exhaustives.
Le moyen le plus simple d'effectuer l'étalonnage consiste à inclure une
variable auxiliaire supplémentaire dans zk de sorte que la somme des
estimations sur petits domaines résultantes soit égale à Y. Il s'agit d'une
procédure en une étape dont l'avantage est que la fiabilité des estimations sur
petits domaines peut être calculée directement en utilisant la procédure de
l'erreur quadratique moyenne associée au modèle. La méthodologie requise
pour ce faire a été élaborée par Wang, Fuller et Qu (2008). Cette méthodologie a
été modifiée comme il convient par Hidiroglou (2008), et son élaboration a
été poursuivie par Estevao, You, Hidiroglou et Patak (2010) afin qu'elle
satisfasse aux exigences d'un système de production. Un autre moyen consiste à
utiliser une méthode de correction de la différence, qui est une procédure en
deux étapes. A la première étape, on calcule les 0( A la deuxième étape,
on modifie les SAE en ajoutant une correction appropriée de la différence
pour effectuer l'étalonnage. L'EQM de l'estimation étalonnée O,- ^^ est
rendue égale à l'EQM de l'estimation non étalonnée 0,- SAE. Les calculs
nécessaires pour l'étalonnage respectent deux conditions afin de s'assurer que
les totaux des petits domaines s'ajoutent au total global direct. Ces conditions
et traitements qui y correspondent
A
sont :
• • • 2 •
i. Une estimation 0/ D//? et la variance correspondante af- existent pour
tous les petits domaines. L'étalonnage est respecté en augmentant le
•t * T* T ?
vecteur auxiliaire Z,- = (Z,-, g, ).
/s 'y
ii. Une estimation 0, DIR et la variance correspondante a, n'existent pas
pour tous les petits domaines. L'étalonnage est respecté en utilisant la
correction de la différence

M
®i,SAE +a
i Y DIR X ^ j.SAE pour /=l,2,...,m
j=\ y
®i,bSAE ~ ' pour i=m + l,m + 2,...,M
0./, SAE

où 0 < oq < 1 pour i = 1, 2, ...m, et X/li01/ =

7.4 Exemple : Enquête sur la participation et les


limitations d'activités

L'enquête sur la participation et les limitations d'activités (EPLA) est une


enquête nationale qui recueille de l'information sur les adultes et les enfants
dont les activités quotidiennes sont limitées par un état ou un problème de
354 Pratique et méthodes de sondages

santé physique ou mentale ou par un autre problème de santé. L'EPLA


produit différentes statistiques sur les problèmes de santé aux niveaux
national, provincial et infraprovincial. L'EPLA de 2006 a utilisé le
Recensement de 2006 comme base de sondage pour identifier sa population
cible. Le questionnaire du Recensement de 2006 contenait deux questions
générales sur les limitations d'activités. L'échantillon de l'EPLA a été
sélectionné parmi les individus qui ont répondu « oui » à au moins une des
questions générales sur les limitations d'activité. L'entrevue de l'EPLA
commence par des questions filtres identiques aux questions du recensement
sur les limitations d'activités, suivi d'une série de questions filtres détaillées
sur les problèmes de santé. Un individu est considéré comme ayant des
problèmes de santé s'il a répondu au moins un « oui » aux questions filtres du
Recensement et au moins un « oui » aux questions filtres de l'EPLA.
La taille d'échantillon de l'EPLA de 2006 était de 48 000 individus, dont
39 000 adultes et 9 000 enfants. L'échantillon a été sélectionné en utilisant un
plan de sondage à deux phases : à la première phase, un questionnaire du
Recensement détaillé a été distribué à environ un cinquième de la population,
et à la deuxième phase, un échantillon d'individus ayant répondu « oui » aux
questions filtres du Recensement a été sélectionné selon un tirage
systématique stratifié. Les strates ont été créées de manière à produire des
estimations fiables pour les provinces et territoires. Les entrevues ont été
faites par téléphone en utilisant la collecte assistée par ordinateur. Deux
questionnaires ont été utilisés : un pour les adultes de 15 ans et plus, et un
autre pour les enfants de moins de 15 ans. Les entrevues pour les enfants ont
eu lieu en présence des parents ou du tuteur.
L'estimation sur petits domaines a été faite pour des effectifs et taux de
problèmes de santé d'adultes et d'enfants pour des régions infraprovinciales à
travers le Canada. Le premier ensemble de petits domaines comprenait les
régions métropolitaines de recensement (RMR) et les agglomérations de
recensement (AR) pour lesquelles l'EPLA avait des répondants. Il y a 114
RMR et AR au Canada. Au niveau RMR/AR, les tailles d'échantillon
d'adultes variaient de 12 à 1 751, et celles des enfants, de 3 à 448. Le second
ensemble de petits domaines comprenait les régions sanitaires (RS) telles que
définies par les ministères provinciaux de la Santé en 2007. II y a 119 RS au
Canada. Au niveau RS, les tailles d'échantillon des adultes variaient de 16 à
1 653, et celles des enfants, de 3 à 358.
L'estimation sur petits domaines pour l'EPLA a été faite à partir d'un
modèle au niveau du domaine selon les cinq étapes suivantes : (1) un
ajustement par ratio des estimations directes ; (2) une modélisation des
variances d'échantillonnage ; (3) une sélection de variables auxiliaires ; (4)
une utilisation de modèles log-linéaires pour l'estimation des taux de
problèmes de santé ; et (5) un étalonnage des estimations basées sur les
modèles. L'ajustement par ratio a été utilisé pour s'assurer que les estimations
7. Théorie des sondages 355

directes ajustées des effectifs d'individus avec problèmes de santé soient


cohérentes (plus petites ou égales) aux effectifs du Recensement d'individus
ayant répondu « oui » aux questions filtres du Recensement. Le modèle log-
linéaire (You and Rao, 2002) a été appliqué aux estimations directes ajustés
par ratio des taux d'invidus avec problèmes de santé aux niveaux RMR/AR et
RS pour les adultes et les enfants séparément. Soit Pi RAT, l'estimation
directe ajustée par ratio pour le taux d'individus avec problèmes de santé pour
le zc domaine. Le modèle log-linéaire pour le vrai taux d'individus avec
problèmes de santé p, est donné par RAT = /7; + e,, i = 1,..., m, avec un

modèle de liaison log-linéaire logCp,) = x-p + v,, i = l,..., m, où les ^ sont


des erreurs d'échantillonnage associées aux estimations directes p, RAT et les
v,- sont des effets aléatoires reliées au modèle de liaison pour log(/7/). La
variance de e, - en fait, la variance d'échantillonnage - a été lissée en
utilisant un modèle de fonction de variance généralisée donné par

ex
y(Pi,RAT) = ^(«i) = p{Po + Pl log(WoUI,i) + P2 log(Af,)},

où /Vqui j représente le nombre d'individus ayant répondu « oui » à au moins


une question filtre du Recensement, et /V, représentent la population totale du
domaine i.
Une inférence bayesienne hiérarchique (HB) avec échantillonnage de Gibbs
a été utilisée pour obtenir des estimations HB p, HB de taux d'individus avec
problèmes de santé. Ces estimations ont alors été étalonnées pour obtenir des
estimations finales pi FIN de sorte que la somme des estimations HB
étalonnées corresponde aux totaux provinciaux obtenus par estimation directe,
c'est-à-dire,

X Pi, FIN ' N/ = X ^ •


ieP i<=P
Pour plus de renseignements sur les méthodes et estimations sur petits
domaines de l'EPLA, on peut consulter Bizier, You, Veilleux et Grondin
(2008).

7.5 Conclusions

Nous avons examiné un certain nombre de méthodes d'estimation sur petits


domaines, certaines fondées sur des données au niveau du domaine et
d'autres, sur des données au niveau de l'unité. A Statistique Canada, nous
avons appliqué ces méthodes à des données d'enquête auprès des entreprises,
sur la santé et auprès des ménages, et présenté ici un exemple à partir de
l'EPLA. Chaque application diffère des autres et nécessite certaines mises au
point des techniques connues d'estimations sur petits domaines. Un autre
exemple est celui de Dick (1995) qui a utilisé la méthodologie de Fay-Herriot
356 Pratique et méthodes de sondages

pour estimer le sous-dénombrement du Recensement de la population du


Canada.
La forte demande d'estimations sur petits domaines suscite le développement
d'un logiciel flexible permettant de traiter de manière routinière les cas les
plus courants d'estimations sur petits domaines. C'est pour cette raison que
nous avons commencé à mettre en œuvre le modèle avec liaison au niveau du
domaine, dans lequel les estimations sur petits domaines sont contraintes de
concorder avec des estimations directes fiables à un plus haut niveau
d'agrégation. Il est prévu d'étendre ce logiciel et la méthodologie qui le sous-
tend dans plusieurs directions.

BIBLIOGRAPHIE

Battese, G.E., Harter, R.M. et Fuller, W.A. (1988). An error-components


model for prédiction of crop areas using survey and satellite data. Journal
ofthe American Statistical Association, 83, 28-36.
Bizier, V., You, Y., Veilleux, L. et Grondin, C. (2008). Une approche fondée
sur un modèle d'estimation des comptes et des taux d'incapacité dans les
petites régions au moyen des données de l'enquête sur la participation et les
limitations d'activités de 2006. Direction de la méthodologie, document de
travail, DMES-2009-003F/A, Statistique Canada.
Boonstra, H.J., Van Den Brakel, J., Buelens, B., Krieg, S. et Smeets, M.
(2008). Towards small area estimation at Statistics Netherlands. METRON
- International Journal of Statistics, vol. LXV1, n0l, 21-49.
Dick, P. (1995). Modélisation du sous-dénombrement net dans le recensement
du Canada de 1991. Techniques d'enquête, 21, 51-61.
Drew, J.D., Singh, M.P. et Choudhry, G.H. (1982). Évaluation des techniques
d'estimation pour les petites régions dans l'enquête sur la population active
du Canada. Techniques d'enquête, 8, 19-52.
Estevao, V., Hidiroglou, M.A. et Sâmdal, C.-E. (1995). Methodological
principles for a generalized estimation system at Statistics Canada. Journal
of Officiai Statistics, Vol. 11, n02, 181-204.
Estevao, V., You, Y., Hidiroglou, M. et Patak, Z. (2010). Implementation
notes for small area estimation. Document interne de Statistique Canada
document.
Fay, R.E., et Herriot, R.A. (1979). Estimation of income for small places: An
application of James-Stein procédures to census data. Journal of the
American Statistical Association, 74, 269-211.
Hidiroglou, M.A. (2008). Benchmarking small area totals. Document interne
de Statistique Canada non-publié.
7. Théorie des sondages 357

Rao, J.N.K. (2003). Small Area Estimation. New York : John Wiley & Sons,
Inc.
Singh, M.P., et Tessier, R. (1975). Some estimators for domain totals. Journal
of the American Statistical Association, 71, 322-325.
Schaible, W.A. (1978). Choosing weights for composite estimators for small
area statistics. Proceedings of the Section on Survey Research Methods,
American Statistical Association, 741-746.
Wang, J., Fuller, W.A. et Qu, Y. (2008). Estimation pour petits domaines sous
une contrainte. Techniques d'enquête. Vol. 34, n0l, 33-40.
You, Y. (2008). Une approche intégrée de modélisation de l'estimation du
taux de chômage pour les régions infraprovinciales au Canada. Techniques
d'enquête. Vol. 34, n0l, 21-31.
You, Y., et Dick, P. (2004). Hierarchical Bayes small area inference to the
2001 census undercoverage estimation. Proceedings of the ASA Section on
Government Statistics, 1836-1840.
You, Y., et Rao, J.N.K. (2002) Small area estimation using unmatched
sampling and linking models. The Canadian Journal of Statistics, 30, 3-15.

8. Estimation du taux d'emploi régional

québécois chez les personnes ayant

une incapacité à l'aide du modèle de

Fay-Herriot

14
Éric GAGNON et Robert COURTEMANCHE

8.1 Introduction

L'Institut de la statistique du Québec (ISQ) a reçu le mandat de produire des


estimations du taux d'emploi des personnes ayant une incapacité par région
sociosanitaire au Québec. Malheureusement, la source de données la plus
récente et la plus fiable pour produire de tels taux, l'Enquête sur la
participation et les limitations d'activités (EPLA) réalisée par Statistique
Canada en 2006, ne permet pas d'obtenir d'estimations précises pour
plusieurs de ces régions. Afin de résoudre ce problème, l'ISQ a décidé
d'utiliser une méthode d'estimation pour petits domaines. Ce type de méthode
permet d'améliorer la précision des estimations en utilisant des données
auxiliaires externes à l'enquête. Une telle méthode s'avère tout à fait

14 Institut de la statistique du Québec, Québec, Canada.


Courriel : eric.gagnon@stat.gouv.qc.ca ; robert.courtemanche@stat.gouv.qc.ca.
358 Pratique et méthodes de sondages

appropriée pour l'EPLA, étant donné que les répondants de cette enquête ont
été sélectionnés à partir du recensement canadien de 2006. Pour cette enquête,
on dispose donc d'une riche source de données externes.

8.2 Modélisation

Pour ce projet, un estimateur composite15 pour petits domaines a été retenu.


Celui-ci est créé à partir du modèle de Fay-Herriot. L'utilisation de ce modèle
nécessite que les unités d'analyse soient de niveau régional. La variable
dépendante de ce modèle est donc le taux d'emploi calculé à l'EPLA par
région alors que les variables explicatives sont des statistiques régionales
calculées à partir du recensement. Les variables suivantes, celles permettant
d'expliquer le mieux le taux d'emploi, ont été retenues dans le modèle final :
1. Taux d'emploi par région chez les personnes de 15 à 64 ans ayant
répondu « oui » à au moins une des questions-filtres16 du recensement
sur les limitations d'activités (appelés par la suite, les « oui »).
2. Proportion de gens en milieu rural par région chez les « oui ».
3. Logarithme des heures moyennes travaillées par région chez les
« oui ».
4. Proportion de gens n'étant pas de minorités visibles par région chez
les « oui ».
5. Interaction du logarithme des heures moyennes travaillées et de la
proportion de gens n'étant pas de minorités visibles chez les « oui ».

Un bon R-carré de 0,76 a été obtenu pour ce modèle.

8.3 Résultats

Pour ce projet, les estimations composites ont été obtenues avec l'approche
EBLUP (Empirical Best Linear Unbiased Predictor) en utilisant la méthode
des moments de Fay-Herriot pour l'estimation des paramètres du modèle. Le
tableau 7.3 montre les estimations obtenues.
Les deux premières colonnes du tableau 7.3 donnent le taux d'emploi
calculé à l'EPLA, ainsi que son coefficient de variation (CV). Les deux
colonnes suivantes présentent le taux d'emploi obtenu à partir du modèle de
Fay-Herriot (FH), ainsi que son CV17. Les deux dernières colonnes du
tableau 7.3 fournissent respectivement la proportion du taux de FH qui

15 Estimateur qui combine une estimation d'enquête à une obtenue par modélisation.
16 Questions permettant de déterminer l'admissibilité à l'EPLA.
17 Le CV est la racine carrée de l'erreur quadratique moyenne (EQM), divisée par le taux
estimé à partir de Fay-Herriot. Les équations 7.1.26 et 7.1.29 de Rao (2003) ont été
utilisées pour ce calcul. L'EQM ne contient donc qu'un biais provenant du modèle.
7. Théorie des sondages 359

dépend du taux de l'EPLA et celle qui dépend de la modélisation. Un examen


du tableau 7.3 montre que le taux de FH est plus précis que celui calculé à
l'EPLA. En général, les deux taux sont assez rapprochés. Cependant, on
remarque, pour les régions Bas-Saint-Laurent, Côte-Nord, Chaudière-
Appalaches et Laval, un écart important entre les deux taux d'emploi. La
section 8.5 de cet article traite de ces écarts et explique, à l'aide d'une autre
source de données, pourquoi les taux de FH s'éloignent autant des taux
obtenus à l'EPLA. Enfin, le tableau 7.3 indique également que les taux de FH
se basent principalement sur la prédiction du modèle. Sauf pour Montréal et la
Montérégie, le taux de l'EPLA est représenté à moins de 10 % dans le calcul
du taux de FH.

Tableau 7.3 : Taux d'emploi de l'EPLA et taux d'emploi


de Fay-Herriot par région sociosanitaire québécoise
Taux d'emploi Taux d'emploi de
de l'EPLA Fay-Herriot
Régions sociosanltaires
% CV % CV % de % du
[IC] (%) [IC] (%) l'EPLA modèle
Bas-Saint-Laurent 18,3 39,7 34,6 6,6 3,4 96,6
Saguenay-Lac-Saint-Jean 31,2 24,6 33,2 7,0 4,2 95,8
Capitale-Nationale 40,5 14,1 41,7 5,8 8,3 91,7
Mauricie et Centre-du- 30,6 20,7 34,3 6,9 7,6 92,4
Québec
Estrie 40,6 18,8 41,5 5,9 5,0 95,0
Montréal 40,8 8,9 40,5 6,1 23,5 76,5
Outaouais 42,3 14,9 46,3 4,6 7,4 92,6
Abitibi-Témiscamingue 41,6 23,1 37,0 5,7 3,0 97,0
Côte-Nord ^ 55,6 27,9 37,4 5,5 1,4 98,6
Gaspésie-îles-de-la- 27,7 49,2 25,7 9,3 1,4 98.6
Madeleine
Chaudière-Appalaches 57,7 15,8 45,6 4,9 4,7 95,3
Laval 33,9 23,6 48,4 4,4 4,1 95,9
Lanaudière 43,2 13,6 40,8 5,4 7,3 92,7
Laurentides 42,4 14,4 44,5 5,0 7,3 92,7
Montérégie 42,5 8,9 45,0 5,3 19,0 81,0
Source : Enquête sur la participation et les limitations d'activités de 2006 et Recensement de 2006
de Statistique Canada. Bien que la recherche et les analyses soient fondées sur des données de
Statistique Canada, les opinions exprimées dans cet article ne représentent pas nécessairement
celles de Statistique Canada.
Traitement : Institut de la statistique du Québec.

8.4 Évaluation des résultats

L'estimateur de FH, en plus de comporter un biais provenant du modèle, peut


comporter un biais par rapport à la vraie valeur. Malheureusement, le calcul
de la précision (CV) des taux de FH, présenté au tableau 7.3, ne tient pas
compte de ce biais. Pour s'assurer de la qualité des taux de FH, il faut donc
360 Pratique et méthodes de sondages

vérifier l'existence d'un tel biais et si possible en évaluer l'ampleur. Les


diagnostics exposés dans la présente section tentent de répondre à cette
question.

8.4.1 Méthode de la pente de régression

Un premier diagnostic vise à examiner le biais des taux de FH par rapport à la


vraie valeur en utilisant les taux de l'EPLA. Pour avoir une idée de ce biais,
Brown, Chambers, Heady et Heasman (2001) ont proposé d'effectuer une
régression où la variable dépendante est ici le taux à l'EPLA et où la variable
explicative est le taux de FH. Si les taux de FH sont sans biais par rapport à la
vraie valeur, alors la pente de cette régression devrait être de « 1 » puisque les
taux de l'EPLA sont supposés sans biais. Plus la pente s'éloigne de « 1 », plus
il y a de biais. La pente obtenue pour cette régression est de 0,88, ce qui ne
diffère pas significativement de « 1 ». On ne peut pas conclure à la présence
de biais.

8.4.2 Méthode de prédiction a posteriori

Un autre moyen d'évaluer la justesse des taux de FH a été proposé par Meng
(1994). Celui-ci suggère d'utiliser une méthode de prédiction ci posteriori
pour évaluer si la distribution des taux de FH suit la même distribution que les
taux de l'EPLA, ces derniers étant sans biais. Cette méthode nécessite le
calcul de la statistique suivante, qui suit une loi du Khi-carré :

r(0fH, ê) = I(ê, - ôf)2 / a,2.

Si la valeur de signification (p-value) associée à cette statistique est près de


0,50, alors cela signifie que les taux de FH s'ajustent bien aux taux de
l'EPLA. Le p-value obtenu pour ce projet est de 0,56. Cette valeur étant très
près de la valeur désirée, on ne peut conclure à la présence de biais.

8.4.3 Méthode de la dispersion

La sous-dispersion des estimations constitue une forme de biais. Pour savoir


si l'on est en présence de ce phénomène, on peut examiner si les petits taux à
l'EPLA sont surestimés et si les grands taux sont sous-estimés. Treize régions
québécoises affichent de petits taux à l'EPLA. La moyenne de leur taux à
l'EPLA est inférieure à la moyenne des taux de FH (écart : 2,5 %). Cela
semble indiquer une légère surestimation des petits taux à l'EPLA. Par
ailleurs, un examen des deux régions affichant de grands taux à l'EPLA
indique également un écart. Cette fois-ci, la moyenne des taux à l'EPLA est
supérieure à la moyenne des taux de FH (écart : 15,2 %). Les taux de l'EPLA
pour ces deux régions (Côte-Nord et Chaudière-Appalaches) seraient donc
sous-estimés. Toutefois, il serait hasardeux de considérer ces écarts
7. Théorie des sondages 361

uniquement comme des biais. Ces écarts dépendent du biais et de l'erreur


d'échantillonnage, et il est difficile de départager ces deux quantités.
Ces résultats montrent que les taux de FH sont moins dispersés que ceux
obtenus à l'EPLA. Ce phénomène semble confirmer la présence de biais.

8.4.4 Méthode de « couverture »

Finalement, un dernier diagnostic a été réalisé pour déterminer s'il existe un


biais par rapport à la vraie valeur. Il s'agit d'une méthode qui évalue si les
taux de FH sont « couverts » par les intervalles de confiance des taux de
l'EPLA. On peut constater, à l'aide de ce diagnostic, que pour toutes les
régions, sauf pour le Bas-Saint-Laurent, les taux de FH se situent à l'intérieur
d'un intervalle de confiance à 95 % construit à partir du taux de l'EPLA.
Étant donné que les taux de l'EPLA sont supposés sans biais, on peut penser
que le biais associé aux taux de FH est faible, sauf pour le Bas-Saint-Laurent.

8.5 Validation des taux de Fay-Herriot à l'aide


d'une autre source de données

Les résultats présentés à la section 8.3 montrent que la plupart des taux de FH
sont près des taux de l'EPLA. En présence de faibles écarts, il est facile de
faire confiance aux taux de FH. Cependant, pour certaines régions, il y a des
écarts importants. Un moyen de s'assurer de la validité des taux pour ces
régions est de les comparer à d'autres sources de données. Le recensement
canadien est la meilleure source permettant d'obtenir des données régionales
sur ce sujet.
Le tableau 7.4 présente de nouveau les taux à l'EPLA et les taux de FH. De
plus, il présente deux taux d'emploi calculés à partir du recensement de 2006.
Le premier est calculé pour les personnes de 15 à 64 ans ayant répondu
« oui » à au moins une des questions-filtres sur les limitations. On se
rappellera que ce taux est une variable explicative dans le modèle de la
section 8.2. Le second taux présenté est calculé pour l'ensemble de la
population de 15 à 64 ans (avec ou sans limitation). Ce taux s'éloigne
nettement des trois premiers étant donné que son calcul porte sur une
population très différente.
Un examen du tableau 7.4 montre que le taux de FH est très près du taux au
recensement chez les « oui », tout en restant inférieur pour 13 régions sur 15.
Ce résultat est rassurant puisque la notion de limitation au recensement est
plus large que celle de l'EPLA. Donc, des personnes plus aptes à travailler se
retrouvent dans ce groupe. Ensuite, il est intéressant d'examiner les régions
où il y a un écart important entre le taux à l'EPLA et le taux de FH. Pour la
Côte-Nord et Chaudière-Appalaches, le taux à l'EPLA semble trop élevé par
rapport au taux chez les « oui ». Pour Laval, le taux à l'EPLA semble trop bas
362 Pratique et méthodes de sondages

par rapport aux trois autres taux du tableau. Finalement, le taux à l'EPLA
pour le Bas-Saint-Laurent est nettement inférieur aux taux des autres régions.
Par contre, pour les trois autres taux, c'est la Gaspésie-lles-de-la-Madeleine
qui obtient le taux le plus bas. En résumé, pour ces quatre régions, les taux de
FH semblent plus réalistes et de meilleure qualité que les taux de l'EPLA.

Tableau 7.4 : Taux d'emploi de l'EPLA, de Fay-Herriot et du


recensement de 2006 par région sociosanitaire québécoise
Régions soclosanitaires Taux Taux Taux Taux
d'emploi d'emploi d'emploi au d'emploi au
à l'EPLA de FH recensement recensement
(les « oui »)
%
01 -Bas-Saint-Laurent 18,3 34,6 35,4 64,3
02-Saguenay-Lac-Saint-Jean 31,2 33,2 35,6 63,4
03-Capitale-Nationale 40,5 41,7 43,9 73,3
04-Mauricie et Centre-du-Québec 30,6 34,3 36,3 67,3
05-Estrie 46,0 41,5 40,8 69,5
06-Montréal 40,8 40,5 45,5 67,8
07-Outaouais 42,3 46,3 48,1 71,9
08-Abitibi-Témiscamingue 41,6 37,0 39,6 65,6
09-Côte-Nord 55,6 37,4 40,4 64,2
11 -Gaspésie-îles-de-la-Madeleine 27,7 25,7 27,9 53,6
12-Chaudière-Appalaches 57,7 45,6 44,0 74,3
13-Laval 33,9 48,4 52,1 74,2
14-Lanaudière 43,2 40,8 42,0 71,2
15-Laurentides 42,4 44,5 46,5 72,4
16-Montérégie 42,5 45,0 48,1 73,5
Source : Enquête sur la participation et les limitations d'activités de 2006 et Recensement de 2006.

8.6 Conclusion

Les estimations pour petits domaines exposées dans le présent article ont été
obtenues à l'aide du modèle de FH. Les multiples validations effectuées aux
sections précédentes montrent que le modèle est de très bonne qualité. Il n'en
demeure pas moins que les taux obtenus proviennent principalement de la
modélisation et donc qu'ils ne peuvent pas être considérés comme des
estimations directes provenant d'une enquête. Contrairement à ces estimations
qui ne comportent pas de biais, les taux de FH sont biaisés. Bien que ce biais
ne semble pas très important, il est tout de même présent, particulièrement
pour les plus petites régions. Par conséquent, ces taux doivent être utilisés en
mentionnant clairement qu'ils proviennent d'un modèle et qu'ils sont des
prédictions de ce modèle. Toutefois, ces taux peuvent être d'une grande
utilité, car ils permettent de combler le manque d'information au niveau
régional sur le statut d'emploi des personnes ayant une incapacité au Québec.
7. Théorie des sondages 363

8.7 Remerciements

Nous remercions Louis-Paul Rivest, Jocelyne Camirand, Fanny Harvey,


France Lapointe, Sylvain Végiard, Jean-François Cardin, Valérie Bizier et
Chantai Grondin pour leur contribution au projet.

BIBLIOGRAPHIE

Brown, G., Chambers, R., Fleady, P. et Heasman, D. (2001). Évaluation des


méthodes d'estimation régionale dans leur application aux estimations du
chômage tirées de l'enquête sur la population active au Royaume-Uni.
Recueil du Symposium 2001 de Statistique Canada.
Meng, X.L. (1994). Posterior prédictive /?-values. The Annals of Statistics,
vol. 22, n0 3, 1 142-1160.
Rao, J.N.K. (2003). Small Area Estimation, New York : John Wiley & Sons,
Inc. 344 pages.

9. Comparaison d'estimateurs composites

dans l'enquête emploi en continu

18
Dominique PLACE

9.1 Introduction

Comme pour la plupart des enquêtes Emploi conduites dans les pays
industrialisés, l'enquête Emploi en Continu française (EEC) est une enquête
répétée avec renouvellement partiel de l'échantillon d'une période sur l'autre.
Un individu de l'échantillon est normalement interrogé six trimestres de suite
et chaque trimestre, un sixième de l'échantillon est nouveau tandis que les
cinq autres sixièmes sont en réinterrogation du trimestre précédent.
Les estimateurs trimestriels utilisés actuellement sont définis avec les seules
données de l'échantillon trimestriel courant comme on le ferait pour une
enquête unique. Mais du fait des réinterrogations, il existe des corrélations
entre les trimestres qui peuvent être mises à profit pour améliorer
l'estimation. Cela conduit à différents estimateurs, appelés composites, qui
ont en commun la possibilité de mobiliser les données de plusieurs périodes, y
compris pour fournir des estimations relatives à une seule période.
On distingue trois types d'estimateurs composites : l'estimateur linéaire à
fenêtre fixe optimal, l'estimateur AK et l'estimateur par calage composite.

18 Unité Méthodes Statistiques, Insee, France. Courriel ; dominique.place@insee.fr.


364 Pratique et méthodes de sondages

Après avoir donné leurs définitions, on montrera dans une seconde partie les
résultats de ces méthodes dans TEEC pour les nombres d'actifs occupés et de
chômeurs.

9.2 Définition des estimateurs composites

9.2.1 L'estimateur linéaire à fenêtre fixe optimal

Un échantillon trimestriel est réparti en six sous-échantillons correspondant


aux rangs d'interrogation des individus. Chacun d'entre eux est représentatif
de la population et fait l'objet d'un calage séparé. On peut ainsi définir six
estimateurs, théoriquement avec un biais négligeable, d'un même total
trimestriel yr En notant st(Ri) le sous-échantillon du trimestre t pour le rang
d'interrogation i, on définit l'estimateur élémentaire :

y?' = 6 Z wtkytk
kss, (Ri)

où wtk est le poids de l'individu k obtenu par la procédure de calage


ordinaire. L'estimateur naturel yt est la moyenne des six estimateurs
élémentaires.
Un estimateur linéaire à fenêtre fixe optimal est une combinaison linéaire
bien choisie d'estimateurs élémentaires définis sur un nombre fixé de
périodes / :

>V = Z Za"yf-«-
m=0 i=\

Pour que cet estimateur soit sans biais, les coefficients doivent respecter des
contraintes. Si on suppose que les estimateurs élémentaires sont sans biais,
alors il faut avoir :
6 6
=
S i ; Xa/' =
^ Pour w
(i)
/=1 /=1

Si, au contraire, on suppose qu'il y a des biais de rotation, c'est-à-dire qu'il


existe des écarts systématiques entre les estimateurs élémentaires, les
contraintes doivent être modifiées. Les biais de rotation sont observés dans
toutes les enquêtes répétées avec renouvellement partiel de l'échantillon.
Dans l'EEC, le taux de chômage mesuré sur les personnes en première
interrogation est en moyenne supérieur de 6 % au taux de chômage mesuré
sur l'ensemble de l'échantillon, et il décroît au fil des interrogations. Les biais
de rotation diffèrent selon les variables : pour le nombre d'actifs occupés, ils
sont très réduits. Cela conduirait plutôt à poser comme hypothèse :
7. Théorie des sondages 365

Ri • • a
E(>V ) - 0 + ^,) yr avec b\ + ••• + /76 = 0. Les contraintes (1) doivent être
alors modifiées en multipliant chaque coefficient «;0 et a" par 1 + /?,.
Les contraintes et la fenêtre / étant fixées, les coefficients sont calculés
pour minimiser la variance de y^. Cela correspond à un programme classique
d'optimisation linéaire sous contraintes, qui ne requiert que la connaissance
d'une estimation de la matrice de variance-covariance du vecteur des
estimateurs élémentaires (j^1,..., y^f+x). En pratique, on calcule une matrice
moyenne sur une période de référence.

9.2.2 L'estimateur AK

L'estimateur AK est un estimateur récursif qui permet de mieux prendre en


compte les évolutions. Il a été introduit par Gurney et Daly en 1965, et il est
utilisé dans le Current Population Survey aux États-Unis. Dans l'EEC, il est
défini par :

6 A
K 1 (2)
y-y = (I - *0 ?, + K[y x + à;_u) + A y? -jtyf
[ ^ i=2

où À;-,, t est l'estimateur naturel de l'évolution entre r - 1 et /, basé sur la


partie commune des deux échantillons trimestriels. A et K sont deux
coefficients choisis pour minimiser la variance. En l'absence de biais de
rotation, cet estimateur est sans biais. Sinon, il faut adapter la définition de
manière similaire à ce qui est fait pour l'estimateur linéaire à fenêtre fixe.
Comme la formule de récurrence (2) est linéaire, l'estimateur AK peut être
vu comme un estimateur linéaire relativement aux estimateurs élémentaires,
sur une fenêtre variable. Il est ainsi proche de l'estimateur linéaire à fenêtre
fixe optimal et il a des propriétés similaires.

9.2.3 L'estimateur par calage composite

L'estimateur par calage composite a été introduit par Singh et Merkouris


(1995) et il est utilisé dans l'Enquête sur la Population Active au Canada. Son
principe est d'ajouter aux variables de calage habituelles, relatives à la
période courante, des variables se référant à la période précédente. Pour les
ménages enquêtés au trimestre précédent, il est possible de prendre les valeurs
antérieures, mais il faut fixer autrement les valeurs des variables auxiliaires
supplémentaires pour les ménages nouvellement enquêtés. Une première
solution est d'effectuer des imputations par la moyenne. Dans une seconde
solution, on reprend les valeurs de la période courante, ce qui impose de
modifier légèrement les valeurs des ménages déjà enquêtés pour tenir compte
de l'évolution entre les deux trimestres. Dans les deux cas, les totaux de
référence sont les totaux estimés de la période précédente.
366 Pratique et méthodes de sondages

Les nouvelles variables auxiliaires sont constantes à partir des variables


d'activité croisées avec l'âge et le sexe. Comme le fait Statistique Canada,
elles sont définies par une combinaison des deux méthodes en pondérant la
première par 1/3 et la seconde par 2/3.

9.3 Résultats

Les différents estimateurs composites ont été calculés sur la période 2004-
2008 pour les nombres de chômeurs et d'actifs occupés en France
métropolitaine. La fenêtre de l'estimateur linéaire à fenêtre fixe a été fixée à 6
trimestres. Au-delà de sept trimestres, les corrélations temporelles sont trop
faibles pour contribuer à une diminution significative de la variance. Pour les
deux premiers estimateurs décrits, la prise en compte des biais de rotation
contribue pour le nombre de chômeurs à un écart supplémentaire quasi
systématique de l'ordre de 1,5 % de l'estimation actuelle. Sont présentés dans
les figures, les estimateurs prenant en compte les biais de rotation.
On constate que les écarts par rapport à l'estimateur naturel sont limités : ils
ne dépassent pas 2 % pour le nombre de chômeurs et 0,5 % pour le nombre
d'actifs occupés. La réduction de variance est faible pour le nombre de
chômeurs, mais plus intéressante sur l'emploi, en particulier pour l'évolution
sur un an. Une méthode de linéarisation a été essayée pour l'estimation de la
variance de l'estimateur par calage composite, mais elle ne donne pas de
résultats plausibles car elle doit présenter trop de biais.

Figure 7.8 : Écarts des estimateurs sur le nombre de chômeurs

r \
., v. , . /V\ ^

Il 12 T3 T4 T1 T2 | T3 14 T1 12 | T3 T4 11 T2 | T3 T4 T1 T2 | T3 T4
2004 2005 2006 2007 2008
Linéaire optimal ♦ AK —*■ - - Par calage composite
Note : les écarts sont exprimés en proportion de l'estimateur naturel et par rapport à
celui-ci
7. Théorie des sondages 367

Figure 7.9 : Écarts-types en pourcentage moyen des écarts-types actuels


Nombre de chômeurs Nombre d'actifs occupés
100% 100%
95% - - 95% - -
90% -- Linéaire optimal 90% - -
85% - - —-AK 85% Lmeaire optimal
AK
80%
Niveau Moyenne Evolution Evolution Niveau Moyenne Evolution Evolution
trimestriel annuelle trimestrielle T-4, T trimestriel annuelle trimestrielle T-4, T

BIBLIOGRAPHIE

Bell, P.A. (2001). Comparaison d'autres estimateurs pour l'Enquête sur la


population active. Techniques d'enquête, vol. 27, n0l, 57-68.
Place, D. (2009). Comparaison d'estimateurs alternatifs dans l'Enquête
Emploi en Continu, Actes des 9e journées de méthodologie statistique de
l'Insee.
Singh, A.C., et Merkouris, P. (1995). Composite estimation by modified
régression for repeated surveys. Proceedings of îhe Survey Research
Methods Section, American Statistical Association, 420-425.

10. Ajustement de modèles multiniveaux à

des données d'enquête

Louis-Paul RIVEST19

10.1 Introduction

Lorsque l'on ajuste un modèle statistique à des données d'enquête, on veut


que les estimations calculées soient représentatives de la population
échantillonnée. Pour ce faire, il faut pondérer les unités échantillonnales selon
leur poids d'échantillonnage. Ce principe est bien connu et de nombreux
logiciels statistiques permettent de tenir compte des poids d'échantillonnage
lorsque l'on ajuste un modèle de régression multiple ou de régression
logistique.
Cet article s'intéresse particulièrement à l'ajustement de modèles
multiniveaux à des données d'enquête provenant de plans à plusieurs degrés,

19 Département de mathématiques et de statistique, Université Laval, 1060 Av. de la


médecine, Québec (QC) G1V 0A6 Canada. Courriel : louis-paul.rivest@mat.ulaval.ca.
368 Pratique et méthodes de sondages

lorsque les niveaux du modèle correspondent à différents degrés


d'échantillonnage. Par exemple, une population d'écoliers, regroupés en
classe, est échantillonnée selon un plan à deux degrés où les classes sont les
unités primaires et les écoliers les unités secondaires. On suppose un plan
informatif aux deux degrés ; le problème est d'estimer les paramètres de la
régression et les composantes de variances inter et intra écoles. On veut avoir
des estimateurs convergents pour la population.
Dans la littérature statistique, l'ajustement de modèles multiniveaux à des
données enquête est traité par Pfeffermann, Skinner, Holmes, Goldstein et
Rasbash (1998) et Kom et Graubard (2003). Rabe-Hesketh et Skrondal (2006)
traitent d'extension à des modèles linaires généralisés, telle la régression
logistique multiniveaux. L'intégration des poids d'échantillonnage à la
vraisemblance multiniveaux ne fait pas consensus. Différentes méthodes
d'ajustement existent dans la littérature, cependant aucune ne permet
d'obtenir des estimations convergentes lorsque le nombre d'unités primaires
tend vers l'infini et que les tailles d'échantillon intra unité primaire sont
bornées.
Cet article donne une méthode d'ajustement des poids qui permet d'obtenir
des estimations convergentes. Cette méthode est présentée dans le cadre
simple d'une analyse de variance à un facteur aléatoire.

10.2 Analyse de variance à un facteur aléatoire

10.2.1 Modèle pour la population complète

On utilise les indices / et j pour représenter les unités de niveau 2 (écoles) et


l (écoliers) respectivement. Le modèle s'écrit

y. = p + ^ + s-- i = 1, ... N; j = 1, ... M,..

Les variables {a,} et { 8i7 } sont indépendantes entre elles et de lois respectives
N(0, a";) et N(0, cT). On cherche les estimateurs du maximum de
2 2
vraisemblance de (p, aw, a ). Une façon indirecte pour construire la
vraisemblance s'appuie sur la vraisemblance pénalisée intégrée. On procède ici
en trois étapes pour la construire :
l. On traite les ai comme étant des paramètres fixes et on écrit la
vraisemblance pour p, {«,-} et a2,

N M,
1 (yg ^ - "iY log(a )
n exp^ -I
M : 12
y=i 2cr 2

2. On obtient une vraisemblance pénalisée en multipliant la


vraisemblance précédente par les densités des ai,
7. Théorie des sondages 369

N M, (Xy - a exp -a? / (2a^)


1 i) | log(a3)
exp^ -I
M: 12 2
H(2.) 7 =1 2a' 2Ti:a'

.2 _2-
3. La vraisemblance marginale pour (p, a^, a") est obtenue en intégrant
par rapport aux ce qui donne

I
exp Zte - x-.)2 + Z
2
2a' ',7 ri + / o2
L(p, a , a;) -

où y,- est la moyenne de y dans l'unité i de niveau 2, voir McCullagh et


Searle (2000), page 43. Les estimateurs du maximum de vraisemblance sont
obtenus en maximisant cette expression.

10.2.2 Pseudo-vraisemblance construite avec des


données d'enquête

En présence de données d'enquête, on dénote w, = 1 / ti, le poids


d'échantillonnage de l'unité primaire i dans l'échantillon des unités primaires
et wy|j — 1 /tcy|, le poids d'échantillonnage conditionnel de l'unité
secondaire j de l'unité primaire /, sachant que cette dernière est
sélectionnée. Le poids de sondage combiné est w- = vy-Wy^-. On note

Wi+ =E^i,-,W+|I. =Xyes.Wy|i,

ainsi wi+ = WjW^j et s, représente l'échantillon d'unités secondaires


sélectionnées dans l'unité primaire /. En intégrant ces poids
d'échantillonnage à l'étape 2 de la construction présentée à la dernière
section, on obtient la pseudo-vraisemblance suivante,
/ \wi
(yij-V- i) a
log(a ) 2 exp -of 1(2(3 a)
n jexp- - y w.i. dCl:
^ 71' 2a2 2
E 7 e si 27ra'
V

Les intégrales dcii peuvent être évaluées, ce qui donne la forme explicite
suivante pour la pseudo-vraisemblance,

exp " '2 np vvi+(yis-n)2 v w+|,.log(cT2)+log(l+w+|;rfl)


W
2^ ^ 2n , , \ 2-, i 7
ij 2a' i 2a (l+w+^ra) /e,y(1) 2

avec ra=a2a/ a2 et yis = "//.S/ / wi+. Les valeurs de (|i, o2, a2) qui
maximisent cette expression n'ont pas de forme explicite en général. De
nombreuses études ont montré que cette approche donne des estimateurs
370 Pratique et méthodes de sondages

biaisés. Pour corriger ce biais, plusieurs auteurs modifient les poids des unités
secondaires de la façon suivante, = iLw.-i,-. Le « scale method 1 » de
\y 9 une au re
Pfeffermann et coll. (1998) prend ^/= 2^/1/' t
normalisation suggérée dans ce travail pose X-,- = m, / w+^, où mi est le
nombre d'unités secondaires tirées dans l'unité primaire /, c'est le « scale
method 2 ». Aucune de ces méthodes ne permet, à coup sûr, d'obtenir des
estimations convergentes lorsque le nombre d'unités primaires tend vers
l'infini et que les tailles d'échantillon mi dans les unités primaires restent
bornées.

10.2.3 Cas des unités primaires de même taille

Cette section porte sur le cas spécial où les M, sont égaux et où la somme des
poids des unités secondaires par unité primaire est fixe {Mi = w+^ =
M = w+). On peut alors montrer que les estimateurs qui maximisent la
pseudo-vraisemblance ont une forme explicite. En effet, jî = y v la moyenne
des y/v, et, avec des poids modifiés,

ê2 = a ^ Jl - fis)2- « à2a = ^(-V" ~ ys)


-
{Xw+ - n
\)n n Xw+

Dans l'exemple traitant des écoliers répartis en classe, on obtient ces


estimateurs lorsque les classes sont toutes de taille M, avec un plan stratifié,
selon le sexe ou les résultats scolaires, pour la sélection des écoliers dans les
classes. Pour calculer les espérances de ces estimateurs, on distingue les
espérances par rapport au plan de sondage (indice s) de celle par rapport au
modèle d'analyse de variance (indice ^). Pour simplifier les calculs, on
suppose que les plans de sondage à l'intérieur des unités primaires sont
identiques. Par exemple, si on stratifié selon le sexe, on suppose que la
composition garçon/fille est la même dans chaque classe. Puisque
EsiiJis) = y/.» s
2 représente la sélection des unités secondaires
connaissant les unités primaires,

Var(^s)=Varj£î2(y1.s)]+£jVars2(y1.î)]=Var5(yi. | (1,.)+^-=^ +^+~

où v est tel que £» [Varï2(yiî)]=CT2/v. De plus, puisque X; i


w
j\i(yij-yiS)2=

J
( X-l + XM / v}_2.
E(à2) = EfE (à2) = a
(XM - 1) /
et
7. Théorie des sondages 371

X-l + XM /v
E(à2a) = ^ + l^CT + O ro

(kM - 1) \n)

Ainsi, les biais croissent avec k ; ces derniers sont nuls avec

v
M + v

Si le plan de sondage au degré 2 est aléatoire simple sans remise et


ignorable, alors \ / v = \ / m - \ / M Qt k0 = m / M. Lq « scale method 2 »
donne alors des estimations asymptotiquement sans biais. Si, par contre, on a
un plan stratifié au degré 2 avec une variance plus petite qu'un plan aléatoire
simple alors 1 / v < 1 / m - 1 / A7 et k() > m / M. Dans ce cas l'estimateur de
a2 a un biais négatif si on utilise le « scale method 2 ».

10.3 Estimation des composantes de la variance

10.3.1 Un résultat qui assure l'obtention d'estimateurs


convergents

Les résultats de la section précédente obtenus avec des unités primaires de


mêmes tailles sont vrais en général. Cette section énonce un résultat général
sans en faire la démonstration.
On suppose que la population suit le modèle d'ANOVA à un facteur
aléatoire présenté plus tôt et que le plan de sondage au degré 2 satisfait
Wm,- = Mj. Si on pose

v o2
Var
Ê,{ s2(yis)}'

alors les estimateurs obtenus en maximisant la pseudo-vraisemblance avec les


poids modifiés = kjWj^ où A./ = v,- / (M,- + v,) sont convergents
lorsque N tend vers l'infini et lorsque les tailles d'échantillons dans les
strates, m,-, sont bornées. Un plan où la sélection des unités secondaires se fait
à l'aide d'un plan stratifié satisfait l'hypothèse w+^ = M^

10.3.2 Une étude par simulation

Pour illustrer numériquement les résultats de la section précédente, nous


avons réalisé une étude par simulation en suivant le devis présenté à la
section 7 de Pfeffermann et coll. (1998). Au premier degré, on tire n =35
unités primaires selon un échantillonnage systématique Tips d'une population
de taille N =300. Les tailles des unités primaires (M,) varient de 30 à 70
environ ; au degré 2, un plan stratifié est utilisé. Les tailles d'échantillons sont
372 Pratique et méthodes de sondages
2
m, = 0,1 x M,- et mt- =0,4xM,. Les valeurs des paramètres sont gci =
0,2 et ct2 =0,5.
Pour ces simulations, on utilise 1 000 répétitions Monte-Carlo. Le
tableau 7.5 donne Lespérance des estimateurs calculés sans les poids (vv = 1)
et selon les quatre modifications discutées dans ce travail. Les coefficients X
pour les « scale method 1 », « scale method 2 » et OPTI sont
0,75 x m, / M, , m,- / Mif et 0,182 (m,- / M,- = 0,1) ou 0,541 (m,- / A/,- = 0,4).
Évidemment, connaissant les spécifications de la simulation, un calcul
théorique a penuis de calculer les v/ pour la méthode OPTI. En pratique il
faut procéder par essai et erreur pour détenuiner de bonnes approximations
pour les Vj.

Tableau 7.5 : Résultats de simulation


m, = 0,4 x Mj rrij = 0,1 x Mi

Estimateur
Eiàl) E(ô2) Eiàl) E(à2)

w 1 0,185 0,430 0,158 0,456


ij =
Wy 0,196 0,497 0,219 0,472
SM1 0,179 0,512 0,26 0,557
SM2 0,186 0,506 0,152 0,532
OPTI 0,190 0,502 0,186 0,500

Dans le tableau 7.5, les résultats sont plus variables lorsque la fraction de
sondage au degré 2 est faible. L'estimateur OPTI a un léger biais négatif pour
al qui est sans doute attribuable au biais négatif de l'estimateur du maximum
de vraisemblance pour les variances. L'adaptation de la méthode REML
(Restricted Maximum Likelihood) à la pseudo-vraisemblance utilisée avec
des données d'enquête permettrait sans doute de corriger ce léger biais.

10.4 Discussion

Ce travail a mis en lumière le fait qu'une bonne modification des poids pour
l'estimation des composantes de la variance fait intervenir la variabilité intra
unité primaire. Pour estimer les v,, on peut procéder par essai et erreur. Par
exemple, pour évaluer si le « scale method 2 » est approprié, on procède de la
• • • *)
façon suivante : (i) on estime à l'aide d'un modèle d'ANOVA à un facteur
fixe, (ii) on calcule des estimations de variance par rapport au plan, v(y/v),
dans chaque unité primaire échantillonnée et (iii) on fait le graphique des points
'y
[d (1 / m,- - 1 / M/),v(y/5)]. Cette modification est appropriée si
7. Théorie des sondages 373

v
(yis) ~ 62(1 / m,- - 1 / Mj) plus bruit,
c'est-à-dire si les points du graphique se répartissent autour de la droite
.V = -r-
Malheureusement l'information qui permet le calcul des variances intra
unité primaire n'est en général pas fournie avec les données d'enquête. De
plus, il n'est pas évident de tenir compte dans ce calcul de variance du
traitement de la non-réponse ou du calage des poids d'échantillonnage.
Beaucoup de travail reste à faire pour atteindre un consensus concernant
l'ajustement de modèles multiniveaux à des données d'enquête.

BIBLIOGRAPHIE

Kom, E.L., et Graubard, B.I. (2003). Estimating variance components using


survey data. Journal of the Royal Statistical Society, Séries B (Statistical
Methodology), 65, n0l, 175-190.
McCullagh, P., et Searle, S.R. (2000). Generalized Linear and Mixed Models
New York : Wiley Interscience, Etats-Unis.
Pfeffermann, D., Skinner, C.J., Holmes, D.J., Goldstein, H. et Rasbash, J.
(1998). Weighting for unequal sélection probabilities in multilevel models.
Journal of Royal Statistical Society, Séries B, 60, 23-40.
Rabe-Hesketh, S., et Skrondal, A. (2006). Multilevel modelling of complex
survey data. Journal of the Royal Statistical Society, Séries A, 169,
805-827.

11. Analyse de données compositionnelles

dans le cadre d'enquêtes complexes

Monique G RAF 20

11.1 Introduction

Les enquêtes sont conçues d'abord pour estimer des totaux dans des sous-
groupes de population. On estime ces totaux par des sommes pondérées
d'observations où les poids d'extrapolation sont déterminés par le plan
d'échantillonnage et modifiés pour tenir compte de la non-réponse (voir, par
exemple, Sâmdal, Swensson et Wretman, 1992). Les compositions, par
exemple les parts budgétaires, l'utilisation du temps, les parts salariales, etc.
sont de nature différente à cause de la contrainte de somme.

20 Office fédéral de la statistique, Service de méthodes statistiques, 2010 Neuchâtel,


Suisse. Courriel : monique.graf@bfs.admin.ch.
374 Pratique et méthodes de sondages

Mathématiquement, une composition est un vecteur, défini pour chaque unité


d'échantillonnage, dont les composantes sont strictement positives et dont la
somme vaut 1. On peut la voir comme un ratio multivarié et le problème de
l'évaluation de la précision d'une composition moyenne extrapolée au niveau
d'une sous-population peut se ramener dans son principe à celui d'un ratio.
Une avancée déterminante dans la théorie des données compositionnelles
est due à Aitchison (1986). Son livre, paru en 1986, reste une référence de
base, voir aussi Aitchison (1997) pour une introduction rapide. Il a appliqué
les compositions dans de nombreux domaines, mais essentiellement à la
géologie et à la biologie. Plus récemment, Egozcue, Pawlowsky-Glahn,
Mateu-Figueras et Barcelô-Vidal (2003) ont apporté de nombreux
développements théoriques. Van den Boogaart et Tolosana-Delgado, 2007
proposent un package R « compositions ».
Il y a peu d'applications en économie ou sociologie. On peut citer Brunsdon
et Smith (1998) qui ont analysé les séries chronologiques des personnes
actives, décomposées en trois parts, personnes en emploi, personnes en
recherche d'emploi ou non. La théorie de Aitchison, basée sur des log-ratios,
demande qu'il n'y ait pas de part nulle dans une composition. Fry, Fry et
McLaren (1996, 2000) se sont penchés sur le problème des zéros dans les
microdonnées et ont proposé une méthode ingénieuse de substitution des
zéros par une petite valeur positive qui ne change pas les rapports entre les
parts non nulles. Martin-Femândez, Barcelô-Vidal et Pawlowsky-Glahn
(2000) développent une idée similaire. Graf (2006a, 2006b) propose une
mesure globale de précision d'une composition et présente des domaines de
confiance pour la décomposition du salaire en parts salariales basés sur le plan
d'échantillonnage.
Le but de l'article est de calculer la matrice de covariance approchée fondée
sur le plan de différentes statistiques fonctions des vecteurs de composition.
On trouve des éléments de la théorie des compositions au § 11.2, et les
formules pour les matrices de covariance au § 11.3.

11.2 Éléments de la théorie des compositions

11.2.1 Définition et représentation

Un vecteur de composition de longueur D, p = (/?,, z^, •••> Pd) est im


vecteur dont les composantes sont strictement positives et dont la somme vaut
1.

PX + P2 + ... + PD =l

L'ensemble de ces vecteurs forme le simplexe SD.


7. Théorie des sondages 375

Un vecteur aléatoire compositionnel possède nécessairement des


composantes négativement corrélées, comme le montrent les relations (1) ci-
dessous.

VarCp, + p2 + ...+ pD) = 0 =>

Cov{Pj, P\ + P2 + ■■■ + Pd) = 0 => (1)

ZCov(p;, pj) = -Var(pj).


'*]
De plus, les corrélations entre deux composantes peuvent même changer de
signe, selon qu'on les considère dans la composition à D parts ou dans une
sous-composition. L'interprétation de ces corrélations est donc hasardeuse.

11.2.2 Tranformation air (log-ratio additif)

On voit qu'il n'est pas facile de travailler avec les compositions dans le
simplexe directement. On est donc amené à chercher une transformation qui
possède les propriétés suivantes :
a) Invariance : En général, la contrainte de somme K est fixée à 1. Une
transformation est invariante si elle ne dépend pas de K.
b) Cohérence sous-compositionnelle : Les corrélations entre composantes
ne changent pas, qu'on les considère dans la composition entière ou
dans une sous-composition.

La transformation air (additive logrciîio) vérifie ces propriétés et est une


généralisation de la transformée logit. Elle consiste à former le vecteur des
ratios des parts à la dernière part et à en prendre le logarithme.
Posons d = D - \ . La représentation air du vecteur de composition p est
donnée par (2) :

alr(p) = (InO, / pD), ln(pd / PD)) (2)

alr(p) s R1*.
Dans certains cas, on peut voir un inconvénient à donner un rôle différent à
une composante. Le log-ratio centré (transformée clr, vecteur de dimension
D) permet de l'éviter en divisant chaque part par la moyenne géométrique
des parts, au lieu de la dernière. Le log-ratio isométrique (Egozcue et coll.,
2003) permet de définir une base dans le simplexe. Dans le présent article,
nous considérons la transformée air. La figure 7.10 montre pour D = 3 la
correspondance entre le simplexe et le plan des coordonnées air.
On obtient la clôture p d'un vecteur w à coordonnées positives en le
divisant par la somme de ses composantes,
p = C(w) = w/X>,-
376 Pratique et méthodes de sondages

Les deux opérations dans le simplexe qui correspondent à l'addition


vectorielle et à la multiplication par un scalaire pour la transformée air sont
respectivement :
a) La perturbation

a © p = Cia^P), a2p2, aDpD).

b) L'élévation à la puissance suivie de la clôture

è G p = C(pf, P2, -Pu).

Figure 7.10 : Catalogue de transformations air

=îr,„.
A ■: -A A ■

A;- A .
A ■ A

-f»: 4
A •: A ■ A a

A A ■

Les graphiques vont par paires. Le plan cartésien montre l'image air de la ligne dans le triangle de
gauche.

11.3 Application aux enquêtes

Graf (2006a, 2006b) applique la méthodologie de Aitchison aux enquêtes


complexes dans le cas particulier des domaines de confiance de compositions
fondés sur le plan. Ici, nous nous intéressons à l'estimateur de la matrice de
covariance d'une composition particulière, la clôture de la moyenne
géométrique (composante par composante) des compositions individuelles,
qui est l'image dans le simplexe de la moyenne arithmétique des transformées
air. Cet estimateur va être établi en plusieurs étapes.
7. Théorie des sondages 377

11.3.1 Estimateurs fondés sur le plan

Soit p^, k = \, N, un ensemble de compositions à D parts dans une


population U de taille /V, = l / tca. le poids d'enquête de l'unité k et
^(5") l'indicatrice d'appartenance à l'échantillon S. Les estimateurs de la
moyenne arithmétique et de la clôture de la moyenne géométrique sont
respectivement donnés par :

PaiS) = ^ 7^7 Z WkZk(S)pk (3)


l^keUWkzk\^) keU

p (5) =
« V ' 777 O n KJ:*(S)]0 P,. (4)
LkeUWk^iS) keU

Dans la formule (4), le produit s'entend composante par composante.


Remarquons que la première clôture (sous le signe produit) se simplifie
lorsque l'on effectue la seconde clôture.

11.3.2 Matrice de covariance

La matrice de covariance approximative fondée sur le plan d'une statistique


vectorielle différentiable Q(5) peut se calculer en linéarisant Q, vue comme
fonction des indicatrices, autour de leur espérance qui sont dans notre cas les
probabilités d'inclusion (Kendall, 1942, voir Stuart et Ord, 1994). La
matrice de covariance linéarisée de Q s'obtient alors directement à partir de
celle des indicatrices :

« - O)
5zk

\%r(Q(5)H X Q'i(Q'k)' Kik


~ ■ (6)
i, keS ^ik

Pour le cas bien connu de la moyenne arithmétique pondérée, on obtient

ôpu, WkPk (ZisC/ ) - wk çzi€U wnPi )


VA - Iti, , nN
^ "

_ MPk-Pa(U)) (7)
Wn
'ZizU i i
L'expression (7) est estimée par le résidu :

W
_ k(Pk - PqC'^))
Q'k = — -• (8)
• c W:I
ieS
378 Pratique et méthodes de sondages

La transformée air de la moyenne géométrique est simplement :

1
alr(p (S))=— — X ^z*:(5)alr(P<:)- (9)
w
Lksu kZk(S) ksu

On a donc, par analogie avec la moyenne arithmétique, un résidu de la


même forme que l'équation (8) :

Q, vMalr(p,)-alr(p,))
!,■ eSWi
On en déduit par substitution dans l'équation (6) la matrice de covariance
Va,r fondée sur le plan.

Un calcul élémentaire mais long montre que pour la clôture de la moyenne


géométrique, la linéarisation via la transformée air fournit :

-^pç(S) = UQ^ (11)

où le résidu est donné par ( 10) et

U = [diag(p (5)) - pe(*S,)p (5/]

où la dernière matrice est la matrice identité de dimension D - 1, augmentée


d'une ligne de zéros. La matrice de covariance cherchée vaut donc

V, - uvalru'.

L'avantage de l'approche fondée sur le plan est qu'elle ne fait pas


d'hypothèse sur la distribution conjointe des parts, contrairement à la théorie
classique. Cela ouvre la voie à des méthodes d'analyse plus souples des
compositions dans le cadre des enquêtes.

BIBLIOGRAPHIE

Aitchison, J. (1986). The Statistical Analysis of Compositional Data.


Monographs on Statistics and Applied Probability. Chapman & Hall.
(Réimpression en 2003 avec une mise à jour par The Blackbum Press).
416 pages.
Aitchison, J. (1997). The one-hour course in compositional data analysis or
compositional data analysis is simple. Dans Proceedings of IAMG'97 \ The
third annual conférence of the International Association for Mathematical
Geology, (Éd., V. Pawlowsky-Glahn), Volume I, 3-35.
7. Théorie des sondages 379

Brunsdon, T.M., et Smith, T.M.F. (1998). The time sériés analysis of


compositional data. Journal of Officiai Statistics, 14(3), 237-253.
Egozcue, J.J., Pawlowsky-Glahn, V., Mateu-Figueras, G. et Barcelô-Vidal, C.
(2003). Isometric logratio transformations for compositional data analysis.
Maîhemaîical Geology, 35(3), 279-300.
Fry, J.M., Fry, T.R.L. et McLaren, K.R. (1996). Compositional data analysis
and zéros in micro data. Centre of Policy Studies [COPS), General Paper
No. G-120, Monash University.
Fry, J.M., Fry, T.R.L. et McLaren, K.R. (2000). Compositional data analysis
and zéros in micro data. Appt. Economies, 32(8), 953-959.
Graf, M. (2006a). Swiss Eamings Structure Survey 2002-2004.
Compositional data in a stratified two-stage sample: Analysis and précision
assessment of wage components. Rapport de méthodes 338-0038, Office
fédéral de la statistique, Neuchâtel.
Graf, M. (2006b). Précision of compositional data in a stratified two-stage
cluster sample: Comparison of the Swiss earnings structure survey 2002 and
2004. Joint Statistical Meeting 2006, ISBN 978-09791747-2-8.
Martin-Fernândez, J.A., Barcelô-Vidal, C. et Pawlowsky-Glahn, V. (2000).
Zéro replacement in compositional data sets. Dans Studies in Classication,
Data Analysis, and Knowledge Organization, Proceedings of the 7'h
Conférence of the International Fédération of Classication Societies
{IFCS'2000), (Éds., H. Kiers, J. Rasson, P. Groenen et M. Shader),
Springer, 155-160.
Sàmdal, C.-E., Swensson, B. et Wretman, J. (1992). Model Assisted Survey
Sampling. Springer Sériés in Statistics. Springer.
Stuart, A., et Ord, J.K. (1994). Kendall's Advanced Theory of Statistics,
Distribution Theory, 6e Edition, Wiley. Volume 1.
van den Boogaart, K.G., et Tolosana-Delgado, R. (2007). "compositions": A
unified R package to analyze compositional data. Computers &
Geosciences, doi: 10.1016/j.cageo.2006.11.017.
o
(N
<S)
-C
CT1
>-
CL
O
U
Index des auteurs

ALGAVA, Elisabeth 297 COURTEMANCHE, Robert 357


ANDRIAMARO, Frédérique 99 CROUTTE, Patricia 278
ANTOINE, Philippe 237 DAOUST, Pierre 181
ARDILLY, Pascal 328 DAVID, Christophe 288
BATOMEN, Francis 338 DAWAGNE, Jean-Marie 342
BAYART, Caroline 305 DE CLEDAT, Bernard 274
BEAUCHEMIN, Cris 95, 250 DELAUNAY, Valérie 99
BECK, François 129,133, 270, 288, 292, 310 DESLAURIERS, Mélanie 164
BELTZER, Nathalie 288 DETREZ, Marc-Antoine 125
BEZARA, Manasé 209 DEVILLE, Jean-Claude 319, 334
BIGOT, Régis 278, 288 DIA, Modou 49
BLINEAU, Valérie 270 DIAZ OLVERA, Lourdes 314
BONNEL, Patrick 305 DIDIER, Emmanuel 10
BORG, Peter-Paul 104 DOS SANTOS, Séverine 45
BOUFRAIOUA, Leila 241 DOUAY, Caroline 125
BRÉCHON, Pierre 145 DRIOUCHl, Driss 80
BRENNAN, James 181 DROESBEKE, Jean-Jacques 1
BRINGÉ, Arnaud 250 DUMAIS, Jean 53
BRION, Philippe 195 DURAND, Claire 164
CALVÈS, Anne-Emmanuèle 246 EL AFIA, Abdellatif 70
CARON, Nathalie 59 EVRARD, Isabelle 270
CAVALIN, Catherine 35, 292 FAIVRE, Sébastien 265
CÉLÉRIER, Sylvie 35 FAIZI, Moustapha 80
CFIANDESRIS, Maguelonne 319 FAIZI, Ridwan 70
CHANVRIL, Flora 301 FRECHON, Isabelle 233
CHAUVET, Guillaume 319, 334 GAGNON, Éric 357
CHAUVIN, Pierre 125 GAUTIER, Arnaud 270, 310
CHIHEB, Ridouan 70 GOUEM, Wendnso Maria Sidonie 74
CHRISTINE, Marc 265 GRAF, Monique 373
COMPAORE, Fabris W. 218 GREMY, Isabelle 288

Vous aimerez peut-être aussi