Académique Documents
Professionnel Documents
Culture Documents
DE SONDAGE
^ Enquêtes électorales
de la santé
en développement
Consultez nos parutions sur dunod.com
-ir.l x|
• Ié, hn eirod :» "3 ^ r
W V ét «tr onl-i MM Uiswoti ^ - Q - A>
R»ch«rch« Ccietinns Me* rejointe
Lc<Kivn;*
FTsr Mon compte
Ifttwf atlfln» - H
m
iiiïUJitXi.'Uti
-l-ll-.-y
DiicMB 2C£
Unoeon;
3*« Vçf»» D« 1
ccxçr-'Or 11
Ramst-B 2008 : Bûiioïftècue au DSI
exioet la nouve«e
formule : . rîiin Picrr ( .r.iii Rm Gesaon mduslneiie
Therry de Uoottroi Ukl: J KmV Mélos ae l> wgne
les ntevew^ élOj^n
!•*:«*• e. ManeDno «
Commurecalon
v^riiara Direoeu'
délssiissement social
rWcouvro/ Mt méoco-socul
Profowroo bit.olheQuc^
il5W£^l
Mvdopmmwl usioonnal Ta'êl :
et concnna tJecoj.rer le
/
>v;i h x tel éclco sociale
P is::ilI egiiin Psycnotegn
FlK-IjDfVl
Rcsnel Dé*eioopenier(!
îlecnatiê posonrel ei Biw-éire
RisinsK Entfepnse
Eipolise comolabe
Inlonnainrje oIN'IC
Infljsliie
toutes les newsietios
'lolte tmh
METHODES
DE SONDAGE
de la santé
en développement
Sous la direction de
Philippe Guilbert
David Haziza
Anne Ruiz-Gazen
Yves Tillé
DUNOD
Illustration de couverture : Digitalvision
AVANT-PROPOS
CHAPITRE 7 • ÉCHANTILLONNAGE
1. Contraintes d'équilibrage non linéaires
Éric Lesage 285
2. Sondage systématique et sondages à support minimal
Johan Pea, Lionel Qualité et Yves Tillé 290
3. Échantillonnage sous contraintes à entropie maximale : un algorithme rapide basé sur
l'optimisation linéaire en nombres binaires
Philippe Périé 294
4. Amélioration de l'allocation de Neyman en tenant compte de la précision
dans les strates de publication
Malik Koubi et Sandrine Mathern 299
5. Coordination des échantillons en utilisant la sélection contrôlée
Alina Matei 305
6. Tirages coordonnés d'échantillons stratifiés : méthodes basées sur des microstrates
Desislava Nedyalkova et Yves Tillé 309
7. Échantillonnage sur les flux de données : état de l'art
Raja Chiky, Alain Dessertaine et Georges Hébrail 314
Table des matières v
CHAPITRE 8 • ESTIMATION
1. Calages successifs, calages itérés
Jean-Claude Deville 319
2. Sur l'utilisation de la régression non paramétrique pour des données d'enquêtes
Torsten Harms et Pierre Duchesne 327
3. Un échantillon double pour minimiser le biais dû à la non-réponse dans
un sondage par courrier
Herbert L. Smith 334
4. Sondage à deux systèmes d'unités primaires couplées
Sébastien Hallépée et Vincent Loonis 339
5. Intégration de deux sources de données dans les inventaires forestiers du Québec
Sophie Baillargeon et Louis-Paul Rivest 344
6. Comparaison de trois méthodes d'estimation du loyer fictif
Modou Dia 348
7. Estimation de courbes de consommation électrique à partir de mesures
non synchrones
Alain Dessertaine 353
8. Méthodes de Bootstrap en population finie
Guillaume Chauvet 357
9. Une méthode Bootstrap pratique pour tester des hypothèses à partir
de données d'enquête
Jean-François Beaumont et Cynthia Bocci 365
10. Estimation de variance en présence de deux échantillons : linéarisation et Bootstrap
Guillaume Chauvet, Camélia Goga et Anne Ruiz-Gazen 369
11. Évaluation de précision par Bootstrap pour des algorithmes de tirage
à probabilités inégales : une étude empirique
Aurore Kervella, Emmanuel L'Hour, Nicolas Raillard, Stevenn Volant et
Guillaume Chauvet 374
ai
>-
CL
O
u
Avant-propos
populations finies est traitée dans deux autres textes. Une méthode utilisant
les poids bootstrap pour tester des hypothèses sur des paramètres analytiques
est présentée. Ce chapitre contient aussi la présentation de l'utilisation du
modèle linéaire mixte pour l'intégration de deux sources de données dans les
inventaires forestiers du Québec, une comparaison de trois méthodes
d'estimation de loyer fictif, l'utilisation de l'échantillonnage à deux-phases
pour réduire les biais de non-réponse, une présentation de certaines facettes de
l'estimation dans le cadre de l'enquête Vie Quotidienne et Santé ainsi qu'une
description de l'estimation de courbes de consommation électrique à partir de
mesures non synchrones.
Nous voulons remercier toutes les personnes qui ont contribué au succès du
cinquième colloque francophone sur les sondages en particulier les membres
du comité scientifique1 et du comité d'organisation2 qui ont consacré
beaucoup de temps pour que cette manifestation soit une réussite. Les
principaux partenaires de cette manifestation ont été l'Observatoire Régional
de la Santé (ORS) de Provence-Alpes-Côte d'Azur, la Direction régionale
Provence Alpes Côte d'Azur de Institut national de la statistique et des études
économiques (Insee), le Centre d'études et de recherches sur les qualifications
(Céreq), le Laboratoire population-environnement-développement (Lped), le
Laboratoire d'économie et de sociologie du travail (Lest), l'Institut fédératif
de recherches sciences humaines économiques & sociales d'Aix-Marseille
(IFR 134 SHESS-AM) et le Centre sur la Population et le Développement
(CEPED). Nous exprimons également notre gratitude envers les institutions et
les entreprises suivantes qui, par leur soutien financier, ont permis la
réalisation du colloque et de cet ouvrage : Ined, Insee, Fondation pour la
science, Cnrs, Drees, InVS, Inpes, Office fédéral suisse de la statistique,
Institut de la statistique du Québec, Ville de Marseille, BVA, IPSOS, LH2,
IRDES. Nous remercions les auteurs des articles de cet ouvrage qui ont
travaillé avec diligence pour se conformer à nos exigences éditoriales. Enfin,
nous voulons remercier tout particulièrement Céline Ethier qui a réalisé la
et statistique publique
sources multiples
1
Jean-Michel CHARPIN
1.1 Introduction
Après presque cinq années à la tête de l'Insee, j'ai acquis une expérience
pratique de l'estimation statistique à partir de sources multiples. C'est sur la
base de cette expérience que je formulerai quelques remarques modestes.
Même quand je pourrais le faire, je ne chercherai pas à entrer dans les aspects
scientifiques de l'estimation à partir de sources multiples.
sources multiples
l Inspecteur général des Finances, ancien directeur général de l'Insee de janvier 2003 à
octobre 2007.
2 Enquêtes et sondages
sources multiples
Pour les estimations publiées 70 Jours après la fin du trimestre, l'Insee utilise
systématiquement une enquête, l'enquête sur l'activité et les conditions
d'emploi de la main-d'œuvre (ACEMO) de la Direction de l'animation de la
recherche, des études et des statistiques (DARES) (exploitation dite de 2eme
tour, le 1er tour ayant servi pour les premières estimations publiées 45 jours
après la fin du trimestre), et deux sources administratives, celle de l'Union
nationale interprofessionnelle pour l'emploi dans l'industrie et le commerce
(UNEDIC) et celle de l'Agence centrale des organismes de Sécurité sociale
(ACOSS).
Le principe d'arbitrage consiste à déterminer dans chaque catégorie, fondée
sur le secteur et la taille des entreprises, la source qui s'est révélée la plus
performante dans le passé récent et à l'adopter jusqu'au prochain réexamen,
en général annuel. Au cours des dernières années, la source ACOSS a vu son
importance augmenter, d'une part, parce qu'elle est la seule à couvrir les
établissements de moins de 10 salariés (ce qui lui donnait un avantage majeur
en période de montée en charge du contrat nouvelles embauches), d'autre
part, du fait de sa fiabilité croissante.
En raison de la forte volatilité de ses résultats, et bien que ceux-ci soient
disponibles dans les délais, l'enquête Emploi n'a jamais été mise à
contribution pour établir les estimations conjoncturelles d'emploi. Il s'agit
d'un cas intéressant et relativement rare de renoncement à l'utilisation d'une
source pourtant disponible.
4 Enquêtes et sondages
tendance
cause
La situation dans laquelle chaque source est publiée en tant que telle sans
tentative de synthèse avec les autres sources est susceptible de dérouter
l'utilisateur, mais elle est confortable pour le statisticien. C'est pourquoi, par
exemple, l'Insee a décidé fin septembre 2007 d'y revenir en matière
d'estimation du chômage. Si la mise en cohérence des différentes sources
n'est pas possible, ce qui s'est avéré avoir été le cas en 2006, pourquoi en
effet ne pas publier séparément chacune d'elles à son rythme, mensuel pour la
source administrative de l'Agence nationale pour l'emploi (ANPE),
trimestriel pour l'enquête Emploi, annuel pour le recensement. Dans une telle
configuration, les trois estimations seront de fait en concurrence.
L'approche de la synthèse suppose de déterminer, soit avant de connaître
les résultats, soit au vu des résultats, comment on pondère les apports des
différentes sources. La démarche est plus objective et plus rigoureuse, et en
conséquence la pédagogie facilitée, quand la méthode est choisie avant que
les résultats soient disponibles et qu'elle résulte d'un processus d'optimisation
rationnel testé et calibré sur les données passées.
La statistique publique se fixe pour règle d'être toujours totalement
transparente dans l'explication de ses méthodes. Mais il est clair que ses choix
sont soumis à débat public, et peuvent donc faire l'objet de critiques. A cet
égard, l'estimation à partir de sources multiples crée des configurations plus
propices à la controverse que l'estimation à partir d'une source unique ou la
publication séparée des résultats découlant de chaque source.
1.6 Conclusion
Les problèmes soulevés par l'estimation à partir de sources multiples sont des
problèmes de riches. A tout prendre, ils sont peu de choses par rapport aux
difficultés des statisticiens confrontés à une pénurie de chiffres, dans les pays
en développement ou, sur certains sujets, dans les pays développés.
6 Enquêtes et sondages
2
France LAPOINTE, Jimmy BAULNE et Louise BOURQUE
2.1 Introduction
2.2.2 Sources
Le recueil des bonnes pratiques réunit des pratiques reconnues par plusieurs
organismes statistiques. En effet, l'élaboration du document s'appuie d'abord
sur un rapport de recension des pratiques de référence. Celui-ci a été rédigé à
partir des lignes directrices sur la qualité de Statistique Canada (Statistique
Canada, 2003) et de Statistique Finlande (Statistics Finland, 2002) et sur des
documents de l'Office for National Statistics (Government Statistical Service,
1997 et National Statistics, 2006) et de Statistique Nouvelle-Zélande
(Statistics New Zealand, 1998).
Plusieurs de ces pratiques sont déjà couramment en usage à l'Institut. C'est
ce qu'a montré le rapport de constat des pratiques actuelles en matière de
qualité dans les enquêtes de l'Institut, qui est la seconde source au recueil des
bonnes pratiques. Pour établir ce constat, on a procédé à l'examen de
plusieurs types de projets d'enquêtes au moyen d'une grille d'observation
commune. Par exemple, des enquêtes effectuées auprès des ménages et
d'autres faites auprès des entreprises ont été revues ; certaines utilisaient la
collecte téléphonique, d'autres, des entrevues en personne et certains projets
examinés utilisaient un mode mixte de collecte de données. On s'est
également assuré que l'échantillon de projets choisis permettait de représenter
les différentes entités et les différents contextes de réalisation d'une enquête
présents à l'Institut. Par exemple, certaines enquêtes font partie de la
programmation régulière des travaux statistiques de l'Institut et d'autres sont
réalisées pour le compte de clients externes. Certaines enquêtes sont de nature
récurrente, alors que d'autres ne sont produites qu'à une seule occasion.
La grille d'observation commune qui a servi à établir le constat est basée
sur le questionnaire européen DESAP (Laiho et Nimmergut, 2004). Ce
questionnaire a d'abord été conçu pour répondre à une recommandation du
Leadership Group on Quality (Lyberg, 2001), qui stipulait qu'un outil
générique standardisé devait être mis au point pour un programme
d'autoévaluation de la qualité par les gestionnaires d'enquête du système
statistique européen. La grille DESAP comporte des questions portant
spécifiquement sur l'évaluation de la qualité obtenue, mais elle contient aussi
plusieurs questions sur les processus de réalisation de l'enquête. Ces
1. Qualité des enquêtes et statistique publique 9
2.3.2 Sources
2.4 Conclusion
Les prochains pas à franchir pour la mise en application des outils de gestion
de la qualité des enquêtes de l'Institut de la statistique du Québec seront
déterminants. Pour le moment, l'important défi que posent la multiplicité des
contextes de réalisation des enquêtes et la présence au sein de l'organisation
de plusieurs cultures de qualité a, dans une certaine mesure, été pris en
considération. En effet, la constitution d'un groupe de travail multi-
disciplinaire pour l'élaboration des outils assure une certaine représentation
des différents contextes et la participation de toutes les entités concernées.
Reste que la manière de présenter le recueil des bonnes pratiques et la grille
d'autoévaluation de la qualité à l'ensemble du personnel de l'Institut devra
faire l'objet d'une attention particulière. Certes, le leadership de la direction
de l'Institut relativement à la gestion de la qualité favorisera une bonne
réception de la part du personnel concerné. Les expériences passées de
l'introduction de nouvelles politiques au sein de l'organisation, celles
relatives à la confidentialité notamment, pourront aussi être mises à profit. En
effet, comme lors de l'introduction des politiques de confidentialité, des
activités de communication et de formation de tout le personnel associé à la
réalisation d'enquêtes statistiques sont prévues. Ces activités seront des
moyens privilégiés de mesurer la réception des outils mis au point et d'en
assurer l'appropriation souhaitée.
Enfin, une politique sur la qualité dans les enquêtes suivra l'élaboration du
recueil des bonnes pratiques et de la grille d'autoévaluation. Cette politique
viendra préciser l'utilisation de ces outils de gestion et d'amélioration de la
qualité des produits d'enquêtes de l'Institut de la statistique du Québec.
BIBLIOGRAPHIE
3
Pierre BRÉCHON
L'enquête sur les valeurs des Européens (EVS) est faite pour la première
fois en 1981 pour mieux comprendre les bouleversements des sociétés
3
occidentales . La morale traditionnelle étant en crise, sur quel socle de valeurs
la cohésion des sociétés peut-elle se construire ? La passation du
questionnaire dure une heure et permet de mesurer les attitudes dans tous les
grands domaines de l'existence : éthique et sens de la vie, relations sociales,
famille, travail, religion, politique (voir: www.uvt.nl/evs). Très vite, une
opération voisine s'est développée, la World Values Survey. Elle utilise assez
largement le même questionnaire dans des pays non européens. La EVS est
répliquée tous les neuf ans (1981, 1990, 1999, 2008), la WVS tous les cinq
ans. Au fil du temps, le nombre de pays enquêtés a beaucoup progressé (34
pays européens en 1999 et probablement autour de 40 en 2008). Au total, 85
pays dans le monde ont été enquêtés au moins une fois sur tous les continents,
ce qui soulève une question épistémologique. Un même questionnaire, diffusé
dans des pays dont le développement et la culture sont très différents,
constitue-t-il un outil adéquat pour mesurer les différences de valeurs ?
L'analyse des résultats permet cependant de discuter solidement sur les
fondements religieux et économiques des différences culturelles (Inglehart,
1999).
L'enquête ISSP a été au départ mise en œuvre par des sociologues de 4
pays, engagés dans des enquêtes sociopolitiques nationales (Grande-Bretagne,
États-Unis, Allemagne, Australie). Pour pouvoir comparer leurs sociétés, ils
ajoutent chaque année à partir de 1985 un module commun sur un thème
particulier, répliqué quelques années plus tard : rôle du gouvernement,
réseaux sociaux, inégalités, famille et rôles sexués, sens du travail, religion,
environnement, identité nationale, citoyenneté, loisirs et sports. Aujourd'hui
43 nations participent à TISSP : 21 de l'Union européenne, presque tous les
pays développés hors de l'Europe, des pays émergents comme par exemple le
Brésil, le Mexique, l'Afrique du Sud, la Corée du Sud ou les Philippines6.
L'augmentation du nombre de pays s'est accompagnée d'une diversification
des modes d'administration de l'enquête. L'échantillonnage est toujours
aléatoire mais l'enquête est parfois en face-à-face, parfois auto-administrée.
Cette diversité peut troubler la comparaison. Par ailleurs, l'ISSP étant dans
certains pays couplé avec une enquête nationale, il y a des différences dans la
formulation des variables sociodémographiques. Pour une présentation de
résultats comparatifs basés sur TISSP, voir Tos, Mohler et Malnar, (1999).
L'enquête ESS vise des objectifs assez voisins de ceux de la EVS et de
TISSP, mais une attention beaucoup plus grande a été portée dès l'origine à la
méthodologie (voir : http://www.europeansocialsurvey.org). Le contrôle des
5 Jean Stoctzcl (1983) et Hélène Riffault (1994) font partie des fondateurs de cette
entreprise européenne.
6 On pourra compléter son information sur le site www.issp.org. La France participe à
l'opération depuis 1996 : on peut consulter le site français : www.issp-francc.info.
1. Qualité des enquêtes et statistique publique 13
ne peuvent être trop marqués par les débats propres à un pays particulier. Les
questionnaires perdent du coup en convivialité.
On peut cependant observer des différences dans les types de questions
choisis, notamment entre les enquêtes Valeurs et ISSP. EVS comporte très
peu d'indicateurs de comportements. Selon la théorie sous-jacente à cette
enquête, les individus agissent en fonction des valeurs qu'ils ont intériorisées.
Ce sont donc ces valeurs qu'il convient de mesurer de manière comparative,
pour comprendre les cultures profondes. Du fait de ses liens avec des
enquêtes sociales nationales, l'ISSP mesure beaucoup plus des
comportements concrets et pas seulement des principes. De plus, EVS,
probablement plus marquée par une culture catholique, aimait beaucoup, à
l'origine, les questions dichotomiques, comme si les croyances et les
systèmes de pensée devaient s'adopter de manière totale. L'ISSP correspond
davantage à une culture protestante où l'univers des valeurs et des croyances
est relativiste. On s'efforce donc de permettre aux enquêtés d'exprimer des
positions nuancées et on leur offre souvent 5 ou 6 modalités différentes de
réponses. Alors que ces enquêtes abordent souvent les mêmes thématiques,
les questions entièrement communes sont très rares7.
Il faut souligner une difficulté commune à toutes les enquêtes
internationales, celui de la traduction du questionnaire maître dans les
différentes langues nationales. Il est très difficile d'arriver à une traduction
complètement identique parce que les mots n'ont pas les mêmes connotations
dans les différentes langues. Il faut donc toujours se demander si un écart
enregistré sur un indicateur correspond à une véritable différence culturelle ou
seulement aux connotations fluctuantes du vocabulaire. Pour faire face à ce
problème, il est conseillé de comparer des échelles d'attitudes construites sur
plusieurs indicateurs plutôt que les résultats de chaque question.
BIBLIOGRAPHIE
maître de l'Insee
8
Marc CHRISTINE et Sébastien FAIVRE
4.1 introduction
10 Lesquels étaient complétés par des listes de logements « neufs », construits après le
dernier recensement, alimentées par les fichiers de permis de construire.
1 1 Organisation Coordonnée de Tirages Optimisés Pour une Utilisation Statistique des
Echantillons.
18 Enquêtes et sondages
Un échantillon de ZAE sera ensuite tiré au sein de chaque région avec des
probabilités proportionnelles à leur taille, et sous des conditions d'équilibrage
impliquant différentes données sociodémographiques : nombre de logements
principaux, revenu, type d'espace (rural/urbain). Les grandes communes au-
dessus d'un certain seuil (défini par e/z, où x est le taux de sondage d'une
enquête standard et e le nombre moyen de logements à tirer par ZAE,
paramètres fixés en tenant compte de la pratique usuelle x = 1/2 000,^ = 20)
seront retenues d'office et affectées à plusieurs enquêteurs. Chaque ZAE tirée
1. Qualité des enquêtes et statistique publique 19
BIBLIOGRAPHIE
structurelles d'entreprises
14
Gwennaëlle BRILHAULT et Philippe BRI ON
annuelles d'entreprises
données
des données d'une enquête passée fournissant à la fois des données finales
(jugées comme correctes, qu'on assimile à des données contrôlées
manuellement) et des données brutes (qu'on utilise comme proxy des données
redressées uniquement de manière automatique). On observe sur ces données
l'impact, sur différentes statistiques, du fait d'utiliser des données brutes en-
dessous du seuil et des données finales au-dessus, et au vu des courbes
obtenues pour les statistiques en question en faisant varier le seuil15, on décide
de la valeur à partir de laquelle les estimations semblent suffisamment
stabilisées : on détermine ainsi combien d'entreprises il « suffit » d'avoir
corrigé manuellement pour que l'agrégat étudié approche de manière
satisfaisante sa valeur finale (connue pour l'enquête passée utilisée).
rencontrés
Le premier problème auquel ces essais nous ont confrontés est celui des
données manquantes pour les variables étudiées. Ces données manquantes
peuvent être liées au renouvellement partiel de l'échantillon enquêté (unités
absentes de l'échantillon de l'année précédente) ou à la non-réponse de
Ces solutions ont été utilisées dans les essais sur données passées visant à
fixer les seuils, mais également dans le véritable calcul des scores du test en
vraie grandeur.
BIBLIOGRAPHIE
enquête européenne
couplage avec l'enquête ménage sur la formation des adultes réalisée en 2006
pour la France (AES - Adult Education Survey) avec des conséquences
directes sur l'échantillonnage : des entreprises issues des interrogations
ménages ont constitué une partie de l'échantillon, complété par un tirage dans
SIRENE.
17 Soit 17 % des entreprises ayant reçu un identifiant et un mot de passe pour l'accès au
site.
18 Par exemple, introduction dans le décompte des formations de celles relatives à
l'hygiène et à la sécurité.
28 Enquêtes et sondages
fiscale. Les variables demandées étaient proches mais avec des champs et des
définitions européennes un peu plus larges. Ceci présentait un risque -que les
entreprises n'adaptent pas leurs données- et un avantage -elles pouvaient
s'appuyer sur le premier travail de collecte effectué19.
Un travail systématique a été entrepris sur des variables quantitatives afin
de valider la cohérence des données recueillies avec la source 2483 (Lavallée,
2005). Dans environ 10 % des cas, une divergence de plus de 40 % existait
entre l'effectif enregistré dans SIRENE (source de tirage) et le déclaratif de
l'entreprise. Cela nous a conduit à nous interroger plus globalement sur la
cohérence des effectifs salariés entre les données statistiques (CVTS) et la
source administrative (2483) et sur l'impact qu'ont pu avoir les données 2483
sur les réponses des entreprises. Nous avons comparé l'« effectif salarié »
SIRENE et 2483 et « effectif salarié CVTS » entreprise par entreprise lorsque
la source 2483 le permettait et les distributions sur la base la plus large.
L'étude de la fonction de répartition (moyenne, écart-type, graphiques des
distributions) fait apparaître par exemple, pour les entreprises de moins de 50
salariés, un plus grand rapprochement de CVTS avec 2483 qu'avec SIRENE
et une grande conformité entre les ensembles d'entreprises hors et dans 2483.
De sorte que les différences observées entre l'effectif salarié SIRENE et
CVTS sont davantage dues à des problèmes de mise à jour de l'effectif dans
la source SIRENE. Un travail de même nature a été réalisé sur la variable de
coût du travail (rapport entre la masse salariale et l'effectif salarié). Dans tous
les cas, les distributions ne présentent pas de dissimilitudes marquées. Nous
avons conclu que les informations issues des deux sources de données étaient
cohérentes en ce qui concerne le coût du travail.
19 Notons que l'interrogation CVTS intervenait dans les jours qui suivaient la date limite
de déclaration fiscale 2483 pour les entreprises.
1. Qualité des enquêtes et statistique publique 29
l'enquête au final (78 % des répondantes avaient donné leur accord), mais un
peu plus de 23 % des entreprises pour lesquelles le contact amont n'avait pas
permis d'obtenir d'accord ont tout de même répondu à l'enquête. La phase
dite de « qualification » a porté ses fruits, mais de manière limitée. Le choix
d'insister auprès des entreprises non jointes en phase de qualification a permis
d'améliorer sensiblement le taux de réponse global et de limiter le biais de
non-réponse.
Des procédures qualitatives ont été mises en place afin de garantir la qualité
des données en amont et en cours d'interrogation. Une des difficultés relève
de la capacité à contacter la « bonne personne » dans l'entreprise et lui
permettre de préparer l'interrogation. Cette phase avait pour objectif de
limiter les réponses incorrectes ou manquantes. Par ailleurs, durant toute la
période d'interrogation, les entreprises avaient la possibilité de se connecter
au site Internet, sur lequel étaient mis à disposition les documents officiels,
les définitions européennes et la partie web du questionnaire. Le numéro vert
a également été sollicité par plus de 2 200 appels d'entreprises. 45 %
concernaient des demandes d'informations, 39 % étaient des prises de rendez-
vous, 15 % rencontraient des difficultés de connexion au site et 1 % des
appels signifiaient le refus de l'entreprise de participer. Du côté des
enquêteurs, deux accompagnements ont été mis en place : des formations
spécifiques régulières et des précisions techniques sur leur écran CATI pour
garantir une fiabilité et une harmonie dans les précisions apportées aux
entreprises. Des procédures de contrôles automatiques ont également permis
de limiter les erreurs de saisie et les incohérences globales. Un apurement sur
les données collectées a cependant été nécessaire à l'aide d'un traitement
semi-automatique des données, d'une manière un peu semblable à celle de
l'Enquête Annuelle Entreprise décrite par Mauguin (2004).
BIBLIOGRAPHIE
l'enquête Familles-Employeurs
7.1 Introduction
r m
21 •
Dans l'enquête Familles-Employeurs" , certaines caractéristiques des
établissements répondants de plus de 20 salariés sont disponibles à partir des
deux sources, volet individu et volet employeur, ce qui rend la comparaison
possible. L'utilisation d'autres données sur l'établissement, provenant du
répertoire SIRENE22 de l'Insee permet aussi, pour certaines variables,
d'affiner la comparaison. Lorsqu'on compare les données à partir des trois
sources, des divergences apparaissent parfois, concernant par exemple
l'effectif de salariés de l'établissement. On se pose alors la question de savoir
quelles sont les caractéristiques au niveau des établissements (caractère
public/privé, existence de plusieurs établissements au sein de l'entreprise,
secteur d'activité, etc.) ou au niveau des individus (fonction, responsabilité,
etc.) qui expliquent les divergences des données des différentes sources.
20 Institut National d'Études Démographiques (Ined), 133 Boulevard Davout, 75980 Paris
cedex 20, France (razafind@ined.fr, anne.papadopoulos@ined.fr, decledat@ ined.fr).
21 Voir l'article de Dauplait et de Clcdat dans cet ouvrage ou Pailhé et Solaz (2007) pour
une présentation de l'enquête.
22 Système Informatique pour le Répertoire des Entreprises et des Établissements. Nous
remercions la division Harmonisation des Enquêtes auprès des Entreprises (H2E) de
l'Insee pour avoir mis à notre disposition les données du répertoire SIRENE qui servent
de support à cette étude.
32 Enquêtes et sondages
24 Les effectifs du répertoire, mis à jour à partir des déclarations annuelles de données
sociales, portent sur 2004.
25 Elle intervient en effet lors de l'application de la méthode du « partage des poids »
(Lavallcc, 2002), qui est appliquée lors du calcul des pondérations de l'enquctc EFE.
34 Enquêtes et sondages
7.5 Conclusion
Si l'on se donne une certaine marge pour accepter la cohérence des données,
les comparaisons effectuées montrent que celles obtenues à partir du volet
employeur de EFE, du volet individu et du répertoire SIRENE concordent
fortement. En effet, les données concernant la taille de l'établissement sont
cohérentes dans 93 % des cas au niveau volet individu/volet employeur et
dans 95 % des cas au niveau volet employeur/S IRENE. Lorsqu'on s'intéresse
à l'activité principale, les données sont cohérentes dans, respectivement 79 %
et 91 % des cas. La pertinence de ces résultats peut bien sûr être discutée,
notamment en regard de la définition de la « cohérence ». Pour notre part,
nous avons considéré ici une définition assez large, étant donné la nature des
données disponibles.
Lorsque les données semblent incohérentes il est difficile de déterminer
alors si les divergences constatées proviennent de caractéristiques propres aux
établissements, à la position du salarié dans l'établissement, au codage ou
encore à la définition de chacun quant à la notion d'établissement (lieu de
travail, établissement payeur, numéro SIRET, etc.). Cependant, il ressort que
les établissements faisant partie de la fonction publique territoriale et ceux
BIBLIOGRAPHIE
ai
>-
CL
O
u
Chapitre 2
Enquêtes longitudinales
non-réponse non-ignorable et de
longitudinales
1 2
Gad NA THAN et Abdulhakeem EIDEH
1.1 Introduction
Les données issues des enquêtes par sondage, et surtout par les enquêtes
longitudinales, sont employées fréquemment pour inférer sur des modèles
supposés. Souvent on ne tient pas compte des traits du plan du sondage
(stratification, sondage par grappes ou à probabilités inégales) et les données
venant de l'enquête par sondage sont analysées en employant des méthodes
classiques, basées sur le plan de sondage aléatoire simple. Cette approche
peut mener à des inférences erronées à cause du biais de sélection, impliqué
par un plan de sondage informatif. Pour traiter les effets de tirage par
probabilités inégales sur l'analyse de données issues des enquêtes
longitudinales, Feder, Nathan et Pfeffermann (2000) ont appliqué des modèles
hiérarchiques en combinaison avec des modèles de séries chronologiques.
Pfeffermann, Krieger et Rinott (1998) ont proposé l'emploi de la distribution
Soit yi[ la valeur observée pour l'unité /(= 1,..., Af) en période r(= 1,..., T).
Avec chaque valeur, yti, sont associées les valeurs (connues), xjik,
£(= 1,...,/?), de p variables explicatives. On suppose que les valeurs y(.
suivent le modèle de régression : ya = p,*., + ... + p + s., où les valeurs
de 8(; pour t = l, ...,r, sont une série aléatoire de longueur f, associée à
chacun des N unités. La structure longitudinale des données suggère que les
valeurs de s a sont corrélées à l'intérieur des unités.
Soit y, =(y,l,-,y.T)', x„ = et soit P = le vecteur des
coefficients de régression inconnus. Le modèle linéaire général multivarié
pour les données longitudinales considère les vecteurs aléatoires y,-,
/ = 1,..., N, comme des variables normales multivariées, qui sont distribuées
yj | x) ~ MVN(\i P, V), où xi est la matrice de taille f x /? de variables
2. Enquêtes longitudinales 39
0) = £
|^rx^r/p0'jx"' e)^y'2' ^ x; e) (1)
= K+Kya+b*xlu+\xm+---+i>*np (3)
Eideh et Nathan (2004) considèrent, en plus, les modèles logit et probit pour
les espérances des probabilités d'inclusion.
40 Enquêtes et sondages
exp(a
/.(y,IM') = "^'')^)1 ^ 9) /pCy^ yl>'-,y.T I y* (4)
où 0 = («(1,0) sont des paramètres informatifs, que l'on doit estimer à partir
de l'échantillon, et M = isjexp^,,^,)] est la fonction génératrice des
moments de la distribution dans la population de y., étant donnée la valeur
de x i .
Si on suppose que la distribution de y., étant donnée la valeur de x., dans la
population est la distribution multivariée normale, on peut démontrer, en
supposant le modèle exponentiel pour les espérances des probabilités
d'inclusion, que la distribution dans l'échantillon de y., étant donnée la valeur
de x, est multivariée normale :
yjx. (5)
v v v 0 et v 2 T
'1 = v i" = ', = - ' > ^ ,'- = = > - (6)
n
informât! ve
ex
p(<|)i.y,i+"-+(t)j-iX.i. i+§d.y' )
V\{D=d
V , ,1\ HV)=P'P(H : Sid.WI
y" ;<p) = .| + CXp^J,,+...+
/x t
,() ' (7)
où estla
I l I densité de probabilité
marginale dans l'échantillon de la série yi et Fr(Di = dj\Hid) =
P, (Hid , y*(l ; (p) est défini par l'équation (7). Notons que ces résultats traitent
en même temps les effets de la non-réponse informative et ceux du plan de
sondage informatif.
Nous décrivons dans cette partie les méthodes d'estimation des paramètres
des modèles, proposés pour l'analyse des données issues des enquêtes
longitudinales, pour tenir compte des effets du plan de sondage informatif et
de ceux de la non-réponse non-ignorable. On propose deux méthodes
d'estimation, toutes les deux basées sur la distribution dans l'échantillon
précédemment décrite, en supposant le modèle exponentiel de l'équation (2).
42 Enquêtes et sondages
Les deux ensembles de paramètres dans l'équation (8) que l'on doit estimer
sont ceux de la distribution dans la population, 0 = (p,V), et les paramètres
de la distribution dans l'échantillon des valeurs observées : a0, le paramètre
du plan de sondage informatif, défini par l'équation (2) ; et (p, le paramètre du
modèle pour le processus de non-réponse, selon les équations (7). Indiquons
par 0 =(0, a,,,(p) l'ensemble des paramètres à estimer. D'abord les
paramètres de la distribution dans la population sont estimés par une méthode
en deux étapes sur base de la distribution dans l'échantillon des valeurs
observées. A la première étape les paramètres de l'espérance des probabilités
d'inclusion sont estimés. À la deuxième étape les autres paramètres sont
estimés par la minimisation de la log-vraisemblance, avec les estimateurs
issus de la première étape remplaçants les vraies valeurs des paramètres.
Selon Pfeffermann, Krieger et Rinott (1998), l'emploi de ce processus
d'estimation en deux étapes est nécessaire quand l'espérance conditionnelle
des probabilités d'inclusion est exponentielle, car dans ce cas il y a un
problème d'identifiabilité.
En réalité, les espérances conditionnelles des probabilités d'inclusion,
(tt lyj, ne sont pas connues et les seules données disponibles pour
l'analyste pour la première période sont les valeurs de {y.,, w. ; i e s}, où w =
l/rc sont les poids de l'échantillon. L'estimation des valeurs de £ (ti |y(l), en
employant seulement les données {y(1, w ;i g s}, peut être basée sur la
relation suivante (Pfeffermann et Sverchkov, 1999) :
eàwM
'ëMK)(9)
Cette approche est basée sur la solution des équations estimées par le
maximum de vraisemblance dans la population. Cet estimateur de maximum
de la pseudo-vraisemblance des paramètres 0 = (P,V) est défini comme la
solution des équations du maximum de vraisemblance dans la population,
qu'on peut exprimer, dans ce cas, comme :
2. Enquêtes longitudinales 43
Nous avons appliqué les résultats précédents aux données de l'enquête sur le
travail Britannique (LFS), pour l'estimation des flux bruts entre les statuts
d'activité pendant deux trimestres consécutifs, en supposant la non-réponse
informative, comme étudié déjà par Chambers et Clarke (1998) et par Clarke
et Tate (2002). On considère trois statuts de participation à la force du
travail - employé (E), non employé (U), et n'appartient pas à la population
active (N) - parmi lesquels on veut estimer les flux bruts. Pour l'application
des méthodes proposées, on doit modifier les résultats obtenus plus haut pour
traiter une variable catégorielle. En effet, on se base sur la distribution
multinomiale des fréquences pour les neuf catégories de flux entre les paires
de statut, avec les probabilités qu'on indique par œ(a, b) pour le flux entre
statut a et b, (a, b = 1,2,3). Les observations sont les nombres d'individus
dans le ménage h(= \,..., n), n^a, b), avec le flux {a,b). On suppose que la
non-réponse concerne les ménages entiers, c'est-à-dire que tous les individus
du ménage répondent si le ménage répond. Ceci correspond
approximativement à la situation réelle pour la plupart des enquêtes sur le
travail chez les ménages.
Les méthodes d'estimation considérées sont: (1) l'estimation simple a la
base des données non-pondérées ; (2) l'estimation pondérée avec les poids
individuels calibrés utilisés généralement pour le LFS (Clarke et Tate, 2002) ;
(3) maximum de vraisemblance dans l'échantillon selon le modèle
exponentiel par la méthode d'estimation en deux étapes ; et (4) maximum de
vraisemblance dans l'échantillon en employant le modèle de Heckman (1976,
1979).
Les résultats montrent des différences importantes entre les estimateurs
simples, d'un côté, et les estimateurs pondérés et ceux qui sont basés sur la
vraisemblance dans l'échantillon, de l'autre. Au contraire, les différences
entre les différentes méthodes pour traiter les effets du plan du sondage
complexe et ceux de la non-réponse sont assez petites. Les résultats sont aussi
semblables à ceux obtenus par Clarke et Tate (2002). Une explication
possible est le fait que toutes les méthodes appliquées emploient, de
différentes façons, les mêmes poids individuels calibrés du LFS.
44 Enquêtes et sondages
BIBLIOGRAPHIE
longitudinales au Canada
3
Michelle SIMARD
2.1 Introduction
3 Statistique Canada 16cmc, R.-H. Coats, 100 Promenade Tunney's Pasture, Ottawa,
Ontario, Canada, Kl A 0T6.
46 Enquêtes et sondages
transition
L'Enquête sur les jeunes en transition (EJET) est une enquête longitudinale
répétée (nouvelles cohortes à tous les trois ans) dont la première vague est
coordonnée avec le Programme international sur le suivi des acquis (PISA).
L'objectif principal de cette enquête est d'obtenir de l'information sur la
transition des jeunes adultes du milieu scolaire au marché du travail. La taille
d'échantillon de chaque cohorte est d'environ 26 000 répondants. Un aspect
particulier de cette enquête est qu'elle possède trois composantes, ou
questionnaires distincts, à remplir à la première vague. Concrètement, cela
signifie que le questionnaire PISA est complété (souvent le matin) par le
jeune étudiant de 15 ans à l'école et le questionnaire EJET est complété dans
l'après-midi de la même journée. Ensuite, un questionnaire-papier est posté
aux parents qui eux le complètent à la maison. Seule la composante EJET est
longitudinale. Ainsi les composantes PISA et Parent ne sont remplies qu'une
fois. La pondération de la composante PISA est effectuée, comme pour tous
les pays participants à ce Programme, par WESTAT aux États-Unis et non par
Statistique Canada.
2. Enquêtes longitudinales 49
jeunes
2.5 Conclusion
BIBLIOGRAPHIE
en Continu
Dominique PLACE4
3.1 Introduction
L'échantillon de secteurs a été divisé en six sous-parties de taille égale par des
tirages aléatoires simples. Ces six sous-échantillons ont été intégrés
successivement dans le dispositif lors d'une phase d'initialisation en 2001 et
2002. Dans un secteur, une seule aire est enquêtée à un trimestre donné. Elle
est enquêtée pendant six trimestres puis est remplacée par une autre aire du
secteur, l'ordre d'interrogation des aires ayant été déterminé aléatoirement. Le
taux de rotation entre deux trimestres consécutifs est donc de 1/6.
Comme la rotation s'effectue à l'intérieur des secteurs, on considère ici le
plan de sondage comme un plan à deux degrés : le premier degré, qui
regroupe les trois premiers degrés effectifs, est celui des secteurs, stables au
cours du temps, et les unités secondaires sont les aires, enquêtées
exhaustivement. Les variables d'intérêt sont les totaux par aire, par exemple
le nombre de chômeurs ou d'actifs dans une aire.
Les aires sont indicées par k, et les secteurs par i. La valeur de la variable
d'intérêt au trimestre t pour l'aire k est noté yk. Son total sur la population
est 7 U! désigne l'ensemble de tous les secteurs, sI l'échantillon de secteurs
tirés dans Ul et si l'échantillon d'aires du trimestre t. n. est la probabilité
d'inclusion du secteur i et nki la probabilité de sélection conditionnelle de
l'aire k contenue dans le secteur i : tl,.
k\i = \ /N.i où Ni est le nombre d'aires
dans le secteur. Ces probabilités sont indépendantes de la date t. Le premier
degré inclut aussi la sélection du schéma de rotation entre les deux trimestres
fixés t et c'est-à-dire la partition de 5, en deux sous-échantillons s'k" et
s""". Le premier sous-échantillon est celui des secteurs où l'aire enquêtée en t
est remplacée par une autre aire en t' et le second, celui des secteurs non
soumis à rotation. On note avec l'indice II les espérances et les covariances
^ ^ i ^
conditionnelles au premier degré: EII{Y) = E{Yi\sri\ s^") où Y est
l'estimateur de Horvitz-Thompson de K L'indice I indique une espérance
ou une covariance relative au plan de premier degré, s]'"'), rest le
taux de rotation entre les trimestres t et r' : r ;+l = 1/6 ; r /+2 = 1/3, etc.
2
Cov srot {Y
V i,Y)
il s = Ni S.., (4)
'-i
OU
_
.S . = 1
z^., - y)(yb. - Y,).
AT-U-
Puisque s"" est obtenu par un sondage aléatoire simple au taux ^des
secteurs de s,, le second terme de (2) peut finalement s'écrire :
N
E.iCov„(¥,¥)) = I ' Covm„(tt) - r ,.Z JS: :r (6)
ieU, 71. ieU,
tj
(8)
BIBLIOGRAPHIE
en danger
Ce projet, qui repose sur l'exploitation des données recueillies par les
institutions intervenant en protection de l'enfance (Conseils généraux,
tribunaux pour enfants, parquets, Direction de la protection judiciaire de la
jeunesse), aboutit à étudier la population des enfants repérés par ces
institutions et identifiés en danger après évaluation de leur situation. Dans le
dispositif d'observation proposé, la population des « enfants en danger » se
définit comme les mineurs de moins de 18 ans faisant l'objet d'une prestation
10 Selon l'article L. 221-1 du Code l'action sociale et des familles, les missions de l'ASE
sont attribuées au Conseil général.
11 Décision du juge des enfants au regard de l'article 375 du code civil.
12 «Violence sexuelle», «violence physique», «négligence lourde», «violence
psychologique », « condition d'éducation défaillante sans maltraitancc évidente » et
« danger résultant du comportement de l'enfant lui-même ».
60 Enquêtes et sondages
suspectée(s) par le professionnel dans son rapport destiné au juge des enfants
ou au responsable ASE, nature administrative ou judiciaire de la décision de
prise en charge...
« Une méthodologie pour le chaînage des données sensibles tout en
respectant l'anonymat » des personnes, développée par le DIM du CHU de
Dijon et avalisée par la Cnil13 permettra à la fois un « hachage » irréversible
de l'identité de l'enfant et le chaînage des données individuelles et
anonymisées afin de reconnaître les enfants d'une même famille et de
reconstituer leurs parcours de prise en charge.
4.2 Discussion
Pour limiter l'impact des erreurs de saisie des noms et prénoms, nous
appliquerons un traitement phonétique avant anonymisation. De plus, pour
limiter l'impact des autres erreurs de saisie, nous utiliserons un chaînage
probabiliste qui étudie la concordance entre les différents identifiants en les
pondérant selon leur valeur discriminante. Le poids est d'autant plus élevé
que le pouvoir discriminant de l'identifiant est important. Ainsi, on attribue
une valeur plus importante à l'information fournie par la date de naissance
qu'à celle fournie par le sexe, la probabilité que deux personnes aient la
même date de naissance étant très inférieure à la probabilité qu'elles aient le
même sexe. Un poids composé, obtenu par la somme des poids de chaque
variable, est attribué à chaque paire d'enregistrements. La décision de chaîner
ou non deux observations dépend de la valeur de ce poids composé (Quantin
et al., 1998), et donc de l'ensemble des variables. Beaucoup plus
reproductible que le chaînage déterministe, il est recommandé lorsque les
données de fichiers sont incomplètes ou imprécises.
Le DIM du CHU de Dijon a adapté la méthode de chaînage probabiliste
« AUTOMATCH », très utilisée aux États-Unis et depuis 1998 par la cellule
d'évaluation du réseau périnatal de la région Bourgogne. Le recueil des
données se fait au travers du programme de médicalisation des systèmes
d'information (PMSI) ; celui-ci a été choisi comme outil de recueil en raison
de son caractère obligatoire dans tous les établissements publics et privés. Les
données sont anonymisées avant sortie de l'établissement et centralisées dans
la cellule d'évaluation du Réseau Périnatal située au CHU de Dijon (Quantin
et al., 2005).
BIBLIOGRAPHIE
14
Nathalie CARON et Sylvie LEMAIRE
Le panel de collégiens le plus récent a été mis en place en 1995 pour suivre
le parcours des collégiens qui ont bénéficié des réformes engagées depuis le
début des années 90 ; un nouveau panel de 40 000 collégiens a été initié à la
rentrée 2007.
Le panel 1995 est constitué d'élèves entrant pour la première fois en 6eme dans
un établissement public ou privé de France métropolitaine à la rentrée 1995.
L'échantillon a été constitué en prenant les élèves nés le 17 d'un mois. Pour
obtenir un taux de sondage proche de l/40cme, les élèves nés en mars, juillet et
octobre n'ont pas été retenus.
Le ministère de l'éducation nationale ne disposant pas à l'époque de
fichiers exhaustifs d'élèves, l'échantillon a été constitué en demandant à
l'ensemble des collèges de sélectionner les élèves de leur établissement
correspondant aux critères de sondage, soit 17 830 élèves.
Le recueil initial d'informations sur les élèves du panel s'est fait par
l'intermédiaire d'un questionnaire adressé aux chefs d'établissement. Il
comprend des informations sur le collège, l'identification de l'élève, sa
Depuis le panel 1989, le suivi des élèves a été étendu aux parcours après le
baccalauréat (Lemaire, 2006). Ainsi en 2007, 10 200 élèves lauréats des
sessions 2002 à 2006 ont été interrogés au moins une fois sur leur situation à
la rentrée suivant l'obtention de leur baccalauréat. Tous les répondants sont
réinterrogés chaque année jusqu'à ce qu'ils déclarent ne pas poursuivre
d'études deux années consécutives.
Les objectifs sont triples : observer les choix d'orientation et les parcours
des bacheliers, détenniner les facteurs susceptibles d'influer sur ces parcours
et mesurer ainsi les évolutions intervenues depuis le précédent panel.
La mise en place d'un suivi après le baccalauréat nécessitait le passage à
une interrogation individuelle des élèves. Le choix a été fait d'utiliser deux
modes d'enquête complémentaires : envoi d'un questionnaire postal dans la
2. Enquêtes longitudinales 65
dernière semaine de mars, suivi d'une première relance par courrier puis
d'une relance par téléphone entre juin et juillet.
Un tronc commun de questions répétées chaque année portent sur la
situation à la rentrée, puis au 1er mars, sur la formation suivie, le degré de
satisfaction à l'égard des études engagées, les difficultés rencontrées, les
projets universitaires et professionnels, ainsi que l'évolution de la situation
personnelle. Mais chaque questionnaire comprend également des questions
spécifiques selon le nombre d'années écoulées depuis le baccalauréat.
Compte tenu de la mise à jour régulière des fichiers d'adresse, les taux de
réponse sont élevés. Le taux de réponse global à l'enquête 2006 est de
91,2% : 65,7% des bacheliers interrogés ont répondu par voie postale et
25,5 % par téléphone. En 2006, les trois quarts des bacheliers du panel 1995
sont encore suivis.
système éducatif
Les élèves participant au panel 1995 ont été sélectionnés par sondage
aléatoire simple. La même pondération leur a donc été affectée au départ.
Durant leur scolarité dans le secondaire, le mode d'actualisation annuelle des
données des jeunes a limité au maximum l'attrition du panel. Par conséquent,
aucune correction de la non-réponse n'a été effectuée.
Dans le supérieur, une modélisation de la non-réponse est réalisée chaque
année et deux jeux de pondération sont affectés aux bacheliers 2002 suivis, le
premier au titre de leur appartenance à la cohorte 2002 et le second au titre de
leur appartenance au panel. Après la première interrogation, le fichier a donc
été redressé par calage sur la population de référence. Les années suivantes, la
correction de la non-réponse se fait en estimant les probabilités de réponse par
une régression logistique. Le poids initial est alors corrigé en le multipliant
par l'inverse du taux de réponse obtenu une année considérée. En ce qui
concerne les autres bacheliers du panel, la correction de la non-réponse
s'effectue par millésime de bacheliers sur le même principe.
Pour l'exploitation du suivi du parcours des jeunes après leur sortie du
système éducatif par l'Insee, il a été décidé de mettre en place un nouveau jeu
2. Enquêtes longitudinales 67
BIBLIOGRAPHIE
en Suisse
15
Eric G RAF
on observe les effets d'une série de mesures qui furent prises pour freiner
ladite attrition.
L'enquête Revenus et conditions de vie en Suisse (SILC) a débuté en mars
2007, environ 11 400 personnes dans 6 900 ménages ont été interrogés pour
la vague 1. SILC est un panel rotatif sur 4 ans.
Les échantillons des enquêtes PSM I, PSM II et SILC ont tous été
sélectionnés selon le même plan d'échantillonnage. Il s'agit d'un tirage
aléatoire simple, stratifié par rapport aux 7 régions géographiques NUTSII de
Suisse. Le cadre de sondage est la base de sondage pour les enquêtes auprès
des ménages (SRH). C'est un registre de numéros de téléphone actualisé
quatre fois par année. Le PSM_I a été sélectionné dans le SRH de 1999, le
PSM II dans celui de 2004 et le SILC dans celui de décembre 2006.
Les trois enquêtes sont traitées par le même institut de sondage et par des
interviewers ayant suivi les mêmes formations. Les règles de suivi des
personnes sont semblables et la structure des enquêtes est également pareille :
un bref questionnaire préliminaire documentant les caractéristiques
sociodémographiques du ménage, un questionnaire ménage et un
questionnaire individuel adressé à toutes les personnes de 14 ans et plus
vivant dans le ménage.
Comme on peut le voir dans la figure 2.1, l'attrition est un aspect très
préoccupant. À sa T vague en 2005, le PSM_I ne contenait plus que la moitié
de ses répondants de 1999.
De gros efforts sont faits, d'abord pour limiter la non-réponse, ensuite pour
améliorer les modèles qui tentent de la corriger dans les pondérations. Malgré
cela, l'attrition n'étant pas uniforme, on se doute que certaines de ses
caractéristiques nous échappent. Le travail présenté ici a pour but d'identifier,
selon les méthodes décrites dans la section 6.3, quelles variables sont
2. Enquêtes longitudinales 69
procédures de pondération
Il serait trop long de détailler ici toutes les étapes de la modélisation pour fins
de pondération dans le contexte des enquêtes PSM et SILC. L'important pour
notre étude est que la méthode utilisée pour la modélisation de la non-réponse
est l'analyse par segmentation. Cette dernière mène à la création d'un certain
nombre de groupes homogènes de réponse (GHR). Les répondants de chaque
GHR voient leur poids initial multiplié par un facteur correspondant à
l'inverse du taux de réponse pondéré de leur GHR. Il est très important que
certaines contraintes soient toujours satisfaites pour chaque GHR (nombre
minimal d'unités et taux de réponse minimum). Les variables les plus souvent
choisies par l'algorithme de segmentation nous donnent des infonnations sur
le profil des non-répondants. Ces variables doivent être renseignées tant pour
les répondants que pour les non-répondants, ce qui limite passablement la
palette des variables à disposition. On utilise en principe l'information d'une
des vagues antérieures du panel, ou celle récoltée par proxy au niveau du
ménage.
Évidemment les variables à disposition ne sont pas exactement les mêmes
suivant qu'on modélise la non-réponse au niveau du ménage ou au niveau
individuel.
La deuxième remarque d'importance au sujet des pondérations est que tous
les jeux de poids (individus ou ménages) sont calés sur des totaux connus de
la population de l'année courante pour les pondérations transversales, et de
l'année de sélection du panel pour les pondérations longitudinales. Les
informations disponibles au niveau de toute la population étant assez limitées,
les totaux de contrôles pour les calages sont le sexe, les classes d'âge, la
nationalité (suisse, non suisse), la région géographique et l'état civil.
Les deux méthodes présentées dans la section précédente ayant des avantages
et des inconvénients, on a décidé de retenir une variable comme étant touchée
par l'attrition que lorsque les deux méthodes la repère comme telle.
La figure 2.2 donne un exemple : à gauche le résultat de la méthode 2 pour
la variable du questionnaire individuel mesurant, sur une échelle de 0 à 10,
l'intérêt pour la politique. La série des carrés reflète l'intérêt moyen calculé
16 Dues entre autre au fait que le PSM I et le PSM II ont été sélectionnés dans des cadres
de sondages différents et à 5 années d'intervalle. Aussi, le taux de réponse en vague 1
n'était pas le même pour le PSM II en 2004 par rapport à celui du PSM I en 1999.
17 En effet, le panel suit des individus et non des ménages ; les exploitations longitudinales
ne peuvent se faire qu'au niveau individuel.
I 8 Cette méthode ne peut pas prendre en compte les nouveaux individus se joignant au
panel au cours des vagues. Les résultats qu'elle fournit peuvent de ce fait être trop
pessimistes. Par ailleurs, on ne peut pas étudier l'érosion au niveau des ménages,
puisque ce n'est pas une unité stable dans le temps.
2. Enquêtes longitudinales 71
risque
7.1 introduction
Cette variable de pondération, est utilisée pour détecter la présence d'un biais
de structure : si une instabilité de la distribution du poids de redressement
était constatée dans le temps, il serait alors possible de conclure à l'existence
d'un tel biais.
Du fait de la distribution non gaussienne (test de Student inapplicable), il est
nécessaire de se tourner vers des tests non paramétriques de comparaison de
distribution de la variable POIDS dans deux échantillons indépendants et de
tailles différentes (Kolmogorov-Smirnov, Wilcoxon-Mann-Whitney, Saporta,
1998).
routier
L'indicateur de risque est le taux d'accident pour 100 000 kilomètres qu'on
estime sur les trois vagues en fonction de l'expérience de conduite mesurée
par le nombre d'années post-permis. L'effet de l'ancienneté du permis B sur
le risque est très discernable sur les vagues 1 et 3 avec une décroissance à
caractère exponentielle au fur à mesure des années (figure 2.3). La
décroissance, bien que marquée, est plus chaotique pour la vague 2, avec une
plus grande sensibilité aux aléas des accidents.
En plus de cet effet « ancienneté du permis », on détecte, particulièrement
bien, un effet période entre la vague 1 (année 2003) et la vague 3 (année
2005) à la baisse.
Vague 1
Vague 2
4— Vague 3
1,5
0,5 î
Ancienneté du permis B
7.4 Conclusion
semblent plus mobiles que les filles. Cette sélectivité qui opère sur les
observables est contrôlée via des variables explicatives, et la correction du
biais de sélection sur les inobservables n'est pas nécessaire, vu les tests de
biais de sélection. Les modèles extra-poissoniens estimés sur le panel : en
coupe, en longitudinal et en cylindrée donnent des résultats similaires avec un
effet lent de l'apprentissage de la conduite par l'expérience, un effet négatif
de l'apprentissage accompagné de la conduite et un surrisque des jeunes
hommes.
BIBLIOGRAPHIE
ai
>-
CL
O
u
Chapitre 3
Enquêtes et santé
solutions envisagées
cohortes épidémiologiques
La British Doctors's Study a été mise en place dès 1951 auprès de tous les
médecins britanniques, avec au total, 34 440 hommes et 6 194 femmes qui y
ont participé. Des analyses ont été publiées après 10, 20 et 40 ans de suivi.
Cette étude a contribué de façon décisive à la connaissance des différents
effets du tabagisme sur la santé (Doll et Hill, 1964). La cohorte Whitehall qui
depuis 1985 suit 10 308 fonctionnaires britanniques, contribue de façon
majeure à la recherche sur les déterminants sociaux de la santé (Marmot et al,
1991).
En Norvège, pays de 4,5 millions d'habitants (soit 13 fois moins peuplé que
la France), le projet CONOR (Cohort of Norway) suit 200 000 personnes sur
le plan de leurs habitudes de vie, pratiquant des examens cliniques et des
prélèvements biologiques.
Un biais est une erreur qui entraîne une différence systématique entre le
paramètre que l'on cherche à estimer (l'incidence d'une maladie, ou une
mesure d'association entre une maladie et un facteur de risque) et le
paramètre estimé par l'étude.
Une des sources majeures de biais dans les enquêtes épidémiologiques
provient des effets de sélection, qui surviennent lorsque la population
observée diffère de la population cible en raison de phénomènes liés au
recrutement ou au suivi des sujets. L'estimation de la fréquence de la maladie
ou de l'exposition, ou de l'association exposition - maladie est biaisée si la
probabilité d'être malade (ou exposé) n'est pas indépendante de la
probabilité d'être inclus dans l'étude, ou si la relation exposition - maladie
est différente entre les sujets inclus et ceux qui ne sont pas inclus.
Or, les cohortes épidémiologiques prospectives incluent presque toujours
les sujets sur la base du volontariat : des biais de sélection peuvent donc
intervenir lors de la constitution de la cohorte et tout au long du suivi de celle-
ci (attrition) (Goldberg et Luce, 2001). Le problème des biais potentiels lié
aux effets de sélection se présente de façon très différente selon que les
objectifs sont analytiques (étude des relations entre exposition à des facteurs
de risque et survenue de maladies) ou descriptifs.
Au sein d'une cohorte dont les procédures d'inclusion ont été les mêmes pour
tous les sujets, la relation exposition - maladie n'est a priori pas différente
entre les sujets volontaires et ceux qui ne le sont pas (Greenland, 1977). Une
des raisons est qu'au moment de l'inclusion, tous sont indemnes des maladies
qui seront analysées, seuls les cas incidents pendant le suivi étant pris en
compte : des conditions très particulières seraient en effet nécessaires pour
entraîner un biais dans la relation entre une exposition et une maladie. Ainsi,
pour analyser les effets du tabac sur le risque de cancer, il n'est pas nécessaire
d'observer un échantillon représentatif de la population, mais de disposer
d'effectifs suffisants de non-fumeurs et de fumeurs parmi lesquels le niveau
d'exposition est contrasté : en effet, sur la base des connaissances actuelles, il
est très vraisemblable que les mécanismes physiopathologiques et biologiques
de la cancérogenèse liée au tabac sont identiques dans un échantillon de
volontaires et dans l'ensemble de la population.
Le problème de l'attrition au cours du suivi peut par contre être à l'origine
de biais importants si la probabilité de ne plus être suivi diffère chez les
exposés et non exposés, et/ou chez ceux qui sont ou ne sont pas devenus
malades, ce qui est souvent le cas {cf. ci-dessous).
3. Enquêtes et santé 83
Dans ce type d'étude, les paramètres d'intérêt doivent être estimés sur un
échantillon représentatif de la population cible. Or, les cohortes
épidémiologiques prospectives étant habituellement composées uniquement
de volontaires, il existe inévitablement des effets de sélection, même
lorsqu'on procède à un tirage au sort aléatoire d'un échantillon dans une base
de sondage appropriée.
Lors de l'inclusion initiale, les non participants constituent une source
potentielle de biais. Pour y remédier on s'efforce de recueillir un minimum de
données sur les non participants (essentiellement/âge, sexe, profession et
PCS), afin de procéder ultérieurement à des redressements. Cette approche,
utilisée dans de nombreuses enquêtes de santé, connaît cependant certaines
limites. Ainsi, il n'est pas toujours possible de recueillir les données de
redressement (âge, sexe, PCS) pour l'ensemble des sujets non participants. De
plus, il n'est pas toujours facile de savoir si ces données sont suffisantes pour
contrôler les biais potentiels, car on sait par exemple qu'au sein de la même
catégorie socio-économique existent de larges différences à bien des égards,
notamment en termes de santé, de comportements, de modes de vie, de
réseaux sociaux, etc. (Goldberg et al., 2001). Finalement, on est rarement en
situation de contrôler complètement les biais de sélection, faute de disposer
des données pour les participants et l'ensemble des non participants.
Le même problème se pose tout au long du suivi, les non-répondants et les
perdus de vue différant toujours des participants pour divers facteurs, en
particulier les comportements de vie et les problèmes de santé qui jouent un
rôle majeur, même à catégorie socioprofessionnelle égale, comme on a pu
l'observer dans la cohorte GAZEL : à âge, genre et PCS égaux, les risques
d'attrition diffèrent en fonction des consommations d'alcool et de tabac, de
l'état de santé, de l'absentéisme, de la survenue de problèmes de santé
mentale et de cancers notamment (Goldberg étal, 2006). Or, ce sont
justement ce type de facteurs qui sont étudiés dans les cohortes
épidémiologiques.
On s'appuiera ici sur les solutions qui ont été élaborées pour le projet
CONSTANCES, qui vise à constituer une cohorte épidémiologique d'environ
200 000 sujets en population générale. La démarche générale retenue est la
suivante.
Les sujets éligibles seront tirés au sort par sondage stratifié avec
probabilités inégales en sur-représentant les individus ayant une probabilité de
non-volontariat plus forte, les probabilités d'inclusion étant empiriquement
définies en se basant sur des enquêtes déjà réalisées.
84 Enquêtes et sondages
4 On peut en trouver une description plus complète des ces bases de données dans deux
documents téléchargeables (http://www.rppc.fr/publications.html) : Ribet C., Genet L,
Zins M. Les bases de données socioprofessionnelles. Rapport. Saint Mandé, Unité 687
Inserm - CNAMTS, 2006 ; Coeurct-Pélisser M., Zins M. Les bases de données de
l'assurance maladie. Rapport. Saint Mandé, Unité 687 Inserm - CNAMTS, 2006.
3. Enquêtes et santé 85
BIBLIOGRAPHIE
Doll, R., et Hill, A.B. (1964). Mortality in relation to smoking: Ten years'
observations of British doctors. British Médical Journal, vol. 5395, 1399-
1410.
Ducimetière, P., Richard, J. et Claude, J.R. et al. (1981). Les cardiopathies
ischémiques : incidence et facteurs de risque. L'Etude Prospective
Parisienne. Paris, Inserm.
Egan, K.M., Stampfe, M.J., Hunter, D., Hankinson, S., Rosner, B.A.,
Holmes, M., Willett, W.C. et Colditz, G.A. (2002). Active and passive
smoking in breast cancer: Prospective results from the Nurses' Health
Study. Epidemiology,vo\. 13, 138-145.
Fitzmaurice, G.M., Laird, N.M. et Ware, J.H. (2004). Applied longitudinal
analysis. New York : John Wiley & Sons, Inc.
Goldberg, M., et Luce, D. (2001). Les effets de sélection dans les cohortes
épidémiologiques. Nature, causes et conséquences. Revue d'Epidémiologie
et de Santé Publique, vol. 49, n05, 477-492.
Goldberg, M., Chastang, J.F., Leclerc, A., Zins, M., Bonenfant, S., Bugel, L,
Kaniewski, N., Schmaus, A., Niedhammer, L, Piciotti, M., Chevalier, A.,
Godard, C. et Imbernon, E. (2001). Socioeconomic, démographie,
occupational and health factors associated with participation in a long-term
epidemiologic survey. A prospective study of the French Gazel cohort and
its target population. American Journal of Epidemiology, vol. 154(4), 373-
384.
Goldberg, M., Melchior, M., Leclerc, A. et Lert, F. (2003). Épidémiologie et
déterminants des inégalités sociales de santé. Apports récents et problèmes
actuels. Revue d'Epidémiologie et de Santé Publique, vol. 51, 381-401.
Goldberg, M., Leclerc, A., Bonenfant, S., Chastang, J.F., Schmaus, A.,
Kaniewski, N. et Zins, M. (2007). Cohort profile: The GAZEL Cohort
Study. International Journal of Epidemiology, vol. 36(1), 32-39.
Goldberg, M., Chastang, J.F., Zins, M., Niedhammer, I. et Leclerc, A. (2006).
Attrition during follow-up: Health problems are the strongest predictors. A
Study of the Gazel Cohort. Journal of Clinical Epidemiology, vol. 59, 1213-
1221.
Greenland, S. (1977). Response and follow-up bias in cohort studies.
American Journal of Epidemiology, \o\. 106, 184-187.
Jones, A.M., Koolman, X. et Rice, N. (2006). Health-related non-response:
Using inverse-probability-weighted estimators in non-linear models.
Journal of the Royal Statistical Society A, vol. 69(3), 543-569.
3. Enquêtes et santé 87
Marmot, M.G., Smith, G.D, Stansfeld, S., Patel, C., North, F., Head, J.,
White, L, Brunner, E., Feeney, A. (1991). Health inequalities among British
civil servants: The Whitehall II study. Lancet, June 8, vol. 337(8754), 1387-
1393.
Oppenheimer, G.M. (2005). Becoming the Framingham Study. American
Journal of Public Health, Apr, vol. 95(4), 602-610.
Rubin, D.B. (1996). Multiple imputation after 18+ years. Journal of the
American Statistical Association, vol. 91, 473-489.
Mauguin, J. (2004). Les procédures automatiques de contrôle de données dans
les enquêtes annuelles d'entreprises. Dans Ardilly, P. (dir.).
Echantillonnage et méthodes d'enquêtes, Paris, Dunod, pages 91-96.
5
Patrick PERETTI-WA TEL
2.1 Introduction
On définira ici très simplement les soignés comme des personnes qui à un
moment donné ont un problème de santé qui nécessite des soins médicaux
réguliers. On s'intéressera plus précisément aux personnes qui sont soignées
sur la durée, autrement dit aux malades chroniques. Ces soignés font
aujourd'hui l'objet de nombreuses enquêtes par sondage, d'abord parce qu'ils
constituent une proportion croissante de la population ; d'après les enquêtes
de l'Institut National de Prévention et d'Éducation pour la Santé, en 2000,
15 % des Français âgés de 12 à 75 ans déclaraient souffrir d'une maladie
chronique, contre 23 % en 2005.
S'il y a aujourd'hui plus de soignés, c'est bien sûr d'abord grâce aux
progrès thérapeutiques, qui accroissent l'espérance de vie des malades. Dans
le cas du VIH, depuis 1996 les nouveaux traitements permettent de limiter la
charge virale des personnes séropositives et de restaurer leurs défenses
immunitaires, sans pour autant les guérir : avec ces traitements, les
séropositifs deviennent donc des « soignés à vie ». L'augmentation du
nombre de soignés résulte aussi de la « médicalisation de l'existence », qui se
traduit par une prise en charge médicale de plus en plus précoce, souvent en
amont de la maladie.
L'augmentation des maladies chroniques induit de nouvelles
problématiques de recherche. En effet, à la maladie comme épisode bref et
aigu, qui suspend provisoirement les différents rôles sociaux de l'individu,
succède une maladie chronique, la personne affectée devant suivre des
traitements pendant plusieurs années, voire toute sa vie, tout en menant de
front ses activités « normales » sur les plans affectif, familial, professionnel...
Se pose alors la question de savoir quel est l'impact de la maladie et des
traitements sur le quotidien : sur la capacité à trouver ou conserver un emploi,
sur le regard qu'autrui porte sur le soigné, sur ses projets de vie, etc.
d'autres services : ces lieux où l'on veut recruter les patients peuvent
constituer un environnement hostile à l'enquête, et les enquêtés potentiels
sont souvent peu disponibles, et en tout cas moins disponibles que lorsqu'ils
sont interrogés à leur domicile, en face-à-face ou par téléphone.
L'hôpital fournit ainsi un accès privilégié à certaines sous-populations,
mais cet accès se fait sous contrainte. En particulier, le recrutement
d'enquêtés parmi les patients doit généralement passer par un intermédiaire
obligé : le médecin. Or celui-ci ne choisit pas les patients auxquels il propose
l'enquête au hasard : certains médecins vont plutôt solliciter les « bons »
patients, plus enclins à accepter (ou môme au contraire choisir des patients en
difficulté, pour alarmer les pouvoirs publics commanditaires de l'enquête).
Pour éviter ce biais de sélection, dans l'enquête VESPA le pas de tirage parmi
les patients éligibles, présents à une consultation donnée, était déterminé par
la disponibilité de l'enquêteur, qui dépendait elle-même de la durée,
forcément variable, de chaque passation. Le prix à payer, pour cette procédure
qui vise à préserver l'aléa, est souvent un moindre taux de réponse.
Par contre, une enquête au sein du système de soins permet en général de
récolter de nombreuses informations sur les non-répondants, ce qui est très
utile pour mesurer et de corriger les biais de sélection. Par exemple, dans
l'enquête VESPA, pour tous les patients présents à une consultation un jour
d'enquête, on disposait grâce au dossier médical de l'hôpital de données
anonymisées : sexe, âge, statut d'activité, groupe de transmission, mais aussi
charge virale et statut immunologique, qui sont des données médicales clés
pour mesurer l'avancée de la maladie et l'efficacité des traitements.
La prise en compte du biais de sélection est également nécessaire dans les
analyses, en particulier lorsque la variable à laquelle on s'intéresse est
corrélée avec la participation, ou a des déterminants communs. On peut ici
mobiliser des outils statistiques assez sophistiqués, avec par exemple le
modèle conditionnel en deux étapes de Heckman (1976): on modélise
d'abord la participation à l'enquête, afin de calculer l'inverse du ratio de Mills
(rapport entre la fonction de densité et la fonction cumulative), lequel sera
ensuite introduit comme facteur correctif du biais de sélection dans tous les
modèles estimés sur l'échantillon des répondants.
Enfin, lorsque les enquêtes auprès des soignés se déroulent dans des centres
de soins, elles s'apparentent à un sondage stratifié, avec des effets de grappe :
par exemple, tous les patients interrogés dans un même service hospitalier
partagent certaines similarités, dans la mesure où ils bénéficient des mêmes
conditions de soins, voire sont suivis par les mêmes soignants, ce qui peut être
déterminant pour expliquer un certain nombre de variables d'intérêt :
90 Enquêtes et sondages
soignés
Par leur construction même, les enquêtes auprès des soignés permettent
souvent de recueillir en parallèle des données auprès des patients et de leurs
soignants. La confrontation de ces données peut être très riche
d'enseignements.
3. Enquêtes et santé 91
Disposer de données sur les soignés et les soignants peut aussi permettre de
procéder à une modélisation jointe de leurs comportements. Par exemple, on
peut étudier de front d'une part les comportements de prescription des
médecins généralistes qui suivent des toxicomanes sous traitement de
substitution, et d'autre part le « nomadisme médical » de ces derniers (c'est-à-
dire leur propension à consulter plusieurs médecins à la suite pour avoir plus
de buprénorphine prescrite), avec donc un système d'équations simultanées.
Les résultats obtenus suggèrent que ce qu'on appelle le « nomadisme
médical » semble être une conséquence du sous-dosage des prescriptions,
plutôt que l'inverse (Feroni et al., 2005).
2.4 Conclusion
Les enquêtes auprès des soignés posent des difficultés spécifiques, et cela à
toutes les étapes de la réalisation d'un sondage : conception du plan de
sondage, phase de recueil des données, analyses statistiques. La résolution de
ces difficultés passe souvent par l'emploi d'outils statistiques sophistiqués,
qui participent au développement des techniques de sondage au-delà du seul
champ de la santé, mais elle s'appuie aussi parfois sur le bon sens et
l'ingéniosité des sondeurs.
Outre ces aspects méthodologiques, les enquêtes auprès des soignés et leurs
outils offrent des opportunités et participent à des grands débats
contemporains en santé publique, comme par exemple l'adhérence et l'accès
aux traitements antirétroviraux, la prise en compte des effets contextuels
longtemps ignorés par l'épidémiologie, ou encore une meilleure compréhen-
sion de la relation thérapeutique qui se noue entre soignés et soignants.
BIBLIOGRAPHIE
Feroni, I., Peretti-Watel, P., Paraponaris, A., Masut, A., Ronfle, E.,
Mabriez, J.C. et Obadia, Y. (2005). French General Practitioners' attitudes
and prescription patterns toward buprenorphine maintenance treatment:
Does doctor shopping reflect buprenorphine misuse? Journal of Addictive
Diseases, vol. 24, n03, 7-22.
Heckman, J. (1976). The common structure of statistical models of truncation,
sample sélection and limited dépendent variables and a simple estimator for
such models. An nais of Economie and Social Measurement, vol. 5, 475-
492.
Le Corroller-Soriano, A.G., Malavolti, L. et Mermilliod, C. (2006). Les
conditions de vie des patients atteints du cancer deux ans après le
0
diagnostic. Etudes et Résultats, n 486, Paris, Drees.
Mouquet, M.C., et Villet, H. (2002). Les risques d'alcoolisation excessive
chez les patients ayant recours aux soins un jour donné. Études et Résultats
n0192, Paris, Drees.
Peretti-Watel, P., Riandey, B., Dray-Spira, R., Bouhnik, A.D., Sitta, R. et
Obadia, Y. (2005). Comment enquêter la population séropositive en
France? L'enquête ANRS-EN12-VESPA 2003. Population, vol. 60, n04,
525-550.
Spire, B., Duran, S., Souville, M., Leport, C., Raffi, F. et Moatti, J.P. (2002).
Adhérence to highly active antiretroviral thérapies (HAART) in HFV-
infected patients: From a prédictive to a dynamic approach. Social Science
& Medicine, vol. 54, no10, 1481-1496.
94 Enquêtes et sondages
2004-2007
6J
Marie JAUFFRET-ROUSTIDE , Yann LE STRAT6,
8 6
Nicolas RAZAFINDRA TSIMA , Julien EMMANUELLI et
6
Jean-Claude DESENCLOS
3.1 Introduction
3.1.1 Contexte
Les usagers de drogues (UD) constituent une population ayant des pratiques
illégales et socialement stigmatisées. Afin de minimiser le risque d'infections
en lien avec l'usage de drogues par voie intraveineuse, une politique de
réduction des risques a été mise en place en France, il y a une dizaine
d'années (Jauffret-Roustide, 2004). Jusqu'à présent, les données de
9
prévalence du VIH et du VHC chez les UD en France étaient issues de
données déclaratives et portaient sur des échantillons non aléatoires. Aucune
estimation de la prévalence du VIH et du VHC portant sur un échantillon
aléatoire d'UD et s'appuyant sur des données biologiques n'était disponible
en France. Il était donc difficile d'évaluer précisément l'importance de ces
deux infections chez les UD et l'impact de la politique de réduction des
risques.
En 2004, l'Institut de Veille Sanitaire (InVS) a initié, après une phase pilote
(Jauffret-Roustide étal., 2006) une enquête de séroprévalence auprès d'UD
(enquête Coquelicot), soutenue par l'Agence Nationale de Recherches sur le
Sida et les Hépatites virales (ANRS) et réalisée en collaboration avec
l'Institut National d'études Démographiques (Ined) et le Centre National de
Référence (CNR) du VIH de Tours. Les objectifs de cette enquête séro-
épidémiologique étaient d'estimer les prévalences du VIH et du VHC chez les
UD à partir de données biologiques, de décrire les caractéristiques
sociodémographiques de la population UD, leurs consommations de produits
Les sujets inclus sont des UD volontaires ayant injecté et/ou sniffé « au moins
une fois dans leur vie ». Cette enquête est multivilles (Lille, Strasbourg, Paris,
Bordeaux, Marseille) et le recrutement des UD s'est effectué dans l'ensemble
des services issus de la chaîne thérapeutique spécifique aux UD (Centre de
Soins Spécialisés pour Toxicomanes, Centres de Post-Cure, Appartements
thérapeutiques, Sleep-in, Boutiques, Programmes d'Échange de Seringues,
Equipes de rue) et dans des cabinets de médecins généralistes prescripteurs de
96 Enquêtes et sondages
émerger des réseaux d'individus qui ne sont pas habituellement captés dans
les études épidémiologiques et qui constituent une partie de la population
cible. La prise en compte de ces sous-populations permet donc d'améliorer la
description des caractéristiques sociodémographiques, des modes de vie et
des pratiques des usagers et potentiellement d'adapter les politiques de
prévention qui leur sont destinées.
Une approche socio-anthropologique permet d'aller au-delà des résultats
quantitatifs de l'enquête épidémiologique en contextualisant socialement les
données recueillies, en travaillant sur les trajectoires des individus, et en
adoptant une approche compréhcnsive de la prise de risques. Une attention
particulière a été accordée à la hiérarchisation des risques pour l'UD et aux
stratégies de préservation de soi. L'utilisation de la technique des récits de vie
donne la possibilité d'interroger l'usager de drogues sur la place qu'occupe le
risque aux différents moments de sa trajectoire de vie, d'étudier les espaces
dans lesquels il consomme des produits psychoactifs, et d'explorer les liens
de proximité entre l'usager et ses partenaires de partage. Les récits des
trajectoires biographiques des individus permettent de repérer les points de
rupture propices à la prise de risques. Cette approche permet d'aller au-delà
du caractère instantané des données recueillies dans le volet épidémiologique.
Il s'agit également d'appréhender dans le temps les changements de normes
comportementales individuelles et collectives en analysant si le discours de la
réduction des risques a été intériorisé et dans quelle mesure il contribue à une
normalisation des comportements et/ou des discours. Aller au-delà des
pratiques déclarées (accessibles par le questionnaire ou l'entretien) en
accédant à des pratiques observées (par le biais d'observations ethnogra-
phiques) permet d'évaluer si cette normalisation des comportements est
ancrée dans les pratiques ou simplement dans les discours.
3.5 Discussion
BIBLIOGRAPHIE
10
Michelle SIMARD et Johane DUFOUR
4.1 Introduction
Dans les années 1990, Statistique Canada (SC) a reçu le mandat d'augmenter
l'information recueillie sur la santé des Canadiens. Il s'agissait de répondre au
besoin grandissant en ce qui a trait aux données sur l'état de santé, les
déterminants de la santé et l'utilisation du système de soins de santé. Ce
10 Statistique Canada 16-N, R.-H. Coats, 100 Promenade Tunney's Pasture, Ottawa,
Ontario, Canada, Kl A 0T6.
100 Enquêtes et sondages
canadiennes
Pour alléger le texte, on référera aux cycles x.l pour dénoter la composante
régionale de l'ESCC et aux cycles x.2 pour la composante provinciale. Les
périodes de collecte durent un an et alternent sur une base annuelle. Les
cycles x.l coïncident avec les années impaires et les cycles x.2 avec les
années paires. Ainsi, le cycle 1.1 a débuté en 2001, puis le cycle 1.2 en 2002,
etc. Le plan de sondage est un plan complexe, à bases multiples, avec un
échantillonnage en grappes stratifié à plusieurs degrés (Béland et al, 2000).
santé
Plusieurs des défis de l'ECMS soulèvent des enjeux sociaux reliés à l'éthique
et à la vie privée. Ces enjeux requièrent pour une première fois, qu'une
enquête de SC soit revue par un conseil externe d'éthique de recherche. De
plus, des rencontres régulières avec le Bureau du commissaire à la vie privée
du Canada ont été nécessaires. Des discussions sur les enjeux sociaux, de la
vie privée et d'éthique biologique ; particulièrement ceux reliés à la génétique
ainsi que les recherches sur les génomes, sont en pleine évolution. Il faut
trouver un équilibre entre la collecte de spécimens et son utilisation.
Au Canada, certaines maladies infectieuses, si elles sont identifiées durant
un examen médical, doivent être légalement rapportées aux autorités de la
santé publique. Ces lois provinciales entrent en conflit avec la Loi de la
Statistique qui préserve la confidentialité des données du répondant.
106 Enquêtes et sondages
À cette liste de tous ces défis viennent s'ajouter ceux des autres enquêtes sur
la santé, les données administratives et les données déjà diffusées. SC doit
continuer à mettre en œuvre des ateliers et des cours pour aider les utilisateurs
à mieux gérer et comprendre tout ce volume d'information. De plus, plusieurs
d'entre-eux désirent intégrer les données des cycles d'enquête afin de réaliser
des analyses plus détaillées. De plus, on recourt à l'estimation sur des petits
domaines pour obtenir les estimations voulues et la recherche se poursuit en
ce sens. Il faut aussi poursuivre les travaux de recherche en ce qui a trait à
l'analyse de données longitudinales. L'ENSP a diffusé six cycles de données ;
3. Enquêtes et santé 107
il faut donc continuer à travailler avec les utilisateurs pour utiliser ces
données à bon escient. Finalement, la capacité analytique des données
administratives n'est pas à négliger et plusieurs travaux de recherche ont
débuté en ce sens.
Le Programme des statistiques sur la santé est de toute évidence encore en
pleine évolution et poursuit l'envol amorcé au début des années 2000. Les
défis sont nombreux et inusités sollicitant réflexion et créativité de la part des
participants aux différents projets. SC a démontré un leadership certain face
aux nombreux défis du Programme et espère continuer à répondre le plus
efficacement possible aux besoins des partenaires, anciens et nouveaux.
BIBLIOGRAPHIE
et méthodes
11
Catherine CAVALIN
5.1 Introduction
Les liens entre violences subies et santé sont complexes, si bien qu'il a paru
indispensable de réserver une place importante aux aspects biographiques. En
la matière, le questionnaire d'EVS est centré sur les événements tels que
décès, maladies graves, tentatives de suicide, suicides, alcoolisme ou
consommation de drogues illicites dans l'entourage, séparation des parents,
violence éventuelle entre ceux-ci,... ces situations pouvant former une caisse
de résonance aux relations entre violences et santé.
13 Stratégie redevable à l'Enquête nationale sur les violences envers les femmes
(ENVEFF), réalisée par l'Institut national d'études démographiques (Ined) et l'Institut
de démographie de l'université Paris-I (IDUP) en 2000, cf. Jaspard et al. (2003).
110 Enquêtes et sondages
L'idée de placer une bonne partie des questions de l'enquête en mode auto-
administré pouvait sembler pertinente, puisque beaucoup d'entre elles sont
a priori sensibles. Mais à défaut de pouvoir laisser les enquêtés répondre
longuement seuls, du fait d'une possible lassitude, un auto-questionnaire
directement réalisé sur l'ordinateur portable des enquêteurs14 a été conçu,
pour les questions sur les comportements sexuels, la consommation d'alcool
et de drogues illicites. Un tel questionnaire permet une meilleure adaptation
aux enquêtés illettrés, aidés dans leurs réponses par une voix lisant les
questions affichées à l'écran, et assure des conditions de confidentialité très
manifestes, pour améliorer la sincérité des réponses.
14 Ordinateur sur lequel les questionnaires se déroulent grâce à une programmation avec le
logiciel Biaise et dans renvironnement propre à l'application Capi (Computer assistcd
Personal interview). Sur des sujets tels que la violence, la sexualité, la consommation
d'alcool, de drogues illicites..., la sincérité des réponses délivrées en mode auto-
administré par ordinateur fait débat. Pour avoir un aperçu des arguments à ce propos,
cf. : MacMillan et al. (2006) et Rogcrs et al. (1999).
3. Enquêtes et santé 111
Le besoin des enquêteurs de trouver des soutiens pour une collecte anticipée
comme difficile a rejoint la nécessité de la prudence dans la méthode. C'est
ainsi que se trouvent détaillés, dans le cahier d'instructions confié aux
enquêteurs : la manière d'annoncer l'enquête (pourquoi parler de « violence »
biaiserait-il le recrutement des enquêtés ?), l'isolement des enquêtés (quelles
dérogations éventuelles admet ce principe sur de tels thèmes de question-
nement ?), l'approche possible du document à distribuer aux enquêtés en fin
d'entretien, comportant des numéros de téléphone de recours (comment, sans
transformer les enquêteurs en travailleurs sociaux, leur permettre d'adopter
une position déculpabilisée et efficace pour aider les personnes en
difficulté ?), l'éventualité d'avoir à affronter des dilemmes à la frontière de
questions morales et juridiques (possible contradiction entre l'alinéa 2 de
l'article 40 du code de procédure pénale et le secret professionnel défini par
les articles 226-13 et 226-14 du code pénal, lorsque l'on se trouve dépositaire
de la révélation de crimes ou de délits).
5.4 Conclusion
Au début des années 2000, le manque de données portant sur plusieurs des
sujets sensibles abordés par EVS était patent. Aujourd'hui, alors que les
résultats ont commencé d'être publiés et que l'exploitation des données
d'EVS se poursuit sur des sujets divers, que permettent d'aborder les
multiples facettes du questionnaire, l'heure est venue de faire d'utiles
comparaisons : avec les enquêtes de santé en population générale, avec
l'ENVEEE et avec l'enquête de victimation de l'Insee, désormais annuelle et
réalisée sur de grands échantillons.
BIBLIOGRAPHIE
Jaspard, M., Brown, E., Condon, S., Fougeyrollas-Schwebel, D., Houel, A.,
Lhomond, B., Maillochon, F., Saurel-Cubizolles, M.-J. et Schiltz, M.-A.
(2003). Les violences envers les femmes en France. Une enquête nationale,
Paris : la Documentation française.
Krug, E.G., Dahlberg, L.L., Mercy, J.A., Zwi, A. et Lozano-Ascensio, R.
(dir.) (2002). Rapport mondial sur la violence et la santé, Genève :
organisation mondiale de la santé.
MacMillan, H.L. et al (2006). Approaches to screening for intimate partner
violence in health care settings. A randomized trial. Journal of the American
Médical Association, vol. 296, n0 5, August 2, 530-536.
Rogers, S.M., Gribble, J.N., Turner, C.F. et Miller, H.G., (1999). Entretiens
auto-administrés sur ordinateur et mesure des comportements sensibles.
Population, vol. 54 (2), 231-250.
3. Enquêtes et santé 113
santé ?
15 16
Bérengère DAVIN , Xavier JOUTARD ,
17 18
Alain PARAPONARIS et Pierre VERGER
6.1 Introduction
Répondant proxy ?
Oui Non
n = l 194 n = I 533
introduite par le fait de classer, dans la catégorie des personnes n'ayant pas de
besoin non-satisfait, les personnes sans aucun besoin d'aide avec celles dont
le besoin d'aide se trouve satisfait. Dans le même temps, restreindre
l'échantillon aux seules personnes ayant besoin d'aide introduirait un biais de
sélection. L'utilisation d'un modèle à deux équations estimées simultanément,
où l'équation (3), définie ci-après, porte sur un échantillon sélectionné grâce à
l'équation (2), permet de dépasser cette première limite. De plus, cette
modélisation tient compte de la corrélation possible entre les termes d'erreur
tirés des deux équations, due à la contribution de variables non-observables
ou omises. Le second problème réside dans l'endogénéité probable du statut
du répondant dans les équations (2) et (3). La nature endogène du recours à un
répondant proxy peut provenir par exemple du fait que l'état de santé et la
faculté du patient à répondre sont mal mesurés ; la présence d'un proxy révèle
alors un état de santé suffisamment dégradé pour nécessiter le besoin d'une
aide. En conséquence, le recours à un proxy est modélisé dans l'équation (1)
et introduit comme régresseur dans les équations (2) et (3), formant ainsi un
modèle probit à équations simultanées récursif (Trujillo, 2003) :
w, = yy + s,
u, = y2v + 8,
1/3 = Y3V + £3
L
= njPrO, = O,^, = 0 I v)(t)(v)rfvnJPrO'l = h y2 = 0 \ v)^(v)dv
Les contributions des variables exogènes retenues dans les équations (2) et (3)
sont globalement cohérentes avec celles trouvées dans la littérature en la
matière. La discussion porte dans ce qui suit exclusivement sur la contribution
du répondant proxy dans les équations (2) et (3) (Tableau 3.2).
Par rapport à une modélisation séparée, le contrôle de l'endogénéité fait
perdre sa significativité à la contribution du recours à un répondant proxy
dans la déclaration du besoin d'aide pour la réalisation d'une ou plusieurs
AVQ ou AIVQ (équation 2). Contrairement aux résultats de la littérature
(Todorov et al, 2000 en autre), on ne retrouve aucune subjectivité introduite
par le proxy dans l'évaluation du besoin d'aide humaine de la personne qu'il
remplace pour répondre. Dans ces travaux, l'usage d'une indicatrice pour
marquer le statut du répondant ne ferait qu'exprimer la contribution des
variables qui conditionnent le recours au proxy, au premier rang desquelles
l'état de santé des individus enquêtés, et non pas un effet propre relevant du
jugement du répondant proxy.
Si on contrôle le biais lié à la sélection des seules personnes ayant exprimé
un besoin en même temps que l'endogénéité du recours au proxy, cette
dernière variable affecte positivement et de façon très significative la
déclaration d'un besoin d'aide non ou sous-satisfait (équation 3), alors que
des travaux antérieurs avaient abouti à l'existence d'une contribution négative
(Desai et al, 2001). Les répondants proxy ajouteraient ainsi de la subjectivité
à leur évaluation de la non-satisfaction du besoin, qui ne peut être réduite aux
seuls déterminants (en l'occurrence l'état de santé du sujet enquêté) de leur
recours.
Les corrélations entre le terme d'erreur de l'équation (3) et les deux autres
sont négatives. En l'absence de tout contrôle, on sous-évaluerait donc
l'influence du répondant proxy dans l'expression de la non-satisfaction du
besoin d'aide. Le biais relatif à l'endogénéité du recours à un proxy zgrt en
revanche en sens inverse dans l'équation (2), du fait de la corrélation positive
des termes d'erreur : si ce biais n'était pas contrôlé, on sur-évaluerait
l'influence du répondant proxy dans la formulation d'un besoin d'aide.
Contrairement aux préconisations tirées des résultats existant, les
estimations de prévalence des besoins d'aide des personnes âgées vivant en
domicile ordinaire, issues des déclarations de répondants proxy, n'ont donc
3. Enquêtes et santé 117
BIBLIOGRAPHIE
santé
7.1 Introduction
Le Baromètre santé aborde les principaux thèmes de santé publique tels que la
consommation de produits psycho-actifs, la vaccination, le dépistage des
cancers ou encore les accidents de la vie courante... Pour répondre à de
nouvelles et multiples sollicitations et par intérêt des institutions partenaires,
de nombreuses thématiques se sont ajoutées au fil des ans. Ainsi, une échelle
de qualité de vie (profil de santé de Duke) a été posée pour la première fois en
1995 ; des questions relatives à la douleur sont apparues en 1999 et à la santé
mentale en 2005. Cette multiplication des sujets explorés s'est accompagnée
d'une augmentation importante du nombre de questions (126 questions en
1992 à plus de 400 en 2005) et donc de la durée de passation de questionnaire
(près de 45 minutes en 2005). Là encore, la conséquence a été une plus
grande difficulté à convaincre les personnes de participer à l'enquête compte
tenu de la contrainte temporelle que cela représentait pour eux.
120 Enquêtes et sondages
Si la majorité des questions des Baromètres santé n'a pas varié au cours du
temps, certaines d'entre elles ont tout de même fait l'objet d'une
reformulation afin d'en améliorer la pertinence. De même, certains
indicateurs utilisés ont fait l'objet de précisions ; par exemple, en 1999, afin
d'estimer au mieux la proportion d'expérimentateurs d'alcool, la question « et
avez-vous déjà bu une boisson peu alcoolisée comme du cidre, du panaché ou
des bières légères » a été posée aux personnes déclarant n'avoir jamais bu de
boissons alcoolisées (Guilbert, 2002). Ces changements opérés sur le
questionnaire qui visaient à en renforcer sa pertinence pose la question du
suivi des évolutions.
Jusqu'en 1997, seuls les Français âgés de 18 à 75 ans étaient interrogés dans
les Baromètres santé. Or, la volonté de disposer d'informations sur les
opinions, connaissances et comportements des adolescents en matière de
santé, a conduit à la première enquête française par téléphone auprès d'un
échantillon représentatif de jeunes de 12 à 19 ans. La méthodologie étant
identique à celle utilisée pour les adultes et afin de pouvoir suivre les opinions
et les comportements de santé sur une plus longue période, il a été décidé de
mettre en place une enquête globale, interrogeant ces deux populations. Ainsi,
à partir du Baromètre santé 2000 (Guilbert, 2001), la base interrogée n'a plus
été uniquement les 18-75 ans mais les 12-75 ans.
Cette modification du champ de l'enquête a donc permis de mieux suivre la
mise en place de certains comportements de santé, mais a contribué dans un
' 20
même temps, entre autre par l'utilisation plus fréquente de filtres" , à la
complexification du questionnaire.
20Certaines questions posées ne concernent pas directement l'ensemble des classes d'âges
interrogées ; par exemple celles sur le dépistage des cancers pour les adolescents ou
celles sur la consommation quotidienne de cannabis pour les personnes les plus âgées.
3. Enquêtes et santé 121
7.3 Conclusion
BIBLIOGRAPHIE
21
Renaud LIEBERHERR
8.1 introduction
L'Enquête suisse sur la santé est réalisée par l'Office fédéral de la statistique
no
(OFS) sur mandat du gouvernement suisse". En complément des statistiques
de la santé plus administratives (statistique des hôpitaux, statistique des
établissements de santé non hospitaliers, statistique médicale, etc.), l'Enquête
suisse sur la santé décrit de manière plus détaillée et différenciée les
problèmes de santé de la population générale résidant en Suisse.
L'enquête s'appuie aussi bien sur les expériences faites par l'Office fédéral
de la statistique en matière de micro-recensements, que sur les expériences
suisses et internationales dans le domaine des enquêtes sanitaires.
Initiée en 1992, elle se réalise à un rythme quinquennal (1992, 1997, 2002,
2007...). Chaque enquête se déroule sur une année entière, de janvier à
décembre, afin d'évaluer l'influence de la période annuelle sur la santé et de
pouvoir déterminer les variations saisonnières des phénomènes saisis.
8.3 Méthodologie
23 Pour de plus amples détails, le lecteur est invité à se référer au rapport de méthodes de
l'cnquctc de 2002 ; Graf, E., et Rcnfcr, J.-P. (2005).
3. Enquêtes et santé 125
24 Le questionnaire recouvre les six grands thèmes suivants : l'état de santé (santé perçue,
troubles physiques, maladies, difficultés dans la vie quotidienne, santé psychique...), les
comportements et conditions de vie (consommation d'alcool, de tabac, de drogues, de
médicaments, alimentation, activité physique...), les attitudes (face à la santé,
compétences par rapport à la santé...), la médecine préventive (vaccination contre la
grippe, prévention du cancer, du cholestérol, du diabète, contraception, comportements
sexuels...), la sécurité sociale, le soutien social (aide informelle, assurance-maladie,
réseau social...), l'utilisation des services de santé (hospitalisations, consultations
médicales, médecine complémentaire, soins à domicile...), ainsi que divers aspects
sociodémographiques (type de ménage, statut matrimonial, niveau de formation, revenu,
activité professionnelle, nationalité...).
25 A titre d'exemple, citons : « Minimum Europcan Health Module » (MEHM) de EHIS,
« International Physical Activity Questionnaire » (IPAQ), « European Working
Condition Survey » (EWCS), « MOS SF-36 MHI-5 », « C1DI-SF 12 MONTH DSM-IV
VERSION Vl.l, déc. 2002 », diverses questions sur la santé fonctionnelle (ADL et
IADL) de EHIS, etc.
126 Enquêtes et sondages
BIBLIOGRAPHIE
26 La quatrième, le romanche, n'est pas une langue d'enquête, car elle est « inclue » dans
l'allemand ou l'italien : les individus parlant le romanche s'expriment dans une de ces
deux autres langues nationales.
27 Les diverses publications sont accessibles à l'adresse suivante: http://www.bfs.
admin.ch.
3. Enquêtes et santé 127
Belgique
28 29
Laurence THOMSIN , Yannick BANTURIKI ,
29
Nicolas ROGISTER et Ingrid SCHOCKAERT30
9.1 Introduction
Cet article présente les spécificités et les originalités d'un dispositif de récolte
biographique dont la passation a été menée en 2006 en Belgique auprès de
902 personnes âgées de 55 à 74 ans. Cette enquête biographique, dénommée
« Parcours de vie des seniors. Une approche biographique étendue aux
événements de santé et à l'espace de vie. Mise en perspective quali/quanti » a
eu pour ambition théorique et méthodologique de poursuivre l'approche
conceptuelle et opérationnelle d'une collecte biographique complète (depuis
l'enfance jusqu'à la date de l'enquête) de concepts novateurs.
BIBLIOGRAPHIE
31
Ariane DU FOUR, Lionel LAFAY et Jean-Luc VOLATIER
Divers travaux ont été menés pour élaborer les outils de recueil et la
méthodologie précise de l'enquête. Une étude conduite en 2002 a permis de
valider la méthode de recueil des consommations par carnet de 7 jours par le
recueil en parallèle de l'excrétion d'azote urinaire sur 3 fois 24 heures (Lafay
et al, 2002). Elle a également permis de valider un questionnaire pour estimer
la consommation de sel ajouté. En 2004, une étude pilote conduite dans 3
Les ménages des logements tirés au sort ont été contactés soit par téléphone
soit en face-à-face par des enquêteurs professionnels formés pour l'étude.
Le contact était établi par téléphone pour les personnes de moins de 65 ans
et lorsque cette infonuation était accessible. Les enquêteurs faisaient jusqu'à
12 tentatives pour entrer en contact avec un foyer. Une fois le contact établi,
après la présentation de l'étude, ils établissaient la composition du foyer et
effectuaient le tirage au sort de l'individu à inclure dans l'étude. Ils devaient
ensuite recueillir son accord de participation et fixer un rendez-vous pour la
première visite de l'enquêteur. Lors de la première visite, l'enquêteur
recueillait l'accord définitif du participant, expliquait la manière de remplir
les carnets et l'auto-questionnaire et fixait le jour de démarrage du
remplissage des carnets. Dans les jours suivants, il procédait à des appels de
relance et de soutien pour s'assurer du bon déroulement du remplissage. La
seconde visite, effectuée 8 à 14 jours après la première, consistait à vérifier le
remplissage des carnets et de l'auto-questionnaire ainsi qu'à administrer un
questionnaire CAPI34.
Si le contact par téléphone n'était pas possible et pour les logements neufs,
les enquêteurs prenaient contact en face-à-face (avec au moins 4 tentatives à
des jours et heures différents). Une fois le contact établi, la méthodologie était
identique à celle utilisée pour les ménages contactés par téléphone.
Le recueil des données s'est effectué en 3 vagues de décembre 2005 à mars
2007 et ce afin de couvrir toutes les saisons.
10.4 Conclusion
BIBLIOGRAPHIE
ai
>-
CL
O
u
Chapitre 4
Sondages électoraux
campagnes électorales
1
Elisabeth DUPOIRIER
La commission des sondages est une structure inédite qui n'a pas eu de
modèle et qui n'a pas d'équivalent aujourd'hui dans les autres démocraties
des missions
Le cadre d'action posé par la loi de 1977 et conservé en l'état par la loi de
2002 est circonscrit à la « la publication et la diffusion de tout sondage ayant
un rapport direct ou indirect avec un référendum, une élection présidentielle
ou l'une des élections réglementées par le code électoral ainsi qu'avec
l'élection de représentants à l'Assemblée des communautés européennes»
(article 1).
Le périmètre d'exercice des compétences est certes précisément limité à la
publication et la diffusion de sondages (et non à leur production comme cela
est parfois cru à tort). Mais lorsque que les sondages sont destinés à être
publiés, le pouvoir d'intervention de la CS est vaste puisqu'elle est
compétente pour suivre tous ceux qui ont un rapport « direct ou indirect »
avec des consultations politiques. Cette formulation ouverte permettra à la
commission d'adapter son contrôle à la multiplication des angles
redressements politiques
En ce qui concerne les nouveaux critères d'opinion utilisés, elle exige que
tous soient issus de l'enquête qui a servi au recueil des intentions de vote et
qu'ils soient reproduits à l'identique lors de chaque nouvelle vague
d'intention de vote. Le recours à ces critères est loin de faire l'unanimité
parmi les sondeurs et la campagne de 2007 a été placée sous le signe de la
grande diversité des méthodes de redressements politiques.
BIBLIOGRAPHIE
Asher, H.B. (2004). Polling and the Public. What every citizen should know,
Washington, Congressional Quarterly Press, 6eme éd.
Bon, F. (1974). Les sondages peuvent ils se tromper ? Paris, Calman-Lévy.
Galabert, J.M. (2005). La commission des sondages : une expérience de
régulation, dans Etudes en l'honneur de Gérard Timsit, pages 309-326,
Bruxelles, Bruylant.
Marquis, L. (2005). Sondages d'opinion et communication politique. Cahiers
duCEVIPOF,n038, 1-213.
Timsit, G. (2007). La régulation, la notion et le phénomène. Revue française
d'administration publique, vol. 1,5-11.
Traugott, M.W., et Lavrakas, P.J. (1996). The Voter's Guide to Election Poils,
New jersey, Chatam House.
9 10 11
Patrick FOURNIER , Mathieu TURGEON , André BLAIS ,
12 13
Elisabeth GIDENGIL , Ne il NEVITTE et
14
Joanna EVERITT
2.1 Introduction
aspects de cet enjeu seront plus susceptibles d'exprimer une opinion et cette
opinion sera plus étroitement liée à leurs prédispositions et comportements.
Pour démontrer notre argument, nous examinons l'impact du positionnement
de la question sur les intentions de vote dans deux enquêtes électorales.
2.2 Argument
L'effet de délibération lié à l'ordre des questions fait référence à une situation
où le sondage permet d'améliorer : 1) la capacité de répondre à une question
et 2) la qualité des réponses à cette question. Si le questionnaire encourage les
répondants à penser à un éventail de considérations large et diversifié, alors
les questions posées plus tard durant l'entrevue devraient engendrer des
réponses différentes de celles qui auraient été obtenues plus tôt. Posséder en
mémoire un ensemble de considérations plus vaste et systématique sur un
sujet devrait augmenter la capacité des répondants d'exprimer une opinion
globale sur ce sujet et de répondre d'une manière qui soit plus conforme à
leurs prédispositions. Contrairement à d'autres effets d'ordre de question, ici
les réponses ne sont pas influencées dans une direction particulière par
l'activation d'un groupe biaisé de considérations. En fait, on donne
simplement aux répondants la chance de prendre conscience de leurs attitudes
en parcourant une longue série de questions équilibrées.
Quelles sont les manifestations empiriques d'un effet de délibération ? En
premier lieu, des changements d'opinion devraient se produire durant le
sondage. Deux types de changement sont à prévoir : mouvement de
l'indécision vers une préférence et mouvement d'une préférence vers une
autre. D'une part, des individus susceptibles de ne pas répondre au début de
l'enquête pourraient se faire une idée pendant l'entrevue et aboutir à une
préférence. D'autre part, certains individus pourraient changer d'avis durant
l'entrevue ; l'opinion exprimée à la fin du questionnaire pourrait être
différente de l'idée de départ.
En second lieu, les réponses basées sur un échantillon de considérations
étendu et représentatif risquent d'être davantage liées aux valeurs et aux
intérêts des personnes que les réponses basées sur quelques idées
momentanément accessibles. Par conséquent, les opinions qui profitent d'un
contexte délibératif devraient être plus stables dans le temps et davantage
reliées aux comportements pertinents. Ainsi, la corrélation entre les
préférences et le comportement devrait être plus forte parmi des réponses
captées à la fin du questionnaire qu'auprès de celles révélées au début.
2.3 Données
2.4 Résultats
Le Tableau 4.4 présente les proportions de répondants qui ont révélé la même
préférence dans les vagues pré- et post-électorales. En 1988, les intentions de
vote recueillies à la fin du questionnaire sont légèrement plus corrélées au
vote rapporté que celles recueillies au début. La différence de deux points
n'atteint cependant pas la signification statistique. En 2006, dans l'ensemble
de l'échantillon, la proportion d'individus avec des préférences identiques
avant et après l'élection est à peu près la même pour les deux emplacements
de la question. Mais puisque les gens qui n'ont pas changé d'idée pendant
l'entrevue ne peuvent pas avoir amélioré la qualité de leurs réponses, il est
raisonnable de limiter l'analyse à ceux qui ont modifié leur opinion. Parmi ce
groupe, la proportion d'intentions de vote conformes au comportement le jour
du scrutin est significativement plus petite au début du questionnaire (41 %)
qu'à la fm (56 %). Donc, les intentions de vote exprimées à la fin du sondage
sont plus fiables parmi les individus qui ont changé d'avis pendant l'entrevue.
2.5 Conclusion
BIBLIOGRAPHIE
3.1 Introduction
Quelle est la place des électeurs dans les travaux d'analyse quantitative en
Science politique ? Dans la plupart des enquêtes par sondage, en particulier
les enquêtes électorales, les données de base sont bien des données
individuelles qui donnent lieu aux analyses élémentaires classiques. Quant
aux méthodes multivariées (construction d'échelles, analyse de la variance,
analyse factorielle classique, etc.), la modélisation est centrée sur les relations
structurelles entre variables (propriétés, opinions) ; les individus ne sont que
des porteurs de variables. L'appellation « Analyse des correspondances
multiples » (ACM) apparaît pour la première fois dans l'article de Lebart
(1975) qui est consacré à l'ACM en tant que méthode de plein droit. Même en
et i', la distance due à cette question est nulle : d^(i, /') = 0 ; si pour la
question <7 il y a « désaccord », l'un ayant choisi la modalité k et l'autre k'
k), la distance d^i, i') entre les individus i et i' est telle que :
= +
d% i') £ j^ (avec /. = n
Jn et
A = «. /«)■
La distance globale d (/, /') est la moyenne quadratique des distances des
questions : d~(i, i') = {i, ï)IQ- A partir de ces distances, on définit le
nuage euclidien des individus. Le nombre de dimensions sera au plus égal à
{K - Q) (nombre de modalités actives moins nombre de questions actives)
dont on détermine les directions principales.
L'ACM spécifique donne un traitement particulier aux modalités peu
fréquentes (i.d. fk< 5 %), ainsi qu'aux modalités de non-intérêt (comme par
exemple les modalités « Autres »). Plus précisément, on ne tient pas compte
de ces modalités dans le calcul de la distance entre les individus.
Le nuage spécifique des individus est la projection orthogonale du nuage
des individus de l'ACM standard sur le sous-espace engendré par les points
idéaux associés aux modalités d'intérêt. Le nuage spécifique des modalités est
le sous-nuage des modalités d'intérêt avec poids et distances inchangés.
Propriétés : 1) La variance du nuage spécifique est inférieure ou égale à
celle du nuage de l'ACM standard ; 2) les propriétés constitutives de l'ACM
sont conservées, en premier lieu les formules de transition (passage du nuage
des individus au nuage des modalités) ; 3) le point moyen du sous-nuage des
individus ayant choisi la modalité k correspond au point modalité k (nuage
des modalités) par produit d'affinités orthogonales.
A un sous-nuage d'individus défini par une propriété (par exemple,
l'intention de vote), on associe non seulement son point moyen, mais aussi
son ellipse de concentration qui en constitue un résumé géométrique (voir à ce
sujet Cramér, 1946, p. 283 et Chiche et al., 2000).
Propriétés : 1) L'ellipse de concentration d'un sous-nuage projeté dans un
plan est la projection orthogonale sur ce plan de l'hyperellipsoïde de ce sous-
nuage. 2) Pour une distribution normale bidimensionnelle, l'ellipse de
concentration contient 86,5 % de la distribution.
20 Nous remercions Flora Chanvril pour son active participation à l'analyse statistique.
4. Sondages électoraux 155
L'interprétation des axes est basée sur les modalités qui contribuent à plus
de 1,95 % à la variance de l'axe (valeur légèrement inférieure à la
contribution moyenne 100/48 = 2,08 %).
1.0
ConfD ^
FrSeProtéger
0.5
HaussePrix
VieEnfts- Eco++
RéfOui
♦ AmélPrés- RéfNon
0 - Axe 1 (0.195)
Eco— AmélPrés+
NiGNiD
♦
VieEnfts+-
FrS'ouvrir
-0.5 ♦
LibEntreprises-
Interprétation des axes : l'axe 1 traduit une opposition entre des défiants
pessimistes et anti-européens à des optimistes pro-européens {cf. figure 4.1 et
tableau 4.5); l'axe 2 réactive le clivage opposant les Français à valeurs
économiques, sociales et culturelles de gauche à ceux qui se positionnent à
droite (en particulier favorisant le libéralisme économique et l'autoritarisme) ;
l'axe 3 quoique beaucoup moins important, est très intéressant : il montre une
opposition entre « ninistes-pessimistes » (français ayant confiance ni dans la
gauche ni dans la droite pour gouverner le pays) et « nonistes de gauche »
(Français proches des partis politiques de gauche, ayant voté « non » au Traité
portant sur la Constitution Européenne en 2005).
Ensuite, nous avons structuré le nuage des individus en prenant l'intention
de vote déclarée pour les candidats à l'élection présidentielle comme facteur
structurant, définissant ainsi des sous-nuages d'individus.
Nous présentons dans le plan 1-2 le nuage des individus avec les points
moyens des sous-nuages (figure 4.2). On voit que le nuage a une forme
156 Enquêtes et sondages
Valeurs de gauche
4. Sondages électoraux 157
Les ellipses de concentration (plan 1-2, figure 4.3) nous montrent que
l'électorat de N. Sarkozy mord largement sur f électoral de J.-M. Le Pen et
que, à l'évidence, les électorals de S. Royal et F. Bayrou se recoupent.
Sarkozy
Le Pen
Bayrou
Royal
■: s
3.4 Conclusion
BIBLIOGRAPHIE
Benzécri, J.-P. (1984). Pratique de l'analyse des données (tome 1), Paris,
Dunod.
Chiche, J., Le Roux, B., Perrineau, P. et Rouanet, H. (2000). L'espace
politique des électeurs français à la fin des années 1990 : nouveaux et
anciens clivages, hétérogénéité des électorats. Revue française de science
politique, vol. 50, 463-487.
158 Enquêtes et sondages
21
Patrick LEHINGUE
approches possibles
électeurs potentiels
Si, dans la grande famille des sondages, le sondage d'intention de vote est à
ce point spécifique et singulier, ce n'est pas principalement parce qu'il
cherche à recueillir une infonuation qui relève à la fois de l'opinion, de la
pratique, ou de l'anticipation d'une pratique. Ce n'est pas non plus parce que
de toutes les espèces de sondage, il est, et de très loin, le plus médiatisé, celui
dont les résultats circulent le plus, au point qu'on ne cesse de poser à son sujet
depuis un célèbre article de Gallup en 1939, la question des effets de
l'instrument de mesure sur l'objet mesuré. C'est plus prosaïquement parce
qu'il est le seul dont les indications fournies (qu'on les appelle
« instantanés », « photographies », « prévisions », « prédictions » ou
prophéties ») pourront être à un certain moment (le soir du vote) confrontées à
une réalité mesurable, d'où la problématique récurrente, et pas toujours très
informée, des « erreurs » ou des « succès », du Triomphe ou de la Bérézina,
des instituts.
certain que trois mois, quinze jours ou même la veille d'un scrutin, valeur
réelle il y ait réellement, d'où l'impérieuse nécessité d'évaluer - même
approximativement et sans certitude probabiliste possible - l'indétermination
(ou l'incertitude) des électeurs.
Cette nécessaire évaluation était, jusqu'à une date récente, très épisodique et
souvent réservée aux arrières cuisines de la confection des chiffres redressés ;
cependant, les lignes ont bougé et des progrès substantiels ont été accomplis à
l'occasion des scrutins du printemps 2007 ; in fine, on reste cependant assez
loin du compte.
Premier point : la détermination de l'indétermination électorale était
jusqu'alors tout à fait marginale comme en témoigne le fait que le
pourcentage prévu d'abstention, ou encore le nombre réel d'enquêtés ayant,
sur un échantillon de 1 000, déclaré une intention de vote, n'était
qu'exceptionnellement publié. Le pourcentage d'électeurs ayant déclaré une
intention de vote mais pouvant changer d'avis était également - sauf
92
exceptions" - non diffusé alors même qu'il était disponible puisque utilisé
pour passer des intentions de vote « brut machine » aux chiffres nets corrigés
et publiés. L'habitude prise par les médias était de titrer et de focaliser toute
l'attention sur la distribution des intentions de vote, dans une perspective de
horce race reporting (X gagne deux points et dépasse Y qui en concède trois
dans la dernière ligne droite), en laissant complètement dans l'ombre la
question saillante des intentions de vote peu fermes, des indécis ou des
abstentionnistes potentiels.
De ce point de vue, la séquence électorale du printemps 2007 se caractérise
par un progrès notable dans la diffusion d'informations relatives au niveau
d'indétermination des électeurs. Pour expliquer ce scrupule méthodologique,
on peut ici réactiver l'adage selon lequel « nécessité a fait vertu », ou brandir
l'analogie de la police d'assurance multirisques. Echaudés par le revers de
2002, les instituts ont multiplié les précautions d'usage ; ils ne se sont pas
contentés de fder les métaphores plus ou moins ajustées de « la photo-
graphie » ou du « baromètre », mais ont généralement accompagné toute
22 Par exemple IPSOS lors du référendum européen de 2005. Pour une exploitation
secondaire, permettant de calculer un taux de mobilisation électorale, on se permet de
renvoyer à Lchingue (2007, pages 73 et suivantes).
4. Sondages électoraux 161
23 Exemple de questions posées : pour 1TFOP « Diricz-vous que vous êtes sûr de votre
choix ou que vous pouvez encore changer d'avis ? » ; pour 1PSOS, calcul d'un potentiel
électoral par candidat (« Vous seriez certain de voter pour lui ou elle » + « il serait
possible que vous votiez pour lui ou elle ») ; chez BVA, calcul du pourcentage de
personnes interrogées n'ayant pas exprime d'intention de vote, et du pourcentage
d'enquêtés sûrs d'aller voter et exprimant une intention de vote ; sur la base des
électeurs certains d'aller voter, mesure par la SOFRES de la sûreté de leur choix pour le
premier tour à partir d'une question d'abord dichotomisée (« Etes-vous sûr de votre
choix ou pourriez-vous changer d'avis ?) puis en fin de campagne, ouverture des pré-
réponses à quatre options (vous avez fait votre choix et vous n'en changerez pas - vous
avez une nette préférence pour un candidat mais vous hésitez encore - vous hésitez
vraiment entre deux ou trois candidats - à ce jour, vous ne savez absolument pas pour
qui vous allez voter » ; chez Louis Harris enfin, outre le calcul du pourcentage de
personnes interrogées certaines d'aller voter n'ayant pas exprimé d'intentions de vote,
mesure de la fermeté avec trois options (vous avez fait définitivement votre choix pour
ce candidat - vous avez une préférence marquée pour ce candidat mais vous pouvez
encore changer d'avis - vous hésitez encore à faire votre choix entre ce candidat et
d'autres candidats)...
162 Enquêtes et sondages
D'une part, elle tend à présenter ce niveau d'indécision comme tout à fait
exceptionnel (jamais les électeurs n'auraient été aussi indécis, ce qui a été
l'un des grands lieux communs de cette campagne) alors même que les
premières analyses post-électorales suggèrent par exemple que le moment du
choix n'a pas été beaucoup plus tardif en 2007 qu'il ne l'avait été en 1995 ou
en 2002.
D'autre part, pour reprendre la formule classique de Durkheim, de tels
chiffres sensationnalistes, confondent ce qu'il faudrait, en toute rigueur,
distinguer.
24 Pour une illustration je renvoie aux évaluations que j'ai pu glaner à Lehingue (2007,
pages 98 et suivantes) et au bilan des appels téléphoniques passés pour la réalisation du
BPF du CEVIPOF à Chiche (2007).
4. Sondages électoraux 163
BIBLIOGRAPHIE
5.1 Introduction
5.2 Méthode
L'échelle de « chances » sur dix s'est imposée après avoir été testée par
* * 28 *
téléphone car elle est mieux comprise que l'échelle de 0 à 100" . Moins
indiscrète et intrusive qu'une question d'intention de vote directe, souvent
perçue comme « intéressante » par les personnes enquêtées, cette façon
d'aborder le comportement électoral facilite l'expression de tous les choix,
sous forme de simple possibilité. La bonne acceptation de la question est
attestée par le faible taux de sans réponse (entre 5 % et 3 %).
Plus faciles à donner, les réponses ne sont-elles pas aussi moins sincères ?
Perçue parfois comme un jeu, la question ne favorise-t-elle pas des réponses
plus superficielles, peu fiables ? Plusieurs éléments permettent de considérer
qu'il n'en est rien. Ainsi, pour tous les candidats et dans les deux enquêtes, la
courbe des fréquences cumulées des réponses à partir de la probabilité 10 fait
apparaître un coude très net au-delà la réponse 6. Les probabilités entre 10 et
6 sont les plus « difficiles » à exprimer : plus impliquantes, elles sont sans
doute plus directement liées au comportement de l'électeur. D'autre part,
rares sont les sondés qui utilisent la probabilité 10 pour plusieurs candidats :
29
3 % l'utilisent 3 fois et plus dans les deux enquêtes" , 6 % donnent deux dix
en février et 3 % en avril.
5.4 Conclusion
Des travaux sont en cours pour mieux cerner les perfonnances et les limites
de l'outil. Les premiers résultats penuettent toutefois d'estimer que
l'expérience conduite dans l'Isère est concluante. La méthode des probabilités
de vote est bien acceptée par les personnes interrogées. Une enquête
qualitative conduite parallèlement montre que ce mode d'interrogation fait
écho à la façon dont les électeurs élaborent spontanément leur décision
électorale et en parlent. L'information obtenue permet de mesurer leurs
hésitations, donc de prendre en compte l'écart entre les intentions de vote et le
31 L'indice mesure l'écart entre la plus forte probabilité affectée et les autres affectations
positives. Le maximum est I 000 quand un seul candidat est choisi avec la probabilité
10. Le minimum est 0 si tous les candidats choisis ont la même probabilité positive.
32 Ainsi, S. Royal obtient 27,2 % dans les quatre zones. Début avril, 12,7 % lui donnent la
probabilité 10 et 27,2 % lui donnent une probabilité supérieure à 6. La probabilité 7 est
son « seuil d'éligibilité ». Ce seuil varie selon les candidats, en fonction de leur capacité
à mobiliser au-delà de leur noyau électoral, ou des difficultés à avouer un vote en leur
faveur. Le seuil est entre 5 et 6 pour J.-M. Le Pen, de 6 pour N. Sarkozy et de 8 pour
F. Bayrou.
4. Sondages électoraux 169
effets de contexte
33
François YALE et Claire DURAND
Les analyses sont réalisées avec HLM 6.0. Il s'agit de modèles multiniveaux
qui permettent d'isoler les parts de variance à expliquer par chacune des
sources explicatives. D'abord, pour la période pré-référendaire (1989-1995),
la composante de variance du modèle zéro — il s'agit du modèle sans aucune
variable explicative (non présenté ici) — suggère que 60 % de la variance
totale est explicable par des facteurs liés à la mesure, alors que les variables
relatives au temps en expliquent 40 %.
Pour ce qui est des effets propres aux différentes formulations de question
(nous parlons ici d'effet moyen pour l'ensemble de la période), les différences
sont significatives. Les questions d'intention de vote récoltent en moyenne 2
4. Sondages électoraux 171
r
Figure 4.5 : Evolution de Tappui aux options
constitutionnelles, 1989-1995
souv-pan. prédiction
souveraineté prédiction
extrême prédiction
or oQ.
A0
mois/année
r
Figure 4.6 : Evolution de Fappui aux options
constitutionnelles, 1995-2007
souv-partenariat prédiction
milieu prédiction
séparation prédiction
S? ^
o_
sO
mois'année
La figure 4.6 montre que l'appui à toutes les propositions a d'abord chuté
sensiblement en début de période. Après une stabilisation au tournant de
2001-2002, nous voyons que le scandale des commandites (printemps 2004)
semble avoir entraîné une hausse de l'appui pour chacune des propositions.
Un effet cubique est ensuite observable à la suite du dépôt du rapport du juge
Gomery en novembre 2005, et ce pour deux des propositions. Faute de
suffisamment de données, on ne peut tester un tel effet de l'événement pour la
proposition séparation. Cette modélisation a permis d'expliquer 56 % de la
variance liée à la mesure et 50 % de la variance liée à l'évolution.
post- référendaire alors qu'il aurait été légitime de s'attendre à une réduction
de cet effet avec le temps : les répondants devenant de plus en plus familiers
avec le sujet, l'effet de la question devrait s'amoindrir. C'est d'ailleurs ce que
suggèrent les effets propres aux propositions constitutionnelles. La période
1989-1995 présente des effets de proposition assez forts alors que ces effets
sont moindres pour la période suivante.
A l'égard de la deuxième question, nous avons vu que le temps et certains
événements permettent d'expliquer une part de la variation dans les appuis
mesurés. L'effet de l'échec de Meech en est une parfaite illustration : cet
événement semble avoir entraîné une démobilisation populaire. Enfin, quand
à la troisième question, les conclusions diffèrent d'une période à l'autre. Entre
1989 et 1995, il semble clair que les appuis aux différentes propositions n'ont
pas évolué de façon parallèle. Nous pouvons même suggérer une tendance à
la convergence des appuis aux propositions autres que souveraineté-
partenariat. S'agit-il d'un effet particulier dû à l'imminence du référendum
sur cette question ? Bien qu'il existe encore des différences dans les effets des
propositions après le référendum de 1995, les évolutions semblent être
parallèles, ce qui vient renforcer l'hypothèse d'un effet de l'éventuel
référendum avant octobre 1995.
Cette méta-analyse de sondages a permis de confirmer certains résultats
déjà observés mais aussi de découvrir de nouvelles pistes de réflexion. C'est
également dans sa dimension méthodologique que cette étude se distingue.
L'utilisation de l'analyse multiniveaux pour réaliser une analyse de données
de sondage s'est avérée fructueuse. Non seulement la logique multiniveaux
adhère au cadre théorique, mais de plus, aucune autre méthode n'aurait
permis de répondre à la troisième question de façon aussi simple.
û
CO
o
o
fM
ai
>-
CL
O
u
Chapitre 5
développement
méthodologique majeur
1
Blandine C. DANSOU
1.1 Introduction
L'une des premières définitions de la traite des enfants est celle proposée par
le protocole de Palerme (UN, 2000). Il définit la traite d'enfant comme, le
recrutement, le transport, le transfert, l'hébergement ou l'accueil d'une
personne de moins de 18 ans à des fins d'exploitation. Et ce, même dans le
cas où la victime a donné son consentement et qu'il n'y a eu aucune menace,
utilisation de la violence ou autres formes coercitives. L'exploitation
comprend, au minimum, l'exploitation de la prostitution d'autrui ou d'autres
fonues d'exploitation sexuelle, le travail ou les travaux forcés, l'esclavage ou
les pratiques analogues à l'esclavage, la servitude ou le prélèvement
d'organes.
Cette définition, claire à la lecture, suscite quelques interrogations :
- quand dira-t-on que l'enfant s'est déplacé ou a été déplacé ?
- qui déplace l'enfant pour qu'on qualifie le mouvement de suspect ?
- quelle est la limite acceptable dans le contexte béninois entre travail,
exploitation et éducation de l'enfant à la vie ?
Le contexte dans lequel est réalisée cette étude est celui du secret et de
l'hostilité. Le secret est dû à la nature même de l'activité illicite et immorale,
mais malheureusement « rentable ». Les ONG internationales, l'Etat à travers
la Brigade de protection des mineurs et le ministère chargé de la protection de
l'enfant ainsi que les populations s'organisent avec les autorités locales pour
lutter contre ce phénomène. Les trafiquants et les parents complices du départ
et de l'accueil des enfants se sentent poursuivis de toute part. Ce qui
augmente leur méfiance et leur hostilité à toute tentative de recherche
d'information pouvant aboutir éventuellement à leur mise aux arrêts ou pire,
les exposer à la vindicte populaire.
2 Le taux d'offre de la main d'œuvre enfantine est la proportion des enfants de 6-17 ans
non scolarisés.
3 Le taux d'accueil est la proportion des migrants non scolarisés de 6-17 ans et sans lien
de parente avec les noyaux familiaux constituant le ménage.
5. Sondages dans les pays en développement 179
= \X(B*C)E
P
' A D F
- avec A = nombre de segments dans la ZD (certaines ZD ont été
segmentées) ;
- B = nombre de ZD tirées dans la strate ;
- C = nombre de ménages dans la ZD en 2002 ;
- D = nombre total de ménages dans la strate en 2002 ;
- E = nombre de ménages échantillon ici /? = 20 ;
- F = nombre de ménages dans la ZD en 2006.
x
^ = a ^
BIBLIOGRAPHIE
4
Najwa YAACOUB
se trouvaient dans chaque îlot sur les cartes, puis ils devaient recenser les
logements et les entreprises qui s'y trouvaient. À l'issue de cette opération, le
territoire libanais fut découpé en 10 506 îlots comprenant environ 524 000
immeubles, 1 021 000 logements et 194 000 établissements furent recensés.
Cette opération a duré plus de deux ans et a été réalisée alors qu'une partie
importante du Sud Liban était toujours occupée. Elle a nécessité le
recrutement temporaire de plusieurs centaines de personnes pour diverses
tâches de travail de terrain et de travail de bureau. Mais c'était la première
fois que l'ACS disposait d'une base de sondage pour tous les logements au
Liban. Ce recensement revêt une importance cruciale dans un pays où aucun
recensement de la population n'a été réalisé depuis 1932 !
Avec cette façon de procéder il était impossible de prévoir à l'avance la
taille réelle de chaque îlot en termes de nombre d'immeubles et de logements.
Les îlots crées furent de tailles très variables allant d'aucune résidence jusqu'à
avoir des îlots de plusieurs milliers de résidences (24,2 % des îlots occupés
comprenaient plus de 200 logements).
années
Les trois grandes activités citées ci-dessus ont marqué le retour de l'activité
statistique officielle en termes de production statistique. Mais cette reprise,
tout au long des dix dernières années, n'a pu être appuyée ni par un plan de
développement du système statistique libanais ni par des actions concrètes
telles l'augmentation des budgets octroyés au travail statistique ou une
politique de recrutement de cadres de manière continue. Malgré ces difficultés
et divers handicaps, l'ACS a mené d'autres enquêtes.
En 1999, une enquête sur les dépenses de santé au Liban a été menée avec
le soutien de l'OMS. En 2000, une enquête sur la situation des enfants au
Liban, réalisée avec l'assistance de l'UNICEF. Elle fait partie de l'enquête
MICS2 (Multiple Indicators Cluster Survey) menée dans 65 pays dans le
monde avec une méthodologie comparable visant à fournir les principaux
indicateurs des objectifs de développement du millénaire relatifs aux enfants
et aux femmes. Cette enquête a porté sur un échantillon d'environ 7 000
ménages.
En 2002, une enquête relative Health & Health system responsiveness a été
menée sur la demande de l'OMS qui cherchait à tester ce type d'enquête dans
certains pays du monde en vue de généraliser si l'expérience était concluante.
A partir de 2004, trois grandes activités ont été menées en parallèle :
Avant de commencer ce 2eme recensement, les cartes des îlots ont été revues,
les îlots très denses ont été subdivisés en plusieurs îlots, d'autres îlots ont été
regroupés. Le nombre total d'îlots s'est élevé jusqu'à environ 16 100.
Deux types de cartes d'îlots ont été fournis aux enquêteurs et chefs
d'équipe ; les cartes de certaines villes où des photos aériennes étaient
disponibles rendant les plans beaucoup plus précis et le travail sur le terrain
plus facile. Pour les autres régions, les limites des îlots ont été précisées de la
même manière que pour le recensement précédent.
Les cartes des îlots sont tracées à la main dans une grande partie du territoire.
Comme les rues n'ont pas de noms et les immeubles ne sont pas numérotés
dans la plus grande partie du territoire, il est très difficile de positionner les
immeubles sur les cartes d'une manière claire et facilement compréhensible
par tous les enquêteurs.
La statistique officielle n'est pas très connue et reconnue pour le grand public.
Les ménages interrogés voient rarement l'intérêt des enquêtes et l'utilisation
que l'on peut faire des résultats. Cela vient d'un manque de culture
statistique.
Ajoutons à cela l'éternelle crainte de voir les informations relatives au
revenu passées au ministère des Finances entrainant de nouveaux impôts à
5. Sondages dans les pays en développement 185
2.4.4 L'infrastructure
futures
À titre indicatif et d'après les sources officielles, cette guerre a causé 1 191
morts, 4 409 blessés, 30 mille logements détruits, 91 ponts détruits et presque
un million de déplacés durant la guerre. Il était donc évident de revoir le plan
de travail.
Le PNUD propose au premier ministre du Liban que l'ACS réalise avec leur
assistance financière une enquête sur les effets de cette guerre sur les
conditions de vie des ménages. La proposition fut acceptée et l'accord entre
l'ACS et le PNUD fut signé début janvier 2007. Le Bureau international du
travail (BIT) est venu se joindre à cet effort.
Le questionnaire contenait les modules suivants dans lesquels il a été ajouté
des questions spécifiques pour repérer les effets de la guerre.
Les projets pour l'année 2008 portent essentiellement sur l'instauration d'une
enquête annuelle Emploi qui sera faite sur PDA en cas de réussite de
l'expérience. Cette enquête sera accompagnée chaque année d'un ou deux
modules sur des thèmes jugés prioritaires pour l'année. Le deuxième grand
projet sur lequel LACS a commencé à travailler est la préparation du
recensement de 2010 tel que le préconise la division de statistique des Nations
unies. En effet, l'ACS a pu avoir les images satellites de tout le territoire et un
chantier de digitalisation de tous les îlots du recensement a commencé. Cela
permettra que toutes les cartes des îlots du prochain recensement soient
informatisées. Le problème de la précision des cartes tracées à la main sera
résolu définitivement.
3.1 Introduction
de politiques publiques
prometteurs
BIBLIOGRAPHIE
et du Mali
8 9
Jean-Marc PHILIP et Myriam MAUMY
4.1 introduction
J Qu'bb_CH
ID CH
f ID_Strate :-
Nom Srate U-bRur
L IN Tranche... :S
f ID_Trancfie_Age ScroreP
Tranche_Age ErJa-;
Categor^Age
( iDjmmi
Nom Milieu
:7A
ID_Regon :-e
J Qu6b_2N Nom Recon
? IDJndata » :ïc
Recon I9D
UrbRur J Quibb HH :.-e
IStratum / ID.HHData :ef
ID Sexe Grappe Regon 9G
Se« Ménagé UrbRur :e-
MEMBERNO m . IN Uen P IStratum :r.
ScroreP / Q_B3 Grappe
Sexe Lien de parenté Ménagé SE-
B2 Coeff_E«p -GE-:-:.-
B3 ScroreP Coeff E>îp
Age PI «Sans
E5 P2 <12305
P3 Ass-stance
LIN Eta_M... P 'rsrcne Age
Mq_nourrTture Ro.çeoe
? Q_B5 Mq_errploi ECC-
Etst Marirnonia' L IN Genre... M<i_Kab.iien-en: DTPoio
f iD_Ger»re_Age M^logement
Genre sçe Mq_équipemerv:
Mq_reveno
Mq_sOuben
Mq_pouvor
M<5_soirîs_sa ntê
Mq_édvX3ton
Trche Age
Une fois le « data warehouse » construit, les données de cet entrepôt ont été
compilées pour produire un « cube », appelé généralement « cube OLAP ».
Ce cube peut être exploré par un navigateur ou avec un tableur, en utilisant le
« tableau croisé dynamique ». A titre d'exemple, le tableau 5.3 a été obtenu
en connectant le logiciel Excel® au cube OLAP qui a été produit avec les
données de l'enquête ELIM 2006.
Le « tableau de bord » connecté au cube OLAP fournit, de manière
synthétique, les réponses aux questions posées lors de l'enquête.
Par exemple, le regroupement des réponses à la question « dans le cas des
enfants de moins de 5 ans, quel est l'état de survie de leurs parents ? » est
présenté ici suivant deux dimensions (régions et secteurs) et un critère (âge du
répondant inférieur ou égal à 5 ans).
5. Sondages dans les pays en développement 197
Dans la mesure où les résultats sont obtenus avec l'aide d'un tableau croisé
dynamique, ils peuvent être visualisés sous la forme qui convient le mieux au
décideur (ici, les résultats sont en pourcentage du total). Nous pouvons
également faire apparaître dans le tableau de synthèse la moyenne, le
maximum, le minimum, l'écart-type, la variance, etc.
BIBLIOGRAPHIE
enquêtes-ménages en Afrique
subsaharienne
10
Mireille RAZAFINDRAKOTO et François ROUBAUD
5.1 Introduction
1 1 Dans chaque pays, un échantillon de ménages de 2 500 à 3 000 ménages a été tiré
suivant un plan de sondage aréolairc et stratifié à deux degrés.
5. Sondages dans les pays en développement 201
5.4 Résultats
M
c
Enquête auprès
population 8.7 15,2 16,5 16,3 10,1 8,2 10,8 9,6 13,1
Enquête-miroir
(estimation des experts) 53,7 38,0 58,2 54,0 49,1 53,4 50,8 59,2 52,3
(Écart-type enquête-
miroir) (24.9) (21.9) (24.7) (24.2) (20.4) (25.1) (23,4) (26.3) (24.1)
Experts qui surestiment
la corruption 100 87,5 95,9 88,9 98,0 92,9 93,7 95,2 94,2
Sources : Enquêtes 1-2-3 et Enquête-miroir (348 observations), nos propres calculs.
Dans l'ensemble, les experts interrogés ont une vision beaucoup plus
négative de la réalité telle que perçue par la population. Cette surestimation
massive par rapport aux niveaux déclarés de corruption constituerait un
moindre mal si elle était uniforme. Les fortes discordances concernant le
classement relatif des pays montre que c'est loin d'être le cas. En fait, il n'y a
pas de corrélation entre les deux variables mesurant le taux de corruption
(l'une estimée par les experts dans Venquête-miroir et l'autre issue de
l'enquête auprès de la population). Le coefficient de corrélation est même
négatif (-0,13) bien que non significatif. En revanche, les résultats de
Venquête-miroir sont corrélés avec les indicateurs publiés dans les bases de
données internationales.
Bien qu'informative, l'analyse au niveau agrégé est fruste du fait du faible
nombre de pays couverts. Pour aller plus loin, nous avons cherché à dégager
les facteurs explicatifs du point de vue des experts sur l'incidence de la
corruption. A partir d'estimations économétriques, nous montrons que
l'erreur d'appréciation des experts est d'autant plus forte que les pays sont
mal notés dans les bases internationales (Razafindrakoto et Roubaud, 2006).
De plus, nous mettons en évidence l'existence de biais idéologiques : les
experts les plus favorables aux principes du libéralisme économique ou qui
jugent que les pays n'en n'ont pas suffisamment adopté les préceptes,
surestiment plus souvent, ont tendance à moins bien classé les pays qui ne
suivent pas leurs propres orientations en matière de politique économique, en
leur imputant des niveaux de corruption plus élevés. Enfin, il apparaît que les
experts s'appuient sur un modèle culturel implicite, cohérent mais erroné, sur
la façon dont « l'Afrique fonctionne » pour former leur jugement. Ils ont
tendance à surestimer le niveau de tolérance de la population aux pratiques
corruptives ainsi qu'à sous-estimer l'importance qu'elle accorde au principe
de « bonne gouvernance ».
5. Sondages dans les pays en développement 203
5.5 Conclusion
Bien que portant sur un nombre limité de cas et ne traitant que de la petite
corruption bureaucratique, notre étude montre les limites des indicateurs
globaux de corruption basées sur des perceptions. Il n'est pas question ici de
défendre une quelconque « supériorité » des indicateurs « objectifs » (déclarés
par la population) sur les indicateurs « subjectifs » (construit par les experts).
Les deux ont leur raison d'être, mais reflètent des concepts différents, non
réductibles l'un à l'autre. Néanmoins, nos résultats plaident en faveur d'un
usage plus précautionneux et raisonné des indicateurs globaux de
gouvernance, aussi bien dans le champ académique que politique (allocation
de l'aide, etc.).
BIBLIOGRAPHIE
12 13
Aude VESCOVO et Eloi OUEDRAOGO
7 villes de l'UEMOA
Le plan de sondage est identique pour les sept villes, stratifié à deux degrés.
Les unités primaires d'échantillonnage (UP) sont les zones de dénombrement
(ZD) issues des derniers recensements de la population (RGPH pour
Recensement Général de la Population et de l'Habitat) ou d'autres enquêtes14.
Après une stratification selon des critères économiques ou administratifs
(excepté à Lomé), 125 UP sont sélectionnées selon un tirage à probabilité
proportionnelle à leur taille (PPT). Ensuite 20 ménages (24 à Cotonou) sont
tirés à probabilités égales dans chaque UP (après stratification des ménages à
Dakar). Ainsi, 2 500 ménages par ville (3 000 à Cotonou) sont échantillonnés.
La phase 1 permet d'identifier les unités de production informelles (UPI).
Après une stratification selon le statut professionnel du chef d'UPI et la
branche d'activité, les UPI sont tirées selon un sondage aléatoire simple. La
phase 1 permet également une stratification supplémentaire, selon le revenu
du chef de ménage et sa situation vis-à-vis de l'activité. Un sous-échantillon
de ménages a été tiré au sein de celui de phase 1, pour la phase 3 portant sur
la consommation des ménages. La phase 3 n'a pas été mise en oeuvre à
Abidjan.
Le plan exposé ci-dessus a été appliqué avec plus ou moins de réussite du fait
de la vétusté des bases de sondage (jusqu'à 10 ans avant l'enquête).
Pour pallier cette vétusté, toutes les UP tirées au 1CI degré sont
intégralement dénombrées. Cependant, le nombre de ménages dénombrés,
souvent inférieur à celui de la base, a conduit à sous-estimer les populations.
A Niamey, par exemple, les coefficients d'extrapolation ont été multipliés
par un facteur propre à chaque strate (commune). Ce facteur a été obtenu, en
2001, en divisant la population par strate issue des résultats provisoires du
RGPH par la population estimée à l'aide des coefficients d'extrapolation.
Les coefficients d'extrapolation sous-représentent les strates I et III et sur-
représentent la strate II (tableau 5.5). Le redressement de 2001 a corrigé la
sous-représentation de la strate III, accentué celle de la strate I et réduit la sur-
représentation de la strate II. Mis en oeuvre en 2001, il est basé sur les
résultats provisoires du RGPH. Avec les résultats définitifs du RGPH (tableau
5.5-e), la représentation par strate est conservée. Ce type de redressement peut
avoir un impact sur les estimations si les strates sont hétérogènes entre elles.
Ici, l'impact est faible ; nous ne le présentons pas.
La stratification basée sur des variables corrélées aux variables d'intérêt est
bénéfique ; même sans cette corrélation, elle ne nuit pas. Il convient donc d'y
206 Enquêtes et sondages
30%
Comm. II Niamey
28%
Comm. I y■
26% 12.201
H
12451 n
24% M2 y
1,8 ï
22% _ 1,89 [il
: i ,
r' 42| 1,68
20% 3
— i1,70!
18%
— sans poids — bootstrap — linéarisation — jackknife
À Dakar, le tirage au 2nd degré a été effectué après une stratification selon le
sexe du chef de ménage, collecté lors du dénombrement. Cette complication
augmente le risque d'erreurs de calcul des poids et pose un problème de
cohérence entre informations collectées lors du dénombrement et lors de la
collecte. 19 % des chefs de ménages enquêtés ne sont pas du sexe utilisé pour
le tirage. De nombreux remplacements, ne tenant pas compte du sexe, ont été
faits sur le terrain, sans être ni justifiés ni documentés.
208 Enquêtes et sondages
6.3 Conclusion
BIBLIOGRAPHIE
Amegashie, F., Brilleau, A., Coulibaly, S., Koriko, O., Ouedraogo, E.,
Roubaud, F. et Torelli, C. (2005). La conception et la mise en © des
enquêtes 1-2-3 en UEMOA. Les enseignements méthodologiques. Statéco,
vol. 99,21-41.
16 17 18
Justin BEM , Martin MBA et Ludovic SUBRAN
7.1 Introduction
Les résultats généraux de la théorie des sondages abordent le cas (a) (voir
Ardilly, 1994, Cochran, 1977). Les cas (b), (c) et (d) sont complexes et la
théorie ne fournit que des méthodes d'approximation. Il existe deux
approches : les méthodes analytiques et les techniques de réplications qui
peuvent être récapitulées (Commission Européenne, 2002) :
a) La linéarisation
Soit T une statistique telle que n -> co, T A^[ô, ^7^) et g une fonction
n
dérivable. Alors '
g(T) -» v(g(9),g'(ej°(9)).
Les paramètres d'intérêt que l'on étudie sur la population sont généralement
les solutions d'une équation de la forme (7(0) = j ( U{Y,iï)dF{y) = 0, par
exemple
- (7(^, 0) = /(^<0) - p, pour le quantile d'ordre p; et
- U(y, jc, 0) = - jc'0) pour les coefficients d'une régression.
8E[u(y, 6)]
u'(y) = - "(y, 0„)
50 9=e0_
v(Q) = cihr{èr-è)\
r=\
/V /V '
où 0 est l'estimateur sur l'échantillon, 0 est l'estimateur sur la re"ie réplique,
R est le nombre de répliques, c est un paramètre qui dépend de la méthode
de réplication et hr est l'importance accordée à chaque réplique.
G, = j j; J[F(x)]xdF(x).
r*
Dans le cas usuel, J(p) = 2p - \, p est la moyenne de v, et F la fonction
de répartition de v. D'après Binder (1993), cet indice est solution de
l'équation u^y^G,) = J[F(y)]y - yG, = 0. Pour estimer la variance de
l'estimateur, il faut appliquer la méthode de linéarisation vue en section
7.2. l.b.
212 Enquêtes et sondages
Les estimations réalisées sont assez précises19. Les moins précises sont celles
de Yaoundé et Douala, ceci est probablement dû à des niveaux de vie plus
disparates qu'ailleurs. L'effet grappe est important en zone rurale, ce qui
conduit à relativiser le caractère précis des estimations en zone rurale.
7,3.2 Applications
Selon Ardilly (1994), si le tirage est à deux degrés, le sondage optimal compte
tenu du coût20 est défini par :
c, 1 - p C
n = - ,m =
VC2 P 1-p'
C, + Jc,c?
/v /v
0 o -v{yH,) v(i)„,) +
zones rurales, et ce d'autant qu'en intra, les strates rurales sont homogènes
(effets grappe importants en zone rurale dans le tableau 5.9).
7.4 Conclusion
BIBLIOGRAPHIE
échantillon national
21 22
Mohamed Lamine ATI F , Salim BENKHEDDA ,
22 21
Kamel MERAD-BOUDIA et Abdeldjallil BEZZAOUCHA
8.1 Introduction
8.3 Résultats
Au total, la base des données contient 1 478 sujets dont 572 (38,7 %) hommes
et 906 (61,3 %) femmes. Le taux global de participation était de 91,7%.
L'âge moyen est de 44,2 (42,3-46,1) années pour les hommes et de 42,7
(40,6-44,8) années pour les femmes.
La prévalence de la surcharge pondérale ne diffère pas significativement
entre les deux sexes et selon l'âge. Par contre, les prévalences de l'obésité et
de l'obésité abdominale sont significativement plus élevées chez les femmes
{p < 0,001) (tableau 5.12). Ces prévalences sont également significativement
plus importantes chez les personnes âgées d'au moins 40 ans (p < 0,001).
Les prévalences de la surcharge pondérale, de l'obésité et de l'obésité
abdominale ne diffèrent pas significativement entre les zones géographiques
du pays (tableau 5.13).
5. Sondages dans les pays en développement 217
8.4 Discussion
BIBLIOGRAPHIE
Yumuk, V.D., Hatemi, H., Tarakci, T., Uyar, N., Turan, N., Bagriacik, N.,
Ipbuker, A. (2005). High prevalence of obesity and diabetes mellitus in
Konya, a central Anatolian city in Turkey. Diabetes research and clinical
practice, vol. 70, 151-158.
OMS (2003). Etude de la prévalence des facteurs cardio-vasculaires majeurs
dans deux wilayas pilotes en Algérie selon l'approche Stepwise de l'OMS.
Rapport non publié.
de type entreprise
9.1 Introduction
Il sera présenté tour à tour le plan de sondage simplifié par un cas théorique,
la formalisation du gain économique et le cas-test.
B G D
des questions sur la zone de départ et le trajet de sortie d'une strate pour
l'aller et le retour (deux unités statistiques) et de les adresser aux personnels
mobiles (pour un seul répondant) des compagnies de transport à partir de
l'une des strates de collecte (qui se trouve dans un foyer de collecte). Nous
retenons donc que les strates A et C du schéma représentent ce que nous
avons évoqué sous le concept dz foyers de collecte.
Les gains en spécificité dans l'analyse rendus possibles par la
particularisation des questionnaires selon le sens du trajet est un apport non
moins important que procure cette approche. Par exemple, le nombre et le
caractère des contrôles de police, les péages communautaires, la densité du
trafic, le type et les quantités de personnes ou de matériels transportés, les
motifs de déplacements saisonniers et même parfois les tarifs et leurs
variations changent de nature selon le sens du parcours. Les questionnaires
« aller » ou « retour » permettent finalement d'obtenir un échantillon de n
individus en n'interrogeant que n/2 répondants. De plus, par les jeux du
regroupement et du tri des observations et des individus on pourrait aisément
faire des analyses sur des unités autres que celles de la collecte d'origine.
Si le mode de tirage est aléatoire, le type de sondage est conséquemment
stratifié proportionnel (voir Clairin et Brion, 1997). En effet, la base de
sondage énumère toutes les agences ou compagnies, classifiées selon leurs
axes d'exploitation, se trouvant dans les foyers de collecte, eux-mêmes
déterminés en fonction de la configuration de l'ensemble du réseau de
transport. Dans la pratique, pour l'étude d'un réseau simple, on prendrait
comme foyer de collecte les strates de grande animation ou strates carrefours.
Dans les réseaux complexes, on pourrait randomiser le choix des foyers de
collecte ; ce qui renverrait à un tirage à deux degrés après le tirage des
entreprises.
Ainsi une même compagnie qui exploite plusieurs axes sera comptée autant
de fois dans la base de sondage sous le distinguo de son axe d'exploitation et
est susceptible d'apparaître plusieurs fois dans l'échantillon. La taille de la
population N est donc égale au nombre total de compagnies potentiellement
répondantes multiplié par deux. Le tirage des « compagnies » s'effectuera au
sein des strates dites foyer de collecte selon leurs axes d'exploitation (ces axes
peuvent être considérés comme un niveau inférieur de stratification dans les
foyers de collecte). Ceci implique que les effectifs des strates ne faisant pas
partie des foyers de collecte seront tout simplement déduits de leurs liens avec
ces foyers. Pour un taux de sondage n/N recherché, le taux de sondage
appliqué dans chaque « foyer-axe » (ensemble des compagnies et agences
d'un foyer de collecte desservant un axe donné) d'indice / est /î/A/j tel que
A = 2ZA/j et /? = 2Z/Î, ou encore tel que i = N zi , = n où y est
l'indice des « foyer-axe » et des autres strates.
222 Enquêtes et sondages
B = FQ + FPT + FD = FQ + an + bSD.
Selon M2,
25Nous adressons nos sincères remerciements à Pr. Koffi N'Gucssan, M. René Ycbouc
Kabran, M. Hubert Attah et M. Séverin Yves Kamgna.
26 Monographie des transport, ministère des Transports, Côte d'Ivoire, étude à usage
interne au ministère.
224 Enquêtes et sondages
9.5 Conclusion
Cette méthodologie peut être déclinée en projet d'étude à des fins de visibilité
conjoncturelle à soumettre aux institutions de gestion du transport quel que
soit le pays.
BIBLIOGRAPHIE
d'Afrique subsaharienne
27 28
Nathalie LYDIÉ, Philippe GUILBERT et Gaël SLIMAN
10.1 Introduction
30 Le rapport complet de l'enquête est disponible. Lydié, N. (dir.), Bcltzer, N., Fénies, K.,
Halfcn, S., Lcrt, F. et Lcvu, S. (2007). Les populations africaines d'Ile-de-France face
au VIH/sida - Connaissances, attitudes, croyances et comportements. Institut national de
prévention et d'éducation pour la santé, Saint-Denis.
31 Cette hypothèse a depuis été vérifiée. Voir Borrcl, C. (2006). Enquêtes annuelles de
recensement 2004 et 2005. Inscc Première no1098.
226 Enquêtes et sondages
Pour être éligible, une personne devait remplir trois critères : (i) être née dans
un pays d'Afrique subsaharienne, (ii) être âgée de 18 et 49 ans, (iii) résider
habituellement en Ile-de-France. L'enquêteur devait solliciter l'ensemble des
personnes qui, a priori, pouvaient remplir ces critères, dans le respect du
temps affecté à chaque site et l'ordre du circuit.
10.3 Conclusion
1. Techniques d'orientation et de
Gérard DAHAN1
2 Sondage BVA réalisé par téléphone du 15 au 16 janvier 2007 auprès d'un échantillon de
1004 personnes représentatif de la population française âgée de 15 ans et plus
Échantillonnage par la méthode des quotas : sexe, âge, profession du chef de famille
après stratification par régions et catégories d'agglomération.
3 Sondage exclusif CSA/FRANCE EUROPE EXPRESS/FRANCE INFO réalisé par
téléphone les 17 et 18 janvier 2007. Échantillon national de 1 003 personnes âgées de
18 ans et plus, constitué d'après la méthode des quotas, après stratification par région et
catégorie d'agglomération.
6. Méthodes de collecte et applications 231
vous tout à fait confiance, plutôt confiance, plutôt pas confiance ou pas du
tout confiance à Jacques CHIRAC pour résoudre les problèmes qui se posent
en France actuellement ? ».
Dans la première formulation on parle de confiance « au président de la
république, Jacques Chirac », l'homme arrive derrière la fonction
présidentielle, la confiance est exprimée en la fonction et en l'homme. On
parle également d'affronter efficacement. Les problèmes se posent «au
pays ». Le mot nous inclus dans une communauté dont nous faisons partie et
dont Jacques Chirac est le président. Dernier point, il s'agit d'une échelle en 2
positions, confiance ou pas confiance.
Dans la deuxième formulation, on remarque que la fonction présidentielle a
disparue, c'est Jacques Chirac qui est évalué, sans sa fonction. Il ne s'agit
plus « d'affronter efficacement », mais de « résoudre les problèmes » ; il y a
là une différence que les personnes enquêtées vont entendre. L'échelle a 4
positions ce qui donne plus de possibilités de nuances. À la même période,
l'indice de confiance CSA est de 42 % de confiance. L'indice de confiance
Sofres est de 23 % de confiance.
émotionnelle
l'électorat
Les « push poils » sont apparus aux USA il y a quelques années. On pourrait
traduire cette expression par « sondages d'influence ». Ces opérations de
télémarketing se présentent comme des sondages étudiant ce qui peut affecter
les intentions de vote. En réalité, elles ne visent qu'à « influencer » le plus
grand nombre d'électeurs possible en distillant de fausses informations sur un
candidat. Selon Feld (2000), « il s'agit d'une technique utilisant les
insinuations et les fausses informations pour influencer les électeurs sans
aucune intention de recherche ». La plupart du temps d'ailleurs, les réponses
des personnes « enquêtées » ne sont pas enregistrées. Plusieurs exemples de
« push poils » ont été mis en évidence dans les campagnes politiques
américaines.
L'un des plus célèbre est celui utilisé par l'État major de campagne de
George W. Bush contre John Mac Cain4 en Caroline du Sud lors des primaires
de 2000. La question suivante a été posée à un large échantillon d'électeurs :
« Seriez-vous plus enclin ou moins enclin à voter John Mac Cain comme
président si vous saviez qu 'il est le père illégitime d'un enfant noir ? » Le but
était bien sûr de suggérer que tel était le cas. L'argument était d'autant plus
pernicieux que John Mac Cain faisait campagne avec à ses cotés sa fille
adoptive, foncée de peau, originaire du Bengladesh. John Mac Cain perdit les
élections de Caroline du Sud et cela marqua la fin de sa course pour
l'investiture.
Les associations Américaines d'instituts de sondages qui se sont
ouvertement prononcées contre ces techniques ont donné quelques
caractéristiques permettant de les identifier. Les « vrais sondeurs » donnent en
général le nom de l'institut alors que les pratiquants des « push poils » ne
donnent pas de nom ou donnent un faux nom. Si les « vrais sondages » sont
réalisés sur des échantillons réduits (de 300 à 1 000 personnes), l'objectif des
« push poils » est de toucher un maximum d'électeurs (plus de 1 000), le plus
près possible du jour de l'élection. Enfin, quand les « vrais sondages » durent
de 5 à 30 minutes, les « push poils » ne durent que 20 à 60 secondes, juste le
temps de délivrer les fausses informations sur le candidat qu'on cherche à
contrer. À ma connaissance, il n'y a pas eu de « push poils » en France selon
la définition des associations Américaines. Cependant, on entend souvent dire
qu'il faut quelques années pour qu'une « innovation » traverse l'Atlantique...
4 Le même qui actuellement brigue Tinvestiture républicaine pour les élections de 2008.
234 Enquêtes et sondages
BIBLIOGRAPHIE
électronique : l'expérience du
5
Rossana MANRIQUEZ
2.1 Introduction
2.2 La saisie
opérateur faisait la saisie (Saisie Sur Image ou Saisie Sur Pleine Image). Pour
la SSPI, il voyait la page complète ; pour la SSI, uniquement la donnée.
Les champs de réponse sont classés d'avance en quatre types. Les réponses
à cocher sont des marques. Un champ numérique contient seulement des
chiffres. Les adresses et codes postaux sont alphanumériques en raison de leur
complexité ; les autres champs sont des alpha. Le Tableau 6.2 fait état de la
distribution des champs selon l'opération et le type :
RECO 311 789 902 134 049 096 39 857 681 5 454 848 491 151 527
SSI 7 034 690 13 522 529 20 868 202 4 216 522 45 641 943
SSPI 1 818 728 1 888 639 327 127 131 859 4 166 353
SSP 3 206 276 1 324 515 652 296 87 117 5 270 204
TOTAL 323 849 596 150 784 779 61 705 306 9 890 346 546 230 027
2.4.1 Déroulement
dans chaque strate, un échantillon aléatoire simple. Pour déterminer les strates
de la deuxième phase, nous avons supposé qu'il existe un lien entre une
différence entre les saisies à l'étape de l'assurance de la qualité et une erreur à
la saisie. Entre autres, nous avons choisi tous les champs ayant une différence
(59,4 % de notre échantillon). De novembre 2006 à la fin mars 2007, une
équipe de dix opérateurs a comparé la saisie avec l'image à l'aide d'une
application avec interface graphique.
2.4.2 Résultats
a) Résultats globaux
Nous disons qu'une réponse est connue si nous pouvons déterminer les
intentions du répondant avec l'information disponible sur la page. Une
réponse est directe lorsque lisible, dans le bon format et au bon endroit. Si une
réponse n'est pas directe, alors elle est équivoque. Il y a une erreur de saisie
lorsque l'information du répondant ne correspond pas au résultat de la saisie.
Nous avons utilisé la technique des répliques pour calculer la variance des
estimations. Puisque la non-réponse (3,1 %) (images non retrouvées,
questionnaires mal classés, etc.) n'était pas liée à notre variable d'intérêt,
nous avons ajusté les poids. L'échantillon final est de 290 671 champs. Pour
267 800 champs, la réponse est connue. La réponse est directe pour 179 389
champs et 77 016 champs ont été identifiés comme étant erronés.
L'erreur globale de la saisie, telle qu'estimée par notre étude, est de 0,87 %.
RECO a été appliquée sur les champs ayant un niveau de confiance élevée ;
SSI, sur les champs mal reconnus par la machine et SSPI, pour des cas où, le
plus souvent, le cadrage de la photo du questionnaire faisait défaut. SSP a été
appliqué lorsque le questionnaire présentait un problème et non pas,
nécessairement les champs.
La réponse équivoque représente 3 % de tous les champs, mais la moitié des
erreurs sont équivoques. Il faudrait trouver un moyen d'identifier la réponse
équivoque et de s'assurer que ce n'est pas l'opération RECO qui la traite.
b) Substitution de chiffres
Nous nous intéressons ici à la réponse directe pour les champs numériques
(95,79 %) et comparons les nombres qui ont le même nombre de chiffres
(99,38 % des champs saisis par les opérateurs et 99,87 % de RECO). Le
nombre de substitutions représente moins de 1 % des champs numériques.
h MM
À gauche se trouvent les résultats de RECO et à droite, ceux des opérations manuelles
pour les substiaitions. L'information contenue dans le questionnaire est en blanc et
l'erreur commise, le résultat de la saisie est en gris. C'est le « 7 » qui est le plus
souvent mal saisi. Pour les opérations manuelles, il n'y a pas vraiment de choix
populaire d'erreur. Par contre, le patron de RECO génère un biais.
c) Effet de l'algorithme
2.5 Conclusion
BIBLIOGRAPHIE
Robert REVAT7
3.1 introduction
7 Robert Revat, professeur, École de management de Lyon (EM Lyon), 23 avenue Guy de
Collonguc, 69132 Ecully cedex, France, rcvat@em-lyon.com.
6. Méthodes de collecte et applications 239
fur et à mesure que l'enquêteur égrène ses questions. Pour pallier ce biais, il
est convenu d'effectuer une rotation des items pour pallier cet effet d'ordre :
elle consiste à présenter au premier répondant les k items en commençant par
le 1er et en finissant par le A'cme, puis, au deuxième répondant, en commençant
par le deuxième et en finissant par le premier et ainsi de suite.
Une autre technique consiste à tirer aléatoirement chaque item dans la base
des items. Cette technique nécessite une réalisation de l'enquête assistée par
ordinateur (CATI ou CAPI) et n'est pas utilisable dans le cas d'une
administration par questionnaire PAPI (paper andpencil interview').
Nous avons utilisé les données d'une enquête réalisée en face-à-face où 401
répondants étaient amenés à se prononcer sur 6 scénarios ayant trait à des
situations de transport et déplacements (embouteillage, pics de pollution,
pénurie de places de stationnement, péage urbain...), et à évaluer, en termes
d'équité, des solutions proposées.
Chaque scénario comportait entre 5 et 7 assertions, toutes évaluées par la
même échelle de Likert à 4 positions. Le tableau ci-dessous présente un de
ces scénarios. Il a trait aux modalités d'attribution des places dans un parking
d'entreprise saturé : « ça se passe dans une grande entreprise, dont les salariés
viennent presque tous travailler en voiture. Elle est installée au centre ville,
dans un secteur où il est vraiment très difficile de se garer et où le
stationnement coûte cher (environ 20 € par jour), A l'intérieur de cette
entreprise, il y a un parking assez grand qui leur est réservé... L'entreprise
doit faire des travaux dans son parking pour une durée de 6 mois : 2 places
sur 3 vont être supprimées pendant cette période. Il y aurait différentes
solutions pour attribuer les places restantes. Je vais vous les présenter et, pour
chacune, vous direz si vous la trouvez... très injuste, plutôt injuste, plutôt
juste, très juste ».
L'administration du questionnaire durait une quarantaine de minutes. Pour
pallier l'influence de la position des questions sur le taux de non-réponse,
chaque série d'items faisait l'objet d'une rotation. Dans le cas du scénario ci-
dessus, le premier questionnaire était posé dans l'ordre des items tel
qu'imprimés dans le tableau, le deuxième questionnaire commençait par le
deuxième item (« on attribue les places par tirage au sort ») et finissait par le
premier (« on donne d'abord les places aux femmes enceintes et aux
handicapés »), le troisième questionnaire par le troisième item et finissait par
les deux premiers, et ainsi de suite. On notera également que les modalités de
réponse étaient alternativement présentées dans un ordre inverse : de « très
240 Enquêtes et sondages
3.3 Résultats
ainsi construire le tableau 6.7 qui indique, pour chaque scénario, la proportion
de non-réponses à la question posée en premier, en deuxième, et ce, quel
que soit son libellé.
Les tests de Khi-2 indiquent qu'il n'y a pas de corrélation entre le taux de
sans réponse et la question posée, ce qui illustre l'efficacité de la procédure de
rotation et valide l'hypothèse n03.
3.4 Conclusion
La rotation des items, telle qu'elle a été pratiquée dans cette enquête permet
donc d'éviter une augmentation des non-réponses due au rang des items dans
le questionnaire. En revanche, la non-validation de la première hypothèse et la
validation partielle de la deuxième montrent que le taux de non-réponse n'est
pas le seul indicateur à prendre en compte.
En effet, l'examen de la matrice des corrélations des items montre que la
corrélation entre deux items successifs est systématiquement supérieure à
celle des items situés à deux rangs de distances. Par exemple, l'item 3 est
significativement plus corrélé avec l'item 2 qu'avec l'item 1, ce qui traduit la
contamination des réponses à une question par les réponses à la question
précédente. Ce résultat met en évidence la faiblesse inhérente de la procédure
de rotation : le décalage dans la présentation des items aux répondants, s'il
modifie le rang de présentation des items, n'empêche pas que chaque item
soit toujours encadré par les deux mêmes items. Voilà pourquoi la procédure
de tirage aléatoire des items présente potentiellement un avantage important, à
condition de pouvoir être mise en œuvre grâce à une assistance logicielle.
Notre prochaine étape consistera à le valider expérimentalement.
8
Souleymane OUEDRAOGO
4.1 Introduction
Dans les jeunes États démocratiques (dont la plupart sont des PVD), la
question des élections reste un domaine très sensible. L'organisation et les
résultats des élections ont souvent été la source de graves troubles
6. Méthodes de collecte et applications 245
La nature et/ou la gravité de certaines maladies font que les personnes qui en
souffrent s'abstiennent de la dévoiler. Il est très gênant de demander par
exemple à une personne, si elle a une faiblesse (ou frigidité) sexuelle. Il en est
de même pour les questions relatives à la consommation de la drogue ou à
celles qui touchent les activités illégales ou socialement inadmissibles. Dans
ces conditions la technique du questionnement direct peut conduire à une sous
évaluation de la proportion des personnes concernées. Les répondants seront
plus francs si l'anonymat leur était assuré.
C □ 11 11
E, Y, X - Choix de E - Garanti
questionnaire unique
4.4.1 Estimateurs
a) Homogénéité
Le plus important dans une enquête par sondage n'est pas tant de connaître la
réponse de Monsieur ou de Madame X, mais d'avoir une estimation juste de
la distribution des réponses de toutes les personnes qui ont les mêmes
caractéristiques (sexe, âge, occupation...) que Monsieur ou Madame X. Aussi,
la formation de paires non homogènes réduit considérablement la précision
des informations. Par exemple une paire d'individus de sexes différents ne
penuettra pas d'apprécier l'intention de vote des femmes, alors que le
candidat à besoin de ces résultats pour améliorer sa côte. Un regroupement
selon le sexe S permettra au candidat K de connaître la probabilité
Prob(XA- = 1/5 = 5) qui désigne la probabilité que le candidat K soit voté
sachant que l'électeur est de sexe 5. Un regroupement selon le groupe d'âge G
et le sexe améliore d'avantage l'information puisqu'on pourra calculer par
exemple Prob(XA- = 1/5 = 5,G = g), d'où l'importance de former des paires
d'individus homogènes.
La proximité des individus d'une paire donnée (voisins, même service, même
collège...) est un atout majeur dans la technique du questionnaire unique. On
gagne, par exemple, à former les paires avec les élèves d'une même classe.
4.6 Conclusion
BIBLIOGRAPHIE
5.1 Introduction
(a) (b)
Proportion ayant eu leurs premiers Proportion d'hommes et de femmes
rapports sexuels avant 18 ans (%). porteurs de l'infection à Chlamydia
Hommes âgés de 18 à 49 ans Trachomatis, en % ( 18 à 34 ans)
80 6
75 75 2
5.4 Conclusion
BIBLIOGRAPHIE
6.1 Introduction
pilote de cette enquête, réalisé en 1991, concluait que le téléphone d'une part
et l'entretien en face-à-face avec une partie du questionnaire en auto-
administré d'autre part, avaient chacun leurs avantages et que les taux de
refus s'avéraient similaires dans les deux cas (Spira et Bajos, 1993). Les
chercheurs avaient alors noté une plus grande facilité à répondre au téléphone,
une meilleure cohérence et un contrôle de terrain plus efficace, mais aussi une
tendance à donner des réponses plus proches de la norme qu'en face-à-face.
Retenir le téléphone constituait à l'époque un pari osé car la suspicion était
grande, toute la méthode restait à inventer pour construire un échantillon
aléatoire, et les instituts de sondages devaient être fonués à cette nouvelle
approche. Cette recommandation en faveur de l'enquête téléphonique était
assortie de certaines précautions telles que la formation et le suivi des
enquêteurs, le recours à la méthode de Collecte Assistée par Téléphone et
Informatique (CATI), l'envoi préalable d'une lettre-annonce à tous les foyers
tirés au sort... Elle rejoignait aussi les conclusions de plusieurs études
méthodologiques américaines menées en population adulte sur des sujets
sensibles dès les années 1980 (Czaja, 1987).
qualité
ligne fixe au profit d'un téléphone portable crée une situation d'enquête
atypique qui reste pour l'instant défavorable à son déroulement.
Les taux de refus du Baromètre santé 2005 ont été de 34,7 % pour les
individus dont le numéro était inscrit sur la liste blanche ou orange et de
45,2 % pour ceux dont le numéro était inscrit sur la liste rouge. Si l'on ajoute
à ces refus les abandons, ils atteignent respectivement 39,9 % et 50,6 %, soit
un taux de refus global de 42,1 % pour l'ensemble des lignes fixes. Ces taux
de refus apparaissent en progression par rapport à 2000 (taux global de
35,6 %), en particulier pour le taux d'abandon (1,9 % en 2000), probablement
en raison de la durée du questionnaire et de la difficulté de certains nouveaux
modules, tels que ceux portant sur la santé mentale. L'échantillon des
portables exclusifs a été constitué de manière indépendante de l'échantillon
des lignes fixes. Parmi eux, un taux de refus de 40 %, auquel il faut ajouter les
3 % d'abandons en cours d'entretien, a été observé.
emporter l'adhésion des enquêtés, les taux de refus élevés que nous avons
rencontrés montrent qu'il n'est pas toujours suffisant.
Il est envisagé, dans le cadre du prochain Baromètre santé, de proposer aux
individus refusant l'enquête malgré l'insistance de l'enquêteur de participer à
une étude méthodologique sur le profil des non-répondants. L'idée est de
contrôler la spécificité de leurs réponses afin d'estimer à quel point un
redressement effectué sur les variables sociodémographiques classiques est à
même de les « représenter ». L'expérience dans ce domaine ayant montré que
les questionnaires auprès de ces populations réfractaires aux enquêtes était
très difficiles à mener, il faudra sans doute adresser une nouvelle lettre
expliquant cette démarche aux non-répondants et dédommager ces enquêtés,
cette étude étant l'occasion d'évaluer à quel prix ils estiment devoir être
payés, dans une sorte de jeu d'offre et de demande.
En définitive, pour pouvoir conserver les conditions d'enquête favorables
qu'offre le terrain téléphonique, il peut sembler opportun de rémunérer les
premiers artisans du succès de ces enquêtes, à savoir les répondants, gageant
que le biais introduit par l'élément pécuniaire, s'il existe, doit être moins
important que celui découlant d'une faible participation à l'enquête. Il est
probable que cette rémunération soit perçue comme une valorisation objective
des informations apportées par le répondant dans le cadre précis de cette
enquête, par rapport à toutes celles qui n'offrent pas de dédommagement. Il
appartient aux instances de la statistique publique de se prononcer sur cette
question d'un point de vue déontologique.
BIBLIOGRAPHIE
7.1 Introduction
méthodologiques
de suivi de la collecte. Cette dernière a permis, outre les relances, de gérer les
mailings et les demandes de renvoi de questionnaires ou de calculer des
statistiques de retour. De plus, le questionnaire internet était précédé d'une
note explicative téléchargeable.
Aussi, afin de respecter la confidentialité, l'accès au questionnaire en ligne
était-il protégé par un identifiant et un mot de passe envoyés par courrier.
Cette mesure devait permettre tant l'identification que la sécurisation des
données transmises. Les mots de passe ont été générés afin d'éviter toute
confusion (par exemple, entre le chiffre « 0 » et la lettre « O », le chiffre « 1 »
et la lettre « 1 »). La saisie du questionnaire en ligne était protégée à l'aide du
protocole https.
Un travail a encore été effectué sur la présentation du questionnaire en ligne,
afin de le rendre agréable à remplir : graphisme, explications, informations,
contacts, remerciements. Par ailleurs, le répondant avait la possibilité
d'imprimer une version terminée du questionnaire validé.
12 Hormis le fait que 76 % des répondants Internet ont donné leurs courriels et 43 % sur
papier, nous ne savons pas si les établissements répondants avaient accès à Internet.
262 Enquêtes et sondages
BIBLIOGRAPHIE
16 17
Jean-Baptiste COMBES Valérie GUAGLIARDO ,
18
Patrick PERRETI-WATEL et Pierre VERGER
8.1 Introduction
Les taux de réponses dans les enquêtes en population générale baissent, ce qui
pose un problème de représentativité (Link et Mokdad, 2005a). Pour y
remédier, certains auteurs préconisent de combiner différents modes de
collecte (Link et Mokdad, 2005b).
Certaines études suggèrent que les stratégies de collecte des données par
courrier, téléphone ou face-à-face sont pratiquement interchangeables,
notamment en termes de comparabilité des résultats (données de santé et de
maladie) et de validité des réponses (Hochstim, 1967). D'autres ont montré
que des différences peuvent exister (McHomey et ai, 1994; Perkins et
Sanson-Fisher, 1998).
Une enquête a été conduite par l'Observatoire Régional de la Santé
Provence Alpes Côte-d'Azur (PACA) de novembre 2005 à juin 2006 pour
décrire les conditions et modes de vie et les comportements de santé des
étudiants et étudier la prévalence de la détresse psychologique (DP). Les
données ont été recueillies selon une procédure mixte. L'objectif de cette
présentation est (i) de comparer les caractéristiques des étudiants ayant
répondu par différents modes de recueil et (ii) d'évaluer si la prévalence de la
DP varie selon le mode de recueil, en tenant compte des caractéristiques
précédentes.
domicile par la poste. Enfin, ceux ne répondant toujours pas étaient contactés
par téléphone par un enquêteur professionnel.
Le questionnaire décrivait notamment les caractéristiques sociodémo-
graphiques de l'étudiant et de ses parents, aides financières, filière de
formation, mode de vie (logement, transport...) et adaptation à la vie
étudiante (Brachet et ai, 1998). La DP était évaluée par un module du SF-36,
le Mental Health Inventory-5 (MHI-5) (Leplege et ai, 1998) à partir duquel,
une variable binaire de DP a été construite (Korkeika et ai, 2000).
Toutes les analyses ont été stratifiées sur le sexe. La cohérence interne du
MHI-5 a été vérifiée par l'alpha de Cronbach. Nous avons comparé, 2 à 2, les
caractéristiques des étudiants selon chaque mode de recueil et défini ainsi 3
variables dépendantes : « AQ postal versus AQ SMPU », « téléphone versus
AQ SMPU » et « téléphone versus AQ postal ». Des tests de Khi-deux ont
d'abord été effectués puis des régressions logistiques multiples (3 modèles
chez les garçons, 3 chez les filles). Puis l'association entre prévalence de la
DP (variable dépendante) et mode de passation a été étudiée par des
régressions logistiques multiples (3 modèles chez les garçons et 3 chez les
filles) ajustés sur les variables significatives dans les modèles correspondants
précédents.
8.3 Résultats
Connaissance de la ns _** ns _* _* ns
filière dans laquelle
il/elle est inscrit(e)
(non)
Inscrit à une autre +* ns ns +* ns ns
formation (non)
Mode de vie,
adaptation vie
étudiante
Travail après minuit ns ns ns +** ns ns
(non)
Travail personnel par ns ns ns ns ns +*
semaine (non)3
Difficultés logement ns ns ns +** ns +*
(non)
Eloignement de la ns ns ns ns ns +*
famille (non)
Influence des parents ns ns * ns * "
dans le choix des
études (non)
6. Méthodes de collecte et applications 267
8.4 Discussion
Les étudiants qui ont répondus par AQ postal et téléphone - donc plus tard
dans l'année scolaire - ont déclaré plus fréquemment ne pas avoir de projet
professionnel précis. Ceci pourrait être lié au choix plus fréquent par ces
étudiants des filières lettres ou sciences humaines incluant des proportions
souvent élevées d'étudiants indécis sur leurs choix professionnels.
Les alpha de Cronbach du MHI-5 - tous supérieurs à 0,7 - indiquent une
bonne cohérence interne quel que soit le mode de recueil. Les associations
observées entre mode de recueil et prévalence de la DP étaient différentes
selon le sexe. Chez les filles, le téléphone était associé à une moindre
déclaration de symptômes de DP : cette différence était aussi observée chez
celles qui ne s'étaient pas déplacées au SMPU (téléphone versus AQ postal).
Cet « effet » pourrait être lié à un biais de désirabilité sociale : les personnes
interrogées par téléphone ont tendance à présenter une image d'elles-mêmes
plus favorable que lorsqu'elles complètent un AQ (Fowler et Gallagher,
1999). Mais la contrainte de temps lors des interviews téléphoniques peut
aussi conduire les personnes interrogées à ne pas mentionner des symptômes
de faible intensité, entrant tout de même dans le calcul du score MHI-5
(McHomey et al., 1994 ; Perkins et Sanson-Fisher, 1998). Pour les garçons, le
fait de répondre par AQ postal était associé à une DP plus importante que par
AQ au SMPU : il est possible que les garçons qui ne se sont pas déplacés au
SMPU souffraient plus fréquemment d'une DP et que cela soit une des
raisons pour lesquelles ils ne se sont pas déplacés. Chez les garçons qui ne
sont pas déplacés au SMPU, l'utilisation du téléphone semble, comme pour
les filles, conduire à une sous-estimation de la DP.
Notre enquête n'avait pas pour but initial de déterminer les effets du mode
de passation : ainsi sa méthodologie ne permet pas d'assurer que les
associations précédentes sont dues au mode de réponse : elles pourraient
provenir de caractéristiques des individus non contrôlées dans les analyses
(Link, 2005b). Les enquêtes utilisant des modes de passation différents sont
amenées à se développer. Des recherches sont nécessaires dans ce domaine
afin de développer des questionnaires compatibles, c'est-à-dire penuettant de
comparer les résultats d'un mode de recueil à l'autre (De Leeuw, 2005).
BIBLIOGRAPHIE
approximation géographique :
Luxembourg
19 20
Philippe GERBER et Sébastien FLEURET
9.1 Introduction
"a
Strate (5)
géographique rfl?
Strate (2) o
géographique
-
o "j on
0
...
iéT
0 500 Mètres
« Strate (6)
géographique
n
ff
(3) G -•
■c 'r
->5
A a ☆
N
0 Oo
Strate (2) géographique
O n O
☆
aA □ o ^ A
☆ O A
□ CCI cO-] 0°
0
0 A
Mètres 500
☆ 5
o
OwO
V ☆
A
o
o
Strate (1) g 13, □ 0
i 7X A
f* È \ A
6> ☆
^ Q
<D ☆rf> 0
(D ^
n ô oO Oo
^JfO
-v/ xO/ m
/xj Délimitation des strates géographiques polyligne destinée à u
calculer une distance
Zones de cadres et d'employeurs (PSI) r m0yenne pour la Strate '
Zones d'ouvriers et de manoeuvres (PS2) \ SQ 1, PTyPA 1 et PS 2 ^
0 0
☆ Autonomie très limitée (PTyPAi) O >
Bas revenus, isolées, aide mobilisable limitée
o (PTyPA2)
O
☆ O
A Hauts revenus et isolées (PTyPAS) .-o- o
00 S. (4) G.
□ Bonne santé, confort subjectif fort (PTyPA4)
Auteurs : P. Gerber, . O
M. Schneider - 2007
o Jeune troisième âge (PTyPAS) Sources : PaVdL 2003, Cl IPS/INSTEAD aOQ^TATf C 2001
9.4 Conclusion
Cet article s'attarde sur une méthode de projection utilisant les poids
constitués lors des phases de pondération d'une enquête, et visant à
cartographier ces résultats d'enquête à une échelle plus fine que les strates
spatiales d'échantillonnage. Cette méthode d'approximation offre une
possibilité relativement simple de représentation cartographique, liées entre
autres au bien-être des personnes âgées, que les analyses multi-niveaux, par
exemple, ne prennent pas forcément en considération.
BIBLIOGRAPHIE
21
Caroline BAYART et Patrick BONN EL
10.1 Introduction
ménages déplacements
Généralement, les auteurs distinguent quatre types de biais pour les enquêtes
web (Dillman et Bowker, 2001 ; Alsnih, 2005) : le biais de couverture, le
biais d'échantillonnage, le biais de mesure et le biais de non-réponse.
Répondre à un questionnaire en-ligne présuppose de disposer d'un ordinateur
et d'une connexion Internet. Or, bien que l'équipement informatique des
ménages français et le taux de pénétration d'Internet sur le territoire soient en
forte progression, ils restent encore faibles pour permettre le lancement
d'études de mobilité. De plus, il n'est pas établi que l'ensemble des ménages
ayant accès à Internet soit à l'aise avec l'utilisation du web. Il est possible que
non seulement les caractéristiques sociodémographiques des internautes
diffèrent de celles de l'ensemble de la population, mais qu'elles varient
également selon le type d'équipement possédé (Alsnih, 2005). L'échantillon
obtenu par une enquête web n'est donc généralement pas représentatif de la
population étudiée, ce qui limite fortement la généralisation des données
d'enquête à l'ensemble de la population par inférence statistique. Par ailleurs,
les répondants ne terminent pas tous le questionnaire, et certains
dysfonctionnements techniques peuvent également causer des erreurs dans la
collecte des données par Internet, sans que l'administrateur en connaisse les
raisons précises (Dillman et Bowker, 2001). Il n'est pas évident d'établir que
ces comportements de non-réponse, totale ou partielle, ne soient pas liés aux
pratiques de mobilité (Bonnel, 2006), d'où un biais de non-réponse important.
Il est également difficile de contrôler « celui » qui se cache réellement
derrière l'ordinateur.
6. Méthodes de collecte et applications 277
4 379 lettres ont été envoyées aux ménages qui refusaient de répondre à
l'enquête traditionnelle en face-à-face, ou qui restaient injoignables après 8
tentatives (1 882 début avril et 2 497 à la mi-mai 2006). Deux relances ont eu
lieu, entre la mi-mai et la fin juin 2006. A la fin de l'enquête web, le 10 juillet
2006, 370 interviews complètes ont été enregistrées, ce qui représente un taux
de réponse global de 8,5 %. Ce résultat semble encourageant, étant donné
qu'une partie seulement des ménages ciblés peuvent se connecter à Internet,
au domicile ou sur leur lieu de travail (50 % des ménages français disposent
d'une connexion Internet). Le rôle des relances est non négligeable,
puisqu'elles ont généré 140 interviews. La réalisation de l'enquête a dû faire
face à certaines difficultés du fait du caractère exploratoire de l'enquête.
Ainsi, des améliorations dans le design et l'ergonomie du questionnaire nous
laissent espérer un taux de réponse plus avantageux. Les résultats détaillés de
l'étude comparative entre les deux modes d'enquête, web et face-à-face, ne
sont pas encore disponibles pour ce papier, mais seront publiés
ultérieurement.
Les premiers résultats font apparaître une population de répondants plus
active, avec un plus haut niveau d'étude, plus souvent cadres ou employés,
avec un revenu plus élevé et une motorisation plus importante. Ces résultats
concordent avec ceux publiés dans d'autres études. Les jeunes sont peu
représentés, tout comme les plus de 60 ans. La population est donc fortement
concentrée entre 30 et 60 ans et est donc plus active que l'ensemble de la
population. Ces caractéristiques ont une influence sur les pratiques de
déplacements. La comparaison des réponses issues du web ou de l'enquête en
face devra donc tenir compte de ces différences pour identifier si le média
d'enquête influe sur les réponses fournies. Les premières analyses semblent
indiquer un nombre de déplacements plus faibles pour les individus ayant
répondu sur le web (de l'ordre de 10-15%), qui concernent principalement
6. Méthodes de collecte et applications 279
des déplacements courts souvent effectués à pied ou des arrêts de courte durée
(achats, accompagnements) lors des sorties du domicile.
BIBLIOGRAPHIE
questionnaires « en ligne »
22 23
Olivier LÊ VAN TRUOC et Benoît PARRAUD
11.1 Contexte
en ligne
Nos tests montrent que leur forme a une incidence sur la distribution des
réponses et la moyenne.
Cette incidence peut être liée à des aspects purement pratiques, comme par
exemple « l'effort » produit par l'internaute pour répondre. Une présentation
des notes sous la forme d'un menu déroulant génère moins de réponses
élevées (notamment les notes 9 et 10 sur 10) car donner ces notes hautes
oblige l'internaute à déplacer son curseur en bas de liste.
A contrario, une échelle bipolaire horizontale semble produire une plus
large variété de réponses. Mais à nouveau, la présentation de l'échelle n'est
pas neutre : un dégradé de couleurs (des tons froids pour « 1 » aux tons
chauds pour « 10») peut influencer la réponse. Ainsi, la note «6», qui
282 Enquêtes et sondages
correspondait dans notre expérience à la couleur blanc, a-t-elle sans doute été
vécue comme médiane ou neutre, et enregistre 25 % de réponses en plus que
lorsque l'on utilise des échelles sans dégradé. Enfin, ne pas proposer
d'échelles visuelles, mais demander à rinterviewé(e) de répondre librement
en saisissant sa note dans une case génère des effets de pics, notamment pour
les notes 5 (25 % de réponses en plus qu'avec des échelles).
24 Un message d'alerte leur était adressé en cas de non-réponse et ils ne pouvaient pas
avancer dans le questionnaire sans avoir comblé ce manque.
6. Méthodes de collecte et applications 283
Nos tests démontrent que la forme des questionnaires on-line a une influence
sur les réponses obtenues, qui peuvent varier de façon relativement
importante selon le type de présentation choisi. Ils montrent également que
les participants à ces enquêtes vivent de manière très variée le remplissage
des questionnaires. Tout ce qui pourra contribuer à homogénéiser leur
284 Enquêtes et sondages
Échantillonnage
1
Éric LES AGE
1.1 Notations
1.2 Introduction
l Laboratoire de Statistique d'Enquête, ENSAI, Campus de Ker Lann, rue Biaise Pascal,
35172 ruz, France.
286 Enquêtes et sondages
X,. ^
t = t
xl.n x,. c'est-à-dire : = Z V,.
l'es ' ^ i=l
R = R Le. ^ = C
- RX,.) = 0.
tes IL.
i(x,. - Rxj = o.
1=1
le nombre d'individus par unité statistique. Dans les 4 cas, on impose d'avoir
un échantillon de taille fixe, ce qui se traduit par l'équilibrage sur la
probabilité d'inclusion.
71,i
Simulation '1' : équilibrage sur le nombre de femmes et
nombre de femmes X,2.1.
le nombre d'individus
nombre d'individus X,.
M
Simulation '2' : équilibrage sur le ratio nombre de
_N
femmes sur nombre d'individus
II
1
71.1
Simulation '3' équilibrage sur le ratio nombre de femmes
Z i = X2,i
?. - RX^
1,/
sur nombre d'individus et le nombre d'individus
nombre d'individus X] .
Simulation 0 Simulation 1
♦
♦
E 2"00
20700 ♦ V
E *
.
♦ ♦ *•.
20-00
E
♦♦ ♦
OO 37000 380CO 39000 4O0OO 36000 365» 370» 375» 360» 365» 300» 395» 40000
Simulation 2 Simulation 3
TD 2-4»
O l'Z
C ♦ ♦
D
û HZ * ♦ ♦
co
o
o •.• ♦*:
♦ 205»
fM 20400
E: ♦
♦♦
>
ai
>- ...00 —
Q. «00 36500 37000 37500 3600O 36500 30000 3«50O 40000 3600° 365» 370» 375» 360» 36500 390» 395» 40000
O
u
1.6 Conclusion
BIBLIOGRAPHIE
support minimal
2 3
Johan PEA , Lionel QUALITÉ et Yves TILLÉ
2.1 Introduction
Le support d'un plan de sondage est l'ensemble des échantillons qui ont une
probabilité strictement positive d'être tirés. Wynn (1977) a démontré que,
dans le cas des sondages de taille fixe, pour un vecteur de probabilités
d'inclusion donné, il existe toujours un plan de sondage défini sur un support
au plus aussi grand que la population. Jessen (1969), Brewer et Hanif (1983),
et Deville et Tillé (1998), ont proposé des algorithmes fournissant des plans
de sondage à support minimal. L'intérêt de ces plans est que le faible nombre
d'échantillons permet des calculs rapides, par exemple pour les probabilités
d'inclusion du second ordre. Le sondage systématique, dû à Madow (1949),
est un sondage de taille fixe, à probabilités inégales, qui est couramment
employé. Il présente l'inconvénient que certaines probabilités d'inclusion du
second ordre sont nulles. Une manière d'essayer de corriger ce défaut est de
trier au préalable la base de sondage de manière aléatoire. Malheureusement
cette solution ne fonctionne pas toujours (voir Brewer et Hanif, 1983).
Dans la partie 2.2, nous donnons quelques définitions et un résultat général
sur les plans à support minimal. Puis, dans la partie 2.3, nous montrons que le
sondage systématique est un plan à support minimal et donnons un algorithme
permettant de calculer rapidement les probabilités d'inclusion du second
ordre. Enfin, dans la partie 2.4, nous présentons l'algorithme de Deville et
Tillé (1998), qui fournit des plans à support minimal et offre une bonne
alternative au sondage systématique puisqu'il ne présente pas le même défaut.
Le support Q d'un plan de sondage est l'ensemble des échantillons qui ont
une probabilité strictement positive d'être tirés, Q = {s c: {7|/7(s)>0}. Le
plan de sondage est dit de taille fixe /? lorsque tous les échantillons de son
support contiennent exactement n unités. Dans ce cas, la somme des
probabilités d'inclusion vaut nécessairement /?.
Un plan p0(.) défini sur un support Q est dit à support minimal s'il
n'existe pas de plan de sondage défini sur un support strictement inclus dans
Q et possédant les mêmes probabilités d'inclusion. Wynn (1977) a prouvé
que, dans le cas des plans de taille fixe, quel que soit le vecteur de
probabilités d'inclusion, il existe un plan à support minimal défini sur au plus
N échantillons.
2.3.1 Définition
[0 sinon.
2.3.2 Minimalité
population. Cette propriété assure que des algorithmes qui feraient intervenir
tous les échantillons possibles sous ce plan de sondage, tel que celui qui est
présenté au point suivant, peuvent être implémentés, et permettre des calculs
rapides.
Résultat 2 : Soit (/;),^ v le vecteur défini par rk = Vk(modl), alors, la taille
du support du sondage systématique est égale au nombre de rk distincts.
Résultat 3 : Le sondage systématique est un plan à support minimal.
Les probabilités d'inclusion du second ordre, nkl = p(s 9 k, t), sont utilisées
pour calculer la variance des estimateurs sous le plan. L'algorithme 2 donne
une méthode rapide de calcul de ces probabilités dans le cas d'un sondage
systématique. Il est implémenté dans le package 'sampling' pour le langage
4
R' (voir Tillé et Matei, 2005).
Algorithme 2 : Calcul des probabilités d'inclusion du second ordre pour le
sondage systématique.
1. Calculer les r(0, i = 1, TV; r(iV+l| = 1,
2. Pour i = 1, ..., N :
a. calculer les probabilités p{s) = r(^li - r((),
b. calculer u, = (r<:tl) + r(0)/2,
c. calculer s( = (s,,, sj où
0 sinon.
n= Lss>(s).
1 si keB,
K = si ke(Ci /D ),
1 - a(/)
7tt(0 - a(0
si keD:,
1 - a(0
d. choisir
ti" avec la probabilité a(7),
71(7 + 1) =
n avec la probabilité 1 - a(7).
2.4.2 Discussion
BIBLIOGRAPHIE
en nombres binaires
Philippe PÉRIÉ4
3.1 introduction
3.2 Méthode
linéaire dont tous les coefficients sont tirés aléatoirement dans une loi
uniforme sur [0, 1]. Cette définition va assurer l'égalité des p{s) et
donc assurer que l'on réalise le tirage le 'plus aléatoire' parmi les
échantillons obéissants aux contraintes.
Algorithme
1. Associer à chaque unité x. de la population un coefficient w tiré
uniformément dans [0, 1]
2. Poser le problème d'optimisation linéaire suivant :
N
(|) = Emx,
min
sic > C et xk g [0;1]V£ g {1,..., N]
keS
3. Résoudre le problème en utilisant une méthode efficace spécialisée
pour ce type de problème, une technique de 'Branch and Bound'.
Proposer une expression exacte de la variance pour l'estimation d'un total par
exemple, suppose que l'on soit capable de calculer exactement les probabilités
d'inclusion d'ordre 1 et d'ordre 2 :
3.4 Conclusion
BIBLIOGRAPHIE
5
Malik KOUBI et Sandrine MA THERN
meilleure qu'un certain seuil fixé à l'avance dans chaque strate de publication.
Plusieurs degrés d'agrégation sont distingués :
- la strate d'échantillonnage, notée h parmi H strates d'échantillon-
nage, desquelles sont tirées les unités interrogées.
- la strate de publication, notée p parmi P strates de publication,
auxquelles sont diffusés les résultats issus d'une enquête.
(H) s 11
s/c Zn, - n
(2)
6 Une contrainte de type (3 + 4) sature lorsque l'une des deux inégalités est une égalité
«/, = (CL^,.,)ou nk = N,,.
7. Échantillonnage 303
N n
Ordre./i.max = N
,r * J' Ç et Ordre. = N,
.T * S, •
n n n n
N
0
n{K)
v 0' = nsal + „
AT Hî'" o y * X N.h * S.h et Nm0 = n.hg min ou N.h0 selon le cas,'
' "oi, 'J ''o/, lieHnonsul
avec Hnonsal l'ensemble des strates non saturantes et n sal la taille de l'ensemble
des strates saturées.
Pour une taille d'échantillon fixée, on connaît donc grâce à la variable
Ordre, l'ensemble des strates saturantes, ce qui résout le problème d'après les
remarques précédentes.
0,7% V
Taille
0,6% d'échantillon
ra
n
o
c 0,5% \ — 5000
c
0 10000
en \ , ,,,
20000
1 0,4% 30000
— " 40000
5 0,3% 50000
o - - - - a X Neyman
ra ^
O 0,2%
... — .X.
0,1%
0,0%
1.7% 2,0% 2,3% 2,6% 2.9% 3,2% 3,5% 3,8% 5,0% 20,0% 35,0% 50,0%
CV seuil (précision locale)
Note de lecture :
Pour une taille d'échantillon w = 20 000, le CVseuii peut être ramené de 24,4 %
(allocation de Neyman) à 3,2 % (allocation sous contrainte) avec une perte de
précision globale de 0,07 point (passage du CVg,obai de 0,27 % à 0,34 %).
BIBLIOGRAPHIE
Mina MATE!7
5.1 Introduction
On utilise souvent dans des enquêtes répétées, et dans autres types d'enquêtes,
des échantillons coordonnés pour minimiser ou maximiser leur recouvrement.
Pour réaliser le recouvrement des échantillons, plusieurs méthodes ont été
proposées dans la littérature : des méthodes basées sur la programmation
mathématique (programmation linéaire et problème de transport) et des
méthodes basées sur des nombres aléatoires permanents. La coordination des
échantillons peut être positive ou négative. Dans le premier cas, on cherche à
retenir le plus longtemps possible les mêmes unités dans nos échantillons.
Dans le deuxième cas, on cherche à réaliser le contraire, afin de pouvoir
diminuer le fardeau d'une unité sélectionnée et de favoriser sa réponse.
Dans le cas de deux échantillons, on mesure la coordination des deux
échantillons par la taille de leur intersection. Cette taille est généralement
aléatoire, mais son espérance est limitée par des bornes théoriques. On réalise
une coordination optimale (positive ou négative) dans le cas où l'espérance de
la taille est égale à ces bornes. La plupart de méthodes de coordination
réalisent une coordination sous-optimale, mais elles donnent une meilleure
coordination que dans le cas des échantillons tirés indépendamment.
Nous expliquons d'abord ce qu'est la coordination maximale d'échantillons
et les conditions pour l'obtenir. Nous décrivons ensuite la méthode de la
sélection contrôlée des échantillons et l'application de cette méthode à la
coordination des échantillons. Enfin, nous donnons un exemple d'utilisation
de cette méthode.
£■(«,,) = K = Zmin«,7iJ).
keU keU
La quantité min(7q,7i:2) est nommée la borne absolue supérieure. Cette
borne n'est pas toujours atteinte. La coordination est maximale en utilisant la
méthode de Keyfitz (1951), dans le cas d'un plan stratifié et pour une seule
unité tirée par strate, et dans le cas d'utilisation des plans de Poisson. Dans
Matei et Tillé (2005), nous avons donné quelques conditions pour obtenir la
coordination maximale. Nous rappelons ici ces conditions :
Proposition ; On définit l'ensemble des unités croissantes 7=
2
{kE:U\Ti\<Ti k} et l'ensemble des unités décroissantes D = {k e U \ Kk > n]}
avec U = /uD,7nZ) = 0. La borne absolue supérieure est atteinte si et
seulement si les deux conditions suivantes sont remplies :
a) si (s1 - s2) n / ^ 0 alors p^ = 0;
sous contraintes
=K'k e u x s
, ( 'i) >= 0,1 e = i.
min X p (2)
P Sj^PP
{1}, {2}, {3}, {4}, {5}, {1,4},{1,5}, {2,4}, {2,5}, {3,4}, {3,5}, {} et
0,15; 0,018; 0,012; 0,24; 0,04; 0,3; 0,05; 0,036; 0,006; 0,024; 0,004; 0,12.
Les échantillons possibles pour le deuxième plan sont : {!}, {2}, {3},{4},
{5}. Nous supposons que les deux plans sont avec des tirages simultanés.
Nous avons / = {2, 3, 5} et D = {1, 4}. En utilisant notre proposition, les
échantillons {2,5} et {3,5} pour le premier plan n'ont que des zéros dans
leurs lignes dans la matrice P. Nous résolvons le programme linéaire associé
au problème (1), ayant comme plan initial le premier plan. La solution
obtenue est : p^={0,?>\ 0; 0; 0,4; 0; 0,1; 0,1; 0,06; 0; 0,04; 0; 0}. Les probabi-
lités pour les échantillons suivants sont nulles: {2}, {3}, {5}, {2,5},
{3, 5}, {}. Pour le deuxième plan, il n'y aucune colonne dans la matrice P ne
contenant que des zéros. Pour le premier plan, nous prenons en compte dans
la procédure IPF seulement les échantillons avec des probabilités non-nulles :
{1}, {4}, {1, 4}, {1, 5}, {2, 4}, {3,4}. Le résultat de la procédure IPF (la
matrice P) et la matrice C = (c ) sont donnés ci-dessous :
1*
{1} {2} {3} {4} {5} p
BIBLIOGRAPHIE
microstrates
8
Desislava NEDYALKOVA et Yves TILLÉ
recouvrement est défini par v"' = 2ri" /{ri + /î"), et son espérance, pour ri et
ri' fixés, x'" = 2E(ri")/{ri + ri').
Nous avons comparé les deux méthodes de Kish & Scott et Cotton & Hesse
sur un exemple très simple. Les problèmes de coordination d'échantillons
peuvent être écrits comme des programmes linéaires. Quand la taille de la
population est petite, la solution optimale de ces programmes peut être
obtenue par un algorithme du simplexe. Ensuite, nous avons comparé cette
7. Échantillonnage 311
solution optimale aux solutions obtenues par les méthodes de Kish & Scott et
de Cotton & Hesse. Nous avons constaté qu'aucune de ces deux méthodes
n'est optimale. Considérons la population U = {1,2,3,4} avec les strates
{1,2}, {3, 4} à la vague 1 et {1,3}, {2, 4} à la vague 2. A chaque vague, une
seule unité est sélectionnée dans chaque strate. Le but est d'obtenir la
meilleure coordination négative. Les résultats obtenus sont : pour la solution
optimale E{n ) = 0,5 et x12 = 0,25, pour la méthode de Kish & Scott
E^1) = 1 et x12 = 0,5, et pour la méthode de Cotton & Hesse E{n ) = 2/3
et x12 = 1/3. On voit donc que la solution optimale n'est atteinte par aucune
des deux méthodes et que la méthode de Cotton & Hesse est la meilleure.
Cette méthode, proposée par Rivière (1999, 2001a, b), est implémentée dans
deux logiciels: Salomon en 1998 (Meszaros, 1999) et Microstrat en 2001.
Elle est basée sur les quatre idées suivantes :
- l'usage de PRN qui sont attribués à chaque unité de la population,
- l'usage d'une mesure de fardeau qui peut être égale au nombre de
fois que l'unité a été sélectionnée,
- l'usage de microstrates qui sont construites à chaque vague comme
l'intersection des strates de toutes les vagues avec lesquelles on veut
coordonner,
- la permutation des PRN en fonction de la mesure de fardeau de sorte
que les plus petits PRN sont attribués aux unités ayant le plus petit
fardeau.
Nous avons développé huit nouvelles méthodes basées sur des permutations
de nombre aléatoires dans des microstrates. En général, une méthode de
coordination doit être évaluée sur plusieurs vagues mais il est très difficile de
prouver théoriquement qu'une méthode est réellement correcte quand il y a un
312 Enquêtes et sondages
grand nombre de vagues. Pour cette raison et afin d'essayer d'invalider nos
méthodes, on a choisit de réaliser des simulations sur quatre vagues.
Évidemment, si on ne peut pas prouver par simulations qu'une méthode est
fausse, ça n'implique pas qu'elle soit correcte.
La première différence entre les huit nouvelles méthodes est l'ordre dans
lequel les permutations sont effectuées. On distingue deux ordres différents :
chronologique et rétrospectif. Chronologique signifie que, quand on est à la
vague 4, on permute d'abord dans les microstrates de la vague 1, après dans
celles du croisement des vagues 1 et 2 et à la fin dans celles du croisement des
vagues 1, 2 et 3. Pour l'ordre rétrospectif, on permute dans les microstrates de
la vague 3, après dans celles du croisement des vagues 2 et 3 et à la fin dans
celles du croisement des vagues 1, 2 et 3. La deuxième différence vient de la
réutilisation des PRN ou de la régénération de nouveaux nombres aléatoires
au début de chaque vague. La troisième différence vient de la façon dont les
microstrates sont construites. La quatrième différence vient de l'usage ou non
de fardeau de réponse. Pour quatre méthodes, on permute en fonction du
fardeau croissant, tandis que pour les autres, on permute en fonction des
variables indicatrices de l'échantillon. Les méthodes, numérotées de 1 à 8,
sont décrites ci-dessous :
- Méthode 1 - microstrates qui sont l'intersection des strates des
vagues précédentes, nouveaux nombres aléatoires à chaque vague,
ordre chronologique des permutations en fonction du fardeau de
réponse, cette méthode est fausse.
- Méthode 2 - microstrates qui sont l'intersection des strates des
vagues précédentes, PRN, ordre chronologique des permutations en
fonction du fardeau de réponse, cette méthode est fausse.
- Méthode 3 - microstrates qui sont l'intersection des strates des
vagues précédentes, PRN, ordre rétrospectif des permutations en
fonction du fardeau de réponse, cette méthode semble correcte.
- Méthode 4 - comme la 3 mais avec des nouveaux nombres aléatoires
à chaque vague, cette méthode semble correcte.
- Méthode 5 - microstrates qui sont l'intersection de l'intersection des
strates des vagues précédentes avec l'intersection des échantillons,
PRN, ordre rétrospectif des permutations en fonction des variables
indicatrices de l'échantillon, cette méthode semble correcte.
- Méthode 6 - comme la 5 mais avec de nouveaux nombres aléatoires à
chaque vague, cette méthode semble correcte.
- Méthode 7 - microstrates qui sont l'intersection de l'intersection des
strates des vagues précédentes avec l'intersection des échantillons,
PRN, ordre chronologique des permutations en fonction des variables
indicatrices de l'échantillon, cette méthode semble correcte.
7. Échantillonnage 313
Pour réaliser les simulations, on a tiré 500 000 échantillons dans une
population de taille 16. Quatre vagues ont été prises en compte. Pour évaluer
les résultats, on a analysé les probabilités d'inclusion d'ordre 1 et 2 et la
qualité de la coordination, mesurée par l'espérance du nombre d'unités
communes aux vagues. En analysant les probabilités d'inclusion, on a
remarqué que pour les deux premières vagues, les méthodes fournissent de
bonnes probabilités et que le problème ne survient qu'à partir de la vague 3.
Donc, selon ces résultats, les Méthodes 1 et 2 sont fausses et les Méthodes 3
et 8 semblent correctes. Pour la qualité de la coordination, on a comparé les
résultats seulement pour les méthodes correctes. La qualité est partout bonne
et presque égale pour toutes les méthodes. Cependant, les méthodes 4, 5 et 7
coordonnent mieux entre les vagues 2 et 4.
Nos résultats nous ont amené à la conclusion suivante : Les méthodes de
Kish et Scott, Cotton et Hesse et Rivière permettent des changements de
strates qui rendent possible la création d'un système dynamique de
coordination. Les deux premières méthodes sont faciles à appliquer tandis que
la méthode de Rivière est un peu plus complexe. On a vu que la méthode de
Cotton et Hesse coordonne mieux que celle de Kish et Scott. De plus, la
méthode de Kish et Scott ne peut pas être utilisée pour plus de deux vagues.
La méthode de Rivière fonctionne bien à condition que les intersections des
strates soient faites entre toutes les vagues, dès la première vague à partir de
laquelle on veut coordonner. Les nouvelles méthodes sont simples et
intuitives et il n'est pas facile de comprendre pourquoi certaines d'entre elles
ne fonctionnent pas. Comme il est impératif de réaliser le croisement de
toutes les strates avec lesquelles on veut coordonner, la coordination avec de
très vieilles vagues devient forcément mauvaise à cause de la taille des
microstrates qui peut devenir très petite. C'est une contrainte importante du
problème qui semble insurmontable et qui ne peut être ignorée.
BIBLIOGRAPHIE
7.1 Introduction
7.2.1 Définition
Étant donné qu'un flux de données est infini, il n'est pas matériellement
possible de lui appliquer un traitement dans son ensemble. Un
échantillonnage aléatoire simple sur un flux où des éléments disparaissent et
d'autres apparaissent au fur et à mesure rend les choses difficiles. C'est
pourquoi il est nécessaire de définir une séquence finie du flux sur laquelle
portera un traitement et qui se nomme une fenêtre. Cette dernière peut être
classée dans une des catégories suivantes :
- Logique V5. Physique : les fenêtres physiques (ou temporelles basées
sur le temps) sont définies au moyen d'un intervalle de temps comme
par exemple le 12/03/2007, alors que les fenêtres logiques (ou
séquentielles) sont définies en terme de nombre d'éléments, comme
par exemple une fenêtre du l0cmc élément au 100cme.
- Fixe vs. Glissante : Une fenêtre fixe est une portion du flux dont les
bornes sont fixées comme par exemple une fenêtre entre le lei mars et
le 1er avril. Par contre, les bornes d'une fenêtre glissante évoluent
avec le temps. Par exemple : les 10 derniers éléments du flux ou les
éléments arrivés dans les 15 dernières secondes. Dans quelques
références, on parle d'une troisième catégorie : fenêtre point de
repère (en anglais Landmark), quand une seule borne de la fenêtre est
relative. Par exemple : une fenêtre à partir du 1er mars 2007.
316 Enquêtes et sondages
BIBLIOGRAPHIE
Estimation
1
Jean-Claude DEVILLE
Dans la pratique des enquêtes, on est parfois amené à modifier les poids
d'extrapolation plusieurs fois de suite. On considérera que des poids sont
calés sur certaines variables s'ils pennettent une extrapolation parfaite du
total de ces variables, c'est-à-dire que l'estimateur de Horvitz-Thompson du
total de ces variables est de variance nulle. Cette propriété résulte
généralement d'une stratification, d'un échantillonnage équilibré aussi bien
que d'un calage. Assez souvent cette phase est précédée d'ajustements
destinés à corriger les biais dus à la non-réponse. On les assimilera à des
calages (Deville, 1998 ; Deville, 2002 ; Le Guennec et Sautory, 2002).
Chacune de ces modifications consiste, à partir des poids courants, à se
caler sur une nouvelle information auxiliaire, en utilisant, éventuellement,
certaines variables comme 'instruments' du calage. Malheureusement, sauf
cas exceptionnel, ces nouveaux poids ne sont plus calés sur les variables
auxquelles les poids initiaux étaient ajustés. Autrement dit la variance de
l'estimation du total de ces variables est passée de zéro à une quantité
positive, ce qui implique que la précision de certaines variables d'intérêt a pu
diminuer à cause de cette opération.
Exemple 1 : Dans un sondage aléatoire simple, la somme des poids est calée
sur le total N de population. Si on dispose d'une information tx =
total sur la population d'une auxiliaire x, on peut utiliser un estimateur par
ratio dont les poids sont w, =tx/ixw0 où w,, est le poids initial (pour alléger
les notations on supprimera, dorénavant, les indices k des individus quand le
contexte le permet) avec fv = XL xw0. La somme des nouveaux poids vaut
N tv/tx, le calage sur la variable 'unité' est détruit et l'estimation du total de
la population devient incertain.
Cette situation est générale. On se propose d'évaluer les modifications que
subissent les précisions de variables de calage U {à q composantes) QtX (à p
composantes) pour des calages successifs. Ceci prend plusieurs aspects :
évolution des pondérations, qualité du calage 'résiduel' et variance
d'estimation obtenue pour le total d'une variable d'intérêt quelconque^.
On regardera aussi ce qui se passe quand on itère la procédure de calage :
partant de poids w0 calés sur U, on obtient des poids calés sur X, w,. Ces
derniers n'étant plus calés sur U, on refait le calage sur U partant des w,, ce
qui donne des poids et ainsi de suite. Cette procédure itérative peut
converger et les poids finaux seront calés simultanément sur U et X. Un
exemple et un résultat bien connus concernent l'algorithme du raking-ratio
(Deville, Sâmdal et Sautory, 1993).
Il y a aussi des cas où les poids et la variance oscillent indéfiniment entre
deux valeurs.
Exemple 1 (suite) : si on veut maintenant renormaliser la somme des poids à
N par 'règle de trois', c'est-à-dire en utilisant un estimateur par ratio sur la
variable unité, on retombe sur les poids initiaux.
La divergence, enfin, est possible quoiqu'un peu pathologique. La seconde
partie de cet article classifie les cas et donne des exemples et des conditions
de convergence.
On trouvera au paragraphe 5 des exemples élémentaires en dimension un
illustrant presque tous les cas possibles. Avant cela, nous allons revoir les
propriétés utiles des estimateurs par calage généralisé, puis comment les
choses se passent pour deux calages successifs.
où Bxl = {V'Uy V'X est la matrice q * p dont les colonnes sont formées des
coefficients de régression des variables de X sur les variables de U avec les
instruments V. Les X ne restent calés parfaitement que s'ils n'ont aucune
corrélation avec les U.
De même, on obtient que f/ - f(0 = B'rx(tx - ix) avec B(X = (Z'Xy'Z'U.
S'il se trouve que l'estimateur initial (poids w(1) lui même est calé sur U
(variables de stratification où d'équilibrage), on obtient :
tl-tx=B'xvB'ux{t:~tx). (2)
P; -tx={{BuxBj)"{tl-tx). (3)
v
z. Les équations de calage paires s'écrivent N = + ^)- Les calages
et
impairs s'écriront X = Xvi^O + zX). Les quantités Zzx différent de
zéro à cause de l'hypothèse d'inversibilité des matrices V'U et Z'X. On a
donc :
5 5 = (4)
XVllYjZX xz
variables communes
Résultat 5 : Si c>i et que Bl xBxl n'admet aucune valeur propre plus grande
que 1 en valeur absolue, il y a convergence du calage.
Dans le cas où c = / on peut montrer facilement le lemme suivant :
Lemme 1 : On peut trouver un changement de variable X = (C, X),
U = (C, U),Z = (/, Z,), V = (/, VJ vérifiant les conditions /'X, = /'£/, =
Z'C = V'C = 0 et f C = V'UX = Z\Xx - 1 (matrice identité de dimension
convenable). Les auxiliaires X^ et ^ sont disjointes ainsi que les instruments
2, et Fr
Il en résulte que itérations de calages peuvent être faites indépendamment
pour (C, /) et pour le reste des variables et des instruments. Pour ce dernier
ensemble de variables, un second lemme technique permet d'identifier le
comportement des itérations. On supposera q<p.
Lemme 2 : Si les auxiliaires X zi U d'une part, et les instruments Z et V,
d'autre part n'ont de sous espace communs que zéro (ils sont 'disjoints'), on
peut trouver une base de Im{X) et une base de Im(U) telles que :
- la matrice de Px restreinte à Im(U) s'écrive :
fi</ r</ o]
v0 0
Oy
'0 0 0^
/ L 4o
v p y
1.8 Conclusions
BIBLIOGRAPHIE
d'enquêtes
2 3
Torsten HARMS et Pierre DUCHESNE
2.1 Introduction
Y = m(X) +vV2(X)8,
Jones, 1995). Le plan aléatoire présume que {Xk, Yk),k = 1,/7, corresponds
à un échantillon bivarié de vecteurs aléatoires, tels que, conditionnellement
sur X,,..., Xn, les variables zk sont indépendantes de moyenne zéro et de
variance unitaire. Dans plusieurs circonstances, ce cadre est plus approprié
pour des données de sondage, comparativement au plan fixe, puisque la
variable réponse et le préviseur représentent souvent des variables
économiques, qui peuvent être présumées des variables aléatoires continues.
Wand et Jones (1995) procurent une introduction générale aux méthodes de
lissage par la méthode du noyau.
En échantillonnage, les moyennes et totaux de populations de tailles finies
sont des quantités traditionnelles d'intérêt. Or, dans les applications pratiques,
les estimateurs reposant sur une fonction noyau décrivant la relation
fonctionnelle entre X et L peuvent également être d'intérêt pour les
spécialistes des méthodes d'enquêtes. Par exemple, si un ajustement
polynomial local entre X et L suggère une relation linéaire, alors une haute
efficacité est attendue en utilisant les méthodes classiques reposant sur les
modèles linéaires ; les méthodes non paramétriques procurent une description
objective de la relation entre X et F, et dans ce cas, elles rassurent l'analyste
dans l'utilisation d'un modèle linéaire. D'un autre côté, si les méthodes non
paramétriques suggèrent fortement un comportement non linéaire, alors les
méthodes reposant sur les modèles linéaires sont inappropriées ; il peut alors
être préférable d'estimer un modèle non linéaire utilisant des méthodes
paramétriques ou non paramétriques. Les méthodes de lissage classiques par
la méthode du noyau décrites précédemment reposent sur l'hypothèse que le
terme d'erreur est constitué de variables aléatoires indépendantes et
identiquement distribuées (iid). Cette hypothèse n'est pas satisfaisante pour la
plupart des données provenant des plans de sondages complexes. Avec des
données d'enquêtes, une réalité omniprésente est la considération de plans de
sondages qui peuvent inclure des strates (violation de l'hypothèse supposant
des lois identiques) et des grappes (violation de l'hypothèse d'indépendance)
à l'étape du choix du plan de sondage. Plusieurs auteurs ont adapté les
techniques non paramétriques pour les données d'enquêtes, notamment Kom,
Midthune et Graubard (1997), Buskirk (1998), Kom et Graubard (1998),
Bellhouse et Stafford (1999, 2001), Breidt et Opsomer (2000), Johnson,
Breidt et Opsomer (2004), Opsomer et Miller (2005), Breidt, Claeskens et
Opsomer (2005), Goga (2005), et Buskirk et Lohr (2005).
Dans cet article, nous sommes intéressés par les propriétés asymptotiques
des estimateurs estimant la relation fonctionnelle entre X et Y. Plusieurs
cadres afin de faire l'inférence sont possibles, incluant des approches reposant
exclusivement sur le plan de sondage ou reposant uniquement sur le modèle.
Puisque les estimateurs que nous recommandons incluent des poids de
sondages, il semble naturel de considérer un mode d'inférence qui inclut une
composante faisant intervenir le plan de sondage. D'un autre côté, les
8. Estimation 329
2.2 Préliminaires
est sélectionné selon le plan /?(.). Le plan de sondage est tel que niINi
converge vers une constante />0. Il est supposé que les probabilités du
premier ordre sont bornées inférieurement et qu'elles sont loin de zéro, et les
probabilités du second ordre satisfont la condition suivante :
plan de sondage
1/5
/r(x) = «-"5(A + /)'
~R{K)g2T
hop ' = n
MISE (a + /)'
revenu
BIBLIOGRAPHIE
4
Herbert L. SMITH
3.1 Introduction
Une grande enquête auprès des infirmières réalisée dans les états américains
de Californie (CA) et Pennsylvanie (PA) s'appuie sur deux grands
CA PA
échantillons de tailles n ^ 100000 et n « 65000. L'enquête a été réalisée
CA
par la poste; les taux de réponse sont p =0,21 et p''A = 0,39, ainsi les
CA
effectifs de répondants sont ny =28 000 et nf = 25 000. Les répondants
sont donc encore nombreux mais on peut craindre des biais importants dus à
la non-réponse. Pour estimer et corriger ces biais, un deuxième échantillon
aléatoire, pour lequel le taux de réponse (les deux états confondus) est
supérieur à 91 % (grâce aux encouragements financiers et surtout un
questionnaire plus bref), a été tiré parmi les non-répondants à la première
enquête. Les deux échantillons sont joints pour constituer un échantillon
double.
L'idée d'un échantillon double date de Hansen et al. (1946), qui ont montré
qu'un deuxième échantillon aléatoire, tiré parmi les non-répondants à
l'échantillon initial, pouvait être combiné avec le premier échantillon pour
créer les estimateurs des moyennes sans biais, sans que l'enquête se soit
achevée avec un taux de réponse initial de 100%. Cette méthode n'est
employée que rarement pour plusieurs raisons dont l'une est que les mêmes
facteurs qui mènent à une non-réponse dans le sondage initial rendent difficile
l'obtention d'un meilleur taux de réponse parmi l'échantillon des personnes
qui ont déjà refusé de répondre. Également, il y a une tendance à consacrer
»■
o Combinaisons
impossibles des
tailles 0,5.v
d'échantillon
0
' ' S .2
CN
O
B w
. U-5 C3OB
^,0.-0
2x
4x
—i— O ^
w
0,8 0,6 0,4 0,2
Taux de réponse dans l'échantillon initial
diminue comme une fonction de p " \ comme indiqué par la ligne pointillée
sur la figure 8.1. En effet, si l'on considère p, le taux de réponse initial,
comme fixé, et g = n0Jn également : On réalise une enquête et on obtient un
taux de réponse. Persuader les non-répondants de participer à la deuxième
étape n'est pas facile, particulièrement quand il faut obtenir une réponse de
toutes les unités tirées dans le deuxième échantillon. Il s'agit de se demander :
« Avec un peu plus effort (en argent, en temps) de combien l'efficacité de
l'estimateur s'améliorerait-elle avec un deuxième échantillon un peu plus
grand ? » Comme les dépenses ont tendance à être linéaires par rapport à «01,
on gagne plus quand on quitte la région 0,41 > p > 0,33. Dans cette région,
K est maximalement écarté et l'augmentation de n0] est la moins efficace.
Même si n{)l et donc g sont petits, l'estimateur pour l'échantillon double
sera préféré, parce que l'erreur d'échantillonnage n'est pas la seule source
d'erreur. On peut tenir compte du biais en utilisant: EQM(y) =
Var( vj + Biais2, l'écart erreur quadratique moyenne de l'estimateur yc.
L'estimateur « classique » pour l'échantillon double yc n'est pas biaisé et
son erreur quadratique moyenne est une fonction de l'écart-type :
EQM= ) = K • Var(yI). Mais l'estimateur fondé seulement sur
le premier échantillon est probablement biaisé: Biais(yl) = yl - yc = y,-
\py\ + 0 - /Ofoi] "0 - P){y\ ~ foi)- Donc son erreur quadratique moyenne
est EQM(yl) = (\- py{yx - y0])' +Var(>'l). Cela signifie que l'estimateur
pour l'échantillon double est un meilleur estimateur de la vraie valeur de la
moyenne, même dans des cas où sa variance est supérieure à celle du premier
échantillon, car il ne souffre pas du biais dû à la non-réponse. Si on appelle
REQM la racine carrée de l'erreur quadratique moyenne, on a :
Bien sûr, on ignore ces faits en l'absence du deuxième sondage des non-
répondants. Mais après les avoir appris, faut-il présenter les écarts-types
obtenus avec l'estimateur pour l'échantillon double? En l'absence de biais,
cela coûte cher : on aurait préféré savoir en avance si ce biais existait ou non !
BIBLIOGRAPHIE
primaires couplées
4.1 Introduction
L'enquête Vie Quotidienne et Santé (VQS) est une enquête filtre. Elle doit, à
partir d'un questionnaire court, permettre l'élaboration d'une base de sondage
qui servira, dans une seconde phase, à l'échantillonnage de l'enquête
Handicap-Santé (HID). Dans un premier temps, le questionnaire de l'enquête
VQS est administré, en avril 2007, par voie postale à tous les membres d'un
échantillon de 90 000 ménages. Les non-répondants postaux feront l'objet
d'une visite en face-à-face au second semestre 2007. La dimension postale de
ce protocole implique la sélection des ménages dans une base de sondage
dont la qualité d'adressage est suffisante : cela exclut l'échantillon maître
99 (EM99) et incite à mobiliser, pour la première fois, une enquête annuelle
de recensement (EAR) comme base de sondage ; en Toccurrence l'EAR
2006. La collecte en face-à-face conduit à s'appuyer sur le réseau des
enquêteurs de l'Insee et donc à sélectionner les ménages dans les unités
primaires (UP) de rEM99.
Ces deux contraintes ne sont pas compatibles. Les unités primaires de
rEM99 ont été construites dans le cadre du recensement général de 1999. Le
nouveau recensement est rotatif. Il distingue les grandes communes (plus de
10 000 habitants) dont les logements sont enquêtés tous les ans au taux de
8 %, des petites communes dont l/5eme est recensé tous les ans. De ce fait, en
2006, certaines UP de l'EMOO, composées uniquement de petites communes
au sens du recensement, n'ont aucune commune recensée. Elles ne seront pas
intégrées à l'échantillon de VQS. Statistiquement, cette situation n'est pas
problématique. Elle contribue à augmenter la variance des estimations sans
créer de biais. D'un point de vue organisationnel, les conséquences sont plus
importantes. On dénombre 576 UP dans cette situation, sur un total de 349.
Elles sont principalement situées dans le rural et le petit urbain, strates dans
lesquelles la correspondance 1 UP = 1 enquêteur peut être considérée
comme vérifiée. En conséquence, ne pas tenir compte de ces UP conduit à
exclure une partie non négligeable du réseau d'enquêteur. Rejetant, pour des
raisons de fraîcheur des adresses, la possibilité de tirer pour partie
l'échantillon dans l'enquête de recensement 2005, il a donc été nécessaire de
mettre au point une méthode qui assure une charge de travail minimale pour
tous les enquêteurs tout en répondant à des contraintes de qualité statistique.
Le principe de cette méthode est de remplacer une unité primaire « à
problème » par une « entité géographique » dont on est certain, par
construction, qu'elle ne posera pas de problèmes.
On voit apparaître les éléments constitutifs de notre méthode : deux
partitions du territoire, la première dans laquelle s'effectue l'échantillonnage
principal, la seconde dans laquelle s'effectuera l'échantillonnage de
remplacement. Pour déterminer quelle ZAE sera amenée à remplacer une UP
défaillante, il faut définir une relation entre les deux partitions. La ZAE de
remplacement sera sélectionnée parmi les ZAE en relation avec l'UP à
remplacer. Ces éléments inscrivent ce mode de sélection dans le cadre de la
méthode généralisée du partage des poids (Lavallée, 2002). On sait dès lors
que l'inférence à partir de l'échantillon de ZAE sera sans biais si chaque ZAE
est reliée à au moins une UP. On s'attachera dans la définition de la relation à
vérifier cette contrainte. Cet article est constitué comme suit : dans une
première partie, on propose une formalisation générale qui conduit à la mise
en place des estimateurs. Dans une deuxième partie, on adapte l'enquête VQS
à ce cadre général en le modifiant marginalement. En particulier, certaines
probabilités apparaissant dans les estimateurs sont inconnues et sont estimées
par simulation.
4.2 Formalisation
6 51 unités primaires totalement vides et 6 unités primaires dont les communes recensées
ont au total moins de 100 résidences principales, ce qui a été jugé insuffisant pour
assurer une bonne allocation finale de l'échantillon.
8. Estimation 341
â = z K = z
ie5, Tt. JeS. 71
(1)
f = y ju- y 1
]ïSî L'j ieS2JeEj Ki 711 K i
/V
où t[ est l'estimateur d'Horvitz-Thompson à l'issue du sondage en grappe
selon le plan f est l'estimateur d'Horvitz-Thompson à l'issue du plan
de sondage qui conduit à la sélection de Si et t} est l'estimateur par
expansion dans le cadre du partage des poids avec sélection aléatoire d'un des
liens. Selon l'accessibilité des différentes probabilités d'inclusion, on
estimera le total par :
où a est un coefficient à valeur dans [0, 1]. En théorie, comme pour tout
estimateur composite, il existe une valeur optimale de a. Elle dépend de la
variance et de la covariance des estimateurs intervenant dans la formulation
de / '"(r - 1 ou 2). Dans la pratique, ces quantités étant inconnues et difficiles
à estimer, on prendra pour a la part des unités secondaires de l'échantillon
final (S, u S}) qui se trouvent dans S].
et
est
La loi de la quantité difficile à trouver en théorie mais facile
en pratique à simuler. Si bien que l'on parvient à un estimateur rr
convergeant vers n\ La probabilité tt est la probabilité que la ZAE j soit
sélectionnée dans l'échantillon Sv Elle est plus difficile à trouver
théoriquement. Disposant de l'ensemble des informations nécessaires à la
réplication du processus de sélection des ZAE, on peut cependant définir un
estimateur 7ij convergeant vers 7ir Les estimateurs finaux sont obtenus par
substitution dans (3) et (4) de jr(resp rc ) à tt (resp ti ). La convergence de
7r(resp fc ) implique que les estimateurs substitués sont asymptotiquement
sans biais.
La structure des estimateurs (3) et (4) est identique. L'estimateur (3) ne fait
intervenir cependant que des estimateurs d'Horvitz-Thompson, dont les
propriétés théoriques sont relativement bien connues (notamment le calcul de
la variance), alors que l'estimateur (4) intègre à la fois des estimateurs en
expansion et des estimateurs issus du partage des poids. Cette dernière
344 Enquêtes et sondages
BIBLIOGRAPHIE
du Québec
5.1 Introduction
actualisées
sy...
IJSK =u
* + t l + a.J + 5S + xô IS + a5 JS +8...
IJSK
où
- t. est l'effet fixe de la classe de densité, i = 1, ..., 4,
- oc/ est l'effet fixe du type de placette, y = 1, 2,
- 5s est l'effet fixe de la strate 5 = 1, ..., S (où S = nombre de strates),
- xô.IS est l'effet fixe de la classe de densité dans la strate,'
- a5 - yV(0,cr,) est l'effet aléatoire du type de placette dans la strate,
- 8(M ~ N{0, cr) où & est la variance résiduelle et l'indice k est
associé aux répétitions dans le traitement (/, y, s).
346 Enquêtes et sondages
^ = P + L + «y + Zjt
Il s'agit d'un estimateur BLUP, voir la section 6.2 de Rao (2003). Les
formules générales qui y sont présentées penuettent d'estimer les paramètres
du modèle, d'évaluer y et de calculer la variance de son erreur de prédiction.
yjk = p + a. + zjk
^ 2^+1/^, _ \/n _
V = S ? y1 + I y2 = —^
2ra + l/«,-I-1/«,
2 I 2ra + l/n,2 + l/n,I «.co,
112 + 2'
, r /N 7 2ra «, +1
Var( y — u — a.) = a' —
2r/î./I, +
dont les valeurs possibles vont de a2/(/?, + /?,) à a2//?,, les variances des deux
moyennes qui constituent les cas limites de l'estimateur.
BIBLIOGRAPHIE
9
Modou DIA
6.1 Introduction
6.2 Problématique
Le loyer est une composante importante du budget d'un ménage. Pour les
propriétaires, les occupants à titre gratuit ou les bénéficiaires de loyers
inférieurs à ceux pratiqués dans le parc locatif, le loyer fictif dont ils devraient
s'acquitter est un surcroît potentiel de revenus en ne tenant pas compte
d'éventuels remboursements de prêt, des coûts d'entretien et des frais de
réparation. C'est un élément capital dont on doit tenir compte dès lors qu'on
veut mesurer les niveaux de revenus, de pauvreté et d'exclusion sociale.
Compte tenu de la structure et des caractéristiques des trois ou quatre
dernières vagues d'enquêtes, il sera testé trois méthodes d'estimation : la
méthode du loyer subjectif ; la méthode de la stratification et une variante
d'une méthode économétrique appelée méthode de Heckman (Heckman et al,
2004).
Le loyer, faisant l'objet de ces estimations, est défini comme le montant
mensuel dont le ménage devrait s'acquitter en contrepartie de la jouissance de
sa résidence principale en tenant éventuellement compte d'un garage ou d'un
parking, mais à l'exclusion de toutes les autres prestations que sont les
charges (électricité, gaz, chauffage, voirie etc.), les frais de réparations, les
frais d'entretien (Eurostat, 2007).
Le loyer effectivement payé par les locataires relevant du parc locatif est celui
utilisé dans le cadre de cette méthode. Elle commence d'abord par la création
des classes ou des strates (d'où son nom) qui ne sont rien d'autre que le
croisement des modalités des principales variables considérées comme
pertinentes. La moyenne des loyers des locataires est ensuite calculée à
l'intérieur de chaque strate. Enfin à chaque ménage concerné est affectée
comme loyer imputé la moyenne des loyers de la strate à laquelle il
appartient. Les variables utilisées pour la stratification sont le degré
350 Enquêtes et sondages
Le montant nul ou non nul d'un loyer est tributaire d'un statut de locataire ou
d'un statut de non-locataire. Même si cet aspect a été pris en compte dans le
plan de sondage, il en résulte que toute modélisation du loyer d'un échantillon
est en général sujette à un biais de sélection à cause de l'éventuel impact de la
non-réponse. La méthode de Heckman consiste en deux étapes :
- d'abord un modèle qualitatif dichotomique (simple ou probit) ayant
comme variable dépendante le fait d'être non-locataire ou non ;
- ensuite un modèle quantitatif avec le montant du loyer du locataire
(ou son logarithme) comme variable dépendante en injectant, entre
autres, un dérivé de la première étape parmi les variables
explicatives. Ce dérivé est l'inverse du ratio de Mill.
La première équation représentant le modèle de sélection peut être formulée
de la façon suivante : d. = z.y + m,., où :
- d! =1 si le ménage i est locataire, 0 sinon,
- z, est le vecteur des variables explicatives,
- y est le vecteur des coefficients du modèle,
- uu ~ A^(0,1) est l'erreur du modèle pour l'unité i.
Pour des raisons d'espace, on se limite ici uniquement aux tests de cohérence
interne (voir Dia, 2007). Les graphiques ci-dessous font référence aux
moyennes des loyers imputés en 2003 selon les trois méthodes utilisées.
Le loyer devrait normalement augmenter en fonction du type de logement
(Appartement^ Maison), du revenu, de la taille du logement, mais baisser en
fonction de l'ancienneté d'occupation. En appliquant cette règle sur les
figures 8.2, 8.3 et 8.5, seule l'évolution de la courbe du loyer stratifié n'est
pas logique. Par contre, pour la figure 8.4 l'évolution de la courbe du loyer
subjectif n'est pas cohérente. Il en résulte que seule la méthode de Heckman
se comporte d'une manière relativement satisfaisante à tous les tests ci-
dessous. Il en est de même pour les tests de cohérence externe qui ne sont pas
exposés ici.
8. Estimation 351
2000
1800
1600
1400
1200
•SUBJECTIF
1000
800 •STRATIFIE
600 HECKMAN
400
200
0
10
1400
1200
1000
800 •SUBJECTIF
600 ■STRATIFIE
HECKMAN
400
200
0
1400
1200
TD 1000
O
C 800 •SUBJECTIF
D
û
co 600 •STRATIFIE
o
o 400 HECKMAN
fNl
200
ai 0
'i_
>-
Q.
O
u
352 Enquêtes et sondages
2000
L80(
LbOG
1400
1 200
•SUBJECTIF
1 i )( H i
•STRATIFIE
800
600 HECKMAN
400
.nio
0
10
6.5 Conclusion
BIBLIOGRAPHIE
7. Estimation de courbes de
10
Alain DESSERTAINE
7.1 Introduction
objets courbes
C(0=Z^. (1)
ie5 71.i
Ceci ne peut se faire que par le caractère synchrone des mesures. Nous allons
regarder maintenant le cas ou les données ne sont plus synchronisées.
Le caractère non synchrone des données sur lesquelles nous allons travailler
rend délicat tout travail statistique d'analyses comparatives, souvent basé sur
des calculs de moyennes. Dans notre cas, à un instant /, nous n'aurons plus
forcément des mesures sur tous les individus de notre échantillon. Le
graphique 8.6 illustre nos propos.
Ici, les trois séries de mesure sont très rarement mesurés aux mêmes
instants, rendant les calculs directs de moyennes ou de totaux impossibles. De
tels cas de figure ont fait l'objet de travaux dont le pionnier est Jean-Claude
Deville (Deville, 1974), travaux repris et développés par la suite sous le titre
général d'analyse des données fonctionnelles (Ramsay et Silverman, 2005).
Le principe est simple : il suffit de transformer nos données en plongeant
chaque individu « courbe » dans un espace de données continues (Hilbertien)
8. Estimation 355
^ (m h- 8,(0)-u
E(C(t)) = E S C.{t) = E
ieS K « / K
cm^ em,UeS)
= E + E
leP K K
C(/)C(0
Var(C(0| = ZZ ^ (jif - tut) + lc;(0 (4)
ieP JeP Ji n
avec 7i.., la probabilité d'inclusion double que le couple (i,J) fasse partie de
l'échantillon. La démonstration de cette proposition est simple, quoique très
lourde d'un point de vue développement des calculs. Elle ne sera pas
présentée dans le présent document. Ceci dit, comme pour la première
proposition, il suffit de reprendre le développement de l'expression de la
variance de l'estimateur d'Horvitz-Thompson dans le cadre habituel, en
utilisant les espérances et variances de produits de variables aléatoires, sous
hypothèses d'indépendance. Ainsi, nous utilisons entre autre ceci :
+Var(lj£(s,(0)2
2 2
= CTTl
I l (1
\ - TC l /) + CTTl
Il + 71 I (1
\ - 71 I /).0 = CTTl
Il .
7.3 Conclusion
BIBLIOGRAPHIE
finie
Guillaume CHAUVE!11
8.1 Introduction
est disponible pour le sondage aléatoire simple, et pour certains types de plans
de sondage à probabilités inégales.
Nous supposerons dans ce paragraphe que l'échantillon S est sélectionné
selon un sondage aléatoire simple de taille n. Nous noterons également /le
taux de sondage. Rao et Wu (1988) et Sitter (1992) montrent que dans le cas
d'une fonction lisse de totaux leurs méthodes respectives assurent une
estimation de variance asymptotiquement sans biais. Ils l'étendent au cas de
la méthode RHC et du sondage à deux degrés avec sondage aléatoire simple à
chaque degré.
Dans le cas d'un échantillon (Xx,...,Xn) i.i.d. sélectionné selon une loi
inconnue F, le principe de plug-in suggéré par Efron (1979) est d'estimer un
paramètre inconnu 0(F) par son estimateur par substitution d{F). Si 6{F)
ne peut être calculé exactement, il est approché à l'aide de simulations
répétées indépendamment selon la loi F.
Le plug-in admet un équivalent naturel dans le cas d'une population finie.
On note M la mesure qui place une masse unité sur chaque individu de U,
M = ^5,
keU
/V
où ô, vaut 1 pour l'unité k de U et 0 sinon, et M la mesure estimée qui
place une masse I/ti^ sur chaque unité de l'échantillon S,
360 Enquêtes et sondages
/V
Un paramètre 0(A/) est estimé par substitution par 0(A/). En particulier, le
total / = \ydM d'une variable d'intérêt y est estimé sans biais par son
estimateur de Horvitz-Thompson t = =\ ydM .
kesnk
v{'Ç\u\S) = (i + o^witJ
r
Tableau 8.3 : Ecart relatif (%) à la vraie variance pour les deux
algorithmes de Bootstrap et la technique de linéarisation
dans le cas d'un tirage réjectif de taille 50
Variance A A
t yn izn R P m m
approchée y
Bootstrap Exact -2,95 -2,94 -0,54 -3,20 +16,79 + 18,09
Bootstrap Simplifié -1,87 -2,41 -1,26 -4,11 +14,61 + 13,12
Linéarisation -0,02 -0,51 -1,61 -6,08 - -
362 Enquêtes et sondages
Un plan de sondage est dit équilibré sur des variables auxiliaires v,,...,*, s'il
ne sélectionne que des échantillons assurant une inférence exacte pour les
totaux de ces variables. Deville et Tillé (2004) proposent un algorithme
appelé la méthode du CUBE permettant de sélectionner un échantillon
équilibré sur un nombre non restreint de variables, avec des probabilités
d'inclusion tt = (tt,,...,;^) fixées a priori. Deville et Tillé (2005) donnent
également une approximation de variance pour un tirage équilibré proche de
l'entropie maximale. On peut se rapprocher de l'entropie maximale en triant
aléatoirement la base de sondage préalablement au tirage de l'échantillon.
L'algorithme de Bootstrap précédent peut encore être utilisé dans le cas
d'un échantillonnage équilibré, et donne une estimation asymptotiquement
sans biais pour un tirage à entropie forte (Chauvet, 2007a). Une
implémentation très rapide de la méthode du CUBE, proposée par Chauvet et
Tillé (2006) permet de mettre en œuvre le Bootstrap avec un temps de calcul
raisonnable. Notons en particulier que le sondage aléatoire simple et le tirage
réjectif sont des cas particuliers de plans équilibrés à entropie maximale, et
que la méthode RHC peut être vue comme un cas particulier de plan équilibré
à forte entropie.
8. Estimation 363
S'il existe une importante littérature sur le Bootstrap dans le cas d'un
échantillon à un seul degré, les résultats sont plus limités dans le cas d'un
échantillonnage multi-degrés. Une méthode simple et efficace consiste, si les
probabilités d'inclusion correspondantes sont faibles, à assimiler le tirage du
premier degré à un plan avec remise et à ne bootstrapper que les unités
primaires. Si ces probabilités ne sont pas négligeables, on peut utiliser les
méthodes proposées par Rao et Wu (1988) et Sitter (1992), mais elles ne sont
applicables qu'avec un sondage aléatoire simple à chaque degré.
La méthode de Gross est connue pour ne pas être directement applicable à
plusieurs degrés d'échantillonnage. Une modification est proposée par
Chauvet (2007b). L'idée consiste à construire à partir de l'échantillon une
population constituée de pseudo unités primaires dans laquelle on reproduit le
tirage du 1C1 degré, mais pour laquelle le tirage du 2nd degré est modulé afin de
reproduire l'estimateur de variance sans biais dans le cas linéaire. Cette
méthode est applicable avec un tirage à grande entropie à chaque degré, ce qui
couvre les cas particuliers importants du sondage aléatoire simple à chaque
degré et du plan autopondéré. Elle peut également être vue comme une
adaptation de la méthode de Bootstrap des unités primaires permettant de
tenir compte d'un taux de sondage non négligeable au premier degré.
8.5 Conclusion
BIBLIOGRAPHIE
données d'enquête
12
Jean-François BEAUMONT et Cynthia BOCCI13
9.1 Introduction
£(5,ws;c) = 4?^-,
#{f(5,w*z';HPiw)>f(5,ws;c)J
B
(en supposant qu'on rejette l'hypothèse nulle pour de grandes valeurs
positives de la statistique f(s,wv;c)) ; et
iii)rejeter ou non l'hypothèse nulle selon que le seuil observé est plus
petit ou non qu'une certaine valeur (par exemple, 5 %).
Nous avons effectué une étude par simulations afin d'évaluer la validité et la
puissance de la méthode Bootstrap proposée dans le cas d'un plan de sondage
informatif et non-informatif et dans un contexte de modèle d'analyse de
368 Enquêtes et sondages
9.5 Conclusion
Dans cet article, nous avons proposé une méthodologie Bootstrap pour tester
des hypothèses multiples lorsque l'échantillon est tiré d'une population finie
selon un certain plan de sondage. Dans un contexte de plan de sondage
informatif, nous avons montré empiriquement que la méthode proposée se
compare avantageusement à d'autres méthodes courantes dans la littérature.
Un avantage de la méthode Bootstrap est qu'elle est très facile à mettre en
œuvre une fois que les poids Bootstrap ont été produits puisque i(s,yv ;c) et
t(s,yvs ;Hp ) peuvent être habituellement facilement obtenus au moyen de
logiciels classiques (par exemple, SAS) qui ignorent les caractéristiques du
plan de sondage. La méthode peut donc être appliquée sans avoir recours à
des logiciels spécialisés conçus pour les enquêtes complexes.
BIBLIOGRAPHIE
Bootstrap
10.1 Introduction
échantillons
w _ /-11 1 1 - a p2 _ h T12 A- 1 ~ b p2
kA
1 ' 7112 * kt 9 j _221 11k ' 12 C
k k k k2
' Kk Kk
et
avec a et b deux nombres réels. Goga et al. (2005, 2007) utilisent les
fonctions d'influence partielles (Pires et Branco, 2002) pour calculer les
linéarisées de T,ukt = ITt[M\xkt). La fonction d'influence partielle est la
dérivée partielle au sens de Gâteaux de T par rapport à Mt dans la direction
de la masse de Dirac en xk t.
Résultat : Sous certaines hypothèses de régularité, l'estimateur par
substitution T{M) est approximé par
- T{M)) » - 1).
/=! U
Le plan aléatoire simple sans remise bidimensionnel dans U xU consiste à
tirer 5 = (5^52) tel que les plans sont des plans aléatoires simples sans
remise dans U de tailles fixes i, j = \, 2. Goga et al. (2007) utilisent ce
plan bidimensionnel et la classe d'estimateurs composite définie auparavant
pour donner notamment une estimation de l'évolution de l'indice de Gini
entre deux époques. Ils développent ensuite un estimateur de la variance
asymptotique et ils comparent l'efficacité de l'estimateur composite par
rapport aux compétiteurs à partir de simulations.
BIBLIOGRAPHIE
empirique
11.1 introduction
11.2 Généralités
17 ENSAI, Campus de Ker Lann, rue Biaise Pascal, 35172 Bruz, France.
18CREST-ENSAI, Campus de Kcr Lann, me Biaise Pascal, 35172 Bruz, France.
8. Estimation 375
où 0- = i|e(M:).
376 Enquêtes et sondages
11.3 Application
11.3.1 Données
Nous proposons ici de tester la méthode BBH simplifiée, pour deux plans de
sondages proches du plan réjectif : le tirage systématique randomisé et la
méthode du pivot randomisé. On utilise une population artificielle de taille
200, comprenant les variables :
- v, de moyenne 10 et de variance 4, générée selon une loi normale ;
- y générée selon le modèle : y = ao + a y + 8 où s suit une loi
2
Ar(0,a ) ;
- z générée selon le modèle : z = exp((30 + p,^ + q) où q suit une loi
^(0,y2).
11.3.2 Résultats
BIBLIOGRAPHIE
Booth, J.G., Butler, R.W. et Hall, P. (1994). Bootstrap Methods for Finite
Populations. Journal of the American Statistical Association, 89, 1282-
1289.
Chauvet, G., et Deville, J.-C. (2007). Bootstrap for unequal probability
sampling, soumis.
378 Enquêtes et sondages