Vous êtes sur la page 1sur 4

lire, voir lire, voir lire, voir lire, voir lire, voir

lire, voir lire, voir lire, voir lire, voir lire, voir

Les sondages: cest pas sorcier


propos de louvrage Les techniques de sondage, de Pascal
Ardilly, paru aux ditions Technip en 2006
!ric Lesage*

ouze ans aprs la parution de


son ouvrage Les techniques
de sondage1, Pascal Ardilly en a
ralis une version actualise et augmente en 2006. Deux cent cinquante
pages supplmentaires lui ont permis
dincorporer les derniers dveloppements de la thorie des sondages et
de la mthodologie denqute.

Les mthodes sont prsentes


clairement et rigoureusement. Les
dmonstrations
mathmatiques,
parce quelles intressent davantage
les thoriciens que les praticiens,
sont relgues au second plan (voire
renvoyes en annexe) et lauteur privilgie les explications littrales. Il rend
son propos accessible et comprhensible par lutilisation dexemples,
de simulations et de prsentations de
cas concrets quil a rencontrs dans
le cadre de son activit lInsee.
Des indications sur la mise en uvre
informatique des mthodes sont proposes.
Lorsque cest possible, lauteur prsente un cas simple avant de prsenter le cas gnral. Ainsi, le plan

Enfin, le dernier chapitre prsente des


mthodes destimation de la variance
dans le cas des plans de sondage
complexes (100pages).

Premier chapitre
Les questions fondamentales du sondeur sont la slection de lchantillon,
lestimation de grandeurs (souvent
socio-conomiques) dfinies sur lensemble de la population et la mesure
de la prcision de ces estimations.
Une mise au point intressante est
faite sur la diffrence entre les estimateurs sur population finie (estimation
de vraies valeurs) et les estimateurs
de la statistique classique (estimation de paramtres dun modle).
Dans le cas des sondages, lala
rside dans le choix des individus;
dans le cas de la statistique infrentielle classique, lala est dans la ralisation de la variable observe.

Source: ditions Technip

Cet ouvrage de rfrence, en langue franaise, est principalement un


manuel du mthodologue denqute;
il sadresse des professionnels de
terrain, y compris ceux nayant pas
suivi de formation pousse dans le
domaine des sondages (ou en ayant
suivi une il y a fort longtemps!).
Ce nest pas un cours de thorie
des sondages, au sens dun ouvrage
mathmatique abstrait et synthtique
qui sinscrirait dans un cursus de formation statistique.

de sondage alatoire simple est souvent utilis en premire approche. De


mme, le cas unidimensionnel est
expliqu avant le cas multidimensionnel.

Le plan
Le livre de Pascal Ardilly contient une
trentaine de parties regroupes en
cinq grands chapitres. Le premier,
introductif, prsente le contexte des
sondages et les notions de base
(50pages). Le deuxime chapitre prsente les plans de sondage classiques (200pages). Le troisime traite
de la correction de la non-rponse et
du redressement des poids dchantillonnage (200pages aussi). Le quatrime chapitre met un coup de projecteur sur quelques aspects particuliers des sondages (100pages).

Courrier des statistiques n 121-122, mai-dcembre 2007

Dans ce chapitre, lauteur dcrit la


place des enqutes par sondage
dans la socit actuelle, ainsi que les
acteurs et les diffrentes tapes des
enqutes. Il mentionne notamment le
contrle de la collecte et de la qualit
des donnes saisies.
Les notions de probabilits sont introduites par des exemples. Le lecteur
non statisticien devra absolument lire
* ric Lesage est directeur adjoint de lcole
nationale de la statistique et de lanalyse de
linformation (Ensai), charg de la direction des
tudes.
1. Voir ce sujet la fiche de lecture critique
rdige par Jean-Claude Deville, intitule Les
techniques de sondage, de Pascal Ardilly,
parue dans le Courrier des statistiques n6768, dcembre 1993, p.59 [NDLR].

81

ric Lesage
ce premier chapitre; il dcouvrira les
notions de variable alatoire, desprance mathmatique, de variance
et de densit de probabilit dans le
cadre spcifique dune population
finie.
Enfin, on trouve un point trs intressant sur la notion de base de
sondage et sur les diffrents types
derreurs (dchantillonnage, dobservation, de dfaut de couverture, de
non-rponse).

Deuxime chapitre
Ce chapitre prsente les plans de
sondage classiquesavec, pour chacun deux, les algorithmes de tirage
recommands, la mthode destimation sans biais du total et de la
moyenne et le calcul de prcision
associ.
Lauteur commence par prsenter le tirage alatoire simple. Il mentionne la possibilit dutiliser la Proc
Surveyselect de SAS pour programmer lalgorithme de tirage. On trouve
dans cette mme partie une discussion intressante sur la fiabilit de lintervalle de confiance (lui-mme estim)
et sur la prise en compte des contraintes budgtaires par le mthodologue.
Le cas particulier de lestimation de
proportions est trait. Il est rappel,
pour fixer les ides, quune estimation
2 points prs de la proportion de
femmes dans la population franaise
ncessite le tirage de 2500 enquts,
mais que la mme estimation, 0,5
point prs, requiert 40000 sonds!
La partie suivante prsente la notion
fondamentale de stratification. Cette
mthode, qui ncessite lutilisation
dinformation auxiliaire, apporte un
2. Dans la plupart des cas, les marges qui sont
imposes ne peuvent pas tre rigoureusement
gales. On distingue alors deux phases dans
lalgorithme de tirage. La premire est la phase
de vol: les individus slectionns un par un
laissent prsager que lchantillon final redonnera les bonnes marges. La seconde phase
survient lorsque la phase de vol est interrompue
avant que lchantillon complet ne soit tir,
cest--dire quand lalgorithme ne trouve plus,
parmi les individus restants, un groupe qui permette de respecter les marges. La mthode du
cube offre alors trois options pour finir le tirage
de lchantillon. Cet chantillon ne redonnera
quapproximativement les marges imposes.

82

gain de prcision important; cest une


technique simple et tout bnfice.
Le sondage deux degrs pallie
quant lui deux inconvnients du
sondage alatoire: le besoin dune
base de sondage complte et les
cots de collecte importants engendrs par la dispersion gographique
des enquts. La contrepartie en est
une perte de prcision, bien connue
sous le nom deffet de grappe.
La partie sur le sondage probabilits ingales permet de poser un
cadre gnral thorique en prsentant
notamment lestimateur de HorvitzThompson (le -estimateur). Lauteur
met en garde ses lecteurs contre les
effets nfastes de ces plans de sondage (dont les risques de dtrioration de la prcision et les difficults de
calcul de variance). Le cas favorable
du plan deux degrs auto-pondr
est tudi, notamment une mthode
destimation de la variance approche (et simplifie). Dans ce cas,
les units primaires dchantillonnage
sont tires proportionnellement leur
taille. Cette partie est galement loccasion daborder le tirage en deux
phases, le partage des poids, le plan
de sondage entropie maximum et la
modlisation de la non-rponse.
La cinquime partie prsente la
rcente technique de lchantillonnage quilibr, qui est en quelque
sorte la version probabiliste des sondages par quota. La mthode du
cube propose par J-C. Deville et
Y. Till est un algorithme gnral qui
fonctionne dans un contexte de tirage
probabilits ingales. cette occasion, lauteur attire lattention des praticiens sur limportance de la matrise
de la phase datterrissage2. Une
macro SAS appele Macro Cube
effectue ce tirage. Les deux dernires
parties de ce chapitre abordent les
enqutes par quota et le cas pratique
des enqutes auprs des mnages
de lInsee. Lauteur conclut en mentionnant que linformation auxiliaire
est un facteur important damlioration de la prcision des estimateurs,
mais quil est de fait impossible de
trouver un plan de sondage optimum pour lensemble des variables
dintrt dune enqute.

Troisime chapitre
Ce chapitre traite du redressement
des poids de sondage effectu dans
le but de construire des estimateurs
qui estiment sans erreur (en particulier avec variance nulle) le total dune
ou de plusieurs variables auxiliaires.
Le redressement renvoie lutilisation
dinformation auxiliaire au moment
de lestimation (aprs collecte) par
opposition lutilisation dinformation
auxiliaire au moment de lchantillonnage. Le redressement nest avantageux que si la variable dintrt
est bien explique par les variables
auxiliaires.
Lauteur passe en revue plusieurs
mthodes de redressement, en prcisant pour chacune dentre elles quels
sont les nouveaux poids, si lestimateur est biais et si la prcision est
meilleure que dans le cas o lon ne
redresse pas. On est souvent dans le
cas simplifi dun plan de sondage
alatoire simple ou dun sondage de
taille fixe probabilits gales. Est
dabord prsente la post-stratification univarie, qui conduit un
estimateur lgrement biais mais
toujours plus prcis que lestimateur
non redress dans le cas du sondage
alatoire simple. Le raking-ratio est
ensuite introduit comme une version
multidimensionnelle de la post-stratification.
Lestimateur par le ratio est faiblement biais, mais peut tre moins
prcis que le -estimateur si la corrlation entre la variable auxiliaire et
la variable dintrt est insuffisante. Il
est intressant en particulier dans le
cas des tirages deux phases ou
deux degrs.
Lestimateur par la rgression est
lestimateur vedette qui gnralise
les estimateurs par le ratio et poststratifi. Dans le cas dun sondage
alatoire simple, cet estimateur est
toujours plus prcis que lestimateur
non redress. Il faut noter la facilit de mise en uvre du calcul de
la prcision en utilisant les formules
de variance des estimateurs classiques non redresss (HT) dans lesquelles on remplace la variable dintrt par les rsidus de la rgression

Les sondages: cest pas sorcier propos de louvrage Les techniques de sondage de Pascal Ardilly
linaire de la variable dintrt sur
les variables auxiliaires. La prcision
de lestimateur par la rgression est
galement celle que lon obtient pour
les sondages quilibrs ou lorsquon
procde un redressement, do son
importance.
La cinquime partie de ce troisime
chapitre traite du calage gnralis,
qui constitue une approche globale
du problme du redressement. Le
calage ncessite que lon sintresse
aux poids: lobjectif est de dterminer une nouvelle variable de poids
(pas trop loin de la variable de
poids initiale) qui permette de bien
estimer le vrai total, connu, de linformation auxiliaire. Les diffrentes
fonctions de distance utilisables en
option sont tudies, ainsi que le cas
particulier du calage simultan aux
niveaux du mnage et de lindividu
(ou aux niveaux de lentreprise et de
ltablissement). Des mises en uvre
avec la macro SAS de calage (Calmar)
sont prsentes.
La sixime partie aborde le sujet
compliqu du traitement de la nonrponse qui ncessite de se pencher
sur le comportement des personnes
interroges. La non-rponse introduit
du biais (qui ne diminue pas avec la
taille de lchantillon) et une perte de
prcision. Lauteur prsente les deux
grandes familles de traitement: les
mthodes de repondration et les
mthodes dimputation. Il insiste sur
le fait que labsence de biais repose
sur lhypothse forte que le modle
de rponse est exact; il souligne
aussi que le cas dangereux est celui
o le mcanisme de non-rponse est
li la variable dintrt (cas dit non
ignorable).
Pour appliquer les mthodes de
repondration, on peut utiliser selon
les circonstances le calage gnralis
ou le calage que lauteur dnomme
super gnralis, qui traitent la
non-rponse et effectuent le redressement en mme temps.
Limputation repose sur la prdiction des valeurs manquantes laide
dun modle de comportement. Il
existe deux familles de mthodes
dimputation: les mthodes dtermi-

nistes (imputation par la rgression


et mthode des plus proches voisins)
et les mthodes alatoires (hot-deck,
mthode des rsidus simuls, imputation de variables qualitatives par
modlisation explicite et imputation
multiple). On trouve ensuite une comparaison de lefficacit respective des
imputations par la moyenne et par
hot-deck, un exemple de mthode
utilisable pour traiter le cas de nonrponse non-ignorable et un calcul
de variance qui prend en compte, en
plus de lala dchantillonnage, lala
du mcanisme de non-rponse et
ventuellement du modle alatoire
dimputation.
Cette partie se conclut par une
trs bonne synthse dans laquelle
on trouve notamment les taux de
rponse de certaines grandes enqutes de lInsee et leur volution dans
le temps. Le chapitre finit par un cas
pratique.

Quatrime chapitre
Ce chapitre aborde quelques aspects
particuliers des sondages. Le premier
concerne lestimation sur un domaine
(cest--dire une sous-population).
Dans ce cas de figure trs courant, la taille alatoire de lchantillon recoupant le domaine dtude
entrane des difficults techniques
de calcul de biais et de prcision.
Lauteur passe ensuite en revue les
principaux estimateurs utiliss dans
le cadre des petits domaines:
estimateurs synthtiques, par la prdiction, estimateurs composites et
estimateurs reposant sur une modlisation explicite (en particulier
une modlisation linaire mixte). Le
deuxime aspect particulier concerne
les questions pratiques et le calcul de
prcision dans le cas du tirage dindividus dans un mnage.
La troisime partie aborde lchantillonnage dans le temps en distinguant lapproche longitudinale et lapproche transversale. Dans chaque cas
de figure, on peut envisager essentiellement trois types dchantillonnage:
un panel pur, un chantillonnage
rotatif combinant diffrents panels
ou encore un systme dchantillons
tirs indpendamment chaque date.

Courrier des statistiques n 121-122, mai-dcembre 2007

Pour des tudes longitudinales, le


panel permet daccrotre la prcision
des mesures dvolution. Dans le cas
de lapproche transversale, il faut en
revanche tenir compte des naissances. En prsence de panlisation,
une des mthodes ddies ce problme difficile est la mthode gnralise du partage des poids.
La fin de cette partie aborde lchantillonnage de dates denqute et les
enqutes par vague.
Ce chapitre se termine sur une partie trs intressante consacre
lapproche modle qui, dans lunivers des sondages, fait rfrence au
concept de modle de superpopulation. En sondage, le nombre de
paramtres inconnus est N, cest-dire la taille du vecteur de la variable
dintrt observe sur la population.
Lapproche modle permet de passer
de ces N inconnues un nombre de
paramtres inconnus considrablement plus petit. Les variables dintrt relatives aux N individus de
la population sont alors considres
comme des variables alatoires dont
les lois dpendent dun petit nombre
de paramtres. Cette approche permet de construire des estimateurs
optimaux et de comparer les prcisions de diffrents plans de sondage
complexes.

Cinquime chapitre
Ce chapitre traite de lestimation de
variance dans le cas de plans de
sondage complexes. Il existe deux
approches principales permettant
destimer des variances: une approche analytique et une approche par
des mthodes de rplication dchantillon. Une troisime approche utilisant le Design effect (effet de plan)
est mentionne.
Dans le cadre de lapproche analytique, lauteur donne des estimateurs
approchs et simplifis de calcul de
variance dans le cas (problmatique)
du tirage probabilits ingales.
cette occasion, il revient sur la notion
de plan de sondage entropie maximale. Pour ce qui concerne les estimateurs non linaires, il propose lutilisation de technique de linarisation

83

ric Lesage
afin de construire des expressions
analytiques approches de variance.
Les techniques de rplication dchantillon sont bien matrises pour les
cas simples, mais leur extension aux
plans complexes est difficile formaliser. Lauteur prsente les deux
mthodes gnrales du Jackknife et
du bootstrap puis la mthode particulire des demi-chantillons.
Ce chapitre se termine sur quatre
cas dapplication, dont un traite de
la mise en uvre du logiciel Poulpe

de lInsee dans le cadre de lenqute


Emploi.
Louvrage se termine par une bibliographie douvrages de rfrence
comments et classs en cinq rubriques et par un lexique dans lequel les
diffrents termes techniques ont leur
traduction en anglais.

Mon avis
Ce manuel est un formidable tat de
lart vulgaris, trs prcis, trs clair,
avec des explications bien rdiges
et sans digressions.

Je recommande ce livre aux mthodologues denqute de lInsee (et


au-del, de la statistique publique),
ceux des instituts denqutes de
marketing et aux chercheurs qui travaillent sur les sondages et leurs
applications.
Les concepteurs denqutes et les
chargs dtudes y trouveront galement des informations utiles. Enfin,
jinvite les statisticiens et les conomistes lire les parties sur lapproche
modle et lestimation de vraies
valeurs. n

Table des matires


Avant-propos
I. Aspects universels, principes de base
1.Gnralits
2.Formalisation et vocabulaire de base
3.Loi dun estimateur et intervalle de confiance
4.Principe des estimateurs en chane
5.Bases de sondage
6.Diffrents types derreurs rencontrs dans les
enqutes
7.Principales tapes dune enqute

II. P
 rsentation des plans de sondage
classiques
1.Sondage alatoire simple
2.Sondage stratifi
3.Sondage plusieurs degrs
4.Sondage probabilits ingales
5.chantillonnage quilibr
6.Sondages empiriques
7.Cas pratique: lchantillonnage des enqutesmnages de lInsee dans les chantillons-matres
90 et 99
8.Synthse

III. A
 mlioration des estimateurs
(redressements, correction de
non-rponse)
1.Post-stratification simple
2.Post-stratification sur plusieurs critres
3.Estimateur par le ratio (ou par le quotient)
4.Estimateur par la rgression
5.Une approche gnrale du problme: calage gnralis et application Calmar
6.Traitement des non-rponses

84

7.Cas pratique: lenqute biens durables ameublement

IV. Q
 uelques aspects particuliers des
sondages
1.Estimation sur des domaines
2.Tirage dindividus dans un mnage
3.chantillonnage dans le temps
4.Introduction lapproche modle

V. P
 lans de sondages complexes:
lments pour estimer les prcisions
1.Problmes poss et gnralits sur les types de
traitements
2.Deux mthodes gnrales destimation de prcision: le bootstrap et le jackknife
3.Une mthode particulire destimation de prcision: les demi-chantillons
4.Cas dapplication 1: mise en uvre du logiciel
Poulpe dans le cadre de lenqute emploi de
lInsee
5.Cas dapplication 2: mthode de calcul de prcision des enqutes-mnages tires dans lchantillon-matre 82
6.Cas dapplication 3: prcision de lindice trimestriel
des loyers
7.Cas dapplication 4: prcision anticipe des
enqutes-mnages tires dans lchantillon-matre
90

Conclusion
Bibliographie
Lexique
Index