Vous êtes sur la page 1sur 151

No 12-001-XWF au catalogue

ISSN 1712-5685

Techniques
d'enqute
JXLQ 2014

Comment obtenir dautres renseignements


Pour toute demande de renseignements au sujet de ce produit ou sur lensemble des donnes et des services de
Statistique Canada, visiter notre site Web www.statcan.gc.ca.
Vous pouvez galement communiquer avec nous par :
Courriel infostats@statcan.gc.ca
Tlphone entre 8 h 30 et 16 h 30 du lundi au vendredi aux numros sans frais suivants :

Service de renseignements statistiques


Service national dappareils de tlcommunications pour les malentendants
Tlcopieur

Programme des services de dpt


Service de renseignements
Tlcopieur

1-800-263-1136
1-800-363-7629
1-877-287-4369

1-800-635-7943
1-800-565-7757

Comment accder ce produit


Le produit no 12-001-X au catalogue est disponible gratuitement sous format lectronique. Pour obtenir un exemplaire, il
suffit de visiter notre site Web www.statcan.gc.ca et de parcourir par Ressource cl > Publications .

Normes de service la clientle


Statistique Canada sengage fournir ses clients des services rapides, fiables et courtois. cet gard, notre
organisme sest dot de normes de service la clientle que les employs observent. Pour obtenir une copie de ces
normes de service, veuillez communiquer avec Statistique Canada au numro sans frais 1-800-263-1136. Les
normes de service sont aussi publies sur le site www.statcan.gc.ca sous propos de nous > Notre organisme
> Offrir des services aux Canadiens .

Publication autorise par le ministre responsable de


Statistique Canada
Ministre de lIndustrie, 2014
Tous droits rservs. Lutilisation de la prsente
publication est assujettie aux modalits de lentente
de licence ouverte de Statistique Canada
(http://www.statcan.gc.ca/reference/licence-fra.html).
This publication is also available in English.
Note de reconnaissance
Le succs du systme statistique du Canada repose sur
un partenariat bien tabli entre Statistique Canada et la
population du Canada, ses entreprises, ses
administrations et les autres tablissements. Sans cette
collaboration et cette bonne volont, il serait impossible
de produire des statistiques exactes et actuelles.

Signes conventionnels
Les signes conventionnels suivants sont employs dans
les publications de Statistique Canada :
.
..
...
0
s
0
p
r

x
E

F
*

indisponible pour toute priode de rfrence


indisponible pour une priode de rfrence
prcise
nayant pas lieu de figurer
zro absolu ou valeur arrondie zro
valeur arrondie 0 (zro) l o il y a une
distinction importante entre le zro absolu et la
valeur arrondie
provisoire
rvis
confidentiel en vertu des dispositions de la Loi
sur la statistique
utiliser avec prudence
trop peu fiable pour tre publi
valeur significativement diffrente de lestimation
pour la catgorie de rfrence (p<0,05)

TECHNIQUES DENQUTE

Une revue dite par Statistique Canada


Techniques denqute est rpertorie dans The ISI Web of knowledge (Web of science), The Survey Statistician,
Statistical Theory and Methods Abstracts et SRM Database of Social Research Methodology, Erasmus University.
On peut en trouver les rfrences dans Current Index to Statistics, et Journal Contents in Qualitative Methods. La
revue est galement cite par SCOPUS sur les bases de donnes Elsevier Bibliographic Databases.
COMIT DE DIRECTION
Prsident
C. Julien
Anciens prsidents J. Kovar (2009-2013)
D. Royce (2006-2009)
G.J. Brackstone (1986-2005)
R. Platek (1975-1986)
COMIT DE RDACTION
Rdacteur en chef
M.A. Hidiroglou, Statistique Canada

Membres

G. Beaudoin
S. Fortier (Gestionnaire de la production)
J. Gambino
M.A. Hidiroglou
H. Mantel

Ancien rdacteur en chef J. Kovar (2006-2009)


M.P. Singh (1975-2005)

Rdacteurs associs
J.-F. Beaumont, Statistique Canada
J. van den Brakel, Statistics Netherlands
J.M. Brick, Westat Inc.
P. Cantwell, U.S. Bureau of the Census
R. Chambers, Centre for Statistical and Survey Methodology
J.L. Eltinge, U.S. Bureau of Labor Statistics
W.A. Fuller, Iowa State University
J. Gambino, Statistique Canada
D. Haziza, Universit de Montral
B. Hulliger, University of Applied Sciences Northwestern Switzerland
D. Judkins, Abt Associates
D. Kasprzyk, National Opinion Research Center
J.K. Kim, Iowa State University
P.S. Kott, RTI International
P. Lahiri, JPSM, University of Maryland
P. Lavalle, Statistique Canada
P. Lynn, University of Essex
D.J. Malec, National Center for Health Statistics

J. Opsomer, Colorado State University


D. Pfeffermann, Hebrew University
N.G.N. Prasad, University of Alberta
J.N.K. Rao, Carleton University
J. Reiter, Duke University
L.-P. Rivest, Universit Laval
F.J. Scheuren, National Opinion Research Center
P. do N. Silva, Escola Nacional de Cincias Estatsticas
P. Smith, Office for National Statistics
E. Stasny, Ohio State University
D. Steel, University of Wollongong
M. Thompson, University of Waterloo
D. Toth, Bureau of Labor Statistics
V.J. Verma, Universit degli Studi di Siena
K.M. Wolter, National Opinion Research Center
C. Wu, University of Waterloo
W. Yung, Statistique Canada
A. Zaslavsky, Harvard University

Rdacteurs adjoints C. Bocci, K. Bosa, C. Boulet, C. Leon, H. Mantel, S. Matthews, Z. Patak, S. Rubin-Bleuer et
Y. You, Statistique Canada

POLITIQUE DE RDACTION
Techniques denqute publie des articles sur les divers aspects des mthodes statistiques qui intressent un organisme
statistique comme, par exemple, les problmes de conception dcoulant de contraintes dordre pratique, lutilisation de
diffrentes sources de donnes et de mthodes de collecte, les erreurs dans les enqutes, lvaluation des enqutes, la
recherche sur les mthodes denqute, lanalyse des sries chronologiques, la dsaisonnalisation, les tudes
dmographiques, lintgration de donnes statistiques, les mthodes destimation et danalyse de donnes et le
dveloppement de systmes gnraliss. Une importance particulire est accorde llaboration et lvaluation de
mthodes qui ont t utilises pour la collecte de donnes ou appliques des donnes relles. Tous les articles seront
soumis une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions mises dans la
revue ne sont pas ncessairement celles du comit de rdaction ni de Statistique Canada.

Prsentation de textes pour la revue


Techniques denqute est publie en version lectronique deux fois lan. Les auteurs dsirant faire paratre un article
sont invits le faire parvenir en franais ou en anglais en format lectronique et prfrablement en Word au rdacteur
en chef, (rte@statcan.gc.ca, Statistique Canada, 150 Promenade du Pr Tunney, Ottawa, (Ontario), Canada, K1A 0T6).
Pour les instructions sur le format, veuillez consulter les directives prsentes dans la revue ou sur le site web
(www.statcan.gc.ca/Techniquesdenquete).

Techniques denqute

Une revue dite par Statistique Canada


Volume 40, numro 1, juin 2014
Table des matires
Articles rguliers
Benmei Liu, Partha Lahiri et Graham Kalton
Modlisation hirarchique baysienne de proportions dans de petits domaines pondres par les
poids de sondage ....................................................................................................................................................... 1
Kelly Cristina M. Gonalves, Fernando A. S. Moura et Helio S. Migon
Estimation baysienne linraire en population finie en considrant en particulier les
donnes catgoriques .............................................................................................................................................. 17
Qi Dong, Michael R. Elliott et Trivellore E. Raghunathan
Une mthode non paramtrique de production de populations synthtiques qui tient compte des
caractristiques des plans de sondage complexes ................................................................................................. 33
Stephen Ash
Application de la mthode des rpliques des diffrences successives pour estimer les variances .................... 53
Eric Graf et Yves Till
Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale .......................... 69
Jun Shao, Eric Slud, Yang Cheng, Sheng Wang et Carma Hogue
Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de
dcision assists par modle ................................................................................................................................... 89
Natalja Menold
Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de
lchantillon dans lEnqute sociale europenne ................................................................................................115

Communications brves
Daniel Manrique-Vallier et Jerome P. Reiter
Imputation multiple baysienne pour des donnes catgoriques grande chelle contenant
des zros structurels ..............................................................................................................................................137

Statistique Canada, No 12-001-X au catalogue

Techniques denqute, juin 2014


Vol. 40, No 1, pp. 1-15
Statistique Canada, no 12-001-X au catalogue

Modlisation hirarchique baysienne de proportions dans


de petits domaines pondres par les poids de sondage
Benmei Liu, Partha Lahiri et Graham Kalton 1
Rsum
Larticle dcrit les rsultats dune tude par simulation Monte Carlo ralise en vue de comparer lefficacit de
quatre modles hirarchiques baysiens destimation sur petits domaines pour estimer des proportions au
niveau de ltat au moyen de donnes provenant dchantillons alatoires simples stratifis tirs dune
population finie fixe. Deux des modles reposent sur les hypothses frquentes selon lesquelles, pour chaque
petit domaine chantillonn, la proportion pondre par les poids de sondage estime suit une loi normale et sa
variance dchantillonnage est connue. Lun de ces modles comprend un modle de lien linaire et lautre, un
modle de lien logistique. Les deux autres modles utilisent tous deux un modle de lien logistique et reposent
sur lhypothse que la variance dchantillonnage est inconnue. Lun de ces deux modles suppose que le
modle dchantillonnage obit une loi normale et lautre, quil obit une loi bta. Ltude montre que, pour
chacun des quatre modles, la couverture sous le plan de sondage de lintervalle de crdibilit des proportions
au niveau de ltat en population finie scarte considrablement du niveau nominal de 95 % utilis pour
construire les intervalles.
Mots-cls : Proportions pondres; modlisation hirarchique baysienne; loi bta; intervalle de crdibilit.

1 Introduction
Les mthodes destimation sur petits domaines sont souvent utilises pour estimer les proportions
dunits ayant une caractristique donne dans de petits domaines. Ainsi, ces mthodes sont appliques
aux donnes du programme des Small Area Income and Poverty Estimates (SAIPE) du Census Bureau
pour estimer les taux de pauvret au niveau de ltat, du comt et du district scolaire (Citro et Kalton,
2000; Maples et Bell 2005), aux donnes de la National Survey on Drug Use and Health (NSDUH) pour
estimer les taux de consommation de drogues au niveau de ltat (Wright, Sathe et Spagnola 2007), et aux
donnes de la National Assessment of Adult Literacy (NAAL) pour estimer les proportions de personnes
ayant le plus faible niveau dalphabtisation au niveau de ltat et du comt (Mohadjer, Rao, Liu, Krenzke
et Van De Kerckhove 2012). Dans chaque cas, les tailles dchantillon dans les petits domaines sont trop
faibles pour produire des estimations directes dune prcision suffisante. Une grande varit de mthodes
ont t labores pour rsoudre ces problmes destimation sur petits domaines. Voir Rao (2003) et Jiang
et Lahiri (2006a) pour une revue de ces mthodes, et Chattopadhyay, Lahiri, Larsen et Reimnitz (1999),
Farrell, MacGibbon and Tomberlin (1997) ainsi que Malec, Sedransk, Moriarity et LeClere (1997) et
Malec, Davis et Cao (1999) pour des mthodes conues spcialement pour estimer les proportions dans les
petits domaines. La gamme de mthodes englobe lapproche hirarchique baysienne (HB) et celle du
meilleur prdicteur empirique (MPE), ainsi que les modles labors au niveau du domaine et au niveau
de lunit. Nous nous concentrons ici sur les modles HB au niveau du domaine.
Lorsquon fait appel un modle HB au niveau du domaine pour produire des estimations des
proportions dunits possdant une caractristique donne dans de petits domaines, on suppose
1. Benmei Liu, Division of Cancer Control and Population Sciences, National Cancer Institute, 9609 Medical Center Drive Room 4E524,
Bethesda, Maryland 20892; Courriel : liub2@mail.nih.gov; Partha Lahiri, JPSM, University of Maryland, 1218 Lefrak Hall, College Park,
Maryland 20742; Graham Kalton, Westar, 1600 Research Boulevard, Rockville, Maryland 20850. Une grande partie de ce travail de recherche
a t effectu alors que la premire auteure tait tudiante au cycle suprieur du Joint Program in Survey Methodology de lUniversit du
Maryland.

Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs

habituellement que, pour chaque domaine chantillonn, la proportion pondre par les poids de sondage
suit une loi dchantillonnage normale et que sa variance dchantillonnage est connue. Cependant, ces
hypothses posent problme lorsque la taille de lchantillon de petit domaine est petite ou que la
proportion relle est proche de 0 ou de 1. Afin de pouvoir appliquer le thorme central limite pour
approximer la normalit de la distribution dchantillonnage dune proportion, les chantillons doivent
tre raisonnablement grands, particulirement si la proportion dans la population est trs petite ou trs
grande (p. ex., infrieure 0,1 ou suprieure 0,9). En outre, quand les proportions sont trs petites ou
trs grandes, la variance dchantillonnage dune proportion dans lchantillon est extrmement sensible
la valeur relle de la proportion, de sorte quil est difficile dtablir une valeur approprie pour la variance
dchantillonnage. Pour tenter de contourner ces problmes, nous proposons deux modles de rechange
pour estimer les proportions dans les petits domaines et nous les comparons deux modles utiliss
frquemment. Les modles sont dcrits la section 3. Les quatre modles sont compars au moyen dune
tude par simulation Monte Carlo dans laquelle des chantillons alatoires simples stratifis sont gnrs
partir dune population finie fixe. Ltude par simulation est dcrite la section 4 et les rsultats sont
prsents la section 5. Certaines conclusions sont formules la section 6. Cependant, pour commencer,
nous prsentons la notation pour un plan de sondage alatoire simple stratifi la section 2.

2 Notation
Soit N ih la taille de la population dans la strate h dans le domaine i dune population finie
( i 1,..., m; h 1,..., Hi ). Soit yihk la rponse binaire pour la caractristique dintrt pour lunit k dans
la strate h dans le domaine i (k 1,..., Nih ) . Les paramtres estimer sont les proportions dans les petits

domaines Pi h k yihk / Nih .

Sous le plan de sondage alatoire simple stratifi choisi pour ltude, nih units sont slectionnes
parmi les N ih units dans la strate ( ih ). Lestimateur direct classique pour Pi est :

piw

wy

w
Hi

nih

Hi

ih

ihk

nih

, i 1,..., m,

(2.1)

ih

o wih dsigne le poids de sondage donn par wih Nih nih .


La variance de piw peut sexprimer sous la forme

VARst (piw )

Pi (1 Pi )
DEFFi ,
ni

(2.2)

o DEFFi est leffet de plan qui traduit leffet du plan de sondage complexe (Kish 1965). Pour un
chantillon alatoire simple stratifi avec fractions dchantillonnage ngligeables dans toutes les strates,
leffet de plan est donn approximativement par :

W
DEFF
i

2
ih ih

P (1 Pih ) / nih

Pi (1 Pi ) / ni

(2.3)

o Wih Nih / Ni , Ni h Nih , ni h nih , et Pih est la proportion dans la population de la strate h
dans le domaine i .

Statistique Canada, no 12-001-X au catalogue

Techniques denqute, juin 2014

Leffet de plan DEFFi est une fonction des Pih , qui sont inconnus. Si Pih (1 Pih ) Pi (1 Pi ) , une

approximation de DEFFi peut tre donne par deffiw ni hWih2 / nih . La valeur de deffiw se calcule
facilement, puisquelle ne dpend daucun des paramtres inconnus.

Les mthodes destimation sur petits domaines peuvent tre utilises pour rsoudre le problme d au
fait que piw est trs imprcis quand la taille de lchantillon ni est petite. La section 3 donne la
description des modles HB au niveau du domaine sur lesquels porte la prsente tude.

3 Modles tudis
Un modle gnral destimation sur petits domaines au niveau du domaine comprend deux
composantes. Lune le modle dchantillonnage est un modle pour lerreur dchantillonnage des
estimations directes daprs lenqute. Lautre le modle de lien relie la valeur de population pour
un domaine aux variables auxiliaires propres au domaine xi (xi1 ,..., xip ) .
La section 3.1 dcrit deux modles au niveau du domaine souvent utiliss pour estimer les proportions
dans les petits domaines et la section 3.2 dcrit certains problmes associs ces modles. La section 3.3
dcrit deux autres modles dont on peut se servir pour rsoudre ces problmes.

3.1 Deux modles souvent utiliss


Nous tudions deux modles souvent utiliss en vue de les comparer aux deux nouveaux modles
dcrits la section 3.4. Le premier est le modle de Fay-Herriot (Fay et Herriot 1979), qui suppose que les
variances dchantillonnage sont connues et que les variables suivent des lois normales dans le modle
dchantillonnage ainsi que dans le modle de lien. Le second est le modle normal logistique, qui ne
diffre du modle de Fay-Herriot que par le remplacement de la loi normale par une loi logit-normale dans
le modle de lien.
Modle 1 : (modle normal-normal de Fay-Herriot)
Modle dchantillonnage :
ind

piw | Pi ~ N (Pi , i )

(3.1)

Modle de lien :
ind

Pi | , v2 ~ N (xi' , v2 )

(3.2)

Modle 2 : (modle normal-logistique)


Modle dchantillonnage :
ind

piw | Pi ~ N (Pi , i )

(3.3)

Statistique Canada, no 12-001-X au catalogue

Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs

Modle de lien :
ind

g (Pi ) | , v2 ~ N (xi' , v2 )

(3.4)

Les deux modles reposent sur lhypothse que la variance dchantillonnage i est connue. Le
modle 1 est considr comme un modle appari parce que les modles dchantillonnage et de lien
peuvent tre combins pour produire un modle mixte linaire relativement simple. Cependant, on prfre
souvent utiliser un modle de lien non linaire pour modliser les proportions, ce qui donne des modles
dchantillonnage et de lien non apparis, comme dans le modle 2 (voir, par exemple, You et Rao 2002).
La fonction lien g () peut tre dtermine empiriquement en vrifiant ladquation du modle. Les
fonctions lien log et logit ont t utilises. Le modle de lien logit(Pi ) est choisi ici afin dtre certain que
lestimation de Pi soit toujours comprise dans lintervalle de valeurs permises (0, 1).

3.2 Problmes poss par les modles 1 et 2


Deux problmes importants sont associs aux modles 1 et 2. Le premier tient au fait que ces modles
reposent tous deux sur lhypothse que les variances dchantillonnage i sont connues, alors quen
pratique elles doivent tre estimes. Une approche simple consiste utiliser lestimation directe de la
variance, mais celle-ci est trs imprcise quand la valeur de Pi est trs petite ou trs grande et que la taille
de lchantillon ni est petite. Une autre approche, plus complexe, consiste laborer une estimation
approximative de Pi , disons pisyn , en partant dun modle simple, tel quun modle logistique pour piw en
fonction des variables auxiliaires, puis utiliser cette estimation dans lestimateur de variance synthtique
suivant :
varstsyn

pisyn (1- pisyn )


ni

deffiw .

(3.5)

Lorsquon ne dispose pas de variables auxiliaires, la proportion dans lchantillon global peut tre
utilise pour pisyn dans le calcul de lestimateur de variance synthtique.
Le deuxime problme a trait lhypothse de normalit dans le modle dchantillonnage, qui est
fonde sur une approximation en grand chantillon. Comme il est mentionn la section 1, lorsque la
taille de lchantillon ni est petite et que Pi est proche de 0 ou de 1, ce qui est frquent dans le cas de
lestimation sur petits domaines, cette hypothse pose problme.

3.3 Deux modles de rechange


Sous les modles 1 et 2, les variances dchantillonnage inconnues i sont estimes, puis les
estimations rsultantes sont traites comme sil sagissait des valeurs vraies connues. Une autre approche
possible consiste considrer que les i sont des paramtres inconnus dans le modle HB, comme cela a
t fait dans un certain nombre dtudes. Par exemple, Arora et Lahiri (1997) ont appliqu un modle HB
pour modliser les variances sous le plan de sondage pour les estimations sur chantillon. Singh, Folsom
et Vaish (2005) ont propos dutiliser un modle effet de plan gnralis pour lisser la matrice de

Statistique Canada, no 12-001-X au catalogue

Techniques denqute, juin 2014

covariance dchantillonnage dans la modlisation pour petits domaines au moyen de donnes denqute.
Rcemment, You (2008) a propos dutiliser des effets de plan gaux au cours du temps pour modliser
les variances dchantillonnage dans lestimation des taux de chmage dans les petits domaines en
utilisant un modle log-linaire transversal et chronologique. Dans le modle 3, en tant que variante du
modle 2, les variances dchantillonnage i sont traites comme tant inconnues. Afin de tenir compte
de la non-normalit des distributions dchantillonnage des proportions de petit domaine pondres par les
poids de sondage, lhypothse dune loi normale peut-tre remplace par celle dune autre loi. Cette
approche est applique dans le modle 4 en faisant lhypothse dune distribution dchantillonnage bta,
cest--dire une distribution qui possde la proprit dsirable davoir lintervalle de valeurs (0,1). Pour le
reste, le modle 4 est semblable au modle 3, y compris le traitement des i , i 1,..., m comme des
paramtres inconnus. Le modle 4 a t pris en considration antrieurement par Jiang et Lahiri (2006b)
titre dexemple de lestimation des moyennes de domaines de population finie en utilisant lapproche du
meilleur prdicteur empirique.
Modle 3 (modle normal-logistique avec variance dchantillonnage inconnue) :
Modle dchantillonnage :
ind

(3.6)

piw | Pi ~ N (Pi , i )

Modle de lien :
ind

(3.7)

logit (Pi ) | , v2 ~ N (x' , v2 )

Modle 4 : (modle bta-logistique avec variance dchantillonnage inconnue)


Modle dchantillonnage :
ind

(3.8)

piw | Pi ~ beta(ai , bi )

Modle de lien :
ind

logit (Pi ) | , v2 ~ N (xi' , v2 )

(3.9)

La fonction de variance approximative utilise dans les modles 3 et 4 est i [Pi (1- Pi )/ni ]deffiw . Dans
le modle 4, les paramtres ai et bi sont donns par :

ai Pi i -1 , et bi (1- Pi ) i -1 .
deffiw
deffiw
Les estimations HB sur petits domaines peuvent tre calcules au moyen des quatre modles en
utilisant lalgorithme de Metropolis-Hastings dans lchantillonneur de Gibbs. Une description dtaille
de lalgorithme, qui tire des chantillons alatoires en se basant sur les lois conditionnelles compltes des
paramtres inconnus partir dun ou de plusieurs jeux de valeurs initiales, figure dans Robert et Casella

Statistique Canada, no 12-001-X au catalogue

Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs

(1999) et dans Chen, Shao et Ibraham (2000). You et Rao (2002) dcrivent galement en dtail comment
lalgorithme de Metropolis-Hastings fonctionne dans lchantillonneur de Gibbs pour des modles
similaires aux modles 1 et 2. Pour les modles 3 et 4, lalgorithme fonctionne de la mme faon que pour
le modle 2. Les distributions conditionnelles compltes sous chaque modle sont donnes lannexe A.

4 tude par simulation


4.1 Population tudie et plan de sondage
La prsente section dcrit ltude par simulation ralise pour comparer lefficacit des estimations sur
petits domaines fournies par les quatre modles HB. Ltude avait pour base le fichier de donnes
grande diffusion sur la natalit de 2002 qui englobait toutes les naissances survenues aux tats-Unis cette
anne-l. Le fichier contenait des donnes extraites des certificats produits pour les naissances enregistres
dans chaque tat et territoire (pour des renseignements dtaills, voir U.S. National Center for Health
Statistics, 2009).
La population finie tudie a t limite aux 4 024 378 enregistrements de naissances vivantes ayant eu
lieu en 2002 dans les 50 tats des tats-Unis et dans le district de Columbia (DC) pour lesquelles le poids
la naissance tait consign. Le paramtre dintrt tait le taux de faible poids la naissance au niveau
de ltat Pi , i 1,...,51, o le faible poids de naissance est dfini comme tant moins de 2 500 grammes.
La valeur de Pi variait de 5 % 11 % selon ltat.
Dans chaque tat, un plan EAS stratifi a t utilis pour tirer des chantillons denregistrements de
naissance. La race de la mre (blanche, noire et autre) a servi de variable de stratification. La taille de
lchantillon national a t fixe environ 1 500 enregistrements de naissance pour chaque groupe racial.
Une fraction dchantillonnage uniforme a t applique tous les tats pour chaque groupe racial, sous la
contrainte que deux enregistrements de naissance soient chantillonns pour chaque groupe racial dans
chaque tat. La taille de lchantillon national rsultant tait de n 4 526 enregistrements de naissance.
Les tailles dchantillon au niveau de ltat ni variaient de 7 (pour les petits tats tel que le Vermont)
690 (pour la Californie), avec une taille dchantillon mdiane de 61. Cette procdure dchantillonnage a
t rpte R 1000 fois, pour crer 1 000 jeux de donnes dchantillon indpendants. Les poids
dchantillonnage sont rests les mmes pour les diverses excutions de la simulation.

4.2 Calcul des estimations HB


Pour simplifier, les hypothses qui suivent ont t faites pour les modles HB :
1.

Aucune variable auxiliaire na t utilise, de sorte que xi ' .

2.

Pour les modles 1 et 2, on a pos que les variances dchantillonnage taient donnes par
i [ pw (1- pw )/ni ]deffiw , o pw wih yihk / ni wih est lestimation nationale de la
proportion de naissances vivantes avec faible poids de naissance. (Une vrification de lutilisation
de deffiw comme approximation de DEFFi a montr que lapproximation tait raisonnable : les

Statistique Canada, no 12-001-X au catalogue

Techniques denqute, juin 2014

deux quantits taient proches, avec un coefficient de corrlation de Pearson de 0,96 et un ratio
moyen de 1,08 entre deffiw et DEFFi .)
3.

Loi a priori uniforme pour , c.--d.

f () 1, et gamma inverse pour v2 , c.--d.

v2 ~ IG(0,001; 0,001) .
Pour chaque jeu de donnes dchantillon, la premire tape consistait calculer les estimations
directes sur chantillon au niveau de ltat. Les estimations pour chaque jeu de donnes dchantillon ont
ensuite t utilises tour tour comme entre dans le logiciel WinBUGS (Lunn, Thomas, Best et
Spiegelhalter 2000) employ pour produire les estimations HB pour les quatre modles.
Dans un nombre important dtats o ni tait petit, les estimations directes taient nulles dans certains
jeux de donnes dchantillon. Puisque WinBUGS ne peut traiter les estimations directes nulles que pour
le modle 1, pour les autres modles, les estimations directes nulles ont t perturbes afin de les
transformer en nombres positifs trs petits.
Pour chaque excution de WinBUGS, on sest servi de trois chanes indpendantes. Pour chaque
chane, on a effectu un rodage de 10 000 chantillons, qui a t suivi de 10 000 autres chantillons. Le
nombre dchantillons aprs rodage a t rduit dun facteur deux afin de diminuer lautocorrlation des
chantillons MCMC. Les 15 000 chantillons MCMC rsultant des trois chanes aprs rodage ont ensuite
servi calculer la moyenne et les centiles a posteriori pour chaque modle HB partir de chaque jeu de
donnes dchantillon. Le facteur de rduction dchelle possible (potential scale reduction factor) R a
t utilis comme mesure principale de la convergence (voir Gelman et Rubin 1992). Le code WinBUGS
est donn lannexe B.

5. Rsultats des simulations


la section 5.1, nous prsentons les principaux rsultats relatifs aux intervalles de crdibilit obtenus
pour les proportions de naissances vivantes avec faible poids de naissance au niveau de ltat en
appliquant chacun des quatre modles. Ensuite, la section 5.2, nous examinons les biais et les racines
carres des erreurs quadratiques moyennes de ces estimations.

5.1 Estimations des modles et intervalles de crdibilit


Soit Pi HB un estimateur HB de Pi , le pourcentage de naissances vivantes avec faible poids de naissance
e
dans ltat i , et soit Pi ,HB
q le q centile de la distribution a posteriori de Pi . Fond sur les rsultats des

1 000 jeux de donnes de simulation, le tableau 5.1 donne les rsultats qui suivent pour chaque modle : la
probabilit de non-couverture des intervalles de crdibilit 95 % de Pi , c.--d. la probabilit que
HB
HB
lintervalle allant de Pi ;0,025
Pi ;0,975
ne contienne pas Pi , et la largeur moyenne des intervalles de
HB
HB
- Pi;0,025
crdibilit Pi ;0,975
. Les erreurs-types de simulation Monte Carlo correspondantes sont galement

prsentes entre parenthses dans le tableau.


Pour examiner leffet de la taille de lchantillon de ltat sur les rsultats des simulations, les 50 tats
et le district de Columbia sont rpartis en trois groupes en fonction de la taille de leur chantillon, savoir

Statistique Canada, no 12-001-X au catalogue

Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs

les 15 tats dont lchantillon est de petite taille (ni 30), les 24 tats dont lchantillon est de taille
moyenne (30 ni 100), et les 12 tats dont lchantillon est de grande taille (ni 100). Les rsultats
prsents au tableau 5.1 sont les moyennes globales sur lensemble des tats et les moyennes pour les
trois groupes distincts.
Lexamen de la moiti suprieure du tableau 5.1 montre que les intervalles de crdibilit pour le
modle de Fay-Herriot (M1) sont trs prudents, ne donnant quasiment aucune non-couverture. La moiti
infrieure du tableau rvle que ce rsultat est obtenu au prix de la plus grande largeur moyenne de
lintervalle de crdibilit parmi les quatre modles. La largeur des intervalles de crdibilit de M1 est trs
stable. Une faible proportion de ces intervalles possde une borne infrieure ngative.
Le faible niveau de non-couverture observ pour M1 pourrait tenir au fait que les variances
dchantillonnage ont t surestimes, peut-tre parce que deffiw a t utilis au lieu de DEFFi . Pour
examiner cette possibilit, nous avons utilis DEFFi pour calculer la variance dchantillonnage et nous
navons constat presque aucune diffrence de taux de non-couverture. Nous avons galement excut le
modle en nous servant de la vraie variance dfinie dans (2.2) et navons de nouveau observ aucune
diffrence apprciable entre les taux de non-couverture. La non-normalit de la distribution
dchantillonnage de piw pourrait galement tre lorigine de ce problme.
Tableau 5.1
Pourcentage de fois que les intervalles de crdibilit 95 % ne contiennent pas Pi , largeur moyenne des
intervalles de crdibilit 95 %, avec les erreurs-types de simulation Monte Carlo fondes sur
1 000 simulations (en pourcentage)
Taille de lchantillon de ltat
chantillon global

ni 30

(15 tats)

30 ni 100
ni 100

(24 tats)

(12 tats)

chantillon global

ni 30

(15 tats)

30 ni 100

ni 100

(24 tats)

(12 tats)

ni

M1*
M2
M3
M4
Pourcentage de non-couverture (erreur-type de simulation Monte Carlo)
0,40
8,24
6,52
4,36
(0,028)
(0,109)
(0,101)
(0,088)
0,05
11,39
8,45
6,21
(0,019)
(0,239)
(0,216)
(0,190)
0,46
9,44
7,61
4,52
(0,043)
(0,167)
(0,156)
(0,132)
0,70
1,91
1,94
1,74
(0,076)
(0,122)
(0,124)
(0,119)
Largeur moyenne de lintervalle de crdibilit 95 % (erreur-type de simulation
Monte Carlo)
9,05
5,52
6,20
8,45
(0,004)
(0,009)
(0,009)
(0,014)
10,27
5,94
6,78
9,30
(0,009)
(0,020)
(0,021)
(0,034)
9,16
5,60
6,28
8,71
(0,005)
(0,013)
(0,013)
(0,021)
7,29
4,84
5,30
6,88
(0,004)
(0,012)
(0,013)
(0,017)

*Nota : Pour le modle 1, une faible proportion dintervalles de crdibilit possde une borne infrieure ngative.

8,2 %, le taux global de non-couverture des intervalles de crdibilit pour le modle normallogistique (M2) est sensiblement suprieur au taux nominal de 5 %. Ce modle donne la plus petite largeur
moyenne de lintervalle. Le taux de non-couverture pour le modle normal-logistique avec variance

Statistique Canada, no 12-001-X au catalogue

Techniques denqute, juin 2014

inconnue (M3) sapproche davantage du taux nominal, avec une largeur globale de lintervalle un peu plus
grande que dans le cas de M2.
Le taux global de non-couverture de 4,4 % observ pour le modle bta-logistique (M4) est celui qui
est le plus proche du taux de non-couverture nominal. Cependant, la largeur moyenne des intervalles de
crdibilit est plus grande que celle obtenue pour M2 et M3, et lerreur-type Monte Carlo de la largeur de
lintervalle est plus grande que celle observe pour les trois autres modles. Cette instabilit pourrait
dcouler de la complexit de la distribution conditionnelle complte pour le modle bta. La forte
proportion des 1 000 estimations directes qui taient nulles pour certains tats dont la taille dchantillon
tait petite pourrait aussi avoir caus dimportants problmes dajustement de la loi bta.
Comme prvu, pour les quatre modles, la largeur moyenne des intervalles de crdibilit diminue
lorsque la taille de lchantillon de ltat augmente, et la variation de la largeur diminue galement
lorsque la taille de lchantillon augmente. Toutefois, malgr ces diminutions, les taux de non-couverture
diminuent aussi lorsque la taille de lchantillon augmente pour les modles 2, 3 et 4. En fait, les taux de
non-couverture sont trs petits pour les tats dont la valeur de ni est grande, ce qui fait penser que les
intervalles de crdibilit ne refltent pas adquatement leffet de la plus grande prcision des estimations
directes dans les tats o la taille dchantillon est grande.

5.2 Biais et REQM des estimations fondes sur les modles


Afin dtudier ces rsultats plus en dtail, nous avons examin le biais et la racine carre de lerreur
quadratique moyenne (REQM) des estimations Pi HB pour chaque modle. Les rsultats sont prsents au
tableau 5.2 dans le mme format quau tableau 5.1. Les biais des estimations sous les modles M1, M2 et
M3 prsentent une tendance similaire : les biais observs pour les petits tats sont grands et positifs, et
sont compenss dans une certaine mesure par les biais ngatifs relativement faibles observs pour les tats
de moyenne et de grande taille. Dans le cas du modle M4, les biais des estimations prsentent une
tendance trs diffrente : ils sont presque nuls pour les petits tats et leur valeur est grande et ngative
pour les tats de moyenne et de grande taille. Cela indique que M4 donnerait de meilleurs rsultats que les
trois autres modles en ce qui concerne le biais lorsque les chantillons des petits domaines sont de petite
taille.
Tableau 5.2
Biais et racine carre de lerreur quadratique moyenne des estimations de Pi fondes sur les quatre modles
(en pourcentage)
Taille de lchantillon de
ltat ni

Biais

REQM

Biais

REQM

Biais

REQM

Biais

REQM

chantillon global

0,165

1,518

0,071

1,346

-0,009

1,411

-0,214

1,712

0,621

1,651

0,572

1,630

0,466

1,652

0,009

1,922

-0,006

1,547

-0,123

1,386

-0,201

1,452

-0,319

1,775

-0,063

1,294

-0,167

0,911

-0,219

1,026

-0,283

1,323

ni 30 (15 tats)
30 ni 100 (24 tats)
ni 100 (12 tats)

M1

M2

M3

M4

Statistique Canada, no 12-001-X au catalogue

10

Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs

6. Discussion
Le prsent article dcrit les rsultats dune tude par simulation ralise partir dune population finie
relle pour valuer les intervalles de crdibilit produits par quatre modles hirarchiques, en se basant sur
leur longueur et sur leurs proprits de couverture sous le plan de sondage. Autant que nous sachions, ce
genre dvaluation des intervalles de crdibilit (ou de confiance) fonde sur le plan de sondage na
encore jamais t effectue dans le contexte de lestimation sur petits domaines.
Dans ltude par simulation, nous avons compar les proprits de couverture sous le plan de sondage
des intervalles de crdibilit rsultant de divers modles hirarchiques baysiens labors pour estimer les
proportions dans de petits domaines sous un plan de sondage alatoire simple stratifi. Globalement,
aucun modle ne lemporte clairement sur les autres, si bien que nous ne pouvons pas en recommander un
plutt que les autres.
La version hirarchique baysienne du modle bien connu de Fay-Herriot semble produire des
intervalles de crdibilit exagrment prudents. La non-normalit du modle dchantillonnage ainsi que
du modle de lien pourrait tre la source de ce problme. Pour le modle hirarchique bta-logistique, les
intervalles de crdibilit donnent presque la couverture nominale pour les proportions de population finie
et, des quatre modles tudis, ce modle est celui qui possde les meilleures proprits de biais quand la
taille dchantillon est petite. Cependant, comme lune des distributions conditionnelles compltes pour le
modle bta-logistique fait intervenir les proportions pondres par les poids de sondage, la mthode
MCMC pose problme chaque fois quune de ces proportions est nulle. Les intervalles de crdibilit pour
ce modle sont galement plus larges que ceux observs pour les deux autres modles comportant un
modle de lien logistique. La largeur de lintervalle de crdibilit sous le modle bta-logistique pourrait
peut-tre tre rduite si le modle est modifi, par exemple en utilisant un modle de mlange de lois
effet alatoire en deux parties appropri qui permettrait dviter le problme des proportions pondres par
les poids de sondage nulles. Une tude plus approfondie ce sujet est ncessaire. Il pourrait aussi tre utile
denvisager dautres modles, peut-tre un modle probabiliste discret pour le niveau 1, en vue
damliorer lestimation des intervalles des petites proportions pour les petits domaines.
Ltude par simulation a montr que la couverture des intervalles de crdibilit baysiens des
proportions dans la population finie scartait considrablement du niveau nominal de 95 % pour les
quatre modles, et une constatation semblable a t faite pour la couverture sous le plan de sondage du
modle de Fay-Herriot dont lusage est trs rpandu. Compte tenu de ces rsultats, nous avons effectu un
certain nombre danalyses supplmentaires en vue de trouver une explication. Ces analyses comprenaient
lajout de variables prdictives aux modles, lutilisation dune loi a priori uniforme pour 2 (fonde sur
des arguments formuls par Gelman 2006), lutilisation de lapproche de la meilleure prdiction empirique
pour le modle M1, laccroissement de la taille dchantillon dans les tats ne comptant que quelques
naissances en fixant le nombre minimum 50, et lapplication de ces mthodes pour estimer la proportion
de naissances dont le poids la naissance tait infrieur la mdiane nationale dans chaque tat. Mme si
les proprits de couverture des intervalles des proportions dans la population finie au niveau de ltat
prsentaient certaines diffrences, aucune de ces analyses na produit des taux de couverture proches des
taux nominaux. Le seul cas o ces derniers concidaient avec les taux de couverture rels tait celui dun
jeu de donnes simul construit sous le modle M1 pour les proportions au niveau de ltat de naissances
pour lesquelles le poids de naissance tait infrieur la mdiane nationale; les taux de couverture moyens

Statistique Canada, no 12-001-X au catalogue

11

Techniques denqute, juin 2014

taient de 5,1 % et de 5,2 % pour les approches du meilleur prdicteur empirique (MPE) et HB,
respectivement.
Ltude par simulation a t limite un plan de sondage un seul degr. En outre, pour simplifier,
aucune variable auxiliaire na t incluse dans les modles de lien dans les analyses principales, alors
quen pratique, lajout de ce genre de variables est habituel et presque essentiel. Dautres tudes par
simulation doivent tre ralises en vue dexaminer diffrents plans de sondage et diffrentes tailles
dchantillon, et dintgrer certaines variables auxiliaires dans les modles de lien. Nous esprons que
notre tude encouragera dautres chercheurs excuter des simulations fondes sur le plan de sondage
similaires pour valuer les mthodes destimation sur petits domaines. la lumire de nos rsultats
limits, il convient de mettre en garde les utilisateurs destimations sur petits domaines quant
linterprtation des intervalles de crdibilit des estimations.

Remerciements
Les auteurs tiennent remercier les rdacteurs associs ainsi que deux rviseurs pour leurs suggestions
constructives ayant permis damliorer significativement larticle original. Les travaux de recherche du
deuxime auteur ont t financs par la National Science Foundation SES-085100.

Annexe A
A1. Distributions conditionnelles compltes pour les paramtres de chaque
modle
Soit p ( p1w ,..., pmw )t et ri

i
.
i v2

Les distributions conditionnelles compltes pour le modle de Fay-Herriot (M1) sont les suivantes :
i) i | , v2 , p ~ N ((1 ri ) piw ri ,

i (1 ri )) ;

1 m
v2
ii) | i , , p ~ N i , ;
m
m i 1
2
v

1
1 m

iii) v2 | , i , p ~ ING a m, b (i ) 2 .
2
2 i 1

Les distributions conditionnelles compltes pour le modle normal-logistique (M2) sont les suivantes :
i) i | , v2 , p

( p )2 (logit(i ) ) 2
1
exp iw i
;
2i
2 v2
i (1 i ) v i

1 m
2
ii) | i , v2 , p ~ N logit(i ), v ;
m
m i 1

Statistique Canada, no 12-001-X au catalogue

12

Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs

1
1 m

iii) v2 | , i , p ~ ING a m, b (logit(i ) ) 2 .


2
2 i 1

Les distributions conditionnelles compltes pour le modle normal-logistique avec variance inconnue
(M3) sont les mmes que pour le modle M2 except que i est remplac par i (1 i )deffiw / ni pour la
distribution de i sachant les autres paramtres.
n
Soit iw i 1. Les distributions conditionnelles compltes pour le modle bta-logistique (M4)
deffiw
sont les suivantes :
i) i | , v2 , p

i iw 1
(logit(i ) )2
piw
(1 piw )(1i ) iw 1
1
exp
;
i (1 i ) v (i iw )((1 i )iw )
2 v2

1 m
2
ii) | i , v2 , p ~ N logit(i ), v ;
m
m i 1
1
1 m

iii) v2 | , i , p ~ ING a m, b (logit(i ) ) 2 .


2
2 i 1

Annexe B
Code WinBUGS pour le modle 1 :
Model {
for ( i in 1 :N)

pobs[i] ~ dnorm(theta[i], D[i])


D[i] <- 1/varhat[i]
theta[i]<-u+v[i]
v[i]~dnorm(0, tau)
}
u~dflat()
tau~dgamma(0.001, 0.001)
sigma_v2<-1/tau
}

Code WinBUGS pour le modle 2 :


Model {
for ( i in 1 :N)

pobs[i] ~ dnorm(theta[i], D[i])


D[i] <- 1/varhat[i]
logit(theta[i])<-u+v[i]
v[i]~dnorm(0, tau)
}

Statistique Canada, no 12-001-X au catalogue

13

Techniques denqute, juin 2014

u~dflat()
tau~dgamma(0.001, 0.001)
sigma_v2<-1/tau
}

Code WinBUGS pour le modle 3 :


Model {
for ( i in 1 :N)

pobs[i] ~ dnorm(theta[i], E[i])


E[i] <- SAMPn[i]/(theta[i]*(1-theta[i])*DEFF_kish[i])
logit(theta[i])<-u+v[i]
v[i]~dnorm(0, tau)
D[i]<-1/E[i]
}
u~dflat()
tau~dgamma(0.001, 0.001)
sigma_v2<-1/tau
}

Code WinBUGS pour le modle 4 :


Model {
for ( i in 1 :N) {
pobs[i] ~ dbeta(a[i], b[i])
a[i] <- theta[i]*(theta[i]*(1-theta[i])/D[i]-1)
b[i] <- (1-theta[i])*(theta[i]*(1-theta[i])/D[i]-1)
logit(theta[i])<-u+v[i]
v[i]~dnorm(0, tau)
D[i]<-theta[i]*(1-theta[i])*DEFF_kish[i]/SAMPn[i]
}
u~dflat()
tau~dgamma(0.001, 0.001)
sigma_v2<-1/tau
}

Bibliographie
Arora, V. et Lahiri, P. (1997). On the superiority of the Bayesian method over the BLUP in small area
estimation problems. Statistica Sinica, 7, 1053-1063.
Chattopadhyay, M., Lahiri, P., Larsen, M., et Reimnitz, J. (1999). Estimation composite de la prevalence
des drogues pour des zones infratats. Techniques denquetes, 25, 91-97.

Statistique Canada, no 12-001-X au catalogue

14

Liu, Lahiri et Kalton : Modlisation hirarchique baysienne de proportions dans de petits domaines pondrs

Chen, M., Shao, Q., et Ibraham, J.G. (2000). Monte Carlo Methods in Bayesian Computation. New York:
Springer-Verlag.
Citro, C., et Kalton, G. (Eds.) (2000). Small-Area Income and Poverty Estimates: Priorities for 2000 and
Beyond. Washington, DC: National Academy Press.
Farrell, P.J., MacGibbon, B., et Tomberlin, T.J. (1997). Empirical Bayes estimators of small area
proportions in multistage designs. Statistical Sinica, 7, 1065-1083.
Fay, R.E., et Herriot, R.A. (1979). Estimates of income for small places: An application of James-Stein
procedures to census data. Journal of the American Statistical Association, 74, 269-277.
Gelman, A. (2006). Prior distributions for variance parameters in hierarchical models. Bayesian Analysis,
1, 515-533.
Gelman, A., et Rubin, D.B. (1992). Inference from iterative simulation using multiple sequences.
Statistical Science, 7, 457-472.
Jiang, J., et Lahiri, P. (2006a). Mixed model prediction and small area estimation. Test, 15, 111-999.
Jiang, J., et Lahiri, P. (2006b). Estimation of finite population domain means: A model-assisted empirical
best prediction approach. Journal of the American Statistical Association, 101, 301-311.
Kish, L. (1965). Survey sampling. New York: John Wiley.
Lunn, D.J., Thomas, A., Best, N., et Spiegelhalter, D. (2000). WinBUGS A Bayesian modeling
framework: Concepts, structure, and extensibility. Statistics and Computing, 10, 325-337.
Malec, D., Davis, W., et Cao, X. (1999). Small area estimates of overweight prevalence using sample
selection adjustment. Statistics in Medicine, 18, 3189-3200.
Malec, D., Sedransk, J., Moriarity, C.L., et LeClere, F.B. (1997). Small area inference for binary variables
in the National Health Interview Survey. Journal of the American Statistical Association, 92, 815-826.
Maples, J., et Bell, W.R. (2005). Evaluation of school district poverty estimates: Predictive models using
IRS income tax data. Proceedings of the Survey Research Methods Section, American Statistical
Association, 1322-1329.
Mohadjer, L., Rao, J.N.K., Liu, B., Krenzke, T., et Van De Kerckhove, W. (2012). Hierarchical Bayes
small area estimates of adult literacy using unmatched sampling and linking models. Journal of the
Indian Society of Agricultural Statistics, 66 (1), 55-63.
Rao, J.N.K. (2003). Small area estimation. New York: John Wiley and Sons.
Robert, C.P., et Casella, G. (1999). Monte Carlo Statistical Methods. New York: Springer-Verlag.
Singh, A.C., Folsom, R.E., Jr. et Vaish, A.K. (2005). Small area modeling for survey data with smoothed
error covariance structure via generalized design effects. Federal Committee on Statistical Methods
Statistical Working Paper No. 39. (http://www.fcsm.gov/05papers/Singh_etal_IIIC.pdf)

Statistique Canada, no 12-001-X au catalogue

Techniques denqute, juin 2014

15

U.S. National Center for Health Statistics (2009). National Vital Statistics System. Birth Data.
(http://www.cdc.gov/nchs/births.htm)
Wright, D., Sathe, N., et Spagnola, K. (2007). State Estimates of Substance Use from the 2004-2005
National Surveys on Drug Use and Health. (DHHS Publication No. SMA 07-4235, NSDUH Series H31). Rockville, MD: Substance Abuse and Mental Health Services Administration, Office of Applied
Studies.
You, Y. (2008). Une approche intgre de modlisation de lestimation du taux de chmage pour les
rgions infraprovinciales au Canada. Techniques denqutes, 34, 21-30.
You, Y., et Rao, J.N.K. (2002). Small area estimation using unmatched sampling and linking models.
Canadian Journal of Statistics, 30, 3-15.

Statistique Canada, no 12-001-X au catalogue

E L E C T R O N I C
P U B L I C AT I O N S
AVA I L A B L E AT

P U B L I C AT I O N S
LECTRONIQUES
DISPONIBLE

w w w. s t a t c a n . g c . c a

Techniques denqute, juin 2014


Vol. 40, No 1, pp. 17-31
Statistique Canada, No 12-001-X au catalogue

17

Estimation baysienne linaire en population finie en


considrant en particulier les donnes catgoriques
Kelly Cristina M. Gonalves, Fernando A.S. Moura et Helio S. Migon1
Rsum
Lestimateur baysien linaire en population finie est obtenu en partant dun modle de rgression deux
degrs spcifi uniquement par les moyennes et les variances de certains paramtres du modle associs
chaque degr de la hirarchie. Nombre destimateurs fonds sur le plan de sondage usuels dcrits dans la
littrature peuvent tre obtenus en tant que cas particuliers. Un nouvel estimateur par le ratio est galement
propos pour la situation pratique o de linformation auxiliaire est disponible. Lapplication de la mme
approche baysienne linaire est propose pour estimer des proportions pour des donnes catgoriques
multiples associes aux units de la population finie, ce qui constitue la principale contribution des prsents
travaux, et est illustre au moyen dun exemple numrique.
Mots-cls :

changeabilit; modle linaire; prdiction baysienne linaire.

1 Introduction
Les sondages sont depuis longtemps un moyen important dobtenir de linformation exacte auprs
dune population finie. Par exemple, les gouvernements ont besoin de statistiques descriptives sur la
population pour valuer et mettre en uvre leurs politiques. Au cours du premier tiers du XX e sicle, la
principale proccupation des spcialistes de la statistique officielle tait dtablir une norme de pratique
acceptable. Neyman (1934) a cr un cadre de ce type en introduisant des mthodes de randomisation dans
le processus dchantillonnage. Il prconisait lutilisation de la distribution de randomisation, ou
distribution alatoire, induite par le plan de sondage pour valuer les proprits frquentistes de diverses
procdures. Il a galement introduit la notion de stratification avec rpartition optimale de la taille de
lchantillon et lutilisation de probabilits de slection ingales. Ses travaux sont considrs comme la
pierre angulaire de la thorie des sondages fonde sur le plan de sondage et ont inspir de nombreux
auteurs. Par exemple, Horvitz et Thompson (1952) ont propos une thorie gnrale de lchantillonnage
avec probabilits ingales et la mthode destimation pondre par les probabilits, qui est connue sous le
nom d estimateur de Horvitz-Thompson .
Partout dans le monde, les organismes statistiques officiels ont trouv la thorie des sondages fonde
sur le plan de sondage trs intressante. Comme lont fait remarquer Skinner, Holt et Smith (1989),
page 2, la raison principale de cet intrt est quessentiellement, cette thorie ne dpend pas dune loi de
probabilit. En effet, depuis les travaux de Neyman, tous les progrs raliss en thorie des sondages ont
t fortement influencs par lusage descriptif du sondage. Cette approche a eu pour consquence un
manque de dveloppements thoriques concernant lutilisation analytique des sondages, en particulier
des fins de prdiction. Dans certaines situations prcises, lapproche fonde sur le plan de sondage sest
avre inefficace, fournissant des prdicteurs inadquats. Ainsi, lestimation sur petits domaines et la
prsence de non-rponse ne peuvent pas tre traites par lapproche fonde sur le plan de sondage sans
1. Kelly Cristina M. Gonalves, Departamento de Estatstica, Universidade Federal do Rio de Janeiro (UFRJ), RJ, Brsil. Courriel :
kelly@im.ufrj.br; Fernando A. S. Moura, Departamento de Estatstica, Universidade Federal do Rio de Janeiro (UFRJ), RJ, Brsil. Courriel :
fmoura@im.ufrj.br; Helio S. Migon, Departamento de Estatstica, Universidade Federal do Rio de Janeiro (UFRJ), RJ, Brsil. Courriel :
migon@im.ufrj.br.

18

Gonalves, Moura et Migon : Estimation baysienne linaire en population finie

faire appel des hypothses implicites, ce qui quivaut mettre lhypothse dun modle. Les partisans
de lapproche fonde sur le plan de sondage soutiennent que linfrence fonde sur un modle dpend en
grande partie des hypothses du modle, lesquelles pourraient ne pas tre vrifies. Par ailleurs,
linfrence par intervalle sur les paramtres de la population cible (habituellement les totaux et les
moyennes) sappuie sur le thorme central limite, qui nest pas applicable dans de nombreuses situations
pratiques, o la taille de lchantillon nest pas suffisamment grande et/ou les hypothses dindpendance
des variables alatoires concernes ne sont pas raisonnables.
Basu (1971) rejetait les estimations des quantits de population dpendantes de la rgle
dchantillonnage, comme les probabilits dinclusion. Selon lui, cette mthode destimation ne
satisfaisait pas le principe de vraisemblance dont il tait un partisan. Basu (1971) a cr lexemple de
llphant de cirque pour montrer que lestimateur de Horvitz-Thompson pouvait produire des estimations
inappropries et a propos un estimateur de rechange. La question qui se pose est celle de savoir sil est
possible de concilier les deux approches. Dans le contexte du modle de superpopulation, Zacks (2002) a
montr que lon peut retrouver certains estimateurs fonds sur le plan de sondage en utilisant une
approche base sur un modle de rgression gnralise. Little (2003) affirme quune spcification
prudente du modle, sensible au plan de sondage, permet de rpondre aux proccupations concernant les
spcifications du modle, et que la statistique baysienne offre un traitement cohrent et unifi de
linfrence par sondage descriptive et analytique. Il a donn certains exemples afin dillustrer comment
linfrence fonde sur le plan de sondage classique peut dcouler de la perspective baysienne en utilisant
certains modles avec priors non informatifs.
Dans le contexte baysien, une autre proposition intressante en vue de concilier lapproche fonde sur
le plan de sondage et celle fonde sur un modle a t avance par Smouse (1984). La mthode incorpore
linformation a priori dans les modles dinfrence en population finie en sappuyant sur des mthodes
baysiennes destimation par les moindres carrs et ncessite seulement la spcification des premier et
deuxime moments de la distribution concerne, qui dcrivent les connaissances a priori au sujet des
structures prsentes dans la population. Lapproche peut remplacer les mthodes de randomisation et se
situe mi-chemin entre deux visions extrmes, savoir les procdures fondes sur le plan de sondage
dune part et celles fondes sur des modles de superpopulation dautre part. Dans un rapport indit,
OHagan (1985) a prsent des estimateurs baysiens linaires dans certains contextes de sondage
particuliers et OHagan (1987) a galement driv des estimateurs baysiens linaires pour certains
modles de rponse randomiss. OHagan (1985) a pris en considration plusieurs structures de
population, dont la stratification et la mise en grappes, en mettant des hypothses appropries au sujet des
premier et deuxime moments, et a montr comment obtenir certains estimateurs fonds sur le plan
frquemment utiliss en temps que cas particuliers de cette approche plus gnrale. Il a galement fait
remarquer que ses estimations ne tenaient pas compte de lchantillonnage non informatif. Il a cit Scott
(1977) et fait le commentaire que lchantillonnage informatif devrait tre excut par une analyse
baysienne complte. Une rfrence importante concernant le traitement de lchantillonnage informatif
avec des modles hirarchiques figure dans Pfeffermann, Moura et Silva (2006).
La prsentation de larticle est la suivante. La section 2 dcrit de manire gnrale lapproche
destimation baysienne linaire applique un modle de rgression linaire gnral pour la prdiction
en population finie et montre comment obtenir certains estimateurs fonds sur le plan de sondage titre de
cas particuliers. la section 3, un nouvel estimateur est propos pour la situation pratique o de

Statistique Canada, No 12-001-X au catalogue

19

Techniques denqute, juin 2014

linformation auxiliaire est disponible. la section 4, lapproche destimation baysienne linaire est
tendue aux donnes catgoriques multiples. Enfin, la section 5 offre certaines conclusions et des
suggestions de futures recherches.

2 Estimation baysienne linaire en population finie


Lapproche baysienne sest avre fructueuse dans de nombreuses applications, particulirement
lorsque lanalyse des donnes a t amliore par des jugements dexpert. Cependant, si les modles
baysiens possdent de nombreuses caractristiques intressantes, leur application requiert souvent la
spcification complte dune loi a priori, ou prior, pour un grand nombre de paramtres. Goldstein et
Wooff (2007), section 1.2, soutiennent que, mesure que le problme se complexifie, notre aptitude relle
spcifier compltement la loi a priori et/ou le modle dchantillonnage en dtail diminue. Ils concluent
que, dans de telles situations, il est ncessaire dlaborer des mthodes qui reposent sur une spcification
faisant appel la croyance partielle.
Hartigan (1969) a propos une mthode destimation, quil a nomme approche destimation
baysienne linaire, qui ne ncessite que la spcification des premier et deuxime moments. Les
estimateurs rsultants ont la proprit de minimiser la perte quadratique a posteriori parmi tous les
estimateurs qui sont linaires en les donnes et peuvent tre considrs comme des approximations des
moyennes a posteriori. Lapproche destimation baysienne linaire, qui est employe pleinement dans le
prsent article, est dcrite brivement ci-dessous.

2.1 Approche baysienne linaire


Soit y s le vecteur des observations et , le paramtre estimer. Pour chaque valeur de et chaque
estimation possible d , appartenant lespace paramtrique , nous associons une fonction de perte
quadratique L , d d d tr d d Nous souhaitons avant tout trouver la
valeur de d qui minimise r d E L , d y s , la valeur prvue conditionnelle de la fonction de perte
quadratique fournie par les donnes.
Supposons que la distribution conjointe de et y s est spcifie partiellement par leurs deux premiers
moments seulement :

y
s

a R AQ
f , QA Q ,

(2.1)

o a et f , respectivement, dsignent les vecteurs des moyennes et R , AQ et Q, les lments de la


matrice de covariance de et y s .
Lestimateur baysien linaire (EBL) de est la valeur de d qui minimise la valeur prvue de cette
fonction de perte quadratique dans la classe de toutes les estimations linaires de la forme
d d y s h Hy s , pour un vecteur h et une matrice H. Donc, lEBL de , d , et sa variance
associe, V d , sont donns respectivement par

d a A y s f et V d R AQA.

(2.2)

Statistique Canada, No 12-001-X au catalogue

20

Gonalves, Moura et Migon : Estimation baysienne linaire en population finie

Il convient de souligner que lEBL dpend de la spcification des premier et deuxime moments de la
distribution conjointe partiellement spcifie en (2.1). Le problme de lobtention de ces quantits est
trait aux sections 2.3.1 et 4.1 pour certains cas particuliers.

2.2 Approche baysienne linaire en population finie


Considrons U u1 , , u N une population finie comprenant N units. Soit y y1 , , y N le
vecteur des valeurs dintrt des units dans U . Le vecteur de rponses y est divis en le vecteur des
valeurs connues observes sur lchantillon y s de taille n , et en le vecteur des valeurs non observes y s
de dimension N n. Le problme gnral consiste prdire une fonction du vecteur y , telle que le total
T

N
i 1

y i 1s y s 1s y s , o 1 s et 1 s sont les vecteurs de 1 de dimensions n et N n,

respectivement. Dans lapproche fonde sur un modle, cela se fait habituellement en se servant dun
modle paramtrique hypothtique pour les valeurs de population y i , puis en obtenant le meilleur
prdicteur linaire sans biais empirique (EBLUP) pour le vecteur inconnu y s sous ce modle.
Habituellement, lerreur quadratique moyenne de lEBLUP de T sobtient par approximation dordre
deux, de mme quun estimateur sans biais. Voir Valliant, Dorfman et Royall (2000), chapitre 2, pour des
renseignements dtaills.
Lapproche baysienne de la prdiction en population finie repose souvent sur lhypothse dun
modle paramtrique, mais elle vise trouver la loi a posteriori de T sachant y s . On peut obtenir les
estimations ponctuelles en spcifiant une fonction de perte, quoique dans de nombreux problmes
pratiques, on considre souvent la moyenne a posteriori dont la variance associe est donne par la
variance a posteriori, cest--dire :

E T y s 1s y s 1s E y s y s et V T y s 1s V y s y s 1 s .

(2.3)

Il est possible dobtenir une approximation des quantits dans (2.3) en utilisant une approche
destimation baysienne linaire. Ici, nous obtiendrons en particulier les estimateurs en mettant
lhypothse dun modle hirarchique deux degrs gnral en population finie, spcifi uniquement par
sa moyenne et sa matrice de variance-covariance, prsent dans Bolfarine et Zacks (1992), page 76. Les
cas particuliers dcrivant les structures de population habituellement observes en pratique peuvent tre
drivs facilement de (2.4). Le modle gnral peut scrire :

X,V et

a, R ,

o X est une matrice de covariables de dimensions N p, avec les lignes X i x i1 ,


i 1,

, N ; 1 ,

(2.4)

, x ip ,

, p est un vecteur de dimension p 1 de paramtres inconnus, et y ,

sachant , est un vecteur alatoire de moyenne X et de matrice de covariance connue V de dimensions

N N . De manire analogue, a et R sont, respectivement, le vecteur des moyennes a priori de


dimension p 1 et la matrice de covariance a priori de dimensions p p de .
Puisque le vecteur de rponses y est divis en y s et y s , la matrice X , qui est suppose connue, est
divise de manire analogue en X s et X s , et V est divise en Vs , Vs , Vss et Vss . Lobjectif premier
est de prdire y s sachant lchantillon observ y s , puis le total T . Voici les tapes que nous avons

Statistique Canada, No 12-001-X au catalogue

21

Techniques denqute, juin 2014

suivies : premirement, nous avons utilis une loi a priori conjointe qui nest spcifie que partiellement
en ce qui concerne les moments comme il suit :
ys
y
s

X s Vs
,

X s Vss

Vss
.
Vs

Donc, en appliquant le rsultat gnral dans lquation (2.2), lEBL de E y s y s , et la perte


quadratique prvue minimale (variance associe) sont donns par :
E y s y s , X s Vss Vs1 y s X s et V y s y s , Vs Vss Vs1Vss .

(2.5)

Remarque 1 : Il convient de souligner que, sous lhypothse de normalit, E y s y s , et V y s y s ,


sont donnes, respectivement, par les membres de droite des quations de (2.5). LEBL et sa variance
associe donns en (2.5) peuvent tre considrs respectivement, comme des approximations de
E y s y s , et V y s y s , pour les cas de non-normalit.
Maintenant, si nous revenons au modle (2.4), nous devons adapter la structure (2.1) et utiliser les
rsultats de (2.2) pour obtenir lEBL de et sa variance associe, V , donns respectivement par :
1
1
a RX s X s RX s Vs y s X s a et V C R RX s X s RX s Vs X s R. (2.6)

Il est facile de voir que, dans (2.6), la premire quation peut tre rcrite sous la forme
C X s Vs1 y s R 1a , o C 1 R 1 X s Vs1X s . Il convient de souligner que, si nous plaons
une loi a priori vague sur , en prenant R 1 0, nous obtenons lestimateur par les moindres carrs
1
minimal de : LS X s Vs1X s X s Vs1y s .

Maintenant, en appliquant les proprits bien connues des esprances et des variances conditionnelles,
nous obtenons :

E y s y s E E y s y s , y s et V y s y s E V y s y s , y s V E y s y s , y s . (2.7)
En remplaant E y s y s , et V y s y s , dans (2.7) par leur EBL respectif donn en (2.5) et puis, en
remplaant E y s et V y s par et V donns en (2.6), nous obtenons lEBL de E y s y s et
sa variance associe sous la forme :
E y s y s X s Vss Vs1 y s X s et
V y s y s Vs Vss Vs1 Vss X s Vss Vs1X s C X s Vss Vs1X s .

(2.8)

Remarque 2 : De manire analogue la remarque 1, sous lhypothse de normalit, nous avons que les
membres de droite des quations (2.8) sont, respectivement, les valeurs de E y s y s et V y s y s .
Lexpression gnrale de lEBL du total T et de sa variance associe est obtenue en remplaant
E y s y s et V y s y s dans les quations (2.3) par leurs quivalents respectifs E y s y s et V y s y s :

T 1s y s 1s E y s y s et V T 1s V y s y s 1 s .

(2.9)

Statistique Canada, No 12-001-X au catalogue

22

Gonalves, Moura et Migon : Estimation baysienne linaire en population finie

Il convient de souligner que, dans de nombreuses applications de (2.9), la matrice V est suppose tre
diagonale, ce qui implique que Vss 0 et nous avons alors :
T 1s y s 1s X s et V T 1s Vs X s CX s 1 s .

(2.10)

En guise dillustration, nous considrons certains exemples discuts par OHagan (1985) et proposons un
nouvel estimateur par le ratio, qui est lune des contributions des prsents travaux. Tous les exemples
peuvent tre traits comme des cas particuliers du modle (2.4).

2.3 Retour sur certains plans de sondage frquents


2.3.1 chantillonnage alatoire simple sans remise : changeabilit
OHagan (1985) a examin le cas simple o la population ne prsente aucune structure pertinente, ce
qui peut se faire en spcifiant :

E y i m, V y i v et Cov y i , y j c, i , j 1,

, N , i j.

(2.11)

Remarque 3 : On peut justifier la corrlation introduite dans le modle (2.11) en invoquant limitation de
lchantillonnage alatoire simple sans remise.
En appliquant le rsultat gnral tabli dans (2.10) (2.11) avec de dimension 1, X 1 N , a m,

R c et V 2 I, o 2 v c, nous obtenons lEBL de T et sa variance associe :


1
2
Tsrs ny s N n et V Tsrs N n 2 N n c 2 2 nc ,

(2.12)

o
y s n 1 1s y s est la moyenne dchantillon,

y s 1 m est la valeur prvue des valeurs non observes de y et

n 2
, o 2 v c.
c 1 n 2

Il convient de souligner que est une moyenne pondre de la moyenne a priori m et de la moyenne
dchantillon y s , o est le ratio entre les deux quantits de population. La moyenne m peut tre
considre comme le prior du chercheur pour la moyenne de population relle y . Lincertitude au sujet de
y i est divise en deux composantes : lincertitude au sujet du niveau global des y i (inter-variation) et
lincertitude quant la part de chaque y i qui peut diffrer de ce niveau global (intra-variation). Une
mesure utile de la variabilit des units dans la population est donne par
S2

1 N
yi y 2 .

N 1 i 1

Il nest pas difficile de montrer que E S 2 v c 2 . Par consquent, 2 peut tre interprte
comme une estimation a priori de la variabilit lintrieur de la population. Nous obtenons aussi

Statistique Canada, No 12-001-X au catalogue

23

Techniques denqute, juin 2014

V y c N 1 2 . Dans de nombreuses applications, N est grand et la constante c peut donc tre

considre comme linter-variation.


En posant que v et en maintenant 2 fixe, cest--dire en supposant que lon ne connat pas les
priors, les estimations dans (2.12) donnent :
n 2

Tsrs N y s et V Tsrs N 2 1 .
N n

Ces expressions sont fort semblables lestimation bien connue du total et sa variance dans le contexte
fond sur le plan de sondage pour le cas de lchantillonnage alatoire simple. OHagan (1985) a discut
de certains moyens possibles dviter la tche difficile dattribuer une valeur 2 . Le moyen le plus
naturel de le faire consiste trouver son EBL, mais linaire en les carrs et les termes de variance des
produits croiss. Cependant, il est ncessaire de spcifier les moments dordre quatre des y i . Goldstein
(1979) a propos un EBL de la variance qui nutilise que des fonctions linaires des donnes. Nanmoins,
on obtient une expression complique de la variance associe de son EBL modifi. OHagan (1985) a
soutenu que, si linformation a priori au sujet des composantes de la variance est faible, toute estimation
a posteriori sapproche des estimations non baysiennes classiques obtenues en utilisant uniquement les
donnes, lorsque ce gendre destimations est disponible. Par consquent, il a propos, en guise de
procdure baysienne approximative, dintroduire ces estimations de variance classiques par substitution
dans lEBL et dans sa variance associe lorsque cela est appropri. Dans le cas qui nous occupe, nous
pouvons remplacer 2 par s 2 n 1

i 1

y i y s 2 , qui est sans biais sous le plan pour S 2 .

2.3.2 chantillonnage alatoire simple stratifi sans remise


Soit y hi la i e unit, i 1, ..., N h appartenant la strate h , h 1, .., H . Nous supposons que la taille
de strate, N h , est connue pour toutes les strates. Lchangeabilit dordre deux dans chaque strate est
nonce dans OHagan (1985) sous la forme :

E y hi mh , V y hi v h , Cov y hi , y hj c h , i j et Cov y hi , y lj d hl , h l .
Remarque 4 : Il est raisonnable de supposer que linformation obtenue au sujet dune strate pourrait
modifier les croyances au sujet des autres strates dans certaines applications spciales. Cependant, si nous
voulons imiter lchantillonnage alatoire simple stratifi, nous devons supposer que les observations dans
les diverses strates ne sont pas corrles, en posant que d hl 0.
Le modle gnral (2.4) peut tre appliqu ce cas en prenant X diag X 1 , , X H et
V diag V1 , , VH , avec X h 1 N
et Vh h2 I N , o 2h v h c h , h 1, , H ,

a m1 ,

, m H R est une matrice de dimensions H H avec Rhl c h , si h l et Rhl d hl

autrement. LEBL de T et sa variance associe sont obtenus au moyen de (2.10) et figurent dans
OHagan (1985). Les modles pour lchantillonnage en grappes sont donns dans Bolfarine et Zacks
(1992), page 11. LEBL des modles avec grappes figurent dans OHagan (1985).

Statistique Canada, No 12-001-X au catalogue

24

Gonalves, Moura et Migon : Estimation baysienne linaire en population finie

3 Information auxiliaire : estimateur par le ratio


Dans de nombreuses situations pratiques, il est possible dobtenir de linformation au sujet dune
variable auxiliaire x i (corrle y i ) pour toutes les units de la population, ou du moins pour chaque
unit chantillonne, ainsi que la moyenne de population X . En pratique, x i est souvent la valeur de y i
une priode antrieure o a t effectu un recensement complet. Cette approche est utilise dans des
situations o la valeur prvue et la variance de y i sont proportionnelles x i , de sorte que dans la
spcification de lEBL, nous remplaons certaines hypothses au sujet des y par des hypothses au sujet
des deux premiers moments du taux y i x i . Autant que nous sachions, le nouvel estimateur par le ratio
propos ci-aprs est une nouvelle contribution la thorie des sondages.
Le nouvel estimateur par le ratio est obtenu en tant que cas particulier du modle (2.4) et en se servant
de lhypothse dchangeabilit, utilise dans lapproche baysienne linaire, applique au taux y i x i
pour tout i 1, , N , comme il est dcrit ci-dessous :
y
E i m, V
xi

yi y j
yi
x v et Cov x , x c, i , j 1,
i
j
i

, N , i j.

En appliquant le rsultat gnral tabli dans (2.10) (3.1) avec X x1 ,


de dimension a m, de variables auxiliaires R c et V diag x1 ,
2

(3.1)

, x N le vecteur N 1

, x N , o 2 v c, nous

obtenons lEBL de T et sa variance associe comme il suit :

Tra ny s N n x s et
1
2
V Tra N n x s 2 N n x s 2 c 1 2 nx s , o

ys
2 nx s
,
1 m et 1
xs
c 2 nx s

o x s NX nx s N n est la moyenne des x pour les units non chantillonnes. En posant que

v et n , mais en maintenant 2 fixe, nous robtenons lestimateur de type ratio de


lapproche fonde sur le plan de sondage : Tra NX y s / x s .

4 Mthode baysienne linaire pour donnes catgoriques


Il arrive souvent que lon sintresse des cas o la caractristique observe est celle de savoir si
lunit de population possde ou non un certain attribut dintrt. Nous pouvons dfinir une variable
dichotomique y i 1, si la i e unit possde cet attribut, ce qui est dsign comme une russite, et
y i 0 autrement. Pour le cas binaire lorsque la taille de lchantillon nest pas suffisamment grande pour
appliquer le thorme central limite, lapproche fonde sur le plan de sondage pourrait faire appel la
randomisation introduite par le plan de sondage pour justifier la distribution des quantits alatoires
binaires. Par exemple, Cochran (1977), sections 3.4 et 3.5, montre comment appliquer les lois
hypergomtrique et binomiale pour obtenir les intervalles de confiance pour les proportions de
population quand on se sert de plans dchantillonnages alatoires simples avec et sans remise,
respectivement. Par ailleurs, des approches dpendantes dun modle ont galement t avances et

Statistique Canada, No 12-001-X au catalogue

25

Techniques denqute, juin 2014

appliques pour prdire les totaux ou les moyennes dans les catgories dintrt. Malec, Sedransk,
Moriarity et LeClere (1997) ont considr un modle hirarchique logistique deux niveaux, o les
grappes forment le deuxime niveau. Ils ont galement compar les estimations baysiennes entirement
hirarchiques aux estimations baysiennes empiriques et aux mthodes classiques. Moura et Migon (2002)
ont prsent une approche base sur un modle hirarchique logistique pour la prdiction de proportions
sur petits domaines, en tenant compte des effets spatiaux ainsi que des effets dhtrognit non
structure possibles. Nandram et Choi (2008) ont propos un modle multinomial-Dirichlet dpendant du
temps pour prdire les rsultats dune lection sous non-rponse ignorable et non ignorable. Ils ont
galement utilis une approche baysienne pour rpartir les lecteurs indcis entre les candidats.
De nouveau, ici, nous navons pas besoin dutiliser des hypothses au sujet du modle complet ni une
approche de randomisation, mais nous devons mettre certaines hypothses au sujet des premier et
deuxime moments des quantits alatoires concernes. LEBL pour les donnes binaires a t introduit
brivement par OHagan (1985), mais ici, nous le dveloppons dune manire plus gnrale pour le cas o
nous nous intressons lanalyse de plus dun attribut dans une population. Lobjectif est de dcrire
lestimation de la proportion de russites avec des donnes catgoriques. Soit y ij la variable qui indique
que lunit i , i 1,

, N se trouve dans la catgorie j , j 1,

, k donne par

1, si la i e unit possde le j e attribut;


y ij
0, autrement.
Le but principal est destimer un vecteur p p1 ,

, p k o p j N 1 i 1 y i j , j 1,
N

, k , est

la proportion dunits dans la catgorie j , sachant y s , un vecteur de dimension nk , dfini comme tant
y s y11 , y 21 , , y n1 , , y1k , y 2 k , , y nk Comme nous avons affaire des situations dans lesquelles
il nest possible dassocier quun seul attribut chaque unit, nous avons
devons estimer que k 1 paramtres, puisquil sensuit que p k 1
variance est galement obtenue de manire analogue par V p k

k 1
j 1

k 1
j 1

k
j 1

p j 1. Donc, nous ne

p j et que lestimation de la

V p j

k 1
l j 1

p j , p l .
Cov

En labsence de toute autre information structurelle, nous supposons que les units dans une catgorie
donne sont changeables dordre deux, mais nous ne supposons aucune changeabilit entre les units de
diffrentes catgories. Nos croyances a priori sont exprimes pour i 1, , N , j 1, , k 1, comme
il suit :

m j E y ij P y ij 1 , v j V y ij m j 1 m j et
cov y ij , y ij P y ij 1 y ij 1 P y ij 1 P y ij 1 P y ij 1
m j m jj m j c j , i i et 2j v j c j m j 1 m jj ,
o m jj P y ij 1 y ij 1 , pour tout i i .
Pour j j , nous obtenons de manire analogue la covariance entre ces catgories sous la forme

m j m jj m j ,
cov y ij , y ij
m j m j ,

si i i ,
si i i .

Statistique Canada, No 12-001-X au catalogue

26

Gonalves, Moura et Migon : Estimation baysienne linaire en population finie

Souvent, nous ne possdons pas toutes les donnes y s , mais seulement une statistique exhaustive, comme
la proportion dans lchantillon pour chaque catgorie, y s . Soit y s le vecteur de dimension k 1- dont
la j e position est donne par la moyenne dchantillon pour la catgorie j. En utilisant le modle gnral
donn par (2.4), nous obtenons :

E y s E E y s | a et Var y s E V y s | V E y s | Vs R.
En appliquant le modle gnral donn dans (2.4), o la variable de rponse est donne par y s , le
vecteur est de dimension k 1, X s I s et V diag Vs , Vs , nous obtenons partir de (2.10) :
ny s N n
N n Vs C
et V p
,
N
N2
2

(4.1)

o C 1 R 1 Vs et C Vs1 y s R 1a , comme il est nonc en (2.6).


Soit Q Vs R. LEBL de p et sa variance associe donns par (4.1) peuvent scrire en fonction
, k 1, en notant que a m1 ,

des quantits a priori m j , m jj et j 1,

, mk 1 Q jj c j 2j n

et Q jj m j m jj m j m j m jj n . Par consquent, la matrice R r jj , j , j 1, .., k 1 avec


r jj c j

et

r jj m j m jj m j

et

Vs 1 n v jj , j , j 1, .., k 1

avec

v jj 2j

et

v jj m j m jj . De manire analogue, nous obtenons Vs n N n Vs .

4.1 Obtention des priors


Lobtention des priors est le processus consistant formuler les connaissances et les croyances dune
personne au sujet dune ou de plusieurs quantits incertaines sous forme dune loi de probabilit pour ces
quantits. Selon Garthwaite, Kadane et OHagan (2005), il est commode de concevoir la tche dobtention
des priors comme faisant intervenir un facilitateur qui aide lexpert formuler ses connaissances
spcialises sous forme probabiliste. Dans le contexte de lobtention dune loi a priori pour une analyse
baysienne, ce sont les connaissances a priori de lexpert qui sont tires au clair, mais en gnral,
lobjectif est dexprimer les connaissances courantes de lexpert sous forme probabiliste. Si lexpert est un
statisticien ou sil connat trs bien les concepts statistiques, lintervention dun facilitateur pourrait ne pas
tre formellement ncessaire, mais cela est rare en pratique. OHagan (1998) a illustr au moyen dun
exemple pratique comment obtenir les premier et deuxime moments. En particulier, il a adopt
lapproche baysienne linaire parce quelle permet aux ingnieurs dappliquer facilement une procdure
dobtention des priors.
la prsente section, nous prsentons certaines contraintes concernant les quantits a priori et une
solution de rechange pour faciliter le processus dobtention des priors en vue dobtenir lEBL pour des
donnes catgoriques. Comme m j et m jj sont des probabilits et que R et Vs sont les matrices de
covariance dans le modle (2.4), les contraintes qui suivent doivent tre satisfaites :
1.

0 m j 1 et 0 m jj 1, j , j 1,

2.

R et Vs sont des matrices symtriques dfinies positives.

Statistique Canada, No 12-001-X au catalogue

, k 1;

27

Techniques denqute, juin 2014

Afin de vrifier si la condition (2.2) est satisfaite, on peut excuter les tapes suivantes :
i. vrifier si R et Vs sont symtriques en vrifiant que m j m jj m j m jj ;
ii. vrifier si R et Vs sont des matrices dfinies positives en trouvant les valeurs propres de R
et Vs . Si les valeurs propres sont positives, alors les matrices sont dfinies positives.
Il convient de mentionner que les valeurs propres sont les racines du polynme caractristique et que si
ce polynme est de degr n, n 4, il est possible dobtenir analytiquement ses racines en appliquant
Bhaskara, Cardan ou Ferrari; voir Jacobson (2009), chapitre 4, pour les formules. Cependant, si n 5, il
est habituellement ncessaire dappliquer une mthode itrative pour les obtenir. Nanmoins, pour les
matrices de dimensions suprieures 2 2, il nest pas simple dobtenir analytiquement ces contraintes
en se basant sur les valeurs propres. La proposition qui suit prsente les conditions que m j et m jj ,
j 1,

, k 1, doivent satisfaire afin dobtenir un prior convenable pour un modle multinomial

comprenant trois catgories en utilisant lapproche destimation baysienne linaire.


Proposition 1 Supposons que nous obtenons m j , tel que 0 m j 1, j 1, 2. Alors, sachant 11 , 12 et

22 , nous obtenons m11 , m12 , m 21 et m 22 au moyen de (4.2). Les quantits a priori m j et m jj , pour
j , j 1, 2, doivent satisfaire les contraintes qui suivent pour que les matrices R et Vs soient dfinies
positives :
m11 m1 et m 22 m 2 , m11m 22 m11 m 22 1 m12 m 21 et
m11m22 m11m 2 m1m 22 m12 m 21 2m 2 m12 .

La vrification de la proposition 1 ncessite certaines oprations algbriques. Nous vrifions que les
matrices R et Vs sont dfinies positives en utilisant (i) et (ii) susmentionns. Nous faisons appel au fait
que les valeurs propres dune matrice de dimensions 2 2 sont positives si et seulement si son
dterminant est positif et nous obtenons alors m jj , j , j 1, 2 qui satisfait cette contrainte pour les deux
matrices. Pour les cas comprenant plus de trois catgories, nous devons vrifier numriquement si les
matrices R et Vs sont dfinies positives en remplaant m j et m jj , j 1, , k 1 par leur valeur
numrique.
Par ailleurs, si un expert a de la difficult spcifier certaines de ces probabilits conditionnelles m jj ,
il pourrait tre plus simple dattribuer un prior au coefficient de corrlation. Dfinissons jj comme tant
le prior du coefficient de corrlation entre deux units diffrentes dans les catgories j et j , cest-dire :

jj corr y ij , y ij

pour i , i 1,

, n, i i , j , j 1,

m jj m j
1m ,
j


m j m jj m j

,
m 1 m m 1 m
j
j
j
j

j j ,
j j ,

, k 1.

Statistique Canada, No 12-001-X au catalogue

28

Gonalves, Moura et Migon : Estimation baysienne linaire en population finie

Par consquent, sachant jj , j , j 1,

m jj

, k 1, nous obtenons

m j jj 1 m j

m j m j jj m j 1 m j m j 1 m j
,

m j

j j ,
j j .

(4.2)

Il convient de mentionner que, si lon dispose de donnes provenant dune enqute antrieure, il est
possible quun expert utilise cette information. Par exemple, m j peut tre obtenu en estimant la
proportion dunits dans la catgorie j , j 1, , k 1 partir de lenqute antrieure. De faon
analogue, jj peut tre obtenu en utilisant les donnes dune enqute antrieure. Comme lindique la
contrainte (2.1), m j ne peut pas prendre les valeurs 0 et 1, sinon les corrlations ne seraient pas dfinies.

4.2 Analyse de la sensibilit aux priors


Il est utile de vrifier si lestimateur et sa variance associe dpendent des priors attribus. Nous
traitons le cas simple ne comprenant que deux catgories. Soulignons que, dans le cas o il y a plus de
deux catgories, le nombre de quantits a priori quil faut obtenir augmente rapidement, mais que lon
peut tendre les conclusions obtenues. Par ailleurs, en labsence dinformation a priori, nous pouvons
utiliser des priors non informatifs et, comme il est dcrit la section 2.2, on retrouve alors les estimateurs
de lapproche fonde sur le plan de sondage.
LEBL pour la proportion en cas de donnes binaires peut tre obtenu en tant que cas particulier de
lestimateur (4.1),
p 1

ny1 N n
,
N

o
y1 1 m1 est la valeur prvue des valeurs non observes dans la catgorie 1,

n 12
,
n 1 2 c 1 1

et p 2 1 p 1 . Notons que 12 et c1 dpendent de m11 m1 11 1 m1 , voir page 13 . Nous


analysons comment les estimations sont affectes par 11 .
1. Si 11 0, alors 0 et m1 . Donc, lestimateur pour les valeurs non observes
dpend en grande partie de la valeur du prior.
2. Si 11 1, alors 1 et y1 . Donc, lestimateur pour les valeurs non observes ne
dpend pas de la valeur du prior.
En outre, il est facile de voir que n N 1, p 1 y1 . Pour illustrer ces rsultats, nous avons cr un
jeu de donnes artificielles en fixant la proportion relle p 0,2380; 0,7620 et la moyenne
dchantillon y s 0,2614; 0,7386 Ces valeurs ont t tires de Moura et Migon (2002). Puis, nous
avons dtermin comment les valeurs de m1 , N , f n N et 11 affectent lestimateur p 1 . La

Statistique Canada, No 12-001-X au catalogue

29

Techniques denqute, juin 2014

figure 4.1 donne la reprsentation graphique en deux dimensions de lerreur absolue de p 1 en fonction de
11 pour certains cas particuliers. La courbe grise reprsente lerreur absolue entre la proportion
dchantillon y 1 et la proportion relle p1 .
Il faut souligner que, mesure que f ou N augmente, lerreur absolue diminue pour toute valeur du
prior. De surcrot, quand 11 0, lerreur absolue augmente quand m1 diffre considrablement de la
proportion relle p1 , mais elle diminue mesure que la taille de lchantillon augmente. Enfin, quand
11 1, nous observons que lerreur absolue de p 1 tend vers lerreur absolue de la proportion
dchantillon y 1 . Donc, si nous avons une bonne information a priori, en ce qui concerne m1 ,
lestimateur propos donne de bons rsultats pour toutes les valeurs de 11 . Cependant, si aucune
information a priori nest disponible, des priors non informatifs caractriss par 11 1 peuvent tre

0,30
0,20
0,00

Erreur absolue

m1 = 0,1
m1 = 0,4
m1 = 0,7
m1 = 0,9

0,10

m1 = 0,1
m1 = 0,4
m1 = 0,7
m1 = 0,9

0,0 0,1 0,2 0,3 0,4

Erreur absolue

0,5 0,6

utiliss et nous obtenons des rsultats similaires ceux de lapproche fonde sur le plan de sondage.

0,01

0,25

0,50

0,75

0,90

0,01

0,25

0,90

0,06

m1 = 0,1
m1 = 0,4
m1 = 0,7
m1 = 0,9

0,00

0,02

0,04

0,20

m1 = 0,1
m1 = 0,4
m1 = 0,7
m1 = 0,9

Erreur absolue

0,30

(b) N = 1 500 et f = 10 %

0,10

Erreur absolue

0,75

(a) N = 1 500 et f = 1 %

0,00

0,50

0,01

0,25

0,50

(c) N = 15 288 et f = 1 %

0,75

0,90

0,01

0,25

0,50

0,75

0,90

(d) N = 15 288 et f = 10 %

Figure 4.1 Erreur absolue pour m1 0,1; 0,4; 0,7; 0,9 , N 1 500, 15 288 et f 1 %, 10 % fixes et
11 0,01; 0,25; 0,5; 0,75; 0,9 variable. La courbe grise reprsente lerreur absolue de la
proportion dchantillon y1

Statistique Canada, No 12-001-X au catalogue

30

Gonalves, Moura et Migon : Estimation baysienne linaire en population finie

5 Conclusion
Obtenir une loi a priori conjointe complte pour un grand nombre de dimensions reprsenterait une
tche norme. La mthode baysienne linaire ncessite seulement lobtention des moyennes, des
variances et des covariances a priori des paramtres. Elle est particulirement utile lorsquun statisticien
nest pas disponible pour procder lobtention complte des priors. Un exemple dobtention russie des
priors en utilisant cet estimateur figure dans OHagan (1998).
Nous avons driv les estimateurs fonds sur le plan de sondage bien connus en appliquant la structure
de lEBL une approche faisant appel un modle de rgression gnralise. Nous avons tendu
lestimateur aux donnes catgoriques et conclu que mme si cet estimateur ncessite lobtention des
priors de nombreuses quantits, il est possible de les reparamtriser ou de travailler avec des priors non
informatifs. Lexemple numrique illustre le comportement des estimations sous forme dune fonction de
la taille de lchantillon et des spcifications des paramtres a priori. Cependant, nous sommes conscients
que lobtention des priors pour un grand nombre des paramtres nest pas une tche facile si lon ne
dispose pas dinformation provenant denqutes antrieures. Nanmoins, les exemples dont il est question
dans larticle montrent que mme si on ne dispose pas dinformation a priori, il est possible dobtenir les
estimateurs fonds sur le plan de sondage quivalent en fixant une variance suffisamment grande pour les
priors. En outre, les praticiens des sondages qui doivent obtenir des estimations pour un grand nombre de
variables se rendraient galement compte quils ne seraient pas capables de produire des estimations dune
prcision satisfaisante pour toutes les variables, quelle que soit lapproche utilise. Enfin, nous avons
montr comment lapproche de lEBL et lapproche fonde sur le plan de sondage peuvent tre concilies.

Remerciements
Les prsents travaux ont t raliss dans le cadre de la thse de matrise de Kelly C.M. Gonalves
sous la supervision de Fernando Moura et de Helio Migon, dans le programme dtudes suprieures de
lUFRG. Kelly est titulaire dune bourse dcerne par le Coordenao de Aperfeioamento de Pessoal do
Ensino Superior (CAPES). Fernando Moura et Helio Migon ont reu lappui financier du Conselho
Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPq-Brazil, BPPesq).
Les auteurs remercient le rdacteur en chef, le rdacteur associ et deux examinateurs de leurs
commentaires trs constructifs.

Bibliographie
Basu, D. (1971). An essay on the logical foundations of survey sampling, Part 1 (avec discussion). Dans
Foundations of Statistical Inference, (ds., Godambe et Sprott), 203-242. Holt, Reinhart and Wilnston,
Toronto.
Bolfarine, H., et Zacks, S. (1992). Prediction Theory for Finite Populations. New York : Springer-Verlag.
Cochran, W. (1977). Sampling Techniques. New York : John Wiley & Sons, Inc.

Statistique Canada, No 12-001-X au catalogue

31

Techniques denqute, juin 2014

Garthwaite, P., Kadane, J. et OHagan, A. (2005). Statistical methods for eliciting probability
distributions. Journal of the American Statistical Association, 100, 680-701.
Goldstein, M., et Wooff, D. (2007). Bayes Linear Statistics: Theory and Methods. Durham University,
UK : Wiley series in probability and statistics.
Goldstein, M. (1979). The variance modified linear Bayes estimator. Journal of the Royal Statistical
Society, 41, 96-100.
Hartigan, J. (1969). Linear bayesian methods. Journal of the Royal Statistical Society, Sries B
(Mthodologique), 446-454.
Horvitz, D., et Thompson, D. (1952). A generalization of sampling without replacement from a finite
universe. Journal of the American Statistical Association, 47, 663-685.
Jacobson, N. (2009). Basic Algebra, Vol 1. Dover Books on Mathematics.
Little, R.J. (2003). The Bayesian approch to sample survey inference. Dans Analysis of Survey Data,
(ds., R.L. Chambers et C.J. Skinner), chapitre 4, 49-52. New York : John Wiley & Sons Inc.
Malec, D., Sedransk, J., Moriarity, C.L. et LeClere, F.B. (1997). Small area inference for binary variables
in National Health Interview Survey. Journal of the American Statistical Association, 92, 815-826.
Moura, F., et Migon, H. (2002). Bayesian spatial models for small area estimation of proportions.
Statistical Modelling, 2, 183-201.
Nandram, B., et Choi, J. (2008). Une rpartition baysienne des lecteurs indcis. Techniques denqute,
34, 1, 41-54.
Neyman, J. (1934). On the two different aspects of the representative method: The method of stratified
sampling and the method of purposive selection. Journal of the Royal Statistical Society, 97, 558-625.
OHagan, A. (1985). Bayes linear estimators for finite populations. Rapport technique 58, Department of
Statistics - University of Warwick.
OHagan, A. (1987). Bayes linear estimators for randomized response models. Journal of the American
Statistical Association, 82, 580-585.
OHagan, A. (1998). Eliciting expert beliefs in substantial practical applications. The Statistician, 47, 2135.
Pfeffermann, D., Moura, F.A.S. et Silva, P.L.N. (2006). Multi-level modelling under informative
sampling. Biometrika, 93, 943.
Scott, A.J. (1977). Large-sample posterior distributions for finite populations. Annals of Mathematical
Statistics, 42, 1113-1117.
Skinner, C., Holt, D. et Smith, T. (1989). Analysis of complex surveys. New York : John Wiley & Sons,
Inc.
Smouse, E. (1984). A note on bayesian least squares inference for finite population models. Journal of the
American Statistical Association, 79, 390-392.
Valliant, R., Dorfman, A. et Royall, R. (2000). Finite Population Sampling and Inference: A Prediction
Approach. New York : John Wiley & Sons, Inc.
Zacks, S. (2002). In the footsteps of Basu: The predictive modelling approach to sampling from finite
population. Sankhy: The Indian Journal of Statistics, Sries A, 64, 532-544.

Statistique Canada, No 12-001-X au catalogue

E L E C T R O N I C
P U B L I C AT I O N S
AVA I L A B L E AT

P U B L I C AT I O N S
LECTRONIQUES
DISPONIBLE

w w w. s t a t c a n . g c . c a

Techniques denqute, juin 2014


Vol. 40, No 1, pp. 33-52
Statistique Canada, No 12-001-X au catalogue

33

Une mthode non paramtrique de production de


populations synthtiques qui tient compte des
caractristiques des plans de sondage complexes
Qi Dong, Michael R. Elliott et Trivellore E. Raghunathan1
Rsum
Dans la littrature nayant pas trait aux sondages, il est frquent de supposer que lchantillonnage est effectu
selon un processus alatoire simple qui produit des chantillons indpendants et identiquement distribus (IID).
De nombreuses mthodes statistiques sont labores en grande partie dans cet univers IID. Or, lapplication de
ces mthodes aux donnes provenant de sondages complexes en omettant de tenir compte des caractristiques
du plan de sondage peut donner lieu des infrences errones. Donc, beaucoup de temps et deffort ont t
consacrs llaboration de mthodes statistiques permettant danalyser les donnes denqutes complexes en
tenant compte du plan de sondage. Ce problme est particulirement important lorsquon gnre des
populations synthtiques en faisant appel linfrence baysienne en population finie, comme cela se fait
souvent dans un contexte de donnes manquantes ou de risque de divulgation, ou lorsquon combine des
donnes provenant de plusieurs enqutes. En tendant les travaux antrieurs dcrits dans la littrature sur le
bootstrap baysien en population finie, nous proposons une mthode pour produire des populations
synthtiques partir dune loi prdictive a posteriori dune faon qui inverse les caractristiques du plan de
sondage complexe et gnre des chantillons alatoires simples dans une optique de superpopulation, en
ajustant les donnes complexes afin quelles puissent tre analyses comme des chantillons alatoires simples.
Nous considrons une tude par simulation sous un plan de sondage en grappes stratifi avec probabilits
ingales de slection, et nous appliquons la mthode non paramtrique propose pour produire des populations
synthtiques pour la National Health Interview Survey (NHIS) et la Medical Expenditure Panel Survey (MEPS)
de 2006, qui sont des enqutes plan de sondage en grappes stratifi avec probabilits ingales de slection.
Mots-cls : Populations synthtiques; loi prdictive a posteriori; bootstrap baysien; chantillonnage inverse.

1 Introduction
Hors du contexte des techniques denqute, les mthodes statistiques ont habituellement t labores
sans beaucoup se soucier du plan dchantillonnage, souvent en supposant implicitement avoir affaire
des chantillons alatoires simples ou, parfois, des chantillons en grappes un degr. En statistique
denqute contemporaine, dimportants travaux ont pour objectif dtendre les mthodes lanalyse de
donnes denqutes complexes (Skinner, Holt et Smith, 1989), en tenant compte de problmes tels que la
stratification, les probabilits ingales de slection, le biais de non-rponse ou le calage. Hinkins, Oh et
Scheuren (1997) ont propos un algorithme de plan de sondage inverse qui relie la statistique denqute et
la statistique classique sous un autre angle. Leur ide fondamentale consiste choisir un sous-chantillon
qui possde inconditionnellement une structure dchantillon alatoire simple. Le sous-chantillon est
souvent nettement plus petit que lchantillon original, de sorte quils proposent de rpter le processus
indpendamment un grand nombre de fois et de prendre la moyenne des rsultats pour augmenter la
prcision. Ils dcrivent aussi des schmas dchantillonnage inverse exacts ou approximatifs pour
lchantillonnage alatoire simple stratifi, lchantillonnage en grappes un degr et lchantillonnage en
grappes deux degrs. Cependant, lapplication de cette nouvelle ide nest pas trs rpandue en pratique,
1. Qi Dong, Netflix Inc., 100, Winchester Cir, Los Gatos (CA) 95032, courriel : qidong@umich.edu; Michael R. Elliott, Department of
Biostatistics, University of Michigan, 1420, Washington Heights, Ann Arbor (MI) 48109, Survey Methodology Program, Institute for Social
Research, University of Michigan, 426, Thompson St., Ann Arbor (MI) 48106, courriel : mrelliot@umich.edu; Trivellore E. Raghunathan,
Department of Biostatistics, University of Michigan, 1420, Washington Heights, Ann Arbor (MI) 48109, Survey Methodology Program,
Institute for Social Research, University of Michigan, 426, Thompson St., Ann Arbor (MI) 48106. courriel : teraghu@umich.edu.

34

Dong et coll. : Une mthode non paramtrique de production de populations synthtiques

peut-tre parce quelle est trs gourmande en temps de calcul et que les pertes de prcision sont souvent
considrables. En outre, produire des populations synthtiques partir dune loi prdictive a posteriori de
population conditionnellement aux donnes denqutes complexes en tenant compte du plan de sondage
complexe nest pas chose simple (Little, 1991). Nanmoins, ces dernires annes, la demande de
populations synthtiques sest accrue en vue de pouvoir traiter les problmes de troncation des
pondrations ou de windsorisation (Lazzeroni et Little, 1998; Elliott et Little, 2000; Elliott, 2007; Chen,
Elliott et Little, 2010), de risque de divulgation (Little, 1993; Raghunathan, Reiter et Rubin, 2003; Reiter,
2004, 2005) ou de combinaison de donnes provenant de plusieurs enqutes (Raghunathan, Xie, Schenker,
Parsons, Davis, Dodd et Feuer, 2007; Dong, 2012). Les populations synthtiques sont souvent gnres
sous une hypothse distributionnelle (normale, binomiale, Poisson) en approximant la loi a posteriori des
paramtres du modle par la loi normale asymptotique. La moyenne et la matrice de covariance de la loi
normale sont estimes aprs avoir tenu compte des caractristiques du plan de sondage complexe
(Raghunathan et coll., 2007).
Une grande faiblesse des mthodes fondes sur un modle tient au fait que, si le modle est trs mal
spcifi, il donnera lieu des infrences invalides (Little, 2004). Dans un contexte multivari, nous devons
prendre en considration les liens qui existent entre les variables dintrt et dterminer un modle
appropri qui est ajust aux donnes, ce qui peut tre difficile si les donnes contiennent diffrents types
de variables. Dans le prsent article, nous proposons une mthode non paramtrique qui fait pendant aux
mthodes fondes sur un modle pour gnrer des populations synthtiques. Les travaux que nous
prsentons tendent le bootstrap baysien en population finie et les modles a posteriori de Plya
connexes de Lo (1988), Ghosh et Meeden (1983) et Cohen (1997) en vue de tenir compte des plans de
sondage complexes. Puisquelle atteint le mme objectif que la mthode dchantillonnage inverse, elle
peut tre traite comme la version baysienne en population finie de lchantillonnage inverse. Pour faire
des infrences en utilisant ce bootstrap baysien en population finie pondr, nous pouvons soit nous
servir directement des tirages, soit, par souci defficacit des calculs, utiliser les rsultats tablis
antrieurement dans la littrature sur le risque de divulgation et limputation multiple, puisque ces
populations produites non paramtriquement peuvent tre considres comme des imputations multiples
des lments non observs de la population.
Le plan de larticle est le suivant. la section 2, nous discutons brivement des populations
synthtiques dans le contexte de linfrence baysienne en population finie. la section 3, nous passons
en revue et rsumons la mthode du bootstrap baysien et son extension en population finie, et montrons
que, pour un chantillonnage avec probabilits ingales, la loi de probabilit des populations synthtiques
gnres sous une variante du modle de lurne de Plya concorde avec la loi prdictive a posteriori dun
bootstrap baysien en population finie. la section 4, nous prsentons la mthode propose sous
chantillonnage en grappes stratifi avec probabilits de slection ingales. la section 5, nous montrons
que linfrence partir de ces populations synthtiques gnres non paramtriquement peut tre obtenue
en utilisant les rsultats tirs de la littrature sur le risque de divulgation et limputation multiple, o
chaque population synthtique possde une variance intra-imputation nulle. la section 6, nous
dcrivons une tude par simulation ralise pour valuer la performance de la mthode non paramtrique
dans un contexte de rchantillonnage. la section 7, nous appliquons la mthode pour gnrer des
populations synthtiques qui peuvent tre utilises pour estimer les taux de couverture par une assurance
maladie en utilisant les donnes de la NHIS et de la MEPS de 2006, et nous comparons le rsultat celui

Statistique Canada, No 12-001-X au catalogue

35

Techniques denqute, juin 2014

dune approche de modlisation paramtrique (log-linaire). Enfin, nous prsentons nos conclusions la
section 8.

2 Production de populations synthtiques partir de donnes


denqute
Le concept fondamental de linfrence baysienne en population finie consiste imputer les valeurs
non chantillonnes de la population partir de la loi prdictive a posteriori base sur les donnes
observes. Supposons que les valeurs de population sont Y Y1 , , Y N et que les donnes observes,
Yobs y1 , , y n , sont obtenues dans un sondage dont les indicatrices dchantillonnage sont
I I 1 , , I N . Linfrence baysienne sur la population permet dutiliser le modle paramtrique
Pr Y pour les donnes de population bas sur la loi prdictive a posteriori pour les lments non
observs de la population Pr Ynob Yobs :

Pr Y nob Yobs Pr Y nob Yobs , Pr Yobs d


(Ericson, 1969; Little, 1993; Rubin, 1987; Scott, 1977; Skinner et coll., 1989). Ici, nous utilisons le
modle Pr Y pour approximer la distribution de la population complte Pr Y et prenons la
moyenne sur la distribution a posteriori base sur les donnes dchantillon Pr Yobs . Sil existe des
variables de plan de sondage connues pour la population entire, le modle susmentionn peut tre tendu
naturellement en conditionnant sur ces variables.
Le fait implicite dans la drivation susmentionne est que lindicatrice dchantillonnage I ne doit pas
tre modlise. Cela exige que lchantillonnage soit ignorable (Rubin, 1987) (la distribution de I ne doit
pas dpendre des donnes observes), et que le modle Pr Y utilis pour les donnes tienne compte
des caractristiques du plan de sondage et soit suffisamment robuste pour saisir comme il convient tous les
aspects pertinents de la distribution de la variable Y dintrt. Notre objectif ici est dlaborer une
mthode pour gnrer des tirages partir de Pr Y nob Yobs qui tiennent compte de toutes les
caractristiques du plan de sondage dans Y obs , de manire que les tirages partir de la loi a posteriori de
Ynob Yobs puissent tre traits comme un chantillon alatoire simple dans lanalyse.

3 Bootstrap baysien en population finie pondr


3.1 Bootstrap baysien en population finie (BBPF)
Supposons que les lments (scalaires) de population Yi , i 1, , N soient changeables et puissent
prendre K N valeurs possibles b1 , , bK ; donc, Yi ~ MULTI 1; 1 , , K . Supposons aussi
quune loi a priori conjugue de Dirichlet pour ~ DIR 1 , , K donne (Ghosh et Meeden, 1983)

Statistique Canada, No 12-001-X au catalogue

36

Dong et coll. : Une mthode non paramtrique de production de populations synthtiques

P Y nob y P b1nob N 1 n1 ,

o 0

i 1

i ,

K
i 1

p Y nob y , p y p d 1

1
0

p y p d 1

1
0

i 1
1

p y p d 1

K
i 1

N i ni
i
K

i 1

i 1

ni
i

ni
i

i 1

N i i i

K
i 1

N i N , et n1 ,

dK

dK

p Y nob p y p d 1

, b Kobs n K

, b Knob N K n K b1obs n1 ,

dK

(3.1)

dK
K
i 1

i 1
i

i i 1d 1

d 1

dK

dK

N 0 0

ni i n 0

, n K dsigne le nombre de valeurs distinctes que nous

observons partir de notre chantillon y y1 ,

, y n , i 1 n i n. Si i 0 , alors p Y nob y se
K

rduit
K

N i n i N n .
i 1

Pour faciliter la mise en uvre, Lo (1988) a propos de faire des tirages partir de la loi prdictive a
posteriori du BBPF en utilisant une procdure fonde sur le modle de lurne de Plya. Supposons
quune urne contient n boules possdant chacune comme tiquette un nombre rel distinct
bi , i 1, , K . Nous tirons un chantillon de Plya de taille m en slectionnant dabord une boule au
hasard dans lurne et en remettant la boule slectionne dans lurne, puis en plaant une boule identique
dans lurne et en rptant ce processus jusqu ce que m boules aient t slectionnes. On peut montrer
que la probabilit dobtenir m i boules de type bi est donne par

p b1 m1 ,

, bK m K

k
i 1

n i mi n i

n m n

(3.2)

o n i est le nombre de boules de type bi se trouvant au dpart dans lurne. La distribution des nombres de
boules de type bi est invariante sous nimporte quelle permutation des tirages. Notons que cela correspond
directement la probabilit a posteriori dun total de m1 , , m K lments de type b1 , , bK dans une
population, sachant que n1 , , n K lments ont t observs dans un chantillon (alatoire simple) de
taille

K
i 1

n i n. Donc, nous pouvons tirer un chantillon rplique de cette loi a posteriori de Plya en

procdant aux tapes suivantes :


tape 1. Tirer un chantillon de Plya de taille m N n, not

y1 ,

y1* ,

, y *N n partir de lurne

, y n ; en vertu de (3.2), avec mk N k n k tirages de la valeur bkobs pour k 1,


correspond un tirage de P Y nob y partir de (3.1).

Statistique Canada, No 12-001-X au catalogue

, K , cela

37

Techniques denqute, juin 2014

tape 2. Former la population BBPF y1 ,

, y n , y1* ,

, y *N n .

3.2 BBPF avec probabilits de slection ingales


Cohen (1997) a tendu la procdure du BBPF afin de faire un ajustement pour les probabilits de
slection ingales. Supposons que y1 , , y n est un chantillon tir dune population finie Y1 , , Y N
avec les poids de sondage w1 , , wn , o
wi

1
P I i 1

et I est lindicatrice dchantillonnage. La procdure comprend deux tapes :

y1* , , y *N n ,

tape 1. Tirer un chantillon de taille N n, not

y1 ,

en tirant y k* partir de

, y n de manire que y i soit slectionn avec la probabilit


wi 1 l i , k 1 * N n n
,
N n k 1 * N n n

o wi est le poids de lunit i et l i , k 1 est le nombre de slections bootstrap de y i parmi les y1* ,

, y k* 1 .

(La fonction wtpolyap du module R polypost peut tre utilise pour obtenir des tirages partir dune urne
de Plya pondre.)
tape 2. Former la population BBPF y1 ,

, y n , y1* ,

, y *N n .

Cohen (1997) na pas fourni la preuve thorique de cette procdure, mais elle peut tre obtenue comme
une extension simple de lquivalence du BBPF et de lurne de Plya classique dcrite la section 3.1.
Premirement, nous dterminons la loi a posteriori de lchantillon BBPF avec probabilits de slection
ingales quimplique la procdure BBPF pondre. La vraisemblance multinomiale fonde sur notre
chantillon pondr est donne par
p y obs

i 1

wi*
i

o
n
n
wi*

I y j bi w j 1
N n j 1

est la somme des poids de sondage moins une unit sur lensemble des lments chantillonns ayant la
valeur bi , i 1, , K , normalise pour quelle soit gale n. (Soulignons que cela limine de la
vraisemblance les sujets chantillonns dont le poids est gal un, cest--dire les lments de
l chantillon slectionn avec certitude , car ils nont aucune chance de se trouver dans la partie non
observe de la population, et donc napportent aucune information au sujet des lments non observs.) En
mettant lhypothse dune loi a priori de Dirichlet impropre p

i 1

i1 , la loi a posteriori du

bootstrap baysien en population finie pondr est donne par

Statistique Canada, No 12-001-X au catalogue

38

Dong et coll. : Une mthode non paramtrique de production de populations synthtiques

P Y nob y , w P b1nob r1 ,

p Y nob p y p d 1

0
1

puisque

r N n et

j 1 i

n
j 1

p y p d 1

i 1
1

ri
i

*
i

i 1

wi* ri

i 1

, w K*

, b Knob rK w1* ,

i 1

wi*
i

wi*
i

i 1

dK

dK

1 d 1
i 1 i

1
i

d 1

(3.3)

dK

dK

N
n

wi* n.

Ensuite, nous montrons que la distribution des chantillons obtenus partir du modle durne de Plya
sous probabilits ingales de slection de Cohen (1997) est gale la loi a posteriori de lchantillon
BBPF avec probabilits de slection ingales. Sachant les donnes observes, la probabilit de tirer
N n boules et que les premires boules r1 aient la valeur b1 , et ainsi de suite, et que les dernires, rk ,
aient la valeur bk est :

P b1 r1 ,

, b K rK

w1* w1* 1

n
n 1
K

wi* ri

i 1

*
i

w1* r1 1

n r1 1

w K*
n

k 1
i 1

ri

w K* rK 1
n

r 1

i 1 i

N
n

o la premire galit dcoule du fait que la distribution des nombres de boules de type bi est invariante
sous toute permutation des tirages, comme dans le cas non pondr, et la deuxime galit dcoule de
lidentit x x 1 x pour x 0. Donc, en notant que
wi 1 l i , k 1 * N n n
w * l i , k 1
i
,
N n k 1 * N n n n k 1

un tirage partir du modle de lurne de Plya avec probabilits de slection ingales donne un tirage
partir de P Ynob y , w dans (3.3).

4 Mthode non paramtrique de production de populations


synthtiques
la prsente section, nous tendons les mthodes du bootstrap baysien en population finie au cas
dun plan de sondage en grappes stratifi avec probabilits de slection ingales en vue dlaborer une
mthode non paramtrique de production de populations synthtiques qui comporte un ajustement pour
tenir compte des caractristiques du plan de sondage complexe. Lide est de traiter la partie non observe
de la population comme des donnes manquantes et de limputer en effectuant des tirages partir des
donnes relles. Nous faisons limputation de manire que les tirages rsultants partir de la loi

Statistique Canada, No 12-001-X au catalogue

39

Techniques denqute, juin 2014

a posteriori de la population refltent les caractristiques du plan de sondage complexe et puissent tre
utiliss de la faon classique pour calculer les lois a posteriori des quantits dintrt de la population.

4.1 Utilisation du bootstrap baysien pour lajustement pour la stratification


et la mise en grappe
Dans le cas dun chantillonnage en grappes stratifi, nous devons dabord rchantillonner les grappes
lintrieur des strates. Notons c le nombre total de grappes dans les donnes relles, c
C le nombre de grappes dans la population, C

H
h 1

h 1

c h , et

C h . Une approche consiste appliquer dabord le

modle de lurne de Plya avec le BBPF pour imputer les grappes non observes lintrieur de chaque
strate, c1* , , cC* h ch , qui, avec les grappes observes, fournissent les grappes dans la strate h de la
population. Cependant, les donnes grande diffusion disponibles ne nous permettent habituellement pas
de savoir quel est le nombre de grappes dans une strate. Donc, comme alternative au tirage dun
chantillon BBPF, nous proposons le tirage dun chantillon bootstrap baysien classique de grappes dans
chaque strate. En tenant compte de lquivalence entre le bootstrap classique et le bootstrap baysien, nous
procdons comme Rao et Wu (1988), qui ont propos de tirer un chantillon alatoire simple avec remise
(EASAR) de taille m h partir des c h grappes et, lintrieur de chaque strate h , de calculer les poids de
rchantillonnage pour chaque chantillon bootstrap comme
* l
w * l whik
, h 1,

, H , i 1,

, c h , k 1,

, N hi ,

*
whik
whik 1

mh

c h 1

mh ch

m hi*
ch 1 mh

et m hi* dsigne le nombre de fois que la grappe i , i 1, , c h est slectionne. Pour tre certain que tous
les poids de rchantillonnage soient non ngatifs, il faut que mh c h 1 ; ici et plus loin, nous
prenons mh c h 1 .
Notons quen labsence de grappes, nous tirons simplement un chantillon bootstrap baysien
classique partir des donnes chantillonnes dans chaque strate (sil existe une stratification) ou partir
de lchantillon complet (en labsence de stratification, de sorte que H 1 ) et nous calculons les poids de
*
rchantillonnage comme tant whik
whik mhi* .
Nous rptons cette procdure L fois pour produire L chantillons bootstrap baysiens (BB) nots
S1 , , S L . Cette tape gnre L chantillons bootstrap baysiens qui sont essentiellement L tirages
partir de la loi prdictive a posteriori des grappes non observes sachant les donnes relles. Cependant,
les units formant les L chantillons bootstrap baysiens possdent encore des poids et ne peuvent tre
analyses comme sil sagissait dchantillons alatoires simples.

4.2 Utilisation du modle de lurne de Plya avec le BBPF pondr pour faire
un ajustement pour la pondration
Une fois que nous avons obtenu L chantillons BB avec les poids de rchantillonnage, la deuxime
tape consiste imputer les units non observes en utilisant le modle de lurne de Plya avec le BBPF

Statistique Canada, No 12-001-X au catalogue

40

Dong et coll. : Une mthode non paramtrique de production de populations synthtiques

pondr. En pratique, la probabilit de slection de la k e unit, y k* , dpend de la slection des k 1


premires units, y1* , , y k* 1 . Autrement dit, pour dterminer la probabilit de slection dune nouvelle
unit, nous devons compter le nombre de fois que chaque unit prsente dans lchantillon a t
slectionne parmi les slections antrieures. Si la taille de la population est trs grande, il nous suffit de
gnrer des populations synthtiques de taille T * n, o T est suffisamment grand pour dominer la taille
dchantillon (p. ex. 20-100). Pour accrotre encore davantage lefficacit des calculs, nous pourrions aussi
tirer F 1 fois une population de taille modre, puis regrouper ces F populations pour produire une
population synthtique, S l . La taille de S l est alors F * T * n.
Notons que, sous notre mthode, il ne faut connatre que les poids finaux dans les chantillons en
grappes plusieurs degrs, puisque tous les degrs dchantillonnage avec probabilits de slection
ingales sont corrigs par lutilisation du modle de lurne de Plya avec le BBPF pondr. Cette
caractristique de la mthode propose est particulirement utile, car dans de nombreux jeux de donnes
grande diffusion, les composantes des probabilits de slection (p. ex. probabilits de slection au niveau
de la grappe, poids de non-rponse) ne sont pas disponibles.

5 Infrence partir de multiples populations synthtiques non


paramtriques
Supposons que nous produisons L populations synthtiques, S l , l 1, , L en utilisant la mthode
non paramtrique dcrite la section 4, et que notre cible dinfrence est Q Q Y , une fonction des
donnes de population (p. ex. moyenne de population, corrlation, estimateur du maximum de
vraisemblance de population dun paramtre de rgression). Nous pouvons calculer Q l comme tant
lestimation de Q obtenue en regroupant les F populations synthtiques utilises pour imputer les units
non observes de S l ; puisquil sagit de tirages directs partir de la loi prdictive a posteriori de la
population, nous pouvons calculer les moyennes, les quantiles et les intervalles de crdibilit a posteriori
daprs les estimations empiriques correspondantes partir des tirages, si L est suffisamment grand.
Cependant, dans de nombreuses situations, le temps de calcul ncessaire pour imputer la population
peut tre trs important, mme sil ne faut pas synthtiser la population complte. Do, une autre
approche de linfrence consiste utiliser la loi t comme approximation de la distribution prdictive
a posteriori dune statistique de population scalaire Q :
Q S1 ,

, S L ~ t L 1 Q L , 1 L1 V L

QL

L
l 1

Ql

l 1

f 1

LF

Q lf

et V L

1 L
2
Ql Q L .
L l 1

Le rsultat dcoule directement de la section 4.1 dans Raghunathan et coll. 2003, et est fond sur les rgles
de combinaison classiques pour limputation multiple de Rubin (1987), en traitant les units non observes
de S l comme des donnes manquantes et les units chantillonnes, comme des donnes observes. La
variance intra-imputation moyenne est nulle, puisque la population est entirement synthtise; do,

Statistique Canada, No 12-001-X au catalogue

41

Techniques denqute, juin 2014

la variance a posteriori de Q est entirement une fonction de la variance inter-imputations, et le nombre


de degrs de libert est simplement donn par le nombre dchantillons BBPF. (Lorsque la population est
trs grande, il nous suffit de synthtiser un tirage assez grand pour que la variance intra-imputation
moyenne soit ngligeable comparativement la variance inter-imputations V L . ) Le rsultat suppose que
E Qlf Q , ce que notre estimateur BBPF pondr garantit, et que la taille de lchantillon est

suffisamment grande pour permettre dappliquer la thorie asymptotique baysienne.

6 tudes par simulation


la prsente section, nous dcrivons deux tudes par simulation ralises pour valuer les proprits
de rchantillonnage des estimateurs de population construits en utilisant la mthode non paramtrique qui
produit des populations synthtiques en effectuant un ajustement pour tenir compte des caractristiques du
plan de sondage complexe. La premire simulation porte sur un plan de sondage un degr avec
probabilits de slection ingales dans lequel nous faisons varier le nombre de tirages BBPF pondrs
pour chaque population synthtique, ainsi que le nombre de populations synthtiques pour valuer leffet
sur linfrence. La deuxime simulation a pour objectif de comparer les proprits infrentielles partir
des donnes observes et partir de la loi a posteriori obtenue daprs la population synthtique sous un
plan de sondage stratifi plusieurs degrs avec probabilits de slection ingales, cette fois-ci en fixant la
taille de lchantillon a posteriori, tout en considrant la moyenne de population ainsi que les paramtres
de rgression de population comme les cibles des infrences.

6.1 Plan de sondage un degr avec probabilits de slection ingales


Nous avons gnr les donnes pour la variable de rsultat Y dans une population de N sujets
provenant dune loi Gamma modrment asymtrique, conditionnellement la covariable X qui suit une
loi uniforme :

X i ~ UNI 0, 05; 0, 65 , i 1,

,N

Yi X i x i ~ GAMMA 10 * x i ,1
Nous supposons que X est entirement observ pour la population, et que la probabilit de slection
est proportionnelle X , de sorte que i
nx i i x i dans un plan de sondage sans remise condition
que n N . La quantit estimer est la moyenne de population Y N 1 i 1 y i 3,564. Notons que
N

corr Yi , X i 0,6794, de sorte que les moyennes dchantillon non pondres prsentent un biais positif,
et que lutilisation des poids de sondage wi 1 i est ncessaire pour obtenir des estimations sans biais

de Y . Nous gnrons une population de taille N 1 000 partir de laquelle nous tirons n 100
chantillons; nous estimons ensuite le biais, la variance empirique et la variance estime, la longueur de
lintervalle de confiance 95 % et la couverture au niveau de confiance nominal de 95 % au moyen de
200 chantillons indpendants tirs de la population. Nous faisons varier le nombre total de populations
simules L qui prend les valeurs de 5, 20, 100 et 1 000, ainsi que le nombre F de tirages BBPF de taille
N n (de manire que K 9 ) qui prend les valeurs de 1, 20 et 100, dans un plan factoriel complet.
Nous obtenons la variance, la longueur de lintervalle et la couverture de lintervalle au moyen de
lapproximation normale; pour L 100 et 1 000, nous obtenons galement la variance, la longueur de

Statistique Canada, No 12-001-X au catalogue

42

Dong et coll. : Une mthode non paramtrique de production de populations synthtiques

lintervalle et la couverture de lintervalle en utilisant les tirages directs partir de la loi prdictive
a posteriori, puisque nous disposons dun nombre suffisant de tirages partir de cette loi pour produire ces
estimations.
Le tableau 6.1 donne les rsultats de ltude par simulation. Dans tous les cas, lestimation ponctuelle
Q L de la moyenne de population est approximativement sans biais, ce qui tmoigne de la capacit du
BBPF pondr dfaire les poids de sondage pour produire la population synthtique. Sous
lapproximation normale, laugmentation du nombre de populations synthtiques est associe de plus
petites variances et des intervalles plus troits, comme il fallait sy attendre sous un plus grand nombre de
degrs de libert, quoique la diffrence entre les rsultats obtenus pour 20 et 100 populations soit minime,
juste quand la loi t 20 commence sapprocher dune loi normale standard. Enfin, lutilisation dun seul
tirage BBPF de taille N n semble donner lieu une surestimation de la variance et un
surdnombrement, surtout pour les petites valeurs de L . Les valeurs de L et de F gales ou suprieures
20 semblent donner des rsultats raisonnables. Lutilisation des tirages directs pour L 100 et 1 000
produit des estimations de variance et dintervalle de crdibilit qui sont fort semblables celles donnes
par lapproximation normale, les longueurs dintervalle tant toutefois lgrement plus courtes et les
couvertures un peu moins conservatrices.
Tableau 6.1
Biais, variance empirique, moyenne de la variance estime, longueur de lintervalle et couverture de
lintervalle de confiance au niveau nominal de 95 % dune moyenne de population en fonction du nombre de
populations synthtiques L et du nombre de tirages par bootstrap baysien en population finie pondr qui
constituent la population synthtique F . Longueur et couverture de lintervalle obtenues par
approximation par la loi t et empiriquement par simulation directe. Plan de sondage un degr avec
probabilits de slection ingales. Rsultats pour 200 simulations.
L

Biais

20

20
100

20

100
100

20

1 000
100

20

100

-0,020 0,009 -0,026 0,021 -0,030 0,010 -0,031 0,024 -0,028 -0,045 -0,070 0,079

Variance emp.

0,126 0,099 0,106 0,088 0,092 0,120 0,093 0,079 0,085 0,084 0,093 0,078

Variance est. : t

0,172 0,119 0,105 0,156 0,098 0,099 0,109 0,097 0,095 0,147 0,104 0,094

Longueur de lintervalle : t

2,20

1,78

1,71

1,63

1,30

1,32

1,52

1,21

1,20

1,50

1,26

1,20

97

95

96

99

94

92

98

96

95

98

96

98

Couverture IC 95 % : t
Variance est. : Empirique

0,138 0,095 0,084 0,148 0,093 0,094 0,108 0,096 0,094 0,084 0,093 0,078

Longueur de lintervalle : Empirique

s.o.

s.o.

s.o.

s.o.

s.o.

s.o.

1,50

1,19

1,18

1,49

1,25

1,19

Couverture IC 95 % : Empirique

s.o.

s.o.

s.o.

s.o.

s.o.

s.o.

96

93

94

98

96

97

6.2 Plan de sondage stratifi plusieurs degrs avec probabilits de slection


ingales
Nous avons gnr une population comprenant des strates et des grappes dans chaque strate partir de
la loi normale bivarie suivante :
X 1ijk
500 4, 5* i u ij
X ~ N 500 4, 5* i u ,
ij
2 ijk

Statistique Canada, No 12-001-X au catalogue

100 50
50 100 ,

43

Techniques denqute, juin 2014

o
i 1 / 150 dsigne leffet de strate;

u ij ~ N 0,10 dsigne leffet de grappe alatoire;

a i ~ uniforme 2, 52 dsigne le nombre de grappes dans la strate i ;


bij ~ uniforme 10, 20 dsigne le nombre dunits dans la grappe j de la strate i .

La population utilise pour ltude par simulation compte 61 324 sujets. Nous tirons un chantillon en
grappes stratifi avec probabilits de slection ingales. Plus prcisment, nous slectionnons deux
grappes dans chaque strate avec probabilits proportionnelles la taille de grappe (PPT) donnes par

bi

ai

j 1

bij . Dans chaque grappe slectionne, nous slectionnons environ un cinquime (1 5) de la

population. Donc, la probabilit que lunit ij soit slectionne est donne par

ij

bij 5

j 1 bij bij
2bi
ai

pour tout lment j dans la grappe i avec les poids correspondants

bij j i1 bij
a

wij

2bi bij 5

Puisque les nombres de grappes et dunits sont alatoires, la taille de lchantillon complexe diffre
lgrement dune rplique lautre, la moyenne tant approximativement de 770.
Comme lchantillon et la population sont de grande taille, nous nous concentrons sur linfrence en
utilisant les approximations t . Nous gnrons L 100 populations synthtiques en utilisant F
chantillons BBPF pondrs de taille K 100n. Les quantits estimer sont la moyenne marginale de
population pour x 1
N

X 1 N 1 X 1i
i 1

et celle pour x 2 , obtenue de manire similaire, ainsi que les coefficients de rgression de x 1 sur x 2 ,
donns par

B0 X 1 B1 X 2 , B1

N
i 1

X 1i X 1 X 2 i X 2
2
i 1 X 2i X 2
N

Nous avons tir 200 chantillons indpendants de la population et utilis les donnes dchantillon pour
calculer directement les moyennes et les coefficients de rgression linaire pour lchantillon pondr,
ainsi que les estimations correspondantes des variances et des intervalles de confiance au niveau nominal
de 95 % en utilisant des approximations par dveloppement en srie de Taylor, et les avons compares aux
estimations quivalentes obtenues en utilisant les donnes synthtiques non paramtriques. Les rsultats
sont prsents au tableau 6.2. (Puisque les moyennes marginales ont la mme valeur de superpopulation,
nous combinons les rsultats dans le tableau 6.2.) La figure 6.1 donne le diagramme de dispersion des
paires de moyennes, dordonnes lorigine et de pentes estimes daprs les chantillons rels et les

Statistique Canada, No 12-001-X au catalogue

44

Dong et coll. : Une mthode non paramtrique de production de populations synthtiques

populations synthtiques correspondantes, ainsi quune droite 45 degrs. Les distributions


dchantillonnage des estimations daprs les chantillons rels et les populations synthtiques sont trs
proches. Les estimations ponctuelles et les erreurs-types des moyennes ainsi que des paramtres de
rgression sont trs proches. Les taux de couverture des intervalles de confiance 95 % sont trs proches
pour les trois statistiques, et sont proches des valeurs nominales.
Tableau 6.2
Statistiques descriptives et analytiques estimes daprs les donnes relles et les populations synthtiques
dans une valuation par simulation de la mthode non paramtrique. Plan de sondage deux degrs stratifi
avec probabilits de slection ingales. Rsultats daprs 200 simulations.
Type

Donnes relles
e.-t.
.-T.

Estimation
Moyenne X
Ordonne
lorigine B 0
Pente B1

Estimation

Populations synthtiques
e.-t.
.-T.
Couverture
(%)
0,476
0,493
94

836,701

0,461

0,491

Couverture
(%)
93

1,013

1,768

1,848

94

1,014

1,775

1,846

92

0,999

0,002

0,002

92

0,999

0,002

0,002

92

836,793

Ordonne lorigine

835,5

837,0

838,5

Estimations sur chantillon rel

4
2
-2

Estimations synthtiques

837,5
835,5

Estimations synthtiques

Moyenne

-2

Estimations sur chantillon rel

1,000
0,994

Estimations synthtiques

Pente

0,994

0,998

1,002

Estimations sur chantillon rel

Figure 6.1 Diagramme de dispersion des statistiques descriptives et analytiques pour les populations relles et
synthtiques

Statistique Canada, No 12-001-X au catalogue

45

Techniques denqute, juin 2014

7 Application
la prsente section, nous utilisons des donnes tires de la National Health Interview Survey (NHIS)
de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006 pour valuer la performance de la
mthode non paramtrique sous un plan de sondage en grappes stratifi. La National Health Interview
Survey (NHIS) est une enqute sur la sant de porte nationale, ralise par interview en personne selon
un plan stratifi plusieurs degrs avec surchantillonnage des populations noires, hispaniques et ges.
Pour des raisons de confidentialit, la stratification et les variables au niveau de lunit dchantillonnage
(UPE) relles ne sont pas communiques dans les fichiers de donnes grande diffusion; elles sont
remplaces par des pseudo-strates et UPE (deux par strate). La MEPS est ralise auprs dun souschantillon de lchantillon de la NHIS de lanne prcdente, selon le mme plan stratifi plusieurs
degrs.
Tant dans la NHIS que dans la MEPS, on demande aux participants lenqute sils sont couverts par
une assurance maladie et, dans laffirmative, quel rgime dassurance maladie ils utilisent (priv par
opposition public tel que Medicare ou Medicaid). Nous estimons les taux globaux de couverture par une
assurance maladie, ainsi que les taux de couverture dans des sous-populations dfinies en fonction de
variables dmographiques telles que le sexe, la race, le niveau de revenu ou des combinaisons de ces
variables; en particulier, nous estimons la couverture par une assurance maladie des hommes, des Blancs
non hispaniques et des Blancs non hispaniques dont le revenu du mnage est compris entre 25 000 $ et
35 000 $ par anne. Nous supprimons les cas pour lesquels les valeurs manquent pour certaines questions
et nous axons notre simulation sur les cas complets. Nous obtenons ainsi 20 147 et 20 893 cas pour les
donnes de la NHIS et de la MEPS, respectivement.

7.1 Estimation de la couverture par une assurance maladie daprs la NHIS et


la MEPS
Dans la prsente tude par simulation, nous utilisons la mthode non paramtrique pour apporter un
ajustement pour tenir compte de lchantillonnage en grappes stratifi utilis dans la NHIS et la MEPS de
2006, et pour produire des populations synthtiques qui peuvent tre analyses comme des chantillons
alatoires simples. Nous considrons galement une approche fonde sur un modle pour produire des
populations synthtiques en utilisant un modle log-linaire pour la situation de couverture par une
assurance maladie en fonction de six variables dmographiques indpendantes : sexe, race, rgion de
recensement, niveau de scolarit, ge (catgorique) et revenu du mnage (catgorique). Ensuite, nous
valuons la mthode en comparant les estimations du taux de couverture par une assurance maladie pour
lensemble de la population et pour les sous-domaines choisis pour les populations synthtiques obtenues
par la mthode non paramtrique et par celle du modle log-linaire celles obtenues au moyen des
donnes relles.

7.1.1 Production de populations synthtiques non paramtriques


En utilisant la mthode non paramtrique labore la section 3, nous produisons 200 populations
synthtiques pour chaque enqute. Plus prcisment, nous gnrons B 200 chantillons BB et, pour
chacun de ces chantillons, nous gnrons F 10 chantillons BBPF de taille 5n K 5 . Donc, chaque

Statistique Canada, No 12-001-X au catalogue

46

Dong et coll. : Une mthode non paramtrique de production de populations synthtiques

population synthtique est 50 fois plus grande que lchantillon rel (1 007 350 pour la NHIS, 1 044 650
pour la MEPS). Chaque population synthtique est analyse comme un chantillon alatoire simple et les
estimations sont combines comme il est dcrit la section 5.

7.1.2 Production de populations synthtiques au moyen de modles log-linaires


Dans la situation frquente o les donnes denqute dintrt prennent la forme dun tableau de
contingence multidimensionnel, un modle log-linaire pourrait tre considr comme une approche
paramtrique pour gnrer des tirages partir dune loi prdictive a posteriori. Pour simplifier lexpos,
supposons que Y est la variable dintrt comprenant m niveaux, et que Z est une variable de plan
comprenant n niveaux (p. ex. sexe ou race) dont la loi de probabilit marginale est connue pour la
population. Supposons que ij , i 1, , m, j 1, , n, reprsente la proportion dans la ij e cellule,

i 1

j 1

ij 1. Un modle log-linaire entirement satur est donn par (Agresti, 2002) :


log ij 0 iZ Yj ijZY , i 1,

, m, j 1,

, n,

o log ij est le logarithme de la probabilit quune observation se trouve dans la cellule ij du tableau
de contingence, iZ est leffet principal pour Z , Yj est leffet principal pour Y et ijZY est leffet
dinteraction pour Z et Y . Ce modle comprend tous les effets unidimensionnels et bidimensionnels
possibles, et est donc satur, car il contient le mme nombre deffets que de cellules dans le tableau de
contingence. Pour viter de surajuster les donnes dans lexemple, nous pouvons considrer des modles
non saturs dont sont exclus certains termes dinteraction, voire tous, en choisissant le modle en nous
basant sur des tests de rapport de vraisemblance, ou sur le critre AIC ou BIC.
Les populations synthtiques peuvent tre gnres partir de la distribution prdictive a posteriori
issue du modle. Toutefois, si les donnes sont recueillies selon un plan de sondage complexe, nous ne
connaissons aucun logiciel statistique standard capable de produire la fois lestimation ponctuelle et
lestimation de covariance des coefficients de rgression. Nous avons donc choisi dutiliser une mthode
de rchantillonnage jackknife pour tenir compte de la stratification, de la mise en grappe et de la
pondration. Plus prcisment, les populations synthtiques paramtriques peuvent tre gnres selon les
tapes suivantes :
1. Estimer les coefficients et la matrice de covariance :
Sous le modle choisi (suppos tre le modle satur bidimensionnel ici, simplement pour
lillustration), estimer les coefficients 0 , iZ , Yj , ijZY , i 1, , m 1, j 1, , n 1 et la
matrice de covariance des estimations

0 , iZ , Yj , ijZY

aprs avoir tenu compte des

caractristiques du plan complexe en utilisant la mthode des rpliques quilibres jackknife (REJ) :

Pour chaque rplique, retirer une grappe et augmenter les poids de sondage des units des autres
grappes lintrieur de la mme strate dun facteur c h c h 1 (poids de rchantillonnage), o
c h dsigne le nombre de grappes dans la strate h. En supposant que nous avons un total de

Statistique Canada, No 12-001-X au catalogue

47

Techniques denqute, juin 2014

H
h 1

c h C grappes, nous avons alors C rpliques. Pour chaque rplique, nous ajustons le

modle log-linaire et obtenons les estimations du maximum de vraisemblance (EMV) des


coefficients 0 , iZ , Yj , ijZY , i 1, , m 1, j 1, , n 1.

Pour chaque rplique, utiliser les poids de rchantillonnage pour ajuster le modle log-linaire.
Plus prcisment, utiliser les poids de rchantillonnage pour calculer la taille de chaque cellule
du tableau de contingence, qui est utilis pour ajuster le modle log-linaire. Nous notons lEMV
pour la r e rplique comme un vecteur colonne, r , r 1, , c h pour la strate h. Soulignons
que 0 , iZ , Yj , ijZY , i 1,

, m 1,

j 1,

, n 1 est un vecteur colonne de

dimension mn par 1. Nous le notons 0 , iZ , Yj , ijZY 0 , 1 ,


r , r 1,

, c h , h 1,

, H sont aussi des vecteurs colonnes de dimensions mn par 1 que


r
, mn
.

nous notons 0r , 1r ,

LEMV des coefficients 0 , iZ , Yj , ijZY , i 1,


comme EMV

ch

h 1

r 1

, m 1, j 1,

c h 1 ch r
p p
c h r 1
h 1

ch


h 1 r 1

r
p

, n 1 peut tre obtenu

r C . Pour la matrice de covariance de dimensions mn par mn ,

lestimation par rchantillonnage jackknife du pq e p, q 1,


p e et q e coefficients, qui est donne par :

o p

, mn . De mme,

C et q

ch


h 1 r 1

r
q

r
q

, mn lment est la covariance entre les

q ,

C . Cela nous donne lestimation de variance correcte de EMV .

2. Obtenir une approximation de la loi a posteriori des coefficients :


Soit T la dcomposition de Cholesky telle que TT t cov EMV . Gnrer un vecteur z de variables
alatoires normales standardises et dfinir * EMV Tz.
3. Imputer les valeurs non observes de la population :
Supposons que lon procde L tirages, 1 ,

, L , partir de la loi a posteriori approximative de

. Pour chaque

l 1,

, L, l 0l , iX l , Yj l , ijXY l , i 1,

, m 1, j 1,

, n 1,

nous pouvons gnrer un tableau synthtique en utilisant le modle suppos :


log ijl 0l iX l Yj l ijXY l , i 1,

, m 1, j 1,

, n 1.

Statistique Canada, No 12-001-X au catalogue

48

Dong et coll. : Une mthode non paramtrique de production de populations synthtiques

Une fois que les proportions sont dtermines pour chaque cellule, nous pouvons gnrer un tableau
synthtique de nimporte quelle taille.
Les rsultats qui suivent sont fonds sur un tableau de contingence sept dimensions (voir le
tableau 7.1 pour les catgories particulires de covariables). Les mesures du BIC indiquent quun modle
contenant toutes les interactions bidimensionnelles mais ne contenant aucune interaction tridimensionnelle
est celui qui donne lajustement le plus parcimonieux.
Tableau 7.1
Variables et catgories de rponse de la NHIS et de la MEPS de 2006 utilises dans le modle log-linaire
Variables dintrt

Catgories de rponse

ge
Rgion de recensement
Scolarit

1 : [18; 24]; 2 : [25; 34]; 3 : [35; 44]; 4 : [45; 54]; 5 : [55; 64]; 6 : >= 65
1 : Nord-Est; 2 : Mid-Ouest; 3 : Sud; 4 : Ouest
1 : tudes secondaires partielles; 2 : Diplme dtudes secondaires; 3 : tudes collgiales partielles;
4 : Diplme dtudes collgiales
1 : Masculin; 2 : Fminin
1 : Nimporte quel rgime priv; 2 : Rgime public; 3 : Non assur

Sexe
Couverture par une
assurance maladie
Revenu
Race

1 : (0; 10 000); 2 : [10 000; 15 000); 3 : [15 000; 20 000); 4 : [20 000; 25 000); 5 : [25 000; 35 000);
6 : [35 000; 75 000); 7 : >= 75 000
1 : Hispanique; 2 : Blanche non hispanique; 3 : Noire non hispanique; 4 : Tous les autres groupes
non hispaniques confondus

7.2 Rsultats
Les rsultats sont rsums au tableau 7.2. Pour la population totale et les sous-populations les plus
grandes, nous voyons que les estimations ponctuelles (moyenne a posteriori) des taux de couverture par
une assurance mdicale sont les mmes sous les approches non paramtrique et log-linaire, et quelles
sont presque identiques celles obtenues au moyen des donnes relles aprs avoir tenu compte des
caractristiques du plan de sondage complexe. Les deux mthodes donnent des populations synthtiques
dont les variances (a posteriori) sont lgrement plus leves que dans le cas des donnes relles, ce qui
reflte la perte dinformation dans la synthse. Dans le cas de la NHIS, la perte pour lestimateur non
paramtrique est gale, en moyenne, un peu plus de 20 % et est lgrement suprieure celle observe
pour le modle log-linaire, pour lequel la perte est, en moyenne, de lordre de 10 %. Dans le cas de la
MEPS, les estimateurs affichent tous deux une perte denviron 10 % par rapport aux donnes relles.
Cependant, pour les sous-populations plus petites (Blancs non hispaniques gagnant de 25 000 $ 35 000 $
par anne), le modle log-linaire produit des rsultats biaiss, dus au fait que le modle log-linaire ne
contient pas toutes les interactions possibles. La mthode non paramtrique produit des estimations
presque identiques celles obtenues au moyen des donnes relles aprs avoir tenu compte des
caractristiques du plan de sondage complexe. Le modle log-linaire donne galement lieu une sousestimation importante, de lordre de 30 % 40 %, de la variance de la couverture par une assurance
mdicale pour ces sous-populations, par opposition une surestimation de lordre de 10 % 40 % dans le
cas de lapproche non paramtrique.

Statistique Canada, No 12-001-X au catalogue

49

Techniques denqute, juin 2014

Tableau 7.2
Estimations daprs les donnes relles et daprs les populations synthtiques (modles non paramtrique et
log-linaire) pour la NHIS et la MEPS de 2006
Donnes relles (plan complexe)
Domaine
Population complte

Hommes

Race blanche non


hispanique

Race blanche non


hispanique et revenu
[25 000 $; 35 000 $)

Type

NHIS

MEPS

Rgime priv
Rgime public
Non assur

0,746
0,075
0,179

0,735
0,133
0,132

Rgime priv
Rgime public
Non assur

2,46E-05
6,29E-06
1,84E-05

2,78E-05
1,44E-05
1,41E-05

Rgime priv
Rgime public
Non assur

0,740
0,060
0,200

0,735
0,101
0,164

Rgime priv
Rgime public
Non assur

3,32E-05
6,82E-06
2,94E-05

3,87E-05
1,53E-05
2,64E-05

Rgime priv
Rgime public
Non assur

0,805
0,062
0,134

0,788
0,116
0,096

Rgime priv
Rgime public
Non assur

2,99E-05
8,20E-06
2,02E-05

3,35E-05
1,81E-05
1,51E-05

Rgime priv
Rgime public
Non assur

0,827
0,039
0,134

0,813
0,079
0,108

Rgime priv
Rgime public
Non assur

1,00E-04
2,82E-05
7,24E-05

1,39E-04
6,31E-05
8,92E-05

Populations synthtiques
Non paramtrique
Modle log-linaire
NHIS
MEPS
NHIS
MEPS
Proportion
0,746
0,736
0,746
0,734
0,075
0,132
0,076
0,133
0,179
0,132
0,178
0,132
Variance
3,15E-05
3,31E-05
2,66E-05 2,86E-05
8,06E-06
1,59E-05
7,99E-06 1,77E-05
2,29E-05
1,71E-05
1,81E-05 1,56E-05
Proportion
0,740
0,736
0,740
0,735
0,060
0,100
0,060
0,102
0,200
0,164
0,200
0,164
Variance
3,93E-05
4,31E-05
3,70E-05 3,52E-05
8,81E-06
1,63E-05
7,91E-06 1,91E-05
3,29E-05
2,79E-05
3,19E-05 2,56E-05
Proportion
0,804
0,788
0,804
0,788
0,062
0,116
0,062
0,117
0,134
0,096
0,134
0,096
Variance
3,79E-05
4,12E-05
3,07E-05 3,98E-05
1,04E-05
2,00E-05
1,10E-05 2,45E-05
2,35E-05
1,80E-05
1,82E-05 1,82E-05
Proportion
0,827
0,814
0,840
0,838
0,039
0,079
0,037
0,067
0,134
0,107
0,122
0,096
Variance
1,48E-04
1,63E-04
6,80E-05 8,59E-05
3,86E-05
7,28E-05
1,79E-05 4,25E-05
9,55E-05
1,11E-04
4,38E-05 5,79E-05

8 Discussion
Dans le prsent article, nous proposons et valuons une mthode non paramtrique pour produire des
populations synthtiques. Cette mthode permet de tenir compte des caractristiques du plan de sondage
complexe sans utiliser de modles hypothtiques pour les donnes observes, de sorte quelle est robuste
aux erreurs de spcifications du modle. En outre, contrairement aux mthodes fondes sur un modle qui
ncessitent llaboration de modles dimputation distincts pour les diverses variables dintrt, la
mthode non paramtrique nutilise que les variables de plan de sondage pour gnrer les populations
synthtiques et nest donc pas particulire une variable.
Nous avons considr les proprits de rchantillonnage de nos estimateurs synthtiques non
paramtriques sous une loi Gamma univarie et sous une loi normale bivarie, en estimant les moyennes,
les pentes et les ordonnes lorigine. Les estimations ponctuelles taient sans biais, les intervalles avaient
une couverture correspondant approximativement au niveau nominal et les pertes defficacit
comparativement aux donnes relles taient ngligeables. Nous avons galement considr des

Statistique Canada, No 12-001-X au catalogue

50

Dong et coll. : Une mthode non paramtrique de production de populations synthtiques

conditions relles en gnrant une loi prdictive pour les donnes de la NHIS et de la MEPS de 2006
et en estimant les taux de couverture par une assurance mdicale et les variances associes par la mthode
non paramtrique ainsi que par une approche de modlisation log-linaire entirement paramtrique.
Lorsque les modles sont bien ajusts aux donnes, la mthode fonde sur un modle est plus efficace que
la mthode non paramtrique. Cependant, lorsque le modle hypothtique nest pas bien ajust aux
donnes, comme cela est le cas pour certains petits domaines, la mthode fonde sur un modle peut
produire des infrences non valides. Dans ces situations, la mthode non paramtrique est robuste
lerreur de spcification du modle.
Outre la robustesse lerreur de spcification du modle, un autre avantage de la mthode non
paramtrique tient au fait quelle nutilise que les variables de plan de sondage, comme la strate, la grappe
et le poids, pour imputer la partie non observe de la population. Contrairement aux mthodes fondes sur
un modle, elle ne requiert donc pas la modlisation de relations compliques entre les variables dintrt,
laquelle devient impossible si des valeurs manquent pour certains items dans les donnes relles. La
mthode non paramtrique prserve ces valeurs ditem manquantes dans les populations synthtiques
produites. Cette proprit pourrait combler une lacune dans le domaine de limputation multiple en ce sens
que les mthodes existantes consistent habituellement imputer les valeurs manquantes dans les donnes
comme si ces dernires avaient t obtenues par chantillonnage alatoire simple, sans tenir compte des
caractristiques du plan de sondage complexe. Un avantage apparent est que, mme si les populations
synthtiques sont produites non paramtriquement en se servant des variables de plan, il nest pas
ncessaire quelles contiennent elles-mmes ces variables, puisquelles peuvent tre analyses comme des
chantillons alatoires simples. Cela permet donc dliminer le risque de divulgation associ la diffusion
des variables du plan de sondage (De Waal et Willenborg, 1997; Mitra et Reiter, 2006; Reiter et
Mitra, 2009).
Un quatrime avantage pratique de la mthode non paramtrique est quelle est plus facile mettre en
uvre dans les progiciels statistiques existants, parce quelle est axe sur les variables du plan de sondage;
de ce fait, il nest pas ncessaire dlaborer des stratgies particulires pour les divers types de variables et
de structures de donnes.
Comme lapplication du bootstrap baysien en population finie (BBPF) pondr ne requiert pas que
lon connaisse le nombre de grappes dans la population ni les probabilits conditionnelles de slection
chaque degr de slection dans le cas dun chantillonnage plusieurs degrs, nous utilisons un bootstrap
baysien approximatif pour tenir compte de la stratification et de la mise en grappes. Selon nous, cette
approche est avantageuse de nombreux gards, puisquhabituellement, les ensembles de donnes
grande diffusion ne contiennent pas la ventilation des poids pour chaque degr dchantillonnage.
Toutefois, linconvnient est que, afin de sassurer que les poids de rchantillonnage soient positifs, le
bootstrap baysien produit moins de grappes dans les strates quil ny en a dans les donnes relles. Quand
les probabilits de slection sont connues pour tous les degrs dchantillonnage, il semble probable que le
BBPF pondr puisse tre mis en uvre chaque degr, en imputant la population de grappes non
observes et la population dlments dans chaque grappe en deux tapes, lexemple de Meeden (1999),
tout comme le BBPF un degr sinspire de Ghosh et Meeden (1983). Il sagit dun domaine dans lequel
la recherche doit se poursuivre.

Statistique Canada, No 12-001-X au catalogue

51

Techniques denqute, juin 2014

Remerciements
La prsente tude a t finance par la subvention R01CA129101 du NCI. Les auteurs remercient le
rdacteur, le rdacteur associ et deux examinateurs anonymes de leurs commentaires. Nous sommes tout
particulirement redevables lexaminateur qui nous a aids mieux comprendre et expliquer les liens
entre le bootstrap baysien en population finie et la loi a posteriori de Plya exposs la section 3.

Bibliographie
Agresti, A. (2002). Categorical Data Analysis, New York: John Wiley & Sons, Inc.
Chen, Q., Elliott, M.R. et Little, R.J.A. (2010). Bayesian penalized spline model-based inference for finite
population proportion in unequal probability sampling. Survey Methodology, 36, 1, 25-37.
Cohen, M.P. (1997). The Bayesian bootstrap and multiple imputation for unequal probability sample
designs. Proceedings of the Survey Research Methods Section, American Statistical Association, 635638.
de Waal, A.G., et Willenborg, L.C.R.J. (1997). Statistical disclosure control and sampling weights.
Journal of Official Statistics, 13, 417-434.
Dong, Q. (2012). Combining Information from Multiple Complex Surveys. Unpublished Thesis.
Elliott, M.R. (2007). Bayesian weight trimming for generalized linear regression models. Survey
Methodology, 33, 1, 27-40.
Elliott, M.R., et Little, R.J.A. (2000). Model-based approaches to weight trimming. Journal of Official
Statistics, 16, 191-210.
Ericson, W.A. (1969). Subjective Bayesian modeling in sampling finite populations. Journal of the Royal
Statistical Society, B31, 195-234.
Ghosh, M., et Meeden, G. (1983). Estimation of the variance in finite population sampling. Sankhy: The
Indian Journal of Statistics, B45, 362-375.
Hinkins, S., Oh, H.L. et Scheuren, F. (1997). Inverse sampling design algorithms. Survey Methodology,
23, 1, 13-24.
Lazzeroni, L.C., et Little, R.J.A. (1998). Random effects models for smoothing poststratification weights.
Journal of Official Statistics, 14, 61-78.
Little, R.J.A. (1991). Inference with survey weights. Journal of Official Statistics, 7, 405-424.
Little, R.J.A. (1993). Statistical analysis of masked data. Journal of Official Statistics, 9, 407-426.
Little, R.J.A. (2004). To model or not to model? Competing modes of inference for finite population
sampling. Journal of the American Statistical Association, 99, 546-556.

Statistique Canada, No 12-001-X au catalogue

52

Dong et coll. : Une mthode non paramtrique de production de populations synthtiques

Lo, A.Y. (1988). A Bayesian bootstrap for a finite population. Annals of Statistics, 16, 1684-1695.
Meeden, G. (1999). A noninformative Bayesian approach for two-stage cluster sampling. Sankhy: The
Indian Journal of Statistics, B61, 133-144.
Mitra, R., et Reiter J.P. (2006). Adjusting survey weights when altering identifying design variables via
synthetic data. Privacy in statistical databases: Lecture Notes in Computer Science, 4302, 177-188.
Raghunathan, T.E., Reiter, J.P. et Rubin, D.B. (2003). Multiple imputation for statistical disclosure
limitation. Journal of Official Statistics, 19, 1-16.
Raghunathan, T.E., Xie, D.W., Schenker, N., Parsons, V.L., Davis, W.W., Dodd, K.W. et Feuer, D.J.
(2007). Combining information from two surveys to estimate county-level prevalence rates of cancer
risk factors and screening, Journal of the American Statistical Association,102, 474-486
Rao, J.N.K., et Wu, C.F.J. (1988). Resampling inference with complex survey data. Journal of the
American Statistical Association, 83, 231-241.
Reiter, J.P. (2004). Simultaneous use of multiple imputation for missing data and disclosure limitation.
Survey Methodology, 30, 2, 235-242.
Reiter, J.P. (2005). Releasing multiply imputed, synthetic public use microdata: An illustration and
empirical study. Journal of the Royal Statistical Society, A168, 185-205.
Reiter, J.P., et Mitra, R. (2009). Estimating risks of identification disclosure in partially synthetic data.
Journal of Privacy and Confidentiality, 1, 1, Article 6.
Rubin, D.B (1987). Multiple Imputation for Non-Response in Surveys, New York: John Wiley & Sons,
Inc.
Scott, A.J. (1977). Large sample posterior distributions in finite populations. The Annals of Mathematical
Statistics, 42, 1113-1117.
Skinner, C., Holt, D. et Smith, T. (1989). Analysis of Complex Surveys, New York: John Wiley & Sons,
Inc.

Statistique Canada, No 12-001-X au catalogue

Techniques denqute, juin 2014


Vol. 40, No 1, pp. 53-67
Statistique Canada, No 12-001-X au catalogue

53

Application de la mthode des rpliques des diffrences


successives pour estimer les variances
Stephen Ash1
Rsum
Fay et Train (1995) prsentent une mthode quils nomment successive difference replication, c.--d. rpliques
des diffrences successives, qui peut tre utilise pour estimer la variance dun total estim au moyen dun
chantillon alatoire systmatique tir dune liste ordonne. Lestimateur prend la forme gnrale dun
estimateur de variance par rchantillonnage, o les facteurs de rchantillonnage sont construits de manire
imiter lestimateur par diffrences successives. Cet estimateur est une modification de celui prsent dans
Wolter (1985). Le prsent article tend la mthodologie en expliquant leffet de lattribution des lignes de
matrice sur lestimateur de variance, en montrant comment un jeu rduit de rpliques mne un estimateur
raisonnable et en tablissant les conditions pour que la mthode des rpliques des diffrences successives soit
quivalente lestimateur par diffrences successives.
Mots-cls :

Diffrences successives; rpliques des diffrences successives; chantillonnage alatoire systmatique.

1 Introduction
Fay et Train (1995) prsentent une mthode quils nomment successive difference replication (SDR),
c.--d. rpliques des diffrences successives, qui peut tre utilise pour estimer la variance dun total
estim au moyen dun chantillon alatoire systmatique tir dune liste ordonne. Lestimateur prend la
forme gnrale de lestimateur de variance par rchantillonnage, o les facteurs de rchantillonnage sont
construits de manire imiter lestimateur par diffrences successives (SD).
Larticle dcrit ltablissement et lutilisation de nouveaux concepts en vue de mieux comprendre la
mthodologie propose au dpart par Fay et Train (1995), ci-aprs appels F et T. Ces nouveaux concepts
aident expliquer leffet de lattribution des lignes de matrice sur lestimateur de variance, montrer
comment un jeu rduit de rpliques mne un estimateur raisonnable, et tablir les conditions pour que
la mthode des rpliques des diffrences successives soit quivalente lestimateur par diffrences
successives. Nous esprons quen tant mieux comprise, la SDR semblera moins mystrieuse et sera donc
plus facile utiliser par toute personne qui souhaite estimer les variances dans le cas dun chantillonnage
alatoire systmatique.
Larticle dbute par un examen de lestimateur SD et de la faon dont il convient lestimation de la
variance des chantillons alatoires systmatiques. La partie principale est consacre lintroduction de
deux thormes qui fournissent les conditions pour que lestimateur SDR soit quivalent lestimateur
SD. Larticle se termine par la prsentation dexemples empiriques en vue dexaminer leffet de diffrents
schmas daffectation des lignes de matrice et de montrer quil est appropri dutiliser un ensemble rduit
de rpliques.

1. Stephen Ash, U.S. Census Bureau, 4600 Silver Hill Road, Washington DC 20233. Courriel : stephen.eliot.ash@census.gov.

54

Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances

Dans la suite de lexpos, labrviation sys sera utilise pour dsigner lchantillonnage alatoire
systmatique partir dune liste ordonne. Nous utilisons labrviation sys parce que lon peut montrer
que lchantillonnage systmatique partir dune liste non ordonne ou dune liste ordonne alatoirement
est quivalent lchantillonnage alatoire simple (Madow et Madow 1944). Pour les besoins de notre
discussion, nous nous concentrons uniquement sur la slection quiprobabiliste et sur les mthodes de
slection dun chantillon dans une seule dimension. Le lecteur trouvera dexcellents rsums de
lchantillonnage sys et de lestimation des variances sous sys dans Iachan (1982), Wolter (1985,
chapitre 7), Murthy et Rao (1988), et Bellhouse (1988).

1.1 Revue de la mthode des diffrences successives


Wolter (1984; estimateur 2) donne un estimateur par diffrences successives de la variance dune
moyenne estime y sous un plan de sondage sys de la forme

v SD1 y 1 f

n
1
y k y k 1 2 ,

2n n 1 k 2

o y k est la variable dintrt, k indice les units de lchantillon ordonn, et f n / N est la fraction
dchantillonnage. La statistique dintrt est Y ou le total de y k sur lunivers dintrt, et Y est un
estimateur de Y . Soit N et n la taille de lunivers et de lchantillon, respectivement. La moyenne de y k
et son estimateur sont dfinis comme tant y Y N et y , respectivement. Nous dfinissons aussi
lestimateur du total Y comme tant Y

n
k 1

y k , o la variable dintrt pondre par des poids gaux

est y k N n y k ; pour des poids de sondage ingaux w k , elle est dfinie comme tant y k wk y k .
Lestimateur v SD1 y a t dcrit par Yates (1953; pages 229 231) et recommand par Wolter (1984).
Murthy et Rao (1988, quation 32) donnent un aperu des raisons pour lesquelles lestimateur fonctionne.
La version abrge est que, puisque sous chantillonnage sys une seule unit est slectionne dans
chaque strate implicite, la solution de lestimateur SD consiste fusionner les strates implicites adjacentes.
Avec deux units, nous pouvons estimer la variance dune strate implicite. Aprs fusion des strates
implicites, la moyenne est calcule sur toutes les paires possibles, puis multiplie par n , le nombre de
strates implicites, pour donner la variance de toutes les strates implicites.
F et T donnent un estimateur de variance SD dun total sous chantillonnage sys de la forme

v SD1 Y 1 f

n
n
y k y k 1 2 .

2 n 1 k 2

Wolter (1985, quation 7.7.4) dfinit le mme estimateur o wk np k

et p k est la probabilit de

slection avec remise de lunit k . F et T dfinissent un deuxime estimateur SD

v SD2 Y

1
n

1 f y k y k 1 2 y n y1 2 ,
2
k 2

qui est circulaire en ce sens quil inclut une diffrence au carr supplmentaire qui relie les premire et
dernire units de la liste trie.

Statistique Canada, No 12-001-X au catalogue

55

Techniques denqute, juin 2014

Nous exprimons lestimateur SD2 de manire plus gnrale sous une forme quadratique y C y , o
y y1 y 2 y n est dfini comme le vecteur dobservations pondres de dimension n 1 et C est une
matrice carre dont tous les lments de la diagonale principale valent 2, tous les lments de la diagonale
suprieure et de la diagonale infrieure valent -1, et llment infrieur gauche et llment suprieur droit
valent -1. Ici, les diagonales suprieures sont dfinies comme tant les diagonales adjacentes la
diagonale principale, except dans le cas dune matrice de dimensions 2 2 .

2 Rpliques des diffrences successives


2.1 Dfinition de la mthode des rpliques des diffrences successives
F et T prsentent une mthode quils nomment successive difference replication (SDR), c.--d.
rpliques des diffrences successives, qui permet destimer la variance sous chantillonnage sys en
imitant v SD2 Y , ce qui signifie que lestimateur SDR est quivalent ou quasi quivalent v SD2 Y .
Nous montrons comment la mthode SDR peut tre applique pour produire les facteurs et les poids de
rchantillonnage pour un estimateur de variance par rchantillonnage gnral qui est quivalent
lestimateur SD2. Avant de dfinir lestimateur SDR dans le premier thorme, nous tablissons certains
termes et fournissons un lemme qui est utilis dans le thorme.
Un schma dattribution de lignes, ou plus simplement schma AL, correspond lattribution de deux
lignes dune matrice chaque unit de lchantillon. Nous dsignons habituellement la paire de lignes par
a i , bi pour lunit i. Une boucle connecte est un schma AL qui ne rpte aucune des lignes, c.--d.
a i a j et bi b j pour tous i et j dans la boucle connecte, et qui est circulaire, c.--d. bi a i 1
pour tout i n et bn a1 . Un exemple de boucle connecte pour trois observations est (1,2), (2,3),
(3,1).
Une matrice de dcalage S peut tre utilise pour dplacer les lignes ou les colonnes dune matrice.
Nous expliquons le processus de dplacement des lignes, qui est similaire au processus de dplacement
des colonnes. Une matrice de dcalage est une matrice carre dont tous les lments valent 0, lexception
dune valeur 1 unique dans chaque colonne. Si nous voulons dplacer la ligne p jusqu la ligne q, nous
plaons une valeur 1 dans la q e ligne de la p e colonne et des 0 ailleurs. Nous insistons sur le fait que
lordre est important lorsquon applique une matrice de dcalage une autre matrice. Lapplication de S
une autre matrice carre A sous la forme AS dplace les colonnes de A , mais sous la forme SA, elle
dplace les lignes de A.
Lemme : Soit S1 , S 2 ,

, S c les matrices de dcalage, alors bloc S1S1 , S2S 2 ,

, SC S C I.

Preuve. Nous commenons par dfinir une matrice diagonale par blocs gnrale A qui est forme par les
matrices carres A 1 , A 2 , , A C comme

A bloc A 1 , A 2 ,

A 1
0
, AC

0
A2
0

... A C
...
...

Statistique Canada, No 12-001-X au catalogue

56

Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances

On peut montrer que, si A et B sont toutes deux des matrices diagonales par blocs et que les matrices
carres A 1 , A 2 , , A C ont les mmes dimensions que B1 , B 2 , , B C , respectivement, alors
AB bloc A 1B1 , A 2 B 2 , , A C B C . Pour une matrice de dcalage donne, nous savons aussi que
SS I, puisque le dcalage dune ligne vers le bas dune matrice de dcalage est I. Le lemme dcoule
des deux lments qui prcdent.
Nous dfinissons aussi une matrice de dcalage dune ligne comme tant une matrice de dcalage qui
dcale toutes les lignes dune autre matrice dune ligne vers le bas et transfre la dernire ligne la
premire ligne, ou qui dcale toutes les lignes dune autre matrice dune ligne vers le haut et transfre la
premire ligne la dernire ligne. Si S D est une matrice de dcalage dune ligne qui dplace les lignes
vers le bas, tous les lments de la diagonale suprieure et llment infrieur gauche de la matrice ont une
valeur de 1, par exemple S 1 . De mme, si S U est une matrice de dcalage dune ligne qui dplace les
lignes vers le haut, tous les lments de la diagonal infrieure et llment suprieur droit de la matrice ont
une valeur de 1, par exemple la matrice S 2 subsquemment dfinie. Notons la proprit que S D SU et
SU SD ; donc, SU SU S D SD . Nous prsentons maintenant le thorme principal de larticle
qui tablit les conditions sous lesquelles lestimateur SDR est quivalent lestimateur SD2.
Thorme 1 : Soit n la taille dun chantillon sys donn et y y1 y 2 y n , le vecteur dobservations
pondres de dimension n 1 , o lordre des observations reflte lordre de tirage de lchantillon sys.
(a)

Choisir une matrice de Hadamard dordre k HH k I , o n k .

(b)

Choisir un schma dattribution de lignes (AL) qui assigne deux lignes a i , bi chaque unit
i de lchantillon. Poser que le schma AL dfinit C boucles connectes c contenant
chacune m c units.

(c)

Choisir les m n lignes de H correspondant au schma AL pour crer la matrice M de


dimensions m k . Lordre des lignes de M doit correspondre la premire ligne du
schma AL. Par exemple, la premire ligne de M doit tre la ligne a i 1 de H, la deuxime
ligne doit tre la ligne a i 2 de H, etc. Ensuite, dfinir la matrice de dcalage de dimensions
m m comme tant S bloc S1 , S 2 , , S C , o les matrices de dcalage dune ligne S c
de dimensions m c m c sont dfinies en vue didentifier la position de la deuxime ligne bi
du schma AL dans M. En gnral, chaque matrice de dcalage S c sera une matrice de
dcalage vers le haut, une matrice de dcalage vers le bas ou une matrice de dcalage de
dimensions 2 2 (voir la matrice S 4 subsquemment dfinie).

Dfinir lestimateur du total r pour chaque rplique comme Yr

n
i 1

f i , r y i , o la matrice des

facteurs de rchantillonnage est F 1 m1k 2 3 2 I m 2 3 2 S M et les valeurs individuelles dans la


matrice sont dfinies pour chaque unit i (lignes de F ) de la rplique r (colonnes de F ) comme tant
f i , r 1 2 3 2 hai , r 2 3 2 hbi , r . I m est une matrice identit de dimensions m m et 1 m est un vecteur
2
m
de dimension m 1 de 1. Alors, lestimateur de variance SDR vSDR Y 1 f 4 k r 1 Yr Y

est quivalent la somme des C diffrents estimateurs SD2.

Statistique Canada, No 12-001-X au catalogue

57

Techniques denqute, juin 2014

Preuve. Lestimateur SDR peut scrire en notation matricielle sous la forme

1 f

4
y 1 m1k 2 3 2 I m 2 3 2 S M y 1 m1k y 1 m1k 2 3 2 I m 2 3 2 S M y 1 m1k
k
1 f

4 3 2 2
2 y I m S MM I m S y
k

Comme lignes de M lignes de H , on peut montrer que MM k I. Partant de ce rsultat, la


variance devient

1 f

1
1
y I m S kI m I m S y 1 f y I m S I m S y
2k
2

1
1 f y 2I m S S y
2

La dernire ligne dcoule du lemme et a une valeur constante pour tout choix de H. En notant la structure
diagonale par blocs de S, nous pouvons crire lestimateur sous la forme
C
1
1 f y c 2I m S c Sc y c ,
2
c 1

o y c correspond au vecteur des observations pondres dans la boucle connecte c, qui est un rsultat
de la partition du vecteur dobservations pondres pour donner y y c 1 y c 2 y c C . Le choix du
schma AL ne modifie pas le rsultat, puisque nous savons que 2I m S c Sc est constant pour une
matrice de dcalage dune ligne vers le haut ou vers le bas S c .
Note 1 : Le thorme 1 dfinit lestimateur SDR en fonctions des facteurs de rchantillonnage, mais nous
pouvons aussi lexprimer en fonction des poids de rchantillonnage sous la forme
4
k

1 f y W 1 m1k W 1 m1k y.
Ici, W est la matrice de dimensions m k des poids de rchantillonnage dfinie comme tant
W w * F, o w w1 , w2 , , wn est le vecteur de poids de sondage pour les n units de
lchantillon et loprateur * multiplie les lments du vecteur w par chacune des colonnes de F, c.--d.
que, si Wi , r et wi sont des entres de W et w, respectivement, les entres de W sont dfinies comme
tant Wi , r wi f i , r .
Note 2 : Huang et Bell (2009) dfinissent similairement lestimateur SDR sous une forme quadratique et
lutilisent pour tablir certaines proprits gnrales de lestimateur quand y k est i.i.d. , 2 . Nous
souhaitons interprter la faon dont lestimateur SDR fonctionne et la qualit de son fonctionnement.
Dfinir la forme quadratique avec des matrices de dcalage et des boucles connectes permet de mieux
comprendre les attributions de lignes et lefficacit de lestimateur.

Statistique Canada, No 12-001-X au catalogue

58

Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances

Pour un chantillon de grande taille, il nest habituellement pas pratique dutiliser une matrice H o
n k . Le deuxime thorme offre un moyen dutiliser H en prenant k n pour produire une plus
grande matrice de Hadamard H o k n qui rsultera en un estimateur SDR quivalent lestimateur
SD2. Le deuxime thorme toffe et clarifie aussi les instructions donnes par F et T pour le cas o
n k . Dans leurs instructions, F et T utilisent le mot cycle pour dsigner chaque tranche de m d k
units de lchantillon. Le thorme 2 nimpose pas de contraintes sur le schma AL, mais suit part cela
les conditions tablies par F et T.
Thorme 2 : Soit n la taille dun chantillon sys donn.
(a)

Choisir une matrice de Hadamard H A dordre k A , o n k A .

(b)

Choisir un schma AL qui assigne les lignes de H A lchantillon. En gardant lordre


original, rpartir les n units de lchantillon en D cycles. Chaque cycle d comprend
md k A units. Dans chaque cycle, le schma AL dfinit une ou plusieurs boucles
connectes.

(c)

Choisir une matrice de Hadamard semi-normale H B dordre k B et lutiliser pour dfinir une
plus grande matrice de Hadamard H dordre k gnre partir de la matrice H A originale.
Cela peut se faire en appliquant une construction de Welsch H A , c.--d. H H B H A .

(d)

Choisir les m

D
d 1

m d lignes de H qui correspondent au schma AL pour crer la

matrice M de dimensions m k . Lordre des lignes de M doit correspondre la premire


ligne du schma AL. Ensuite, dfinir la matrice de dcalage de dimensions m m comme
tant S bloc S1 , S 2 , , S D o les matrices S d de dimensions md md identifient la
position de la deuxime ligne bi du schma AL dans M.
Dans ces conditions, lestimateur SDR est dfini comme

v SDR Y 1 f

4 k
2
Yr Y

k r 1

et est quivalent la somme dau moins D estimateurs SD2.


Preuve. Le rsultat dcoule de lapplication du thorme 1. La valeur particulire de D dcoule du fait
que chacun des D cycles peut possder une ou plusieurs boucles connectes, de manire avoir un total
dau moins D boucles connectes.
Exemple 1 : Soit n 14 et choisissons la matrice de Hadamard non normale H A H 4 b dordre
k A 4. Le nombre de cycles est D 4 et le schma AL dans chaque cycle est donn dans la deuxime
colonne du tableau 2.1 pour chaque unit. Dfinissons H dordre k 16 en utilisant une construction de
Welsh de la matrice de Hadamard normale originale comme il suit

Statistique Canada, No 12-001-X au catalogue

59

Techniques denqute, juin 2014

H 16 H 4 a H 4 b

H 4 b
H
4b
H 4 b
H
4b

H 4b
H 4b
H 4b
H 4b

H 4b
H 4b
H 4b
H 4b

H 4b
H 4b

H 4b
H 4 b

o
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
et H 4 b
.

1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1

H 4a

En utilisant H 16 , nous pouvons calculer les facteurs de rchantillonnage pour 16 rpliques comme au
tableau 2.1. En notation matricielle, M englobe toutes les lignes de H H16 sauf les lignes 13 et 16. Les
lignes de M sont ordonnes par a i , la premire ligne assigne dans le schma AL. La matrice de
dcalage est dfinie comme S bloc S1 , S 2 , S 3 , S 4 , o les matrices de dcalage correspondant
chaque cycle sont

0
0
S1
0
1

1
0
0
0

0
1
0
0

0
0 1

1 0
0
S2
1
0 0

0 0
0

Tableau 2.1
Matrice des facteurs de rchantillonnage
Unit
#
1
2
3
4
5
6
7
8
9
10
11
12
13
14

AL
H A H 4b
(1,2)
(2,3)
(3,4)
(4,1)
(1,3)
(3,1)
(2,4)
(4,2)
(1,4)
(4,3)
(3,2)
(2,1)
(2,3)
(3,2)

fi,r

0
0
0
1

0
0 0

1 0
0
, S3
1
0 1

0 0
0

0
0
0
1

1
0
0 1
, S4

.
0
1 0
0

pour lexemple 1

AL
Rplique
2
3
4
5
6
7
8
9 10
H H 16 Cycle 1
(1,2)
1,7 1,0 1,7 1,0 1,7 1,0 1,7 1,0 1,7 1,0
(2,3)
1
0,3 1,0 1,0 1,7 0,3 1,0 1,0 1,7 0,3 1,0
(3,4)
1,0 0,3 1,0 0,3 1,0 0,3 1,0 0,3 1,0 0,3
(4,1)
1,0 1,7 0,3 1,0 1,0 1,7 0,3 1,0 1,0 1,7
(5,7)
1,0 1,0 1,7 1,7 1,0 1,0 0,3 0,3 1,0 1,0
(7,5)
2
1,0 1,0 0,3 0,3 1,0 1,0 1,7 1,7 1,0 1,0
(6,8)
0,3 0,3 1,0 1,0 1,7 1,7 1,0 1,0 0,3 0,3
(8,6)
1,7 1,7 1,0 1,0 0,3 0,3 1,0 1,0 1,7 1,7
(9,12)
1,0 0,3 1,7 1,0 1,0 0,3 1,7 1,0 1,0 1,7
(12,11)
3
1,0 1,7 1,0 1,7 1,0 1,7 1,0 1,7 1,0 0,3
(11,10)
1,7 1,0 1,0 0,3 1,7 1,0 1,0 0,3 0,3 1,0
(10,9)
0,3 1,0 0,3 1,0 0,3 1,0 0,3 1,0 1,7 1,0
(14,15)
4
0,3 1,0 1,0 1,7 1,7 1,0 1,0 0,3 1,7 1,0
(15,14)
1,7 1,0 1,0 0,3 0,3 1,0 1,0 1,7 0,3 1,0

11

12

13

14

15

16

1,7
1,0
1,0
0,3
1,7
0,3
1,0
1,0
0,3
1,0
1,0
1,7
1,0
1,0

1,0
1,7
0,3
1,0
1,7
0,3
1,0
1,0
1,0
0,3
1,7
1,0
0,3
1,7

1,7
0,3
1,0
1,0
1,0
1,0
1,7
0,3
1,0
1,0
0,3
1,7
0,3
1,7

1,0
1,0
0,3
1,7
1,0
1,0
1,7
0,3
1,7
0,3
1,0
1,0
1,0
1,0

1,7
1,0
1,0
0,3
0,3
1,7
1,0
1,0
0,3
1,0
1,0
1,7
1,0
1,0

1,0
1,7
0,3
1,0
0,3
1,7
1,0
1,0
1,0
0,3
1,7
1,0
1,7
0,3

Statistique Canada, No 12-001-X au catalogue

60

Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances

tant donn les facteurs de rchantillonnage du tableau 2.1, lestimateur SDR est quivalent la
somme de cinq estimateurs SD2 diffrents, un pour chaque boucle connecte du schma AL, c.--d.

4 k
2
1 f Yr Y
k r 1

2
2
2
y i y i 1 y 4 y 1 2 y 6 y 5

i 2

12

1
2
2
2
1 f 2 y 8 y 7 y i y i 1 y 12 y 9 .
2
i 10

2 y y 2

13
13

(2.1)

Il convient de souligner quelques lments concernant lexemple 1. Premirement, le nombre de rpliques


ncessaires est suprieur la taille de lchantillon. Cela se produit lorsque m d nest pas constant dans
tous les cycles. Le quatrime cycle ne comprend que deux units dchantillon, mais nous avons d
utiliser quatre rpliques de chaque H 4b parce quau moins un des cycles utilisait quatre lignes.
Pour rendre lexemple plus intressant, nous avons choisi une matrice de Hadamard non normale H 4b
pour H A . Cette matrice de Hadamard non normale a t construite en partant de la matrice de Hadamard
normale H 4 a et en inversant la procdure dcrite par Hedayat et Wallis (1978) pour trouver une matrice
de Hadamard normale. Ici nous avons simplement chang le signe de tous les lments de la deuxime
ligne, puis nous avons chang le signe de tous les lments de la deuxime colonne.
Si nous avions utilis la matrice de Hadamard normale H 4 a pour H A ainsi que H B , les facteurs de
rchantillonnage pour les rpliques 1, 5, 9 et 13 auraient tous t gaux 1,0. Nous disons quune
rplique est morte quand chaque lment reoit une valeur de 1,0 et que lestimation base sur la
rplique est donc gale lestimation originale. Dans lestimateur SDR, les rpliques mortes sont tout
fait valables et dues simplement la faon dont les facteurs de rchantillonnage sont rpartis par la
matrice de Hadamard. En cas de rplique morte, de nombreuses valeurs 1,0 se trouvent dans celle-ci, et la
composition des autres rpliques est plus mlange, avec des valeurs de 1,7 et de 0,3. Cependant, toutes
les rpliques, mme les rpliques mortes, sont ncessaires pour lestimation.
La valeur relle du thorme 2 tient au fait quil permet de comprendre la prescription originale de
F et T pour lestimateur SDR quand n k . Dans F et T, le schma AL est appliqu de manire rpte
aux m k 1 lignes de H A (en sautant la premire ligne de H A ), o H A est choisie comme une
matrice de Hadamard normale. Les rpliques sont ensuite formes en utilisant les k A colonnes de H A . Si
nous appliquons le cadre plus vaste du thorme 2, nous dirions quils ont utilis implicitement une
matrice normale H B , qui donne H H B H A et ninclut que les k A premires rpliques dans
lestimateur de variance. Puisquun sous-ensemble des rpliques ncessaires pour que lestimateur SDR
soit quivalent lestimateur SD2 est utilis, nous disons que lestimateur rsultant est une approximation
de lestimateur SD2.
Exemple 1 (suite) : Si nous utilisons seulement les quatre premires rpliques du tableau 2.1, lestimateur
SDR sera quivalent (2.1) plus le terme de reste R qui est dfini comme

Statistique Canada, No 12-001-X au catalogue

61

Techniques denqute, juin 2014

y 1 y 2 y 8 y 7 y 1 y 2 y 11 y 12 y 1 y 2 y 13 y 14
y y y y y y y y y y y y
8
7
11
12
8
7
14
13
11
12
14
13

y 4 y 3 y 8 y 7 y 4 y 3 y10 y 9 y 8 y 7 y10 y 9
R

y 1 y 4 y 5 y 6 y 1 y 4 y 9 y 12 y 5 y 6 y 9 y 12

y 2 y 3 y 5 y 6 y 2 y 3 y10 y11 y 2 y 3 y13 y14

y 5 y 6 y 10 y 11 y 5 y 6 y 13 y 14 y 10 y 11 y 13 y 14
Notons que R comprend le mme nombre de termes positifs et ngatifs, qui ne sannulent pas exactement,
mais qui font que la valeur de R est habituellement proche de zro. De mme, utiliser les rpliques 1
q k A , o q 1, 2, , k B , donne un reste R comprenant un nombre gal de termes positifs et de termes
ngatifs. Ce nest quen utilisant toutes les rpliques de H que le terme de reste R est nul.
Exemple 2 : La taille de lchantillon mensuel de la Current Population Survey (CPS) est de
n 72 000 mnages par mois (U.S. Census Bureau 2006). La CPS est ralise selon un plan de sondage
deux degrs comprenant la slection dun chantillon de premier degr form dunits primaires
dchantillonnage (UPE), qui sont habituellement des comts ou des groupes de comts, puis le tirage de
lchantillon de deuxime degr de mnages partir de lchantillon dUPE. Certaines UPE, gnralement
les rgions mtropolitaines, sont slectionnes avec certitude, c.--d. que leur probabilit de slection au
premier degr est 1,0. Dans le cas des UPE slectionnes avec certitude, lchantillon sys peut tre trait
comme le plan de sondage de premier degr dans lestimation de la variance, c.--d. que la mthode SDR
est applique pour produire les rpliques. Dans le cas des UPE slectionnes sans certitude, la mthode
des rpliques quilibres rptes (BRR pour Balanced Repeated Replication) [McCarthy 1966] est
applique pour produire les rpliques. Environ 75 % de lchantillon ou 54 000 units sont comprises dans
les UPE autoreprsentatives, auxquelles est applique la mthode SDR.
Lapplication de la mthode SDR la CPS comprend lutilisation dune matrice de Hadamard dordre
k 160 dont sont exclues deux lignes, c.--d. que m 158. Les poids de rchantillonnage sont produits
pour 160 rpliques. Mme sil peut sembler quil sagit dune conclusion logique du prsent article, nous
ne suggrons pas que lon utilise pour la CPS une matrice de Hadamard dordre k 54 000 ni que lon
produise 54 000 jeux de poids de rchantillonnage. Cela donnerait en effet un nombre irraisonnable de
rpliques. Nous sommes plutt davis que le sous-ensemble de 160 rpliques utilis pour la CPS est grand
et fournit par consquent une approximation raisonnable de lestimateur SD2. Plus loin, dans les exemples
empiriques, nous examinons leffet de lutilisation dun jeu rduit de rpliques.

2.2 Attribution de lignes quand n k


Jusquici, nous avons suppos quun schma AL tait donn et nous navons pas discut de la faon de
gnrer ce schma pour un chantillon particulier, o n k . la prsente section, nous examinons deux
schmas AL et formulons certains commentaires au sujet de lattribution de lignes en gnral. Le premier
schma AL est similaire celui dcrit par Sukasih et Jang (2003) et est destin tre utilis quand k n
et avec le thorme 2.

Statistique Canada, No 12-001-X au catalogue

62

Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances

AL1 : Ce schma AL attribue une paire de lignes a i et bi chaque tranche de m d units de lchantillon,
que nous appelons cycle d , o m d k . Aprs m d 1 cycles, le schma AL est rpt jusqu ce quune
paire de lignes ait t attribue chacune des units de lchantillon.
tape 1 : Trier lchantillon dans lordre dans lequel il tait tri avant la slection de lchantillon.
tape 2 : Initialiser le numro du cycle par d 1 et le nombre de boucles connectes par c 1.
tape 3 : Commencer lAL au dbut dun cycle ou dune boucle connecte en prenant a1 c.
tape 4 : Rpter le schma AL suivant : bi mod a i d , k et a i bi jusqu ce que chacune des
m d lignes du cycle ait t utilise ou que lAL devienne une boucle connecte. Ici, la fonction modulo ou
mod a, b est dfinie comme tant le reste de la division de a par b. Si les m d lignes du cycle ont
toutes t utilises, commencer un nouveau cycle : poser que d d 1 et retourner ltape 3. Sinon
(fin dune boucle connecte, mais non la fin dun cycle), commencer une nouvelle boucle connecte :
poser que c c 1 et retourner ltape 3.
tape 5 : la fin de d md 1 cycles, recommencer au premier cycle retourner ltape 2.
Le schma AL1 possde les caractristiques suivantes :
-

Chacun des cycles d 1, 2, , md 1 de lAL attribue m d paires de lignes. Cela cre un


total de md md 1 paires de lignes.

Le schma dAL se rpte aprs m d 1 cycles. F et T suggrent de redmarrer lAL aprs


10 cycles. Nous recommandons dutiliser chacun des m d 1 cycles avant de redmarrer
lAL.

Les valeurs de a i et bi sont toujours espaces de c units.

Au milieu de la squence, le schma se rpte en ordre inverse. Si m est un nombre pair, les
cycles avant et aprs le md 1 2 e cycle se rptent en ordre inverse.

Le schma AL1 diffre de du schma AL de Sukasih et Jang (2003), en ce sens que nous ne suggrons pas
de sauter la ligne 1 ni de rpter le schma AL aprs 10 cycles et nous nexigeons pas que k 1 soit un
nombre premier. Premirement, une ligne dont tous les lments valent 1 peut paratre trange, mais cela
ne pose pas de problme. Comme dans le cas dune colonne dont tous les lments valent 1 dans M , ce
qui donne une rplique morte, une ligne ne contenant que des 1 naura deffet que sur la distribution des
facteurs de rchantillonnage. Une unit i laquelle a t attribue la ligne 1 (soit a i 1 ou bi 1 )
possdera un plus grand nombre de facteurs de rchantillonnage valant 1,0 quautrement. Cela nest pas
incorrect; il sagit simplement de la faon dont les facteurs de rchantillonnage sont distribus par H A .
La deuxime diffrence est que nous suggrons de rpter lattribution aprs m cycles, cest--dire au
moment o le schma se rpte, plutt quaprs un nombre fix de 10 cycles. Enfin, nous nexigeons pas
que k 1 soit un nombre premier, mais notons que si md k 1 et que k 1 est un nombre premier, il
est garanti que chaque cycle ne possdera quune seule boucle connecte.
Nous fournissons un deuxime schma AL plus facile mettre en uvre, appel AL2, que nous
comparons au schma AL1 dans les exemples empiriques.

Statistique Canada, No 12-001-X au catalogue

63

Techniques denqute, juin 2014

AL2 : Pas de mlange des attributions de lignes. Rpter la mme AL simple toutes les m d units, c.--d.
1, 2 , 2, 3 , , md ,1 .

3 Exemples empiriques
Les exemples empiriques servent examiner les questions suivantes :
Q1. Dans quelle mesure lestimateur SDR donne-t-il de bons rsultats quand on se sert dun sousensemble de toutes les rpliques ncessaires pour que lestimateur SDR soit quivalent
lestimateur SD?
Q2. Quel schma dattribution de lignes est le meilleur, AL1 ou AL2?
Q3. Devrions-nous utiliser un plus grand nombre ou un moins grand nombre de boucles
connectes?
Pour rpondre ces questions, nous avons appliqu lestimateur de variance SDR plusieurs populations.
Pour chaque population, nous avons slectionn un chantillon sys de taille n 64. Le tableau 3.1 dcrit
les trois estimateurs SDR tudis.
Tableau 3.1
Estimateurs SDR pour les exemples empiriques
Estimateur
1
2
3

kA
4
16
64

HA
H 4a
H 4a H 4a
H 4a H 4a H 4a

kB
16
4
1

HB
H 4a H 4a
H 4a
1

Sous cette construction, les estimateurs SDR comprenaient k B 1, 4 ou 16 cycles, mais tous utilisaient la
mme matrice H H 4 a H 4 a H 4 a , qui est la matrice de Hadamard normale dordre k 64. Pour
les trois estimateurs du tableau 3.1, nous avons galement fait varier le schma dattribution de lignes
(AL1 ou AL2), ainsi que le nombre de rpliques utilises par chaque estimateur, soit 16, 32, 48 ou 64.
Tant avec AL1 quavec AL2, il nexiste quune seule boucle connecte par cycle, de sorte que le nombre
de boucles connectes que possdaient les estimateurs 1, 2 et 3 tait k B 16, 4 et 1 , respectivement. En
annexe, les rsultats pour les estimateurs SDR sont rsums au tableau A1, tandis que le tableau A2 donne
les rsultats pour les estimateurs de variance SD1, SD2 et eassr appliqus aux fins de comparaison.
Jeux de donnes utiliss. Les populations A sont empruntes lexemple empirique de Wolter
(1984). Pour les populations A1 A7, nous avons gnr 400 populations finies de taille N 64 000.
Pour chaque population, il existait b 100 chantillons possibles de taille n 64. Les chantillons sont
dsigns par lindice i 1, 2, , b 100 et, dans chaque chantillon, les units sont dsignes par
lindice j 1, 2, , n 64. Le tableau 3.2 rsume comment la variable dintrt ij est gnre pour
chacune des populations A .

Statistique Canada, No 12-001-X au catalogue

64

Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances

Tableau 3.2
Description des populations artificielles de Wolter
ij
n
b
Population Description

e ij

A1

Alatoire

20

50

eij iid N 0,100

A2

Tendance linaire

20

50

i j 1 k

eij iid N 0,100

A3

Effets de
stratification

20

50

eij iid N 0,100

A4

Effets de
stratification

20

50

A5

Autocorrle

20

50

j 10

si ij j 10
ij ,
eij

10
,
autrement.

ij iid N 0,100 , 0, 8

eij ei 1, j ij
ei1 ~ N 0,100 1 2

ij iid N 0,100 , 0, 8
A6

Autocorrle

20

50

comme A5 avec 0, 4

A7

Priodique

20

50

20 sin 2 50 i j 1 k

eij iid N 0,100

Mesures dvaluation. Nous avons valu les divers estimateurs de variance au moyen des trois mesures
utilises par Wolter, savoir le biais relatif prvu (ERB pour expected relative bias), lerreur quadratique
moyenne relative (RMSE pour relative mean squared error) et le ratio de couverture. La premire mesure,
ERB, que nous avons utilise pour examiner lexactitude des estimateurs, est dfinie pour un estimateur
donn comme ERB v E m E p v v E m v . Dans notre notation, E p et E m dsignent les
esprances sous le plan et sous le modle, respectivement. Pour examiner la variance des estimateurs,
nous
avons
galement
mesur
la
RMSE,
qui
est
dfinie
comme
tant
2
RMSE v E m E p v v E m v . Nous avons calcul le ratio de couverture sous forme du
pourcentage de fois que le vrai total de population tait compris dans lintervalle de confiance produit en
utilisant lestimation, c.--d. Y z v , Y z v . Ici, z est la valeur tire dune distribution
normale qui a t choisie pour produire les intervalles de confiance 95 %.
Rsultats. En ce qui concerne Q1, les colonnes 4 7 du tableau A1 montrent que laugmentation du
nombre de rpliques na quun effet minime sur le biais. Ce nest que pour la population tendance
linaire (A2) que lestimateur SDR avec quatre boucles connectes prsente une tendance cohrente de
rduction du biais mesure quaugmente le nombre de rpliques. Les autres combinaisons de population
et destimateur ne rvlent aucune tendance dcroissante ni croissante significatives lorsque le nombre de
rpliques augmente. Cette constatation reprsente un rsultat positif, parce quelle indique que la rduction
du jeu de rpliques naccrot pas le biais. Comme prvu, les RMSE dans les colonnes 8 11 du tableau A1
augmentent mesure que le nombre de rpliques diminue, mais curieusement, laccroissement est
relativement faible. De mme, les intervalles de confiance prsents dans les colonnes 12 15
samliorent paralllement laugmentation du nombre de rpliques, sauf dans le cas des populations A2
et A7.

Statistique Canada, No 12-001-X au catalogue

65

Techniques denqute, juin 2014

En ce qui concerne la question Q2, la comparaison des schmas AL1 et AL2 indique que lestimateur
SDR avec quatre boucles connectes produit habituellement de plus faibles biais (colonnes 4 7 du
tableau A1) et variances (colonnes 8 11 du tableau A1) avec AL1 quavec AL2. Dans le cas de
16 boucles connectes, les biais et les variances sont similaires pour AL1 et AL2. Ces rsultats laissent
entendre que le biais et la variance sont tous deux amliors, mais que leffet est rduit mesure que la
taille des boucles connectes diminue.
En ce qui concerne Q3, les biais prsents dans les colonnes 4 7 diminuent lorsque le nombre de
boucles connectes augmente. Fait exception la population priodique (A7). Lorsque les RMSE des
estimateurs SD1 et SD2 ne sont pas similaires, comme dans le cas de la population tendance linaire
(A2), laugmentation du nombre de boucles connectes rduit galement la RMSE. Ce rsultat nest pas
tonnant. Lestimateur comprenant une seule grande boucle connecte est quivalent lestimateur SD2,
2
de sorte quil peut prsenter des biais et RMSE plus importants en raison du terme y 1 y 64 . Dans
lautre sens, un plus grand nombre de boucles connectes rduit effectivement leffet du terme
y 1 y 64 2 , de sorte que lestimateur agit davantage comme lestimateur SD1, dont le biais et la
variance sont gnralement plus faibles que ceux de lestimateur SD2.

4 Conclusion
Le prsent article dcrit les conditions pour que lestimateur SDR soit quivalent lestimateur SD2, et
montre de quelle faon ils sont quivalents quand la taille de lchantillon est plus petite ou plus grande
que la matrice de Hadamard choisie. Lorsquune matrice de Hadamard H A plus petite est utilise et que
les rpliques sont tires uniquement de H A , larticle montre comment le jeu rduit de rpliques produit
une approximation raisonnable de lestimateur SD2. Les exemples empiriques indiquent quutiliser un jeu
rduit de rpliques est raisonnable, puisque la rduction du nombre de rpliques naccrot pas le biais des
estimations. En outre, nous voyons que lutilisation dun grand nombre de boucles connectes rduit
leffet du carr de la diffrence entre la premire et la dernire unit dans lchantillon. Puisque le biais et
la RMSE de lestimateur SD1 sont gnralement plus grands que ceux de lestimateur SD2, les
estimateurs SDR utilisant un plus grand nombre plutt quun plus petit nombre de boucles connectes
donneront des biais et RMSE plus faibles que les estimateurs SDR.

Remerciements
Lauteur remercie David Hornick et Brian Dumbacher de leur rvision de la premire bauche du
manuscrit, ainsi que les examinateurs et le rdacteur de leurs commentaires qui lui ont permis damliorer
et de clarifier larticle.

Statistique Canada, No 12-001-X au catalogue

66

Ash : Application de la mthode des rpliques des diffrences successives pour estimer les variances

Annexe
Tableau A1
Rsultats des simulations de lestimateur SDR
Population

kA

AL

A1

1
2
1
2
1 ou 2
1
2
1
2
1 ou 2
1
2
1
2
1 ou 2
1
2
1
2
1 ou 2
1
2
1
2
1 ou 2
1
2
1
2
1 ou 2
1
2
1
2
1 ou 2

16
A2

64
4
16

A3

64
4
16

A4

64
4
16

A5

64
4
16

A6

64
4
16

A7

64
4
16
64

Biais relatif prvu selon le


nombre de rpliques
16
32
48
64
0,010 0,009 0,009 0,009
0,010 0,010 0,010 0,009
0,009 0,008 0,010 0,009
0,009 0,010 0,010 0,009
0,009 0,009 0,010 0,009
-0,696 -0,840 -0,888 -0,907
-0,538 -0,768 -0,845 -0,883
0,113 -0,270 -0,500 -0,615
1,302 0,152 -0,231 -0,423
1,302 1,379 1,404 1,417
0,049 0,031 0,025 0,021
0,070 0,040 0,030 0,025
0,155 0,105 0,075 0,060
0,314 0,163 0,112 0,086
0,314 0,324 0,327 0,327
0,040 0,023 0,017 0,014
0,060 0,030 0,021 0,017
0,144 0,095 0,066 0,052
0,291 0,146 0,098 0,075
0,291 0,299 0,303 0,305
0,063 0,063 0,063 0,065
0,068 0,066 0,066 0,065
0,063 0,063 0,063 0,065
0,065 0,067 0,066 0,066
0,065 0,066 0,066 0,065
0,093 0,092 0,093 0,094
0,092 0,096 0,095 0,094
0,099 0,095 0,094 0,094
0,093 0,094 0,094 0,093
0,093 0,096 0,095 0,095
0,105 0,069 0,112 0,253
0,004 0,004 0,073 0,310
0,177 0,168 0,462 0,847
0,002 0,003 0,027 1,248
0,002 0,003 0,030 0,115

Erreur quadratique moyenne


relative
16
32
48
64
0,176 0,091 0,066 0,054
0,176 0,095 0,064 0,048
0,141 0,080 0,059 0,048
0,194 0,096 0,065 0,049
0,194 0,096 0,064 0,049
0,485 0,706 0,789 0,823
0,290 0,590 0,714 0,780
0,013 0,073 0,250 0,378
1,695 0,023 0,054 0,179
1,695 1,901 1,972 2,008
0,195 0,095 0,068 0,054
0,222 0,103 0,067 0,050
0,207 0,106 0,070 0,055
0,374 0,144 0,085 0,061
0,374 0,245 0,199 0,176
0,192 0,104 0,077 0,063
0,217 0,110 0,075 0,058
0,208 0,109 0,077 0,063
0,357 0,144 0,090 0,067
0,357 0,232 0,191 0,170
0,192 0,106 0,076 0,063
0,217 0,111 0,075 0,057
0,161 0,093 0,068 0,057
0,214 0,111 0,075 0,056
0,214 0,110 0,074 0,056
0,211 0,117 0,088 0,072
0,229 0,120 0,086 0,067
0,185 0,107 0,080 0,067
0,226 0,117 0,085 0,067
0,226 0,118 0,084 0,066
0,219 0,106 0,091 0,143
0,187 0,098 0,079 0,175
0,229 0,137 0,351 0,828
0,187 0,097 0,065 1,689
0,187 0,097 0,065 0,062

Ratio de couverture
16
93
92
93
92
92
62
77
100
100
100
93
93
95
96
96
93
93
95
96
96
94
93
94
93
93
94
94
94
94
94
94
92
95
92
92

32
94
94
94
94
94
45
54
97
100
100
94
94
95
95
97
94
94
95
95
97
94
94
95
94
94
95
95
95
95
95
95
94
96
94
94

48
94
94
94
94
94
38
45
80
99
100
94
94
95
95
97
94
94
95
95
97
95
95
95
95
95
95
95
95
95
95
95
95
98
95
95

64
94
95
95
95
94
35
39
100
100
100
95
95
95
95
97
94
95
95
95
97
95
95
95
95
95
95
95
95
95
95
97
97
99
100
96

Tableau A2
Rsultats des simulations des mthodes comparatives
Population
A1
A2
A3
A4
A5
A6
A7

Biais relatif prvu selon le nombre


de rpliques
SD1
SD2
EASSR
0,009
0,009
-0,001
-0,960
1,417
25,317
0,015
0,327
3,462
0,006
0,305
3,284
0,064
0,065
0,055
0,093
0,095
0,084
0,112
0,115
20,641

Statistique Canada, No 12-001-X au catalogue

Erreur quadratique moyenne


relative
SD1
SD2
EASSR
0,049
0,049
0,032
0,921
2,008
640,916
0,049
0,176
12,203
0,057
0,170
11,109
0,056
0,056
0,039
0,065
0,066
0,046
0,063
0,062
427,141

Ratio de couverture
SD1
94
23
94
94
95
95
96

SD2
94
100
97
97
95
95
96

EASSR
97
100
100
100
97
98
100

67

Techniques denqute, juin 2014

Bibliographie
Bellhouse, D.R. (1988). Systematic sampling. Extrait de Handbook of Statistics, 6, 125-145.
Fay, R.E., et Train, G.F. (1995). Aspects of survey and model-based postcensal estimation of income and
poverty characteristics for states and counties. Proceedings of the Section on Government Statistics,
American Statistical Association, 154-159.
Hedayat, A., et Wallis, W.D. (1978). Hadamard matrices and their applications. The Annuals of Statistics,
6, 1184-1238.
Huang, E.T., et Bell, W.R. (2009). A simulation study of the distribution of Fays successive difference
replication variance estimator. Proceedings of the Survey Research Methods Section, American
Statistical Association, 5294-5308.
Iachan, R. (1982). Systematic sampling: A critical review. International Statistical Review, 50, 293-303.
Madow, W.G., et Madow, L.H. (1944). On the theory of systematic sampling. Annuals of Mathematical
Statistics, 15, 1-14.
McCarthy, P.J. (1966). Pseudo-replication: Half-samples. Review of the International Statistical Institute,
37, 239-264.
Murthy. M.N., et Rao, T.J. (1988). Systematic sampling with illustrative examples. Extrait de Handbook
of Statistics, 6, 147-185.
Sukasih, A.S., et Jang, D. (2003). Monte Carlo study on the successive difference replication method for
non-linear statistics. Proceedings of the Survey Research Methods Section, American Statistical
Association, 3608-3612.
Wolter, K.M. (1984). An investigation of some estimators of variance for systematic sampling. Journal of
the American Statistical Association, 781-790.
Wolter, K.M. (1985). Introduction to Variance Estimation, Springer-Verlag.
Yates, F. (1953). Sampling Methods for Censuses and Surveys, 2nd Edition, Hafner Publishing Company,
New York, NY.
U.S. Census Bureau (2006). Technical Paper 66, Design and Methodology: Current Population Survey,
Octobre 2006.

Statistique Canada, No 12-001-X au catalogue

E L E C T R O N I C
P U B L I C AT I O N S
AVA I L A B L E AT

P U B L I C AT I O N S
LECTRONIQUES
DISPONIBLE

w w w. s t a t c a n . g c . c a

Techniques denqute, juin 2014


Vol. 40, No 1, pp. 69-88
Statistique Canada, No 12-001-X au catalogue

69

Estimation de variance par linarisation pour des indices de


pauvret et dexclusion sociale
Eric Graf et Yves Till1
Rsum
Nous avons mis en uvre la technique de linarisation gnralise reposant sur le concept de fonction
dinfluence tout comme la fait Osier (2009) pour estimer la variance de statistiques complexes telles que les
indices de Laeken. Des simulations ralises avec le langage R montrent que, pour les cas o lon a recours
une estimation par noyau gaussien de la fonction de densit des revenus considrs, on obtient un fort biais
pour la valeur estime de la variance. On propose deux autres mthodes pour estimer la densit qui diminuent
fortement le biais constat. Lune de ces mthodes a dj t esquisse par Deville (2000). Les rsultats publis
ici permettront une amlioration substantielle de la qualit des informations sur la prcision de certains indices
de Laeken diffuses et compares internationalement.
Mots-cls : Fonction dinfluence; enqute SILC; statistiques non linaires; indices de pauvret et dingalit.

1 Introduction
Deville (2000) a propos destimer la prcision des statistiques non linaires dans des plans de sondage
au moyen de la technique de linarisation gnralise. Celle-ci repose sur le concept de fonction
dinfluence propose par Hampel (1974) dans le domaine de la statistique robuste. Osier (2009) a appliqu
ces thories pour estimer la variance de statistiques complexes telles que les indices de Laeken (Eurostat
2005) dans lenqute europenne sur le revenu et les conditions de vie (EU-SILC). Goga, Deville et RuizGazen (2009) tendent la thorie de Deville (2000) des enqutes bases sur deux chantillons. Verma et
Betti (2011) fournissent une liste exhaustive des indicateurs de pauvret conventionnels et des variables
linarises associes, ils comparent galement les performances de la technique de linarisation la
mthode du Jackknife (Jackknife repeated replication). Dans cet article, nous nous restreignons des
indicateurs de pauvret publis dans le cadre de lenqute SILC, en focalisant sur la faon destimer la
fonction de densit des revenus en diffrents points de leur distribution.
Dans la section 2, on rappelle les fondements thoriques ncessaires ainsi que les expressions des
indices de pauvret et dingalit tudis, de mme que celle de leur linarise. Certaines linarises
dpendent de la fonction de densit de la variable dintrt qui est gnralement estime par noyau
gaussien. Deux mthodes alternatives au noyau gaussien sont prsentes dans la section 3. Les simulations
ralises en langage R sont dcrites et commentes dans la section 4. On y montre que la mthode par
noyau gaussien peut engendrer un fort biais pour la valeur estime de la variance des indices pour les cas
o lon a recours une estimation de la fonction de densit des revenus considrs. On voit aussi que les
deux autres mthodes pour estimer la densit proposes dans la section 3 diminuent le biais constat, ce
qui fait aussi lobjet des conclusions dans la dernire partie de ce texte.

1. Eric Graf et Yves Till, Institut de Statistique, Facult des sciences conomiques, Universit de Neuchtel, Pierre--Mazel 7, 2000 Neuchtel,
Suisse. Courriel : eric.graf@unine.ch et yves.tille@unine.ch.

70

Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale

2 Rappels sur les indices de pauvret traits ainsi que leur linarise
Soit une population finie U constitue de N units identifiables u1 , ..., u k , ..., u N . Pour simplifier
lcriture on dsigne par la suite lunit u k par son indice k . En pratique la population U est une base de
sondage avec un taux de couverture acceptable de la population dintrt pour laquelle on dsire faire des
infrences. On associe chaque unit k une valeur y k dune caractristique dintrt (ici un revenu).
Sans nuire la gnralit et pour allger les notations, on suppose que les y k sont tous distincts et tris
par ordre de grandeur, donc y k = y[ k ] . Dans les donnes issues denqutes par chantillonnage, il arrive
frquemment quil y ait des doublons, cest--dire plusieurs units ayant la mme valeur y , que ce soit d
des arrondis ou des questions-fourchettes. Dans ces cas et pour cette tude, il suffit dajouter un
montant assez petit (cest--dire ngligeable) de la devise tir au hasard selon une loi uniforme pour que
les donnes soient triables sans quivoque.
Soit un chantillon alatoire S de taille n obtenu par un plan dchantillonnage p ( s ) = P( S = s ),
pour tout s U . Soit galement k = P( k s ) > 0 la probabilit dinclusion dans lchantillon de
lunit k de U . Soit aussi d k = 1 k le poids dchantillonnage et wk = wk ( s ) un poids destimation
qui peut tre gal d k mais qui peut aussi tre plus raffin. Par exemple, wk peut avoir t obtenu suite
un calage (Deville et Srndal 1992) et reflter ainsi galement une correction de non-rponse.
Les estimateurs des indices de pauvret et dingalit sont des statistiques non linaires qui ne peuvent
pas sexprimer comme des fonctions rgulires (cest--dire continment diffrentiables jusqu lordre
deux) de totaux. En effet, il sagit de statistiques de rangs pour lindice de Gini et de quantiles pour les
autres. Comme le relve Osier (2009), leur variance ne peut donc pas tre estime par une linarisation de
Taylor mais ncessite le recours la mthode de linarisation gnralise (Deville 2000; Demnati et Rao
2004; Osier 2009). Une alternative pour estimer la variance serait dutiliser des techniques de
rchantillonnage du genre bootstrap, mais dans le cadre des donnes de lenqute SILC, une prfrence a
t donne la technique de linarisation, du moins pour un certain nombre de pays participants. En effet,
les mthodes de rchantillonnage ncessitent souvent davantage de ressources humaines et machine. De
plus, Eurostat collaborant avec une trentaine de pays ayant des plans de sondage diffrents suivis
dventuels corrections pour la non-rponse et de calages sur des sources externes, il a sembl plus
adquat dopter pour une solution analytique pour estimer la variance. Par ailleurs, certains pays pouvaient
utiliser le logiciel SAS dj existant POULPE (Ardilly et Osier 2007) pour produire les estimations
ncessaires. Ce fut le cas pour les premiers tests avec les donnes SILC suisses. On applique ici un mode
opratoire qui, comme le relvent Antal, Langel et Tilll (2011), concilie lapproche introduite par Deville
(2000) celle de Demnati et Rao (2004). Les deux approches utilisent la notion de fonction dinfluence
qui fut dveloppe initialement dans le domaine des statistiques robustes (Hampel 1974). Antal et coll.
(2011) mentionnent aussi que lon peut retrouver les mmes linarises en appliquant la mthode propose
par Graf (2011, 2013) qui construit une variable linarise base sur un dveloppement en srie de Taylor
par rapport aux indicatrices dinclusion dans lchantillon. Citons aussi le travail de Kovaevi et Binder
(1997) o une approche de linarisation par les quations estimantes est dveloppe.
Selon Deville (2000), on cerne linfluence de lunit k sur un paramtre dintrt au niveau de la
population par une variation infinitsimale de limportance attribue cette unit. On exprime ledit
paramtre comme une fonctionnelle = T ( M ), o M est une mesure allouant une masse unit,

Statistique Canada, No 12-001-X au catalogue

71

Techniques denqute, juin 2014

M (k ) = M k = 1, uniquement aux points du continuum correspondant aux units k U . La


spcialisation de la mesure gnrale M en une mesure discrte fait passer la fonctionnelle T , dfinie a
priori sur un continuum, en une fonctionnelle discrte, tout comme le total Y est dfini par la somme des
y k sur notre population finie. La fonction dinfluence de T , ou la variable linarise, est dfinie par
T ( M + t k ) T ( M )
, pour tout k U ,
t 0
t

I [T ( M )] k = z k = lim

o k est la mesure de Dirac pour lunit k ( k (i ) = 1 si i = k et 0 sinon ) . En pratique on ne dispose


que des donnes connues sur un chantillon S et Deville (2000) obtient une linarise z k ou fonction
dinfluence empirique, en : 1) valuant la limite ci-dessus par calcul diffrentiel, 2) remplaant dans
lvaluation les quantits inconnues par les quantits correspondantes estimes partir de lchantillon. Il
justifie ce procd en montrant que :
T ( M ) T ( M )

( w z
k S

k U

).

Le rsultat central est que, sous des conditions asymptotiques dcrites dans Deville (2000), qui sont en
principe satisfaites lorsque lchantillon est assez grand , la variance du total estim de la variable z k
est une approximation de la variance de la statistique (complexe) :

var z k w k var ( ) .
k s

Le point de dpart de lapproche de Deville est donc le paramtre de population et non lestimateur quon
se propose dutiliser pour lvaluation partir de lchantillon. Dans les cas o lestimateur utilis dcoule
naturellement de lexpression du paramtre de population (comme par exemple le total Y approch par
lestimateur de Horvitz-Thompson), le procd ne prsente pas dambigut. Mais des imprcisions
surviennent si lon estime le mme total Y en ayant recours lestimateur par le quotient grce une
variable auxiliaire x. En effet, dans ce cas, lapproche de Deville ne prcisant pas la forme de lestimateur
du total utiliser fournira plutt une fonction dinfluence constante gale 1, au lieu de faire intervenir le
quotient inconnu dintrt.
Une alternative qui vite ces problmes est celle de Demnati-Rao, lorsque rattache au pralable au
cadre de Deville comme cela est fait dans Antal et coll. (2011). Ces auteurs prsentent lapproche de
Demnati-Rao comme rsultant du cadre de Deville lorsque la mesure M employe nest pas la mesure
discrte dfinie sur U prsente prcdemment, mais plutt la mesure suivante dfinie sur S ,
lchantillon :
M ( k ) = w k , k S

o wk est un poids. En dfinissant la mesure sur S , on se donne dans les faits comme point de dpart
lestimateur et non le paramtre; cest le paramtre qui se retrouve exprim au dpart sous la forme dune
fonctionnelle et non le paramtre de population estimer. Autrement dit, on se donne comme
fonctionnelle celle qui correspond lestimateur pour lequel on souhaite avoir une estimation de la
variance par linarisation gnralise. On obtient ensuite la linarise en fonction de cette fonctionnelle de
la faon suivante :
I [T ( M )] k = z k = lim
t 0

T ( M + t k ) T ( M )
t

, pour tout k S .

Statistique Canada, No 12-001-X au catalogue

72

Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale

Antal et coll. (2011) observent que, dans la mesure o la fonctionnelle apparaissant dans cette limite
sexprime comme une fonction explicite des variables que sont les poids assigns par la mesure M aux
observations, cette linarise est en fait une fonction des drives partielles par rapport aux poids :

I [T ( M )] k =

T ( M )
.
w k

Antal et coll. (2011) relvent que, les linrarises que nous rappelons dans la suite, peuvent tre obtenues
par les deux approches. En effet, lvaluation de la limite -la-Demnati-Rao ne mne pas ncessairement
lestimation de la variance suggre par Deville (2000). Lapproche pratique utilise dans le cadre de cet
article pourrait donc tre nomme comme tant celle de Deville-Demnati-Rao en reconnaissance au cadre
thorique fourni par Deville (2000) et lalgorithmique pratique de ce cadre quapportent Demnati et Rao
(2004).
Par cette mthode, on peut estimer la variance de quel que soit le plan dchantillonnage, et donc
obtenir un intervalle de confiance, en substituant la variable linarise dans la formule de variance pour un
total correspondant au plan choisi. Sous un plan alatoire simple sans remise, lestimateur de la variance
dun indice dingalit est donn par

var lin [ ] =

N ( N n) 1
( z k z ) 2 ,

n
n 1 k S

(2.1)

avec
z = n 1 z k .
k S

Dans la suite, dans le cadre de la mesure du revenu de la population, nous rappelons les dfinitions
empiriques des indices dingalit considrs ainsi que lexpression de leurs linarises telles que nous les
avons mises en uvre.

2.1 Lindice de Gini


Lindice de Gini, G, est compris entre 0 (en cas dgalit totale, tous gagnent le mme montant) et 1
(en cas dingalit totale, cest--dire un individu gagne tout et les autres rien). Lindice G sexprime en
fonction des revenus cumuls dune certaine proportion dindividus les plus pauvres. Si Y est la variable
alatoire reprsentant les revenus, f ( y ) sa fonction de densit et F ( y ) sa fonction de rpartition, alors la
courbe de Lorenz (Lorenz 1905) est dfinie par

L ( ) =

F 1 ( )

yf ( y ) dy

yf ( y ) dy

1
F 1 (u ) du.

E (Y ) 0

Lindice de Gini reprsente deux fois la surface comprise entre la courbe de Lorenz et la ligne (diagonale
f eg ( x ) = x ) de lgalit parfaite (Figure 2.1). Il est donc dfini par :
1

G = 2 [ L ( )] d .
0

Statistique Canada, No 12-001-X au catalogue

73

Techniques denqute, juin 2014

L ()

Part cumule des revenus

A
B

Courbe de Lorenz, L ( )

Part cumule de la population par rapport au revenu 1

Figure 2.1 Indice de Gini G et courbe de Lorenz L ( ) . G = 2 A, A + B = 1 2

Dans le cas dune population finie, les y k ne sont pas alatoires et lindice de Gini est dfini sur la
population U par :

G =

2 k U ky k
N k U y k

N +1
,
N

o les y k ont t pralablement tris par leur rang. Calcul sur un chantillon, on lestime par :
2

G =
w k N k y k 1 +

NY k S

kS S wk w y k
=

2 NY
o N k =

w k2 y k

NY k S

w 1[ y y k ] est la somme cumule des poids wk , Y =

estim pour la population et N =

k S

k S

wk y k tant le revenu total

wk la taille estime de cette population. Lexpression peut tre

simplifie si tous les poids sont gaux et valent tous N n :

Statistique Canada, No 12-001-X au catalogue

74

Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale

G =

2 k S ky k
n k S y k

n +1
.
n

Notons que la dfinition peut varier dun facteur n ( n 1) selon les auteurs (Osier 2009; Eurostat
2004b), mais cette subtilit est ngligeable ds que la taille de lchantillon est assez grande.
Langel et Till (2012) ont fait une synthse des diffrentes approches permettant dobtenir la mme
variable linarise de lindice de Gini estime sur lchantillon :
z kGINI =
o Yk =

k
=1

1
k G (Y + y k N ) ,
2 N k ( y k Yk ) + Y Ny

NY

w y N k , les y tant tris et distincts.

2.2 Le Quintile Share Ratio (QSR ou S 80 S 20 )


On trouve un bon tour dhorizon sur cet indice dans Langel et Till (2012). Soient q 80 et q 20 les 80e et
20e percentiles de la fonction de rpartition F ( y ) . Le QSR est le ratio de la somme des revenus des 20 %
les plus riches sur les 20 % les plus pauvres. Dans le cas continu, on peut le dfinir ainsi :

QSR =

E (Y Y > q 80 ) 1 L (0,8)
=
,
E (Y Y < q 20 )
L (0,2 )

o Y serait une variable alatoire reprsentant les revenus. Dans le cas de populations finies, le QSR peut
tre exprim et estim au niveau de lchantillon en fonction des sommes partielles

QSR =

Y Y0,8
,
Y0,2

o, suite aux rsultats obtenus par Langel et Till (2011), nous utiliserons la dfinition suivante de la
somme partielle, ce qui diffre trs lgrement de la dfinition officielle dEurostat (2004a),
Y =

k S

N N k 1
yk H
,
wk

(2.2)

avec
0 si x < 0

H ( x ) = x si 0 x < 1
1 si x 1.

Pour obtenir la linarise du QSR, il faut dabord calculer la linarise de la somme partielle (2.2) qui est
donne par :

I (Y ) k = y k H ( N k + 1) + 1[ y < Q ] Q ,
k

o Q = y i , avec N i 1 < N N i , correspond la premire dfinition du quantile dune population


finie dans larticle de Hyndman et Fan (1996). Osier (2009) obtient une linarise qui dpend de la densit
. Langel et Till (2011) ont cependant montr quune simplification permet dluder le
de la variable Y

Statistique Canada, No 12-001-X au catalogue

75

Techniques denqute, juin 2014

problme de lestimation de cette densit pour le QSR et quil nest donc pas ncessaire de faire une
approximation par noyau de la densit des revenus comme le propose Osier (2009).
La fonction dinfluence dpend de celles des sommes partielles :

I (QSR ) k = z kQSR =

y k I (Y0,8 ) (Y Y0,8 ) I (Y0,2 )

.
2
Y0,2
Y0,2

En faisant les substitutions ncessaires, on trouve que la linarise estime sur la base de lchantillon vaut

z kQSR

0,8N N k 1

yk yk H
+ Q 0,8 0,8 1 y k < Q 0,8
wk

=
Y0,2

0,2N N k 1

(Y Y0,8 ) y k H
+ Q 0,2 0,2 1 y k < Q 0,2
wk

Y0,2

(2.3)

2.3 Linarise dun quantile


Avant de traiter les indices de pauvret, il convient de donner quelques dtails sur la linarise dun
quantile dordre . Celle-ci sestime par :

z k =
Q

1
1
1 ,

f (Q ) N [ y k Q ]

o le quantile pondr peut tre dfini de manire similaire la somme partielle (2.2) et f () est la
fonction de densit des revenus qui est discute en dtails la section 3. Notons quEurostat (2004a)
prconise la deuxime dfinition de Hyndman et Fan (1996). On pourrait discuter de la dfinition
dEurostat
et
utiliser
une
autre
dfinition
du
quantile,
par
exemple
(
)
[
]
Q = y k 1 + ( y k y k 1 ) N k 1 o N < k N + 1, ce qui correspond la quatrime
dfinition selon Hyndman et Fan (1996). On estime alors le quantile sur lchantillon par
N N k 1
Q = y k 1 + ( y k y k 1 )
.
wk

La linarise du quantile dpend de la valeur de la fonction de densit des revenus en ce quantile. Or,
la vraie densit des revenus nest pas connue et doit donc aussi tre estime partir de lchantillon.
Deville (2000) et Osier (2009) proposent de lestimer par noyau gaussien. On revient plus en dtails sur le
problme de lestimation de f dans la section 3.
En plus du problme de lestimation de la fonction de densit des revenus, Croux (1998) montre que la
fonction dinfluence empirique de la mdiane nest pas un estimateur convergent de la fonction
dinfluence (thorique) correspondante. Pour une variable positive (cas des revenus), la fonction
dinfluence empirique de la mdiane (cas que Croux traite dans son article) converge vers une distribution
exponentielle dont lesprance est la fonction dinfluence. Elle rsiste mal aux valeurs extrmes sil y en a
une trop grande proportion. On dira quelle manque de robustesse, dans le sens que la valeur de
lestimateur sur la base de lchantillon peut sloigner fortement de la vraie valeur sur la population en

Statistique Canada, No 12-001-X au catalogue

76

Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale

raison dobservations extrmes (cest--dire trs grandes par rapport aux autres) prsentes dans
lchantillon (voir Hampel (1974) pour les ides de base sur la robustesse en population infinie, et
Beaumont, Haziza et Ruiz-Gazen (2013) pour des rflexions rcentes ce sujet dans le cadre
dchantillonnage en population finie).

2.4 La mdiane et le seuil de risque de pauvret (ARPT)


Soit m = Q 0,5 la mdiane estime sur lchantillon, le seuil de pauvret, not ARPT (At Risk of
Poverty Threshold), est dfini comme tant gal 60 % de la mdiane :
ARPT = 0,6 F 1 (0,5)
ARPT = 0,6Q 0,5 = 0,6m .

Il sagit dune mesure absolue qui dpend de lchelle. La linarise de lARPT est proportionnelle celle
de la mdiane :
z kARPT = I ( ARPT ) k = 0,6I ( MED ) k =

0,6 1
[1 y m 0,5] .
f ( m ) N [ k ]

2.5 Le taux de risque de pauvret (ARPR)


Le taux de risque de pauvret (At Risk of Poverty Rate), ARPR [0,1], correspond la proportion de
la population au-dessous du seuil de risque de pauvret, ARPR = F ( ARPT ) . Il est indpendant de
lchelle tout comme lindice de Gini, le QSR et le RMPG (voir section 2.7). La dfinition officielle
dEurostat (2004a) de son estimation partir de lchantillon est

ARPR =

y k < ARPT

wk
.

La linarise de lARPR est donne par Osier (2009) :


1
f ( ARPT ) 0,6
1[ y ARPT ] ARPR
1 y m 0,5
k
f ( m ) N [ k ]
N
1
=
1 y ARPT ARPR + f ( ARPT ) z kARPT .

N k

z kARPR =

Ici, la fonction de densit des revenus doit tre estime en deux points : en la mdiane et en lARPT.

2.6 La mdiane des pauvres


Il sagit du revenu mdian des personnes en-dessous du seuil de risque de pauvret :
m p = F 1 (1 2 F ( ARPT ) ) . On lestime selon la mme procdure que tout autre quantile dont la
dfinition exacte peut varier. La linarise de m p (Osier 2009) dpend de celle de lARPR :
mp

z k

Statistique Canada, No 12-001-X au catalogue

1
z kARPR
1
(1 y m F ( m p )) .
f ( m p ) 2
N k p

77

Techniques denqute, juin 2014

Lestimation de la densit des revenus intervient donc trois fois : en la mdiane et en lARPT dans z kARPR
et en la mdiane des pauvres m p .

2.7 Le Relative Median Poverty Gap (RMPG)


Il sagit de la diffrence relative entre le seuil de risque de pauvret et la mdiane des pauvres. On
dfinit RMPG = 0 si tous les pauvres gagnent un montant gal au seuil et RMPG = 1 si les pauvres
ne gagnent rien du tout. Cest une mesure de combien pauvre sont les pauvres :
RMPG =

ARPT m p
ARPT

Son estimation partir de lchantillon est donc dj dcrite. Linfluence de chaque observation sur le
RMPG est donne par Osier (2009) :
mp

RMPG
k

m p z kARPT ARPT z k
ARPT

Lestimation de la densit de la distribution des revenus intervient quatre reprises : une fois dans le
m

calcul de z kARPT et trois fois dans celui de z k p .

3 Lestimation de la fonction de densit des revenus


Dans une approche base sur le plan (design based) en population finie, linfrence se fait par rapport
au plan de sondage P( S ) utilis pour slectionner lchantillon S dans la population U de taille finie N .
Dans cette approche, seules les indicatrices dinclusion dans lchantillon sont alatoires, toutes les autres
grandeurs sont fixes. La fonction de rpartition des revenus au niveau de la population est alors une
fonction en escaliers : F y ( x ) = 1 y k x N et sa drive, la fonction de densit, nexiste pas cause
k U

des discontinuits. Si lon ne veut pas se placer dans une approche base sur le modle (model based) avec
un modle de super population pour justifier le terme de fonction de densit des revenus, il faut
artificiellement lisser la fonction de rpartition pour quelle devienne drivable. Cest donc par abus de
langage que nous nous autorisons ici parler de fonction de densit. Avec cette volont de lissage, Deville
(2000) et Osier (2009) proposent destimer la fonction de densit des revenus par noyau gaussien :
1
x yk
2
e u 2 ,
u =
h 2
h
1
x

k
f1 ( x ) = wk K

h
N k S

K (u ) =

1 1
h 2 N

k S

(3.1)

( x yk ) 2
exp

2h 2

o h est la largeur de la bande quOsier estime par h = N 0,2 et est lcart-type estim de la
distribution empirique des revenus :

Statistique Canada, No 12-001-X au catalogue

78

Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale

w k y k2 k S w k y k

=
N
N

k S

w k y k2
y w2 .
N

k S

Notons que cette estimation de nest pas robuste tant trs sensible aux valeurs extrmes de y. Des
donnes de revenus ont trs souvent une queue de distribution tendue vers la droite avec des valeurs trs
leves possibles, on parle de valeurs aberrantes reprsentatives (representative outliers) au sens de
Chambers (1986) et Hulliger (1999). Comme le montrent nos simulations dans la section 4, cela peut
fortement biaiser nos estimations de variance. Verma et Betti (2011) procdent galement par noyau
rappelant que, selon Silverman (1986), le choix du noyau nest pas crucial pour assurer la convergence de
f ( y ) vers f ( y ) , alors que celui de la largeur de bande lest. Ils utilisent une valeur conseille par
Silverman dans le cas de distributions avec un coefficient dasymtrie positif, h = 0,79(Q 75 Q 25 ) N 0,2 .
Dans leurs conclusions, ils relvent que la mthode par linarisation peut tre problmatique en raison
dirrgularits de la fonction de densit empirique. On ajoutera que ces problmes sont dautant plus
proccupants quil est frquent, dans les donnes issues denqutes, davoir des agglomrats
dobservations certaines valeurs (dues des arrondis ou des questions-fourchettes), ce qui peut
compliquer lestimation de la densit. La suite de larticle dcrit des solutions que nous avanons pour
rduire le biais de la variance estime.

3.1 Passer par le logarithme


Une solution qui, comme on le verra plus loin, donne de trs bons rsultats est de simplement passer
par le logarithme pour estimer la densit en x. Si lon pose v = log ( x + a ) , o x est le revenu et a un
nombre rel positif par exemple gal ( min k ( y k ) + 1) dans le cas o lon aurait des revenus ngatifs ou
nuls (en ngligeant le fait que a serait estim), on a que

Fv ( v ) = P (V v ) = P (log (Y + a ) v ) = P (Y e v a ) = F y ( e v a ) ,
o V et Y seraient de variables alatoires. Donc,
f v (v ) =

dFv ( v ) dF y ( e v a )
=
= f y (e v a ) e v .
dv
dv

Autrement dit f v ( v ) = f y ( x ) ( x + a ) , ce qui nous donne lestimateur suivant de la densit en x :

f ( log ( x + a ) )
f ( v )
f2 ( x ) = v
= y
.
x+a
x+a

(3.2)

Lestimation de la densit en x de Y peut donc svaluer en estimant celle du logarithme de la


variable, divise par la valeur de la variable au point qui nous intresse. La proprit reste valable en
population finie. Le fait de passer par le logarithme a lavantage de diminuer leffet levier exerc par les
grandes valeurs des revenus dans le calcul de lapproximation de la densit par noyau. Les simulations
montrent que cette mthode trs simple rduit fortement le biais.

Statistique Canada, No 12-001-X au catalogue

79

Techniques denqute, juin 2014

3.2 Plus proches voisins avec largeur de bande minimale


Deville (2000) esquisse une autre manire du type plus proches voisins (voir Silverman 1986)
destimer la densit en utilisant le noyau

1
b a si a u < b
(
)
KD u =
,
0
sinon,

avec u = y k et o le choix de a et b , vrifiant x [ a , b ], reste dterminer et pourrait dpendre de x.


La distance ( b a ) reprsente la largeur de bande h. Lestimation de la densit vaudrait alors
1
fD ( x , a , b ) = K D ( y k )
N k S
=

=
avec F y ( x ) =

k S

wk 1 y

k x

1
1
wk
1 y a ,b

ba k [ [
N k S
F y ( b ) F y ( a )
ba

(3.3)

, x [a , b[

N .

Notons que lestimation de la densit (3.3) nest pas une fonction continue et quelle ne serait pas trs
adapte pour estimer des valeurs de densit lextrmit des queues de la distribution. Puisque nos
travaux ne reposent pas trop sur les queues de la distribution, nous considrons cette approche comme une
option.
Notre deuxime proposition destimation de la densit en x sinspire de lide ci-dessus. Elle est du
type plus proches voisins , mais impose aussi une largeur de bande minimale : notre mthode impose
dutiliser au minimum les p plus proches observations du point x tout en imposant une largeur de bande
minimale h ( p ) hopt o
h opt =

0,9 min( , Q 75 Q 25 )
1,34 5 N

est la rgle empirique (rule of thumb) de Silverman (1986) pour dterminer la largeur de la bande. Cette
valeur est aussi utilise par dfaut par la fonction R density pour la largeur de la bande si rien nest
spcifi. Cette solution est plus robuste que (3.1) et vite les problmes que lon rencontre lorsque
plusieurs valeurs y k sont trs proches les unes des autres, ce qui arrive frquemment parce que les
personnes interroges ont tendance arrondir leur revenu.
Les valeurs y k , k = 1,..., n, tant supposes ordonnes par leur rang, la largeur h ( p ) de la fentre
autour de x est initialement dtermine par les p plus proches observations, avec p n. Pour les
simulations exposes dans la section suivante, aprs diffrents essais, le p initial a t fix 30. On
impute comme densit en x la densit estime au point observ y j le plus proche infrieur ou gal x ,
cest--dire j = max ( k y k x ) , k = 1, ..., n. La largeur de la bande en x dpendra en fait des p j plus
proches observations autour de y j , avec p j p. On la dsignera par h ( p j ) dans la suite pour le

Statistique Canada, No 12-001-X au catalogue

80

Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale

rappeler. La densit nest donc estime quen des points observs sans quun lissage ou une interpolation
soient mens entre les f ( y j ) . Lalgorithme pour estimer f ( y j ) est le suivant (voir aussi Figure 3.1) :

p j obs.

f ( y j )

yj

y
y l 1 y l

y u y u +1

h ( p j ) hopt
Figure 3.1 Largeur de la fentre h ( p j )

1. La largeur initiale de la fentre autour du point y j , avec p j = p , est dfinie par :


h(pj)

j + p j 2 1 si p j est pair
y u + y u +1 y + y 1 u =
si p j est impair

=
;
j + p j 2
2
2
= j p j 2 .

2. Si la largeur de fentre h ( p j ) ainsi obtenue est infrieure hopt , on incrmente les deux
bornes :
borne suprieure : u u + 1, tant que u < n,
borne infrieure : l l 1, tant que l > 1,
ce qui implique p j p j + 2, sauf si u = n ou l = 1, on na alors plus le mme nombre de
points gauche et droite de y j .
3. Rpter 2 jusqu ce que h ( p j ) hopt .
4. La densit estime en x est alors donne par

f ( x ) = f ( y j )

pj

nh ( p j )
=
w std

p j plus proche s de y j

nh ( p j )

avec les poids standardiss w kstd = w k w , k = 1, ..., n.

Statistique Canada, No 12-001-X au catalogue

sans pondration,

avec pondration,

81

Techniques denqute, juin 2014

Le nombre dobservations p j prises en compte pour le calcul peut varier et dpend de la courbure locale
de la fonction de rpartition empirique. La condition h ( p j ) hopt garantit une largeur de fentre
minimale aux endroits o beaucoup dobservations seraient concentres sur un petit intervalle. On rend la
procdure encore plus solide en combinant cette approche avec la prcdente, cest--dire en estimant la
densit du logarithme de la variable divise par sa valeur (non logarithmise) :

f ( log ( x + a ))
f3 ( x ) =
.
x+a

(3.4)

3.3 Robustesse de la linarise


Comme mentionn plus haut, dans le cas de la mdiane ou pour les autres quantiles, Croux (1998)
relve que la fonction dinfluence empirique ou linarise estime partir de lchantillon nest pas aussi
robuste quil ny parat, mme si lon connat la fonction de densit. Nous avons vrifi cela pour les
donnes SILC utilises dans les simulations modlises avec une loi Bta Gnralise de seconde espce
(GB2) grce la fonction profml.gb2 de R (Graf et Nedyalkova 2011). Sur de petits chantillons
( n 100) , le biais potentiel de la linarise engendr par un trop grand nombre de valeurs extrmes peut
aussi biaiser lestimation de la variance calcule partir de cette dernire. Pour de plus grands chantillons
( n 1 000) , un biais relatif maximal dans la variance estime laide de la linarise empirique vs.
thorique peut atteindre jusqu 5 %. Il est cependant en-dessous du pourcent en valeur absolue dans les
trois quarts des cas.

4 Rsultats
Des simulations ont t menes sur trois jeux de donnes relles afin de comparer et valuer les
diffrentes mthodes destimation de la fonction de densit : f1 ( x ) voir (3.1), f2 ( x ) voir (3.2) et f3 ( x )
voir (3.4). Ces dernires sont ncessaires lestimation de la variance de certains indices de pauvret et
dingalit.
1. Le premier jeu de donnes correspond aux revenus quivalents des mnages de lenqute SILC
suisse mene par lOffice Fdral Suisse de la Statistique en 2009. On y dispose de 17 534
individus avec un revenu quivalent non nul.
2. Le deuxime jeu de donnes est aussi issu de lenqute SILC 2009 mais se restreint aux
personnes salaries. Il sagit des salaires du registre de la Centrale de Compensation qui a t
coupl avec les rpondants de lenqute. Nous navons donc pas de problme de non-rponse et
disposons de 7 922 individus avec un salaire non nul.
3. Le troisime fichier de test, nomm Ilocos, est celui disposition dans le package ineq de R
(Zeileis 2012). Il contient 632 observations. Il sagit du revenu des mnages dune des 16
rgions des Philippines appele Ilocos. Les donnes sont issues de deux enqutes de lInstitut
National de Statistiques des Philippines en 1997 et 1998.

Statistique Canada, No 12-001-X au catalogue

82

Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale

Les trois jeux de donnes ont un coefficient dasymtrie positif, ce qui est typique des distributions de
revenus. Chaque jeu de donnes tant considr comme une population, on a slectionn dans un premier
temps 10 000 chantillons alatoires simples sans remise de diffrentes tailles. Les valeurs des diffrents
indices sont calcules pour chacun des chantillons, ce qui nous procure une estimation Monte Carlo de
leur variance, varsim ( ) , pour un indice de pauvret ou dingalit . Lestimateur par linarisation de la
variance est not var lin ( ) et est calcul en utilisant la linarise z estime pour chaque chantillon :

var lin ( ) =

N ( N n)

var ( z S ) ,
n

o n est la taille dchantillon utilise pour les simulations et


var ( z S ) =

( z S ,k z S )
n 1 k S

avec z S = n 1 S z S ,k , voir (2.1).

La qualit de lestimateur de variance par linarisation est value en comparant la valeur Monte Carlo
espre de la variance estime par linarisation, note E [ var lin ( )] , la vraie variance Monte
Carlo varsim ( ) en terme de biais relatif :

sim

E [ var lin ( )] varsim ( )


RB [ var lin ( )] = sim
.
varsim ( )

(4.1)

Pour le deuxime jeu de donnes (SILC 2009, revenu des personnes salaries) nous avons, dans un
deuxime temps, galement slectionn 10 000 chantillons alatoires sans remise selon un plan stratifi,
puis cal les poids de sondage de manire respecter huit marges sociodmographiques de totaux connus
sur la population de 7 922 individus. Les cinq strates utilises correspondent des tranches dge des
personnes salaries (voir tableau 4.1).
Les huit cellules de calage ont t obtenues par les croisements des trois variables dichotomiques
suivantes (variables auxiliaires du calage) :
1. MARI indiquant si la personne est marie ou pas,
2. CHEF indiquant si la personne a une fonction de chef ou pas dans son emploi,
3. HOMME renseignant sur le sexe de lindividu.
Les totaux sur la population de 7 922 individus pour ces cellules de calage sont indiqus dans le tableau
4.2.
Tableau 4.1
Dfinition des strates utilises dans les simulations sur les donnes SILC 2009 et trois tailles dchantillons
(revenu des personnes salaries, N = 7 922 )
strate h
1
2
3
4
5

description
personnes de moins de 25 ans
personnes de 26 35 ans
personnes de 36 45 ans
personnes de 46 55 ans
personnes de plus de 55 ans
TOTAL

Statistique Canada, No 12-001-X au catalogue

Nh

1 187
1 359
2 137
1 864
1 375
7 922

%
15,0
17,2
27,0
23,5
17,4
100,0

nh

75
86
135
117
87
500

112
129
202
177
130
750

150
171
270
235
174
1 000

83

Techniques denqute, juin 2014

Tableau 4.2
Marges de calage utilises dans les simulations sur les donnes SILC 2009 (revenu des personnes salaries,
N = 7 922 )
marge
1
2
3
4
5
6
7
8

MARI
0
0
0
0
1
1
1
1

CHEF
0
0
1
1
0
0
1
1

HOMME
0
1
0
1
0
1
0
1
TOTAL

Tot. pop.
1 487
1 208
323
457
1 759
1 278
328
1 082
7 922

%
18,8
15,2
4,1
5,8
22,2
16,1
4,1
13,7
100,0

Pour chaque chantillon stratifi, un calage sur marge (mthode linaire) a t effectu de manire ce
que les sommes des poids aprs calage respectent les huit marges cites ci-dessus. Les estimations
ponctuelles des indicateurs ainsi que leur linarise ont t calcules pour chaque chantillon laide des
poids cals.
Pour estimer la variance, on a appliqu la mthode dveloppe par Deville (2000). Celle-ci consiste

linariser aussi par rapport au calage en calculant les rsidus e de la rgression (pondre par les poids
de sondage) des linrarises des indicateurs sur les variables auxiliaires du calage. La variance du total des
rsidus ainsi calculs sous plan alatoire stratifi sans remise est alors un estimateur de la variance de
lindicateur estim, ce qui est la grandeur qui nous intresse :
var lin ( ) =

Nh

n
h =1

( N h n h ) s 2

(4.2)

eh

avec
s 2 =
eh

2
1
(e k e )

n h 1 k S h

La qualit de lestimateur de variance par linarisation est value de manire analogue au cas du sondage
alatoire simple, voir (4.1).
Les tableaux 4.3, 4.4 et 4.5 prsentent les biais relatifs de la variance obtenus pour les trois jeux de
donnes utiliss et dcrits plus haut dans le cas du sondage alatoire simple. Le tableau 4.6 prsente les
biais relatifs de la variance obtenus dans le cas du sondage alatoire stratifi avec poids cals. Dans les
parties suprieures des tableaux, on trouve les valeurs pour lindice de Gini et le QSR. Ces derniers ne
ncessitent pas destimer la fonction de densit des revenus. Lestimation de leur variance fonctionne
bien. On note un problme de sous-estimation de la variance pour lindice de Gini dans le cas stratifi
avec calage (tableau 4.6).
Dans le cas du premier jeu de donnes considr, le tableau 4.3 ne rvle pas de trs grandes
diffrences si ce nest que lestimation de la densit de revenus par f3 ( x ) mne des rsultats plus
conservateurs. En effet, le biais relatif reste du mme ordre de grandeur mais positif, alors quil est ngatif
pour les deux autres manires destimer la densit. Pour le deuxime jeu de donne, le tableau 4.4 montre
quil est essentiel de passer par le logarithme ou dutiliser la mthode par plus proches voisins avec

Statistique Canada, No 12-001-X au catalogue

84

Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale

largeur de bande minimale. Avec cette dernire mthode, tous les biais relatifs tombent en-dessous de
10 % ds que les tailles dchantillons sont suffisamment grandes (voir la dernire colonne du tableau).
Les simulations sur les mmes donnes avec un plan de sondage stratifi et un calage renforcent et
confirment ces rsultats (voir tableau 4.6). Pour le troisime jeu de donnes, le tableau 4.5 indique les
mmes tendances, bien que les rsultats soient plus instables en raison des petites tailles dchantillon et
de population. Cette constatation nest pas surprenante, le nombre minimal de voisins prendre en compte
ayant t fix 30. En loccurrence, pour le jeu de donnes Ilocos, des simulations avec un p plus petit
fix 10 ne changent rien au final, car la condition h ( p j ) hopt le remonte systmatiquement au-dessus
de 30.
De plus, de manire gnrale, on constate que plus il faut avoir recours lestimation de la densit par
noyau gaussien - f1 ( x ) - plus lerreur augmente. En effet, les biais relatifs de la variance pour la mdiane
des pauvres et le RMPG sont presque systmatiquement plus grands en valeur absolue que ceux pour les
autres indicateurs. Pour le RMPG, lerreur peut se compenser (cas du tableau 4.3) sil y a suffisamment
dobservations car lestimation de la densit intervient tant au numrateur quau dnominateur.

Tableau 4.3
Biais relatifs (4.1) de la variance obtenus avec 10 000 chantillons alatoires simples sans remise sur les
donnes SILC 2009 (revenu quivalent des mnages, N = 17 534 )
Indice
GINI
QSR
ARPT
ARPR
RMPG
MEDP
MED

n = 500 ( 2,9 %)
-0,02
0,01
f1
f2
-0,08
-0,05
-0,09
-0,16
-0,08

-0,06
-0,01
-0,07
-0,12
-0,06

Tailles dchantillons (taux de sondage)


n = 750 (4,3 %)
-0,02
0,00
f3
f1
f2
f3
0,04
-0,00
0,15
0,09
0,05

-0,09
-0,09
-0,10
-0,19
-0,08

-0,07
-0,06
-0,07
-0,13
-0,06

0,03
-0,05
0,12
0,05
0,04

n = 1 000 ( 5,7 %)
-0,02
0,00
f1
f2
-0,09
-0,08
-0,09
-0,18
-0,08

-0,07
-0,05
-0,06
-0,11
-0,06

f3
0,04
-0,03
0,14
0,07
0,04

Tableau 4.4
Biais relatifs (4.1) de la variance obtenus avec 10 000 chantillons alatoires simple sans remise sur les
donnes SILC 2009 (revenu des personnes salaries, N = 7 922 )
Indice
GINI
QSR
ARPT
ARPR
RMPG
MEDP
MED

n = 500 (6,3 %)
-0,03
-0,00
f1
f2
0,07
-0,05
0,61
0,73
0,07

0,05
-0,04
0,12
0,17
0,04

Statistique Canada, No 12-001-X au catalogue

Tailles dchantillons (taux de sondage)


n = 750 (9,5 %)
-0,03
0,00
f 3
f 1
f2
f3
0,13
-0,02
0,15
0,18
0,13

0,06
-0,05
0,60
0,72
0,06

0,04
-0,04
0,11
0,16
0,04

0,10
-0,01
0,08
0,10
0,10

n = 1 000 (12,6 % )
-0,02
0,00
f 1
f2
0,06
-0,06
0,59
0,72
0,05

0,03
-0,05
0,09
0,15
0,03

f3
0,08
-0,02
0,05
0,07
0,07

85

Techniques denqute, juin 2014

Tableau 4.5
Biais relatifs (4.1) de la variance obtenus avec 10 000 chantillons alatoires simple sans remise sur les
donnes Ilocos (revenu des mnages, N = 632 )
Indice
GINI
QSR

f1
-0,05
-0,31
1,55
1,02
0,04

ARPT
ARPR
RMPG
MEDP
MED

Tailles dchantillons (taux de sondage)


n = 50 ( 7,9 %)
n = 63 (10,0 %)
-0,16
-0,13
0,00
0,00
f2
f3
f1
f2
-0,06
-0,01
-0,03
-0,03
-0,01
-0,12
-0,33
-0,03
0,83
0,26
1,54
0,16
0,28
-0,26
1,05
0,07
0,03
0,08
0,07
0,07

f3
-0,01
-0,18
0,39
-0,11
0,09

Tableau 4.6
Biais relatifs (4.1) de la variance obtenus avec 10 000 chantillons alatoires stratifis sans remise, avec poids
cals sur huit marges sociodmographiques, sur les donnes SILC 2009 (revenu des personnes salaries,
N = 7 922 )
Indice
GINI
QSR
ARPT
ARPR
RMPG
MEDP
MED

n = 500 (6,3 %)
-0,21
-0,06
f1
f2
-0,07
-0,09
-0,10
-0,10
0,63
0,13
0,71
0,16
-0,07
-0,09

Tailles dchantillons (taux de sondage)


n = 750 (9,5 %)
-0,20
-0,06
f3
f1
f2
f3

-0,01
-0,08
0,13
0,15
-0,01

-0,08
-0,07
0,61
0,68
-0,08

-0,10
-0,06
0,11
0,13
-0,10

-0,04
-0,05
0,08
0,09
-0,04

n = 1 000 (12,6 % )
-0,20
-0,07
f1
f2
-0,09
-0,11
-0,06
-0,06
0,59
0,10
0,66
0,12
-0,08
-0,11

f3
-0,06
-0,05
0,04
0,04
-0,06

En rsum, on voit que lon peut tout autant surestimer la variance RB [ var lin ( )] > 0 que la sousestimer

( RB [var

lin

( )] < 0

selon lindice et le jeu de donnes considrs. Le fait de passer au

logarithme ( f2 ( x )) amliore trs significativement la situation. La mthode par plus proches voisins
( f ( x )) fait disparatre tout problme si on a suffisamment de donnes (cas des tableaux 4.3, 4.4 et 4.6).
3

Cette dernire a un peu plus de difficult si les chantillons sont petits (cas du tableau 4.5). Les variations
illogiques et les biais qui subsistent dans les tableaux peuvent aussi tre dus au manque de robustesse des
linarises sur certains chantillons comme mentionn la section 3.3.

5 Conclusions
Dans plusieurs pays, des enqutes par chantillonnage de niveau national publient les valeurs
extrapoles des indices de Laeken (Eurostat 2005) car elles constituent des indicateurs importants
permettant daiguiller les preneurs de dcisions aux niveaux politique et social. Il est ds lors essentiel de
pouvoir quantifier la prcision de ces mesures, ce qui soulve la question de la pertinence de lestimation

Statistique Canada, No 12-001-X au catalogue

86

Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale

de la prcision dont on dispose. Ce travail montre quune amlioration substantielle peut tre faite dans
lestimation de la prcision dindices de pauvret et dingalit qui ncessitent le recours une estimation
(locale) de la densit des revenus ou de la variable montaire considre.
Les simulations menes montrent que la mthode destimation de la densit par noyau gaussien
actuellement mise en uvre dans la plupart des cas nest pas recommander sans au moins passer par le
logarithme comme propos dans la section 3.1, faute de quoi le biais de la variance estime peut devenir
trs important. La mthode par plus proches voisins (section 3.2) qui impose aussi une largeur de
bande minimale peut donner des rsultats encore meilleurs, surtout si on a des agglomrats dobservations
en certaines valeurs dans les donnes tudies. Elle ncessite cependant de choisir un nombre minimal p
de voisins en fonction des donnes sur lesquelles on travaille. Si lon a peu dobservations disposition, il
est prfrable den rester la variante du logarithme. Dans tous les cas, nous esprons que ce travail
contribuera une prise de conscience du fait quil faut tre mticuleux lors de limplmentation du calcul
des linarises pour tous les indicateurs faisant intervenir des quantiles.

6 Remerciements
Ce travail a t ralis dans le cadre dune convention de collaboration entre lInstitut de Statistique de
lUniversit de Neuchtel et lOffice Fdral de la Statistique (OFS). Nous tenons galement remercier
en particulier la section Revenus, consommation et conditions de vie de lOFS pour nous avoir mis
disposition les donnes de la partie suisse de lenqute europenne sur le revenu et les conditions de vie.
Merci aussi Matti Langel et Anne Massiani pour leur appui au cours de nos investigations.

Bibliographie
Antal, E., Langel, M. et Tilll, Y. (2011). Variance estimation of inequality indices in complex sampling
designs. Proceedings 58th World Statistical Congress, Dublin.
Ardilly, P., et Osier, G. (2007). Cross-sectional variance estimation for the French Labour Force Survey.
Survey Research Methods, 1, 75-83.
Beaumont, J.-F., Haziza, D. et Ruiz-Gazen, A. (2013). A unified approach to robust estimation in finite
population sampling. Biometrika, 100, 555-569.
Chambers, R.L. (1986). Outlier robust finite population estimation. Journal of the American Statistical
Association, 81, 1063-1069.
Croux, C. (1998). Limit behaviour of the empirical influence function of the median. Statistics &
Probability Letters, 37, 331-340.
Demnati, A., et Rao, J.N.K. (2004). Estimateurs de variance par linarisation pour des donnes denqute.
Techniques denqute, 30, 1, 17-27.

Statistique Canada, No 12-001-X au catalogue

Techniques denqute, juin 2014

87

Deville, J.-C. (2000). Estimation de variance pour des statistiques et des estimateurs complexes :
linarisation et techniques de rsidus. Techniques denqutes, 25, 2, 219-230.
Deville, J.-C., et Srndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the
American Statistical Association, 87, 376-382.
Eurostat (2004a). Common cross-sectional eu indicators based on eu-silc; the gender pay gap. Documents
de travail et dtudes de lOffice for Official Publications of the European Communities, Luxembourg.
EU-SILC 131-rev/04.
Eurostat (2004b). Theoretical study of the gini index. Documents de travail et dtudes de lOffice for
Official Publications of the European Communities, Luxembourg. EU-SILC 131-A/04.
Eurostat (2005). The continuity of indicators during the transition between ECHP and EU-SILC.
Documents de travail et dtudes de lOffice for Official Publications of the European Communities,
Luxembourg.
Goga, C., Deville, J.-C. et Ruiz-Gazen, A. (2009). Use of functionals in linearization and composite
estimation with application to two-sample survey data. Biometrika, 96, 691-709.
Graf, M. (2011). Use of survey weights for the analysis of compositional data. Dans Compositional Data
Analysis, Theory and Applications, (ds., V. Pawlosky-Glahn et A. Buccianti), Oxford : Wiley,
chapitre 9, 114-127.
Graf, M. (2013). A simplified approach to linerarization variance for surveys. University of Neuchtel,
document de travail.
Graf, M., et Nedyalkova, D. (2011). GB2: Generalized Beta Distribution of the Second Kind: properties,
likelihood, estimation. R package version 1.0.
Hampel, F.R. (1974). The influence curve and its role in robust estimation. Journal of the American
Statistical Association, 69, 383-393.
Hulliger, B. (1999). Simple and robust estimators for sampling. Proceedings of the Survey Research
Methods Section, American Statistical Association, 54-63.
Hyndman, R.J., et Fan, Y. (1996). Sample quantiles in statistical packages. American Statistician, 50, 361365.
Kovaevi, M.S., et Binder, D.A. (1997). Variance estimation for measures of income inequality and
polarization - The estimating equations approach. Journal of Official Statistics, 13, 41-58.
Langel, M., et Till, Y. (2011). Statistical inference for the quintile share ratio. Journal of Statistical
Planning and Inference, 141, 2976-2985.
Langel, M., et Till, Y. (2012). Variance estimation of the Gini index: Revisiting a result several times
published. Dans Press in Journal of the Royal Statistical Society - Series A.
Lorenz, M.O. (1905). Methods of measuring the concentration of wealth. American Statistical
Association, 9, 209-219.

Statistique Canada, No 12-001-X au catalogue

88

Graf et Till : Estimation de variance par linarisation pour des indices de pauvret et dexclusion sociale

Osier, G. (2009). Variance estimation for complex indicators of poverty and inequality using linearization
techniques. Survey Research Methods, 3, 167-195.
Silverman, B.W. (1986). Density Estimation for Statistics and Data Analysis. Chapman and Hall, Londres.
Verma, V., et Betti, G. (2011). Taylor linearization sampling errors and design effects for poverty
measures and other complex statistics. Journal of Applied Statistics, 38, 1549-1576.
Zeileis, A. (2012). ineq: Measuring Inequality, Concentration, and Poverty. R package version 0.2-10.

Statistique Canada, No 12-001-X au catalogue

Techniques denqute, juin 2014


Vol. 40, No 1, pp. 89-114
Statistique Canada, No 12-001-X au catalogue

89

Proprits thoriques et empiriques destimateurs par la


rgression fonds sur un test de dcision assists par modle
Jun Shao, Eric Slud, Yang Cheng, Sheng Wang et Carma Hogue1
Rsum
En 2009, deux enqutes importantes ralises par la division des administrations publiques du U.S. Census
Bureau ont t remanies afin de rduire la taille de lchantillon, dconomiser des ressources et damliorer la
prcision des estimations (Cheng, Corcoran, Barth et Hogue 2009). Sous le nouveau plan de sondage, chaque
strate habituelle, dfinie par ltat et le type dadministration publique, qui contient un nombre suffisant
dunits (administrations publiques) est divise en deux sous-strates en fonction de la masse salariale totale de
chaque unit afin de tirer un plus petit chantillon de la sous-strate des units de petite taille. Lapproche
assiste par modle est adopte pour estimer les totaux de population. Des estimateurs par la rgression
utilisant des variables auxiliaires sont obtenus soit pour chaque sous-strate ainsi cre soit pour la strate
originale en regroupant des deux sous-strates. Cheng, Slud et Hogue (2010) ont propos une mthode fonde
sur un test de dcision qui consiste appliquer un test dhypothse pour dcider quel estimateur par la
rgression sera utilis pour chaque strate originale. La convergence et la normalit asymptotique de ces
estimateurs assists par modle sont tablies ici sous un cadre asymptotique fond sur le plan de sondage ou
assist par modle. Nos rsultats asymptotiques suggrent aussi deux types destimateurs de variance
convergents, lun obtenu par substitution des quantits inconnues dans les variances asymptotiques et lautre en
appliquant la mthode du bootstrap. La performance de tous les estimateurs des totaux et des estimateurs de
leur variance est examine au moyen dtudes empiriques. LAnnual Survey of Public Employment and Payroll
(ASPEP) des tats-Unis est utilis pour motiver et illustrer notre tude.
Mots-cls :

Normalit asymptotique; bootstrap; estimateur fond sur un test de dcision; probabilit proportionnelle la
taille; stratification; estimation de la variance.

1 Introduction
LAnnual Survey of Public Employment and Payroll (ASPEP) des tats-Unis fournit des estimations
courantes de lemploi et de la rmunration temps plein et temps partiel dans les administrations
publiques dtat et locales par fonction (par exemple, enseignement primaire et secondaire, enseignement
suprieur, services de police, services de protection contre lincendie, administration financire, services
judiciaires et juridiques, etc.). Cette enqute a pour champ dobservation les administrations publiques
dtat et locales (89 526 selon le Census of Governments de 2007), qui englobent les comts, les villes,
les cantons, les administrations appeles districts spciaux et les districts scolaires. LASPEP, qui est
la seule source de donnes sur lemploi dans le secteur public par fonction administrative et catgorie
demploi, fournit des donnes sur le nombre et la rmunration des employs temps plein et temps
partiel, ainsi que le nombre dheures travailles par les employs temps partiel. Habituellement, la
collecte des donnes dbute en mars et se poursuit pendant environ sept mois, en prenant la priode de
paye incluant le 12 mars comme priode de rfrence.
Soit U la population finie de N units subdivise en H strates, U 1 , , U H , o U h contient N h
units et N 1 + + N H = N . Le plan de sondage habituel de lASPEP est un plan avec probabilit
1. Jun Shao, Statistics Department University of Wisconsin, Madison WI , Courriel: shao@stat.wisc.edu; Eric Slud, Center for Statistical
Research and Methodology, US Census Bureau, Washington DC and Mathematics Department, University of Maryland, College Park, MD,
Courriel: eric.v.slud@census.gov; Yang Cheng, Demographic Statistical Methods Division, US Census Bureau, Washington DC, Courriel:
yang.cheng@census.gov; Sheng Wang, Mathematica Policy Research, Princeton NJ, Courriel : swang@mathematica-mpr.com; et Carma
Hogue, Governments Division, US Census Bureau, Washington DC, Courriel: carma.ray.hogue@census.gov.

90

Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision

proportionnelle la taille (PPT), o les strates sont construites en se basant sur ltat et le type
dadministration publique, savoir le comt, le sous-comt (grande ou petite ville), le district spcial ou le
district scolaire. La taille de chaque unit (administration publique) est mesure par la masse salariale
totale, et lchantillonnage est effectu indpendamment dans les diverses strates. En 2009, on a labor
un plan dchantillonnage modifi, qui comprend la division de certaines strates U h en deux sous-strates,
U h 1 et U h 2 contenant N h1 et N h 2 units, respectivement, o U h 1 contient les units de petite taille
(Cheng et coll. 2009). Lide tait dconomiser des ressources et de rduire le fardeau de rponse en
slectionnant dans U h 1 un chantillon plus petit sous le plan modifi que sous le plan habituel. Soit S hj un
chantillon PPT de taille n hj provenant de U hj , j = 1, 2, n h 1 + n h 2 = n h . Notons que n h1 peut encore
tre plus grand que n h 2 , parce que N h1 est habituellement beaucoup plus grand que N h 2 .
Pour lunit i U , soit y i une variable tudie cl (p. ex., lemploi temps plein, la rmunration
temps plein, lemploi temps partiel, la rmunration temps partiel, les heures travailles temps
partiel), x i une variable auxiliaire, disons la mme variable que y i provenant du recensement le plus
rcent, et soit z i la covariable utilise comme variable de taille dans lchantillonnage PPT. Les valeurs
des covariables x i et z i sont observes pour tout i U , tandis que y i est observe uniquement pour
chaque unit i chantillonne.
Lestimateur de Horvitz-Thompson du total inconnu Y =

YHT =

j iS hj

iU

y i est

yi i ,

(1.1)

o i est la probabilit dinclusion dordre un de lunit i dans S hj , une fonction connue des z i . Pour
utiliser la variable auxiliaire x i et accrotre la prcision de lestimation de Y , lapproche assiste par
modle (Srndal, Swensson et Wretman 1992) a t adopte. Lapplication de la rgression dans chaque
chantillon S hj conduit lestimateur par la rgression de Y de la forme

Yreg,2 =

o X hj =

iU hj

x i , Yhj =

i S hj

N hj X hj
N hjYhj
+ hj X hj
,

N hj
N hj

y i i , X hj =

hj =

i S hj

( xi

i S hj

( xi

i S hj

x i i , N hj =

X hj N hj ) y i i
2
X hj N hj ) i

i S hj

(1.2)
1 i , et

Autrement, la combinaison des deux sous-strates S h1 et S h 2 donne lestimateur par la rgression suivant.
(Un examinateur fait remarquer correctement que Yreg,1 dans (1.3) nest pas lestimateur group que lon
utiliserait si les droites de rgression dans la strate h taient combines mais que les deux sous-strates ne
ltaient pas; cependant, il est lestimateur naturel lorsque non seulement les droites de rgression, mais
aussi les sous-strates sont combines.)

Statistique Canada, No 12-001-X au catalogue

91

Techniques denqute, juin 2014

Yreg ,1 =

N X
N hYh

+ h X h h h ,
N h
N h

o Yh =

Yhj , X h =

X hj , N h =

h =

N hj , et

i S hj

(1.3)

( xi

X h N h ) y i i

(xi
i S hj

2
X h N h ) i

Puisque Yreg,1 ainsi que Yreg ,2 sont des estimateurs assists par modle, ils sont convergents sous
chantillonnage rpt, que le modle de rgression soit ou non vrifi. Si les droites de rgression par les
moindres carrs dans les deux sous-strates U hj sont les mmes, Yreg,1 peut tre plus efficace que Yreg ,2 .
Par ailleurs, si les droites de rgression sont diffrentes, Yreg ,2 peut tre plus efficace que Yreg ,1 .

Cheng et coll. (2010) ont propos une mthode fonde sur un test de dcision qui consiste appliquer
un test dhypothse pour dcider sil faut combiner S h1 et S h 2 . lintrieur de la strate h , on teste
lhypothse dgalit des pentes des droites de rgression dans U h 1 et U h 2 . Soit
hj

Si t h > t1 2, n

2
xhj

h 4

Yhj hj X hj 2
n hj
=
, xe , hj = 2

N hj
N hj
=

iS hj

( xi

2
X hj ( y i hj hj x i )

,
x i N
i2
iS hj
hj

2
X hj N hj )
, th =
i N hj

n h 4 ( h1 h 2 )

nh
j =1

2xe , hj
n hj 4xhj

, o t1 2, est le ( 1 2 )e quantile de la distribution t avec degrs de libert, alors

nous rejetons lhypothse dune pente commune et nous utilisons hj (et fixons h = 1 ). Ici, est un
seuil de signification nominal fix par dfaut 0,05, mais nous considrerons dautres choix de la valeur
de la section consacre aux simulations. La dfinition de la statistique de test faisant intervenir
n h 4 degrs de libert est un choix lgrement artificiel conu afin de rendre les probabilits de rejet
dun chantillon modr plus proches de la valeur nominale, mais la thorie asymptotique en grand
chantillon justifiant ce test est donne la partie (c) du thorme 1. Si t h t1 2, n 4 , alors nous
h

acceptons lhypothse dune pente commune, nous combinons les sous-strates S h1 et S h 2 , et nous
utilisons h ( en fixant h = 0 ) . Les tests sont effectus de manire indpendante dans les diverses
strates h = 1, , H . Lestimateur de Y fond sur le test de dcision est alors

Ydec =

N hj X hj
N hjYhj
+ hj X hj
+

N hj
N hj

(1
h

N X
N hYh
+ h X h h h . (1.4)
N h
N h

Puisque les deux droites de rgression ayant une pente commune peuvent avoir des ordonnes
lorigine diffrentes, on pourrait tester une hypothse supplmentaire concernant les ordonnes lorigine
pour dcider sil faut combiner les deux sous-strates. Cependant, des points de population ( x i , y i ) se

Statistique Canada, No 12-001-X au catalogue

92

Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision

trouvant sur deux droites de rgression de sous-strate parallles, mais non identiques seraient discontinus
autour du seuil entre les deux sous-strates U h 1 et U h 2 , ce qui ne semble ne se produire que rarement dans
les situations pratiques. Par exemple, dans lASPEP, Cheng et coll. (2010) ont tudi les pentes et les
ordonnes lorigine de sous-strates dans les ensembles de donns des recensements des administrations
publiques de 2002 et de 2007, et ont constat que lhypothse dune ordonne lorigine commune ne
pouvait jamais tre rejete lorsque lhypothse dune pente commune ne pouvait pas ltre. Donc,
lestimateur fond sur un test de dcision donn dans (1.4) dpend uniquement du test de lhypothse
dgalit des pentes des droites de rgression des sous-strates.
Les estimateurs deux degrs tudis ici sont des cas particuliers de procdures nommes
antrieurement estimateurs aprs un test prliminaire (preliminary test estimators). Il existe une littrature
abondante traitant de lutilisation de ce genre de procdures dans les enqutes, y compris une
bibliographie de Bancroft et Han (1977), un livre publi par Saleh (2006) et un traitement propos par
Fuller (2009, section 6.7). Une ide de Saleh (2006) consiste estimer les coefficients par une
combinaison convexe des coefficients estims partir des strates distinctes en faisant dpendre les
proportions dune statistique de test. Les estimateurs lisss de ce genre pourraient tre plus efficaces que
nos procdures fondes sur un test de dcision. Si les ordonnes lorigine et les pentes propres aux
strates taient considres comme alatoires, on pourrait aussi essayer dappliquer lestimation une
approche baysienne empirique fonde sur un modle.
Les estimateurs fonds sur un test de dcision (1.4) sont nouveaux, parce quils sont assists par
modle et convergents sous le plan dans le contexte des sondages, et utilisent explicitement les tailles de
population de sous-strate connues. Dans un esprit peu prs semblable, Rao et Ramachandran (1974)
avaient effectu antrieurement une comparaison exacte des estimateurs par le ratio distincts et combins
sous un modle de ratio similaire au modle de rgression considr dans le prsent article.
Lobjectif de larticle est dillustrer certaines proprits asymptotiques et empiriques des estimateurs de
Y dcrits plus haut et des estimateurs de leur variance. La convergence et la normalit asymptotique de
Yreg,1 , Yreg,2 , et Ydec sont tablies la section 2, dans le contexte de la thorie asymptotique fonde sur le
plan de sondage ou assiste par modle. Bien que les rsultats asymptotiques dordre un favorisent Yreg ,2 ,

Yreg,1 pourrait tre meilleur quand certaines tailles dchantillon de sous-strate n h 2 sont modres, un effet
asymptotique dordre deux. Lavantage de lestimateur fond sur un test de dcision Ydec tient
ladaptation en vue dtre proche de Yreg,1 ou de Yreg ,2 selon celui qui est le meilleur. Comme lindique la
discussion du paragraphe (III) de la section 4.4, les simulations montrent que lavantage de cette
adaptabilit est de rduire lEQM dune quantit allant jusqu quelques pour cent sous des conditions de
paramtrisation raisonnables, et de plus grandes quantits sous des conditions plus tranges.
Lestimation de la variance de lestimateur fond sur un test de dcision est traite la section 3.
Mme si la thorie asymptotique expose la section 2 laisse entendre que des estimateurs convergents de
variance sont obtenus par substitution des quantits inconnues dans les formules de variance
asymptotique, nous tudions aussi les estimateurs bootstrap de la variance proposs dans Cheng et coll.
(2010), qui ont gnralement de meilleures proprits en chantillon fini que les estimateurs par
substitution. Les rsultats empiriques sont prsents la section 4, les interprtations et les conclusions
tant formules la sous-section 4.4. Toutes les preuves techniques sont donnes en annexe.

Statistique Canada, No 12-001-X au catalogue

93

Techniques denqute, juin 2014

2 Convergence et normalit asymptotique


Afin dexaminer les proprits asymptotiques, nous considrons la population U comme lune dune
srie de populations {U (m ) , m = 1, 2, } , o le nombre dunits dans U (m) tend vers linfini quand
m . Nous ne traitons ici que le cas de strates desquelles est tir un grand chantillon n h ; autrement
dit, nous supposons que, pour chaque strate h , la taille de lchantillon n h dpend de m et tend vers
linfini quand m , mais nous omettons lindice m pour simplifier la notation. Tous les processus
limites sont considrs pour m . linstar dauteurs tels que Isaki et Fuller (1982) et Deville et
Srndal (1992), nous donnons ces conditions le nom de cadre asymptotique de superpopulation. Sous le
cadre fond sur le plan de sondage considr la section 2.1, les vecteurs dattributs dans les populations
sous-jacentes ne doivent pas tre considrs comme des vecteurs alatoires. Cependant, sous le cadre
assist par modle considr la section 2.2, des modles de rgression hypothtiques sont associs aux
vecteurs dattributs.
Puisque chaque estimateur est une somme destimateurs indpendants construits dans chaque strate,
pour simplifier, nous prsentons les rsultats asymptotiques pour le cas o H = 1. Les rsultats et les
conclusions sappliquent directement au cas dune valeur fixe de H et peuvent aussi tre tendus la
situation o H tend vers linfini. (Il est habituel que les grandes enqutes contiennent de nombreuses
strates, quoique dans lASPEP, le nombre de strates dfinies selon le type dadministration publique qui
ont t subdivises en sous-strates tait un peu infrieur 100.) Puisque nous considrons seulement le cas
H = 1, nous omettons lindice h dsignant la strate la prsente section, p. ex., n hj = n j , n h = n ,

N hj = N j et N h = N . En outre, pour j = 1, 2, les estimateurs j et sont dfinis par les formules


prsentes aprs les quations (1.2) et (1.3) avec lindice infrieur h supprim, considres conjointement
avec

xj = X j N j ,
2xe , j = n j

(x

iS j

j = Y j N j j xj ,
xj )

(y

2
j j x i )

2
2xj = N j 1 i1 ( x i xj )

i S j

2
i

N 2j ) .

De surcrot, pour simplifier, nous nexaminons les rsultats asymptotiques que sous chantillonnage avec
remise. Les rsultats peuvent tre appliqus au cas de lchantillonnage sans remise si la fraction
dchantillonnage n N est ngligeable.

2.1 Cadre asymptotique fond sur le plan de sondage


Premirement, nous tablissons la normalit asymptotique de Yreg,1 et Yreg ,2 sous chantillonnage

rpt, cest--dire quand y i et x i sont fixes pour i U , et S j est un chantillon PPT alatoire.
Thorme 1 Supposons que S 1 et S 2 sont des chantillons PPT indpendants tirs avec remise de U 1 et
U 2 , respectivement, o lunit i U j possde la probabilit p ij = z i iU z i > 0 dtre slectionne,
j

et le poids dchantillonnage i1 = 1 ( n j p ij ) pour j = 1, 2, et que les quatre conditions qui suivent


sont vrifies, mesure que lindice squentiel de population m tend vers .

Statistique Canada, No 12-001-X au catalogue

94

Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision

(C1) Il existe des constantes j et j telles que

n n j j et N j N j .

(C2) Pour j = 1, 2, il existe des constantes yj , xj et j telles que

Yj = Yj N j =

y i N j yj , X

i U j

existent, de mme que les limites N j 1 iU

nj N j)

x (y

iU j

(C3) Les limites D N =


j

= X

( xi
j

Nj =

i U j

N j xj

xj ) 2xj > 0, et en outre,


2

Y j N j j ( x i X j N j )) 0 quand n , N .

p ij bij bijT N 2j D j existent, o pour i U j ,

iU j

bij = 1 p ij N j , x i p ij X j , y i p ij Y j ,

v T dsigne la transpose vectorielle, et D j est dfinie positive. La limite 2xe , j =

lim N j 2 iU ( x i xj )

( yi

(C4) Les lments de j =

iU j

j j xi )

p ij existe aussi, pour j = yj j xj .

p ij c ij c ijT N 4j forment une squence borne, o pour i U j ,

2
2
2
cij = (1 p ij N j ) , ( x i p ij X j ) , ( y i p ij Y j ) .

Alors, quand m , les conclusions qui suivent sont vrifies.


(a)

Pour j = 1, 2, xj xj , yj yj , j j , j j , et 2xj 2xj , o


P
P
P
P
P
P

dsigne la convergence en probabilit.


(b)

Lestimateur pour la strate combine possde lexpression exacte

j 2xj N j + ( X 2 X 1 ) (Y2 Y1 ) N 1 N 2

2
j =1

2
2xj N j + ( X 2 X 1 ) N 1 N 2
j =1

( N 1

( N 1 + N 2 )
+ N 2 )

(2.1)

et la limite en probabilit

2
j =1

j 2xj j + ( x 2 x1 ) ( y 2 y 1 ) 1 2

2xj j + ( x 2 x 1 ) 1 2
j =1

n j ( j j ) d N (0, 2xe , j 4x , j ) ,

(c)

2
xe , j

2
xe , j

Statistique Canada, No 12-001-X au catalogue

dsigne la convergence en loi, et

95

Techniques denqute, juin 2014

(d)

Pour k = 1, 2,

n (Yreg, k Y ) N d N (0, 2k )
o 2k =

2
j =1

(2.2)

a kjT D j a kj et

a1 j = j j ( y x ) , ,1 ,
T

a 2 j = j j ( yj j xj ) , j ,1 ,
T

x = 1 x 1 + 2 x 2 , y = 1 y 1 + 2 y 2 , et D j est donne dans la condition (C3).

Les conditions (C1) (C4) du thorme 1 fournissent une formulation gnrale du cadre de
superpopulation pour linfrence statistique sous le plan de sondage en grand chantillon, dans laquelle les
coefficients de rgression selon lenqute estiment des paramtres descriptifs bien dfinis de la population
servant de base de sondage. Les rsultats des parties (a) (b) montrent que les limites en probabilit
j , j de j , j possdent linterprtation classique de pentes et dordonnes lorigine de droites des
moindres carrs de superpopulation. (Ces paramtres de pente et dordonne lorigine conservent aussi
leur interprtation sous un modle habituelle sous le modle (2.7) prsent la section 2.2.) La thorie
asymptotique pour j dans la conclusion (c) nous permet de dduire le comportement en grand
chantillon de Ydec partir de celui fourni dans (d) pour Yreg, k .
Sous les conditions supplmentaires
1 = 2 , 1 = 2 ,

(2.3)

il dcoule clairement de la partie (b) du thorme 1 que j = , et 12 = 22 dans (2.2), de sorte que

Yreg,1 , Yreg ,2 et Ydec sont tous les trois asymptotiquement les mmes jusqu des restes dordre plus faible
n , comme nous allons le montrer maintenant. En outre, si 1 2 , alors Yreg,2 Ydec continue

que N

dtre o P ( N

n ) , et le test dgalit des pentes aboutit au rejet, c.--d. P (Ydec = Yreg,2 ) 1, et par

consquent Ydec suit la mme loi asymptotique que Yreg,2 , qui est plus efficace que Yreg,1 selon le rsultat
de la section 2.2.
Thorme 2 Supposons que lon formule les mmes hypothses (C1) (C4) que pour le thorme 1.

(a)

Quand la condition (2.3) est vrifie, alors quand m

n ( 2 1 ) d N ( 0, 2d ) ,

2d =

2xe , j

j =1

2
j

4
xj

(2.4)

et les estimateurs Yreg ,1 , Yreg ,2 et Ydec suivent tous une loi asymptotiquement normale et sont
quivalents au sens o
n
2
2
Y
Yreg ,2 ) + (Yreg ,2 Ydec ) 0.
2 ( reg ,1

P
N

(2.5)

Statistique Canada, No 12-001-X au catalogue

96

Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision

(b)

Quand 1 2 , P (Ydec = Yreg,2 ) 1 et

n (Ydec Y ) N

N ( 0, 22 ) .

Une tude plus perfectionne du comportement asymptotique des estimateurs Ydec

peut tre

entreprise dans lesprit de Saleh (2006), comme dans le cas des versions contigus ou de Pitman pour les
modles statistiques hors du contexte des sondages, en supposant que
n ( 1 2 ) r pour une
constante r . Sous cette hypothse, on peut montrer que Yreg,1 Yreg,2 = o P ( N
n ) et, par consquent,
que les trois estimateurs centrs et rduits

n (Ydec Y ) ,

n (Yreg ,2 Y ) et

n (Yreg,1 Y ) suivent tous

la mme loi normale asymptotique de moyenne 0. En outre,

P (Ydec = Yreg,2 ) ( z / 2 + r d ) + ( z / 2 r d ) ,

(2.6)

o 2d est donn dans (2.4), et z 2 et sont, repectivement, le point de pourcentage et la fonction de


rpartition de la loi normale centre rduite. Donc, P (Ydec = Yreg,2 ) possde une limite diffrente de 1. En
particulier, dans (2.6), la limite est gale quand 1 = 2 (c.--d. quand r = 0 ).

2.2 Cadre asymptotique assist par modle


la prsente section, nous examinons le comportement des estimateurs Yreg, k , Ydec sous le modle
probabiliste hypothtique selon lequel les triplets ( x i , y i , z i ) dans la population finie, i U j , sont
indpendants et identiquement distribus (iid), o les variables de taille z i > 0 sont utilises pour dfinir
les probabilits de slection PPT avec remise p ij = z i i U z i , et o x i et y i suivent le modle
j

yi = j + j xi + i , i U j ,

(2.7)

avec j et j reprsentant les paramtres ordonne lorigine et pente inconnus pour la rgression dans
la strate U j . Nous supposons que les erreurs i , i U j , sont iid de moyenne 0 et de variance finie 2 ,
et quelles sont indpendantes de ( x i , z i ), et que les variables x i pour i U j ont une variance finie. En
outre, pour permettre lchantillonnage PPT, nous supposons que max iU j n j p ij < 1 avec la probabilit
sapprochant de 1 quand m est grand, c.--d. quand n j , N j sont grands.
la prsente section, les proprits asymptotiques des estimateurs Yreg, k , Ydec sont considres en
regard du modle de rgression et de lchantillonnage rpt. En vertu du thorme 1, les estimateurs
assists par modle Yreg,1 et Yreg ,2 sont encore convergents et asymptotiquement normaux pour les triplets
( x i , y i , z i ) iid lintrieur des strates, puisque les conditions (C1) (C4) sont satisfaites sous les
hypothses de moments sur z i , 1 z i , mme si le modle (2.7) est incorrect. Cependant, les estimateurs

Yreg , k sont efficaces quand le modle (2.7) est correct.


Thorme 3 Supposons que lon a le modle (2.7) ainsi que la condition (C1), avec
E ( x i4 ) < , E ( i4 ) < , E ( z i ) < , et E ((1 + x i4 ) z i3 ) < . Alors, toutes les conclusions du

thorme 1 et du thorme 2 sont encore vrifies. En particulier, quand 1 2 , 12 , la variance

Statistique Canada, No 12-001-X au catalogue

97

Techniques denqute, juin 2014

asymptotique de

n (Yreg,1 Y ) N

est plus grande que 22 ,

n (Yreg,2 Y ) N . En outre,

la variance asymptotique de

n (Ydec Y ) N d N (0, (1 ) 12 + 22 ) ,

(2.8)

o est la limite de P (Ydec = Yreg,2 ) .


Notons que, dans (2.8), est gal 1 quand 1 2 et gal quand 1 = 2 .
Selon le thorme 3, sous le modle (2.7), les trois estimateurs dfinis dans (1.2) (1.4) ont tous la
mme efficacit asymptotique quand 1 = 2 et 1 = 2 (condition (2.3)). De surcrot, Yreg,1 est
asymptotiquement pire que

Yreg ,2

quand

1 2 .

Donc, pourquoi nutiliserions-nous pas

systmatiquement Yreg,2 ?
Les assertions du thorme 3 sont des rsultats asymptotiques dordre un. Un rsultat asymptotique
dordre deux, plus affin, sous les conditions du thorme 3 et la condition (2.3) quand les tailles z i sont
toutes gales est que, jusqu un terme dordre n 12 + n 22 ,
2
Yreg,1 2

Yreg,2 2
n1 n 2 ( X 1 X 2 )

eqm
eqm
1

n
n
nD n
N

o leqm est lerreur quadratique moyenne conditionnellement aux x i , X


2

Dn =

(x
j =1 iU j

X j)

(2.9)

= N j 1 iU x i , et

n n (X X 2)
+ 1 2 1
.
n
2

Le rsultat (2.9) indique que, lorsque les poids sont gaux et que 1 = 2 et 1 = 2 , la performance en
chantillon fini de Yreg,1 pourrait tre meilleure que celle de Yreg ,2 pour des valeurs modres de n 1 et n 2 .
Voir les rsultats des simulations la section 4. La preuve de (2.9) est un cas particulier dun rsultat plus
gnral donn dans Slud (2012) et est donc omise.
Dans les applications, nous ne savons pas si 1 = 2 . Donc, lestimateur fond sur un test de dcision
Ydec est une procdure adaptative pour slectionner un bon estimateur. Compte tenu de (2.8), la
performance de Ydec est proche (un peu moins bonne) de celle de Yreg ,2 quand 1 2 , et est proche (un
peu moins bonne) de celle de Yreg,1 quand 1 = 2 et 1 = 2 . Ces constatations sont galement
corrobores par les rsultats des simulations la section 4.

3 Estimation de la variance
Il est dusage de communiquer une estimation de la variance ou de lerreur-type pour chaque
estimation daprs des donnes denqute. Lestimation de la variance est galement essentielle pour
linfrence statistique lorsquon tablit un intervalle de confiance pour un paramtre dintrt inconnu.

Statistique Canada, No 12-001-X au catalogue

98

Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision

Les rsultats asymptotiques de la section 2 suggrent un estimateur de variance pour Yreg , k obtenu en

substituant dans (2.2) des estimateurs pour les quantits inconnues dans 2k . Puisque la variance totale est
une somme de H variances intrastrate, sans perte de gnralit, nous considrons une strate ( H = 1) .
Pour j = 1, 2, soit

D n =
j

(n

iS j

a1 j =

bij bijT
j

1) N j

T
bij = 1 p ij N j , x i p ij X j , y i p ij Y j ,

N j n 1 2
T
( y j j x j ) , j ,1 ,
1
2
j
Nn

a 2 j =

y j = Y j N j ,

x j = X j N j ,

y =

N j n 1 2
T
( y x ) , ,1 ,
1
2
j
Nn

( N 1 + N 2 ) ,

Y j

i S j,

x =

j =1

X ( N
j

+ N 2 ) .

j =1

Alors, sous les conditions du thorme 1,


k2 =

a
j =1

T
kj

D n a kj k2 ,
j

k = 1, 2.

Cest--dire que 2k est convergent pour 2k . Les rsultats des thormes 2 et 3 montrent aussi que 22
est un estimateur de variance convergent pour lestimateur fond sur un test de dcision Ydec , parce que
nous avons soit 12 = 22 soit P (Ydec = Yreg,2 ) 1.
Cependant, ces estimateurs de variance obtenus par substitution peuvent ne pas donner daussi bons
rsultats lorsque la valeur de n 1 ou de n 2 est modre (voir la section 4). Une autre mthode est celle du
bootstrap propose par Cheng et coll. (2010). Soit lestimateur pris en considration. Lestimateur
bootstrap de sa variance peut tre obtenu comme il suit.
1. Tirer un chantillon bootstrap S *j de taille n j par chantillonnage alatoire simple avec remise
partir de S j , o S 1* et S 2* sont obtenus de manire indpendante. Sil existe k j units
autoreprsentatives (AR) dans S j , comme il est discut la section 4.1 qui suit, on tire alors
des chantillons de tailles n j k j avec remise, avec j = 1, 2.
2. Utiliser les poids de sondage et les donnes observes provenant de lensemble de donnes
originales pour former un ensemble de donnes bootstrap S 1* S 2* . partir de cet ensemble
de donnes, calculer lanalogue bootstrap * de .
3. Rpter indpendamment les tapes qui prcdent B fois pour obtenir *1 , , * B . La
variance dchantillon de *1 , , * B est lestimateur bootstrap de la variance de .
Sous les conditions des thormes 1 et 2, les estimateurs bootstrap de la variance de Yreg,1 , Yreg ,2 et Ydec
sont des estimateurs convergents. La preuve pour le bootstrap est similaire aux preuves des thormes et
est donc omise.

Statistique Canada, No 12-001-X au catalogue

99

Techniques denqute, juin 2014

4 Rsultats des simulations pour H = 1


La thorie en grand chantillon prsente plus haut ne convient pas pour indiquer si les rsultats
asymptotiques dcrivent adquatement le comportement des estimateurs Yreg,1 , Yreg ,2 et Ydec , et des
estimateurs de leur variance dans des chantillons de taille modre, ou si Yreg,1 et Ydec fournissent jamais

des amliorations utiles de lerreur quadratique moyenne dans des chantillons de taille moyenne. Nous
prsentons certains rsultats de simulations pour tudier ces questions, ainsi que les problmes de petit
chantillon qui se posent lorsquon applique ces mthodes dans le contexte de lASPEP.
Dans les simulations, les valeurs dans la population servant de base de sondage U sont soit gnres
sous un modle soit tires des recensements des administrations publiques de 2002 et 2007 en utilisant les
poids de sondage de lASPEP de 2007. Le premier jeu de simulations (prsent dans les tableaux 4.1
4.6) rsume le comportement moyen sur de nombreuses populations servant de bases de sondage gnres
par un modle. Dans le deuxime jeu de simulations portant sur des donnes artificielles, rsum au
tableau 4.8, la population servant de base de sondage demeure fixe tout au long de la simulation. Toutes
les populations servant de bases de sondage sont constitues dune seule strate ( H = 1) dcompose en
deux sous-strates ( j = 1, 2 ) selon que la valeur dune variable de taille se situe en-dessous ou au-dessus
dun quantile particulier, habituellement le quantile 0,8. Dans toutes les simulations dcrites la prsente
section, lchantillonnage des populations servant de bases de sondage est effectu selon un plan PPT avec
remise.

4.1 Considrations concernant les petits chantillons


Avant de dcrire les simulations, nous discutons de certaines caractristiques particulires de
lchantillonnage PPT avec remise (PPTAR) qui, lorsquil est appliqu dans des conditions o les
chantillons sont petits et les variables de taille ne sont pas quilibres, requiert une approche de calcul
spciale. Des rsultats numriquement irrguliers peuvent tre obtenus lorsque les petits chantillons
slectionns sont utiliss par strate, puis soumis au bootstrap pour estimer les variances.
Les poids i1 = 1 ( n j p ij ) dans lchantillonnage PPTAR ne sont tous suprieurs 1 que si les
probabilits de tirage simples p ij = z i

i U j

z i sont toutes infrieures 1 n j . Pour viter les rsultats

anormaux en petit chantillon et pour que les plans PPTAR imitant les plans PPT sans remise demeurent
pertinents, toute unit i U j avec n j p ij 1 est rendue autoreprsentative (AR), c.--d. quelle est
chantillonne avec certitude mais une seule fois, et si ces units sont au nombre de k j , alors les
probabilits

{ p ij

: i U j , n j p ij < 1} sont renormalises pour tirer un chantillon PPTAR de taille

n j k j . Sil reste des probabilits renormalises 1 ( n j k j ) , leurs units deviennent aussi


autoreprsentatives et une nouvelle renormalisation est effectue. Ce processus est rpt aussi souvent
quil est ncessaire. Donc, les petits chantillons dont les distributions des variables de taille sont trs
ingales pourraient ne pas tre compatibles avec lchantillonnage PPTAR, situation qui se prsente dans
certains cas de donnes relles de lASPEP examins plus loin.
Nous aurions pu faire un autre choix, mais nous nous conformons la pratique de lASPEP consistant
inclure toutes les units autoreprsentatives dans lajustement des estimateurs par rgression pondrs

Statistique Canada, No 12-001-X au catalogue

100

Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision

par les poids de sondage 2 et . Cependant, sous ce choix, lchantillonnage PPTAR suivi par le
rchantillonnage bootstrap des petits chantillons peut donner lieu un comportement trs imprvisible,
qui doit tre reconnu quand on rsume le comportement des estimateurs bootstrap de la variance. Le
problme tient au fait que, quand un petit nombre m dunits non autoreprsentatives sont
chantillonnes selon un plan PPTAR, en plus dun ensemble dunits autoreprsentatives, puis sont
traites par la mthode du bootstrap, la probabilit que lchantillon bootstrap contienne seulement une
unit non autoreprsentative unique peut tre tonnamment grande, ce qui donne lieu une trs forte
variabilit du bootstrap. Ce phnomne a t observ dans les simulations prsentes plus loin, pour une
sous-strate de grande taille contenant 20 lments ou moins et des variables de taille ayant une distribution
trs asymtrique, dans les cas de variables x i lognormales ou de lASPEP.

4.2 Donnes artificielles gnres par un modle


Toutes les populations artificielles servant de bases de sondage ont t gnres au moyen de N =
2 000 triplets ( x i , y i , z i ) iid satisfaisant lquation (2.7), pour U 1 constitue des N 1 = 1 600 dentre-eux
pour lesquels la valeur de x i tait infrieure leur 80e percentile empirique c = ( x (1,600) + x (1,601) ) 2 , et

U 2 constitue des 400 autres. Dans la plupart des cas, les variables z i ont t gnres comme
N ( 30 + x i , 100 ) variables conditionnes pour quelles soient positives (ce qui a ncessit loccasion
une resimulation dans les modles lognormaux de x i ci-dessous) et taient conditionnellement
indpendantes de y i sachant x i . (Cependant, dans certains cas, des chantillons non pondrs ont t tirs
en prenant les z i identiquement gales.) Des chantillons PPT avec remise stratifis de tailles
( n 1 , n 2 ) = (100, 50 ) , (100, 20 ) , ou (50, 20 ) ont t tirs dans des excutions de simulation successives,
en utilisant les variables de taille z i , partir de la mme base de sondage.

Les modles gnrant ( x i , y i ) sont indexs comme il suit. Dans les modles dont le prfixe est M1,
les variables indpendantes x i suivent une loi Gamma (4; 0,1) dont le quantile 0,8 est gal 55,2, tandis
que dans les modles M2, les variables x i suivent une loi lognormale (1;6,25) dont le quantile 0,8 est
gal 22,3. Les populations M1 , et les modles M2 avec le suffixe E ont une variance conditionnelle
de 100 pour y i sachant x i , tandis que les modles M2 sans le suffixe E ont une variance conditionnelle
de 20 x i . Les moyennes conditionnelles E ( y i x i ) sont toutes linaires, gales 20 + 1, 5 x i dans les
modles indics H0 et gales 20 + x i + 0, 5 ( x i c ) I [ j =2] dans la sous-strate U j dans les
modles H1 . Les ordonnes lorigine des modles de rgression sont choisies de manire que les droites
se coupent x = c , que les pentes soient gales ou non (voir la discussion la section 1). Le tableau 4.1
donne la moyenne et lcart-type (.T.) pour les totaux Y gnrs partir des attributs de la population
2 000
servant de base de sondage { y i } i =1 sous les divers modles. Les variables x i ainsi que les totaux Y ont
une distribution queue plus longue sous les modles lognormaux.
Tableau 4.1
Moyennes et carts-types des totaux Y sous les modles de simulation
Gamma

Modle
E(Y)
.T.(Y)

M1.H0
160 000
1 414,2

M1.H1
123 177
653,5

Statistique Canada, No 12-001-X au catalogue

M2.H0
225 603
94 380

Lognormaux
M2.H0E
M2.H1
225 603
173 485
94 368
62 362

M2.H1E
173 485
62 344

101

Techniques denqute, juin 2014

Modles de population simuls


M1 . H0 :

(paramtre
de
forme 4,
x i Gamma ( 4; 0,1)
y i N ( 20 + 1, 5 x i ;100 ) (variance 100), tout i U .

M1 . H1 :

x i Gamma ( 4; 0,1) , y i N 20 + x i + 0, 5 ( x i c ) I x

M2 .H0 :

log ( x i ) N (1; 6, 25) , y i N ( 20 + 1, 5 x i ; 20 x i ) , tout i.

M2.H0E :

log ( x i ) N (1; 6, 25) , y i N ( 20 + 1, 5 x i ;100 ) , tout i.

M2 . H1 :

log ( x i ) N (1; 6, 25) , y i N ( 20 + x i + 0, 5 ( x i c ) I x

; 20 x i ) , tout i.

M2.H1E :

log ( x i ) N (1; 6, 25) , y i N ( 20 + x i + 0, 5 ( x i c ) I x

;100) , tout i.

paramtre

i c

dchelle 10),

;100) , tout i.

i c

i c

Les rsultats des simulations et les rsultats bootstrap prsents dans les tableaux 4.2 4.5 ont t
gnrs suivant le plan de sondage et de prsentation des rsultats qui suit. Pour chaque type de
population, 60 populations servant de bases de sondage distinctes ont t gnres, et 50 expriences
dchantillonnage indpendantes ont t excutes avec chacune de ces populations. Dans les cas o les
rsultats de lchantillonnage pondr et non pondr ont t compars, ces chantillons ont t tirs
indpendamment lun de lautre partir du mme ensemble de 60 populations servant de bases de
sondage. Donc, on disposait de 3 000 rpliques indpendantes pour le calcul de la moyenne Monte Carlo
des rsultats statistiques, pour trois tailles dchantillon stratifies diffrentes, et 400 itrations bootstrap
ont t effectues pour chaque chantillon gnr de cette faon.

Tableau 4.2
.T. empiriques et estims et couverture de lIC, daprs les simulations du modle M1
M1.H0

M1.H1

Tailles

Stat.

Yreg ,1

100,50

.T. MC

1 785,5

1 794,3

1 788,0

1 817,6

1 773,5

1 774,4

.T. S

1 757,1

1 751,5

1 755,6

1 794,6

1 735,2

1 735,8

.T. B

1 752,4

1 762,0

1 758,4

1 788,1

1 742,9

1 747,0

PC S
PC B

94,47
94,60

94,37
94,53

94,50
94,67

93,93
93,93

93,73
94,03

93,77
94,07

.T. MC

1 930,0

1 944,8

1 934,0

2 008,4

1 944,4

1 960,4

100,20

50,20

Yreg ,2

Ydec

Yreg ,1

Yreg ,2

Ydec

.T. S

1 888,3

1 876,6

1 884,1

1 944,4

1 861,0

1 866,5

.T. B

1 878,8

1 901,4

1 895,8

1 936,1

1 885,6

1 897,9

PC S
PC B

94,20
93,80

93,83
94,00

94,13
93,97

93,53
93,60

93,20
93,83

93,07
93,97

.T. MC

2 583,5

2 610,7

2 593,5

2 591,3

2 522,8

2 535,4

.T. S

2 509,2

2 490,8

2 505,1

2 562,2

2 465,0

2 474,5

.T. B

2 498,5

2 538,0

2 522,9

2 550,3

2 508,5

2 525,6

PC S

93,70
93,63

93,13
93,73

93,57
93,87

93,97
93,83

93,63
93,77

93,43
94,10

PC B

Statistique Canada, No 12-001-X au catalogue

102

Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision

Tableau 4.3
.T. empiriques et estims et couverture de lIC, daprs les simulations du modle M2
M2.H0

M2.H1

Tailles

Stat.

Yreg ,1

100,50

.T. MC

3 400,1

3 475,4

3 406,8

3 481,9

3 483,8

3 482,2

.T. S

3 420,6

3 400,0

3 417,0

3 537,8

3 405,0

3 463,7

.T. B

3 590,0

3 715,2

3 623,4

3 852,0

3 921,9

3 898,4

PC S

95,10

93,43

94,83

95,03

93,40

94,13

PC B

95,67

95,77

95,77

95,63

95,77

95,70

.T. MC

5 655,2

6 184,0

5 698,6

5 853,0

6 181,1

5 955,6

.T. S

5 644,9

5 575,7

5 640,9

5 798,3

5 587,3

5 697,3

.T. B

5 565,1

6 687,3

5 857,8

5 907,8

6 838,0

6 466,6

PC S

93,83

88,47

93,40

92,77

88,30

90,70

PC B

92,33

93,67

93,37

92,63

94,33

94,17

.T. MC

5 773,2

6 319,2

5 833,9

5 934,2

6 230,6

6 009,8

.T. S

5 800,2

5 677,2

5 785,8

6 012,6

5 755,4

5 919,2

.T. B

5 728,5

6 825,2

6 086,0

6 102,2

6 978,1

6 522,1

PC S

94,60

88,67

93,97

94,07

89,37

92,27

PC B

93,40

94,23

94,27

93,47

95,03

94,80

100,20

50,20

Yreg ,2

Ydec

Yreg ,1

Yreg ,2

Ydec

Tableau 4.4
.T. pour YHT vs Ydec , et couverture des intervalles de confiance percentiles bootstrap pour Ydec , pour
= 0, 05 vs 0, 20 , pour les modles M1 et M2, H0 et H1
Ydec , = 0, 05

YHT

Ydec , = 0, 20

Modle

chantillons

.TMC

PC PB

.T. HT

.TMC

PC PB

M1.H0

100,50

1 788,0

94,23

2 774,0

1 745,5

94,60

100,20

1 934,0

93,50

3 032,6

1 915,9

94,10

50,20

2 593,5

93,17

3 000,7

2 500,1

94,43

100,50

1 774,4

93,70

2 387,3

1 737,3

94,43

100,20

1 960,4

93,27

2 678,9

1 948,0

93,23

50,20

2 535,4

93,90

3 035,0

2 509,8

94,23

100,50

3 406,8

95,20

4 160,0

3 398,8

94,83

100,20

5 698,6

91,13

6 720,2

5 705,7

92,57

50,20

5 833,9

92,60

7 080,0

5 979,8

92,17

100,50

3 482,2

95,13

4 393,6

3 423,9

94,03

100,20

5 955,6

92,07

7 413,1

5 917,3

92,40

50,20

6 009,8

92,33

7 840,4

6 105,6

92,17

M1.H1

M2.H0

M2.H1

Statistique Canada, No 12-001-X au catalogue

103

Techniques denqute, juin 2014

Tableau 4.5
Comparaisons des estimations de l.T. et de la couverture de lIC pour H0 et H1 pour trois modles
lognormaux, pondrs (W) et non pondrs (U) dans M2, et pondrs (E) dans M2.E. Les couvertures en %
des IC sont donnes pour les .T. ainsi que les intervalles percentiles bootstrap
Modle

H0.W

Taille

Stat

.T.

.T. S

.T. B

PC S

PC B

PC PB

100,50

Yreg,1

3 400,1

3 420,6

3 590,0

95,10

95,67

94,93

Yreg,2

3 475,4

3 400,0

3 715,2

93,43

95,17

95,33

Ydec

3 406,8

3 417,0

3 623,4

94,83

95,77

95,20

Yreg,1

5 481,6

3 674,8

5 571,9

81,43

93,50

92,07

Yreg,2

5 782,8

3 646,6

6 076,3

80,13

93,67

91,90

Ydec

5 525,5

3 669,0

5 726,8

81,07

93,83

92,20

Yreg,1

1 888,8

1 930,1

1 904,7

94,73

94,53

94,23

Yreg,2

1 888,6

1 911,1

1 893,2

94,43

94,30

94,20

Ydec

1 892,9

1 926,5

1 905,0

94,67

94,57

94,20

Yreg,1

5 773,2

5 800,2

5 728,5

94,60

93,40

92,00

Yreg,2

6 319,2

5 677,2

6 825,2

88,67

94,23

92,60

Ydec

5 833,9

5 785,8

6 086,0

93,97

94,27

92,60

Yreg,1

10 000,3

5 136,5

9 905,6

71,10

90,73

89,80

Yreg,2

11 192,8

5 085,0

12 806,8

68,70

92,90

89,37

Ydec

10 134,1

5 120,7

11 245,9

70,73

92,37

90,27

Yreg,1

2 811,4

2 831,6

2 769,5

94,13

94,00

93,93

Yreg,2

2 811,9

2 753,8

2 741,1

93,47

93,77

93,30

Ydec

2 817,4

2 821,8

2 777,0

93,83

93,90

93,77

Yreg,1

3 481,9

3 537,8

3 852,0

95,03

95,63

95,27

Yreg,2

3 483,8

3 405,0

3 921,9

93,40

95,77

95,10

Ydec

3 482,2

3 463,7

3 898,4

94,13

95,70

95,13

Yreg,1

5 631,4

3 774,8

5 614,6

80,90

92,33

91,07

Yreg,2

5 838,3

3 699,6

6 010,5

79,13

92,73

91,37

Ydec

5 727,0

3 732,8

5 870,5

80,40

92,93

91,63

Yreg,1

2 005,5

2 094,2

2 019,1

95,60

94,97

94,60

Yreg,2

1 909,9

1 908,2

1 892,5

94,83

94,77

94,17

Ydec

1 931,9

1 941,7

1 934,6

94,97

95,20

94,83

Yreg,1

5 934,2

6 012,6

6 102,2

94,07

93,47

91,97

Yreg,2

6 230,6

5 755,4

6 978,1

89,37

95,03

92,23

Ydec

6 009,8

5 919,2

6 522,1

92,27

94,80

92,33

H0.U

H0.E

H0.W

50,20

H0.U

H0.E

H1.W

100,50

H1.U

H1.E

H1.W

H1.U

H1.E

50,20

Yreg,1

9 315,8

5 350,9

10 040,0

74,17

93,10

90,57

Yreg,2

10 583,8

5 229,6

12 476,8

71,23

94,57

90,87

Ydec

9 989,6

5 295,4

11 479,5

72,53

94,33

91,47

Yreg,1

3 096,1

3 137,7

2 795,6

94,63

93,43

93,37

Yreg,2

2 880,6

2 766,8

2 745,7

93,10

93,40

93,47

Ydec

2 977,3

2 929,2

2 882,0

93,77

93,77

93,77

Statistique Canada, No 12-001-X au catalogue

104

Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision

Nous avons calcul les quantits qui suivent pour chaque combinaison de modles, pondrations et
tailles dchantillon : les biais en pourcentage de Yreg,1 , Yreg,2 , Ydec (avec = 0,05 dans tous les tableaux,
sauf le tableau 4.4 o = 0,05 ou 0,20) en tant questimateurs de Y ; les carts-types (.T.) Monte Carlo,

.-T. MC , de ces trois estimateurs; les .T. estims des estimateurs, en utilisant les estimateurs de l.T.

par substitution ( .T. S ) et bootstrap ( .T. B ) , respectivement, dcrits la section 3; la probabilit de


couverture, PC u , des intervalles de confiance 95 % nominaux pour Y : Y 1, 960 .T. u , o Y est
lun des trois estimateurs de Y , et u = S ou B; et les intervalles de confiance bootstrap percentiles (et
leur pourcentage de couverture P C BP ) obtenus daprs les quantiles 0,025 et 0,975 empiriques des (400)
valeurs bootstrap de chacun des trois estimateurs Y de Y . En outre, nous avons calcul les biais
empiriques des estimations de Horvitz-Thompson YHT dans (1.1) et leurs carts-types empiriques .T. HT .
(De ces quantits calcules, seuls les biais ne sont pas prsents, puisquils taient tous nettement
infrieurs 0,5 % sauf pour le modle M2 .H1 .U , et mme dans ce cas, la valeur la plus importante du
biais tait de lordre de 1 %.) Deux autres statistiques, calcules et prsentes au tableau 4.6 pour chacun
des estimateurs Y de Y , sont les erreurs-types sur lensemble des populations servant de bases de
sondage gnres alatoirement des estimations Monte Carlo et bootstrap intrapopulation des .T. des
estimateurs Y .
Tableau 4.6
Erreurs-types sur lensemble des populations des .T. empiriques et bootstrap estims pour les estimateurs
Yreg ,1 , Yreg , 2 , et Ydec , pour certains modles et pondrations
Yreg ,1

Modle

M1.H0
M1.H1
M2.H0
M2.H0.E
M2.H1
M2.H1.E
M2.H1.U

Tailles
100,50
50,20
100,50
50,20
100,50
50,20
100,50
50,20
100,50
50,20
100,50
50,20
100,50
50,20

.T.
198
210
204
319
404
825
187
294
409
767
208
258
1 676
2 397

Yreg ,2
.T. B
35
52
39
57
345
518
49
85
409
624
59
141
1 351
2 543

.T.
196
208
183
298
450
1,075
185
293
410
946
196
261
1 773
3 425

Ydec
.T. B
35
51
40
62
383
916
45
71
421
929
46
82
1 539
3 454

.T.
197
210
184
302
405
889
184
298
408
841
204
239
1 726
3 102

.T. B
35
51
41
62
351
631
47
82
414
730
50
102
1 467
3 159

4.3 Donnes relles du recensement des administrations publiques


Nos simulations fondes sur lchantillonnage rpt partir de bases de sondage contenant des
donnes relles sappuient sur un ensemble de donnes nationales au niveau des tats rassembles par
Yang Cheng. La base de sondage de lASPEP ralise auprs des administrations publiques pour lanne
de rfrence 2007, qui tait aussi une anne de recensement, est la mme que celle du fichier du

Statistique Canada, No 12-001-X au catalogue

105

Techniques denqute, juin 2014

recensement des administrations publiques (Census of Governments) de 2007. Notre ensemble de donnes
contient les valeurs des variables de lASPEP de 2002 et de 2007 (nombre demploys, rmunration et
heures travailles temps plein et temps partiel) tires des recensements de ces annes, ainsi que les
poids de sondage de 2007 et les variables indicatrices de prsence dans lchantillon pour lASPEP. Un
poids gal 1 signifie que ladministration publique en question tait autoreprsentative, au sens o elle a
t choisie avec certitude en vue dtre incluse dans lASPEP. La variable de taille z i pour
lchantillonnage PPT dans lASPEP est gale la somme des masses salariales temps plein et temps
partiel provenant du recensement le plus rcent, de sorte que nous nous limitons lexamen des
53 402 administrations publiques figurant dans le fichier pour lesquelles la valeur de cette variable tait
positive. Le tableau 4.7 donne les administrations publiques de type sous-comt et district spcial (les
seules qui sont subdivises en sous-strates de petites et de grandes units) dans neuf tats, ainsi que les
nombres dunits autoreprsentatives et les nombres dunits chantillonnes en 2007. Comme il est
mentionn la sous-section 4.1, le nombre final dunits autoreprsentatives (AR) pour lchantillonnage
PPT avec remise peut dpasser le nombre dunits slectionnes initialement en vue dtre incluses avec
certitude, et les nombres plus levs, qui correspondent la taille de lchantillon effectivement
slectionn en 2007, sont indiqus dans les colonnes AR du tableau 4.7. Linspection de ce tableau montre
que plusieurs combinaisons tat-type dadministration publique ont une population nulle dans une
sous-strate ou ne contiennent quun nombre trop faible dunits non autoreprsentatives pour tre utile
dans la simulation dchantillons rpts. titre de rgle empirique, nous prenons 15 comme nombre
minimal dunits non autoreprsentatives et nous recommandons que les paires de sous-strates contenant
un nombre plus faible dunits non autoreprsentatives dans la strate des grandes units soient fusionnes
sans recourir la stratgie fonde sur un test de dcision tudie dans le prsent article.

Tableau 4.7
Population de recensement, tailles dchantillon de lASPEP et nombre dadministrations publiques de types
sous-comt et district spcial autoreprsentatives par sous-strate en 2007, pour neuf tats choisis

AL
CA
CO
FL
GA
MO
NY
PA
WI

Petites units
Pop.
ch.
378
15
0
0
0
0
317
16
461
17
980
25
1 473
25
2 409
55
1 702
36

Sous-comt
Grandes units
Pop.
ch.
AR
55
45
26
475
104
86
265
34
18
81
54
36
49
36
20
101
101
101
69
69
69
123
81
31
129
71
44

Petites units
Pop.
ch.
0
0
1 595
39
627
16
0
0
0
0
799
27
606
16
921
21
281
16

District spcial
Grandes units
Pop.
ch.
AR
400
102
64
107
107
107
65
55
33
330
48
24
293
70
32
106
66
42
33
23
4
37
37
37
61
40
20

Pour neuf combinaisons dadministration publique par type comprenant 15 units non
autoreprsentatives ou plus et au moins 17 units non autoreprsentatives non chantillonnes de la strate
des grandes units (sauf pour les tats AL, CO, et GA pour lesquels il existait respectivement 9, 10 et
11 units non autoreprsentatives non chantillonnes), le tableau 4.8 donne les rsultats pour les

Statistique Canada, No 12-001-X au catalogue

106

Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision

estimateurs fonds sur un test de dcision et les estimations de la variance dans les paires de sous-strates.
Dans chacune des combinaisons tat-type dadministration publique, 3 000 chantillons PPTAR stratifis
ayant les tailles indiques ont t tirs de la base de sondage de lASPEP et du recensement des
administrations publiques dcrites plus haut, avec x i et y i dsignant, respectivement, la masse salariale
des employs temps plein de ladministration publique concerne telle quenregistre aux recensements
des administrations publiques de 2002 et de 2007, et z i dsignant la masse salariale totale (temps plein
plus temps partiel) en 2002. Pour chaque chantillon simul, on a calcul les estimateurs Yreg,1 , Yreg,2 , Ydec

et estim les variances empiriques. La variance de Ydec a galement t estime par les mthodes de la
formule de substitution et du bootstrap comme dans les simulations bases sur des donnes artificielles.
(Mais il convient de souligner que, comme il a t dcrit plus haut, dans chaque chantillon de sous-strate,
les chantillons bootstrap ont t tirs uniquement parmi les units non autoreprsentatives.) Les rsultats
sont prsents au tableau 4.8. Les efficacits relatives des estimateurs par la rgression stratifis combins
et distincts peuvent tre values daprs le ratio correspondant des .T. donn dans la colonne 5 du
tableau. Les autres .T. prsents sont les estimateurs empiriques, par substitution et bootstrap de
lcart-type de Ydec .
Tableau 4.8
Sommaire des simulations par chantillonnage rpt partir de la base de sondage de lASPEP de 2007. La
masse salariale totale des employs temps plein (Y ) est exprime en multiples de 100 millions de dollars, et
les estimations de l.T. donnes dans les colonnes 6 8 sont exprimes en units de 1 million de dollars Ydec .
.T. 1 .T. 2 dans la colonne 5 est le ratio de l.T. empirique de Yreg,1 celui de Yreg, 2 .
tat
AL
CA
CO
FL
GA
MO
NY
PA
WI

Strate
Sous-comt
Distr. spcial
Distr. spcial
Sous-comt
Sous-comt
Distr. spcial
Sous-comt
Sous-comt
Sous-comt

Y
1,2
4,3
0,6
4,3
1,5
0,6
23,6
3,0
1,4

Taille
25,46
30,90
25,55
25,54
25,38
40,70
35,52
40,70
40,70

.T. 1 .T. 2
2,14
0,98
1,14
1,16
1,15
2,13
1,53
1,12
2,06

.T.
4,90
29,4
3,77
11,9
4,38
2,99
13,6
7,28
5,00

.T. S
3,67
21,2
2,58
9,4
3,26
2,20
12,0
5,79
4,45

.T. B
5,71
26,8
3,00
12,2
4,88
2,99
14,1
7,60
5,17

4.4 Discussion des rsultats des simulations


Lexpos qui suit est un rsum et une interprtation des rsultats des tableaux, ainsi que dautres
rsultats non prsents.
I) Bon nombre des simulations au moyen de donnes artificielles servent confirmer les rsultats
thoriques en grand chantillon des thormes. Nous avons dj mentionn que, dans les tableaux 4.2 et
4.3, les biais des trois estimateurs de Y (Yreg,1 , Yreg,2 , Ydec ) sont gnralement faibles. Dans le tableau 4.2,
qui se rapporte aux modles avec variables indpendantes et poids relis la loi Gamma dans les
modles M1, les estimateurs de variance par substitution et par bootstrap de chaque estimateur de Y sont
assez prcis et proches lun de lautre, et les intervalles de confiance ont tous une couverture proche de la
couverture nominale. Sous M1 .H0 ainsi que M1 . H1, pour les plus petites tailles dchantillon n 2 , on

Statistique Canada, No 12-001-X au catalogue

Techniques denqute, juin 2014

107

note une tendance des estimateurs .T. S et .T. B sous-estimer lgrement les carts-types rels ou
empiriques, mais .T. B semble suivre lcart-type de plus prs que .T. S pour Yreg ,2 et Ydec .
II) La distribution des valeurs de la variable x i lognormale dans les modles M2 est beaucoup plus
disperse et asymtrique que dans les modles M1, mais les rsultats des simulations appuient nanmoins
la thorie asymptotique quand n 2 = 50, quoique pas si n 2 = 20. Les intervalles de confiance de Y
fonds sur lestimateur par substitution en ce qui concerne Yreg ,2 ont une probabilit de couverture
beaucoup trop faible lorsque lon utilise lestimateur de variance par substitution. Dans le tableau 4.3,
pour chaque type destimateur de Y , lestimateur de variance par substitution prsente une tendance
prononce sous-estimer la variance (empirique) relle et lestimateur par le bootstrap, la surestimer.
Le tableau 4.5 clarifie le fait que le comportement extrme des estimateurs de variance sous les
modles M2 rsulte partiellement de ce que les distributions des variables indpendantes et de y i sont
disperses et asymtriques, et partiellement de ce que la variable de taille utilise dans les pondrations
PPT prsente aussi ces proprits. Les cas dsigns par le suffixe W dans ce tableau sont les mmes que
dans le tableau 4.3. Les cas portant le suffixe E ont les mmes variables ( x i , z i ) que dans le tableau 4.3,
mais les variances conditionnelles de y i sachant x i ont la valeur constante de 100; grce ce
changement, le comportement irrgulier des estimateurs de lcart-type disparat. Cependant, lorsque les
variances de y i conditionnelles sont les mmes que dans le modle de base M2 , mais que
lchantillonnage PPTAR est non pondr, c.--d. lorsque toutes les variables z i sont remplaces par la
valeur 1, les estimateurs empiriques et bootstrap de lcart-type sont trs proches et trs grands, tandis que
lestimateur de variance par substitution est trop faible, et ce dun facteur spectaculairement grand variant
de 1 2 3 4 . Ce phnomne trange sobserve de la mme faon pour les trois estimateurs de Y .
(Cependant, une variante de lchantillonnage non pondr dans le modle M1 ne modifie pas
matriellement les rsultats par rapport ceux prsents au tableau 4.2.)
III) Un objectif des simulations tait de savoir sil existe jamais un avantage, en ce qui concerne
lerreur quadratique moyenne (EQM), utiliser Yreg,1 plutt que Yreg ,2 , faute de quoi il y aurait fort peu de
raisons dutiliser Ydec . En effet, les thormes en grand chantillon disent que le terme principal de
variance en grand chantillon est toujours optimal pour Yreg ,2 (parce quil est le mme que pour Yreg,1 sous
lhypothse nulle ou parce quil est strictement meilleur sous le modle (2.7) avec des pentes distinctes).
Toutefois, nous avons indiqu aprs le thorme 3, dans la borne (2.9), que Yreg,1 peut avoir une EQM
dordre deux plus petite que Yreg,2 , et les colonnes H0 des tableaux 4.2 et 4.3 rvlent un avantage faible
mais consistant de Yreg,1 par rapport Yreg ,2 en ce qui concerne lcart-type, avantage qui est plus
prononc pour M2. Cet avantage disparat sous la version fixe M1 .H1 , mais curieusement, pas sous
M2 .H1 . Lavantage lger, mais rel, de Yreg,1 en ce qui concerne lEQM conditionnelle quand les pentes
dans les sous-strates sont trs proches de lgalit est discut plus en dtail par Slud (2012).
Les estimateurs Yreg,1 , Yreg,2 , Ydec considrs ici sont du type rgression et il pourrait tre intressant de
comparer le comportement de leur EQM dans les populations simules celles de lestimateur plus simple
de Horvitz-Thompson YHT dans (1.1). Tous ces estimateurs sont presque sans biais, de sorte que les EQM
sont essentiellement les mmes que les variances, et une comparaison des troisime et cinquime colonnes
du tableau 4.4 montre que les variances de YHT sont considrablement plus grandes que celles de Ydec . La

Statistique Canada, No 12-001-X au catalogue

108

Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision

diffrence est moins prononce pour les chantillons de plus grande taille, mais mme dans ce cas, elle est
de 30 % 55 %. Lavantage de Ydec reste encore trs prononc dans le modle M2, o les variances sous
le modle et lasymtrie de la distribution sont plus importantes, mais moins que dans le modle M1.
IV) La dfinition de Ydec contient le seuil de signification nominal arbitraire , qui dans tous les
tableaux sauf le tableau 4.4 a t fix 0,05. Comme le laisse entendre la thorie en grand chantillon, les
proprits de lestimateur fond sur un test de dcision sont comprises entre celles de Yreg,1 et de Yreg,2 , et
de plus grandes valeurs de rendent Ydec plus souvent gal Yreg,1 . Comme le montre la comparaison des

colonnes 6 et 7 du tableau 4.4, le choix = 0,20 semble aboutir, dans les modles simuls, des
carts-types de Ydec trs lgrement plus faibles sous le modle M1, tandis que sous le modle M2,
lcart-type est plutt plus grand pour les petites tailles dchantillon. La conclusion est faible, parce que
les diffrences sont relativement petites comparativement aux diffrences dcart-type observes dune
population servant de base de sondage lautre. Nous prfrons laisser une plus petite valeur de dicter
le groupement frquent de sous-strates, sauf quand il existe des diffrences prononces de pente estime
entre les sous-strates. Cette constatation selon laquelle de plus grands seuils de signification
namliorent pas les proprits de Ydec diffre de celle de Saleh (2006) voulant que de plus grands seuils
de signification soient trs avantageux dans dautres contextes de tests prliminaires.
V) Le tableau 4.6 renseigne sur la variabilit des estimateurs de lcart-type des estimateurs de Y
selon la population servant de base de sondage. Les estimateurs bootstrap de la variance semblent moins
susceptibles de varier dune population servant de base de sondage lautre, parce que la moyenne
ralise par le bootstrap les stabilise. Dans ce tableau, la principale constatation semble tre que la
variabilit entre les populations servant de bases de sondage est modre, sauf sous le modle M2 non
pondr, o elle est remarquablement grande. Ce rsultat semble expliquer linflation extrme des
variances sous M2 .U observes dans le tableau 4.5.
VI) Dans de nombreuses applications bootstrap avec statistique suivant approximativement une loi
normale, la mauvaise couverture des intervalles de confiance fonds sur la thorie normale due la
non-normalit de la statistique obtenue par bootstrap peut tre attnue en utilisant les intervalles
bootstrap percentiles (BP) (Shao et Tu 1995, section 4.1). Dans les prsentes simulations, le tableau 4.4
(colonnes 4 et 6) donne les pourcentages de couverture des intervalles BP pour Ydec dans les conditions o
les tableaux 4.2 et 4.3 donnent les couvertures des IC sous la thorie de la loi normale bases sur
lcart-type estim par bootstrap. Quelle quen soit la raison, les tableaux montrent que, sous la thorie de
la loi normale, PC B a systmatiquement tendance tre lgrement infrieur la valeur nominale mais
nanmoins lgrement suprieur la couverture des intervalles BP, PC BP . Donc, nos simulations
indiquent que, dans ces conditions, la prfrence va lintervalle plus simple Ydec 1, 96 .T. B .
VII) Il reste tirer les leons des simulations portant sur des donnes relles du recensement des
administrations publiques prsentes la section 4.3. Le premier commentaire qui simpose est que
ltalement et lasymtrie de la distribution des variables indpendantes x i correspondant la masse
salariale des employs temps plein et de la variable de taille z i correspondant la masse salariale totale
sont trs importants, et ressemblent davantage ceux observs pour les modles lognormaux M2 que
pour les modles Gamma M1. Le tableau 4.8 indique (dans la colonne 5) un avantage constant de Yreg ,2
par rapport Yreg,1 en ce qui concerne lEQM, sauf dans le cas CA-district spcial, bien que la diffrence

Statistique Canada, No 12-001-X au catalogue

109

Techniques denqute, juin 2014

soit faible dans le cas CO-district spcial et dans les cas FL, GA et PA-sous-comt. Il convient de
souligner que, dans presque tous ces exemples, lestimateur bootstrap de lcart-type pour Ydec est plus
prcis que lestimateur par la formule de substitution, malgr les nombres assez faibles dunits non
autoreprsentatives chantillonnes et non chantillonnes et (dans plusieurs cas, comme le montre le
tableau 4.7) des nombres relativement levs dunits autoreprsentatives. Les estimations de lcart-type
par substitution sont systmatiquement trop petites, tandis que les estimations bootstrap sont
habituellement lgrement leves (c.--d. quen gnral .T. S < .T. < .T. B ). Lerreur relative de

.T. B par rapport .T. ne dpasse pas environ 5 % dans ces exemples, sauf dans les cas (AL, CO, GA)
o les units non autoreprsentatives non chantillonnes sont particulirement peu nombreuses dans la
sous-strate de grandes units.
Les sous-strates de grandes units dans lASPEP ont habituellement une petite population totale dans la
base de sondage et contiennent souvent un nombre relativement grand dunits autoreprsentatives. Bien
que nos simulations aient montr que cela ninvalide pas compltement les infrences faites au moyen de
Yreg,1 , Yreg,2 ou Ydec , ces statistiques ont des distributions assez diffrentes de celles prvues par la thorie
en grand chantillon, et de futures subdivisions des sous-strates permettraient peut-tre dobtenir des
sous-strates de grandes units un peu plus importantes en vue dobtenir des infrences statistiques se
comportant de la manire attendue.
Plus gnralement, les rsultats des simulations indiquent que lestimateur fond sur un test de dcision
avec lestimateur des intervalles dfini daprs les variances bootstrap se comporte bien et peut tre
recommand, sauf pour des populations trs disperses et asymtriques ou des populations pour lesquelles
les tailles dchantillon de grandes units sont plus petites que 20 25.

Remerciements
Le prsent article dcrit les travaux de recherche et analyses des auteurs et est diffus en vue
dinformer les parties intresses et de favoriser la discussion. Les conclusions nengagent que les auteurs
et nont pas t approuves par le Census Bureau. Nous tenons remercier trois examinateurs et un
rdacteur associ de leurs commentaires et suggestions utiles qui nous ont permis damliorer larticle.
Les travaux de recherche de Jun Shao ont t financs partiellement par la bourse NSF Grant DMS1007454.

Annexe
Preuve du thorme 1. Sous chantillonnage PPT, i = n j p ij pour lunit i U j , et chaque tirage
avec remise, lindice chantillonn i t U j , t = 1, , n j

possde

P (i t = i ) = p ij

pour chaque

i U j . En calculant les moyennes et les variances (sous chantillonnage rpt) de N j , X j , Y j ,


1
N j 1 iS x i y i i et N j 1 i S x i2 i , nous constatons que les variances sont dordre n j au moyen
j

Statistique Canada, No 12-001-X au catalogue

110

Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision

des limites donnes dans (C2) et (C3) et des bornes donnes dans (C4). Les assertions de la partie (a)
sensuivent directement.
Pour lassertion (b), nous avons, en vertu de la dfinition de , que

( x
=
( x
2

i S j

j =1

x, j

+ x , j ( X 1 + X 2 )

( N 1 + N 2 )) y i

+ x , j ( X 1 + X 2 )

( N 1

i S j

j =1

N 1
=

2
j =1

x, j

j 2xj N j + ( N 1 N 2

( N 1

N 1 2xj N j + ( N 1 N 2
j =1
2

2
+ N 2 )) i

+ N 2 )) ( x 1 x 2 ) ( y 1 y 2 )

( N 1

2
+ N 2 )) ( x 1 x 2 )

),

do lgalit (2.1) dans (b) dcoule immdiatement par substitution des limites de la partie (a) ainsi que
des limites N j N j .
Soit N la matrice diagonale par blocs avec deux blocs diagonaux D N et D N , et pour j = 1, 2,
1

soit
1 j =
3 j =

1
Nj

nj
1

Nj

iS j

ij

N j ,

2 j =

yi

Yj ,

n j iS j p ij

4 j =

xi

1
Nj

nj

1
Nj

nj

i S j

i S j

ij

X j ,

xi x , j
p ij

( yi

(A.1)
j j xi ) .

Puisque S 1 et S 2 sont indpendants, { k 1}k =1 est indpendant de { k 2 }k =1 . Notons que, ici et tout au
long de la prsente preuve, les sommes sur i S j utilises pour dfinir X j , Y j , kj , et les estimateurs
4

de variance doivent tre interprts comme tant des sommes avec multiplicit compte tenu du plan
dchantillonnage PPT avec remise. La condition (C4) permet dappliquer le thorme central limite de
Liapounov pour montrer que

N1 2 [ 11 , 21 , 31 , 12 , 22 , 32 ] N (0, I 6 ) , 4 j N (0, 2xe , j ) ,


T

(A.2)

o I 6 est la matrice identit de dimensions 6 6 , et 2xe , j est donn dans lnonc de (d). Les limites qui
dfinissent les variances asymptotiques dans (A.2) existent conformment (C3).
Preuve de (c). Il est facile de vrifier daprs la dfinition que

j j
1

= 2
j j N j xj

i S j

2
xj

x i xj
yi j j xi
.

( x i xj ) xj
i

Puisquil a t tabli dans (a) que 2xj 2xj et N j N j 1, il sensuit que la distribution limite de
P

n j ( j j ) est la mme que celle de

Statistique Canada, No 12-001-X au catalogue

111

Techniques denqute, juin 2014

n j ( N j 2xj )

(x

iS j

xj ) ( y i j j x i ) i ,

qui est clairement la mme que celle de xj2 4 j

dans (A.1). La premire assertion de (c) dcoule

immdiatement de (A.2). La convergence de 2xe , j sensuit en notant en vertu de (a) que

2
xe , j

2
j

( xi

xj )
i p ij

i S j

( yi

j j x i ) 0.
2

(A.3)

Le deuxime terme du premier membre de (A.3) contient une variance dchantillonnage PPT avec remise
calcule de manire quelle soit borne par 1 n j conformment (C4), dont lesprance en vertu de (C3)
converge vers 2xe , j .
Preuve de (d). De (1.2) et (a), il dcoule que (Yreg ,2 Y ) N 0, qui peut aussi tre considr comme
P

la reprsentation
N j X j

n 2 N jY j

Y j + j X j
N j =1 N j
N j

n (Yreg,2 Y ) N =

nN 12
( Y1 + 1 X 1 ) 11 1 21 + 31
n1 NN 1

nN 22
( Y 2 + 2 X 2 ) 12 2 22 + 32
n1 NN 2

= d nT1 1 + d nT2 2 ,
o la deuxime galit dcoule des dfinitions notationnelles de kj de mme que i = n j p ij ,
Y j = iS y i i , X j = iS x i i , et la troisime de
j

d nj =

nN 2j
T
Y j + j X j , j ,1 ,
n j NN j

1 = [11 , 21 , 31 ] ,
T

2 = [ 21 , 22 , 32 ] .
T

En vertu de (A.2), 1 = O p (1) et 2 = O p (1) . En vertu de la condition (C2), d njT = a 2T j + o p (1) . Par
consquent, en vertu de (A.2), de la condition (C3) et de la mthode delta,
T
T
n (Yreg,2 Y ) N = a 21
1 + a 22
2 + o p (1) d N (0, 22 ) ,

o la variance asymptotique 22 =

n
N2

j =1

a 2T j D j a 2 j est systmatiquement estime par

( y
j =1 iS j

2
i

2
j x i (Y j j X j ) N j ) ,

Statistique Canada, No 12-001-X au catalogue

112

Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision

qui est en accord avec la formule (9)


n (Yreg,1 Y ) N d N (0, 12 ) est similaire.

de

Cheng

et coll.

(2010).

La

preuve

que

Preuve du thorme 2. En vertu de la conclusion (c) du thorme 1,


2
n ( 2 1 2 + 1 ) d N 0, 2xe , j
j =1

( 2j 4xj ) .

(A.4)

La conclusion (2.4) dans la partie (a) de ce thorme sensuit directement.


Dans la preuve du thorme 1, nous avons montr que
T
T
n (Yreg,2 Y ) N = a 21
1 + a 22
2 + o p (1) ,

(A.5)

o les vecteurs constants a kj (et x , y ) ont t dfinis dans la partie (d) du thorme 1. De mme,

n (Yreg,1 Y ) N = a11T 1 + a12T 2 + o p (1) .


Quand

(2.3)

y x =

est
2
j =1

vrifie,

j =

(en

vertu

de

la

partie (b)

(A.6)
du

thorme 1)

et

j ( yj j xj ) = y 2 x 2 , de sorte que a1 j = a 2 j pour j = 1, 2. Il dcoule

directement de (A.5) et (A.6) que

n (Yreg ,1 Yreg ,2 ) N

0, et donc que les estimateurs Yreg , k

suivent la mme loi asymptotique, qui est normale comme nous lavons montr la partie (d) du
thorme 1. Enfin, la dfinition de Ydec implique que P (Ydec = Yreg,1 ou Yreg,2 ) = 1 , et (A.5) et (A.6)
impliquent que
T
T
n (Ydec Y ) N = a 21
1 + a 22
2 + o p (1) ,

(A.7)

ce qui achve la preuve de (2.5) dans (a).

Preuve de (b). Si 1 2 , alors (A.4) implique que P (Ydec = Yreg,2 ) 1, c.--d. que le test t pour
lgalit de j donne lieu au rejet avec certitude la limite. Alors (A.7) continue dtre vrifie, et la loi
asymptotique de Ydec demeure la mme que celle de Yreg,2 .

Preuve du thorme 3. Dans ce thorme, les hypothses (C2) (C4) sont remplaces par les hypothses
selon lesquelles les triplets iid ( y i , x i , z i ) satisfont les conditions de moments et le modle (2.7). Les
assertions dans (C2) (C4) restent alors vrifies lorsque la probabilit tend vers 1 quand n , N sont
grands, ce qui est tabli laide de la loi (forte) des grands nombres.
Outre les conclusions des thormes 1 et 2, il reste montrer que Yreg ,2 possde une plus petite
variance asymptotique que Yreg,1 . Soit = ( 1 , 2 ) et
F j ( ) = [ 1 , 2 , 1] D j [ 1 , 2 , 1] .
T

Statistique Canada, No 12-001-X au catalogue

113

Techniques denqute, juin 2014

Selon la dfinition de 12 et 22 dans (2.2), il suffit de montrer que F j ( ) prend sa valeur minimale

= ( j , j ) . Nous allons maintenant prouver cela pour j = 1. La preuve pour j = 2 est similaire. Soit
m ii llment (i , i ) de D 1 . Puisque D 1 est symtrique et dfinie positive sous la condition (C3),

m 12 = m 21 et il existe un = ( 1 , 2 ) unique tel que F1 ( ) = min F1 () et F1 ( ) T

= 0.

Cela implique que est la solution des deux quations suivantes :


m11 1 + m12 2 = m13 ,

m12 1 + m 22 2 = m 23

(A.8)

Par consquent, il suffit de montrer que = ( 1 , 1 ) . Puisque D 1 est dfinie positive, le systme
dquations (A.8) possde une solution unique. tant donn la dfinition de D 1 ,
2
1 1

1 p i 1 1 +
2
N 1 N

iU1 p i 1
1

m11 1 + m12 1 = lim

iU 1

i1

N 1 i X 1 p i 1 1
pi1

1 1

N 1 ( 1 N 1 1 p i 1 + 1 x i 1 p i 1 X 1 ) ,
2
N 1 N

iU1 p i 1
1

= lim

et
1 1
y

N 1 i Y1 p i1
2
N1 N i U p
p i1

i1
1
1

m13 = lim

1
2
N1 N
1

= lim

N 1 ( 1 + 1 x i + i N 1 1 p i 1 1 p i 1 X 1 )

iU1 p i1

1 1

N 1 ( 1 N 1 1 p i 1 + 1 x i 1 p i 1 X 1 ) ,
2
N 1 N i U p

1
i1

= lim

o la dernire galit dcoule de lhypothse que i est indpendant de x i et z i , et est de moyenne 0 et


de variance finie, et chacune des squences z i , 1 z i , et x i z i est iid avec une esprance finie. Par
consquent, m 11 1 + m 12 1 = m 13 . On prouve de mme que m 12 1 + m 22 2 = m 23 . Par consquent,
( 1 , 1 ) est la solution unique du systme dquations (A.8), c.--d. que F1 ( ) prend sa valeur minimale
= ( 1 , 1 ) . Do, 22 < 12 . Cela termine la preuve du thorme 3.

Bibliographie
Bancroft, T., et Han, C.-P. (1977). Inference based on conditional specifications: A note and a
bibliography. International Statistical Review, 45, 117-127.
Cheng, Y., Corcoran, C., Barth, J. et Hogue, C. (2009). An estimation procedure for the new public
employment survey design. Washington, DC: American Statistical Association. Survey Research
Methods Section, American Statistical Association, 3032-3046.

Statistique Canada, No 12-001-X au catalogue

114

Shao et coll. : Proprits thoriques et empiriques destimateurs par la rgression fonds sur un test de dcision

Cheng, Y., Slud, E. et Hogue, C. (2010). Variance estimation for decision-based estimators with
application to the annual survey of public employment and payroll. Government Statistics Section of the
American Statistical Association. Vancouver: American Statistical Association.
Deville, J.-C., et Srndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the
American Statistical Association, 87, 376-382.
Fuller, W.A. (2009). Sampling Statistics. New York: John Wiley & Sons, Inc.
Isaki, C., et Fuller, W. (1982). Survey design under the regression superpopulation model. Journal of the
American Statistical Association, 77, 89-96.
Rao, J.N.K., et Ramachandran, V. (1974). Comparison of the separate and combined ratio estimators.
Sankhy, C, 36, 151-156.
Saleh, A.K. Md. (2006). Theory of Preliminary Test and Stein-type Estimation, with Applications.
Hoboken: Wiley-Interscience.
Srndal, C.-E., Swensson, B. et Wretman, J. (1992). Model Assisted Survey Sampling. New York:
Springer-Verlag.
Shao, J., et Tu, D. (1995) The Jackknife and Bootstrap. New York: Springer.
Slud, E.V. (2012). Moderate-sample behavior of adaptively pooled stratified regression estimators. U.S.
Census Bureau preprint.

Statistique Canada, No 12-001-X au catalogue

Techniques denqute, juin 2014


Vol. 40, No 1, p. 115-136
Statistique Canada, No 12-001-X au catalogue

115

Linfluence de la mthode dchantillonnage et des


intervieweurs sur la ralisation de lchantillon dans
lEnqute sociale europenne
Natalja Menold1
Rsum
Le prsent article traite de leffet de diffrentes mthodes dchantillonnage sur la qualit de lchantillon
ralis. On sattendait ce que cet effet dpende de la mesure dans laquelle les intervieweurs ont la libert
dinterviewer des personnes avec lesquelles il leur est facile de prendre contact ou dont il leur est facile
dobtenir la coopration (donc deffectuer des substitutions). Lanalyse a t mene dans un contexte
transculturel en utilisant des donnes provenant des quatre premires vagues de lEnqute sociale europenne
(ESS, pour European Social Survey). Les substitutions sont mesures par les carts par rapport au ratio
hommes-femmes de 50/50 dans des sous-chantillons constitus de couples htrosexuels. Des carts
importants ont t observs dans de nombreux pays qui participent lESS. Ces carts se sont galement avrs
les plus faibles lorsque des registres officiels de rsidents avaient servi de base de sondage pour le tirage des
chantillons (chantillonnage partir de registres de personnes) dans le cas o lun des conjoints tait plus
difficile joindre que lautre. Cette porte des substitutions ne variait pas dune vague lautre de lESS et tait
faiblement corrle au mode de rmunration et aux procdures de contrle des intervieweurs. Les rsultats
permettent de conclure que les chantillons tirs de registres de personnes sont de plus haute qualit.
Mots-cls :

Mthodes dchantillonnage; substitutions par les intervieweurs; erreurs non dues lobservation.

1 Introduction
Les biais dans les statistiques denqute sont dcrits par les modles derreur denqute totale (Groves,
Fowler, Couper, Lepkowski, Singer et Tourangeau 2004; Smith 2007). Lerreur denqute totale rsulte de
deux types derreurs, les erreurs dobservation et les erreurs non dues lobservation. Le prsent article
porte sur linfluence quexercent les facteurs associs aux erreurs non dues lobservation sur la
comparabilit transculturelle, cest--dire sur lchec des statistiques denqute reprsenter
adquatement la population cible. Ces types derreurs galement appels erreurs de reprsentation
rsultent de diffrences entre lchantillon net obtenu (nombre de participants lenqute, Haeder et Lynn
2007) et la population cible.
Des travaux de recherche antrieurs mens dans des contextes transculturels ont rvl des diffrences
de taux de rponse trs prononces entre les pays (Billiet, Phillipsen, Fitzgerald et Stoop 2007; Couper et
de Leeuw 2003; de Heer 1999; de Heer et Israis 1992; de Leeuw et de Heer 2002; Hox et de Leeuw 2002;
Johnson, ORourke, Burris et Owens 2002; Stoop 2005; Symons, Matsuo, Beullens et Billiet 2008), des
diffrences entre les procdures utilises sur le terrain (Billiet et coll. 2007; Kohler 2007; Kreuter et
Kohler 2009; Smith 2007; Stoop 2005; Symons et coll. 2008) et des diffrences entre les mthodes
dchantillonnage (Lynn, Haeder, Gabler et Laaksonen 2007). Ces dernires font rfrence aux procdures
de construction des bases de sondage et de slection des lments de lchantillon. Toutes les diffrences
numres peuvent nuire la comparabilit transculturelle. En particulier, cette dernire pourrait tre
rduite en raison de mthodes dchantillonnage diffrentes pour obtenir un chantillon probabiliste,
1. Natalja Menold, GESIS - Leibniz Institute for the Social Sciences, Survey Design et Methodology, P.O.Box 12 21 55, D-68072 Mannheim.
Courriel : natalja.menold@gesis.org.

116

Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS

puisque la standardisation des mthodes dchantillonnage est limite par la disponibilit locale des bases
de sondage, par leur qualit et leur convivialit, et par le budget denqute (Lynn et coll. 2007).
Lynn et coll. (2007) ont abord la question des effets de plan et des tailles dchantillon ncessaires
pour que les chantillons nets soient comparables dans le contexte de lESS. Ils se sont concentrs dans
leur tude sur la slection de lchantillon avant ltape du travail sur le terrain. Toutefois, la
comparabilit des chantillons pourrait galement tre influence par les intervieweurs durant leur travail
sur le terrain. La mesure dans laquelle les intervieweurs sont libres de remplacer les personnes
chantillonnes par des personnes qui ne le sont pas (personnes avec lesquelles il est facile de prendre
contact et qui sont coopratives) diffre selon la mthode dchantillonnage (Hoffmeyer-Zlotnik 2006;
Kohler 2007; Sodeur 2007). Il y a substitution sur le terrain lorsquune unit non rpondante est remplace
par une unit de substitution (rserve) durant ltape du travail sur le terrain du processus denqute
(Vehovar 1999, page 335). Les substitutions dont parle Vehovar sont des substitutions lgitimes qui sont
permises par le protocole. En revanche, le prsent article traite du problme des substitutions illgitimes
(appeles simplement substitutions dans la suite de lexpos) effectues sans permission. Selon
lAAPOR (2003), les substitutions dlibres faites par les intervieweurs constituent une sorte de
falsification.
Le but du prsent article est de dterminer si leffet des intervieweurs, que lon suppose tre associ
aux substitutions, varie selon la mthode dchantillonnage utilise pour obtenir les chantillons
probabilistes dans un contexte transculturel. En outre, on dterminera si le mode de rmunration, les
procdures de contrle, lorganisme de collecte des donnes (institution qui procde la collecte des
donnes sur le terrain) ou des facteurs temporels sont associs cet effet dintervieweur. Les rsultats
pourraient aider les responsables de lenqute dcider des mthodes dchantillonnage quil convient
dutiliser un facteur de cot trs important dans les enqutes et quand il convient de choisir des
mthodes favorisant la motivation de lintervieweur ne pas effectuer de substitutions. Les rsultats ont
aussi de limportance en ce qui concerne la recherche sur le comportement de lintervieweur, puisquils
donnent un indice des erreurs associes linfluence de lintervieweur sur la comparabilit transculturelle.
La section suivante (section 2) expose le contexte thorique et empirique de ltude prsente dans
larticle. Les hypothses sont dcrites la section 3. La section 4 renseigne sur la procdure et la mthode
utilises pour analyser linfluence de lintervieweur. Les rsultats sont prsents la section 5. Enfin, la
section 6 contient une discussion des rsultats et les conclusions.

2 Contexte thorique et empirique


Des substitutions peuvent avoir lieu au cours des tches que les intervieweurs effectuent avant
linterview. Les intervieweurs 1) crent une base de sondage, par exemple en dressant des listes dadresses
pour les enqutes; puis, 2) ils cherchent obtenir la coopration des units slectionnes (adresses,
logements, mnages) et ils slectionnent aussi les personnes pour linterview partir de ces units. Enfin,
les intervieweurs 3) cherchent obtenir la coopration des personnes chantillonnes (Groves et coll.
2004). Quand les mthodes dchantillonnage diffrent, les tches queffectuent les intervieweurs diffrent
comme il est dcrit plus bas (figure 2.1).

Statistique Canada, No 12-001-X au catalogue

117

Techniques denqute, juin 2014

La premire mthode examine est celle de lchantillonnage partir de registres de personnes


(dsign par ERP). Les registres de population officiels au niveau de la personne sont utiliss comme
bases de sondage pour lERP. La slection des personnes est effectue avant ltape du travail sur le
terrain, de sorte que les tches des intervieweurs se rduisent simplement obtenir la coopration des
personnes chantillonnes (figure 2.1). Dans le cas de lERP, les intervieweurs peuvent influer sur la nonrponse (p. ex., Couper et Groves 1992; de Leeuw et Hox 1996; Durrant, Groves, Staetsky et Steele 2010),
mais thoriquement parlant, ils nont aucune influence sur la base de sondage ni sur la slection des
lments de lchantillon. Ce niveau deffet de lintervieweur sur la non-reprsentation dans le cas de
lERP est illustr par la flche dans la figure 2.1.
Cependant, comme le montre lexemple donn par Groves et coll. (2004), les lments slectionns
(personnes dans le cas de lERP) peuvent diffrer en ce qui concerne la probabilit dtre contact par un
intervieweur (facilit de prise de contact) et la probabilit dobtenir la participation lenqute aprs la
prise de contact (coopration). Par exemple, il est plus difficile de prendre contact avec les personnes qui
habitent les rgions urbaines ou celles qui sont jeunes, clibataires, sans enfants, mieux instruites et
socialement actives (Stoop 2004). En revanche, les personnes ges, les femmes, les personnes moins
instruites et les personnes isoles socialement refusent plus souvent de cooprer (Dohrenwend et
Dohrenwend 1968; Stoop 2004; Williams, Irvine, McGinnis, McMurdo et Crombie 2007). Si des
difficults surviennent lors des tentatives de prise de contact et dobtention de la coopration des
personnes cibles, des substitutions peuvent avoir lieu. Par exemple, Koch (1995) a donn le nombre de
substitutions dans une enqute dans laquelle avait t utilis lERP.
Reprsentation
Population
cible
Erreur de
couverture
Base de
sondage

Intervieweur
ENR

chantillon

Intervieweur
ERA

Personnes

Intervieweur
ERP

Erreur
dchantillonnage

Facilit de contact

Erreur due la
non-rponse

Coopration

Rpondants

Collecte les adresses


pour la base de sondage
Slectionne les personnes chantillonnes
Obtient la coopration

Ajustement aprs
lenqute
Statistiques denqute

Figure 2.1 Tches de lintervieweur sous diffrentes mthodes dchantillonnage relies aux erreurs de
couverture et de non-rponse. Le chemin de la reprsentation est adapt de Groves et coll., 2004, page 48.

Statistique Canada, No 12-001-X au catalogue

118

Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS

La mthode dchantillonnage suivante est celle de lchantillonnage partir de registres dadresses/de


mnages (ERA). Dans le cas de lERA, des listes de mnages ou dadresses sont employes comme bases
de sondage. Les mnages ou les adresses sont slectionns par les bureaux denqutes avant ltape du
travail sur le terrain. Dans ce cas, les intervieweurs effectuent les tches deux et trois (voir plus haut) : ils
prennent contact avec les units slectionnes et slectionnent les personnes pour linterview si plus dune
personne admissible vit dans une unit slectionne. Les intervieweurs peuvent dlibrment scarter des
rgles de slection alatoire et avoir ainsi un effet ngatif sur lchantillon slectionn (figure 2.1).
Puisque les intervieweurs ont plus de libert pour slectionner les personnes chantillonnes dans le cas de
lERA que dans celui de lERP, on suppose que leffet dintervieweur associ aux substitutions est plus
important pour lERA que pour lERP (figure 2.2). En outre, dans le cas de lERA, le rsultat de la
slection de lchantillon nest pas connu davance et est, par consquent, plus difficile contrler que
dans le cas de lERP.
Lchantillonnage non effectu partir de registres (ENR), lorsque ni des listes de personnes ni des
listes dadresses ou de mnages ne sont disponibles comme bases de sondage, reprsente la troisime
mthode dchantillonnage. Cette dernire englobe lchantillonnage par marche alatoire (p. ex., Arber
2002; ESS Sampling Plans), ainsi que ltablissement de listes dadresses et lchantillonnage (LAE).
Dans le cas de lENR, les intervieweurs produisent eux-mmes une base de sondage en dressant la liste
des adresses dans une rgion gographique slectionne alatoirement. Les intervieweurs doivent suivre
rigoureusement les instructions concernant les procdures de collecte des adresses. Ils effectuent cette
tche en plus de la slection des personnes une adresse, comme il est dcrit pour lERA, et de prendre
contact avec les personnes slectionnes et dobtenir leur coopration, comme il est dcrit pour lERP
ainsi que lERA (figure 2.1). Dans le cas de lENR, les intervieweurs peuvent influer non seulement sur la
slection de lchantillon, mais aussi sur la cration de la base de sondage. Un intervieweur peut scarter
des instructions et ne choisir que les adresses o il sattend pouvoir prendre contact avec la personne
cible et obtenir sa coopration. Des substitutions sont particulirement susceptibles davoir lieu lorsquon
utilise une procdure (marche alatoire) dans laquelle lintervieweur ralise les interviews des adresses
quil choisit dans une rgion en se conformant des instructions concernant la collecte des adresses et le
chemin suivre travers la rgion. Dans un autre type dENR, plus restreint, la liste des adresses dans une
rgion gographique est tablie par lintervieweur, mais la slection relle est effectue par une quipe de
coordination (tablissement de la liste dadresses et chantillonnage, LAE). Les adresses slectionnes
sont ensuite assignes un intervieweur diffrent qui procde aux interviews. Le degr de libert de
lintervieweur semble tre le mme dans le cas de la LAE que dans celui de lERA. Cependant, les
instructions pour dresser la liste des adresses ou collecter les adresses peuvent tre ambigus dans les deux
types dENR (Schnell, Hill et Esser 2011). Par consquent, les intervieweurs ont plus de libert pour
effectuer des substitutions dans le contexte de lENR que dans celui de lERA (figure 2.2).

Statistique Canada, No 12-001-X au catalogue

119

Techniques denqute, juin 2014

lev

Marche alatoire
Listage des adresses
et chantillonnage (LAE)

chantillons rgionaux/
chantillons non tirs
dun registre (ENR)

chantillons tirs dun registre dadresses/de mnages (ERA)

Faible

chantillons tirs dun registre de personnes (ERP)

Figure 2.2 Degr de libert des intervieweurs concernant les substitutions dans diverses mthodes
dchantillonnage

Les carts dans les chantillons nets obtenus, qui sont associs aux carts par rapport aux rgles de
slection alatoire de lchantillon (p. ex., substitutions), peuvent tre analyss empiriquement au moyen
dune mthode labore par Sodeur (1997). Cette mthode consiste dfinir une sous-population
caractrise par un paramtre fixe et connu, puis observer les statistiques reprsentant ce paramtre dans
un sous-chantillon dfini de faon correspondante. Lerreur non due lobservation est dautant plus
forte que la statistique observe scarte du paramtre de population. Dans le prsent article, nous
considrons le ratio hommes-femmes des couples htrosexuels que lon sait tre un paramtre de
population valant 50/50. Dans les limites des fluctuations alatoires, tout chantillon tir de la population
de couples htrosexuels devrait produire une proportion dhommes denviron 50 %. Des carts
importants par rapport ce niveau de 50 % indiquent des carts par rapport aux normes de slection de
lchantillon, par exemple sous forme de substitutions (voir la section 4.2 pour des prcisions).
En utilisant cette mthode, Sodeur (2007) et Hoffmeyer-Zlotnik (2006) ont constat que les carts par
rapport au ratio hommes-femmes vrai de 50/50 variaient entre les diverses vagues de lEnqute sociale
gnrale allemande (ALLBUS), qui comprend aussi diffrentes mthodes dchantillonnage. Ces auteurs
ont constat que les hommes avec lesquels il est difficile dentrer en contact sont interviews moins
frquemment que les femmes (puisque les hommes sont les soutiens de famille des mnages avec enfants).
Outre la facilit de prise de contact, les diffrences de coopration entre les conjoints peuvent jouer un
rle (Hoffmeyer-Zlotnik 2006). Si les conjoints sont la retraite, la facilit de prendre contact avec lun et
lautre est la mme, mais ils diffrent sur le plan de la coopration. Lhomme la retraite, maintenant la
maison, se sent responsable de fournir lintervieweur linformation sur le mnage (puisquil en est le
chef ). La femme peut refuser de participer puisque le mari aime cooprer. Un intervieweur qui prend
contact avec ce genre de mnage pourrait interviewer les hommes plutt que les femmes afin dviter les
refus (Hoffmeyer-Zlotnik 2006).
Kohler (2007) a observ des carts plus importants par rapport au ratio hommes-femmes de 50/50
choisi comme paramtre dans les chantillons de type ENR que dans ceux obtenus par dautres mthodes
dchantillonnage dans six enqutes transculturelles (Eurobarometer 62.1, European Quality of Life
Survey EQLS03, ESS 2002, ESS 2004, European Value Study 1999, International Social Survey

Statistique Canada, No 12-001-X au catalogue

120

Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS

Program, ISSP 2002). Malheureusement, leffet de la mthode dchantillonnage observ par Kohler
(2007) tait particulier lenqute. Les chantillons les plus mal conus chantillons rgionaux avec
ENR taient surtout utiliss dans une enqute (EQLS). Les diffrences observes par Kohler entre une
mthode de marche alatoire et dautres mthodes dchantillonnage pourraient tre attribuables des
diffrences entre lEQLS et les autres enqutes. Dautres chercheurs (Hoffmeyer-Zlotnik 2006; Souder
1997) ont tudi leffet des mthodes dchantillonnage sur leffet dintervieweur associ aux
substitutions en ne considrant quune seule enqute nationale allemande; les rsultats de cette tude ne
sont donc pas applicables au contexte transculturel. Par consquent, il est important de se pencher sur la
question de la relation entre les mthodes dchantillonnage et leffet dintervieweur associ aux
substitutions dans les enqutes transculturelles. Il importe aussi de prendre en considration dautres
facteurs explicatifs susceptibles daffecter les substitutions. Les substitutions faites par les intervieweurs
peuvent dpendre non seulement des mthodes dchantillonnage, mais aussi des procdures mises en
uvre sur le terrain qui ont un effet sur la motivation qua lintervieweur de produire des donnes
denqute exactes. Par consquent, les substitutions peuvent varier en fonction de lorganisme qui collecte
les donnes (Hoffmeyer-Zlotnik 2006; Sodeur 1997; 2007) ou des contrles utiliss durant une enqute
(Kohler 2007). Les contrles impliquent quun lment de lchantillon est recontact pour confirmer le
rsultat produit par un intervieweur. En plus des contrles, les modes de rmunration des intervieweurs
peuvent influer sur leur rendement. Si les intervieweurs sont rmunrs par interview acheve, ils
assument les risques de cots levs associs aux longues distances entre les adresses slectionnes, aux
nombreuses tentatives de prise de contact ou la longueur de linterview (Sodeur 2007). Par consquent,
un changement dorganisme de collecte des donnes, de procdures de contrle et de mode de
rmunration doit tre envisag lorsquon analyse leffet dintervieweur associ aux substitutions. Outre
ces facteurs, il est intressant de savoir comment ces effets dintervieweur varient au cours du temps. Par
exemple, la prise en considration du temps dans un contexte transculturel permet de dterminer plus
facilement si cet effet dintervieweur est propre un pays. Un effet dintervieweur propre un pays doit
tre stable dans le pays en question au cours de diffrentes vagues de lenqute, mme si la mthode
dchantillonnage a chang.

3 Hypothses de recherche
Si leffet de lintervieweur en termes de substitutions est oprationnalis en utilisant la mthode de
Sodeur, on sattend pouvoir lobserver dans les statistiques denqute sous forme dcarts par rapport au
ratio hommes-femmes de 50/50 dans des sous-chantillons de rpondants reprsentatifs des couples
htrosexuels. Cet effet dintervieweur devrait diffrer en fonction du degr variable de facilit de prendre
contact ou de coopration manifest par les conjoints. Ceux-ci diffrent sur le plan de la facilit de prendre
contact dans les mnages constitus dun couple ayant de jeunes enfants dans lequel lhomme est le
soutien de famille (Hoffmeyer-Zlotnik 2006; Sodeur 2007; Stoop 2004). Si les intervieweurs recourent
des substitutions, la proportion dhommes devrait tre significativement plus faible que la valeur vraie
(50 %) dans ces mnages, puisquil est plus difficile de prendre contact avec les hommes quavec les
femmes. Cette situation change si lon considre des couples dont les conjoints sont retraits. Ici, comme
la expos antrieurement Hoffmeyer-Zlotnik (2006), la facilit de prendre contact est de mme niveau
chez les deux conjoints, mais ceux-ci peuvent diffrer sur le plan de la coopration. Dans les sous-

Statistique Canada, No 12-001-X au catalogue

Techniques denqute, juin 2014

121

chantillons de couples retraits, on sattendrait ce que la proportion dhommes soit significativement


suprieure 50 % en cas deffet dintervieweur d aux substitutions. Les hypothses dcrivant cet effet
dans diffrents types de mnages sont les suivantes :
Hypothse 1 (H1) : Les carts par rapport au ratio hommes-femmes vrai (50/50) varient selon le type de
mnage. Dans les mnages forms de couples avec (jeunes) enfants, la proportion dhommes interviews
est infrieure 50 %, tandis que dans les mnages forms de conjoints retraits, cette proportion est
suprieure 50 %.
Comme il est illustr la section 2, les diffrentes mthodes dchantillonnage peuvent tre associes
diffrents degrs de libert des intervieweurs en ce qui concerne les substitutions (figure 2.2). Par
consquent, on sattend observer les diffrences qui suivent entre les mthodes dchantillonnage :
Hypothse 2 (H2) : Les carts par rapport au ratio hommes-femmes vrai (50/50) varient selon la mthode
dchantillonnage utilise dans une enqute. LERP donne les carts les plus faibles et lENR, les carts
les plus importants.
Si les carts par rapport au paramtre de population sont dus au fait que les intervieweurs scartent des
normes prescrites, ils devraient varier en fonction de la mthode dchantillonnage utilise ou du type de
mnage, qui son tour est associ des niveaux variables de facilit de prise de contact ou de coopration
de la part des conjoints. Les carts devraient tre stables au cours du temps si les mthodes
dchantillonnage demeurent constantes. Cependant, ils peuvent tre corrls au mode de rmunration
des intervieweurs ainsi quaux procdures de contrle, ou aux organismes de collecte des donnes, qui, en
principe, devraient diffrer en ce qui a trait aux pratiques influant sur la motivation de lintervieweur
travailler.
Hypothse 3 (H3) : Mis part les changements de mthode dchantillonnage dans un pays, les carts par
rapport au ratio hommes-femmes de 50/50 sont indpendants de linfluence dautres changements au fil
du temps. Donc, ils ne varient pas dune vague lautre dune enqute. Cependant, le mode de
rmunration des intervieweurs, les procdures de contrle et les changements dorganisme de collecte
des donnes devraient tre corrls aux carts par rapport au ratio hommes-femmes de 50/50.

4 Mthodes
4.1 Donnes
Afin disoler tout effet d la mthode dchantillonnage des autres effets propres lenqute, on peut
utiliser des donnes provenant dune enqute ralise dans plusieurs pays qui ont appliqu des mthodes
dchantillonnage diffrentes. Les donnes provenant de nombreuses vagues de lenqute devraient tre
disponibles afin de pouvoir tenir compte de leffet temporel. Par consquent, nous avons utilis les
donnes provenant des vagues 1 4 de lESS (European Social Survey Round 1-4 Data 2011). LESS a

Statistique Canada, No 12-001-X au catalogue

122

Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS

t ralise dans 20 plus de 30 pays, qui diffrent en ce qui a trait aux mthodes dchantillonnage. En
outre, le programme de lESS impose des normes rigoureuses aux organismes denqute, comme un
chantillonnage alatoire strict et des procdures de prise de contact tendues, ou des procdures de
contrle sur le terrain (Koch, Blom, Stoop et Kappelhof 2009; Philippens et Billiet 2004). Lefficacit des
normes utilises pour lESS a t illustre par Kohler (2007), qui a montr que les carts par rapport au
ratio hommes-femmes de 50/50 taient moins nombreux pour la vague 1 de lESS que pour dautres
enqutes. De plus, les mthodes de collecte des donnes de lESS ont t amliores rgulirement (Koch
et coll., 2009). De surcrot, lESS fournit de la documentation dtaille sur les procdures
dchantillonnage, ainsi que sur la collecte des donnes (voir les ESS Documentation Reports), qui
permettent doprationnaliser les variables dintrt.

4.2 Mthode dvaluation de leffet de lintervieweur


La mthode mise au point par Sodeur (1997) a t choisie pour lanalyse. Cette mthode permet
dvaluer la qualit de lchantillon net dans le cas des chantillons probabilistes. La qualit de la
slection alatoire de lchantillon a t examine frquemment au moyen dautres statistiques disponibles
dans un pays (critres externes). Toutefois, ces statistiques externes sont souvent inconnues, ce qui a
pouss Sodeur proposer lutilisation de critres internes cest--dire lutilisation dinformation
provenant de lchantillon net seulement. Sodeur (1997) dcrit la mthode comme comprenant les tapes
suivantes : 1) tirer un sous-chantillon partir de lchantillon complet afin de se concentrer sur les
rpondants qui sont reprsentatifs des couples htrosexuels : les conjoints doivent vivre ensemble dans
un mnage et doivent appartenir tous deux la population cible de lenqute; 2) dfinir les units qui
doivent tre retires du sous-chantillon : clibataires, conjoints ne vivant pas ensemble dans un mnage et
mnages comptant dautres personnes apparentes qui appartiennent la population cible. Alors, ltape
trois consiste 3) dfinir une statistique denqute p. ex., le pourcentage dhommes comme tant la
variable dpendante quil faut comparer au paramtre de population.
Une analyse pour dterminer les causes des carts par rapport au paramtre de population par
exemple, le comportement de lintervieweur requiert des spcifications supplmentaires aux tapes 1
et 2 pour sassurer que le comportement de lintervieweur varie (conceptuellement) en fonction de la
facilit de prendre contact avec les personnes cibles ou de la coopration de ces dernires. Des
spcifications de ce genre ont t formules dans le prsent article sous forme de dfinitions de diffrents
types de mnages (voir lhypothse H1), dont la slection est dcrite la section 4.3.
Le ratio hommes-femmes vrai de 50/50 chez les couples htrosexuels nest reli aucun autre ratio
hommes-femmes, tel que celui observ pour la population totale de rsidents dun pays. Par consquent,
comme le soutient Kohler (2007), ce ratio hommes-femmes ne peut tre affect par aucune sorte derreur
de mesure et ne dpend pas de la taille du mnage, puisque lanalyse est limite deux personnes dans le
mnage et que ces personnes appartiennent toutes deux la population cible.
La mthode de Sodeur offre des avantages par rapport dautres mthodes, car aucune information ou
donnes externes supplmentaires ne sont ncessaires. Cependant, elle requiert que les caractristiques
dfinies pour slectionner les sous-chantillons soient connues non seulement pour les rpondants, mais
aussi pour leurs conjoints (p. ex., le sexe du conjoint). En outre, il ne doit pas exister de diffrence
systmatique de comportement de refus entre les hommes et les femmes (diffrences lgard du refus),

Statistique Canada, No 12-001-X au catalogue

Techniques denqute, juin 2014

123

ce qui peut se manifester mme si les intervieweurs travaillent honntement. Dans la pratique, on a
constat que les femmes sont plus hsitantes participer que les hommes (Pickery et Loosveldt 2002;
Schnauber et Daschmann 2008; Stoop 2004; Williams et coll. 2007). Cela semble tre galement le cas
dans lESS, dans laquelle il sest avr que les femmes refusaient plus souvent de participer que les
hommes. Lanalyse des donnes des vagues 1 4 de lESS provenant des formulaires de prise de contact
effectue par lauteur montre que 30,3 % dhommes et 37,9 % de femmes ont refus de participer
lESS1 (dans certains pays, aucune donne concernant la variable de sexe na t fournie; par consquent,
la proportion de donnes manquantes tait de 32,4 %). Dans lESS2, 30,8 % dhommes et 37,9 % de
femmes ont refus de cooprer (31,3 % de donnes manquantes); dans lESS3, 33,8 % dhommes et
39,0 % de femmes ont refus de cooprer (27,2 % de donnes manquantes) et dans lESS4, 38,4 %
dhommes et 45,8 % de femmes ont refus de cooprer (avec une proportion de donnes manquantes
rduite 15,8 %). Par consquent, le fait que les hommes taient prsents dans un sous-chantillon de
donnes de lESS moins de 50 % du temps peut tre expliqu plausiblement par les substitutions, tandis
quune frquence des hommes suprieure 50 % peut tre explique par des diffrences lgard du
refus. Cependant, si le pourcentage dhommes variait selon la mthode dchantillonnage comme le
prvoit lhypothse H2 , il serait difficile dexpliquer un tel rsultat uniquement par les diffrences
lgard du refus, qui semblent tre une caractristique relativement stable.

4.3 Procdure
La section qui suit dcrit les procdures utilises pour tester les hypothses H1 H3. Le tirage des
sous-chantillons partir de lchantillon complet de lESS est dcrit pour commencer. Les carts d par
rapport au ratio hommes-femmes vrai de 50/50 dans un sous-chantillon reprsentent la variable
dpendante dans toutes les analyses subsquentes. Les valeurs de d sont compares entre diffrents types
de mnages pour tester lhypothse H1. Ensuite, loprationnalisation de la variable mthode
dchantillonnage (pour tester lhypothse H2) est dcrite. Enfin, lhypothse H3 est relie aux variables
de temps, de changement dorganisme de collecte des donnes, de mode de rmunration et procdures de
contrle des intervieweurs, dont loprationnalisation est dcrite la dernire section. Les hypothses H2
et H3 ont t testes en faisant appel lanalyse de covariance multivarie (MANCOVA) suivie
danalyses de covariance (ANCOVA) dans lesquelles la mthode dchantillonnage a t utilise comme
variable indpendante et la vague de lESS, le changement dorganisme de collecte des donnes, la prime
de rmunration et les contrles de lintervieweur ont servi de covariables.

Tirage des sous-chantillons


La population cible de lESS correspond dans chaque pays aux personnes de 15 ans et plus qui rsident
dans des logements privs, indpendamment de leur nationalit et leur citoyennet, leur langue ou leur
statut lgal (p. ex., ESS-1 2002 Documentation Report, page 2). Les rpondants ( n 88 375) qui vivent
avec un conjoint de sexe oppos g de 15 ans ou plus ont t slectionns partir de lchantillon total
des vagues 1 4 de lESS ( n 184 988). Le tirage de cet chantillon a rduit la base de donnes
danalyse la moiti environ de lchantillon total. Cependant, cette slection tait ncessaire pour
sassurer que le pourcentage prvu dhommes soit de 50 %.

Statistique Canada, No 12-001-X au catalogue

124

Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS

Trois types de mnages ont t distingus dans le sous-chantillon slectionn : les couples avec
enfants de 0 6 ans ( 7ans; n 18 791), les couples avec enfants de 7 14 ans ( n 53 651) et les
couples dont les deux conjoints taient lge de la retraite (retraits, n 15 933). Afin de dterminer
lge de la retraite, on sest servi de lge lgal de la retraite en vigueur dans chaque pays (voir lannexe).
Les deux premiers groupes avec enfants ont t forms parce que lon supposait que les diffrences de
facilit de prise de contact entre les conjoints taient particulirement prononces dans ces mnages. Pour
le troisime groupe, on a suppos que les diffrences de facilit de prise de contact selon le sexe taient
relativement modestes, mais que les hommes et les femmes diffraient en ce qui concerne la coopration.
Le fait que les hommes sont les soutiens de famille dans les deux sous-chantillons contenant des
mnages avec enfants est corrobor par lanalyse effectue par lauteur en utilisant les donnes de lESS.
Lexamen des activits des rpondants au cours des sept jours qui ont prcd lenqute dans les mnages
avec enfants de moins de sept ans a montr que 58 % dhommes et 42 % de femmes avaient un emploi
rmunr. Pour ce qui est du conjoint du rpondant, 64 % dhommes et 36 % de femmes avaient un
emploi rmunr. Des rsultats comparables ont t obtenus pour les rpondants dans les mnages avec
enfants de 7 14 ans (pour les rpondants, 54 % dhommes et 46 % de femmes avaient un emploi
rmunr et pour les conjoints des rpondants, 60,5 % dhommes et 39,5 % de femmes taient dans cette
situation). Dans les mnages dont les conjoints taient retraits, 80,6 % des rpondants taient retraits,
11,5 % faisaient des travaux mnagers et 1,3 % taient atteints dune maladie ou dune incapacit de
longue dure. En ce qui concerne le conjoint du rpondant, 84,4 % taient retraits, 17 % faisaient des
travaux mnagers et 2,1 % taient atteints dune maladie ou dune incapacit de longue dure.

Catgorisation des mthodes dchantillonnage


Les mthodes dchantillonnage ont t classes en se basant sur les rapports documentaires produits
pour chaque vague de lESS (European Social Survey (2011): ESS 1-4 Documentation Reports). Le
tableau 4.1 rsume les principales caractristiques des mthodes dchantillonnage utilises dans lESS.
Le tableau 4.2 montre quelles mthodes dchantillonnage ont t utilises dans chaque pays chaque
vague. Pour des renseignements plus dtaills sur les procdures de slection de lESS, consulter les
rapports documentaires ou Lynn et coll. (2007).
Dans le cas de lERA, il est important dexaminer le traitement des immeubles logements multiples
correspondant une adresse, puisque ce sont galement les intervieweurs qui grent la situation. La
documentation de lenqute ne dcrivait ce traitement que pour quelques pays (Irlande, Isral, Pays-Bas et
Royaume-Uni). En Irlande, par exemple, les intervieweurs dressaient la liste des mnages et
slectionnaient lun dentre eux en utilisant la grille de Kish (Kish 1965).
En Autriche, une mthode dENR a t applique 50 % seulement de lchantillon, tandis que les
50 % restants ont t slectionns par une mthode dERA. Puisque lENR peut entraner un plus grand
nombre de substitutions que lERA seulement, on peut sattendre ce que les rsultats en Autriche soient
plus semblables aux rsultats obtenus dans les pays ayant utilis un ENR que dans ceux ayant utilis un
ERA. Par consquent, lauteur a class lAutriche dans la catgorie de lENR.

Statistique Canada, No 12-001-X au catalogue

125

Techniques denqute, juin 2014

Tableau 4.1
Mthodes dchantillonnage dans les pays participant lEES (vagues 1 4)
chantillonnage partir dun
registre de personnes

chantillonnage partir dun


registre dadresses/de mnages

chantillonnage non effectu


partir dun registre

Listes fiables de rsidents

Listes fiables dadresses/de mnages

Rgions (pas de listes de


rsidents, dadresses ni de
mnages)

Dfinition dune unit

Grappes rgionales, rgions,


municipalits

Circonscriptions lectorales, rgions


de codes postaux

Grappes rgionales, rgions,


municipalits

Processus de slection

chantillonnage alatoire
systmatique

chantillonnage alatoire
systmatique

chantillonnage alatoire
systmatique

Rsultat

Communaut, municipalit

Circonscriptions lectorales,
circonscriptions de code postal

Rgions gographiques,
municipalits

2e degr :
Slection des mnages

Sans objet

Dfinition dune unit

Un mnage, une adresse

Un mnage/logement

Processus de slection

chantillonnage alatoire simple ou


systmatique

Marche alatoire/LAE
chantillonnage alatoire simple

Rsultat

Adresses des mnages

Mnage/adresse/logement

Base de sondage

1er degr :
Slection des UPE

3 degr :
Slection des personnes
Dfinition dune unit

Personne cible

Personne cible

Personne cible

Processus de slection

chantillonnage alatoire
simple ou systmatique

Slection alatoire par lintervieweur


par la mthode de la grille de Kish
ou du dernier anniversaire

Slection alatoire par


lintervieweur par la mthode de
la grille de Kish ou du dernier
anniversaire

Rsultat

Nom et adresse des personnes


chantillonnes

Personnes chantillonnes

Personnes chantillonnes

Tableau 4.2
Classification des pays participant lESS en fonction des mthodes dchantillonnage
Vague de
lESS

chantillonnage partir dun


registre de personnes (ERP)

chantillonnage partir dun registre


dadresses/de mnages (ERA)

chantillonnage non
effectu partir dun
registre (ENR)

ESS 1

BE, DE, HU, NO, PL,


SI, DK, FI, SE

Adresse : IE, IT, NL, GB, CH


Mnage : CZ, LU, ES

FR, GR, PT, AT

ESS 2

BE, DE, HU, NO, PL,


SI, DK, FI, SE, ES, EE, IS, SK

Adresse : IE, NL, GB, CH


Mnage : LU, TR

FR, GR, PT, AT, CZ, UA

ESS 3

BE, DE, NO, PL, SI,


DK, FI, SE, ES, EE, SK

Adresse : IE, NL, GB, CH, LV


Mnage : CY, BG, HU

FR, PT, AT, UA, RU, RO

ESS 4

BE, DE, HU, NO,


PL, SI, DK, FI, SE, ES, EE

Adresse : IE, NL, GB, CH, IL, LV


Mnage : CZ, CY, LT, GR, KRO, TR, BG

FR, PT, SK, UA, RU, RO

Note
La Roumanie nest pas incluse dans le fichier de donnes intgr de lESS; aucune information sur la mthode
dchantillonnage na t fournie par lItalie dans les rapports documentaires ESS2 ESS4. Les pays sont tiquets conformment
la norme ISO 3166-1, voir lannexe.

Statistique Canada, No 12-001-X au catalogue

126

Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS

Le type de mthode dENR utilis par un pays a rarement t dcrit dans la documentation. Dans le cas
de lESS1, il est vident que la Grce est la seule avoir utilis la mthode LAE. Lutilisation dune
mthode LAE est dcrite pour la Rpublique tchque et la Slovaquie pour les dernires vagues. Pour
lESS4, lUkraine, la Russie et le Portugal dcrivent une procdure comparable la mthode LAE.
Cependant, dans ces pays, les intervieweurs (et non les bureaux) ont slectionn un nombre fixe dunits
partir des listes produites par dautres intervieweurs.

Variables explicatives
Linformation se rapportant une vague particulire de lESS a t utilise comme variable pour tenir
compte de leffet temporel. Les rapports documentaires ont fourni des renseignements sur les autres
variables explicatives, le changement dorganisme de collecte des donnes, ainsi que le mode de
rmunration et les procdures de contrle des intervieweurs. Les pays qui ont chang dorganisme de
collecte des donnes entre les vagues sont prsents en annexe. Pour ce qui est du mode de rmunration,
il sest avr que la principale mthode employe pour lESS tait la rmunration par interview acheve.
Un taux de rmunration horaire na t utilis que dans quelques pays qui ont galement utilis un ERP
(pour les ESS1 et 2 en Norvge et en Sude, ainsi que les ESS3 et 4 en Norvge et en Finlande). Par
consquent, les modes de rmunration variaient peu et il na pas t possible deffectuer une analyse des
donnes correspondantes. Toutefois, le paiement de primes variait selon le pays et selon la vague de
lenqute. Par consquent, cette information a t utilise pour produire une variable de contrle
dichotomique (paiement dune prime : oui/non).
Deux variables ont t utilises pour dcrire les procdures de contrle : le nombre dlments de
lchantillon admissibles slectionns pour les contrles divis par le nombre dlments de lchantillon
admissibles (ratio dlments slectionns), ainsi que le nombre de rsultats confirms divis par le
nombre dlments de lchantillon slectionns pour les contrles (ratio de rsultats confirms). La
premire variable dcrit le nombre de contrles dans un pays, tandis que la seconde dcrit lefficacit de
ces contrles. Le ratio dlments slectionns varie de 10 % pour lERP, 13 % pour lENR et
16 % pour lERA. Le ratio de rsultats confirms est un peu plus lev pour lENR ( M 75,21,
E.T . 24,81) que pour les deux autres mthodes dchantillonnage (ERP : M 61,89, E.T . 31,95;
ERA : M 66,49; E.T . 32,56).

5 Rsultats
5.1 Diffrences entre les types de mnages
Pour commencer, nous prsenterons les rsultats de la vrification de lhypothse H1. Selon cette
hypothse, les carts par rapport au ratio hommes-femmes de 50/50 varient en fonction du type de
mnage. La figure 5.1 montre les diffrences d entre le pourcentage rel dhommes et la valeur vraie
prvue de 50 % dans trois sous-chantillons. Un intervalle de confiance (IC) 95 % a t utilis pour tenir
compte des fluctuations alatoires. Comme la proportion prvue dhommes est p 0,5, la variance vaut,

Statistique Canada, No 12-001-X au catalogue

127

Techniques denqute, juin 2014

en moyenne, 0, 25 n , o n est le nombre de cas dans le sous-chantillon dans un pays. LIC 95 % a t


calcul comme il suit (voir Kohler 2007, page 59) :

IC 0, 5 1, 96

0, 25 2 .

La figure 5.1 montre que pour les deux sous-chantillons contenant des mnages avec enfants, les
valeurs significatives de d sont ngatives dans la majorit des cas, ce qui signifie que la proportion
dhommes dans ces sous-chantillons est infrieure 50 % (tel que prvu par H1). La plupart de ces
valeurs de d taient de lordre de 10 % ou plus. Des valeurs de d positives significatives (inattendues)
plus faibles (de lordre de 5 %) sont observes pour trois pays qui ont utilis lERP (Belgique et Norvge
pour lESS1, Finlande pour lESS2). Cependant, ces diffrences nont pas pu tre discernes dans dautres
vagues de lenqute.
Enfants 7 14 ans

Retraits

chantillon

ERP
ERA
ENR

carts par rapport la valeur vraie

Enfants < 7 ans


35
25
15
5
-5
-15
-25
-35
35
25
15
5
-5
-15
-25
-35
35
25
15
5
-5
-15
-25
-35
1

Vague de lESS

Non significatif
Significatif

Figure 5.1 carts des pourcentages dhommes par rapport la valeur vraie de 50 % d pour diffrents
types de mnages des vagues ESS1 ESS4

Lexamen des rsultats pour les sous-chantillons de mnages dont les conjoints sont lge de la
retraite (retraits) permet de constater des valeurs de d significativement leves (de lordre de 10 % ou
plus) ayant le signe prvu (positif, ce qui signifie que les pourcentages dhommes sont suprieurs 50 %)
pour certains pays dans le cas de toutes les mthodes dchantillonnage (dans lESS1, pour la Norvge, la
Rpublique tchque et les Pays-Bas; dans lESS2, pour la Norvge, la Pologne et la France; dans lESS3,
pour Chypre et la Russie; dans lESS4, pour lAllemagne, la Hongrie, Chypre et le Royaume-Uni).
Curieusement, la proportion dhommes est nettement infrieure 50 % en Slovaquie dans lESS4 (de
lordre de 33 %) et pour le Portugal dans lESS2 (de lordre de 11 %). Ce rsultat peut tre expliqu par

Statistique Canada, No 12-001-X au catalogue

128

Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS

des modles particuliers de rpartition des rles entre les conjoints. Ici, la femme semble reprsenter le
mnage, mme si lhomme est la maison.
En rsum, les carts significatifs par rapport la valeur vraie dans diffrents types de mnages taient
principalement en harmonie avec les attentes de lhypothse H1.

5.2 Diffrences entre les mthodes dchantillonnage


Leffet de la mthode dchantillonnage (tel que prvu par H2) a t test par la mthode danalyse de
covariance multivarie (MANCOVA). Les valeurs de d pour les trois types de mnages (les trois souschantillons slectionns) ont t considres comme tant les valeurs de trois variables dpendantes qui
ont t analyses simultanment par la mthode MANCOVA. Puisque cette dernire est base sur une
analyse des moyennes, nous avons considr les valeurs absolues de d . Autrement, il aurait t impossible
de tenir compte des diffrences dont le signe tait inattendu, qui seraient galement associes leffet de
la mthode dchantillonnage. Puisque la plupart des diffrences taient ngatives dans les souschantillons composs de mnages avec enfants, les valeurs absolues de d reprsentent une proportion
dhommes infrieure 50 %. Dans le cas des sous-chantillons composs de conjoints lge de la
retraite, il faut tenir compte du fait que la proportion dhommes ntait pas seulement suprieure 50 %,
mais quelle tait aussi plus faible que 50 % au Portugal (ESS2) et en Slovaquie (ESS4). En outre, les
diffrences significatives ainsi que non significatives sont prises en considration pour pouvoir comparer
les pays pour lesquels les valeurs de d sont faibles et ceux pour lesquels elles sont leves.
La MANCOVA a mis en vidence un effet multivari significatif lev du facteur mthode
dchantillonnage (Lambda de Wilks (LW) F6,174 6, 87, p 0, 001, ampleur de leffet 2 0, 21 ).
En revanche, aucun rsultat significatif na t observ pour les variables explicatives ( p 0,10,
2 max 0, 04 ). Afin de prendre en considration les valeurs de d dans diffrents types de mnages, on
a procd des analyses de covariance univaries (ANCOVA). Lhomognit de la variance en tant
que prsuppos pour une ANCOVA est donne selon le test de Levene pour le sous-chantillon de
retraits, et aussi selon le test Fmax pour les sous-chantillons de mnages avec enfants. Les ANCOVA ont
rvl des diffrences significatives entre les moyennes des valeurs de d pour les diverses mthodes
dchantillonnage dans les deux sous-chantillons composs de mnages avec enfants (tableau 5.1). Les
variances expliques dans les ANCOVA pour ces sous-chantillons sont assez leves (voir R 2 dans le
tableau 5.1). En moyenne, la valeur de d la plus faible est observe pour lERP, tandis que la valeur la
plus leve est observe pour lENR (tableau 5.1 et figure 5.2). Toutefois, des comparaisons post-hoc
simples en utilisant les sous-chantillons avec enfants ne rvlent des diffrences significatives quentre
lERP et les deux autres mthodes dchantillonnage (tableau 5.2). En outre, aucune diffrence
remarquable entre les valeurs de d na t constate entre les pays utilisant la mthode LAE et ceux
utilisant lchantillonnage par marche alatoire.
Dans lensemble, les rsultats montrent que lhypothse H2 est appuye partiellement si lon prend en
considration les mnages avec enfants.

Statistique Canada, No 12-001-X au catalogue

129

Techniques denqute, juin 2014

Tableau 5.1
Statistique descriptive M E .T . et rsultats des ANCOVA pour la comparaison de d entre les trois types
de mnages
Types de mnages
Enfants 7 14 ans

Enfants < 7 ans

Retraits

n (pays)

2,21(1,37)
4,87 (2,74)
5,92 (3,55)
20,9***

3,34 (3,35)
4,94(3,83)
5,78(6,87)
1,93

43
31
21

4,49(2,67)
6,92(5,73)
4,78(3,04)
5,23(4,41)
0,00

4,08(2,94)
4,33(3,3)
4,02(3,18)
3,24(2,22)
1,18

4,75(3,22)
3,63(3,71)
3,74(3,44)
5,39(6,66)
0,02

22
24
23
26

Paiement dune prime


Non
Oui
F ddl1 1, ddl 2 88

5,83(4,37)
4,78(3,99)
0,57

4,41(3,10)
3,23(2,52)
3,21+

4,10(3,73)
4,81(5,49)
0,49

54
41

Ratio dlments slectionns


F ddl1 1, ddl 2 88

0,11

0,51

1,09

Ratio de rsultats confirms


F ddl1 1, ddl 2 88

3,11+

0,11

0,00

0,22

0,31

0,01

Mthode dchantillonnage
(traitement)
ERP
ERA
ENR
F ddl1 2, ddl 2 88

3,28(2,07)
6,61(4,98)
7,85 (4,4)
14,52***

Priode : vague de lESS


1
2
3
4
F ddl1 1, ddl 2 88

R
Notes * * * p 0, 001,

p 0,10.
Enfants < 7 ans

Enfants 7 14 ans

Retraits

30

cart par rapport la valeur vraie

25

20
15

10
5
0
ERP

ERA

ENR

ERP

ERA

ENR

ERP

ERA

ENR

Figure 5.2 Botes moustaches pour les valeurs absolues de d prsentes pour diffrentes mthodes
dchantillonnage dans les trois types de mnages

Statistique Canada, No 12-001-X au catalogue

130

Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS

Tableau 5.2
Diffrences des moyennes de d E .T . entre les mthodes dchantillonnage dans les sous-chantillons avec
enfants
Enfants < 7 ans
Diffrences entre
ERP et ERA
-3,34 (0,89)**
ERP et ENR
-4,58 (1,0)**
ERA et ENR
-1,24 (1,07)
Note
* * p 0, 01. Tests post-hoc pour comparaison simple avec correction de Bonferroni.

Enfants 7 14 ans
-2,66 (0,58)**
-3,71 (0,65)**
-1,05 (0,7)

5.3 Effet des variables explicatives


Leffet des variables explicatives a t analys pour tester lhypothse H3, qui prvoit que les carts
par rapport au ratio hommes-femmes de 50/50 seront stables au cours du temps et corrls au mode de
rmunration, aux contrles de lintervieweur et au changement dorganisme de collecte des donnes.
Certains pays qui participent lESS ont procd un changement de mthode dchantillonnage et/ou
dorganisme de collecte des donnes entre les vagues (voir annexe). Les rsultats ont montr que ni les
effets multivaris LW F3,85 0, 81, p 0,10 ni les effets univaris ne sont significatifs pour le
changement dorganisme de collecte des donnes. Donc, le tableau 5.1 prsente les rsultats de
lANCOVA sans cette variable. Si la variable changement dorganisme de collecte des donnes est
incluse dans les analyses, leffet de la variable ratio de rsultats confirms nest plus significatif, mais
cela na pas dincidence sur les effets de toute autre variable. Ce rsultat montre quun changement
dorganisme de collecte des donnes peut tre corrl aux procdures de contrle. Les diffrences entre les
valeurs de d dune vague lautre de lESS ne sont pas significatives non plus, que ce soit dans lanalyse
multivarie LW F3,86 0, 51, p 0,10 ou dans les analyses univaries (pour ces dernires, voir le
tableau 5.1).
Le tableau 5.1 montre que, dans les sous-chantillons avec enfants, les moyennes de la valeur de d
sont plus faibles si une prime est verse que si elle ne lest pas. Cependant, cette diffrence nest
significative qu un seuil de signification de 10 % p 0,10 et seulement pour les mnages avec
enfants plus gs. En consquence, ce rsultat montre que le mode de rmunration peut jouer un rle et
rduire lcart par rapport la valeur vraie lorsque la rmunration est plus leve.
En ce qui concerne les procdures de contrle, le nombre de contrles ( ratio dlments
slectionns ) nest pas reli la valeur de d (tableau 5.1). Le taux de succs des contrles ( ratio de
rsultats confirms ) est quant lui reli la valeur de d dans le sous-chantillon avec enfants de moins
de sept ans. Cette relation est ngative B 0, 06; E.T . 0, 04 , ce qui signifie que plus les taux de
contrle confirms sont faibles, plus les valeurs de d sont leves. Cependant, cette relation nest, elle
aussi, significative qu un seuil de signification de 10 %.
En ce qui concerne lhypothse H3, on a montr que leffet des mthodes dchantillonnage est
indpendant de leffet temporel. Les rsultats corroborent les prvisions de H3 au sujet du mode de
rmunration et des contrles de lintervieweur. Cependant, les rsultats pour ces variables indiquent que
ces effets sont faibles et quils ne peuvent tre constats que pour certains types de mnages.

Statistique Canada, No 12-001-X au catalogue

Techniques denqute, juin 2014

131

6 Rsum et conclusion
Les rsultats de la prsente tude indiquent que des carts significatifs par rapport au paramtre de
population (50 % dhommes) ont t observs dans de nombreux pays participant lESS et que ces carts
taient associs la facilit de prendre contact avec les conjoints ou la coopration de ces derniers dans
les couples htrosexuels (appui pour lhypothse H1). La grandeur de ces carts variait en fonction de la
mthode dchantillonnage lorsque les conjoints diffraient galement en ce qui concerne la facilit de
prendre contact avec eux (dans les sous-chantillons avec enfants). Donc, lhypothse H2 est partiellement
corrobore. Dans les sous-chantillons avec enfants, lERP tait la mthode dchantillonnage associe
aux donnes de la plus haute qualit puisque les carts quelle produisait par rapport au paramtre de
population taient les plus faibles. Cependant, les rsultats pour les sous-chantillons composs de
conjoints retraits montrent que des carts trs prononcs sont galement possibles sous ERP.
Les rsultats pour les sous-chantillons avec enfants appuient lexplication voulant que le
comportement des intervieweurs concernant les substitutions joue un rle, puisque les carts prvus par
rapport au paramtre de population variaient en fonction du degr de libert dont disposait lintervieweur
pour influer sur la ralisation de lchantillon. Des rsultats comparables ont t signals par Sodeur
(1997) et Kohler (2007). Il est moins plausible dexpliquer le fait que les hommes sont interviews moins
de 50 % du temps par une diffrence dattitude concernant le refus de participer puisque, lorsquil en est
ainsi, on sattend ce que la proportion dhommes soit suprieure 50 %. La diffrence dattitude
concernant le refus de participer ne devrait pas non plus varier selon la mthode dchantillonnage. Pour
les retraits, linterview dhommes plus de 50 % du temps a t observe dans plusieurs pays, mais dans
des vagues isoles de lenqute seulement. Cette faible stabilit des carts par rapport au ratio hommesfemmes de 50 % peut aussi tre associe leffet de lintervieweur plutt qu la diffrence dattitude
concernant le refus de participer, puisque cette dernire serait relativement stable dans un pays au cours de
la priode de rfrence de lanalyse. Cependant, puisque la prsente tude na pas t ralise selon un
plan dexprience, il est important de poursuivre ltude des effets de la diffrence dattitude lgard du
refus de participer et des substitutions afin de pouvoir mieux les diffrencier et dexaminer les relations
causales.
Mme si les carts par rapport au paramtre de population de 50 % variaient dans certains pays dune
vague lautre, dans lensemble, leur grandeur ne variait pas de manire significative au fil du temps,
malgr lamlioration des procdures de collecte de donnes de lESS (voir Koch et coll. 2009). De
surcrot, les carts par rapport au paramtre de population ne dpendaient pas de lorganisme charg de la
collecte des donnes ni du pays.
Les rsultats donnent aussi penser que le mode de rmunration et les procdures de contrle de
lintervieweur peuvent rduire les cas de substitution. Cependant, il convient de souligner que la
possibilit de prendre en compte le mode de rmunration et les procdures de contrle a t limite en
raison de la faible variation dans les donnes ou du peu dinformation disponible dans la documentation
de lenqute.
Il faut aussi tenir compte du fait que les rsultats prsents ici sont fonds sur des sous-chantillons
particuliers et ne peuvent pas tre gnraliss lchantillon complet de lESS. Cependant, labsence de
biais dans les sous-chantillons ne garantit pas labsence de biais dans lchantillon complet (Kohler 2007,

Statistique Canada, No 12-001-X au catalogue

132

Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS

page 55). En outre, une analyse portant sur des groupes particuliers peut souvent prsenter un intrt
(p. ex., savoir quelles sont les opinions des parents avec enfants ou des personnes salaries).
Les rsultats de la prsente tude donnent penser que lERP est associ un chantillon de meilleure
qualit, de sorte que le biais de non-reprsentation dans les enqutes transculturelles est plus faible que si
lon utilise les autres mthodes dchantillonnage. La prsente tude fait ressortir ce fait plus clairement
que les tudes antrieures. Les analyses portant sur les donnes ALLBUS ralises par Sodeur (2007) et
par Hoffmeyer-Zlotnik (2006) comparaient plusieurs vagues dune seule enqute dans un seul pays
(Allemagne); dans lanalyse de Kohler (2007), leffet de la mthode dchantillonnage tait confondu avec
leffet de lenqute (voir la section 1). Ces situations ont t vites dans lanalyse prsente ici.
Pour conclure, des carts significatifs par rapport au paramtre de population, qui semblent tre
associs des substitutions effectues par les intervieweurs, ont t observs dans de nombreux pays
participant lESS. Afin de rduire cet effet dintervieweur, il est prfrable dutiliser des mthodes
dchantillonnage, telles que lERP, qui rduisent le degr de libert dont disposent les intervieweurs pour
slectionner les rpondants et influer sur la qualit de lchantillon. En outre, les procdures denqute qui
accroissent la motivation des intervieweurs produire des donnes denqute exactes sont trs pertinentes
et doivent tre prises en considration dans de futures tudes, ainsi que dans les pratiques denqute.

Statistique Canada, No 12-001-X au catalogue

133

Techniques denqute, juin 2014

Annexe
Codes des pays participant lESS, changement de mthode dchantillonnage et dorganisme charg de la
collecte des donnes, et ge lgal de la retraite des hommes et des femmes dans chaque pays
Code de
pays :
ISO 3166-1

Pays

BE
BG
DE
DK
EE
ES
FI
HU
NO
PL
SE
SI
SK
CH
CZ
CY
GB
GR
IE
IL
IT
LU
NL
TR
AT
FR
PT
RU
UA

Belgique
Bulgarie
Allemagne
Danemark
Estonie
Espagne
Finlande
Hongrie
Norvge
Pologne
Sude
Slovnie
Slovaquie
Suisse
Rpublique tchque
Chypre
Royaume-Uni
Grce
Irlande
Isral
Italie
Luxembourg
Pays-Bas
Turquie
Autriche
France
Portugal
Fdration russe
Ukraine

Notes

Changement de mthode
dchantillonnage (entre les
vagues)

Changement
dorganisme de
collecte des donnes :
entre les vagues
1-2; 2-3
3-4

ERA-ENR (1-2)

2-3; 3-4
2-3

ERP ERA (2-3) et inverse (3-4)

2-3

ERP ENR (3-4)

2-3; 3-4

ERA-ENR (1-2)

1-2
3-4
1-2; 3-4

ENR-ERA (2-4)

ge lgal de la
retraite
Hommes Femmes

3-4

65
63
65
65
63
65
65
62
67
65
65
63
62
65
65
65
65
65
65
67
65
65
65
47
65
60
65
60
60

65
60
65
65
60
65
65
62
67
60
65
60
59
64
62
65
60
60
65
64
60
65
65
44
60
60
65
55
55

Sources des donnes sur lge lgal de la retraite :

1) http://www.oecd-ilibrary.org/finance-and-investment/pensions-at-a-glance-2011_pension_glance-2011-en
2) http://ec.europa.eu/employment_social/missoc/db/public/compareTables.do
3) Israel: http://www.btl.gov.il/

Statistique Canada, No 12-001-X au catalogue

134

Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS

Bibliographie
AAPOR (2003). Interviewer Falsification in Survey Research: Current Best Methods for Prevention,
Detection and Repair of Its Effects. (http://www.aapor.org/pdfs/falsification.pdf; 14 mai 2009).
Arber, S. (2002). Design samples. Dans Researching Social Life, (d., N. Gilbert), Thousand Oaks: Sage,
58-84.
Billiet, J., Phillipsen, M., Fitzgerald, R. et Stoop, I. (2007). Estimation of nonresponse bias in the
European Social Survey: Using information from reluctant respondents. Journal of Official Statistics,
23, 135-162.
Couper, M.P., et Groves, R.M. (1992). Le rle de lintervieweur dans la participation aux enqutes.
Techniques denqute, 18, 2, 279-294.
Couper, M.P., et De Leeuw, E.D. (2003). Nonresponse in cross-cultural and crossnational surveys. Dans
Cross-Cultural Survey Methods, (ds., J.A. Harkness, F.J.R. van de Vijver et P.Ph. Mohler), New
York: John Wiley & Sons, Inc., 157-177.
De Heer, W. (1999). International response trends: Results of an international survey. Journal of Official
Statistics, 15, 129-142.
De Heer, W., et Israis, A.Z. (1992). Response Trends in Europe. Article present lAmerican Statistical
Association, aot 1992.
De Leeuw, E., et De Heer, W. (2002). Trends in household survey nonresponse: A longitudinal and
international comparison. Dans Survey Nonresponse, (ds., R.M. Groves, D.A. Dillman, J.L. Eltinge et
R.J.A. Little), New York: John Wiley & Sons, Inc., 41-54.
De Leeuw, E.D., et Hox, J. (1996). The effect of the interviewer on the decision to cooperate in a survey
of the elderly. Dans International Perspectives on Nonresponse, (d., S. Laaksonen). Helsinki:
Statistics Finland, 46-52.
Dohrenwend, B.S., et Dohrenwend, B.P. (1968). Sources of refusals in surveys. The Public Opinion
Quarterly, 32(1), 74-83.
Durrant, G.B., Groves, R.M., Staetsky, L. et Steele, F. (2010). Effects of interviewer attitudes and
behaviors on refusal in household surveys. Public Opinion Quarterly, 74, 1-36.
ESS1-ESS4 data from Contact forms. Bergen, European Social Survey Data Archive, Norwegian Social
Science Data Services. Extrait le 8 juin 2013 de: http://ess.nsd.uib.no/ess/round1/download.html.
European Social Survey Round 1-4 Data (2011). Data file edition ESS1-4e01.0_F1. Norwegian Social
Science Data Services, Norway Data Archive and distributor of ESS data.
European Social Survey (2011). ESS-4 2008 Documentation Report. Edition 4.0. Bergen, European Social
Survey Data Archive, Norwegian Social Science Data Services.
European Social Survey (2011). ESS-3 2006 Documentation Report. Edition 3.3. Bergen, European Social
Survey Data Archive, Norwegian Social Science Data Services.

Statistique Canada, No 12-001-X au catalogue

135

Techniques denqute, juin 2014

European Social Survey (2011). ESS-2 2004 Documentation Report. Edition 3.3. Bergen, European Social
Survey Data Archive, Norwegian Social Science Data Services.
European Social Survey (2011). ESS-1 2002 Documentation Report. Edition 6.2. Bergen, European Social
Survey Data Archive, Norwegian Social Science Data Services.
Groves, R.M., Fowler, F.J., Couper, M.P., Lepkowski, J.M., Singer, E. et Tourangeau, R. (2004). Survey
Methodology. New Jersey: Wiley.
Haeder, S., et Lynn, P. (2007). How representative can a multi-nation survey be? In Measuring Attitudes
Cross-Nationally. Lessons from the European Social Survey, (ds., R. Jowell, C. Roberts, R. Fitzgerald
and E. Gillian), London et al.: Sage, 33-52.
Hoffmeyer-Zlotnik, J.H.P. (2006). Stichprobenziehung in der Umfragepraxis. Die unterschiedlichen
Ergebnisse von Zufallsstichproben in face-to-face Umfragen. Dans Stichprobenqualitt in
Bevlkerungsumfragen, (ds., F. Faulbaum and Ch. Wolf). Informationszentrum Sozialwissenschaften:
Bonn, 19-36.
Hox, J.J., et De Leeuw, E.D. (2002). The Influence of interviewers attitude and behavior on household
survey nonresponse: An international comparison. Dans Survey Nonresponse, (ds., R.M. Groves,
D.A. Dillman, J.L. Eltinge et R.J.A. Little), New York: John Wiley & Sons, Inc., 103-118.
Johnson, T.P., ORourke, D., Burris, J. et Owens, L. (2002). Culture and survey nonresponse. Dans Survey
Nonresponse, (Eds., R.M. Groves, D.A. Dillman, J.L. Eltinge et R.J.A. Little), New York: John Wiley
& Sons, Inc., 55-69.
Kish, L. (1965). Survey Sampling. New York: John Wiley & Sons, Inc.
Koch, A. (1995). Geflschte Interviews: Ergebnisse der Interviewerkontrolle beim ALLBUS 1994.
ZUMA-Nachrichten, 36, 89-105.
Koch, A., Blom, A.G., Stoop, I. et Kappelhof, J. (2009). Data collection quality assurance in crossnational surveys at the example of the ESS. Methoden Daten Analysen, 3, 219-247.
Kohler, U. (2007). Surveys from inside: An assessment of unit nonresponse bias with internal criteria.
Survey Research Methods, 1, 2, 55-67.
Kreuter, F., et Kohler, U. (2009). Analyzing contact sequences in call record data. Potential and
limitations of sequence indicators for nonresponse adjustments in the European Social Survey. Journal
of Official Statistics, 25, 203-226.
Lynn, P., Haeder, S., Gabler, S. et Laaksonen, S. (2007). Methods for achiving equivalence of samples in
cross-national surveys: The European Social Survey Experience. Journal of Official Statistics, 1, 107124.
Pickery, J., et Loosveldt, G. (2002). A multilevel multinomial analysis of interviewer effects on various
components of unit non response. Quality and Quantity, 36, 427-437.

Statistique Canada, No 12-001-X au catalogue

136

Menold : Linfluence de la mthode dchantillonnage et des intervieweurs sur la ralisation de lchantillon dans lESS

Philippens, M., et Billiet, J. (2004). Monitoring and evaluating nonresponse issues and fieldwork efforts in
the European Social Survey. Article prsent lors de la European Conference on Quality and
Methodology in Official Statistics. Mainz, Allemagne.
Schnauber, A., et Daschmann, G. (2008). States oder traits? Was beeinflut die Teilnahmebereitschaft an
telefonischen Interviews? Zeitschrift Fr Empirische Sozialforschung, 2, 97-123.
Schnell, R., Hill, P.B. et Esser, E. (2011). Methoden der Empirischen Sozialforschung. Mnchen:
R. Oldenbourg Verlag.
Smith, T.W. (2007). Survey nonresponse procedures in cross-national perspective: The 2005 ISSP nonresponse survey. Survey Research Methods, 1, 45-54.
Sodeur, W. (1997). Interne kriterien zur Beurteilung von Wahrscheinlichkeitsauswahlen. ZA-Information,
41, 58-82.
Sodeur, W. (2007). Entscheidungsspielrume von Interviewern bei der Wahrscheinlichskeitsauswahl.
Methoden Daten Analysen, 1, 2, 107-130.
Stoop, I.A.L. (2004). Surveying nonrespondents. Field Methods, 16, 23-54.
Stoop, I.A.L. (2005). The Hunt for the Last Respondent. The Hague: Social and Cultural Planning Office.
Symons, K., Matsuo, H., Beullens, K. et Billiet, J. (2008). Response Based Quality Assessment in the ESS
Round 3: An Update for 19 countries. London: Centre for Comparative Social Surveys, City
University.
Vehovar, V. (1999). Field substitution and unit nonresponse. Journal of Oficial Statistics, 2, 335-350.
Williams, B., Irvine, L., McGinnis, A.R., McMurdo, M.E.T. et Crombie, I.K. (2007). When no might
not quite mean no; the importance of informed and meaningful non-consent: results from a survey of
individuals refusing participation in a health-related research project. BMC Health Services Research,
7, 59.

Statistique Canada, No 12-001-X au catalogue

Techniques denqute, juin 2014


Vol. 40, No 1, p. 137-147
Statistique Canada, No 12-001-X au catalogue

137

Imputation multiple baysienne pour des donnes


catgoriques grande chelle contenant des zros structurels
Daniel Manrique-Vallier et Jerome P. Reiter1
Rsum
Nous proposons une approche dimputation multiple des rponses manquant alatoirement dans les enqutes
grande chelle qui ne portent que sur des variables catgoriques prsentant des zros structurels. Notre
approche consiste utiliser des mlanges de lois multinomiales comme outils dimputation et tenir compte
des zros structurels en concevant les donnes observes comme un chantillon tronqu issu dune population
hypothtique ne contenant pas de zros structurels. Cette approche possde plusieurs caractristiques
intressantes : les imputations sont gnres partir de modles baysiens conjoints cohrents qui tiennent
compte automatiquement des dpendances complexes et sadaptent facilement de grands nombres de
variables. Nous dcrivons un algorithme dchantillonnage de Gibbs pour mettre en uvre lapproche et
illustrons son potentiel au moyen dune tude par chantillonnage rpt en utilisant des microdonnes de
recensement grande diffusion provenant de ltat de New York, aux tats-Unis.
Mots-cls :

classes latentes; log-linaire; valeur manquante; mlange; multinomiale; non-rponse.

1 Introduction
De nombreux organismes ralisent des enqutes qui comprennent un grand nombre de variables
exclusivement catgoriques. Invitablement, ces enqutes souffrent de non-rponse partielle qui, non prise
en compte, peut rduire la prcision ou augmenter le biais (Little et Rubin 2002). Lune des approches
pour traiter la non-rponse partielle est limputation multiple (Rubin 1987), suivant laquelle lorganisme
procde un chantillonnage rpt partir de lois de probabilit prdictives pour remplacer les rponses
manquantes. Cela cre M > 1 ensembles de donnes complets qui peuvent tre analyss ou diffuss aux
membres du public. Si les modles dimputation satisfont certaines conditions (Rubin 1987, chapitre 4),
les analystes des M ensembles de donnes complets peuvent faire des infrences valides en utilisant des
mthodes et des logiciels statistiques pour donnes compltes. Pour une revue de limputation multiple,
voir Rubin (1996), Barnard et Meng (1999), Reiter et Raghunathan (2007), et Harel et Zhou (2007).
Limputation multiple peut gnralement tre mise en uvre selon deux stratgies. La premire
consiste postuler un modle conjoint pour toutes les variables et estimer ce modle en utilisant des
techniques baysiennes, qui incluent habituellement une augmentation des donnes et un chantillonnage
Monte Carlo par chane de Markov (MCMC). Les modles conjoints habituels comprennent les modles
normaux multivaris pour les donnes continues et les modles log-linaires pour les donnes
catgoriques (Schafer 1997). La deuxime stratgie consiste adopter des approches bases sur des
quations chanes (Van Buuren et Oudshoorn 1999; Raghunathan, Lepkowski, van Hoewyk et
Solenberger 2001; White, Royston et Wood 2011). Lanalyste estime une srie de modles conditionnels
univaris et impute les valeurs manquantes squentiellement en se servant de ces modles. Les modles
conditionnels types comprennent les rgressions normales pour variables dpendantes continues et les
rgressions logistiques ou multinomiales logistiques pour les variables dpendantes catgoriques.
1. Daniel Manrique-Vallier est professeur adjoint au Dpartement de Statistique, Indiana University, Bloomington, IN 47408. Courriel :
dmanriqu@indiana.edu; Jerome P. Reiter est professeur Mrs. Alexander Hehmeyer of Statistical Science, Duke University, Durham, NC
27708-0251. Courriel : jerry@stat.duke.edu.

138

Manrique-Vallier et Reiter : Imputation multiple baysienne de donnes catgoriques grande chelle avec zros structurels

Comme lont mentionn Vermunt, Ginkel, der Ark et Sijtsma (2008) ainsi que Si et Reiter (2013), les
stratgies axes sur des quations chanes conviennent mal pour les ensembles de donnes catgoriques
prsentant des dpendances complexes. Pour toute rgression logistique (multinomiale) conditionnelle, le
nombre de modles possibles est norme si lon tient compte des effets dinteraction potentiels. Spcifier
minutieusement chaque modle conditionnel demande beaucoup de temps sans que lon soit certain
dobtenir un ensemble de modles cohrents sur le plan thorique. En effet, de nombreux praticiens des
quations chanes utilisent pour cette raison des paramtres par dfaut qui nincluent que les effets
principaux dans les modles conditionnels. En excluant les interactions, les analystes risquent de produire
des ensembles de donnes complets qui fournissent des estimations biaises. Il convient de souligner que
les mmes difficults de slection des modles frappent les approches fondes sur des modles
log-linaires.
Pour viter ces problmes, Si et Reiter (2013) proposent une approche conjointe, entirement
baysienne, de modlisation de limputation multiple base sur des modles classes latentes pour les
donnes catgoriques de haute dimensionnalit. Lide est de modliser le tableau de contingence
implicite des variables catgoriques comme un mlange de lois multinomiales indpendantes, en estimant
le mlange de lois non paramtriquement au moyen de lois a priori issues du processus de Dirichlet. Les
mlanges de lois multinomiales peuvent dcrire des dpendances arbitrairement complexes et les calculs
sont commodes et rapides, de sorte quils constituent des outils dimputation multiple dusage gnral
efficace. Par exemple, Si et Reiter (2013) ont appliqu leurs modles pour imputer les valeurs manquantes
pour 80 variables catgoriques de la Trends in International Mathematics and Science Study.
Dans leur approche, Si et Reiter (2013) ne traitent pas la complication importante et rpandue dans les
donnes denqute due au fait que certaines combinaisons de variables pourraient tre impossibles
a priori. On donne ces cas le nom de zros structurels (Bishop, Fienberg et Holland 1975). Par exemple,
aux tats-Unis, il est impossible que des enfants de moins de 15 ans se marient. Des zros structurels
peuvent aussi rsulter des enchanements de questions dans les enqutes. Les algorithmes dimputation de
Si et Reiter (2013), sils sont appliqus directement, permettent dobtenir une probabilit non nulle pour
les zros structurels, ce qui son tour biaise les estimations des probabilits pour les combinaisons
possibles.
Dans le prsent article, nous prsentons le problme de modlisation conjointe entirement baysienne
pour limputation multiple de grands ensembles de donnes catgoriques contenant des zros structurels.
Notre approche combine le modle dimputation classes latentes de Si et Reiter (2013) et la mthode de
traitement des zros structurels labore par Manrique-Vallier et Reiter ( paratre en 2014). Au moyen de
simulations, nous montrons que lapproche produit des ensembles de donnes multi-imputs qui ne violent
pas les contraintes des zros structurels et peuvent avoir des proprits dchantillonnage rpt bien cal.

2 Modle dimputation baysien classes latentes avec zros


structurels
Supposons que nous avons un chantillon de n individus mesurs sur J variables catgoriques.
Chaque individu est associ un vecteur de rponses x i = xi1 , xi 2 , , xiJ , dont les composantes
prennent des valeurs provenant dun ensemble de L j niveaux. Pour simplifier, nous tiquetons ces

Statistique Canada, No 12-001-X au catalogue

139

Techniques denqute, juin 2014

niveaux en utilisant des nombres conscutifs, xij 1,

, L j , de sorte que x i

1,
J

j =1

, L j.

Notons que
inclut toutes les combinaisons des J variables, y compris les zros structurels, et que
chaque combinaison x peut tre considre comme une cellule dans le tableau de contingence form par
. Soit x i = x iobs , x imanq , o x iobs inclut les variables dont les valeurs sont observes et x imanq inclut les
variables dont les valeurs manquent. Enfin, soit S = s1 , , sC , o s c
lensemble de cellules contenant un zro structurel, c.--d. Pr x i S = 0.

et c = 1,

,C < S ,

2.1 Modles classes latentes


Pour commencer, nous dcrivons le modle classes latentes baysien sans nous proccuper des zros
structurels et sans aucune donne manquante, c.--d. x i = x iobs . Ce modle est un mlange fini de
produits de lois multinomiales,
p x , = f

MCL

x , =

o = jk l , avec tous les jk l > 0 et

Lj
l =1

k =1

j =1

k jk x j ,

jk l = 1. Ici, = 1 ,

(2.1)

, K avec

K
k =1

k = 1.

Ce modle correspond au processus gnrateur,


xij z i

indp

Discrte1: L j jz 1 ,
i
zi

iid

, jz L j pour tout i et j
i

Discrte1: K 1 ,

, K pour tout i.

(2.2)
(2.3)

En ce qui concerne la notation, soit , un chantillon de n variables obtenu au moyen de ce


= x1 , , x n et
= z1 , , z n . Pour K suffisamment grand, (2.1) peut
processus, avec
reprsenter arbitrairement les lois conjointes de x (Suppes et Zanotti 1981; Dunson et Xing 2009). Et, en
utilisant la reprsentation dindpendance conditionnelle dans (2.2) et (2.3), le modle peut tre estim et
simul efficacement mme si J est grand.
Pour les lois a priori sur , nous suivons Si et Reiter (2013) et Manrique-Vallier et Reiter ( paratre
en 2014). Nous avons
jk

(2.4)

k = Vk 1 Vh

(2.5)

indp

Dirichlet 1 L

h<k

Vk

iid

Beta 1, pour k = 1,

, K 1; V K = 1

Gamma 0, 25; 0, 25

(2.6)
(2.7)

Dans (2.4), les lois a priori sont quivalentes des lois uniformes sur le support des J K probabilits
multinomiales conditionnelles et reprsentent donc de vagues connaissances a priori. La loi a priori pour

Statistique Canada, No 12-001-X au catalogue

140

Manrique-Vallier et Reiter : Imputation multiple baysienne de donnes catgoriques grande chelle avec zros structurels

dans (2.5) (2.7) est un exemple de loi a priori stick-breaking de dimension finie (Sethuraman 1994;
Ishwaran et James 2001). Comme il est discut dans Dunson et Xing (2009) et Si et Reiter (2013), elle
attribue habituellement
moins de K classes, ce qui rduit les calculs et vite le surajustement. Pour
une discussion et une justification plus approfondies de ce modle en tant quoutil dimputation, voir Si et
Reiter (2013).

2.2 Modles tronqus classes latentes


Le modle classes latentes donn dans (2.1) ne spcifie pas naturellement les cellules contenant des
zros structurels a priori, parce quil repose sur la supposition dune probabilit positive dans chaque
cellule. Donc, pour reprsenter les tableaux contenant des zros structurels, nous devons tronquer le
modle de sorte que
f

MCLT

k =1

j =1

x , , S 1x S k jk x j .

(2.8)

Comme le montrent Manrique-Vallier et Reiter ( paratre en 2014), lobtention dchantillons partir de


la loi a posteriori de paramtres , , conditionnellement un chantillon 1 = x1 , , x n , peut tre
facilite considrablement par ladoption dune stratgie daugmentation analogue celles dcrites dans
Basu et Ebrahimi (2001) et dans OMalley et Zaslavsky (2008). Nous considrons que 1 reprsente la
part de variables qui nont pas t incluses dans lensemble S provenant dun chantillon plus grand, ,
gnr directement partir de (2.1). Soit n 0 , 0 , et 0 la taille (inconnue) de lchantillon, les vecteurs
qui nest pas comprise dans S . En
de rponses et les tiquettes des classes latentes pour la partie de
utilisant une loi a priori emprunte Meng et Zaslavsky (2002), Manrique-Vallier et Reiter ( paratre en
2014) montrent que, si p N 1 N , o N = n0 n, la loi a posteriori de , sous le modle
tronqu (2.8) peut tre obtenue en effectuant sur n0 ,

lintgration de la loi a posteriori sous

le modle dchantillon augment.


En procdant ainsi, Manrique-Vallier et Reiter ( paratre en 2014) laborent un algorithme efficace sur
le plan des calculs pour traiter de grands ensembles de zros structurels lorsquils peuvent tre exprims
comme lunion densembles dfinis par des conditions marginales. Il sagit densembles dfinis en fixant
certains niveaux pour un sous-ensemble de variables catgoriques, par exemple, lensemble de toutes les
cellules, de faon que x : x3 = 1, x6 = 3 . Manrique-Vallier et Reiter ( paratre en 2014)
introduisent pour exprimer les conditions marginales une notation vectorielle que nous utilisons ici
galement. Soit = 1 , 2 , , J o, pour j = 1, , J , nous posons que j = x j quand x j est fix
un certain niveau et j = * autrement, o * est une notation spciale reprsentant un paramtre
substituable. En utilisant cette notation et en supposant que J = 8, les conditions qui dfinissent
lensemble susmentionn servant dexemple ( x3 = 1 et x 6 = 3 ) correspondent au vecteur
*,*,1,*,*, 3,*,* . Pour viter dencombrer la notation, nous utilisons les vecteurs pour reprsenter les
conditions marginales ainsi que les cellules dfinies par ces conditions marginales, le contexte permettant
de dterminer sil sagit des premires ou des secondes.

Statistique Canada, No 12-001-X au catalogue

141

Techniques denqute, juin 2014

2.3 Estimation et imputation multiple


Discutons maintenant de la faon destimer le modle dcrit la section 2.2, puis de le convertir en un
outil dimputation multiple, lorsque certaines rponses manquent au hasard. La stratgie de base consiste
utiliser un chantillonneur de Gibbs. tant donn un ensemble de donnes complet x obs , x manq , nous
effectuons une slection des paramtres en utilisant lalgorithme de Manrique-Vallier et Reiter ( paratre
en 2014). tant donn une slection des paramtres, nous effectuons la slection de x manq tel que dcrit
plus bas.
Formellement, lalgorithme procde comme il suit. Supposons que lensemble de zros structurels peut
tre dfini comme lunion de C conditions marginales disjointes, S = Cc=1 c , et que nous utilisons les
lois a priori pour , et dfinies la section 2.1. Sachant x i = x iobs , x imanq pour i = 1,

, n,

lalgorithme de Manrique-Vallier et Reiter ( paratre en 2014) chantillonne les paramtres comme il suit.
1.

i = 1,

Pour

, n,

z i1

chantillonner

Discrte1: K p1 ,

, pk ,

avec

p k k j =1 jk xij1 .
J

2.

jkl = 1
3.

, J et k = 1,

Pour j = 1,

Pour

k =

1x
n

i =1

k = 1,

1z
n

i =1

= l , z i1 = k

,K 1
= k

1
i

pour tout k = 1,

1x
n0
i =1

0
ij

n0
i =1

0
i

Vk

Beta 1 k , a

5.

chantillonner n1 ,
et poser que n0 =

, nC

C
c =1

K
h = k 1

= k . Poser que V K = 1 et faire k = Vk h < k 1 Vh

, C , calculer c = Pr x c | , =

Pour c = 1,

, jkL , avec

Dirichlet jk 1 ,

= l , z i0 = k .

chantillonner

1z

, K.

4.

6.

1
ij

, K , chantillonner jk

NM n, 1 ,

k =1 k

cj *

jk cj .

, C , o NM est la loi multinomiale ngative,

nc .

Poser que 1. Rpter ce qui suit pour chaque c = 1,


a) Calculer le vecteur normalis p1 ,

, C.

, p K , o p k k j :

cj *

jk cj .

b) Rpter les trois tapes suivantes n c fois :


i.

chantillonner z 0

ii. pour j = 1,

0
j

Discrte p1 ,

, pk ,

, J , chantillonner

Discrte
1: L j jz 0 1 ,

jc

0
jz

L j

si cj = *
si cj *

o est une distribution de masse ponctuelle cj ,


cj

iii. poser que 1.


7.

chantillonner

Gamma a 1 K , b log K .

Statistique Canada, No 12-001-X au catalogue

142

Manrique-Vallier et Reiter : Imputation multiple baysienne de donnes catgoriques grande chelle avec zros structurels

Aprs avoir chantillonn les paramtres, nous devons effectuer un tirage de x manq . Pour i = 1, , n,
soit m i = mi1 , , miJ un vecteur tel que mij = 1 si la composante j dans x i est manquante et

mij = 0 autrement. En supposant que les donnes manquent au hasard, nous ne devons chantillonner que
les composantes de chaque x i pour lesquelles mij = 1, conditionnellement aux composantes pour
lesquelles mij = 0. Donc, nous ajoutons une huitime tape lalgorithme.
8.

Pour i = 1,

, n, chantillonner x imanq partir de sa distribution conditionnelle complte,


p x imanq

1x i

j : mij =1

jz xij .
i

(2.9)

En labsence de zros structurels, les x ij quil faut imputer sont conditionnellement indpendants
sachant z i , ce qui transforme la tche dimputation en un exercice dchantillonnage multinomial
ordinaire (Si et Reiter 2013). Cependant, les zros structurels que contient S induisent une dpendance
entre les composantes. Donc, nous ne pouvons pas simplement chantillonner les composantes
indpendamment les unes des autres. Une approche nave consiste utiliser un scnario dacceptationrejet en effectuant un chantillonnage rpt partir de la loi propose p x manq* = j :m =1 jz xij
i

ij

jusqu lobtention dune variable telle que x


S . Cependant, si la rgion de rejet est grande ou
possde une probabilit leve, cette approche peut tre trs inefficace.
manq*

Nous proposons plutt de former des tapes dchantillonnage de Gibbs supplmentaires, en calculant
les lois conditionnelles de toutes les composantes manquantes afin de pouvoir les chantillonner
individuellement. Soit Rep x i , j , l le vecteur qui rsulte du remplacement de la composante j dans x i
par une valeur arbitraire l 1, 2,

, L j . La loi conditionnelle complte de la composante manquante j

de x i (quand mij = 1 ) est p xij

1Rep x i , j , xij S jzi xij .

Donc, nous remplaons

ltape 8 dans lalgorithme par


8.

Pour chaque i, j i , j : mij = 1 , chantillonner xij

Discrte 1: L

p ,
1

, p L , o
j

p l jz l 1Rep x i , j , l S .
i
La dfinition de p l implique de tronquer le support de la loi conditionnelle complte de x ij ,

cest--dire 1,

, L j , de manire ne garder que les valeurs qui vitent x i S , sachant les valeurs

courantes de xij : tout j j .

Pour obtenir M ensembles de donnes complets utiliser pour limputation multiple, les analystes
slectionnent M des x manq chantillonns aprs convergence de lchantillonneur de Gibbs. Ces
ensembles de donnes doivent tre suffisamment espacs pour tre approximativement indpendants
(sachant x obs ). Cela requiert de rduire les chantillons MCMC de manire que les autocorrlations entre
les paramtres soient proches de zro.

Statistique Canada, No 12-001-X au catalogue

Techniques denqute, juin 2014

143

3 tude par simulation


Afin dillustrer empiriquement la performance de cet outil dimputation, nous avons effectu une
exprience dchantillonnage rpt en utilisant un extrait des 5 % de lchantillon de microdonnes
grande diffusion provenant des donnes du Recensement des tats-Unis de 2000 pour ltat de New York
(Ruggles, Alexander, Genadek, Goeken, Schroeder et Sobek 2010). Les donnes comprennent H =
953 076 individus et dix variables catgoriques : proprit du logement (3 niveaux), situation de prt
hypothcaire (4 niveaux), ge (9 niveaux), sexe (2 niveaux), tat matrimonial (6 niveaux), identification
unique de la race (5 niveaux), niveau dtudes (11 niveaux), situation demploi (4 niveaux), situation
dincapacit demploi (3 niveaux) et situation dancien combattant (3 niveaux). Ces variables dfinissent
un tableau de contingence contenant 2 566 080 cellules, dont 2 317 030 correspondent des zros
structurels.
Nous traitons les H enregistrements comme une population partir de laquelle nous tirons
500 chantillons indpendants de taille n = 1 000. Pour chaque chantillon, nous imposons des donnes
manquantes en remplaant alatoirement par un blanc 30 % des valeurs au niveau de la rponse
enregistres pour chaque variable. Puis nous estimons le modle tronqu classes latentes de la
section 2.3 en utilisant 10 000 itrations MCMC et en cartant les 5 000 premires titre de rodage.
partir de chaque chane restante, nous crons M = 50 ensembles de donnes complets par un
chantillonnage systmatique de chaque tranche de 100 itrations. Dans chacune des 500 simulations,
nous utilisons un nombre maximal de classes latentes K = 50. Habituellement, le nombre effectif de
composantes, c.--d. celles comprenant au moins un individu, est compris entre 10 et 15 (selon le
sous-chantillon particulier) et ne dpasse pas 26.
Comme quantits estimer, nous utilisons toutes les probabilits trois dimensions dont les valeurs
sont suprieures 0,1 dans la population (les H = 953 076 individus). Cela quivaut 279 quantits
estimer. Dans chaque chantillon, nous estimons les intervalles de confiance 95 % pour chacune des
279 probabilits en utilisant les rgles de combinaison pour limputation multiple de Rubin (1987). Nous
calculons aussi les intervalles correspondants au moyen des donnes avant lintroduction de valeurs
manquantes, qui sont dnommes donnes compltes.
La figure 3.1 donne le pourcentage des 500 intervalles de confiance 95 % qui couvrent leur valeur de
population. Dans la plupart des cas, les taux de couverture simuls pour limputation multiple sont
compris dans lintervalle derreur Monte Carlo par rapport au niveau nominal. Quelques intervalles de
confiance fonds sur limputation multiple ont un faible taux de couverture; en particulier, trois dentre
eux ont un taux infrieur 85 % tandis que leurs analogues avec donnes compltes sont plus proches du
niveau nominal. Cependant, comme le montre la figure 3.2, les grandeurs absolues des biais des
estimations ponctuelles de ces quantits ont tendance tre modestes. Ces rsultats encourageants
corroborent les rsultats prsents par Si et Reiter (2013), dont les simulations comprenaient jusqu
50 variables (sans aucun zro structurel).

Statistique Canada, No 12-001-X au catalogue

0,75

0,80

0,85

0,90

0,95

Manrique-Vallier et Reiter : Imputation multiple baysienne de donnes catgoriques grande chelle avec zros structurels

Couverture empirique (avec donnes manquantes)

144

0,92

0,93

0,94

0,95

0,96

0,97

Couverture empirique (chantillon complet)

Figure 3.1 Comparaison des taux de couverture empiriques (sur 500 essais) des intervalles de confiance pour
les estimations des probabilits marginales trois dimensions calcules partir des chantillons
complets et partir des ensembles de donnes traits par imputation multiple. Les droites en trait
interrompu indiquent le niveau de couverture nominal. Un bruit alatoire Unif (-0,004, 0,004) est
ajout par souci de clart.

Pour chaque quantit estimer, nous calculons aussi la fraction dinformation manquante (FMI, Rubin
1987, page 77) moyenne estime sur les 500 essais. Ces donnes sont prsentes la figure 3.3. La plupart
des FMI moyennes sont proches du taux de rponses manquantes de 30 % que nous avons impos sur
chaque variable dans le plan de simulation. Cependant, bon nombre de FMI moyennes sont
significativement infrieures 30 %, y compris quatre qui sont exactement gales zro. Les quantits
estimer ayant une FMI moyenne significativement infrieure 0,30 correspondent aux entres des
tableaux des probabilits marginales trois dimensions o les zros structurels restreignent svrement les
imputations possibles. En fait, les zros structurels rduisent la perte dinformation due aux donnes
manquantes. Par exemple, les quatre quantits estimer avec une FMI moyenne = 0 correspondent des
combinaisons de variables pour lesquelles les restrictions ne laissent quun seul schma dimputation
possible. Donc, aucune information nest perdue mme si les valeurs des donnes manquent
effectivement. En incorporant les zros structurels, nous imputons automatiquement les cas de ce type de
manire approprie et nous pouvons tirer parti de linformation fournie par les contraintes lies aux zros
structurels.

Statistique Canada, No 12-001-X au catalogue

145

0,4
0,3
0,2
0,1

Estimations moyennes (avec donnes manquantes)

Techniques denqute, juin 2014

0,1

0,2

0,3

0,4

Estimations moyennes (chantillon complet)

0,90
0,80

Couv. empirique (avec don. manquantes)

Figure 3.2 Estimations moyennes (sur 500 essais) des probabilits marginales trois dimensions partir des
ensembles de donnes avec imputation multiple en fonction de celles calcules partir des
chantillons complets. Les points marqus dune croix sont les estimations pour lesquelles la
couverture empirique des intervalles de confiance 95 % fonds sur limputation multiple est
infrieure 85 %.

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

Fraction dinformation manquante moyenne

Figure 3.3 Taux de couverture empiriques (sur 500 essais) des intervalles de confiance pour 279 estimations
des probabilits marginales trois dimensions calcules partir des ensembles de donnes traits
par imputation multiple en fonction de la fraction dinformation manquante moyenne estime
(sur les 500 essais) correspondante.

Statistique Canada, No 12-001-X au catalogue

146

Manrique-Vallier et Reiter : Imputation multiple baysienne de donnes catgoriques grande chelle avec zros structurels

4 Conclusion
Les contraintes lies aux zros structurels, comme les combinaisons impossibles et les enchanements
de questions, sont une caractristique importante de nombreuses enqutes. Elles jouent aussi un rle cl
dans limputation. Ne pas tenir compte des zros structurels lors de lestimation des modles peut donner
lieu des biais importants lorsquon estime des quantits qui dpendent des probabilits conjointes ou
conditionnelles. Cela se traduit par la gnration de valeurs imputes qui ne refltent pas exactement la
structure de dpendance des donnes et qui peuvent subsquemment mener des infrences biaises en
prsence dimputation multiple. En outre, les zros structurels jouent souvent le rle de rgles de
cohrence. Ne pas appliquer ces rgles dans limputation pourrait donner des ensembles de donnes
complets contenant des rponses incohrentes comme des enfants veufs ou des locataires payant des
impts fonciers que de nombreux organismes hsiteraient diffuser et que de nombreux utilisateurs
trouveraient difficiles analyser. Fonde sur des modles baysiens tronqus classes latentes, lapproche
propose ici offre aux spcialistes des sondages un moyen dviter ce genre de problmes en utilisant des
imputations multiples partir de modles cohrents sur le plan thorique et commodes sur le plan des
calculs qui peuvent saisir des dpendances complexes et, simultanment, rduire les difficults et les
conjectures de spcification des modles qui caractrisent souvent les approches classiques dimputation
multiple appliques aux donnes catgoriques. Le code informatique en C++ et en R pour la mise en
uvre des algorithmes dcrits dans le prsent article peut tre obtenu directement auprs des auteurs.

Remerciements
Cette tude a t finance par une subvention de la Fondation nationale des sciences (SES 11-31897).

Bibliographie
Barnard, J. et Meng, X. (1999). Applications of multiple imputation in medical studies: From AIDS to
NHANES. Statistical Methods in Medical Research, 8, 17-36.
Basu, S. et Ebrahimi, N. (2001). Bayesian capture-recapture methods for error detection and estimation of
population size: Heterogeneity and dependence. Biometrika, 88, 269-279.
Bishop, Y., Fienberg, S. et Holland, P. (1975). Discrete Multivariate Analysis: Theory and Practice.
Cambridge, MA: MIT Press, rimprim en 2007, New York: Springer-Verlag.
Dunson, D. et Xing, C. (2009). Nonparametric Bayes modeling of multivariate categorical data. Journal of
the American Statistical Association, 104, 1042-1051.
Harel, O. et Zhou, X.H. (2007). Multiple imputation: review of theory, implementation and software.
Statistics in Medicine, 26, 3057-3077.
Ishwaran, H. et James, L.F. (2001). Gibbs sampling for stick-breaking priors. Journal of the American
Statistical Association, 96, 161-173.

Statistique Canada, No 12-001-X au catalogue

147

Techniques denqute, juin 2014

Little, R.J.A. et Rubin, D.B. (2002). Statistical Analysis with Missing Data. New York: John Wiley &
Sons, Inc.
Manrique-Vallier, D. et Reiter, J.P. ( paratre en 2014). Bayesian estimation of discrete multivariate
truncated latent structure models. Journal of Computational and Graphical Statistics.
Meng, X.L. et Zaslavsky, A.M. (2002). Single observation unbiased priors. The Annals of Statistics, 30,
1345-1375.
OMalley, A.J. et Zaslavsky, A.M. (2008). Domain-level covariance analysis for multilevel survey data
with structured nonresponse. Journal of the American Statistical Association, 103, 1405-1418.
Raghunathan, T.E., Lepkowski, J.M., van Hoewyk, J. et Solenberger, P. (2001). Une technique
multidimensionelle d'imputation multiple des valeurs manquantes l'aide d'une squence de modles de
rgression. Techniques denqute, 27, 1, 91-103.
Reiter, J.P. et Raghunathan, T.E. (2007). The multiple adaptations of multiple imputation. Journal of the
American Statistical Association, 102, 1462-1471.
Rubin, D.B. (1987). Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons, Inc.
Rubin, D.B. (1996). Multiple imputation after 18+ years. Journal of the American Statistical Association,
91, 473-489.
Ruggles, S., Alexander, T., Genadek, K., Goeken, R., Schroeder, M.B. et Sobek, M. (2010). Integrated
Public Use Microdata Series: Version 5.0 [Machine-readable database]. University of Minnesota,
Minneapolis. http://usa.ipums.org.
Schafer, J.L. (1997). Analysis of Incomplete Multivariate Data. London: Chapman & Hall.
Sethuraman, J. (1994). A constructive definition of Dirichlet priors. Statistica Sinica, 4, 639-650.
Si, Y. et Reiter, J.P. (2013). Nonparametric Bayesian multiple imputation for incomplete categorical
variables in large-scale assessment surveys. Journal of Educational and Behavioral Statistics,
paratre.
Suppes, P. et Zanotti, M. (1981). When are probabilistic explanations possible? Synthese, 48, 191-199.
Van Buuren, S. et Oudshoorn, C. (1999). Flexible multivariate imputation by MICE. Rapport technique,
Leiden: TNO Preventie en Gezondheid, TNO/VGZ/PG 99.054.
Vermunt, J.K., Ginkel, J.R.V., der Ark, L.A.V. et Sijtsma, K. (2008). Multiple imputation of incomplete
categorical data using latent class analysis. Sociological Methodology, 38, 369-397.
White, I.R., Royston, P. et Wood, A.M. (2011). Multiple imputation using chained equations: Issues and
guidance for practice. Statistics in Medicine, 30, 377-399.

Statistique Canada, No 12-001-X au catalogue