Vous êtes sur la page 1sur 19

No 12-001-X au catalogue

ISSN 1712-5685

Techniques denqute 41-1

Estimation sur petits domaines en


combinant des donnes provenant
de plusieurs sources

par Jae-kwang Kim, Seunghwan Park et Seo-young Kim


Date de diffusion : le 29 juin 2015

Comment obtenir dautres renseignements


Pour toute demande de renseignements au sujet de ce produit ou sur lensemble des donnes et des services de Statistique Canada,
visiter notre site Web www.statcan.gc.ca.
Vous pouvez galement communiquer avec nous par :
Courriel infostats@statcan.gc.ca
Tlphone entre 8 h 30 et 16 h 30 du lundi au vendredi aux numros sans frais suivants :
Service de renseignements statistiques
1-800-263-1136
Service national dappareils de tlcommunications pour les malentendants
1-800-363-7629
Tlcopieur 1-877-287-4369
Programme des services de dpt
Service de renseignements
1-800-635-7943
Tlcopieur 1-800-565-7757

Normes de service la clientle

Signes conventionnels dans les tableaux

Statistique Canada sengage fournir ses clients des services


rapides, fiables et courtois. cet gard, notre organisme sest
dot de normes de service la clientle que les employs
observent. Pour obtenir une copie de ces normes de service,
veuillez communiquer avec Statistique Canada au numro sans
frais 1-800-263-1136. Les normes de service sont aussi publies
sur le site www.statcan.gc.ca sous propos de nous >
Notre organisme > Offrir des services aux Canadiens

Les signes conventionnels suivants sont employs dans les


publications de Statistique Canada :

Note de reconnaissance
Le succs du systme statistique du Canada repose sur un
partenariat bien tabli entre Statistique Canada et la population
du Canada, les entreprises, les administrations et les autres
organismes. Sans cette collaboration et cette bonne volont,
il serait impossible de produire des statistiques exactes et
actuelles.

. indisponible pour toute priode de rfrence


.. indisponible pour une priode de rfrence prcise
... nayant pas lieu de figurer
0 zro absolu ou valeur arrondie zro
0s valeur arrondie 0 (zro) l o il y a une distinction
importante entre le zro absolu et la valeur arrondie
p
provisoire
r
rvis
x confidentiel en vertu des dispositions de la Loi sur la
statistique
E
utiliser avec prudence
F trop peu fiable pour tre publi
* valeur significativement diffrente de lestimation pour la
catgorie de rfrence (p<0,05)

Publication autorise par le ministre responsable de Statistique Canada


Ministre de lIndustrie, 2015
Tous droits rservs. Lutilisation de la prsente publication est assujettie aux modalits de lentente de licence ouverte de
Statistique Canada.
Une version HTML est aussi disponible.
This publication is also available in English.

Techniques denqute, juin 2015


Vol. 41, no 1, pp. 21-37
Statistique Canada, no 12-001-X au catalogue

21

Estimation sur petits domaines en combinant des donnes


provenant de plusieurs sources
Jae-kwang Kim, Seunghwan Park et Seo-young Kim1
Rsum
Une approche base sur un modle au niveau du domaine pour combiner des donnes provenant de plusieurs
sources est examine dans le contexte de lestimation sur petits domaines. Pour chaque petit domaine, plusieurs
estimations sont calcules et relies au moyen dun systme de modles derreur structurels. Le meilleur
prdicteur linaire sans biais du paramtre de petit domaine peut tre calcul par la mthode des moindres
carrs gnraliss. Les paramtres des modles derreur structurels sont estims en sappuyant sur la thorie des
modles derreur de mesure. Lestimation des erreurs quadratiques moyennes est galement discute. La
mthode propose est applique au problme rel des enqutes sur la population active en Core.
Mots-cls : Modle au niveau du domaine; information auxiliaire; modles derreur de mesure; modle derreur structurel;
intgration des enqutes.

1 Introduction
Combiner des donnes provenant de diverses sources est un problme important en statistique. Dans le
contexte des sondages, combiner les donnes de plusieurs enqutes peut amliorer la qualit des
estimations sur petits domaines. Les donnes peuvent provenir dun chantillon probabiliste sur lequel
sont faites des mesures directes, dun autre chantillon probabiliste sur lequel sont faites des mesures
indirectes (comme ltat de sant autodclar), ou dinformation auxiliaire au niveau du domaine. Bon
nombre dapproches de combinaison de donnes, telles que les mthodes bases de sondage multiples et
les mthodes dappariement statistique, requirent laccs des donnes au niveau individuel, ce qui nest
pas toujours possible en pratique.
Nous considrons une approche de lestimation sur petits domaines base sur un modle au niveau du
domaine lorsquil existe plusieurs sources dinformation auxiliaire. Pfeffermann (2002) et Rao (2003) ont
procd une recension dtaille des mthodes utilises en estimation sur petits domaines. Lohr et Prasad
(2003) ont utilis des modles multivaris pour combiner linformation provenant de plusieurs enqutes.
Ybarra et Lohr (2008) ont considr le problme de lestimation sur petits domaines quand les donnes
auxiliaires au niveau du domaine contiennent des erreurs de mesure. Merkouris (2010) a discut de
lestimation sur petits domaines lorsque lon combine des donnes provenant de plusieurs enqutes.
Raghunathan, Xie, Schenker, Parsons, Davis, Dodd et Feuer (2007), ainsi que Manzi, Spiegelhalter,
Turner, Flowers et Thompson (2011) se sont servi de modles hirarchiques baysiens pour combiner les
donnes provenant de plusieurs enqutes pour lestimation sur petits domaines. Kim et Rao (2012) ont
examin une approche fonde sur le plan de sondage pour combiner les donnes provenant de deux
enqutes indpendantes.
Afin de dcrire la situation, supposons que la population finie est constitue de H sous-populations,
dsignes par U 1 , , U H , et que nous souhaitons estimer les totaux de sous-population X h = iU xi
h

1. Jae-kwang Kim, Department of Statistics, Iowa State University, Ames, Iowa, 50011, .-U.; Seunghwan Park, Department of Statistics, Seoul
National University, Seoul, 151-747, Core. Courriel : kkampsh@gmail.com; Seo-young Kim, Statistical Research Institute, Statistics Korea,
Daejon, 302-847, Core.

22

Kim, Park et Kim : Estimation sur petits domaines en combinant des donnes provenant de plusieurs sources

dune variable x pour chaque domaine h. Nous supposons quil existe une enqute conue pour mesurer
x i partir de lchantillon, mais que la taille de cet chantillon nest pas suffisamment grande pour
obtenir des estimations de X h dune prcision raisonnable. Considrons lune des enqutes, appele
enqute A, comme tant lenqute principale, et soit X h un estimateur convergent sous le plan de X h
obtenu partir de lenqute A. Souvent, nous calculons X h =

i Ah

wia xi , o Ah est le jeu dunits de

lchantillon A pour la sous-population h et wia est le poids de lunit i dans lchantillon A.


En plus de lenqute principale, supposons quil en existe une autre, appele enqute B, donnant une
mesure qui est une estimation grossire de x i . Soit y 1i la mesure prise au moyen de lenqute B . Nous
pouvons supposer que y 1i est une mesure grossire de x i prsentant un certain niveau derreur de mesure.
Donc, nous pouvons mettre lhypothse que
y 1i = 0 1 x i e1i

(1.1)

pour certains paramtres 0 , 1 , o e1i 0, 2e1 . Le modle (1.1) tant propre la variable,
lhypothse de rgression linaire ou les hypothses de variance gale peuvent tre relches plus tard. Si
0 , 1 = 0, 1 , alors le modle (1.1) signifie quil ny a pas de biais de mesure. Notons que, dans (1.1),
les paramtres du modle 0 , 1 ne sont pas propres au domaine, mais peuvent diffrer pour des
groupes de domaines, comme il est dmontr dans lapplication lenqute corenne sur la population
active prsente la section 5. La spcification de modles de rgression distincts pour diffrents groupes
peut donner lieu de plus petites erreurs de modlisation et donc accrotre lefficacit statistique de la
mthode propose. Partant de lenqute B, nous pouvons obtenir un autre estimateur Y1h = i B wib y1i
h

de X h , o wib est le poids de lunit i dans lchantillon de lenqute B, et B h est lchantillon B pour
la sous-population h . Notons que lon peut obtenir Y1h pour chaque domaine, si les mmes domaines sont
dfinis dans les deux enqutes A et B . Le modle (1.1) peut tre utilis pour combiner linformation
provenant des deux enqutes.
Enfin, les donnes de recensement peuvent reprsenter une autre source dinformation. Les donnes de
recensement ne souffrent pas dune erreur de couverture ni dune erreur dchantillonnage. Toutefois,
elles peuvent prsenter des erreurs de mesure et ne fournissent pas dinformation mise jour pour chaque
mois ou chaque anne. Soit y 2i la mesure de lunit i daprs le recensement. Le total de sous-population
Y2 h = iC y 2 i est disponible quand C h est le jeu dunits du recensement C pour la sous-population h.
h

Le tableau 1.1 rsume les principales sources dinformation que nous pouvons prendre en
considration dans lestimation sur petits domaines.
Tableau 1.1
Information disponible pour lestimation sur petits domaines
Donnes
Enqute A
Enqute B

Observation
Observation directe xi
Observation auxiliaire y 1i

Estimation au niveau du domaine


X h , V ( X h )
Y1h , V (Y1h )

Recensement

Observation auxiliaire y 2i

Y2h

Statistique Canada, no 12-001-X au catalogue

Proprits
Erreur dchantillonnage (grande)
Biais
Erreur de mesure
Erreur dchantillonnage
Erreur de mesure
Pas dinformation mise jour

23

Techniques denqute, juin 2015

Dans le prsent article, nous considrons une approche destimation sur petits domaines au moyen
dun modle au niveau du domaine combinant toute linformation disponible. Lapproche propose est
base sur les modles derreur de mesure, dans lesquels les erreurs dchantillonnage des estimateurs
directs sont traites comme des erreurs de mesure, et toutes les autres donnes auxiliaires sont combines
au moyen dun ensemble de modles de lien. Lapproche propose est applique au problme de
lestimation sur petits domaines dans le cas des enqutes sur la population active en Core, o trois
estimations sont combines pour produire des estimations sur petits domaines des taux de chmage.
La prsentation de larticle est la suivante. la section 2, nous exposons la thorie de base et nous
envisageons le problme destimation sur petits domaines comme un problme de prdiction dun modle
derreur de mesure. la section 3, nous discutons de lestimation des paramtres du modle destimation
sur petits domaines au niveau du domaine. la section 4, nous dcrivons brivement lestimation de
lerreur quadratique moyenne. la section 5, nous appliquons la mthode propose aux donnes de
lenqute sur la population active en Core. Enfin, la section 6, nous prsentons nos conclusions.

2 Thorie de base
la prsente section, nous commenons par prsenter la thorie de base qui sous-tend la combinaison
de linformation pour lestimation sur petits domaines. Nous examinons dabord le cas simple de la
combinaison de deux enqutes. Supposons quil existe deux enqutes, A et B, ralises selon deux plans
dchantillonnage probabiliste distincts. Les deux enqutes ne sont pas forcment indpendantes. partir
de lenqute A, nous obtenons un estimateur sans biais sous le plan X h , a = i A wia x i et lestimateur de
h

sa variance V X h . partir de lenqute B, nous obtenons un estimateur sans biais sous le plan

Y1h =

i Bh

wib y1i de Y1h =

i U h

y1i . Lerreur dchantillonnage de X h , Y1 h peut tre exprime par

le modle derreur dchantillonnage

X h X h N h a h
= Y N b
Y1h 1h h h

(2.1)

et a h et b h reprsentent les erreurs dchantillonnage associes X h N h et Y1h N h telles que


Cov a h , bh
ah
0 V a h
.
b 0 , Cov a , b
V bh
h

h
h

Le paramtre dintrt est le total de population X h de x dans le domaine h .


Partant de (1.1), nous obtenons le modle au niveau du domaine qui suit :
Y1 h = N h 0 1 X h e1 h ,

o N h , X h , Y1h , e1h =

i U h

(2.2)

1, x i , y1i , e1i . Nous pouvons exprimer (2.2) en fonction de la moyenne de

population
Y 1 h = 0 X h 1 e1 h ,

(2.3)

Statistique Canada, no 12-001-X au catalogue

24

Kim, Park et Kim : Estimation sur petits domaines en combinant des donnes provenant de plusieurs sources

o X h , Y1h , e1h = N h1 iU x i , y1i , e1i . Si nous utilisons un modle derreurs embotes


h

e1 hi = h u hi

(2.4)

o h 0, 2e et u hi 0, u2 , alors e1 h 0, 2e , h , e2 , h = 2e 2u N h . Le modle derreurs


embotes, dont lusage est assez frquent en estimation sur petits domaines (par exemple, Battese, Harter
et Fuller 1988), repose sur lhypothse que Cov e1 hi , e1 hj = 2e pour i j . Comme N h est souvent
assez grand, nous pouvons supposer sans risque que e1 h 0, 2e , h = 2e . Le modle (2.2) est appel
modle derreur structurel parce quil dcrit la relation structurelle entre les deux variables latentes Y1h et
X h . Les deux modles, (2.1) et (2.2), sont souvent mentionns dans la littrature traitant des modles
derreur de mesure (Fuller 1987). Donc, le modle pour lestimation sur petits domaines peut tre
considr comme un modle derreur de mesure, comme la suggr Fuller (1991) qui a t le premier
utiliser lapproche du modle derreur de mesure dans la modlisation au niveau de lunit pour
lestimation sur petits domaines.
Maintenant, si nous dfinissons y 1 h , x h = N h1 Y1 h , X h , en combinant (2.1) et (2.3), nous obtenons
y 1 h 0 1 1 b h e1 h
x = 0 1 X a

h
h

qui peut galement scrire sous la forme


y 1h 0 1
b h e1 h
x
= 1 X h a
.
h

(2.5)

Donc, quand tous les paramtres du modle (2.5) sont connus, le meilleur estimateur de X h peut tre
calcul par

X h = 1 ,1 V h1 1 ,1

1 , 1 V h1 y 1h 0 , x h

(2.6)

o V h est la matrice de variance-covariance de bh e1h , a h . La variance de X h est donne par

,1 V
1

1
h

1 ,1

. Lestimateur en (2.6) peut tre appel estimateur par les moindres carrs

gnraliss (MCG), parce quil sappuie sur la mthode des moindres carrs gnraliss de la thorie des
modles linaires. La mthode MCG est utile parce quelle est optimale et quelle permet dincorporer
naturellement des sources dinformation supplmentaires. Par exemple, si un autre estimateur y 2 h de Y 2h
est galement disponible et satisfait
Y2h = 0 1 X h e2h

et
y 2h = Y2h ch ,

alors le modle MCG tendu scrit

y 2h 0 1
c h e2 h
y = X b e
0
1h
1h
1 h h

x
a
1
h

Statistique Canada, no 12-001-X au catalogue

(2.7)

25

Techniques denqute, juin 2015

et lestimateur MCG peut tre obtenu par

X h 2 = 1 , 1 ,1 V h21 1 , 1 ,1

1 , 1 ,1 V h21 y 2 h 0 , y 1h 0 , x h

o Vh 2 est la matrice de variance-covariance de c h e 2 h , bh e1h , a h . La variance de lestimateur

MCG est 1 , 1 ,1 V h21 1 , 1 ,1

. Si y 2 h est indpendant de x h , y 1h , le gain defficacit, en

termes de variance relative, qui dcoule de lincorporation de y 2 h dans lestimateur MCG peut sexprimer
sous la forme

V X h 2 V X h
=
V X
h

V y 2 h 1 1

V X
h

V y 2 h 1

o V y 2 h 1 = V c h e 2 h 12 . Le gain est important si la variance dchantillonnage de y 2 h ainsi


que la variance du modle V e 2 h sont faibles. Si 1 = 0, alors le gain est nul.
Remarque 1 Notons que le modle (2.5) peut galement scrire

11 y1h 0 1
bh e1h 1

= 1 X h
.
ah
xh

(2.8)

Lestimateur MCG obtenu partir de (2.8), qui est le mme que lestimateur MCG obtenu partir de
(2.5), peut tre exprim sous la forme
X h = h x h 1 h x h

(2.9)

o x h = 11 y1h 0 et
h

=
=

V x h Cov x h , x h
V x h V x h 2Cov x h , x h
e2, h

e2, h V bh 1Cov a h , bh
,
V bh 12V a h 2 1Cov a h , bh

Lestimateur x h , lorsquil est calcul en utilisant le paramtre estim = 0 , 1 , est appel


estimateur synthtique, et lestimateur optimal en (2.9) est souvent appel estimateur composite. On peut
montrer quen ignorant leffet de lestimation de , la variance de lestimateur composite est gale

V X h X h = hV x h 1 h Cov x h , x h

(2.10)

et, comme h < 1, lestimateur composite est plus efficace que lestimateur direct.

Statistique Canada, no 12-001-X au catalogue

26

Kim, Park et Kim : Estimation sur petits domaines en combinant des donnes provenant de plusieurs sources

3 Estimation des paramtres


Maintenant, nous discutons de lestimation des paramtres du modle (2.3). Lestimateur MCG de
= 0 , 1 peut tre obtenu par minimisation de

y 1h 0 1 x h 2
.
Q 0 , 1 =
h =1 V y 1 h 0 1 x h

(3.1)

V y1h 0 x h1 = 2e ,h 1 ,1 h 1 ,1 ,

(3.2)

Puisque

o 2e , h = V e1h et h = V a h , bh , nous pouvons crire


Q * 0 , 1 =

o w h 1 = e2, h 1 ,1 h 1 ,1

w
h 1

1 y 1h 0 1 x h 2 ,

(3.3)

. Maintenant, en rsolvant Q * = 0, nous obtenons

0 = y w 1 x w

(3.4)

et
H

1 =

w x
h

x w y 1h y 1 w C a h , bh

h =1

wh 1 x h x w 2 V a h

(3.5)

h =1

x w , y w = wh 1
h =1

1 H

w x
h

, yh .

h =1

Notons que le poids w h 1 dpend de 1 . Donc, la solution (3.5) peut tre obtenue laide dun
algorithme itratif. Aprs avoir calcul en utilisant (3.5), on obtient en utilisant (3.4).
1

Passons maintenant lestimation de la variance du modle 2e , h . La mthode la plus simple est la


mthode des moments (MOM). Autrement dit, nous pouvons utiliser

E y1h 0 x h 1 12V a h 2 1C a h , bh V bh = 2e , h
2

(3.6)

pour obtenir un estimateur sans biais de 2e , h . Sous le modle des erreurs embotes donn par (2.4), nous
avons 2e , h = 2e et

E y1h 0 x h 1 12V a h 2 1C a h , bh V bh = e2 .
2

Statistique Canada, no 12-001-X au catalogue

(3.7)

27

Techniques denqute, juin 2015

Donc, comme dans Fuller (2009), lestimateur MOM de 2e peut tre exprim par

e2 =

h 1

2
0 x h 1 1 ,1 h 1 ,1

1h

(3.8)

o
1
h e2 1 ,1 h 1 ,1

et

H
h 1

h = 1. Comme h dpend de 2e , la solution (3.8) peut tre obtenue itrativement, en utilisant

2e = 0 comme valeur initiale. Fay et Herriot (1979) ont utilis une autre mthode qui est fonde sur la

solution itrative de lquation non linaire :


H

h =1

1h

0 1 x h

e2 1 ,1 h 1 ,1

= H 2.

En crivant lquation susmentionne sous la forme g 2e = H 2, une mthode de type Newton pour
g = 0 avec = 2e peut tre obtenue par

t 1 = t

1
H 2 g t
g t

(3.9)

y x
g =
,1 ,1
2

h =1

1h

En supposant que 2e , h 2e , nous dcrivons maintenant la procdure complte destimation des


paramtres comme il suit :
tape 1

Calculer lestimateur initial de 0 , 1 en posant que 2e = 0 dans (3.4) et (3.5).

tape 2

En se basant sur la valeur courante de 0 , 1 , calculer 2e en utilisant lalgorithme


itratif en (3.9).

tape 3

Utiliser la valeur courante de 2e , calculer lestimateur mis jour de 0 , 1 au moyen


de (3.4) et (3.5).

tape 4

Rpter [tape 2]-[tape 3] jusqu la convergence.

La mthode destimation des paramtres propose comprend lestimation de = ( 0 , 1 ) par les


MCG et lestimation de 2e par les MOM itrativement. Notons que lestimation de est fonde sur des
donnes provenant de tous les domaines. Si des modles de rgression distincts sont utiliss, la mthode
destimation des paramtres propose peut tre applique des groupes de domaines. Au lieu de cette

Statistique Canada, no 12-001-X au catalogue

28

Kim, Park et Kim : Estimation sur petits domaines en combinant des donnes provenant de plusieurs sources

mthode destimation itrative distincte, nous pouvons galement considrer une autre mthode fonde sur
lestimation du maximum de vraisemblance (EMV) sous des hypothses distributionnelles paramtriques.
Voir Carroll, Rupert et Stefanski (1995) et Schafer (2001) pour une discussion de lEMV pour les
paramtres des modles derreur de mesure.
Remarque 2 Si lgalit 2e , h = 2e nest pas vrifie, nous pouvons considrer un modle de rechange

tel que

e h 0, X h e2 .

(3.10)

Pour vrifier si le modle (3.10) tient, on peut calculer


2
h = y 1h 0 x h 1 12V a h 2 1C a h , bh V bh

(3.11)

et reprsenter graphiquement h en fonction de x h . Si le graphique montre une relation linaire, alors


(3.10) peut tre trait comme un modle raisonnable. Sous le modle (3.10), nous pouvons obtenir 2e par
une mthode du ratio :
H

=
2
e

h 1
H

(3.12)

h X h
h 1

h X h e2 1 ,1 h 1 ,1
avec

H
h 1

h = 1, X h dfini en (2.9), et h dfini en (3.11). Comme h dpend aussi de 2e , la

solution (3.12) peut tre obtenue par itration.


Remarque 3 Nous pouvons galement considrer une transformation x h* = T x h et y 1*h = T y 1h afin

damliorer lapproximation par une loi normale asymptotique. Pour vrifier lcart par rapport la
normalit, nous reprsentons graphiquement n haV x h en fonction de x h . Si le graphique rvle une
relation structurelle de x h , lhypothse de normalit peut tre mise en doute. Maintenant, considrons la
transformation suivante
T x = log x .

(3.13)

Notons que la variance asymptotique de x h* = T x h est gale

V x h*

xh 2

V xh .

Il sagit dune transformation stabilisant la variable qui est utile lorsque nous voulons amliorer
lapproximation par la loi normale.

Statistique Canada, no 12-001-X au catalogue

29

Techniques denqute, juin 2015

Aprs avoir obtenu lestimateur MCG X h* de X h* , nous devons appliquer la transformation inverse
pour obtenir le meilleur estimateur de X h = T 1 X h* := Q X h* . La simple application de la
transformation inverse donnera une estimation biaise. Afin de corriger le biais, nous pouvons utiliser
une linarisation de Taylor dordre deux. En effectuant un dveloppement en srie de Taylor, nous
obtenons
2
1
Q X h* Q X h* Q X h* X h* X h Q X h* X h* X h
2

et donc, si nous utilisons Q X h* comme estimateur de X h = Q X h* , nous obtenons, en laissant


tomber les termes dordre plus faible,

E Q X h*

Xh

1
Q X h* V X h* .
2

Pour la transformation donne par (3.13), nous avons Q X h* = exp X h* et donc Q X h* = X h .


Donc, X h = Q X h* , et nous obtenons

1
E X h X h X hV X h*
2
et lestimateur de X h corrig pour le biais est

X h , bc =

X h

1 0, 5V X h*

(3.14)

o V X h* est calcule par la mthode destimation de lEQM dont nous discuterons la section 4.

4 Estimation de lEQM
Passons maintenant lestimation de lerreur quadratique moyenne (EQM) de lestimateur MCG X h
qui est donn par (2.9). Notons que lestimateur MCG est une fonction de 0 , 1 et de 2e . Si les
paramtres du modle sont connus, alors lEQM de X h est gale M h 1 = hV x h
1 h Cov x h , x h , comme il est discut dans la remarque 1. Autrement dit, en crivant =
, , 2 et X = X , la prdiction relle de X est calcule par X = X . Afin de tenir
0

eh

compte de leffet de lestimation des paramtres du modle, nous notons dabord la dcomposition qui suit
de EQM X h* :

EQM X eh

EQM X h E

eh

X h

=: M h 1 M h 2 ,

qui a t prouve pour la premire fois par Kackar et Harville (1984) sous des hypothses de normalit. Le
premier terme, M h1 , est dordre 1 n h , o n h est la taille de A h , et le deuxime terme, M h 2 , est dordre
1 n avec n =

H
h 1

n h . Le deuxime terme est souvent beaucoup plus petit que le premier.

Statistique Canada, no 12-001-X au catalogue

30

Kim, Park et Kim : Estimation sur petits domaines en combinant des donnes provenant de plusieurs sources

Nous considrons une approche jackknife pour estimer lEQM. Lutilisation du jackknife pour obtenir
une estimation corrige pour le biais a t propose au dpart par Quenouille (1956). Jiang, Lahiri et Wan
(2002) ont produit une justification rigoureuse de la mthode du jackknife pour lestimation de lEQM en
estimation sur petits domaines. Les tapes qui suivent peuvent tre utilises pour le calcul du jackknife.
tape 1

Calculer la k e rplique k de en supprimant le k e jeu de donnes de domaine


x k , y 1k du jeu de donnes complet x h , y 1 h ; h = 1, 2, , H . Ce calcul est effectu
pour chaque k pour obtenir H rpliques de : { k ; k = 1, , H } qui, leur tour,
fournissent H rpliques de X h : { X h k ; k = 1, 2, , H }, o X h k = X h ( k ).

tape 2

Calculer lestimateur de M h 2 sous la forme


M 2 h =

tape 3

H 1 H k
X h X h
H k =1

(4.1)

Calculer lestimateur de M h 1 sous la forme


M 1 h = hJK V x h 1 hJK Cov x h , x h

(4.2)

o hJK est un estimateur de h corrig pour le biais donn par


hJK = h

H 1 H
h k h ,
H k =1

2e V b h 1Cov a h , b h
,
2e V b h 12V a h 2 1Cov a h , b h

et
k

e k 2

e k 2 V bh 1 k Cov a h , bh
.
2
V bh 1 k V a h 2 1 k Cov a h , bh

Remarque 4 Pour la transformation donne par (3.13), nous utilisons lestimateur corrig pour le biais
(3.14) et la mthode destimation de son EQM doit tre modifie. En utilisant X
pour dsigner
eh , bc

lestimateur corrig pour le biais (3.14) valu , nous pouvons obtenir

EQM X eh , bc


EQM Q X

Q X h*

*
,
X h2 EQM X eh

= EQM X eh

*
eh

*
EQM X eh

1
o la premire galit dcoule du fait que X h , bc X h est dordre O p n h . LEQM de X h* ,

lestimateur MCGE de X h* aprs transformation, est calcule au moyen de (4.1) et (4.2). Lorsque

Statistique Canada, no 12-001-X au catalogue

31

Techniques denqute, juin 2015

*
EQM X eh

est estime, nous devons la multiplier par X h2 pour obtenir lestimateur de lEQM de

lestimateur MCGE X eh ,bc rtrotransform.

5 Application lEnqute sur la population active de la Core


Nous examinons maintenant une application de la mthode propose aux enqutes sur la population
active en Core. Dans ce pays, deux enqutes distinctes sur la population active sont utilises pour obtenir
des renseignements au sujet de lemploi. Lune delles est lEnqute sur la population active corenne
(PAC) et lautre est lEnqute sur la population active locale (PAL). Lenqute PAC est ralise auprs
dun chantillon denviron 7 000 mnages, tandis que lenqute PAL est ralise auprs dun chantillon
denviron 200 000 mnages. Comme la PAL est une enqute grande chelle faisant appel un grand
nombre dintervieweurs temps partiel, les donnes comportent un certain niveau derreurs de mesure.
Nous supposons que lenqute PAC est exempte derreur de mesure, quoiquelle prsente dimportantes
erreurs dchantillonnage au niveau des petits domaines. Lchantillon de lenqute PAC est un
chantillon de deuxime phase tir de lchantillon de lenqute PAL. Donc, les erreurs dchantillonnage
des estimations daprs les deux enqutes sont corrles. Soit X h le taux de chmage (rel) dans le
domaine h . Le niveau de petit domaine que nous considrons est appel Gu . La Core compte
229 Gu .
Nous observons x h au moyen de lenqute PAC et y1h au moyen de lenqute PAL. Pour construire
des modles de lien, nous commenons par diviser la population en deux rgions, une rgion urbaine et
une rgion rurale, en nous basant sur la proportion de mnages travaillant en agriculture. Nous spcifions
des modles distincts pour chaque rgion (mme modle mais en permettant des paramtres diffrents) et
estimons les paramtres du modle sparment. Le modle structurel est
Yh = 1 X h eh

(5.1)

avec e h 0, 2e . Ici, nous posons que 0 = 0 pour garantir que lestimateur MCG de X h nest pas
ngatif. Le modle derreur dchantillonnage reste le mme. Dans ce cas, nous pouvons estimer 1
comme il suit
H

1 =

w x
h

y 1h C a h , bh

h =1
H

w x
h

2
h

V a h

(5.2)

h =1

La variance dchantillonnage de a h , bh est calcule en utilisant la mthode dchantillonnage deux


phases inverse dcrite lannexe. La variance sous le modle est estime par la mthode des moments
dans (3.8) avec 0 = 0. Lestimateur MCG peut tre calcul en utilisant (2.9) avec x h = 11 y1h .
En plus des deux enqutes, nous pouvons aussi utiliser linformation provenant du recensement. Le
modle MCG intgrant les trois sources dinformation peut tre exprim sous la forme

Statistique Canada, no 12-001-X au catalogue

32

Kim, Park et Kim : Estimation sur petits domaines en combinant des donnes provenant de plusieurs sources

Y2 h 1
e2 h
y = X b e
1h
1h 1 h h

x
1
a

h
h
o Y 2h est le rsultat du recensement pour le domaine h. Comme lestimation daprs le recensement ne
prsente pas derreur dchantillonnage, nous avons une seule erreur de modlisation e 2h qui reprsente
lerreur commise quand nous modlisons E Y h 2 = 1 X h . Les paramtres du modle peuvent tre
obtenus en utilisant la mthode dcrite la section 3 avec h = diag 0, V a h , b h . Lestimateur MCG
de X h sobtient facilement. LEQM peut tre calcule en utilisant le fait que

V X h X h

= 1 V

e 2 h
b e
1h
h

a h

1
:= M
h1
1
1

et en appliquant la mthode du jackknife pour corriger le biais.


La figure 5.1 donne le graphique du taux de chmage selon lenqute PAC en fonction du taux de
chmage selon lenqute PAL pour les domaines urbains. La figure 5.1 montre quil existe une relation
structurelle linaire entre les estimations PAC et PAL. Au lieu du rsidu habituel e h dans le modle
derreur structurel, nous utilisons v h en tant que rsidu dans le modle de rgression avec erreurs de
mesure, o v = y x . La figure 5.2 donne le graphique de v en fonction de X pour les
h

1h

domaines urbains. Le graphique montre que lhypothse de variance gale est lgrement viole. Nous
2
e

0,00

Enqute sur la population active locale


0,02
0,04
0,06

0,08

avons galement considr le modle de variance htroscdastique dcrit dans la remarque 2, mais les
rsultats nont pas vari de manire significative.

0,00

0,02
0,04
0,06
Enqute sur la population active corenne

0,08

Figure 5.1 Graphique du taux de chmage selon les enqutes PAC et PAL pour les domaines urbains.

Statistique Canada, no 12-001-X au catalogue

33

-0,03 -0,02 -0,01

Rsidu
0,00 0,01 0,02

0,03 0,04

Techniques denqute, juin 2015

0,01

0,02

0,03
0,04
Estimateur MCG

0,05

Figure 5.2 Graphique des rsidus en fonction des valeurs estimes pour les domaines urbains.

Le tableau 5.1 donne les proprits des estimations sur petits domaines en ce qui concerne lEQM
estime. Nous avons examin quatre estimateurs distincts de X h . PAC reprsente le rsultat obtenu en
utilisant les donnes de lenqute sur la population active corenne uniquement, PAL reprsente le rsultat
obtenu en utilisant les donnes de lenqute sur la population active locale uniquement, MCG 1 reprsente
le rsultat obtenu en combinant les donnes des deux enqutes PAC et PAL, et MCG 2 reprsente le
rsultat obtenu en combinant les donnes des enqutes PAC et PAL et du recensement. Le tableau 5.1
montre que lestimateur MCG 2 est celui qui donne les erreurs quadratiques moyennes les plus petites.

Tableau 5.1
Quartile de la performance des estimations sur petits domaines selon lEQM pour les 229 domaines
EQM
PAC
PAL
MCG 1
MCG 2

1er Q
0,0000630
0,0001123
0,0000444
0,0000405

Mdiane
0,0001210
0,0001330
0,0000738
0,0000543

3e Q
0,0002395
0,0001695
0,0001210
0,0000721

Moyenne
0,0002476
0,0001482
0,0000893
0,0000575

6 Conclusion
Le prsent article dcrit le traitement dun problme destimation sur petits domaines comme un
problme de prdiction dun modle derreur de mesure o les covariables, qui sont les estimations
directes pour les petits domaines, sont sujettes des erreurs dchantillonnage. Dans notre approche du
modle derreur de mesure, les erreurs dchantillonnage des estimateurs directs sont traites comme des
erreurs de mesure et le modle derreur structurel peut tre utilis pour relier les autres estimations
auxiliaires aux estimateurs directs. Le modle propos est en fait loppos du modle dYbarra et Lohr

Statistique Canada, no 12-001-X au catalogue

34

Kim, Park et Kim : Estimation sur petits domaines en combinant des donnes provenant de plusieurs sources

(2008), qui traitent lestimateur direct comme une variable dpendante dans le modle de rgression et les
estimations auxiliaires des erreurs non dues lchantillonnage comme des erreurs de mesure.
Dans notre approche, chaque estimation auxiliaire est traite comme une variable dpendante dans le
modle de rgression en utilisant lestimation directe en tant que covariable et lerreur dchantillonnage
de lestimateur direct en tant querreur de mesure. La variance de lerreur de mesure est facile estimer,
parce quelle est essentiellement la variance dchantillonnage de lestimation directe. Lapproche du
modle derreur de mesure est galement trs utile quand il existe plusieurs sources dinformation
auxiliaire au niveau des domaines. Contrairement lapproche baysienne, lestimateur rsultant ne
sappuie pas sur des hypothses de modlisation paramtrique au sujet du modle derreur structurel et
reste optimal au sens de la minimisation des erreurs quadratiques moyennes parmi la classe destimateurs
sans biais qui sont linaires dans les donnes disponibles.
Dans lexemple de lapplication lenqute sur la population active de la Core, deux estimations sur
chantillon et linformation provenant du recensement sont utilises pour calculer les estimations MCG
des paramtres de petit domaine et les deux estimations sur chantillon sont corrles en raison du plan
dchantillonnage deux phases. Nous avons utilis simplement des modles de rgression linaire
comme modles de lien, principalement par souci de simplicit des calculs. Au lieu du modle linaire, on
pourrait envisager un modle linaire gnralis afin damliorer le pouvoir de prdiction du modle. Une
telle extension ferait intervenir la thorie des modles derreur de mesure non linaires. Une tude plus
approfondie de cette extension sera le sujet de futurs travaux de recherche.

Remerciements
Nous remercions un examinateur anonyme et le rdacteur associ de leurs commentaires constructifs.
Les travaux de recherche du premier auteur ont t financs partiellement par lentente de coopration
NSF (MMS-121339).

Annexe
chantillonnage deux phases inverse
En chantillonnage deux phases classique, lchantillon de deuxime phase A2 est un sousensemble de lchantillon de premire phase A1 . Nous considrons un autre type de plan
dchantillonnage possdant la structure inverse du plan dchantillonnage deux phases. Dans le plan
dchantillonnage deux phases inverse, les tapes dchantillonnage sont les suivantes :
tape 1

partir de la population finie, nous slectionnons lchantillon de premire phase A1 de taille


n1 .

tape 2

Dans lchantillon de deuxime phase, nous slectionnons A2 partir de U A1 de taille


n 2 . Lchantillon final A est constitu de A1 et A2 . Cest--dire que A = A1 A2 et
A = n = n1 n 2 .

Statistique Canada, no 12-001-X au catalogue

35

Techniques denqute, juin 2015

Lchantillonnage deux phases inverse est utilis lorsquon augmente lchantillon par une procdure
dchantillonnage additionnelle.
Pour discuter de lestimation des paramtres sous chantillonnage deux phases inverse, posons que
c
1i = Pr i A1 est la probabilit dinclusion dordre un pour A1 . Soit 2i |1 = Pr i A2 A1 la
probabilit dinclusion dordre un conditionnelle pour A2 sachant A1c = U A1 . Pour calculer la
probabilit dinclusion pour A, nous avons

Pr i A = Pr i A1 Pr i A2 A1c Pr i A1c .
Donc, nous pouvons utiliser i = 1i 1 1i 2 i |1 pour calculer lestimateur dHorvitz-Thompson de
la forme
Yr , HT =

i A

(A.1)

yi .

Notons que, au lieu de (A.1), nous pouvons considrer la classe destimateurs suivante :

1
1
y i 1 W
y i := WY1 1 W Y2 .
i A1 1i
i A2 2 i |1 1 1i

Yw = W

(A.2)

Puisque Y1 et Y2 sont tous deux sans biais pour Y , Yw est galement sans biais quel que soit le choix de
W . Un choix raisonnable de W est W = n 1 n .
Sous chantillonnage alatoire simple dans les deux plans, les deux estimateurs sont gaux

Y = Ny n , o y n est la moyenne dchantillon de y dans A. En crivant y1 = n11 i A y i et

y2 =

i A2

y i n 2 , nous obtenons
y n = Wy 1 1 W y 2

(A.3)

1
1
V y 1 S y2
n1 N

(A.4)

o W = n 1 n . En utilisant

1
1
V y 2 S y2
n2 N
n1 1
1
1
S y2 = S y2 ,
Cov y 1 , y 2 Cov y 1 , y1c

N n1 n1 N
N
o y1c =

i A1c

y i N n1 , nous obtenons, pour W = n 1 n ,

1 1
V y n = S y2 .
n N

(A.5)

1 1
Cov y 1 , y n = Cov y 1 , Wy 1 1 W y 2 = S y2 .
n N

(A.6)

En outre,

Statistique Canada, no 12-001-X au catalogue

36

Kim, Park et Kim : Estimation sur petits domaines en combinant des donnes provenant de plusieurs sources

Si lgalit W = n1 n nest pas vrifie, alors (A.5) et (A.6) ne sont pas vrifies.
Dans lapplication lenqute sur la population active de la Core la section 5, puisque x et y
mesurent le mme item, nous pouvons supposer que S x2 = S y2 = S xy et la matrice de variancecovariance des erreurs dchantillonnage peut tre lisse sous la forme

n11 n 1 2
V a h , bh = 1
Sy.
n 1
n

Bibliographie
Battese, G.E., Harter, R.M. et Fuller, W.A. (1988). An error-components model for prediction of county
crop areas using survey and satellite data. Journal of the American Statistical Association, 83, 28-36.
Carroll, R.J., Rupert, D. et Stefanski, L.A. (1995). Measurement error in nonlinear models. New York :
Chapman & Hall.
Fay, R.E., et Herriot, R.A. (1979). Estimation of income from small places: An application of James-Stein
procedures to census data. Journal of the American Statistical Association, 74, 269-277.
Fuller, W.A. (1987). Measurement error models. New York : John Wiley & Sons, Inc.
Fuller, W.A. (1991). Small area estimation as a measurement error problem. Dans Economic Models,
Estimation, and Socioeconomic Systems: Essays in Honor of Karl A. Fox, (ds., Tij K. Kaul et
Jati K. Sengupta), Elsevier Science Publishers, 333-352.
Fuller, W.A. (2009). Sampling Statistics. John Wiley & Sons, Inc., Hoboken, NJ.
Jiang, J., Lahiri, P. et Wan, S. (2002). A unified jackknife theory for empirical best prediction with Mestimation. Annals of Statistics, 30, 1782-1810.
Kackar, R.N., et Harville, D.A. (1984). Approximations for standard errors of estimators of fixed and
random effects in mixed linear models. Journal of the American Statistical Association, 79, 853-862.
Kim, J.K., et Rao, J.N.K. (2012). Combining data from two independent surveys: A model-assisted
approach. Biometrika, 99, 85-100.
Lohr, S.L., et Prasad, N.G.N. (2003). Small area estimation with auxiliary survey data. The Canadian
Journal of Statistics, 31, 383-396.
Manzi, G., Spiegelhalter, D.J., Turner, R.M., Flowers, J. et Thompson, S.G. (2011). Modelling bias in
combining small area prevalence estimates from multiple surveys. Journal of the Royal Statistical
Society A, 174, 31-50.
Merkouris, T. (2010). Combining information from multiple surveys by using regression for efficient
small domain estimation. Journal of the Royal Statistical Society B, 68, 509-521.

Statistique Canada, no 12-001-X au catalogue

37

Techniques denqute, juin 2015

Pfeffermann, D. (2002). Small area estimation - New developments and directions. Revue Internationale
de Statistique, 70, 125-144.
Quenouille, M.H. (1956). Notes on bias in estimation. Biometrika, 43, 353-360.
Raghunathan, T.E., Xie, D., Schenker, N., Parsons, V.I., Davis, W.W., Dodd, K.W. et Feuer, E.J. (2007).
Combining information from two surveys to estimate county-level prevalence rates of cancer risk
factors and screening. Journal of the American Statistical Association, 102, 474-486.
Rao, J.N.K. (2003). Small Area Estimation. John Wiley & Sons, Inc., Hoboken, NJ.
Schafer, D.W. (2001). Semiparametric maximum likelihood for measurement error model regression.
Biometrics, 57, 53-61.
Ybarra, L.M.R., et Lohr, S.L. (2008). Small area estimation when auxiliary information is measured with
error. Biometrika, 95, 919-931.

Statistique Canada, no 12-001-X au catalogue