Vous êtes sur la page 1sur 6

1

SSC Annual Meeting, June 2007


Proceedings of the Survey Methods Section


DTERMINATION DE TAILLE DCHANTILLON POUR LES ENQUTES
POSTCENSITAIRES AUTOCHTONES

ric Langlet
1



RSUM

Les enqutes post-censitaires tirent leurs chantillons partir des rponses fournies au questionnaire long du recensement,
administr environ un mnage sur cinq au Canada (partie 2B) sauf dans les rgions loignes et les rserves indiennes o tous
les mnages doivent le complter (partie 2D). Ceci constitue lchantillon de premire phase. Un chantillon stratifi de
deuxime phase est ensuite tir selon les caractristiques observes la premire phase. Afin destimer les tailles dchantillon
requises, une approximation du plan est utilise pour ensuite effectuer une allocation optimale entre les strates 2B et 2D. De
nombreux ajustements sont par la suite effectus sur les tailles obtenues.

MOTS CLS: Allocation optimale; chevauchement entre enqutes; chantillonnage deux phases; estimation de la variance.


ABSTRACT

The post-censal surveys draw their samples from answers to the Census long form, which is administered to approximately one in
five households in Canada (2B component) except in remote areas and Indian reserves where it is administered to all households
(2D component). The Census long form sample constitutes the first phase sample. A second phase stratified random sample is
then selected according to variables observed in the first phase. Sample sizes are derived by approximating this sampling plan
and by using an optimal allocation between the 2B and 2D strata. Several adjustments are then performed on the resulting
sample sizes.

KEY WORDS : Optimal allocation; ; Survey overlap; Two-phase sampling; Variance estimation.


1
ric Langlet, difice R.H.Coats, 15R, 100, promenade Tunney's Pasture, Ottawa, Canada, K1A 0T6, langlet@statcan.ca

1. INTRODUCTION

1.1 Enqutes postcensitaires autochtones

En 2006, Statistique Canada a men deux enqutes postcensitaires autochtones, soit lEnqute sur les enfants autochtones
(EEA) ainsi que lEnqute sur les peuples autochtones (EAPA). LEEA est une toute nouvelle enqute dont lobjectif est
de donner un portrait du dveloppement de la petite enfance chez les autochtones de 0 5 ans. Cette enqute porte sur des
domaines spcifiques du dveloppement et du bien-tre des jeunes enfants autochtones comme la sant, lducation, la
langue, la garde des enfants, la nutrition et les tapes du dveloppement chez lenfant. Lenqute couvre principalement
la portion hors rserve des enfants autochtones de 0 5 ans, soit une population denviron 140,000 individus avec un
chantillon denviron 18,000.

LEAPA de 2001, quant elle, en est sa troisime dition aprs les enqutes de 1991 et 2001. Cette enqute porte sur le
mode de vie et les conditions de vie des peuples autochtones. Lenqute couvre des sujets comme les besoins en matire
de sant, la langue, lemploi, le revenu, lducation, le logement et la mobilit. En 2006, lenqute couvre uniquement la
population autochtone vivant hors des rserves indiennes pour les enfants de 6 14 ans et les adultes de 15 ans et plus. Le
terme adulte est utilis pour les 15 ans et plus, tant donn que ce groupe reoit un questionnaire diffrent des enfants
de 6 14 ans, appel questionnaire adulte . Cette population hors-rserve denviron 1,300,000 individus est
couverte partir dun chantillon denviron 61,000 individus. Il est noter que nous prvoyons couvrir les rserves
indiennes avant le recensement de 2011.


2
1.2 Plan dchantillonnage

La population cible de ces deux enqutes correspond aux individus sidentifiant comme autochtone ou ceux ayant une
origine autochtone (quils sidentifient ou non comme autochtone). Nous dfinissons cette population partir de quatre
questions filtres prsentes sur le formulaire long du recensement. Deux versions principales existent de ce formulaire
long, soit les formulaires 2B et 2D. Le 2D est administr dans les rserves indiennes et les rgions loignes du Canada
toute la population, tandis que le 2B est administr partout ailleurs sur une base chantillonnale systmatique dun mnage
sur cinq lintrieur de chaque unit de collecte (UC). Une UC est une petite unit gographique comprenant
habituellement de 250 500 mnages, correspondant la charge de travail dun numrateur. Nous dfinissons les
domaines destimation viss par ces deux enqutes, partir du croisement des rgions gographiques, des groupes
autochtones (Indien dAmrique du Nord, Mtis et Inuit) et des groupes dges (0-5 ans, 6-14 ans et 15 ans et plus).
noter que la classification des individus selon ces caractristiques peut varier entre le recensement et lenqute.

Une fois les rponses aux questionnaires longs obtenues (1
ire
phase du plan), nous stratifions la population cible des
enqutes selon les domaines destimation prvus par lenqute et sous-stratifions selon le type de rgions (rgions
recevant le 2B et rgions recevant le 2D). Nous tirons ensuite un chantillon alatoire simple (EAS) dautochtones
lintrieur de chacune de ces strates. Dans les rgions 2B, le plan correspond donc un chantillon deux phases o les
units dchantillonnage sont diffrentes aux deux phases (mnages la 1
ire
phase et individus la 2
ime
phase) et o la
stratification est diffrente chacune des deux phases (UC la 1
ire
phase et domaines destimation la 2
ime
phase). Dans
les rgions 2D, le plan correspond donc un EAS une seule phase dautochtones dans chaque domaine destimation.

Nous prsentons la mthode dallocation la section 2. Par la suite, nous dcrivons la section 3 les divers ajustements
aux tailles dchantillon initiales obtenues. La section 4 couvrira des mthodes destimation de la variance envisages
pour ce plan dchantillonnage.

2. MTHODE DALLOCATION

Dans chaque domaine destimation, lobjectif de lallocation est destimer une proportion minimale dautochtones avec
une caractristique dintrt, P, selon une prcision donne par un coefficient de variation, CV. Dans la mthode utilise,
nous supposerons que dans les rgions 2B, la premire phase (plan dchantillonnage du 2B) nous donne lquivalent dun
EAS dautochtones dans chaque domaine destimation vis. tant donn que dans ces rgions 2B, un EAS dautochtones
est tir dans chaque domaine destimation vis la 2
ime
phase, nous pouvons approximer le plan deux phases par un
plan EAS une seule phase. Nous apportons une correction laide dun effet de plan, deff, de 1.2 pour tenir compte de
cette approximation. Cette valeur choisie de 1.2 reprsente davantage une valeur intuitive quune valeur fonde sur une
tude rigoureuse. Nous effectuons prsentement une tude ce sujet.

2.1 Allocation optimale

Ignorons la non-rponse pour linstant. Dnotons lestimateur dune proportion, P, dans une population de taille N selon
un plan stratifi simple par
,

1
1
h
n
i
hi
h
h h
h
h h
L
h
h
st
n
y
W P W P
N
N
P
h


=
=
= = = (2.1)

o
hi
y =1 si lunit i de la strate h a la caractristique dintrt et 0 sinon, et o
h
n est la taille dchantillon tire dans la
strate h de taille
h
N .

Les formules qui vont suivre peuvent se retrouver partir de Cochran (1977), en substituant les moyennes par des
proportions. La variance corrige par un effet de plan de cet estimateur est

) 1 ( , , 1 )

(
1
2
h h
h
N
i
hi
h
h
h
h
h
h h h
st
P Q
N
y
P
N
n
n
Q P W
deff P V
h
= =
|
|

\
|
=

=
. (2.2)


3
Dans chaque domaine destimation, nous utilisons une allocation optimale entre les parties 2B et 2D si cette allocation est
ralisable. Il ny a donc que deux strates par domaine destimation mais nous prsentons quand mme ici les formules
pour un nombre quelconque de strates. Le problme consiste minimiser le cot

+ =
h
h h
n C C C
0
pour une variance
fixe, )

(
st
P V , ou de faon quivalente, pour un coefficient de variation fixe, P P V P CV
st st
)

( )

( = . Nous obtenons la
taille dchantillon, n, tirer dans tout le domaine selon la formule


( ) ( )
( )


+
=
h
h h h st
h
h h h h
h
h h h h
Q P W deff
N
P V
c Q P W c Q P W deff
n
1

. (2.3)

Si nous supposons un cot unitaire par strate,
h
C , identique pour les deux strates (2B vs. 2D), la valeur maximale de n est
atteinte si les proportions,
h
P , sont les mmes dans les deux strates. Ce faisant, nous nous couvrons contre le pire cas, soit
le cas o la stratification napporte aucun gain en termes de prcision. Dans ce cas, la taille, n, se rduit

) 1 ( ,
)

(
2
P Q
N deff Q P CV P
deff Q
n
st
=
+
= , (2.4)

soit la formule dallocation pour un plan EAS corrige par un effet de plan, deff. Une fois la taille, n, dtermine, nous
obtenons les tailles optimales prendre dans chaque strate selon lexpression


N
nN
C Q P N
C Q P nN
n
h
h
h h h h
h h h h
h
= =

, (2.5)

si les
h
C et
h
P sont gaux dans chaque strate, ce qui correspond lallocation proportionnelle.

2.2 Allocation alternative

Lallocation proportionnelle (2.5) nest pas toujours ralisable si le nombre de formulaires longs disponibles dans la strate
2B nest pas assez lev pour un domaine destimation particulier, une fois que nous appliquons les taux de rponse
attendus,
h
r , aux tailles obtenues,
h
n , dans chaque strate. Nous supposons ici que la probabilit de rpondre est constante
dans chaque strate. Si lallocation proportionnelle nest pas ralisable, nous devons prendre tous les 2B disponibles et
prendre autant de 2D que ncessaire pour atteindre le CV dsir. Partant de la formule de variance (2.2), en tenant compte
du taux de rponse,
h
r , dans chaque strate et en posant L h P P
h
, , 1 K = = , nous obtenons

. 1 )

(
2
2
2 |
|

\
|
=
|
|

\
|
=

h h
h
h
h
h
h h h
h
h h
h
st
n r
N
N deff
N
PQ
N
n r N
n r
N
deff
N
PQ
P V (2.6)

En termes de CV plutt que de variance, nous obtenons

= |
|

\
|
= =
L
h
h h
h
h
st
st
n r
N
N
PN
deff Q
P
P V
P CV
1 2 2
2
1
)

(
)

( . (2.7)

Dans notre cas, nous avons deux strates, la strate h=1 tant la strate 2D et la strate h=2 tant la strate 2B. Lexpression
devient
( )

)

|
|

\
|
+
|
|

\
|
= 1 1

2 2
2
2
1 1
1
1
2
2
n r
N
N
n r
N
N
PN
Qdeff
P CV
st
. (2.8)


4
Ici,
2
n est connu puisque nous prenons tous les 2B mais nous obtenons
2 2
n r rpondants. En exprimant
1
n en fonction de
2
n ,

( )
1
1

1
2 2
2
2
2 2
1 1
1
+
|
|

\
|

=
N
n r
N
N
deff Q
P CV PN
n r
N
st
,

et


|
|

\
|
+
|
|

\
|
=

1 2 2
2
2
1
2
2
1
2 2
1
1
1
1
1
)

(
N n r
N
N
N
deff Q N
P CV PN
r n
st
. (2.9)

Si n
1
> N
1
, le CV dsir ne peut tre atteint et celui-ci doit tre augment.

2.3 Slection de lchantillon en deux vagues

tant donn les retards importants dans la collecte du recensement, nous avons d tirer lchantillon de chaque enqute en
deux vagues afin de respecter la date de dbut de collecte de chaque enqute. Lide tait de choisir un premier
chantillon dans des rgions o la base du recensement tait presque complte et de commencer la collecte dans ces
rgions. Nous avons par la suite tir un 2
ime
chantillon une fois la base du recensement complte. Ce 2
ime
chantillon
couvrait tous les formulaires des rgions non couvertes la vague 1 de mme que les nouveaux formulaires des rgions
couvertes la vague 1, ajouts la base depuis la slection du 1
ier
chantillon.

la premire vague, nous avons d estimer les totaux de population partir dune base incomplte. Nous avons pondr
les effectifs de population cible dans chaque UC par linverse du pourcentage estim de formulaires longs prsents sur la
base dans cette UC au moment de la slection de lchantillon. Une fois la taille de population cible estime dans chaque
domaine destimation, nous avons dtermin une fraction de sondage selon la mthode dallocation dcrite ci-haut. Pour
la vague 1, nous avons appliqu cette fraction de sondage aux units prsentes sur la base ce moment-l. Nous avons
par la suite utilis les mmes fraction de sondage pour les units stant ajoutes la vague 2 tombant dans les rgions
couvertes la vague 1. la vague 2, les rgions non couvertes la vague 1 ne posaient aucun problme spcifique parce
que toutes les donnes taient prsentes sur la base ce moment-l.

3. AJUSTEMENTS DE TAILLES DCHANTILLON

Dans les formules prsentes la section 2, les taux de rponse,
h
r , tiennent non seulement compte de la non-rponse
mais galement dautres formes de perte dchantillon. Parmi ces autres formes de perte, mentionnons ce que nous
appelons les faux positifs. Les faux positifs sont des individus dclars comme tant autochtones au recensement qui nont
pas par la suite t dclars comme tant autochtones lenqute. Lunit dchantillonnage de lenqute tant lindividu
et non le mnage, nous avons parfois chantillonn plusieurs individus dans un mme mnage. Nous avons apport une
limite de ce nombre pour chaque enqute et nous avons retir certaines units aprs chantillonnage. Nous avons
galement limin a posteriori une partie du chevauchement entre ces deux enqutes et lEnqute longitudinale sur les
enfants et les jeunes, tant donn le contenu corrl entre ces enqutes. Une autre composante importante de rduction de
taille dchantillon est celle due au chevauchement avec les autres enqutes postcensitaires.

En 2006, Statistique Canada a men cinq enqutes postcensitaires partir de cinq chantillons indpendants, tant donn
les problmes associs la cration dchantillons coordonns. Nous avons apport certaines contraintes pour rduire le
chevauchement une fois les chantillons tirs. Nous avons limit le nombre denqutes pour un mme mnage deux et
nous avons limit le nombre dentrevues pour un mme mnage quatre. Si le mnage tait choisi pour une seule
enqute, nous avons limit le nombre dentrevues trois. Dans le cas dun mnage tir pour plus de deux enqutes, nous
avons tir deux enqutes de faon quiprobable entre les enqutes. Une fois le nombre denqutes rduit au plus deux
par mnage, nous avons par la suite rduit le nombre dentrevues pour chaque enqute si ceci tait encore ncessaire.
Nous avons utilis un tirage proportionnel la taille pour rduire le nombre dentrevues dune mme enqute. La mesure
de taille utilise tait la fraction de sondage de 2
ime
phase correspondant la strate de chaque individu. Lide tait de

5
donner une probabilit dinclusion plus grande un individu provenant dune strate ncessitant une grande fraction de
sondage qu un individu tombant dans une strate ncessitant une plus faible fraction de sondage. Laugmentation du CV
est en effet plus grande pour le retrait dune unit dans la premire catgorie que le retrait dune unit dans la seconde.

Toutes ces formes de pertes dchantillon ont t estimes soit selon lEAPA de 2001 soit par simulation. Nous avons,
par exemple, estim les taux de faux positifs dans chacune des strates partir de lEAPA de 2001. Pour ce qui est du
chevauchement, nous lavons estim en gnrant cinq chantillons prliminaires pour les cinq enqutes. Nous avons par
la suite augment les tailles dchantillon en consquence.

4. MTHODES ENVISAGES DESTIMATION DE LA VARIANCE

Nous considrons plusieurs mthodes pour le calcul de la variance. Une possibilit est de se servir de la linarisation de
Taylor qui est la mthode utilise dans le Systme Gnralis dEstimation (SGE) de Statistique Canada (Statistics
Canada, 2005), par exemple. Pour notre problme, ce systme prsente plusieurs limites. En particulier, pour
lchantillonnage deux phases, les units dchantillonnage chacune des deux phases doivent tre les mmes. En
ralit, nous chantillonnons des mnages la 1
ire
phase et des individus la 2
ime
phase. Il faudrait donc mettre des
hypothses simplificatrices sur le plan dchantillonnage de 1
ire
phase. Mme avec ces hypothses simplificatrices, il
semble que la capacit de mmoire du systme soit pour linstant dpasse par la taille de nos chantillons de 1
ire
et 2
ime

phase dans les grandes provinces.

Une alternative est dutiliser une mthode de rchantillonnage, tel que le bootstrap qui est trs populaire auprs des
utilisateurs. En faisant la mme hypothse simplificatrice que dans la mthode dallocation, savoir que dans les rgions
2B, nous pouvons approximer la plan stratifi deux phases par un EAS stratifi une seule phase, nous pourrions utiliser
une mthode bootstrap standard pour des plans une seule phase, tel que le bootstrap de Rao-WU par exemple (Rao et
Wu, 1988). Dans ce cas, les individus chantillonns la 2
ime
phase seraient rchantillonns avec remise dans chaque
strate de 2
ime
phase.

Une autre possibilit serait dutiliser un bootstrap pour plans deux phases avec rchantillonnage des units de 1
ire

phase. Il sagirait ici de tirer un chantillon de mnages avec remise dans chaque strate de 1
ire
phase (UC). noter que
cette mthode supposerait que le plan de 1
ire
phase est un chantillon stratifi de mnages par UC et non un chantillon
stratifi systmatique par UC. Cette hypothse aurait tendance sous-estimer la variance sil existe un lien entre lordre
des mnages dans lUC et la caractristique ltude. En effet, il est possible que les autochtones soient regroups dans
un secteur spcifique de lUC. Kott et Stukel (1997) proposent une mthode jackknife pour un plan dchantillonnage
deux phases approprie pour lestimateur de dveloppement repondr. Cette mthode pourrait vraisemblablement
sadapter au bootstrap. Kim, Navaro et Fuller (2006) proposent une gnralisation de la mthode pour diffrentes
mthodes destimation de variance par rchantillonnage, dont le bootstrap. Leur mthode est approprie non seulement
pour lestimateur de dveloppement repondr, mais aussi pour lestimateur de dveloppement double. Cependant, toutes
ces mthodes proposes mettent lhypothse que la fraction de sondage de 1
ire
phase est ngligeable. Dans le cas
contraire, une composante importante de la variance pour plans deux phases manque, entranant ainsi une sous-
estimation. Lampleur de cette sous-estimation sera dautant plus forte que la fraction de sondage de 1
ire
phase est grande
et que la fraction de sondage de 2
ime
phase est faible. Dans le cas qui nous proccupe, la fraction de sondage de 1
ire

phase est loin dtre ngligeable puisque celle-ci est denviron 20% pour la majorit des rgions.

Une autre approche bootstrap consiste crer une population totale artificielle partir de lchantillon plutt que de retirer
directement des units de lchantillon. Cest lapproche suggre par Gross (1980), approche appele bootstrap sans
remise . Nous devons dabord recrer la population cible de 1
ire
phase partir des units tires la 2
ime
phase. Pour
une strate donne, si nous avons chantillonn 30 units sur 60, chaque unit de 2
ime
phase devrait tre rpte deux fois.
Cette population cible artificielle de 1
ire
phase est ensuite combine lchantillon rel de 1
ire
phase de mnages ne
contenant pas dunits de notre population cible (mnages non autochtones). On doit recrer par la suite, toute la
population de mnages autochtones et non autochtones, au moins pour les UC contenant des mnages autochtones dans
notre population cible artificielle de 1
ire
phase. Nous devons nous servir des poids de 1
ire
phase pour ce faire. Nous
pourrions aussi recrer les mnages non autochtones des UC ne contenant pas de mnages autochtones mais ces mnages
ninterviendront pas dans les calculs de toute manire.


6
Dans le cas o linverse de la fraction de sondage nest pas entier, diffrentes mthodes sont possibles pour crer cette
population artificielle, dont certaines sont mentionnes dans Sitter (1992). Il propose lui-mme une extension du
bootstrap sans remise pour certains plans de sondage dont lchantillonnage stratifi et lchantillonnage deux
degrs. notre connaissance, aucune mthode na cependant t propose pour lchantillonnage deux phases.

Une fois la population totale recre de cette faon, nous pouvons rpter le processus dchantillonnage deux phases un
grand nombre de fois pour produire des chantillons bootstrap. Nous tirons dabord un chantillon de mnages
lintrieur de chaque UC. Il est probable que nous devions simplifier le plan de 1
ire
phase et tirer un chantillon alatoire
simple plutt quun chantillon alatoire systmatique de mnages cette tape. Par la suite, pour chaque chantillon
bootstrap de 1
ire
phase obtenu, nous stratifions la population cible observe et nous tirons un chantillon de 2
ime
phase de
la mme faon que nous avons tir lchantillon matre. Il nest cependant pas certain quune telle mthode puisse
fonctionner pour lchantillonnage deux phases.

Nous nous proposons donc dtudier ces mthodes de mme que des alternatives possibles et de comparer ces mthodes
entre elles.

RFRENCES

Cochran, W.G. (1977). Sampling Techniques (3rd. ed.). New York: John Wiley.

Gross, S. (1980). Median estimation in sample surveys. Proceedings of the Survey Research Methods Section, American
Statistical Association.

Kim, J.K., Navarro, A., et Fuller, W.A. (2006). Replication Variance Estimation for Two-Phase Stratified Sampling.
Journal of the American Statistical Association, vol. 101, no. 473, pp. 312-320.

Kott, P.S., et Stukel, D.M. (1997). La mthode du jackknife convient-elle un chantillon deux phases? Techniques
denqute, vol. 23, no. 2, pp. 89-98.

Rao, J.N.K., et Wu, C.F.J. (1988). Resampling inference with complex survey data. Journal of the American Statistical
Association, vol. 83, pp. 231-241.

Sitter, R.R. (1992). Comparing three bootstrap methods for survey data. La revue canadienne de statistique, vol. 20, no.
2, pp. 35-154.

Statistics Canada (2005). GES v4.3 User Guide. Statistics Canada document, June 2005, pp. 344-349.