Académique Documents
Professionnel Documents
Culture Documents
=
=
= = = (2.1)
o
hi
y =1 si lunit i de la strate h a la caractristique dintrt et 0 sinon, et o
h
n est la taille dchantillon tire dans la
strate h de taille
h
N .
Les formules qui vont suivre peuvent se retrouver partir de Cochran (1977), en substituant les moyennes par des
proportions. La variance corrige par un effet de plan de cet estimateur est
) 1 ( , , 1 )
(
1
2
h h
h
N
i
hi
h
h
h
h
h
h h h
st
P Q
N
y
P
N
n
n
Q P W
deff P V
h
= =
|
|
\
|
=
=
. (2.2)
3
Dans chaque domaine destimation, nous utilisons une allocation optimale entre les parties 2B et 2D si cette allocation est
ralisable. Il ny a donc que deux strates par domaine destimation mais nous prsentons quand mme ici les formules
pour un nombre quelconque de strates. Le problme consiste minimiser le cot
+ =
h
h h
n C C C
0
pour une variance
fixe, )
(
st
P V , ou de faon quivalente, pour un coefficient de variation fixe, P P V P CV
st st
)
( )
( = . Nous obtenons la
taille dchantillon, n, tirer dans tout le domaine selon la formule
( ) ( )
( )
+
=
h
h h h st
h
h h h h
h
h h h h
Q P W deff
N
P V
c Q P W c Q P W deff
n
1
. (2.3)
Si nous supposons un cot unitaire par strate,
h
C , identique pour les deux strates (2B vs. 2D), la valeur maximale de n est
atteinte si les proportions,
h
P , sont les mmes dans les deux strates. Ce faisant, nous nous couvrons contre le pire cas, soit
le cas o la stratification napporte aucun gain en termes de prcision. Dans ce cas, la taille, n, se rduit
) 1 ( ,
)
(
2
P Q
N deff Q P CV P
deff Q
n
st
=
+
= , (2.4)
soit la formule dallocation pour un plan EAS corrige par un effet de plan, deff. Une fois la taille, n, dtermine, nous
obtenons les tailles optimales prendre dans chaque strate selon lexpression
N
nN
C Q P N
C Q P nN
n
h
h
h h h h
h h h h
h
= =
, (2.5)
si les
h
C et
h
P sont gaux dans chaque strate, ce qui correspond lallocation proportionnelle.
2.2 Allocation alternative
Lallocation proportionnelle (2.5) nest pas toujours ralisable si le nombre de formulaires longs disponibles dans la strate
2B nest pas assez lev pour un domaine destimation particulier, une fois que nous appliquons les taux de rponse
attendus,
h
r , aux tailles obtenues,
h
n , dans chaque strate. Nous supposons ici que la probabilit de rpondre est constante
dans chaque strate. Si lallocation proportionnelle nest pas ralisable, nous devons prendre tous les 2B disponibles et
prendre autant de 2D que ncessaire pour atteindre le CV dsir. Partant de la formule de variance (2.2), en tenant compte
du taux de rponse,
h
r , dans chaque strate et en posant L h P P
h
, , 1 K = = , nous obtenons
. 1 )
(
2
2
2 |
|
\
|
=
|
|
\
|
=
h h
h
h
h
h
h h h
h
h h
h
st
n r
N
N deff
N
PQ
N
n r N
n r
N
deff
N
PQ
P V (2.6)
En termes de CV plutt que de variance, nous obtenons
= |
|
\
|
= =
L
h
h h
h
h
st
st
n r
N
N
PN
deff Q
P
P V
P CV
1 2 2
2
1
)
(
)
( . (2.7)
Dans notre cas, nous avons deux strates, la strate h=1 tant la strate 2D et la strate h=2 tant la strate 2B. Lexpression
devient
( )
)
|
|
\
|
+
|
|
\
|
= 1 1
2 2
2
2
1 1
1
1
2
2
n r
N
N
n r
N
N
PN
Qdeff
P CV
st
. (2.8)
4
Ici,
2
n est connu puisque nous prenons tous les 2B mais nous obtenons
2 2
n r rpondants. En exprimant
1
n en fonction de
2
n ,
( )
1
1
1
2 2
2
2
2 2
1 1
1
+
|
|
\
|
=
N
n r
N
N
deff Q
P CV PN
n r
N
st
,
et
|
|
\
|
+
|
|
\
|
=
1 2 2
2
2
1
2
2
1
2 2
1
1
1
1
1
)
(
N n r
N
N
N
deff Q N
P CV PN
r n
st
. (2.9)
Si n
1
> N
1
, le CV dsir ne peut tre atteint et celui-ci doit tre augment.
2.3 Slection de lchantillon en deux vagues
tant donn les retards importants dans la collecte du recensement, nous avons d tirer lchantillon de chaque enqute en
deux vagues afin de respecter la date de dbut de collecte de chaque enqute. Lide tait de choisir un premier
chantillon dans des rgions o la base du recensement tait presque complte et de commencer la collecte dans ces
rgions. Nous avons par la suite tir un 2
ime
chantillon une fois la base du recensement complte. Ce 2
ime
chantillon
couvrait tous les formulaires des rgions non couvertes la vague 1 de mme que les nouveaux formulaires des rgions
couvertes la vague 1, ajouts la base depuis la slection du 1
ier
chantillon.
la premire vague, nous avons d estimer les totaux de population partir dune base incomplte. Nous avons pondr
les effectifs de population cible dans chaque UC par linverse du pourcentage estim de formulaires longs prsents sur la
base dans cette UC au moment de la slection de lchantillon. Une fois la taille de population cible estime dans chaque
domaine destimation, nous avons dtermin une fraction de sondage selon la mthode dallocation dcrite ci-haut. Pour
la vague 1, nous avons appliqu cette fraction de sondage aux units prsentes sur la base ce moment-l. Nous avons
par la suite utilis les mmes fraction de sondage pour les units stant ajoutes la vague 2 tombant dans les rgions
couvertes la vague 1. la vague 2, les rgions non couvertes la vague 1 ne posaient aucun problme spcifique parce
que toutes les donnes taient prsentes sur la base ce moment-l.
3. AJUSTEMENTS DE TAILLES DCHANTILLON
Dans les formules prsentes la section 2, les taux de rponse,
h
r , tiennent non seulement compte de la non-rponse
mais galement dautres formes de perte dchantillon. Parmi ces autres formes de perte, mentionnons ce que nous
appelons les faux positifs. Les faux positifs sont des individus dclars comme tant autochtones au recensement qui nont
pas par la suite t dclars comme tant autochtones lenqute. Lunit dchantillonnage de lenqute tant lindividu
et non le mnage, nous avons parfois chantillonn plusieurs individus dans un mme mnage. Nous avons apport une
limite de ce nombre pour chaque enqute et nous avons retir certaines units aprs chantillonnage. Nous avons
galement limin a posteriori une partie du chevauchement entre ces deux enqutes et lEnqute longitudinale sur les
enfants et les jeunes, tant donn le contenu corrl entre ces enqutes. Une autre composante importante de rduction de
taille dchantillon est celle due au chevauchement avec les autres enqutes postcensitaires.
En 2006, Statistique Canada a men cinq enqutes postcensitaires partir de cinq chantillons indpendants, tant donn
les problmes associs la cration dchantillons coordonns. Nous avons apport certaines contraintes pour rduire le
chevauchement une fois les chantillons tirs. Nous avons limit le nombre denqutes pour un mme mnage deux et
nous avons limit le nombre dentrevues pour un mme mnage quatre. Si le mnage tait choisi pour une seule
enqute, nous avons limit le nombre dentrevues trois. Dans le cas dun mnage tir pour plus de deux enqutes, nous
avons tir deux enqutes de faon quiprobable entre les enqutes. Une fois le nombre denqutes rduit au plus deux
par mnage, nous avons par la suite rduit le nombre dentrevues pour chaque enqute si ceci tait encore ncessaire.
Nous avons utilis un tirage proportionnel la taille pour rduire le nombre dentrevues dune mme enqute. La mesure
de taille utilise tait la fraction de sondage de 2
ime
phase correspondant la strate de chaque individu. Lide tait de
5
donner une probabilit dinclusion plus grande un individu provenant dune strate ncessitant une grande fraction de
sondage qu un individu tombant dans une strate ncessitant une plus faible fraction de sondage. Laugmentation du CV
est en effet plus grande pour le retrait dune unit dans la premire catgorie que le retrait dune unit dans la seconde.
Toutes ces formes de pertes dchantillon ont t estimes soit selon lEAPA de 2001 soit par simulation. Nous avons,
par exemple, estim les taux de faux positifs dans chacune des strates partir de lEAPA de 2001. Pour ce qui est du
chevauchement, nous lavons estim en gnrant cinq chantillons prliminaires pour les cinq enqutes. Nous avons par
la suite augment les tailles dchantillon en consquence.
4. MTHODES ENVISAGES DESTIMATION DE LA VARIANCE
Nous considrons plusieurs mthodes pour le calcul de la variance. Une possibilit est de se servir de la linarisation de
Taylor qui est la mthode utilise dans le Systme Gnralis dEstimation (SGE) de Statistique Canada (Statistics
Canada, 2005), par exemple. Pour notre problme, ce systme prsente plusieurs limites. En particulier, pour
lchantillonnage deux phases, les units dchantillonnage chacune des deux phases doivent tre les mmes. En
ralit, nous chantillonnons des mnages la 1
ire
phase et des individus la 2
ime
phase. Il faudrait donc mettre des
hypothses simplificatrices sur le plan dchantillonnage de 1
ire
phase. Mme avec ces hypothses simplificatrices, il
semble que la capacit de mmoire du systme soit pour linstant dpasse par la taille de nos chantillons de 1
ire
et 2
ime
phase dans les grandes provinces.
Une alternative est dutiliser une mthode de rchantillonnage, tel que le bootstrap qui est trs populaire auprs des
utilisateurs. En faisant la mme hypothse simplificatrice que dans la mthode dallocation, savoir que dans les rgions
2B, nous pouvons approximer la plan stratifi deux phases par un EAS stratifi une seule phase, nous pourrions utiliser
une mthode bootstrap standard pour des plans une seule phase, tel que le bootstrap de Rao-WU par exemple (Rao et
Wu, 1988). Dans ce cas, les individus chantillonns la 2
ime
phase seraient rchantillonns avec remise dans chaque
strate de 2
ime
phase.
Une autre possibilit serait dutiliser un bootstrap pour plans deux phases avec rchantillonnage des units de 1
ire
phase. Il sagirait ici de tirer un chantillon de mnages avec remise dans chaque strate de 1
ire
phase (UC). noter que
cette mthode supposerait que le plan de 1
ire
phase est un chantillon stratifi de mnages par UC et non un chantillon
stratifi systmatique par UC. Cette hypothse aurait tendance sous-estimer la variance sil existe un lien entre lordre
des mnages dans lUC et la caractristique ltude. En effet, il est possible que les autochtones soient regroups dans
un secteur spcifique de lUC. Kott et Stukel (1997) proposent une mthode jackknife pour un plan dchantillonnage
deux phases approprie pour lestimateur de dveloppement repondr. Cette mthode pourrait vraisemblablement
sadapter au bootstrap. Kim, Navaro et Fuller (2006) proposent une gnralisation de la mthode pour diffrentes
mthodes destimation de variance par rchantillonnage, dont le bootstrap. Leur mthode est approprie non seulement
pour lestimateur de dveloppement repondr, mais aussi pour lestimateur de dveloppement double. Cependant, toutes
ces mthodes proposes mettent lhypothse que la fraction de sondage de 1
ire
phase est ngligeable. Dans le cas
contraire, une composante importante de la variance pour plans deux phases manque, entranant ainsi une sous-
estimation. Lampleur de cette sous-estimation sera dautant plus forte que la fraction de sondage de 1
ire
phase est grande
et que la fraction de sondage de 2
ime
phase est faible. Dans le cas qui nous proccupe, la fraction de sondage de 1
ire
phase est loin dtre ngligeable puisque celle-ci est denviron 20% pour la majorit des rgions.
Une autre approche bootstrap consiste crer une population totale artificielle partir de lchantillon plutt que de retirer
directement des units de lchantillon. Cest lapproche suggre par Gross (1980), approche appele bootstrap sans
remise . Nous devons dabord recrer la population cible de 1
ire
phase partir des units tires la 2
ime
phase. Pour
une strate donne, si nous avons chantillonn 30 units sur 60, chaque unit de 2
ime
phase devrait tre rpte deux fois.
Cette population cible artificielle de 1
ire
phase est ensuite combine lchantillon rel de 1
ire
phase de mnages ne
contenant pas dunits de notre population cible (mnages non autochtones). On doit recrer par la suite, toute la
population de mnages autochtones et non autochtones, au moins pour les UC contenant des mnages autochtones dans
notre population cible artificielle de 1
ire
phase. Nous devons nous servir des poids de 1
ire
phase pour ce faire. Nous
pourrions aussi recrer les mnages non autochtones des UC ne contenant pas de mnages autochtones mais ces mnages
ninterviendront pas dans les calculs de toute manire.
6
Dans le cas o linverse de la fraction de sondage nest pas entier, diffrentes mthodes sont possibles pour crer cette
population artificielle, dont certaines sont mentionnes dans Sitter (1992). Il propose lui-mme une extension du
bootstrap sans remise pour certains plans de sondage dont lchantillonnage stratifi et lchantillonnage deux
degrs. notre connaissance, aucune mthode na cependant t propose pour lchantillonnage deux phases.
Une fois la population totale recre de cette faon, nous pouvons rpter le processus dchantillonnage deux phases un
grand nombre de fois pour produire des chantillons bootstrap. Nous tirons dabord un chantillon de mnages
lintrieur de chaque UC. Il est probable que nous devions simplifier le plan de 1
ire
phase et tirer un chantillon alatoire
simple plutt quun chantillon alatoire systmatique de mnages cette tape. Par la suite, pour chaque chantillon
bootstrap de 1
ire
phase obtenu, nous stratifions la population cible observe et nous tirons un chantillon de 2
ime
phase de
la mme faon que nous avons tir lchantillon matre. Il nest cependant pas certain quune telle mthode puisse
fonctionner pour lchantillonnage deux phases.
Nous nous proposons donc dtudier ces mthodes de mme que des alternatives possibles et de comparer ces mthodes
entre elles.
RFRENCES
Cochran, W.G. (1977). Sampling Techniques (3rd. ed.). New York: John Wiley.
Gross, S. (1980). Median estimation in sample surveys. Proceedings of the Survey Research Methods Section, American
Statistical Association.
Kim, J.K., Navarro, A., et Fuller, W.A. (2006). Replication Variance Estimation for Two-Phase Stratified Sampling.
Journal of the American Statistical Association, vol. 101, no. 473, pp. 312-320.
Kott, P.S., et Stukel, D.M. (1997). La mthode du jackknife convient-elle un chantillon deux phases? Techniques
denqute, vol. 23, no. 2, pp. 89-98.
Rao, J.N.K., et Wu, C.F.J. (1988). Resampling inference with complex survey data. Journal of the American Statistical
Association, vol. 83, pp. 231-241.
Sitter, R.R. (1992). Comparing three bootstrap methods for survey data. La revue canadienne de statistique, vol. 20, no.
2, pp. 35-154.
Statistics Canada (2005). GES v4.3 User Guide. Statistics Canada document, June 2005, pp. 344-349.