Vous êtes sur la page 1sur 13

No 12-001-XIF au catalogue

Techniques d'enqute
Juin 2006

Comment obtenir dautres renseignements


Toute demande de renseignements au sujet du prsent produit ou au sujet de statistiques ou de services connexes doit tre adresse : Division des mthodes denqutes auprs des entreprises, Statistique Canada, Ottawa, Ontario, K1A 0T6 (tlphone : 1 800 263-1136). Pour obtenir des renseignements sur lensemble des donnes de Statistique Canada qui sont disponibles, veuillez composer lun des numros sans frais suivants. Vous pouvez galement communiquer avec nous par courriel ou visiter notre site Web. Service national de renseignements Service national dappareils de tlcommunications pour les malentendants Renseignements concernant le Programme des services de dpt Tlcopieur pour le Programme des services de dpt Renseignements par courriel Site Web 1 800 263-1136 1 800 363-7629 1 800 700-1033 1 800 889-9734 infostats@statcan.ca www.statcan.ca

Renseignements pour accder au produit


Le produit no 12-001-XIF au catalogue est disponible gratuitement. Pour obtenir un exemplaire, il suffit de visiter notre site Web www.statcan.ca et de choisir la rubrique Nos produits et services.

Normes de service la clientle


Statistique Canada sengage fournir ses clients des services rapides, fiables et courtois, et ce, dans la langue officielle de leur choix. cet gard, notre organisme sest dot de normes de service la clientle qui doivent tre observes par les employs lorsquils offrent des services la clientle. Pour obtenir une copie de ces normes de service, veuillez communiquer avec Statistique Canada au numro sans frais 1 800 263-1136. Les normes de service sont aussi publies dans le site www.statcan.ca sous propos de Statistique Canada > Offrir des services aux Canadiens.

Statistique Canada
Division des mthodes denqutes auprs des entreprises

Techniques d'enqute
Juin 2006

Publication autorise par le ministre responsable de Statistique Canada Ministre de lIndustrie, 2006 Tous droits rservs. Le contenu de la prsente publication lectronique peut tre reproduit en tout ou en partie, et par quelque moyen que ce soit, sans autre permission de Statistique Canada, sous rserve que la reproduction soit effectue uniquement des fins dtude prive, de recherche, de critique, de compte rendu ou en vue den prparer un rsum destin aux journaux et/ou des fins non commerciales. Statistique Canada doit tre cit comme suit : Source (ou Adapt de , sil y a lieu) : Statistique Canada, anne de publication, nom du produit, numro au catalogue, volume et numro, priode de rfrence et page(s). Autrement, il est interdit de reproduire le contenu de la prsente publication, ou de lemmagasiner dans un systme dextraction, ou de le transmettre sous quelque forme ou par quelque moyen que ce soit, reproduction lectronique, mcanique, photographique, pour quelque fin que ce soit, sans lautorisation crite pralable des Services doctroi de licences, Division des services la clientle, Statistique Canada, Ottawa, Ontario, Canada K1A 0T6.

Juillet 2006 No 12-001-XIF au catalogue ISSN 1712-5685 Priodicit : semestriel Ottawa This publication is available in English upon request (catalogue no. 12-001-XIE)

Note de reconnaissance Le succs du systme statistique du Canada repose sur un partenariat bien tabli entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volont, il serait impossible de produire des statistiques prcises et actuelles.

Longford : Calcul de la taille de lchantillon pour lestimation pour petits domaines o Vol.32,N 1,pp.97106 o StatistiqueCanada,N 12001aucatalogue

Calculdelatailledelchantillonpourlestimation pourpetitsdomaines
NicholasTiborLongford1 Rsum
Nousdcrivonsuneapprochegnralededterminationduplandchantillonnagedesenqutesplanifiesenvuedefaire desinfrencespourdepetitsdomaines(sousdomaines).Cetteapprochencessitelaspcificationdesprioritsdinfrence pourlespetitsdomaines.Noustablissonsdaborddesscnariosderpartitiondelatailledelchantillonpourlestimateur direct,puispourlesestimateurscompositeetbaysienempirique.Nousillustronslesmthodeslaidedunexemplede planificationdunsondagedelapopulationsuisseetdestimationdelamoyenneoudelaproportiondunevariablepour chacundes26 cantons. Mots cls : Efficacitestimationpour petitsdomainesprioritdinfrencerpartitiondelatailledelchantillon.

1. Introduction
Leplandchantillonnageestuninstrumentessentiella productiondestimationsefficacesetdautresformesdinf rence au sujet dune grande population, lorsque les res sources disponibles ne permettent pas de recueillir linfor mation pertinente pour chaque membre de la population. Danscecontexte,nousinterprtonslefficacitcommetant la combinaison optimale dun plan dchantillonnage et dun estimateur dun paramtre de population q Par . optimale,nousentendonsquelerreurquadratiquemoyenne est minimale, quoique le dveloppement prsent dans larticlepuissetreadaptdautrescritres.Legroupede plansdesondagepossiblesestdlimitparlesressourceset cellesci sont habituellement exprimes en fonction dune taille fixe dchantillon. Cette approche nest pas toujours approprie,parcequelescotsmoyensparsujetnesontpas ncessairement les mmes pour tous les plans dchan tillonnage.Toutefois,sinousconsidronsunegammelimi tedeplans,nouspouvonsignorercepoint. Le problme de ltablissement du plan dchantillon nage afin destimer efficacement une grandeur unique est biencompriset dessolutionsexistent pourbon nombrede spcificationsutilisesfrquemment.Laplupartcomportent unproblmedoptimisationunivarisouscontraintes.Lta blissement du plan dchantillonnage pour lestimation de plusieurs paramtres est considrablement plus complexe, parce que le problme comprend plusieurs facteurs, habi tuellementunpourchaqueparamtre.Ilestessentieldopti miser le plan simultanment pour tous les facteurs, parce quelesobjectifs dinfrenceefficaceausujetdes paramtres cibles peuvent tre conflictuels. Par exemple, dans lesti mation pour petits domaines, lallocation dune part plus gnreuse de la taille de lchantillon un petit domaine doit tre compense par une allocation moins gnreuse unouplusieursautres.

Au cours des dernires dcennies, la production de statistiques pour des petits domaines est devenue un important sujet de recherche en mthodologie denqute (FayetHerriot 1979 Platek, Rao, Srndal et Singh 1987 Ghosh et Rao1994Longford1999 Rao2003), tantdonn lintrt grandissant des organismes gouvernementaux, du secteur de la publicit et du marketing et de celui de la finance et des assurances pour ce genre dinformation. lheure actuelle, de nombreuses enqutes grande chelle sontconuesenvuedeproduiredesestimationsdeniveau national, mais sont parfois utilises aprs coup pour faire desinfrencesausujetdepetitsdomaines.Celanauraitpas dinconvnientsilesplansdchantillonnageoptimauxpour linfrence sur petits domaines et linfrence nationale taient les mmes. Nous montrons dans le prsent article quilnenestpasainsietqueleplandchantillonnagepeut effectivement tre cibl pour lestimation pour petits do maines,entenantcomptedelobjectifdeproductiondesti mations efficaces de paramtres de niveau national. Pour viterlecasbanal,supposonsquelespopulationsdespetits domaines soient de taille ingale. Nous appliquons les mthodes au problme de la planification dinfrences au sujet des26cantons delaSuisselataille delapopulation de ces cantons varie de 15 000 (AppenzellInnerrhoden) 1,23 million(Zrich). Lapopulation delaSuissesechiffre 7,26 millionsdhabitants. Lalittraturetraitantdelaplanificationdesenqutespour lestimationpourpetitsdomainesestpeuabondante.Lune des contributions importantes est celle deSingh, Gambino etMantel(1994).Danslune desapproches dont discutent cesauteurs,latailleprvuedelchantillondelEnqutesur la population active du Canada est divise en deux. Une partie est rpartie optimalement en vue de la production destimations de niveau national (domaine) et lautre est rpartieoptimalementenvuedelestimationpourpetitsdo maines (sousdomaines). Pour ce dernier objectif, des

1. Nicholas Tibor Longford, Departament dEconmia i Empresa, Universitat Pompeu Fabra, Ramn Trias Fargas 2527, 08005 Barcelone, Espagne. Courriel:NTL@SNTL.co.uk.

Techniques d'enqute, Juin 2006

souschantillons de mme taille sont attribus chaque petitdomaine,lorsquelesvariancesdanslessousdomaines sontgales,quelacorrectionpourpopulationfiniepeuttre ignoreetquelescotsdenquteparsujetsontlesmmes pour tous les sousdomaines, mais aussi quand les para mtres vises par linfrence sont les moyennes de petit domaine. Si lon veut estimer des totaux de population, lquirpartition de lchantillon entre les sousdomaines nest pas efficace, parce quelle pnalise lestimation pour les petits domaines les plus peupls. Mme si lon estime des proportions ou des taux (pourcentages), les variances intradomaine dpendent de la proportion de population, quoique la dpendance soit faible lorsque toutes les pro portionssontloindezroetdelunit.Pourdestravauxplus rcents sur les plans dchantillonnage pour lestimation pour petitsdomaines,voir Marker(2001). La section suivante dcrit lapproche propose, fonde sur la minimisation de la somme pondre des variances dchantillonnage(erreursquadratiquesmoyennes)desesti mateursprvus,aveclespondrationsspcifiesdefaon reflter les priorits dinfrence. Nous lappliquons pour commencer lestimation directe deparamtresau niveau du petit domaine. Puis, nous ltendons afin dintgrer lobjectif de production destimations nationales et, enfin, lestimation composite la section 3. La section 4, qui conclutlarticle,contientunediscussion. Laprsentesectionsetermineparunedescriptiondela notation utilise dans la suite de larticle. Nous supposons queles paramtres depopulationauniveaudupetitdomaine qd, d =1, ..., D, sont estimes par q avec des erreurs d quadratiquesmoyennes(EQM) v respectivesquisontdes d fonctions des tailles des souschantillons dans les petits domaines nd vd = vd ( n ). Latailleglobale delchantillon d est dnote par n et nous supposons quelle est fixe. Les taillesdepopulationsontdnotespar N (globale)et Nd (pour le petit domaine d). Par souci de concision, nous dnotons n=( n1, ..., nD) . La plupart des paramtres de population q sont des fonctions dune seule variable, comme la moyenne, le total et ainsi de suite. La variable peut tre enregistre directement durant le sondage ou construite daprs une ou plusieurs variablesdirectes.Bien que notre dveloppement ne soit pas limit ce genre de paramtres, la justification est plus simple en ce qui les concerne.Nousdisonsquunestimateurde q est direct sil d sagitdunefonctiondelavariabletudiesurlessujetsdu petitdomaine d seulement. Nous supposons que chaque estimateur direct envisag est sans biais. Cette hypothse nest pas particulirement restrictive, car la plupart des estimateurs directs sont des estimateursnafsoutroitementreliscesderniers.Nous supposons que les tailles dchantillon pour les petits domainessontsouslecontrleduconcepteurdelenqute.

Ilenestainsipourles plansdchantillonnagestratifisdans lesquelslesstratesconcidentaveclespetitsdomaines.la section4, nous discutons des plans dchantillonnage pour lesquelscegenredecontrlenepeuttreexerccesplans sont particulirement indiqus pour la subdivision du pays enungrand nombre(centaines)depetitsdomaines.

2. Planoptimal pourlestimationdirecte
Nousrsolvonsleconflitentrelesobjectifsdestimation efficace de paramtres au niveau du petit domaine q en d choisissantle plan dchantillonnagece niveauqui mini mise la somme pondre des variances dchantillonnage (EQM),
D

min n Pd vd,
d=1

(1)

sachant que la taille globale dchantillon n =n 1 est D fixe 1 est le vecteur des units de longueur D Le . D coefficient P est nommprioritdinfrence.Une valeur d plus grande de P (par rapport aux valeurs Pd, d d ) d impliquequilestplusimportantderduire v , parceque d laugmentation delacontributiondu petit domaine d la somme (1) est plus importante que pour les autres petits domaines. Leproblmedoptimisation(1)estrsoluparlamthode desmultiplicateursdeLagrange,ousimplementparsubsti tutionde n1 = n - n 2- ... -nD, sibienquilcomportealors D -1 variables fonctionnellement non corrles. La solu tionsatisfaitla condition v P d = const. d d n En gnral, il nest pas possible dobtenir une expression analytique des tailles optimales des souschantillons n , d mais si vd = s2 / nd, comme dans le cas de lchantillon d nage alatoire simple lintrieur des petits domaines, la solutionestproportionnelle sd Pd , cestdire
s d P d nd = n . s1 P + ...+ sD PD 1
2 Lorsque les variances intra domaine s sont gales, d 2 2 2 s1 = ... = s D = s , la solution se simplifie encore davan tagelestaillesoptimalesdchantillonsontproportionnelles 2 P etnedpendentpasde s . d Danslaplupartdescontextes,ilest difficile dexprimer un ensemble appropri de priorits P et il est donc plus d constructif de proposer une classe paramtrique commode de priorits P=( P , ..., PD) et dillustrerson effetsurla 1 rpartition delataille delchantillon.Nous proposonsles q priorits Pd =N d pour 0 q 2. Si q =0, linfrenceest demmeimportancepourchaquepetitdomaine.mesure

Statistique Canada, No 12-001 au catalogue

Longford : Calcul de la taille de lchantillon pour lestimation pour petits domaines

queq augmente, uneimportancerelativement plus grande estaccordeauxpetitsdomaineslespluspeupls.Lorsque 2 vd = s / nd, la rpartition optimale de la taille de lchantillonpour q = 2, nd =n N d /N estproportionnelle aux tailles de population dans les petits domaines et le mme plan dchantillonnage est donc optimal pour les infrencescalculesauniveaunationaletdupetitdomaine. Pour q >2, la rpartition de la taille de lchantillon est encoreplusgnreuselgarddespetitsdomaineslesplus peupls, aux dpens de ceux qui le sont moins. Comme cettesituationestcontreintuitivedanslecontextedelesti mationpourpetitsdomaines,lechoixdunexposant q >2 nestprobablementjamaisappropri.Unexposantdepriori t q ngatif conviendrait pour uneenqute dontlebut est deseconcentrersurlespetitsdomaineslesmoinspeupls. Naturellement, ce genre de plan est trs inefficace pour lestimationdu paramtre q de niveau national, surtout si les tailles de population des petits domaines sont trs disperses. Les priorits dinfrence P peuvent tre des fonctions d dautres paramtres que Nd. Par exemple, les tailles de certaines souspopulation prsentant un intrt particulier, comme une minorit ethnique dans le petit domaine, peuvent tre utilises au lieu de N d , P peut tre dfini d diffremmentdanslesdiversesrgionsdupays,oubienla formulepourlecalculerpeuttreoutrepassepourunpetit domaineouquelquesunsdentreeux. Dans certains rapports danalyse de donnes denqute, une estimation nest publie que si elle est fonde sur un
q=2

chantillon de taille suffisamment grande ou que son coefficient de variation (le ratio de lerreurtype estime lestimation)estinfrieurunseuilspcifi.Siune pna lit associeaufaitdenepaspublierun paramtre estpr cise,ellepeuttreintgredansladfinitiondespriorits dinfrence. La difficult qui risque de se poser est que la fonction objectif (1) soit discontinue et que lon ne puisse plus appliquer les approches standard doptimisation. La pnalitdoittredtermineminutieusement. Sielleesttrop faible,elleestinefficacesielleesttropleve,lasolution accorderala prfrencela publication destimations pour un aussi grand nombre de petits domaines que possible, mais avec, pour chacun, une taille dchantillon ou une prcision qui nexcde que de justesse le seuil fix. Voir Marker(2001) pouruneautreapprochedeceproblme. Lafigure1illustreleffetdelexposantdepriorit q sur la rpartition de la taille de lchantillon dune enqute planifie en Suisse dans le but destimer les moyennes de populationdunevariabledansles26cantons,ensupposant 2 quils onttousla mme variance intracanton s . Lataille globale prvue de lchantillon est n =10 000. Dans nimportequelvolet,lescourbesrelientlestaillesdchan tillonoptimalespourchaqueexposant q ellessonttraces sur lchelle linaire ( gauche) et sur lchelle logarith mique(droite).Lestaillesdepopulationsontinscritessur la barre horizontale au bas de chaque graphique. Sur lchelle logarithmique, les courbes sont linaires. Cette chelle produit aussi une rpartition plus uniforme des taillesdepopulationdescantons.
Tailledessouschantillons(cantons) 20501002005001 0002000

Tailledessouschantillons (cantons) 0500 1 0001500

q=1,75

q=1,5

q= 1,25

q=0 q=0,25 q=0,5 q=0,75 q=1 q=1,25 q=1,5 q=1,75 q=2

q=1 q= 0,75 q=0,5 q= 0,25 q=0

0500 1 000102050200500 Population(enmilliers) Population(enmilliers) chellelogarithmique


Figure1. Rpartitiondelatailledelchantillonentrelescantonssuissespourunegammedexposantsdepriorit q . Lestaillesdepopulationdescantonssontinscritessurlabarrehorizontaleaubasdechaquegraphique.
Statistique Canada, No 12-001 au catalogue

Techniques d'enqute, Juin 2006

2.1 Prioritaccordelestimationnationale Commelestaillesdesouschantillonauniveauducan ton diffrent de la rpartition proportionnelle pour lexpo sant de priorit q <2, lestimationoptimale au niveau du canton est assortie dune perte defficacit de lestimateur national.Considronslestimateurstratifi
D 1 q = N qd d N d=1

0,000,050,10 0,00,5

Erreurtype

Pour q =0, unemmetailledchantillonestattribue chaque canton, soit 10 000 / 26 =385 , et pour q =2, la rpartition est proportionnelle la taille de population du canton. Pour les valeurs intermdiaires de q les tailles , dchantillon des cantons les moins peupls sont augmen tesparrapportlarpartitionproportionnelle ( q =2), au prixdelattributiondunetaillerduiteauxcantonslesplus peupls.Pourlescantonsdontlapopulationestsuprieure 250 000, environ 3 % du chiffre national de population, la tailledessouschantillonsdpendfortpeudelavaleurde q .

lestimation au niveau du petit domaine. Si elle est juge excessive, q pourrait tre augment jusqu lobtention dun quilibre entre les pertes defficacit de lestimation nationaleetdecellesurpetitsdomaines.

1,01,52,0

Exposantdepriorit q
Figure2. Erreurtype de lestimateur national q de la moyennedunevariable,sousformedefonction de lexposant q pour les priorits de lestima tionauniveauducanton.

delamoyenne nationale q dune variable,o q reprsente d les estimateurs sans biais des moyennes intracanton de la mmevariable.Ensupposantquelchantillonnageeststra tifi avec chantillonnage alatoire simple dans les strates (cantons) et que la valeur de q est fixe la moyenne d dchantillonintrastrate, var (q) = 1 D N2 d (1 - fd ) s 2, d N 2 d=1 n d

Un aspect insatisfaisant de ces approches est quelles compromettent lobjectif premier des priorits P, cest direreflterlimportancerelativedesinfrencesausujetde petitsdomainesdistincts.Pourcontournercetinconvnient, nousassocions q unepriorit,dnote G, relativeune estimationpourpetitsdomaines,etnousconsidronslesti mation optimaledelensemble de D paramtresciblesau niveau du petit domaine q en mme temps que le para d mtreciblenationale q Donc,nousminimisonslafonction . objectif
D

o f d =nd /N d estlacorrectionpour population finie. La figure 2reprsentelafonctionquirelielerreurtype ) var (q lexposantdepriorit q calculeensupposant , 2 que s =100. Lerreurtype est une fonction dcroissante de q ellediminueplusrapidement q =0 qu q =2, o elle est relativement constante. Pour q =2, les objectifs destimation au niveau du canton et au niveau national concordent, et var (q) =0,100. Pour q = 0, var (q) = 0,143 dans ces conditions, loptimalit de lestimation pour petits domaines a sur lestimation nationale un effet dfavorable important, quivalant la rduction de moiti delatailledelchantillon (0,143/ 0,100 B 2 ). Pourune valeurngative de q ceteffetestencoreplusprononc. , Donc, nous pouvons rpondre au besoin defficacit de lestimateurnationalenaugmentantlavaleurdelexposant de priorit. Par exemple, les parties ayant des intrts concurrents en matire dinfrence pourraient ngocier la perte defficacit de q quelles jugent acceptables et fixer ensuitelexposant de prioritde faongalercette perte. Oubien,lapertepourraittrepriseenconsidrationlorsde lapplication du plan dchantillonnage optimal pour

Pd vd (nd) + GP+ v (n),


d=1

) o v = var (q et P+ = P 1 . Le facteur P+ est introduit D pour amliorer leffet des tailles absolues de P et du d nombre de petits domaines sur la priorit relative G Les . priorits P peuvent tre interprtes uniquement daprs d leurstaillesrelatives,car,pourtouteconstante c >0, Pd et cP correspondent des ensembles identiques de priorits d pourlestimation pour petitsdomainesdans (1). Lorsque le plan dchantillonnage dans chaque petit domaineestalatoiresimpleetque q estlestimateurstra tifistandard,leminimumestatteintquand P s 2 d =const, d 2 nd
2 o Pd = Pd +GP+ N d / N 2. Les tailles optimales dchan tillonpourlespetitsdomainessont s d P d n* = n . d s1 P + ...+ sD PD 1

Statistique Canada, No 12-001 au catalogue

Longford : Calcul de la taille de lchantillon pour lestimation pour petits domaines

Cettesolutioncorrespondunajustementdespriorits P d 2 par GP+N d / N 2. Notonsquecetajustementnestniadditif, ni multiplicatif. Laccroissement dela priorit est plusim portant pour les petits domaines plus peupls. Par cons quent,lestaillesdessouschantillonsdepetitdomainesont rduitesdavantagequandlaprioritrelativedelestimation nationaleestintgreetquelesprioritsauniveaudespetits domaines ne changent pas. La correction pour population * finie na aucun effet sur n , parce quelle rduit chaque d variance dchantillonnage v et v dune quantit qui ne d dpendpasde n . Lapriorit G peuttrefixeeninsistantsurlefaitquela pertedefficacitlorsdelestimationdelagrandeurnationale q nexcde pas un pourcentage donn ou quau plus, quelquesuns seulement des cartsabsolus | Pd -Pd| ou des logarithmesdesratios |log ( Pd/ Pd) | (voireaucun)nesoient trs grands. Cependant, le problme analytique est facile
AppenzellInnerrhoden
q=0

rsoudre, de sorte que la gestion de lenqute peut tre prsente au moyen des plans dchantillonnage qui sont optimauxpourunegammedevaleur G . Lavariationdelatailledessouschantillonsenfonction delexposant q etdelaprioritrelative G estreprsente graphiquementlafigure3pourlescantonslemoinsetle plus peupls, AppenzellInnerrhoden et Zrich, dans les voletsA etC. Les voletsBetD donnentlareprsentation desmmescourbesquAetC,respectivement,surlchelle logarithmique. Ne pas tenir compte de lobjectif de pro duction dune estimation nationale correspond au cas o G =0 et ne pas tenir compte de lobjectif de production duneestimation pour petitsdomainescorrespondaucasdes valeurs trs grandes de G Tout au long de larticle, nous . supposonsque n =10 000 etque s 2 =100 pourtousles cantons.
chellelogarithmique
q=0 q=0,2 q=0,4 q=0,6 q=0,8 q=1 q=1,2 q=1,4 q=1,6 q=1,8 q=2

Tailledelchantillon 100200300

q=0,2

q=0,4

q=0,6 q=0,8 q=1 q=1,2 q=1,4 q=1,6 q=1,8 q=2

01002003004000,52,05.020,0100,0500,0 Prioritrelative G Prioritrelative G A B Zurich


q=2 q=2

Tailledelchantillon 100200300

chellelogarithmique Tailledelchantillon 5001000 1 500


q=1,8 q=1,6 q=1,4 q=1,2 q=1 q=0,8 q=0,6 q=0,4 q=0,2 q=0

Tailledelchantillon 5001 0001 500

q= 1,8 q=1,6

q=1,4 q=1,2 q=1 q=0,8 q=0,6 q=0,4 q=0,2 q=0

01002003004000,52,05,020,0100,0500,0 Prioritrelative G Prioritrelative G CD


Figure3. Taillesdchantillonoptimalespourlestimateurdirect q pourlescombinaisonsdexposantsdepriorit q d etdeprioritsrelatives G pourlescantonslemoinsetlepluspeupls.
Statistique Canada, No 12-001 au catalogue

Techniques d'enqute, Juin 2006

Dans le cas de chaque exposant q <2, la courbe de rpartition de la taille de lchantillon nd(G) montre une diminution pour les cantons les moins peupls et une augmentation pour les plus peupls en direction de la reprsentation proportionnelle, nd =nN d / N , qui corres pond q =2. Sur lchelle linaire, laugmentation est assezrapidepourZrichpourlesfaiblesvaleursde q etde G tandisquelarductionpourAppenzellInnerrhodenest , plus progressive. mesure que la priorit relative G est rduite,latailledchantillonexcdentaireestraffectede Zrich (et de quelques autres cantons peupls) plusieurs cantonsmoinspeupls. La figure 4 reprsente graphiquement lerreurtype ) nationale var (q sous la rpartition optimale de lchantillonpourunematricedevaleursde q etde G Le . graphique montre quune lgre augmentation de G aux alentours de G =0 rduit spectaculairement lerreurtype de q , tandis que pour les valeurs plus grandes de G, lerreurtype ne varie que lgrement. Pour chaque G, un exposantdeprioritpluslev q estassociuneprcision . pluslevede q
q=0

destimateurs. Ilsagit de combinaisons convexes desesti mateursdirectssurpetitsdomainesetauniveaunational,


% qd = (1 - bd ) qd + bd q,

(2)

q=0,2

q=0,4

q=0,6

q=0,8 q=1 q=1,2 q=1,4 q=1,6 q=1,8

0100200300400 PrioritrelativeG

Figure 4. Erreurtype de lestimateur national pour la rpartitionoptimalesousunematricedepriorits donnespar q et G .

avecdescoefficientsparticuliersauxpetitsdomaines b qui d % sontdesestimationsdeloptimum.Lacomposition qd tire partidelasimilaritdespetitsdomainesetestparticulire ment efficace lorsquils prsentent une faible variance interdomaines s 2 = D -1 d (qd - q) 2, o q = D -1 dq . B d Cette variance est dfinie sur les D paramtres de population q et nest pas affecte par le plan dchan d tillonnage.Enpratique,ilfautestimer s2 .Lorsdelaplani B fication dune enqute, il est ncessaire dutiliser des estimationsprovenantdautresenqutesauprsdelamme populationoudepopulationsapparentes,etdetenircompte de lincertitude au sujet de s2 , ce qui peut se faire par B analyse de sensibilit, en recherchant les plans dchantil lonnageoptimauxpourunegammedevaleursplausiblesde 2 s . B Si les carts D d = q d - q taient connus, le coefficient * 2 optimal b dans (2) serait, approximativement, bd = s / d d 2 2 (s d + nd Dd). Puisquenousneconnaissonspas Dd (sinon, q serait estim avec une grande prcision par q + Dd ), d nous remplaons D2 par sa moyenne sur les petits do d maines,gale s2, cequidonnele coefficient bd = 1/ (1+ B 2 nd w ), o wd = s 2 /s est le ratio de variance. La va d B d 2 riance sB doit aussi tre estime, mais, si le nombre de petits domaines est lev, lestimation est beaucoup plus prcisequenelesontlaplupartdes D2 . d Silescoefficients b sontestimsavecsuffisammentde d % prcision, lestimateur composite qd est plus efficace que . lesdeuxestimateursquileconstituent, q et q Sinousne d tenons pas compte de lincertitude au sujet des variances intraetinterdomaines, niausujet de la moyenne nationale q et de la corrlation entre les estimateurs (direct) au niveaunationaletsurpetitsdomaines,lEQMmoyennede % qd est s2 B % aEQM( qd ) = , (3) 1 + nd wd o aEQM dnotelEQMdanslaquelle D2 estremplac d par s2, sa moyenne sur lensemble des petits domaines. B Dans(3),aEQMestaussiuneapproximationdelavariance conditionnelle de lestimateur EBLUP de la moyenne au niveau du petit domaine fonde sur le modle (empirique baysien)deuxniveaux(Longford1993,Goldstein1995, Marker1999etRao2003).VoirGhoshetRao(1994)pour une revue reconnue de lapplication de ces modles lestimation pour petitsdomaines. Pour les estimateurs composites des moyennes de petit domaine, nous recherchons la rpartition de lchantillon quiminimiselafonctionobjectif
Statistique Canada, No 12-001 au catalogue

0,100,110,120,130,14

Erreurtype

3. Estimationcomposite
Lutilisation la plus efficace des ressources disponibles pour raliser une enqute sobtient par combinaison opti male dun plan dchantillonnage et dun ou de plusieurs estimateurs, si bien que le plan dchantillonnage et (le choix de) lestimateur devraient, dans des circonstances idales,treoptimisssimultanment.Ceproblmeestdiffi cilersoudreformellementdanslaplupartdesconditions, quoiquecertainsestimateurssoientplusefficacesqueleurs concurrents et que lon considre une grande gamme de plans dchantillonnage. Les estimateurs composites (Longford 1999, 2004) reprsentent lune de ces classes

10

Longford : Calcul de la taille de lchantillon pour lestimation pour petits domaines

% Pd aEQM (qd ) + GP+ v.


d= 1

pratique,les tailles dessouschantillonsseraientarrondies et ventuellement ajustes davantage afin de satisfaire aux diverses contraintesdegestiondelenqute. Pasdeprioritaccordelestimationnationale (4)

La solution satisfaitlacontrainte
q N d s 2 wd B 2 (1 + nd w ) d

+ GP +

2 Nd s 2 d 2 N 2 nd

= const.

Cette quation ne possde pas de solution analytique commode, mais elle peut tre rsolue par application de scnarios itratifs. La valeur de n dtermine les autres 1 taillesdchantillon n , desortequeloptimisationcorres d pond une recherche unidimensionnelle. Si les tailles dchantillon provisoires n fondes sur un ensemble de valeurde n sonttrop grandes, onrduit n 1 >n, n1 et 1 D on calcule les autres tailles dchantillon n en rsolvant d 2 (4).Notonsquelasolutiondpenddesvariances s et s2. d B Leproblmesesimplifiequelquepeulorsquelavarianceest 2 la mme pour tous les petits domaines s 2 = s1 = ... = s2 . D Alors, la solution de(4) dpend des variances uniquement 2 2 par la voie du ratio w = s 2 / s , parce que s est un B facteurmultiplicatifquinaaucuneffetsurloptimisation. titre dexemple, supposons que q =1 et G =10 lors de la planification dune enqute auprs de la population suisse, avec n =10 000, et en supposant que w =0,10 . Comme solution initiale, nous utilisons la rpartition opti malepourlestimationdirecteaveclesmmesvaleursde q etde G Uneitrationmetjourlatailledelchantillonde . chaquecantonet,danslescantons,lamisejourpourtous, saufceluiderfrenceslectionnarbitrairement d =1,est galementitrative.Latailleprovisoiredusouschantillon pourlecantonderfrencedterminelavaleurcourantede la constante dans le deuxime membre de(4). Lquation (4) est rsolue, itrativement, pour chaque canton d = 2, ..., D en utilisant la mthode de Newton. Dans , lapplication, lenombreditrationstaitinfrieurdixpour chaque canton. Enfin, la taille du souschantillon pour le canton de rfrence est ajuste par le facteur 1/ D un multiple deladiffrenceentre letotalcourantdestaillesdes souschantillons et le total cible n La mise jour des . tailles dchantillon descantonsest ellemme itre, mais quelques itrations seulement sont ncessaires pour atteindrelaconvergenceparexemple,touteslesvariations des tailles des souschantillons taient infrieures 1,0 aprs trois itrations et infrieures 0,01 aprs huit itra tions. La convergence est rapide, parce que la solution de dpart est proche de la solution optimale lcart le plus importantentrelesdeuxtaillesdesouschantillonestcelui observpourZurich,soit20,0(de 1199,5 audpart 1219,5 aprshuititrations).PourAppenzellInnerrhoden,lataille dchantillonestrduitede 81,6 73,4. Deschangementsde moinsduneunitontlieupourcinqcantonsdontlataillede population varie de 228 000 278 000. Notons quen
Statistique Canada, No 12-001 au catalogue

Si lestimation nationale na aucune priorit, G =0, lquation(4) possdelasolutionexplicite nw + D Nq/ 2 1 * d n = - , d w U ( q) w q q o U ( q ) = N1 / 2 + ... +N D/ 2. Cetterpartitionestreliela rpartition nd, d =1, ..., D, qui est optimale pour lestimationdirectede q ,parlidentit d q 1 DNd/ 2 n* = n + - 1 . d d ( q) w U Donc, quand q >0, la rpartition optimale est plus disperse dans le cas de lestimation composite que dans celuidelestimationdirecte.Latailledepopulationaupoint dquilibre est N T =(U ( q ) / D) 2 /q la taille du sous chantillon pour les petits domaines ayant une taille de population N d < N T est plus petite dans le cas de lestimation composite que dans celui de lestimation directe,etelleestplusgrandepourlespetitsdomainesdont * lapopulationest plus grande.(Pour q = 0, nd n / D ). Le degr de dispersion supplmentaire est inversement proportionnel w . Si w =0, les quations pour le plan dchantillonnage optimaldonnentlieuunesingularit.Danscecas,chaque , q est estimefficacement parlestimateur national q si d bien que le plan optimal pour lestimation composite concide avec le plan optimal pour lestimateur national ( n* =nN d / N ). Pour q >0, larpartitionoptimaledonne d * destaillesdchantillonngatives n quand d
U( q) (5) N < . d nw + D Cette solution (formelle) na pas de sens. Une solution ngativenedevraitpastretonnante,carlaEQMde (3) est unefonctionanalytiquepour nd > -1/ w . Silesvaleursde d w >0 sontfaibles,laEQMestunefonctiondcroissante pente faible de la taille dchantillon n . Une valeur d * ngative de n indiquequun petit cantonnevautpasla d peine dtre chantillonn, cause de la faible priorit dinfrence P . Bien que laccroissement de la taille de d lchantillonduncantonpluspeupl d puissedonnerlieu unerductionplusfaibledelaEQMquecelaneseraitle cas pour un petit canton d, la priorit plus grande Pd augmenteleffet.
2 /q

Prioritpositivepourlamoyennenationale Dans(3),laEQMnetientpascomptedelincertitudeau sujet de la moyenne nationale q situation qui devient ,

Techniques d'enqute, Juin 2006

11

critique lorsque lun des cantons nest pas reprsent dans lchantillon.Cettedficiencede(3)peuttrecompenseen fixantlaprioritrelative G unevaleur positive. Lafigure 5rsumeleffetdelaprioritrelative G etde lexposant de priorit q sur les tailles dchantillon optimalespourlescantonslemoinsetlepluspeupls,ainsi e que le canton de Thurgau qui possde la 13 taille de population par ordre dcroissant (mdiane), soit 228 000. Chaque valeur de q indique dans le titre, et de G, , indique en utilisant diffrents types de lignes, est

reprsente pour un canton par un graphique de la taille dchantillon optimale enfonctionduratio de variance w . Lalimitedecettefonctionlorsque w + galelataille , dchantillon optimale pour lestimation directe, est marqueparunebarredanslamargededroiteduvoleten question.Pour w =0, on obtientleplan dchantillonnage optimal pour lestimationde la moyenne nationale q .Les volets A et Bau haut de lafigurecorrespondentlataille dchantillon globale n =10 000 et les volets C et D, n =1 000.

Prioritq= 0,5n = 10 000Prioritq =1n= 10 000


2 000 2 000

500

Tailledelchantillon

Tailledelchantillon

500

Zurich Thurgau

Zurich Thurgau

50 100

50100

AppenzellInnerrhodden

AppenzellInnerrhodden

G =1 G =10 G =100

20

10

0,00,10,20,30,4 0 50,00,10,20,30,40,5 Ratiodevariance Ratiodevariance AB

Prioritq= 0,5n = 1 000Prioritq = 1n = 1 000


50 100 100

Tailledelchantillon

Tailledelchantillon

50

Zurich Thurgau

10

20

Zurich

10 20

AppenzellInnerrhodden

10

20

Thurgau

AppenzellInnerrhodden

G =1 G =10 G =100

0,00,51,01,5 0,00,51,01,5 RatiodevarianceRatiodevariance CD

Figure 5. Tailles dchantillon optimales pour lestimation composite des moyennes de population pour trois cantons pour une gamme de rapports de variance w les exposants de priorit q =0, 5 et q =1, 0 et les priorits , relatives G =1, 10 et100.Lestaillesglobalesdchantillonsont10 000(volets AetB)et1000(volets Cet D).

Statistique Canada, No 12-001 au catalogue

12

Longford : Calcul de la taille de lchantillon pour lestimation pour petits domaines

Le graphique montre que les tailles dchantillon optimales sont presque constantes dans la fourchette * w (w* , + ) w augmente avec q, G et 1/ n Il sagit . dune consquence de la taille dchantillon relativement grande n quiassurequelessouschantillonsdelaplupart , des cantons soient trop grands pour quun emprunt importantdinformationentrelescantonsaientlieu,moins * quelescantonssoientfortsemblables (w < w ). Laplupart des coefficients de rtrcissement bd = 1/(1 + nd w sont ) trspetits.Lorsquunetaille n =10 000 estprvue,pourles valeurs faibles de w la taille dchantillon optimale , augmente fortement pour les cantons les moins peupls et chutebrusquementpourlespluspeupls.Ladispersiondes tailles dchantillon optimales augmente avec q et G, convergeantverslarpartitionoptimalepourlestimationde la moyenne nationale q qui correspond w =0. Par , contre,lestaillesdchantillonoptimalessontdiscontinues w =0 quand G =0 lessolutionsdivergentvers - pour lescantonslesmoinspeupls. DanslesvoletsCetD,pour n =1 000, lavariationdes taillesdchantillonenfonctionde w persistepouruneplus grande fourchette de valeur de w , parce que la porte de lemprunt dinformation entre les cantons est plus grande pour les tailles dchantillon plus petites. Les tailles dchantillon optimales ne sont pas des fonctions mono tonesde w pourlescantonslesmoinspeupls,onobserve uncreux pour les faibles valeurs de w.Lecreux est plus . prononcpourlesfaiblesvaleursde G etpourlesgrandes valeurs de q cestdire lorsque les disparits entre les , priorits des cantons sont grandes et que limportance relativedelinfrenceausujetdelamoyennenationaleest plus faible. Ce phnomne, quelque peu exagr par lchelle logarithmique de laxe des ordonnes, est sem blableau cas discut pour G =0. cause des diffrences de priorit P , une faible rduction de laEQM pour un d canton plus peupl est prfrable une rduction plus importante pour un canton moins peupl. Le creux existe aussi quand n =10 000, mais il est si peu profond et si troitquilnestpasvisibledanslesconditionsdersolution dugraphique.Notonsque,danslesvoletsCetD,laxedes abscissespossdeunefourchettedevaleursde w troisfois plusgrandequedanslesvolets AetB. Danslecontextedelenquteplanifie,ilatconvenu quiltaitpeuprobablequelavaleurde w soitinfrieure 0,05.Parconsquent,lecalculdestaillesdchantillonapu trefondsurlestimateurdirect.

4. Discussion
La mthode dcrite dans le prsent article permet de dterminer le plan dchantillonnage optimal pour les conditions artificielles dchantillonnage stratifi avec
Statistique Canada, No 12-001 au catalogue

chantillonnagealatoiresimple dans desstrates homosc dastiques.Laspcificationdesprioritsencequiconcerne lestimation pour petits domaines et lestimation nationale estunlmentessentieldelamthode.Enpratique,ilpeut tre difficile de se mettre daccord sur les priorits et certaines hypothses peuvent tre problmatiques, en particulier celles delgalit des variances intrastrate et de lchantillonnage alatoire simple. La mthode peut tre tenduedesestimateurspluscomplexes, maislesvaleurs de paramtres supplmentaires sont alors ncessaires. Une approche plus constructive consiste considrer le plan dchantillonnageoptimalpourlesconditionssimplifiesen tant quapproximation du plan dchantillonnage qui est optimal pourlesconditions plusralistes.Mmesile plan dchantillonnageoptimaltaitdtermin,ilnepourraittre appliqulittralement,causedesimperfectionsdelabase de sondage et (ventuellement) de la nonrponse infor mative et non uniformment distribue. Cependant, lap proche est applicable, en principe, tout estimateur sur petits domaines pour lequel il existe une expression ana lytiqueexacteouapproximativedelEQM.Celaincluttous les estimateurs fonds sur les modles baysiens empi riques, auxquels lestimateur composite est troitement associ.Lespoidsdesondagepeuventtreintgrsdansle calcul de lataille delchantillonsilssont connus ouque leurs distributions dans les petits domaines sont connues a priori,sousrservedecertainesapproximations.Lecalcul de la taille dchantillon pour une grandeur (nationale) uniqueposelemmeproblme. Bien que la solution numrique du problme pour lestimation composite avec une priorit positive G soit simpleetneprsenteaucunproblmedeconvergence,ilest avantageux de disposer dune solution analytique, afin de pouvoirtudierunegammedescnarios.Laproximitdes solutionsobtenuespourlesestimationsdirecteetcomposite donnepenserquelarpartitionoptimalepourlestimation directe pourrait galement sapprocher de la situation optimale pour lestimation composite avec des valeurs raisonnablesde w disons, w >0,05. , Diverses contraintes degestionet dorganisationconsti tuent un autre obstacle lapplication littrale dun plan dchantillonnagetablianalytiquement.Danslesenqutes mnages, il est souvent prfrable dattribuer un quota (presque)completdadresseschaqueintervieweur,sibien quelonaccordelaprfrenceauxtaillesdchantillonqui sont des multiples du quota. Ces considrations et de nombreusesautrescontraintespeuventtreintgresdansle problme doptimisation, quoiquelles soient souvent dif ficilequantifierouqueleconcepteurdelenqutenesoit pas conscient de leur existence cause dune communi cation imparfaite. Limprovisation, aprs lobtention dun plan dchantillonnage optimal pour des conditions plus

Techniques d'enqute, Juin 2006

13

simples, pourrait tre plus pratique. En outre, les priorits, oulopiniondexpertsleursujet,peuventvolueraucours du temps, mme pendant la ralisation de lenqute et lanalyse des donnes. Les estimations associes une erreurtype ou un coefficient de variation suprieur un seuilprcissontsouventexcluesdesrapportsanalytiques. Lintentiondelesexclurepeuttrerefltedanslecalculde la taille dchantillon en considrant q comme tant lestimateurde qd , cestdireenfixantlEQMconnexe ) laEQM s 2 + var (q correspondante ou une autre B (grande)valeur constante. Bienquenousproposionsuneclasseparticuliredeprio ritspourlespetitsdomaines,aucunedifficultconceptuelle neseposelorsquelonutiliseuneautreclasse.Ellepourrait dpendredeplusieursgrandeursdepopulationpluttquede latailledepopulationuniquement.Enprincipe,lespriorits peuvent aussi tre fixes individuellement pour les petits domaines,bienquecelanesoitpratiquequesileurnombre est faible. Les priorits fondes sur la formule ou tablies individuellement peuvent tre combines en ajustant les q priorits, telles que Pd =N d , pour quelques petits do mainesafindereflterleurrleexceptionneldanslanalyse. Une analyse de sensibilit, en vue dtudier les modifi cations du plan dchantillonnage en fonction de diverses donnes dentre est essentielle la comprhension de lincertitude au sujet des paramtres estims (le ratio de variance w en particulier) et le caractre arbitraire, aussi limitquilsoit,deltablissementdespriorits.Pourcela,il est prfrable de disposer dune solution analytiquement simplequipeuttreexcutedenombreusesfois,pourune gammedeconditions,pluttquunesolutionpluscomplexe, dontlespropritssontdifficilestudier. Les estimateurs composites multivaris exploitent la similarit non seulement entre les petits domaines, mais aussientrelesvariables(auxiliaires),lespriodes,lessous populations, et ainsi de suite (Longford 1999 et 2005). LaEQM de ces estimateurs dpend de la matrice de va riancesmiselchelle W quiestlependantmultivaride , w Lecalculdelatailledchantillonparcettemthodeest . difficile appliquer directement, parce que, dans W , les variances et les covariances sont les unes et les autres essentielleslefficacitdesestimateurs.Uneapprocheplus constructive consiste faire concorder la matrice W avec unratio w quipeuttreinterprtcommetantlasimilarit des petits domaines aprs correction pour linformation auxiliaire, comme dans les mthodes baysiennes empiriques. Lorsque il est impossible dexercer un contrle sur les taillesdchantillonaffectesauxpetitsdomaines,leurcalcul demeure utile comme indication de la faon dont elles devraient tre rparties en moyenne. En gnral, une rductionunitairedelatailledchantillonestassocieune

perte plus importante de prcision quun accroissement unitaire.Parconsquent,lesplansdanslesquelslavariance dchantillonnage(estimeparrchantillonnage)destailles dessouschantillons nd( fix)estplusfaiblesontmieux d adaptslestimationpourpetits domaines.Dansles plans dchantillonnage o les grappes sont importantes, ces va riancessontgrandesparceque,danslecasextrme,unpetit domaine pourrait ne pas tre reprsent dans lchantillon lors de certaines rpliques et pourrait tre surreprsent plusieurs fois dans dautres. En gnral, il est prfrable dutiliserdepluspetitesgrappespourlestimation pour petits domaines,si celanaugmentepaslescotsdenquteetquil estpossibledemaintenirunetailleglobaledchantillonfixe.

Remerciements
Je remercie le rdacteur en chef dlgu et les exami nateursdavoirproposplusieursamliorations,maissurtout de mavoir fait dcouvrir une erreur dans une version an trieure du manuscrit. Je tiens aussi mentionner mes discussionsaveclquipepolonaiseduprojetEURAREA.

Bibliographie
Fay, R.E., et Herriot, R.A. (1979). Estimates of income for small places: Anapplication ofJamesSteinproceduresto censusdata. JournaloftheAmericanStatisticalAssociation,74,269277. Ghosh, M., et Rao, J.N.K. (1994). Small area estimation: An appraisal. StatisticalScience,9,5593. Goldstein, H. (1995). Multilevel Statistical Models. Deuxime dition.EdwardArnold,London,UK. Longford, N.T. (1993). Random Coefficient Models. Oxford UniversityPress,Oxford. Longford, N.T. (1999). Multivariate shrinkage estimation of small area means and proportions. Journal of the Royal Statistical Society,SriesA,162,227245. Longford,N.T.(2004).Missingdataandsmallareaestimationinthe UKLabourForceSurvey. JournaloftheRoyalStatisticalSociety, SriesA,167,341373. Longford, N.T. (2005). Missing Data and SmallArea Estimation. Modern Analytical Equipment for the Survey Statistician. SpringerVerlag,NewYork. Marker, D.A. (1999). Organization of small area estimators using a generalized linear regression framework. Journal of Official Statistics,15,124. Marker,D.A.(2001).Productiondestimationsrgionalesdaprsles donnes denqutes nationales : Mthodes visant rduire au minimumlemploidestimateursindirects.Techniquesdenqute, 27, 201207. Platek,R.,Rao,J.N.K.,Srndal,C.E.etSingh,M.P.(ds.)(1987). SmallAreaStatistics.NewYork:JohnWiley&Sons. Rao,J.N.K.(2003). SmallAreaEstimation.NewYork:JohnWiley& Sons,Inc. Singh,M.P.,Gambino,J.etMantel,H.J.(1994).Lespetitesrgions: Problmesetsolutions. Techniques denqute,20,323.

Statistique Canada, No 12-001 au catalogue