Vous êtes sur la page 1sur 11

Techniquesd enqute,juin2001 o Vol.27,N 1,pp.

117127 o StatistiqueCanada,N 12001aucatalogue

117

chantillonnageetpondrationduneenquteauprsdepersonnessans domicile :unexemplefranais


PascalArdillyetDavidLeBlanc1 Rsum
LINSEEaralisen2001uneenqutedestinemieuxconnatrelapopulationsansdomicile.Enlabsencedebasede sondagepermettantdatteindredirectementlespersonnessansdomicile,leprincipedelenquteestdchantillonnerdes prestations qui leur sont destines et dinterroger les individus qui bnficient de ces prestations. Lorsque lon dsire pondrerlesobservationsindividuellesissuesdelenqute,unedifficultsurgitdufaitquunindividupeutbnficierde plusieursprestationspendantlapriodederfrenceconsidre.Cetarticlemontrecommentilestpossibledappliquerla mthodedupartagedespoidspourrsoudreceproblme.Danscetypedenqute,unemmevariablepeutdonnerlieu plusieursparamtresdintrt,correspondantdespopulationsvariantavecletemps.Achaquedfinitiondesparamtres correspondunjeudepoids.Larticleinsisteparticulirementsurlecalculdepoids unjourmoyen et unesemaine moyenne . On donne galement des lments sur les donnes de frquentation collecter et la correction de la nonrponse. Mots cls : Partagedespoidsbase incompltepersonnessansdomicile.

1. Introduction
LINSEEaralisen2001uneenqutedestinemieux connatrelapopulationdessansdomicile.Cetteenquteest la premire enqute reprsentative de ce type en France (UneenqutedecetypeatmeneauxtatsUnisen1991 par le Research Triangle Institute (RTI) dans la rgion mtropolitaine deWashington(RTI1993)).Le principede lenquteestdatteindreles personnessansdomicileparle biaisdeprestationsquileursontdestines,hbergementde nuit et repas. Evidemment, une personne peut frquenter uneouplusieursprestationsdelabasedesondagependant lapriodederfrenceconsidre,cequiposeunedifficult lorsque lon dsire pondrer le fichier dobservations individuelles issu de lenqute. Dans cet article, nous montrons comment la mthode du partage des poids peut tre applique ce problme. Dans ce type denqute, contrairement la plupart des enqutes traditionnelles auprsdesmnages,unemmevariablepeutdonnerlieu plusieurs paramtres dintrt, correspondant diffrents concepts de population : les plus utiliss par les praticiens sont les paramtres un jour moyen et une semaine moyenne .Achaquedfinitiondesparamtrescorrespond unjeudepoids.Nousdfinissonsprcismentcesconcepts, etinsistonsparticulirementsurlecalculpratiquedespoids correspondants. Le plan de larticle est le suivant : nous rappelons dabord les objectifs de lenqute, sa population de rfrence et son plan de sondage. Nous introduisons ensuite les paramtres dintrt et drivons les estimateurs decesparamtresissusdelamthodedupartagedespoids. Nous dcrivons la mise en oeuvre pratique de calculs de poids un jour moyen et une semaine moyenne . Enfin, nous donnons des considrations pratiques sur la correctiondelanonrponse.

2. Lenqute sansdomicile
2.1 Objectifsdelenqute Lenqute ralise par lINSEE en fvrier 2001 vise mieux connatre la population des sansdomicile . Cette population est gnralement dfinie par dfaut comme lensemble des personnesqui ne disposent pas dun domi cile fixe. Cette population chappe aux enqutes tradition nelles auprs des mnages menes par lInstitut, cellesci reposant sur une base de sondage de logements. En labsencedunebasedesondagerecensantcettepopulation, le principe de lenqute consiste atteindre la population viseparlebiaisdeprestationsdestinesauxpersonnesen difficult,correspondantdesservicesdhbergementetde repas. Ces prestations sont fournies sur des bases tempo relles qui varient selon leur nature : les repas sont fournis chaquejourmidietsoir,lesnuitesunefoisparjour. Cetchantillonnageindirectinduitdeuxdistorsionsentre lapopulationviseinitialementetlapopulationatteintepar lenqute.Dunepart,lapopulationvisenestpasatteinte dans sa totalit : seuls ses membres qui utilisent les prestations rentrant dans le champ de lenqute sont potentiellement chantillonnables. Dautre part, la popula tion atteinte par lenqute contient des personnes qui nappartiennentpaslapopulationviseinitialement,dans lamesureolesservicesdestinsenprioritauxpersonnes sans domicile sont aussi utiliss par des personnes qui viventen mnage ordinaire maissonten situation prcaire (cest surtout le cas pour les repas). Dans tout ce qui suit, tout en gardant cette distinction lesprit, on parlera cependant parfois de sansdomicile pour dsigner les personnes frquentant les prestations du champ de lenqute.

1. Pascal Ardilly et David Le Blanc, Institut National de la Statistique et des tudes Economiques, 18 boulevard Adolphe Pinard, 75675, Paris, Cedex, France.Courriel:pascal.ardilly@insee.fr,leblanc@ensae.fr.

118

ArdillyetLeBlanc:chantillonnageetpondrationduneenquteauprsdepersonnessansdomicile

2.2 Lapopulationderfrence La caractristique principale des services considrs est quilssontfournisdansunlieuprciscelieuestappelpar la suite centre. A un centre donn correspond un ou plusieurs types de services. Lunit statistique chantil lonne, que nous appellerons par la suite prestation, sera dfinie comme un quadruplet (service, jour, intervalle de temps,personne) :ilsagitdunservicedetypedonndans uncentredonn,unjourdonn,dansunintervalledetemps donn,unepersonnedonne.Unepersonnepeutbiensr bnficier de plusieurs prestations la mme journe, et a fortiori unesemainedonneoupendantlemoisdenqute. Lapriodederfrencedelenqutestendsurunmois (du15janvierau15fvrier2001).Onnote J , lensemble desjoursdelapriodederfrencedelenqute,reprspar lindice j . Le champ gographique de lenqute est celui des agglomrationsdeplusde20 000habitants. Les prestations dans le champ de lenqute sont celles quirelventdundesdeuxtypesdeservicesretenus :repas et hbergement, ds lors quils sont assurs au moins une journependantlapriodederfrencedelenqute. Lapopulation de rfrence, note P( J), est constitue des personnes qui ont bnfici dau moins une prestation duchampdelenqutependantlapriodederfrence. Cette population dintrt dpend fondamentalement delapriodederfrence.Sataillecrotaveclalongueur de cette priode, mais moins vite que le temps: en effet, dun jour sur lautre, on retrouve certaines personnes dans les centres. En ralit, lvolution de P( J) avec J est complexe, car deux phnomnes distinctsinterviennent,dontonpeutpenserquilsontdes tempscaractristiquesdiffrents: la population sansdomicile un moment donn ne frquente qupisodiquement les centres de la base :pourprtendrelacouvrir,ilfautdoncenquter surunepriodedetempsotouteslespersonnesde cettepopulationontaumoinsunefoisrecoursdes services,(cette priode nest pas connue, maisilest admis en France, dire dexpert , que la population non couverte pendant un mois dhiver completestdetaillengligeable). lapopulation sansdomicile serenouvelledansle temps. Dune anne sur lautre, des entres et des sorties, sans doute nombreuses, interviennent, lies auxmouvementsdmographiquesouauxvolutions conjoncturellesoustructurellesdelasocit(entres etsortiesdesituationsdeprcarit). Laquestiondeladterminationde J revientfinalement savoir si on sintresse plutt une notion de sansdomicile uninstantdonn ( J pluttcourt),ou une notion de sansdomicile sur une longue priode ( J plutt long). Lapproche retenue par lINSEE constitue un compromisentrelesdeux.
o Statistique Canada,N 12001 aucatalogue

2.3 Leplandesondagedelenqute Leplandesondagedelenqutecomprendtroisdegrs : tiragedagglomrations,tiragedecentresetdintervallesde temps,etenfintiragedeprestations. 2.3.1 Tiragedesagglomrations Lepremierdegrduplandesondageconsistetirerdes agglomrations, proportionnellement un critre de taille dfini comme une combinaison de la population des agglomrationsetdescapacitsdaccueiltellesquellesont pu tre recenses dans les fichiers des associations et les fichiersduMinistredelaSant.Cepremierdegrdetirage est effectu plusieurs mois avant les autres. Ce dcalage simpose car le recensement exhaustif des centres et des informationslesconcernant(typedeservicerendu,capacit moyenne, jours douverture, ...) est entrepris sur les agglomrations tires. Cette opration est ralise en deux fois : une enqute lourde lanne prcdant la collecte, et une mise jour juste avant le dbut de la collecte. On obtientainsiunebasedesondagedecentres.Cettebasejoue unrle fondamental : des personnesqui nefrquenteraient que des centres non recenss seraient de fait non chantillonnables. 2.3.2 Tiragedescentres,desjoursetdesintervalles detemps Pour des raisons pratiques, il nest pas possible denquter lensemble des centres et de maintenir sur le terrain, dans un centre donn, un enquteur durant une journe entire. Enfin, on ne peut interroger toutes les personnes dans un centre. Il est donc incontournable dchantillonner : descentresdanslesagglomrationstires(indice c ). des jours denqute pendant la priode de collecte (indice j ). desintervalles de temps pendant les jours denqute (indice t). despersonnesauseindun(centre,jour,intervallede temps)tir. Pourdesraisonsthoriques,lesintervallesdetempssont dfinisdefaonquunindividunepuissepasbnficierde deux prestations diffrentes durant cet intervalle de temps (parexemple,undecesintervalledetempsestlapriodede 1114heures).Eneffet,lamesuredesliensaveclabasede sondage ne peut raisonnablement seffectuer quen permettantauxpersonnesinterrogesdereprerfacilement dans le temps et lespace les prestations qui leur ont t servies au cours de la priode denqute. Pour les centres offrantdesrepas,unintervalledetempsrecouvriralesrepas du midi et un intervalle les repas du soir. On considre quunepersonnenepeutfrquenterquunseulcentredurant lintervalle detempscorrespondantaurepasde midi,faute dequoiilfaudraitluidemandersiellenapasdjprisun repas ailleurs, ou si elle ne mange pas deux fois dans

Techniquesdenqute,juin2001

119 nombre de personnes qui vont se prsenter durant un intervalle de temps donn : on ne peut donc pas faire de base de sondage des prestations. Lchantillonnage des prestations seffectue probabilits gales. Comme traditionnellementdanslessondagesplusieursdegrs,tirer un nombre constant de prestations (dernier degr) permet dassurer des probabilits de tirage constantes, et donc de limiterlesrisquesdexplosiondevariance. Enpratique,lamthodedetirageretenuevarieduntype de centre un autre, selon la topographie des lieux : liste existante, file dattente, arrives espaces dans le temps, population groupe sans ordre dans un mme lieu au mme moment, etc. Elle tient aussi compte du nombre maximaldinterviewsraisonnablementassurablesparleou lesenquteurspendantlintervalledetempsdelenqute,et du fait quil nest pas souhaitable de retenir des personnes chantillonnes trop longtemps aprs la fermeture dun centre ou larrt de distribution de repas, sous peine daugmenterlanonrponse. Danstouslescas,un dnombreur comptependantla priode dchantillonnage le nombre N de prestations servies.Cerleestessentielpour dterminerla probabilit de tirage des prestations chantillonnes. Paralllement, il procde un tirage de type systmatique (Dans lidal, le tirage devrait tre assur par une autre personne (ou chantillonneur ),afindviterleserreursde mesuresur la frquentation. Des raisons budgtaires ont conduit ne pasretenircettesolution.)selonlamthodesuivante : danslescentresounelisteestdisponible,ontire n prestations, n tantfixavantlenqute. dans lescentres oaucuneliste nest disponible, on tirelesprestationsavecuntauxdesondage f fixe. f est dtermin selon le nombre de prestations % et le nombre de prestations que lon attendues N dsire chantillonner n , afin dassurer des probabi % lits de tirage gales. Dans ce cas, la taille de lchantillonestinconnue a priori.

lemmecentre.Ilsetrouveparailleursquelalargeurdun intervalleassurantunetellepropritcorrespondladure aucoursdelaquelleonpeutraisonnablementdemanderun enquteur dinterroger sur place (soit 2 3 heures au maximum).(Onremarqueraquelesaccueilsdejournefont paspartiedesservicesretenusdanslechampdelenqute. Cette restriction de champ correspond deux proccu pations. Dune part, il serait trs difficile de dcouper la journeenintervallesdetempsdetroisouquatreheureset decollecterleslienssurlabasedecedcoupage(leffortde mmoiredemandlenqutseraitconsidrableetnapas paru raisonnable aux concepteurs de lenqute). Dautre part, les frquentations de ces services sont trs peu prvisibles.Onavouluviterunequipedenquteursde se dplacer et de ne raliser aucun entretien faute de frquentation.) En fait, il ny a pas de diffrence fondamentale entre lchantillonnage des centres et lchantillonnage des priodes detemps :les unitspertinentesconsidrersont les triplets (c, j , t) correspondant au croisement dun centre,dunjouretdunintervalledetemps.Certainescases dutableaucroisant temps et centres serontlimines a priori avant le tirage, soit parce que le centre est ferm durant le crneau horaire considr, soit parce que la frquentation y est manifestement trs faible. (Dans ce derniercas,ilfautprendregardelventuellerestrictiondu champ couvert, sil savrait que des personnes ne frquententquece centre et nesont prsentesque dansce crneau horaire. Si ces dernires sont atypiques, des biais serontintroduitsdanslesestimations.) Lemodedetirageretenuaconsisttirerauhasarddes triplets (centres, jour, intervalles de temps) proportion nellementlatailledescentresobtenuelorsdurecensement des centres. (En pratique, des regroupements dintervalles detempsonteulieudslorsquuncentretaitchantillonn plus de quatre fois au cours de la priode denqute, pour des raisons dacceptabilit par les responsables de centre.) Une stratification par type de centre a t effectue. (Pour les services dhbergement, une stratification sur le critre hommes seulement/femmes seulement/accueil mixte a t introduite.) Toutefois, cette stratification de prcaution , ne portant pas directement sur les units dobservation, naura t utile que si le comportement des personnes diffresensiblementselonletypedecentreoonlestrouve. 2.3.3 Tiragedesprestations Cedernierdegrconsisteacheverlchantillonnagedes prestations,cestdiretirerdespersonnesdansuncentre slectionn un jour donn dans un intervalle de temps donn. Les donnes recueillies lors du recensement des centresnesuffisentpasengnralconstituerunebasede sondage de prestations. Dans certains centres dhberge ment,ilpeutexisterdeslistescestlecasleplusfavorable, untiragedespersonnespouvanttreconduitpartirdeces listes. En revanche, dans la majorit des centres (par exemple,dansunpointsoupe),onneconnatmmepasle

3. Lesparamtresdintrt
Les quantits dintrt sont essentiellement du type totauxouratios.Nousdsironsestimeruntotalrelatifune variable y dfiniesurlapopulation P( J),
YJ =

k P ( J)

yk.

(1)

Un cas particulier de ces totaux est leffectif de P ( J ), N J = card (P ( J )) = kP ( J)1. Nousdsironsgalementestimerlamoyennede y dans lapopulationderfrence,
YJ = Y 1 J = yk. N J N J kP ( J)

(2)

o Statistique Canada,N 12001 aucatalogue

120

ArdillyetLeBlanc:chantillonnageetpondrationduneenquteauprsdepersonnessansdomicile

Par exemple, y peut tre la nationalit de lindividu, lgeauquelilaterminsestudes,oulenombredecentres quilafrquentslejourdelentretien. Nousseronsparlasuiteamensdistinguerdeuxtypes devariables : lesvariablesfixesaucoursdelapriodederfrence delenqute(parexemple,lgedefindtudes). les variables qui varient au cours de la priode de rfrence de lenqute ( yk = yk( j )). Le nombre de centres frquents le jour de lenqute appartient cettecatgorie. Noustraitonsdabordlecasdesvariablesfixesaucours delapriodederfrencedelenqute.Lasection6aborde brivement le cas des variables qui varient au cours du temps.

notretotaldintrt)commeletotalduneautrevariablesur la population des prestations (qui sont les units chantil lonnes), lestimation de ce dernier ne posant aucune difficult particulire. Pour obtenir ce rsultat, on peut recourirunraisonnementdirect,ouappliquerlamthode du partage des poids, lun oulautre pouvantsembler plus naturel. Enraisonnantdirectement,nousdfinissonslapplication K , qui toute prestation i servie durant la priode de rfrence J dans lensemble des centres du champ de lenqute,associelindividubnficiairedecetteprestation. K: {prestations} {individus}. i K (i ) La population dintrt P( J) est limage par K de ( J ), lensembledesprestationsserviesdurantlapriode de rfrence dans lensemble des centres du champ de lenqute. Pour tout k P ( J ), on dfinit rk( J )= card ( K -1(k )), lenombredeprestationsservieslindividu k durant la priode J dans lensemble des centres du champ de lenqute, que nous appellerons aussi nombre deliens . Onalgalitfondamentale : y K ( i) YJ = y . (3) k = k P ( J ) i ( J) rK ( i)( J ) En effet, la variable y prenant la mme valeur pour toutes les prestations i pointant sur lindividu k, cestdire telles que K (i) =k , le membre de droite peut scrire

4. Estimationduntotaloudun ratio dans le casolavariable dintrtestconstante surla priodedenqute


Pour la commodit de lexpos, nous ne faisons pas apparatreexplicitementtouslesdegrsdetirage.Nousnous plaons au niveau dune agglomration chantillonne au premierdegrdutirage. Onnote: ensembledescentresdelagglomrationouverts C: au moins un jour de la priode denqute, reprsparlindice c. : ensemble des prestations servies dans le centre c, j, t c le jour j pendant lintervalle de temps t, represparlindice i . : ensemble des prestations servies dans j, t lagglomrationlejour j pendantlintervallede temps t. Pc, j, t: lensemble des personnes se prsentant dans le centre c lejour j pendantlintervalledetemps t, represparlindice k . Pj, t: lensemble des personnes se prsentant dans un descentresdelagglomrationlejour j pendant lintervalledetemps t. Deladfinition desintervalles detemps, ilressortqu chaque individu k Pj, t, correspond une et une seule prestation i . Ainsi,ilexisteunecorrespondancebiunivoque entre Pj, t et j, t . Ditautrement,pourtoutcouple ( j , t), les Pc, j, t sont disjointes. En revanche, Pc, j, t et Pc*, j*, t* peuvent avoir une intersectionnonvide,dsque t t *. Lapopulationdintrtscritalors
P( J ) =

k P ( J )

yk y k = 1 . i ( J ) K (i ) = k rk ( J ) kP ( J) rk( J ) i ( J ) K (i )= k

Mais la quantit entre crochets est le nombre de prestationsservieslindividu k durantlapriode J , soit rk( J), cequiprouvelgalit. Onpeutalorsvoir y K ( i) commeattachlaprestation i correspondanteetnoter y i aulieude y K ( i ), et ri( J) aulieu de rK (i)( J). En notant zi = yi / ri( J ), Z = i ( J) zi, on a Z =YJ. Laformule(3)nestautrequecelledupartagedespoids. Leraisonnementcidessusestdailleursceluiquisoustend cette mthode. (Seules les notations changent la mthode du partage des poids dcrit les liens entre la population chantillonne et la population dintrt par une matrice pluttquuneapplication,unemmeunitdelapopulation chantillonne pouvant pointer vers plusieurs units de la population dintrt). Le principe de cette dernire est rappelenannexe1. 4.1 Estimationduntotal Supposonsmaintenantquelondisposedunchantillon s de prestations, auquel est associ un jeu de poids ( wi ) is . Noussupposonscespoidssansbiais(ilsagitde linverse des probabilits dinclusion des prestations dans

U
c, j, t

Pc,

j, t

= U CPc, cC

j, t .

Le pointcentral duraisonnement consisteexprimerle totaldunevariablesurlapopulationdesindividus(quiest


o Statistique Canada,N 12001 aucatalogue

Techniquesdenqute,juin2001

121 Celasupposebiensrquelesinformations donnes par lammepersonneenqutedeuxendroits/joursdiffrents soientlesmmes,cequiestloindtreacquis. En revanche, le reprage des individus peut savrer importantpourlimiterlanonrponse(voirsection7).

lchantillon). s dfinit implicitement un chantillon dindividus s P, prcisment lensemble des individus destinatairesdesprestationschantillonnes.Laformuledu partage despoids(voirannexe1)assurequelestimateur
J = yk w Y %k
s P

estsansbiais,olonapospourtout k sP :
w %k = 1 . w i rk( J ) s K (i )= k

Prestations Hbergement

Individus

(4)

La formule (4) nonce simplement que le poids dun individu estgallasomme des poids des prestationsqui ontservi lattraper ,diviseparlenombredeliensavec la base de sondage, rk( J). On peut donc travailler directement sur les individus chantillonns : pour chaque individu k, oncalcule lepoids w %k, etonestimeletotal Y J par Y . J La figure 1 donne un exemple fictif dchantillonnage. Luniversdesprestationscontient13prestations,atteignant 8 personnes. 6 prestations sont chantillonnes. Lchan tillondindividuscontient5personnes,lindividunumro2 ayantt attrap pardeuxprestationsdiffrentes.Selon laformule(4),lespoidsdesindividuschantillonnsseront gaux :
w %1 = w1, w %2 = 1 1 ( w2 + w8 ), w % 3 = w10 , w % 6 = w7 , w %7 = w9. 2 3

Repasdusoir

Repasdumidi

Si les prestations ont toutes le mme poids gal 13/6 (par exemple si les prestations ont t tires par sondage alatoire simple), le nombre de personnes ayant frquent lesservicespendantladuredelenquteestestimpar
13 1 1 169 Y ; 9.39. %k = 1 + .2 + 1 + 1 + = J = w 6 2 3 18 s P

Danslecasprsentolavariabletudienevariepasau coursdelapriodedenqute,ilestindiffrentpourlebiais de lestimateur didentifier les personnes frquentant les prestations.Considronseneffetunindividu attrap par deux prestations diffrentes de poids w1 et w2 . Deux cas peuventseproduireenpratique : onreprequelindividuestlemmelapondration associecetindividuseragale ( w1 +w2 ) / rk ( J), et le terme correspondant lindividu dans lesti mateurseragal yk ( w1 +w2 ) / rk ( J). on nerepre pasquelindividua djtinterrog on comptera deux individus diffrents les pond rations associes ces individus seront gales w1 /rk( J) et w2 / rk( J), etletermecorrespondantces deuxpseudoindividusdanslestimateurseraencore gal yk ( w1 +w2 ) / rk ( J).

Figure1.Lesflchesreprsententlesliensentrelesprestationsetles individus.Lesprestationsdontlidentifiantestengrissont chantillonnes.Ellesrenvoientauxindividusengris.Les traitsenpointillreprsententlesliensdclarsparlindivi du7quinontpasservilchantillonner.

4.2 Estimationdunratio On suppose maintenant que lon sintresse lestimationdelamoyenne YJ (voirlaformule2). YJ peut treestimparlestimateurde Hjek,
J = Y Y J NJ J = ks w o N % . P k

4.3 Calculdevariance La variance des estimateurs prsents cidessus se calcule classiquementcondition deraisonner partir des
o Statistique Canada,N 12001 aucatalogue

122

ArdillyetLeBlanc:chantillonnageetpondrationduneenquteauprsdepersonnessansdomicile

prestations. Le calcul demeure complexe puisquil sagit dun plan plusieurs degrs probabilits ingales. Il est videmmentindispensable,pournepassousestimerlavraie variance,deconservertouteslesprestationsdanslescaso plusieurs prestations chantillonnes renvoient au mme individu. 4.4 Comparaisonavecdautresmthodes destimation Ayant introduit des estimateurs de type partage des poids ,il convient desinterrogersur une mthode desti mation alternative, o lon tenterait destimer directement lesprobabilitsdeslectiondesindividusdanslchantillon. (Lestimateur du partage des poids nest pas lestimateur classique de HorvitzThompson : en effet, les poids de cet estimateurdpendentclairementdelchantilloncompletde prestations(voirlaformule4).Cettemthodepeuteneffet semblerplusnaturelle.Deuxremarquessimposent : pour obtenir les probabilits de slection des indivi dus physiques,il nest pasraisonnablement possible de procder autrement que par lintermdiaire des prestationsquirenvoientlindividu,partirdinfor mationsfourniesparcedernierquantsafrquenta tiondesdiffrentscentres.Aveclesnotationsprc dentes,nousavons : Prob ( k sP) = Prob i . U i ( J ) K ( i ) = k La formule de Poincar permet dexprimer cette proba bilitpartirdesprobabilitsdinclusionssimples,doubles, triples, etc, des prestations. Mises part les probabilits dinclusion simples, ces probabilits sont complexes car issuesdetiragesprobabilitsingalesetsansremise.Ilne fautdoncpasesprerobteniruneexpressioncalculablepour Prob ( k sP). Par contraste, la mthode du partage des poidsesttrssimplemettreenoeuvre. de manire plus structurelle, un problme vient du fait que les probabilits de slection des prestations nonchantillonnesnesontpasconnuesa priori,du fait du tirage plusieurs degrs. Aux degrs infrieurs, les probabilits de tirage dpendent du tirageprcdent.Dansnotrecas,onneconnatpasla frquentation des centres qui ne sont pas enquts. Pourobtenirlaprobabilitdeslectiondunindividu, ilfautconnatrelesprobabilitsdinclusiondetoutes les prestations dontilabnfici.Parcontraste, une desforcesdelamthodedupartagedespoidsestde ne faire dpendre les poids des units atteintes indirectement (ici les individus) que des poids des units chantillonnes directement (les prestations). Cet avantage de la mthode est mentionn dans Lavalle(1995).

5. Problmesdestimationet solutionspratiques dansla casdunevariableconstante


Dans les formules prsentes prcdemment, la connaissance des liens des personnes avec lunivers des prestations est indispensable. Or, ces quantits ne sont pas connues,pourplusieursraisons : uneraisonthorique :parcequelacollecteesttale dansletemps, etquunindividuinterrogendbutde priode ne peut pas prvoir les services quil va frquenter aprs la date dentretien (Notons que la collectedoitncessairementtretaledansletemps, sil'onviseunebonnecouverturelapopulationcible unecollectesynchrone,mmesielletaittechnique ment ralisable, nattendrait pas lensemble de la populationcible mais seulement les personnes qui frquententlesservicescettedate.), des raisons pratiques : parce que la mmoire des personnesinterrogesfaitdfautaudeldequelques jours,etparcequeladtectionparlenquteuroule concepteurdenqutedeprestationsserviesdansdes centres nappartenant pas la base de sondage savretrsdifficile. En pratique, il est donc impossibledestimer sans biais untotaldintrtsurlapriodedelenqute(unmois)sans fairedeshypothses a priori (voirlasection5.3). 5.1 Estimationunjourmoyen ,unesemaine moyenne Onestdoncamensintresserdesquantitsquifont intervenir les liens sur une priode courte, par exemple le jour ou la semaine. La population des personnes qui frquentent les services du champ de lenqute un jour j donn est PJ = U . Introduisons les quantits c, t P c, j, t suivantesrelativesaujour j: Q j = y k
k P j

Nj =

1 = card ( Pj).
k P j

Si t =card( J ) estle nombre de jours de la priode de rfrence de lenqute, nous dfinissons les paramtres dintrtsuivants : le total de y sur la population des personnes qui frquentent les services du champ de lenqute un jour moyen ,danslesenssuivant : 1 t Q = Q j. (5) t j =1 Un cas particulier est le nombre de personnes qui frquentent les services du champ de lenqute un jour moyen , N = 1/ t tj=1N j.

o Statistique Canada,N 12001 aucatalogue

Techniquesdenqute,juin2001

123 5.2.1 Estimationunjourmoyen Pourpartagerlespoids,ilfautestimerlesliensrelatifsau jour delenqutelecasle plus problmatiqueestcelui de personnes enqutes le midi dans un lieu de restauration pour ces personnes, les centres frquents le soir mme (repaset/ouhbergement)nesontpasconnus.Uneoption, non retenue par les concepteurs de lenqute de lINSEE, consiste inclure dans le questionnaire des questions du type Oallezvous dner(resp. dormir)cesoir? .Dans cecas,lesrponsespeuventtreutilisespourimputerdes liens.Laquestionestbienentendudesavoirsilesrponses cesquestionsrefltentles vraisliens, etdautre partsila nonrponsecettequestion neserapastropleve.Dun point de vue plus statistique, on peut utiliser (en faisant lhypothse dune certaine rgularit des comportements) desinformationsportantsurlemmeintervalledetempsle jourprcdentlenqute.Leslienscorrespondantssontsans doute des approximations convenables des vrais liens. Le problme pratiqueconcerne lventuelle diffrentiation des joursdelasemaineenmatiredefrquentationdescentres : parexemple, certains centresnesontpas ouvertsenfinde semaine,dautresnouvrentquecertainsjoursprcis. 5.2.2 Estimationunesemainemoyenne Pourpartagerlespoids,ongardetouslesliensrelatifs la semaine. La premire option dcrite en 5.2.1 est videmment proscrire. Pour les estimations une semaine donne, on peut prendre comme approximation pour les servicesfrquentsunjour j postrieurladatedentretien les services frquents par lindividu le jour ( j -7). Cela est cohrent si lon suppose quil existe une certaine saisonnalit des services frquents selon le jour de la semaine. Cela revient remplacer dans les estimateurs la semaine civile de rfrence par une semaine glissante, cestdire les sept derniers jours compter de la date dinterview.Cestloptionquiatprisepourlenqute,le questionnaire tant prvu pour rcolter les liens sur les 7 joursprcdantlentretien. 5.3 Estimationsurlensembledelapriode denqute Estimer des totaux et des moyennes portant sur la population P ( J) peutapparatrecommeundesobjectifsde lenqute. Cette estimation fait intervenir les liens des individus chantillonns avec les prestations du champ de lenqutependantlensembledelapriodedecollecte,qui ne sont pas connus. Il est donc ncessaire de modliser lvolution des liens audel dune semaine, ou, ce qui revientaumme,demodliserlecomportementdepassage desindividusdanslescentres. La solution adopter nest pas simple. Par exemple, lhypothsequipeutvenirlesprit,savoirposer "k, rk ( J ) = A . rk( S ) (7) o A estle nombre desemaines de lenquteet rk( S) le nombre de liens de lindividu k avec les prestations du
o Statistique Canada,N 12001 aucatalogue

Demanireidentique,lamoyennede ysurlapopulation des personnes qui frquentent les services du champ de lenquteunjour moyen estdfiniecomme :
t

y=

Q = N

Q j
j=1 t j=1

(6)

N j

La dfinition des totaux ou moyennes une semaine donneouune semainemoyenne suitlemmeprincipe. Pour estimer ces paramtres, il suffit dadapter les formules de la section prcdente, en constatant que les rk( J) doiventtreremplacsparlenombredeprestations du champ de lenqute dont la personne chantillonne a bnficilejour(resp.lasemaine)denqute. Notons sj lchantillondespersonnesinterrogeslejour j, rk( j ) le nombre de prestations delunivers reues par lindividu k lejour j uniquement,et sk( j) lesprestations chantillonneslejour j quirenvoientlindividu k. j = yk w Q j seraestimpar Q % k,
ksj

o w %k =

1 . w i rk( j )isk ( j)

Ici,les poids desindividus dpendent du jour j . (Mais pas les poids des prestations, wi , qui sont fixs une fois pour toutes (en labsence de nonrponse, il sagit de linversedesprobabilitsdeslectiondesprestations)).Pour se convaincre de la diffrence entre Q et YJ , lanalogie suivanteestcommode :onconsidreunguichetochaque personne qui arrive doit remplir un dossier. Le cas de YJ correspondunfonctionnementounepersonneremplitun dossier la premire fois o elle se prsente au guichet, et nenremplitpluslesfoissuivanteslecasdu jourmoyen correspond un fonctionnement o toute personne se prsentantdoitremplirundossier,quellesoitdjvenueun jourprcdentoupas.Auboutdunesemaineparexemple, lanalyse des caractristiques des personnes ayant rempli des dossiersseratrsdiffrente dansles deuxcas :dansle deuximecas, lespersonnesquiviennentsouventauguichet seront surreprsentes par rapport au premier cas. Il est possible de formaliser cette approche. Nous renvoyons le lecteurintressArdillyetLeBlanc(1999). 5.2 Estimationpratiquedesliensaveclabasede sondage Mmesilonserestreintestimerdesquantitsdetype semaine moyenne ou jour moyen , il nest pas en gnral possible de connatre les liens avec la base de sondageunjourdonn(eta fortioriunesemainedonneou surtoutelapriodedelenqute).

124

ArdillyetLeBlanc:chantillonnageetpondrationduneenquteauprsdepersonnessansdomicile

champdelenqutependantunesemaine S , conduitdes estimateurs sur lensemble de la priode identiques aux estimateurs sur une semaine moyenne. En effet, un esti mateur semainemoyenne pondrelindividu k par

isk ( J)

w i A . rk ( Si)

o S i estlasemainedurantlaquellelaprestation i luiest servie, et sk( J) est lchantillon de prestations qui renvoient lindividu k, alors quun estimateur thorique ensembledelapriode pondrelindividu k par

isk ( J)

w i . rk( J )

compter les prestations) sont hors champ de len qute. (Leur dnombrement poserait des problmes considrablesdemiseenoeuvresurleterrain). Une autre source de biais peut provenir du dlicat comptagedunombretotaldeprestationsserviesdans les centres lors de lenqute, ces nombres servant calculer la probabilit pour une prestation dtre chantillonne. Pour des raisons budgtaires, une seulepersonneassurelecomptagedesprestationset lchantillonnage,cequipeutposerdesproblmesde rigueurdchantillonnageencasdesituationconfuse surleterrain. Au niveau des concepts, il demeure une difficult puisquelenqutedoitsedroulersurunmoisetque lapopulationciblevolueaucoursdelapriode. Lestimationdelatailledelapopulationestdoncparticu lirementfragile.Pourcetteraison, on peutsattendrece que les erreurs commises soient plus importantes pour les totauxquepourlesmoyennes.

Larelation7estdonc une conditionsuffisante dgalit decesestimateurs.Cetteconditionestnotammentsatisfaite sipourtout j ettout k


rk ( J ) =card (J ) . rk( j )

(8)

cestdiresilenombredeliensjournaliersnedpendpas de j . Cette hypothse est certainement trop forte. Pour aller plusloinsurcepoint,ilfautsansdouteexploiterlesinfor mationsfournies parlenquteellemmesurlecomporte mentdesindividusenmatiredefrquentationdescentres. Lechiffreleplusdemanddelenqute,danslecontexte franais, sera sans doute une estimation de la taille de la population sansdomicile ,soituneestimationdelataille de P ( J). Audeldesquestionsdecomptagedesliensdj abondamment voques, cette estimation se heurte plusieurs insuffisances de la base de sondage ainsi quau caractreindirectdelchantillonnage. Le risque doublier certaines structures lors du dnombrement des centres est important. Mme si linventaireest exhaustif,le dcalage temporel entre cet inventaire et lenqute proprement parler rend probable lapparition de nouvelles structures non recensesdanslabasedesondage.Celapeutgnrer unbiaisdanslamesureocertainsdesindividusqui frquenteraient ces structures ne frquenteraient par ailleurs aucun service de la base de sondage (On pourrait galement s'attendre un refus de coopra tion de la part des responsables de certains centres : pourlenquteINSEE,lerefus desinstitutionsat pratiquementinexistant(moinsde1 %derefus).Cela est d en grande partie un important travail de sensibilisation au moment du recensement des centres et juste avant lenqute). Par ailleurs, lab sence debiais estconditionneparun calcul correct desliens,lespassagesdansdescentresnonrecenss nedevantpastrecomptabilissdanscesliens. Lesindividusquifrquenteraientdescentresunique ment en dehors des heures classiques (concrte ment, celles o on se sera donn les moyens de
o Statistique Canada,N 12001 aucatalogue

6. Estimationdanslecasdevariables dintrtnonconstantes aucours delapriodedenqute


Certainesvariablesdintrtdelenqutedpendentdela datedobservation,etnesontdoncpasconstantesaucours de la priode denqute. Ce peut tre le cas de rponses des questions portant sur la journe prcdant linterview, par exemple Combien de repas avezvous pris hier ? , Combiendefoisavezvousdormidanslaruelasemaine dernire? ,etc.Lesquestionssurleslienssontgalement dans ce cas de figure. Il est donc important de voir dans quellemesureonpeutadapterleformalismeprcdentdes estimations portant sur ce type de variables. Soit donc y unetellevariabledintrt. Si nousrevenonslexpression(3),ilestfacile de voir quelaconstancedes y k aucoursdelapriodedenquteest la condition qui permet de factoriser y k et de faire apparatrelesliens rk( J). Onendduitque letypedecalcul men cidessus est toujours valable pour des estimations portant sur des priodes plus courtes que la priode sur laquelleles y k sontconstants. Ainsi, pour des variables constantes sur un jour, on pourra parfaitement utiliser des estimateurs un jour moyen . Pour des variables constantes sur la semaine, on pourra utiliser desestimateurs unjour moyen ou une semainemoyenne .

7. Correctiondelanonrponse totale
Pourdcrirecompltementlopration,ilresteprciser comment passer dun jeu de probabilits dinclusion (et donc de poids initiaux des prestations incluses dans

Techniquesdenqute,juin2001

125

lchantillon) un jeu de poids sur les prestations rpondantes. En effet, certaines personnes vont accepter lentretien,dautresnon.Onparleradanslepremiercasde prestation rpondante, dans le deuxime de prestation non rpondante. Les mthodes habituelles de correction de la nonrponse totale peuvent tre mises en oeuvre. Nous suggrons une correction de la nonrponse par sous groupes homognes (pour une description de la mthode, voirparexempleChambazetLegendre1999). Concrtement,ladifficultmajeuretientaufaitquilny apas debase desondage dindividus, et donc pas dinfor mation a priori sur les nonrpondants. Dans un monde probablement trs htrogne, cest un handicap consid rable. On modlise donc le comportement de rponse des prestations. On sait depuis les enqutes exprimentales de lINED(InstitutNationaldesEtudesDmographiques)que la nonrponse varie fortement selon le type de centre (FirdionetMarpsat1997).Dautresvariablesdelabasede sondage peuvent tre utilises pour constituer des groupes homognes (jour de la semaine, priode du jour, groupes dagglomrations,...). Unerepondrationdesprestationsrpondantesconduit despoidspourlesprestationsrpondantesdutype wi = 1/ di p i, o p estlaprobabilitdinclusiondelaprestation i dans i lchantillon d i estlaprobabilitestime a posteriori quelaprestation i donnelieurponse. On obtient ainsi un jeu de poids pour les prestations rpondantes. En fait, certaines nonrponses viennent du fait quun mme individu est chantillonn plusieurs fois : on peut penserquunindividuchantillonndeuxfoisrpondelors du premier tirage, mais pas lors du second. (La frquence doccurrence de cet vnement ntait pas connue au moment de la rdaction de cet article). Le second tirage gnrealorsune faussenonrponse .Sicellecinestpas dtecte,laprocduredecorrectiondelanonrponsetotale amnerepondrertort,alorsquelavraievaleurpeuttre rcupre dans un questionnaire dj rempli. Pour viter cela,lenquteurchercheconnatrelemotifdesrefusetil doit cocher une case spcifique lorsque lindividu dclare avoir dj t interrog. Dans ce cas, il collecte quelques informations, dont le prnom et la date de naissance, qui doiventservirreliercequestionnaireavecunquestionnaire djrempli.(Lidalserait de disposerdunidentifiant des rpondants. Les impratifs de confidentialit et la prise en compte de laccueil dune telle mesure par les personnes interroges ont conduit ne pas retenir cette ide). Sur le terraincependant,ilestdifficiledobtenirlemotifdurefus. Mmesionendispose,desdifficultspeuventsubsister.(Il estdifficiledevrifierquunindividuquidclareavoirdj tinterroglaeffectivementdjt.Mmesilindividu estdebonnefois,ilpeutavoirtinterrogquelquesjours auparavant pour une toute autre enqute que lenqute de lINSEE).

8. Conclusion
Danscetarticle,nousmontronscommentlamthodedu partagedespoidspeuttreutilisepourpondrerlenqute mene par lINSEE pour mieux connatre les personnes sansdomicile. La mthode prsente un grand nombre davantages. Elle permet de travailler sur un fichier d'individus,cestdiresurlesunitsstatistiquesnaturelles utilisesdansladfinitiondesparamtresdintrt.Simple mettre en oeuvre, elle permet en outre de passer aisment dunepriodederfrenceuneautre(estimation unjour moyen , unesemainemoyenne ).Lesoprations enaval de lenqute comme la correction de la nonrponse et le calcul de variance peuvent tre ralises dans un cadre classique,carellessefontsurlesunitschantillonnes(les prestations), dont on matrise les probabilits de tirage, et non sur les individus, dont les probabilits de tirage sont inconnues. Nous montrons quun critre crucial de qualit dune telle enqute est le recueil fidle des donnes de frquentation des services par les personnes interroges. Sans ces donnes, il nest pas possible de pondrer lenqute. La mthode du partage des poids parait un bon compromispouruneenqutedontlebutnestpasseulement dednombrerunepopulation,maisdemieuxlaconnatreen passant un questionnaire. Pour une enqute visant princi palementundnombrementdespersonnessansdomicile, des mthodologies alternatives pourraient tre envisages. La premire tourne autour des techniques de capture recapture, utilises pour connatre les effectifs de popula tionsanimales(cesujet,voirparexemplePollock,Turner etBrown1994).Cestechniquesnesontpasaisesmettre en oeuvre dans une population souvent rticente toute tentative didentification, perue ngativement. Une autre techniqueestcelledelchantillonnage bouledeneige , qui consiste aller chercher les individus dintrt par lintermdiaire dindividus dj chantillonnes (Franck et Snijders 1994). Elle sappuie sur un systme de connais sancesmutuellesdespersonnesvraisemblablementillusoire dans ce milieu. Ces mthodes se heurtent toujours la questiondurepragedesindividus.Dansnotrecas,lesseuls lieuxolonpeuttrouverlespersonnesavecuneprobabilit suffisamment importante sont les centres : passer par lintermdiairedescentresestincontournable.

Remerciements
Lesauteursremercientlerdacteurdelarevueainsique deuxrapporteursanonymes,dontlesremarquesontpermis damliorerlefondetlaformedelarticle.Leserreursqui demeureraientnoussontentirementimputables.

o Statistique Canada,N 12001 aucatalogue

126

ArdillyetLeBlanc:chantillonnageetpondrationduneenquteauprsdepersonnessansdomicile

Annexe1 : Lamthodedupartagedes poids appliqueauproblme


Cette annexe rappelle brivement le principe de la mthodedupartagedespoids.Pourunexpospluscomplet, le lecteur pourra consulter Lavalle (1995), ou Deville (1999)dontnousreprenonslesnotations. 1. On dispose dune population U de n units, et dunepopulation V de m units.Ici,lesunitsde U sontlesprestationsdanslechampdelenqute. Lesunitsde V sontlespersonnesayantbnfici dau moins une prestation pendant la priode de lenqute (autrement dit dans le cas prsent V =P( J ) aveclesnotationsprcdentes). On suppose quil existe des liens entre les units des deux populations. Ces liens peuvent scrire souslaformedunematrice ( rik) 1 i n ,
1 k m

= s wi zi. Letotal Z =Y estestimpar Z U Et donc, si les poids sont sans biais (cestdire, estsansbiais), Y estimesans tablisdemanireque Z biais Y. = s wi kV rik yk / rk =Y Onpeutrcrire Z . U Ladeuximesommeneportequesur sV pardfinition, = s yk ( s wi rik / rk)= s yk w et donc Y %k, o lon a V U V pospourtout k sV : 1 w %k = wi r ik. rk s U

2.

On peut donc travailler directement sur les individus chantillonns. Dans notre cas, rk est le nombre de liens, cestdirelenombredeservicesfrquentsparlapersonne interroge pendant la priode de rfrence de lenqute. Cest la quantit qui est note rk( J) dans les sections prcdentes, cette dpendance en J tant destine rappeler que les liens intervenant dans les poids peuvent varierselonletypedestimateur( jourmoyen , semaine moyenne ) que lon considre. Ce nombre se dduit des donnesdefrquentationcollecteslenqute.

o rik =1 silunit k de V estrelielunit i de U , rik =0 sinon. Ici, les liens relient les prestations aux personnes ayant frquent ces prestations : rik =1 silapersonne k afrquentla prestation i de U , rik =0 sinon. 3. Touteslesunitsde U ontaumoinsunlienavec une unit de V . Cela est videmment ralis ici, par dfinition de la population V . De plus, ici, chaque unit de la population U pointe sur une unitetuneseulede V .

Annexe2 : Tableaurcapitulatifdesnotations
J

t P( J)

Danslecasgnral,onsintresseautotaldunevariable dintrt y sur V , Y = yk.


k V

NJ C
c,
j, t

Si par exemple on prend y 1, le total dintrt est le nombredepersonnesayantfrquentunserviceduchamp delenqutependantlemoisdelenqute. Onnote rk = rik.
iU

j, t

Lidentit Y = iU kV ( rik / rk )yk permet de dfinir pourtout i U lavariable zi = kV (rik / rk )yk etona : Z = zi = yk = Y.
iU k V

Pc,

j, t

Pj, t

Supposonsmaintenantquelondisposedunchantillon sU issu de la population U , auquel est associ un jeu de poids ( wi ) isU . Cet chantillon dfinit implicitement un chantillondans V , sV , prcisment sV = {k V $ i sU , rik =1}. Onsupposequelonacollectles rik pourtous k sV, cestdire que tous les liens des individus avec lunivers U sontconnus(cepointestfondamental).
o Statistique Canada,N 12001 aucatalogue

Pj y YJ YJ

ensembledesjoursdelapriodederfrencede lenqute =card ( J ), nombre de jours de la priode de rfrence populationdintrt,ensembledespersonnesqui ontfrquentaumoinsuneprestationduchamp delenqutependantlapriodederfrence = card ( P( J )), effectifdelapopulationdintrt ensembledescentresdelagglomration,reprs parlindice c ensemble des prestations servies dans le centre c le jour j pendant lintervalle de temps t, represparlindice i ensembledesprestationsserviesdanslagglom rationlejour j pendantlintervalledetemps t ensemble des personnes se prsentant dans le centre c lejour j pendantlintervalledetemps t, represparlindice k ensemble des personnes se prsentant dans un descentresdelagglomrationlejour j pendant lintervalledetemps t ensemble des personnes qui frquentent les servicesduchampdelenquteunjour j variabledintrt total de la variable y dans la population de rfrence moyennede y danslapopulationderfrence

Techniquesdenqute,juin2001

127

( J ) ensemble des prestations servies durant la p

Bibliographie
Ardilly, P., et Le Blanc, D. (1999). Enqute auprs des personnes sansdomicile : lments techniques sur lchantillonnage et le calcul de pondrations individuelles, une application de la mthode du partage des poids. Document de travail, INSEE, F9903. Chambaz,C., etLegendre,N. (1999).Calculdespondrationsdansle paneleuropendemnages.Actesdes journesdemthodologie statistique,INSEEMthodes,8486. Deville,J.C.(1999).Lesenqutesparpanel : Enquoidiffrentelles desautresenqutes?suivide :Commentattraperunepopulation en se servant dune autre. Actes des journes de mthodologie statistique, INSEEMthodes,8486. Firdion, J. M., et Marpsat, M. (1997). Comptes rendus du groupe pondrations delenquteauprsdespersonnessansdomicile, mimeo. Franck, O., et Snijders, T. (1994). Estimating the size of hidden populations using snowball sampling. Journal of Official Statistics,10,5367. Lavalle, P. (1995). Pondration transversale des enqutes longitudinales menes auprs des individus et des mnages laidedelamthodedupartagedespoids.Techniquesdenqute, 21,2735. Pollock, K.H., Turner, S.C. et Brown, C.A. (1994). Techniques de saisieressaisiepourlestimationdelatailledelapopulationetde totaux de population lorsquon ne dispose pas dune base de sondagecomplte. Techniquesdenqute,20,121128. RTI (1993). Prevalence of Drug Use in the Washington DC Metropolitan Area, Homeless and Transient Population : 1991. Technicalreport,2.

riode de rfrence dans lensemble des centres duchampdelenqute


rk( J) nombre de prestations servies lindividu k durantlapriode J danslensembledescentres duchampdelenqute,ounombredeliens s wi s P w %k Qj Nj Q N y rk( j ) sj

chantillondeprestations poidsassocislchantillondeprestations chantillon dindividus, ensemble des individus destinatairesdesprestationschantillonnes poidsassocislchantillondindividus totalde y sur P j
= card ( Pj)

totalde y unjourmoyen nombredepersonnesunjourmoyen Q = , moyennede y unjourmoyen N nombredeprestationsreuesparlindividu k le jour j uniquement

chantillondespersonnesinterrogeslejour j sk( j ) ensemble des prestationschantillonneslejour j quirenvoientlindividu k sk( J) ensemble des prestations chantillonnes pen dantlapriode J quirenvoientlindividu k

o Statistique Canada,N 12001 aucatalogue