Vous êtes sur la page 1sur 198

Mthodes de sondage

Echantillonnage et Redressement
Guillaume Chauvet
cole Nationale de la Statistique et de lAnalyse de lInformation

27 avril 2015

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

1 / 198

Panorama du cours

Echantillonnage en population finie

Mthodes dchantillonnage

Mthodes de redressement

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

2 / 198

Objectifs du cours

Prsenter les mthodes dinfrence dans le cas dune population finie


dindividus.
Donner les principales mthodes dchantillonnage utilises dans les enqutes.
Dcrire les mthodes de redressement qui permettent dutiliser une information auxiliaire au moment de lestimation.
Donner des exemples pratiques.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

3 / 198

Echantillonnage en population finie

Echantillonnage en population finie

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

4 / 198

Echantillonnage en population finie

Notations

Notations

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

5 / 198

Echantillonnage en population finie

Notations

Notations
On se place dans le cadre dune population finie U dindividus ou units
statistiques, supposes identifiables par un label. On notera simplement
U = {1, . . . , k, . . . , N }
o N dsigne la taille de la population U .
On sintresse une variable dintrt y (ventuellement vectorielle), qui
prend la valeur yk sur lindividu k de U . La variable y est vue ici comme non
alatoire : la population U tant fixe, la valeur prise par y sur chaque
individu est parfaitement dfinie et dterministe.
On souhaite disposer dindicateurs pour la population U (totaux, moyennes,
fractiles, indices, ...).
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

6 / 198

Echantillonnage en population finie

Notations

Notations

Essentiellement pour des considrations pratiques, la variable dintrt nest


pas observe sur lensemble de la population :
effectuer un recensement cote cher, et suppose de disposer dune base
de sondage donnant la liste de lensemble des individus de la population,
mme dans le cas dun recensement traditionnel, lensemble des donnes
recueillies est rarement exploit,
augmenter la taille dun questionnaire augmente le fardeau de rponse,
et diminue les taux de rponse,
de faon gnrale, la non-rponse diminue la taille de lchantillon effectivement observ.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

8 / 198

Echantillonnage en population finie

Notations

Exemples
Exemple 1 : Les enqutes-mnages de lInsee visent dcrire les conditions de vie des mnages (emploi, logement, patrimoine, ... ). Les mnages
enquts sont slectionns dans un chantillon de zones appel lEchantillonMatre.
Exemple 2 : Les enqutes-entreprises sont ralises laide dune base de
sondage (rpertoire SIRENE) et de sources externes.
Exemple 3 : Enqute auprs dun chantillon de personnes pour connatre
une opinion politique, les habitudes en termes de media, lavis sur un produit ... On utilise souvent dans ce cas des mthodes de tirage empiriques
(chantillonnage par quotas, chantillonnage de volontaires).

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

9 / 198

Echantillonnage en population finie

Notations

Paramtre dintrt

On sintresse un paramtre dintrt de la forme


(yk , k U ) .
Un estimateur de ce paramtre sera de la forme
k , k S) (S)

(y

,
o S dsigne lchantillon alatoire finalement observ.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

10 / 198

Echantillonnage en population finie

Notations

Paramtre dintrt
Total et moyenne

On peut sintresser au total


ty =

yk

kU

dune variable quantitative sur la population, ou encore sa valeur moyenne


y =

1 X
yk .
N
kU

Exemple :
Chiffre daffaires total des entreprises dun secteur dactivit, pourcentage
dtudiants fumeurs, ...

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

11 / 198

Echantillonnage en population finie

Notations

Paramtre dintrt
Estimation sur domaine

Un cas particulier important est celui de lestimation sur une sous-population


Ud (appele domaine) dun total
X
tyd =
yk
kUd

ou dune moyenne
yd =

1 X
yk
Nd
kUd

avec Nd la taille du domaine.


Il peut sagir dun domaine au sens gographique (habitants dune rgion),
socio-dmographique (individus de moins de 20 ans), temporel (individus
prsents une date donne), ...
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

12 / 198

Ud

Echantillonnage en population finie

Notations

Paramtre dintrt
Estimation par substitution

Savoir estimer un total permet de traiter le cas de trs nombreux paramtres


qui peuvent sexprimer comme des fonctions de totaux. Cest le cas dun
ratio, dun coefficient de corrlation, dune variance, dun coefficient de rgression, ...
Ces paramtres sont estims par substitution, en remplaant chaque total
inconnu par son estimateur.
Exemple 1 :
R=

Guillaume Chauvet (ENSAI)

ty
tx

estim par

Echantillonnage

= ty .
R
tx

27 avril 2015

14 / 198

Echantillonnage en population finie

Notations

Paramtre dintrt
Estimation par substitution

Exemple 2 :
OR =

pA
1pA
pB
1pB

estim par

d=
OR

pA
1
pA
pB
1
pB

Il est galement possible destimer des paramtres plus complexes tels que
des fractiles (mdianes), ou des indices (Gini, utilis comme indicateur dingalit).

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

15 / 198

Echantillonnage en population finie

Notations

Plan de sondage
La slection de lchantillon alatoire S se fait laide dun plan de sondage
p sur U , cest dire laide dune loi de probabilit sur les parties de U :
X
s U p(s) 0 et
p(s) = 1.
sU

On note S lchantillon alatoire, et on distinguera


k , k S) (S),

lestimateur (y
k , k s) (s).

lestimation (y
On appelle algorithme dchantillonnage une mthode pratique permettant
de slectionner un chantillon selon le plan de sondage choisi.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

16 / 198

Echantillonnage en population finie

Notations

Exemple
Soit la population U = {1, 2, 3, 4}, et p() le plan de sondage dfini par :
p({1, 2})
= 0.2
p({1, 2, 3}) = 0.3

p({1, 4})
= 0.1
p({2, 3, 4}) = 0.1

p({3, 4}) = 0.3

La variable alatoire S prend ses valeurs dans


{{1, 2}, {1, 4}, {3, 4}, {1, 2, 3}, {2, 3, 4}} .
On a par exemple
P(S = {1, 2}) = p({1, 2}) = 0.2
A la diffrence des lois de probabilits classiques (normale, exponentielle,
binomiale, ...) lalatoire ne porte pas sur la variable mais sur le sous-ensemble
dindividus observs.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

17 / 198

Echantillonnage en population finie

Notations

Comparaison avec une variable alatoire relle


Soit X une variable alatoire distribue selon une loi de Poisson P(). La
variable alatoire X prend ses valeurs dans
N = {0, 1, 2, . . .} .
On a pour k N :
P(X = k) = exp

k
.
k!

Lesprance de X correspond la valeur moyenne de ses valeurs possibles,


pondres par leurs probabilits :
X
E[X] =
k P(X = k)
kN

= .
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

18 / 198

Echantillonnage en population finie

Notations

Mesures de prcision

Lesprance dun estimateur (S)


se dfinit de faon analogue :
i
h
X
P(S = s)

(s)
=
Ep (S)
sU

p(s) (s).

sU

Le biais dun estimateur (S)


correspond son erreur moyenne :
h
i
h
i

Bp (S)
= Ep (S)

h
i
X
.
=
p(s) (s)
sU

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

19 / 198

Echantillonnage en population finie

Notations

Mesures de prcision
On sintressera galement la Variance
n
i
h
o2 

Vp (S) = Ep (S) Ep [(S)]


=

n
o2
Ep [(S)]

,
p(s) (s)

sU

et lErreur Quadratique Moyenne (EQM)


n
h
i
o2 

EQMp (S)
= Ep (S)

h
i2
h
i

= Bp (S)
+ Vp (S)
.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

20 / 198

Echantillonnage en population finie

Notations

Quelques simulations

Pour illustrer la notion de biais et de variance, on considre lexemple dune


population de N = 1 000 individus gs de 15 20 ans.
Dans cette population, un chantillon de taille n = 50 est slectionn et
enqut. Pour chaque individu enqut, on obtient son poids (en kg), sa
taille (en cm) et son ge.
On sintresse lestimation du poids moyen et de la taille moyenne (carr
noir). Chaque chantillon permet dobtenir une estimation (points bleus) de
ces paramtres. La moyenne des estimations est reprsente par le point
rouge.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

21 / 198

200
170

180

190

200
170

180

190

200
190

50

60

70

80

90

100

50

60

70

taille
160
150
80

90

100

50

90

100

50

60

70

200
180

180

190

200

poids

170
taille

170

130

140

150

160

taille
100

100

180
170
100

160
90

90

taille
90

150
80

80

200
80

140
poids

100

150
70

130
70

90

140
60

190

200
190
180
170
taille
160
150
140

60

80

poids

130

50

100

130
50

poids

90

160

taille
150
140
130

80

80

190

200
170

180

160

taille
160
150
140
130

70

70
poids

190

190
170

180

60

60

poids

200

poids

50

130

130

140

150

160

taille

140

180
170
130

140

150

160

taille

50

60

70
poids

80

90

100

50

60

70
poids

Echantillonnage en population finie

Notations

Probabilits dinclusion dordre 1


On note k la probabilit dinclusion de lunit k, cest dire la probabilit
que lunit k soit retenue dans lchantillon :
X
k = P(k S) =
p(s)
s/ks

La somme des probabilits dinclusion donne la taille moyenne de lchantillon


slectionn :
X
k = Ep [n(S)] .
kU

En pratique, les probabilits dinclusion k sont fixes avant le tirage laide


dune information auxiliaire. On utilise ensuite un plan de sondage qui
respecte ces probabilits dinclusion.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

23 / 198

Echantillonnage en population finie

Notations

Probabilits dinclusion dordre 2

On note kl la probabilit que deux units distinctes k et l soient slectionnes conjointement dans lchantillon :
X
kl = P(k, l S) =
p(s)
s/k,ls

Ces probabilits doubles interviennent notamment dans la variance des estimateurs. Il est souvent difficile de les calculer exactement, sauf pour des
plans de sondage particuliers.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

24 / 198

Echantillonnage en population finie

Notations

Application
Soit la population U = {1, 2, 3, 4}, et p() le plan de sondage dfini par :
p({1, 2})
= 0.2
p({1, 2, 3}) = 0.3

p({1, 4})
= 0.1
p({2, 3, 4}) = 0.1

p({3, 4}) = 0.3

Calculer les probabilits dinclusion dordre 1, et donner la taille moyenne


dchantillon obtenue laide de ce plan de sondage.
Donner les probabilits dinclusion dordre 2 :
des units 1 et 2,
des units 1 et 4,
des units 2 et 4.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

25 / 198

Echantillonnage en population finie

Notations

Variables indicatrices
Lutilisation de la variable Ik = 1(k S), indiquant lappartenance lchantillon de lunit k, permet souvent de simplifier les calculs.
Pour deux units k et l distinctes, on a notamment les proprits suivantes :

Ep (Ik ) = k ,
Vp (Ik ) = k (1 k ),
Covp (Ik , Il ) = kl k l
kl .

On note = [kl ]k,lU la matrice de variance-covariance du plan de sondage p().


Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

26 / 198

Echantillonnage en population finie

Notations

En rsum
Un plan de sondage est une loi de probabilit sur les parties de U . Lalea
porte sur le sous-ensemble S dindividus observs.

Les notions desprance et de de variance dun estimateur (S)


sadaptent
de faon naturelle :
i
i
h
h
X
,

=
p(s) (s)
Bp (S)
sU

Vp (S)

n
o2
Ep [(S)]

p(s) (s)
.

sU

On appelle probabilits dinclusion dordre 1 et 2 :


k = P(k S),
kl = P(k, l S).
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

27 / 198

Echantillonnage en population finie

Estimation de Horvitz-Thompson

Estimation de Horvitz-Thompson

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

28 / 198

Echantillonnage en population finie

Estimation de Horvitz-Thompson

Objectif

Nous nous intressons essentiellement, dans la suite de ce cours, lestimation du total


X
ty =
yk
kU

de la variable y, et dune moyenne


y =

1 X
yk .
N
kU

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

29 / 198

Echantillonnage en population finie

Estimation de Horvitz-Thompson

La -estimation
La connaissance des probabilits k permet une estimation sans biais dun
total sous le plan de sondage, i.e. sous le mcanisme alatoire associ au
plan de sondage. Le total ty est estim sans biais par
ty =

X yk
X yk
=
Ik
k
k

kS

(1)

kU

si tous les k sont > 0. On parle destimateur de Horvitz-Thompson ou


encore de -estimateur.
Cest un estimateur pondr, o les poids de sondage dk = 1/k ne dpendent pas de la variable dintrt.
Principe : un individu k de lchantillon reprsente dk = 1/k individus de
la population.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

30 / 198

Echantillonnage en population finie

Estimation de Horvitz-Thompson

Biais de couverture
Si certaines probabilits dinclusion sont nulles, le -estimateur est biais :
X
 
E ty =
yk
kU
k >0

= ty

yk .

kU
k =0

Ce problme peut notamment se poser :


en cas de dfaut de couverture de la base de sondage (liste des
individus pas jour, ou individus impossibles joindre),
quand on choisit de laisser de ct une partie de la population (cut-off
sampling, parfois utilis dans les enqutes-entreprise).

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

31 / 198

Echantillonnage en population finie

Estimation de Horvitz-Thompson

Enqute "Sans-Domicile 2001" (De Peretti et al., 2006)


Sans-domicile : personne qui dort dans un lieu non prvu pour lhabitation
ou prise en charge par un organisme fournissant un hbergement gratuit ou
faible participation.
Mthode dchantillonnage indirect : slection dun chantillon de jours
services daide (hbergement, restauration).
Champ de lenqute : sans-domicile ayant frquent, au moins une fois dans
la semaine denqute, soit un service dhbergement, soit une distribution de
repas chauds.
Exclut les personnes :
qui dorment dans la rue pour une priode de temps courte et ne font
pas appel un centre ou une distribution de repas,
qui ne font pas (ou ne peuvent pas faire) appel au circuit dassistance.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

32 / 198

Echantillonnage en population finie

Estimation de Horvitz-Thompson

Variance
La variance du -estimateur est donne par
X yk yl
 
Vp ty =
kl .
k l

(2)

k,lU

Cette variance peut tre estime sans biais par


X yk yl kl
 
vHT ty =
k l kl

(3)

k,lS

si tous les kl sont strictement positifs. On parle de lestimateur de variance


de Horvitz-Thompson.
Principe : un couple (k, l) dindividus de lchantillon reprsente 1/kl couples
de la population.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

33 / 198

Echantillonnage en population finie

Estimation de Horvitz-Thompson

Dfinitions

Dfinition
Un plan de sondage p() est dit de taille fixe, gale n, si seuls les chantillons de taille n ont une probabilit non nulle dtre tirs :
Card(s) 6= n p(s) = 0.
Dfinition
Un plan de sondage p() est dit simple si deux chantillons de mme taille
ont la mme probabilit dtre slectionns :
Card(s1 ) = Card(s2 ) p(s1 ) = p(s2 ).

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

34 / 198

Echantillonnage en population finie

Estimation de Horvitz-Thompson

Exemples
Soit la population U = {1, 2, 3, 4}.
Exemple 1 :
p({1, 2})
= 0.2
p({1, 2, 3}) = 0.3

p({1, 4})
= 0.1
p({2, 3, 4}) = 0.1

p({3, 4})

= 0.3

Exemple 2 :
p({1, 2})
= 1/3

p({1, 4})

p({3, 4})

= 1/3

Exemple 3 :
p({1, 2, 3}) = 1/4

Guillaume Chauvet (ENSAI)

= 1/3

p({1, 2, 4}) = 1/4


p({2, 3, 4}) = 1/4

Echantillonnage

p({1, 3, 4}) = 1/4

27 avril 2015

35 / 198

Echantillonnage en population finie

Estimation de Horvitz-Thompson

Variance
Pour un plan de taille fixe, la variance du -estimateur peut se rcrire sous
la forme


 
1 X yk
yl 2

Vp ty =

kl .
(4)
2
k
l
k6=lU

Cette variance peut tre estime sans biais par




 
1 X yk
yl 2 kl
vY G ty =

2
k
l
kl

(5)

k6=lS

si tous les kl sont strictement positifs. On parle de lestimateur de variance


de Yates-Grundy.
Si le plan de sondage vrifie les conditions de Yates-Grundy :
k 6= l U kl 0, cet estimateur de variance est toujours positif.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

36 / 198

Echantillonnage en population finie

Estimation de Horvitz-Thompson

Biais de lestimateur de variance


Proposition
Pour un plan de sondage quelconque, on a :
X
 
 

yk yl .
Ep vHT ty = Vp ty +
k,lU
kl =0

Pour un plan de sondage de taille fixe, on a :


Ep



 
  1 X
yk
yl 2

vY G ty = Vp ty

k l
.
2 k,lU
k
l
kl =0

Si y est valeurs positives, les deux estimateurs de variance sont respectivement biaiss positivement et ngativement.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

37 / 198

Echantillonnage en population finie

Estimation de Horvitz-Thompson

Choix des probabilits dinclusion

Daprs la formule de Yates-Grundy, la variance est nulle si les probabilits


dinclusion sont proportionnelles la variable dintrt. En pratique, ce choix
nest pas possible car :
une enqute comporte gnralement de nombreuses variables dintrt,
ces variables sont inconnues au stade de lchantillonnage.
On peut dfinir ces probabilits dinclusion proportionnellement une mesure
de taille.
Interprtation : si les individus peuvent tre de tailles trs diffrentes, on
utilise les probabilits dinclusion pour lisser les rapports yk /k .

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

38 / 198

Echantillonnage en population finie

Estimation de Horvitz-Thompson

Probabilits proportionnelles la taille

La taille moyenne dchantillon slectionn est donne par


X
Ep [n(S)] =
k .
kU

Si n dsigne la taille dchantillon souhaite, les probabilits dinclusion proportionnelles une variable auxiliaire positive x sont donnes par
k = n P

xk

lU

xl

La variable xk doit tre connue avant le tirage pour chaque individu k de U .

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

39 / 198

Echantillonnage en population finie

Estimation de Horvitz-Thompson

Recalcul des probabilits dinclusion


Si certaines units sont particulirement grosses (au sens de la variable auxiliaire x), on peut obtenir des probabilits dinclusion suprieures 1. Dans
ce cas, on slectionne doffice les units correspondantes, et on recalcule les
probabilits dinclusion des autres units.
Exemple : population de N = 6 entreprises dont on connait le nombre
demploys
Unit
x

1
200

2
80

3
50

4
50

5
10

6
10

Donner les probabilits dinclusion correspondant un tirage de taille 4,


probabilits proportionnelles au nombre demploys.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

40 / 198

Echantillonnage en population finie

Calcul de prcision

Intervalle de confiance

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

41 / 198

Echantillonnage en population finie

Calcul de prcision

Intervalle de confiance
On suppose que ty estime sans biais ty . Alors un intervalle de confiance
pour ty de niveau approximatif 1 est donn par :

q  
IC1 [ty ] = ty z1 2 Vp ty ,
avec z1 2 le quantile dordre 1 2 dune loi normale centre rduite N (0, 1).
Rappel :
= 0.05 z0.975 = 1.96
= 0.10 z0.95 = 1.64
Interprtation (pour = 0.05) : le vrai total ty est contenu dans lintervalle
de confiance pour (approximativement) 95% des chantillons.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

42 / 198

Echantillonnage en population finie

Calcul de prcision

Intervalle de confiance
 
Comme la vraie variance Vp ty est gnralement inconnue, on la remplace
par un estimateur not v ty .
On obtient lintervalle de confiance estim :

q  
c

IC 1 [ty ] = ty z1 2 v ty .
Lintervalle de confiance est (approximativement) valide :


si lestimateur ty suit approximativement une loi N ty , Vp ty ,

si lestimateur de variance v ty est faiblement consistant.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

43 / 198

Echantillonnage en population finie

Calcul de prcision

Coefficient de variation
La prcision de lestimation du total peut galement tre donne sous la
forme du coefficient de variation
q
q



V
t
v ty
p y
 
 
ty =
estim par CV
CV p ty =
.
ty
ty
Il sagit dune grandeur sans dimension, plus facile comparer et interprter
que la variance. Avec un niveau de confiance de 0.95, lintervalle de confiance
du total est donn par

q  
c
IC 0.95 [ty ] = ty 1.96 v ty
h
 i
ty .
= ty 1 1.96 CV
Interprtation : un CV de x% correspond un total connu plus ou moins
2 x% , avec un niveau de confiance de 0.95.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

44 / 198

Echantillonnage en population finie

Calcul de prcision

En rsum
La connaissance des probabilits dinclusion dordre 1 permet de calculer
lestimateur de Horvitz-Thompson du total
X yk
ty =
.
k
kS

Pour un plan de sondage quelconque, sa variance est estime sans biais par
X yk yl kl
 
vHT ty =
k l kl
k,lS

si tous les kl sont strictement positifs.


En utilisant une approximation normale pour ty , on obtient lintervalle de
confiance


q  
vHT (ty ) pds quelconque,

ty z1 2 v ty
o v(ty )
vY G (ty ) pds de taille fixe.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

45 / 198

Echantillonnage en population finie

Estimation dune fonction de totaux

Estimation dune fonction de totaux

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

46 / 198

Echantillonnage en population finie

Estimation dune fonction de totaux

Estimateur par substitution


On sintresse un paramtre de la forme = f (ty ) avec yk = (y1k , . . . , yqk )T
un q-vecteur de variables dintrt, et f : Rq R.
Il est naturel destimer en remplaant le total ty inconnu par son estimateur. On obtient lestimateur par substitution :
= f (ty ).
Si la fonction f () est diffrentiable au voisinage de ty , on obtient :
T 

f 0 (ty )
ty ty
= tu tu ,

'

(6)

en notant uk = [f 0 (ty )]T [yk ].


Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

47 / 198

Echantillonnage en population finie

Estimation dune fonction de totaux

Technique de linarisation

Sous lapproximation (6), on a


i
h
Ep ' 0,
i
h
 
Vp ' Vp tu .
On parle de lapproximation de variance par linarisation pour , avec
uk uk () =

f 0 (ty )

T

[yk ]

la variable linarise du paramtre .

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

48 / 198

Echantillonnage en population finie

Estimation dune fonction de totaux

Estimation de variance
Pour un plan de sondage quelconque, on obtient :
h i
 
Vp ' Vp tu
X uk ul
=
kl .
k l
k,lU

Pour passer un estimateur de variance :


1 on remplace la formule de variance par lestimateur de variance correspondant au pds utilis,
2 on remplace dans u
k les paramtres inconnus par des estimateurs
variable linarise estime u
k .
On obtient finalement :
h i
X u
k u
l kl
v =
.
k l kl
k,lS

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

49 / 198

Echantillonnage en population finie

Estimation dune fonction de totaux

Application : estimation dun ratio


Paramtre R =

ty
tx ,

=
estim par substitution par R

ty
.
tx

Calcul de la variable linarise :




x1
1
x1
0
f (x1 , x2 ) =
f (x1 , x2 ) =
,
x2
x2 (x2 )2
ty
1
1
uk (R) = yk
xk = (yk Rxk )
tx
(tx )2
tx
1
xk )
u
k (R) =
(yk R

tx
Calcul de variance :
h i
Vp '

X uk ul
kl ,
k l

k,lU

h i
v =

X u
k u
l kl
.
k l kl

k,lS
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

50 / 198

Echantillonnage en population finie

Estimation dune fonction de totaux

Exemple
Population U de taille 10, dans laquelle un chantillon de taille n = 4 est
slectionn selon un SRS. Estimation des totaux tx et ty .
k
1
2
3
4
x

s2x

xk
5
1
4
8
= 4.5
= 8.3

tx = N x
= 45

ty = N y = 40

Guillaume Chauvet (ENSAI)

y
s2y

yk
1
3
2
10
= 4
= 16.7
 
2
v tx = N 2 1f
n sx = 125
 
1f
v ty = N 2 n s2y = 250

Echantillonnage

27 avril 2015

51 / 198

Echantillonnage en population finie

Estimation dune fonction de totaux

Exemple
Population U de taille 10, dans laquelle un chantillon de taille n = 4 est
slectionn selon un SRS. Estimation du ratio ty /tx .
k
1
2
3
4
x

s2x

xk
5
1
4
8
= 4.5
= 8.3

tx = N x
= 45

ty = N y = 40
= y
R
= 0.89
x

Guillaume Chauvet (ENSAI)

y
s2y

yk
1
3
2
10
= 4
= 16.7

u
k =

s2u

k)
Rx
-0.08
0.05
-0.03
0.06
= 0
= 4.4 103

1
(y
tx k

 
2
v tx = N 2 1f
n sx = 125
 
1f
v htyi = N 2 n s2y = 250
= N 2 1f s2 = 0.07
v R

n u
Echantillonnage

27 avril 2015

52 / 198

Mthodes dchantillonnage

Mthodes dchantillonnage

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

53 / 198

Mthodes dchantillonnage

Tirage de Bernoulli

Le tirage de Bernoulli

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

54 / 198

Mthodes dchantillonnage

Tirage de Bernoulli

Principe
On se donne une mme probabilit dinclusion k pour chaque unit de
la population. Le choix se fait indpendamment dune unit lautre :
Etape 1 : on gnre u1 U [0, 1]. Si u1 , lunit 1 est retenue dans
lchantillon.
Etape 2 : on gnre u2 U [0, 1] indpendamment de u1 . Si u2 ,
lunit 2 est retenue dans lchantillon.
...
Etape N : on gnre uN U [0, 1] indpendamment de u1 , . . . , uN 1 .
Si uN , lunit N est retenue dans lchantillon.
Cest un principe de piles ou faces indpendants, avec une mme pice mais
un lancer diffrent pour chaque unit.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

55 / 198

Mthodes dchantillonnage

Tirage de Bernoulli

Estimateur de Horvitz-Thompson
En utilisant les proprits dune loi U ([0, 1]), on a :
P(k S) = P(uk ) = FU () = .
Les probabilits dinclusion souhaites sont donc bien respectes, et le total
ty est estim sans biais par
ty =

1X
yk .

kS

Du fait de lindpendance dans la slection des units :

Vp

kl = 2 pour k 6= l,

1 X 2
ty =
yk .

kU

Dautre part, la taille dchantillon n(S) est alatoire et suit une loi B(N, ).
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

56 / 198

Mthodes dchantillonnage

Tirage de Bernoulli

Application
Dans la population ci-dessous, utiliser les nombres alatoires pour slectionner un chantillon selon un tirage de Bernoulli, et en dduire une estimation
de ty .
Unit
k
uk
yk
Tirage

1
0.25
0.07
0

2
0.25
0.44
0

3
0.25
0.52
1

4
0.25
0.19
2

5
0.25
0.95
2

6
0.25
0.24
2

7
0.25
0.54
2

8
0.25
0.07
4

Quelle est la taille moyenne dchantillon attendue ? Quelle est la taille


dchantillon effectivement obtenue ?
Comparer ty et ty , et commenter la diffrence observe.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

57 / 198

Estimateur dune moyenne


Si la taille de la population N est connue, on peut choisir entre les estimateurs

y =

X
ty
1
=
yk ,
N
E[n(S)]
kS

y =

ty
1 X
=
yk .

n(S)
N
kS

On peut montrer que ces deux estimateurs sont non biaiss pour ty , mais que
lestimateur par substitution
y est gnralement prfrable en termes de
variance :


1
1
1 X 2
Vp (

yk ,
y ) =
n N
N
kU


1
1
1 X
Vp (
y ) '

(yk y )2 .
n N
N
kU

Mthodes dchantillonnage

Sondage alatoire simple

Sondage alatoire simple sans


remise

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

59 / 198

Mthodes dchantillonnage

Sondage alatoire simple

Sondage alatoire simple sans remise


Dfinition-proprit
Il existe un unique plan de sondage p() vrifiant les proprits :
1

p() est un plan simple,

p() est un plan de taille fixe n.

On lappelle plan de sondage alatoire simple sans remise


SRS de taille n dans U SRS(U ; n).
Il sagit donc du plan qui donne la mme probabilit tous les chantillons
de taille n dtre slectionns. On a :

n
1/CN
si n(s) = n,
p(s) =
0
sinon.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

60 / 198

Mthodes dchantillonnage

Sondage alatoire simple

Estimateur de Horvitz-Thompson

Proposition
Soient k et l deux units distinctes quelconques. Alors :
k =

n
,
N

kl =

n(n 1)
.
N (N 1)

Le -estimateur du total peut donc se rcrire sous la forme


ty =

NX
yk
n
kS

= N y.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

61 / 198

Mthodes dchantillonnage

Sondage alatoire simple

Variance du -estimateur

La variance du -estimateur sobtient partir de la formule de Sen-YatesGrundy :


1f 2
Sy
Vp [ty ] = N 2
n

avec

Sy2 =

1 X
(yk y )2 .
N 1
kU

On lestime sans biais par


1f 2
vSRS (ty ) = N 2
s
n y

avec

s2y =

1 X
(yk y)2 .
n1
kS

On note f = n/N le taux de sondage.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

62 / 198

Mthodes dchantillonnage

Sondage alatoire simple

Variance de la moyenne estime


Par linarit, la moyenne y peut tre estime sans biais par
y =

1X
yk .
n
kS

La variance de cet estimateur est donne par


Vp [
y] =

1f 2
Sy .
n

(7)

Remarques :
Le facteur (1f ) donne le gain de variance d au tirage sans remise. On
lappelle correction de population finie. Ce gain peut tre trs important
(cas des enqutes-entreprise).
Si le taux de sondage est faible, la variance ne dpend que de la taille
dchantillon n.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

63 / 198

Mthodes dchantillonnage

Sondage alatoire simple

A retenir

Dans un sondage alatoire simple sans remise (SRS) :


1

la moyenne simple dans lchantillon estime sans biais la moyenne simple


dans la population,

la dispersion calcule sur lchantillon estime sans biais la dispersion


dans la population.

Dans une enqute avec un faible taux de sondage, la variance est (approximativement) inversement proportionnelle la taille dchantillon.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

64 / 198

Mthodes dchantillonnage

Sondage alatoire simple

Cas dune proportion


Dans le cas particulier o le paramtre dintrt est une proportion note P ,
la variable dintrt y est une variable indicatrice dont on cherche estimer
la moyenne.
Exemple
 : proportion dtudiants portant des lunettes dans la promotion,
1 si ltudiant k porte des lunettes,
yk =
0 sinon.
En particulier, le paramtre peut scrire sous la forme
P =

1 X
yk ,
N
kU

et tre estim par


1X
P =
yk .
n
kS

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

65 / 198

Mthodes dchantillonnage

Sondage alatoire simple

Proposition
Dans le cas dune variable indicatrice (0/1) y, on a :
N
P (1 P ),
N 1
n
P (1 P ).
n1

Sy2 =
s2y =

La variance de lestimateur de la moyenne P peut alors se rcrire


Vp [P ] =

1f N
P (1 P ),
n N 1

et tre estime sans biais par


v[P ] =

Guillaume Chauvet (ENSAI)

1f
P (1 P ).
n1

Echantillonnage

27 avril 2015

66 / 198

Mthodes dchantillonnage

Sondage alatoire simple

Application : dtermination de taille dchantillon

On cherche une taille dchantillon minimale permettant de respecter avec un


niveau de confiance fix (par exemple de 95 % ) une contrainte de prcision
en termes :
1

soit derreur absolue :


P connu plus ou moins 0.02 |P P | 0.02.

soit derreur relative :

P connu 8 % prs | P P
P | 0.08.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

67 / 198

Mthodes dchantillonnage

Sondage alatoire simple

Application : dtermination de taille dchantillon


Erreur absolue

Avec un niveau de confiance de 95 % la contrainte de prcision peut se


rcrire :
q
|P P | 1.96 Vp (P )
s

1
1
N

P (1 P )
1.96
n N N 1
1
n
.
h
i2

1
N 1
1
+
N
N
1.96
P (1P )
On peut toujours se placer dans le pire des cas en prenant P = 0.5, mais il
est prfrable de disposer dun a priori (mme vague) sur le paramtre P .

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

68 / 198

Mthodes dchantillonnage

Sondage alatoire simple

Application : dtermination de taille dchantillon


Erreur relative

Avec un niveau de confiance de 95 % la contrainte de prcision peut se


rcrire :


P P


1.96 CV p (P )

P
s

1
1
N 1P
1.96

n N N 1 P
1
n
.

2 P
1
N 1
+
N
N
1.96
1P
Calculer cette borne ncessite de disposer dun a priori sur le paramtre P ,
ou au moins dun majorant pour ce paramtre.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

69 / 198

Mthodes dchantillonnage

Sondage alatoire simple

Application

Parmi les 350 tudiants de lEnsai, on veut estimer la proportion qui portent
des lunettes. Quelle taille dchantillon faut-il slectionner pour que cette
proportion soit estime 10% prs, avec un niveau de confiance de 0.95 :
1

en utilisant linformation suivante : 50% des personnes de la population


franaise portent des lunettes ;

en utilisant maintenant linformation suivante : 20% des 15 25 ans


portent des lunettes.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

70 / 198

Mthodes dchantillonnage

Sondage alatoire simple

Algorithmes de slection
Algorithme 1 Mthode de slection draw by draw
1 Pour k = 1, . . . , n, slectionner une unit dans U probabilits gales
parmi les units qui nont pas dj t tires.
Inconvnient : mthode lente, qui ncessite n lectures de fichier.
Algorithme 2 Mthode du tri alatoire
1 On attribue un nombre alatoire u U [0, 1] chaque unit k U .
k
2

On trie la population selon les uk croissants (ou dcroissants).

Lchantillon est constitu des n premiers individus de la population


trie.

Inconvnient : ncessite un tri du fichier.


Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

71 / 198

Algorithmes de slection
Algorithme 3 Mthode de slection-rejet
1 On initialise j = 0.
2 Pour k = 1, . . . , N , faire :
Avec une probabilit

nj
, on slectionne lunit k et j = j + 1.
N (k 1)

Avantage : ncessite une seule lecture de fichier.


Algorithme 4 Mthode du rservoir
1 Les n premires units sont tires dans lchantillon.
2 Pour k = n + 1, . . . , N , faire :
n
, on slectionne lunit k.
k
On tire probabilits gales une unit dans lchantillon, qui est
remplace par k.
Avec une probabilit

Avantage : la taille de la population peut tre inconnue au dpart.

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Le sondage alatoire simple stratifi

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

73 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Information auxiliaire

On parle dinformation auxiliaire lorsquune information est connue sur lensemble de la population, sous forme dtaille ou synthtique.
Il est frquent de disposer dune information auxiliaire sur la population, qui
va permettre de partitionner la population et dobtenir un plan de sondage
plus efficace que le SRS.
Exemples dinformation auxiliaire :
le sexe et lge, pour une enqute auprs dindividus physiques,
la taille (nombre demploys) pour les enqutes-entreprise.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

74 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Motivations pour la stratification (Cochran, 1977)

Prcision matrise pour des sous-populations,


simplicit administrative (enqutes conduites par diffrentes agences),
plans de sondage adapts aux sous-populations,
gain global de prcision.
Principales questions :
1

Comment construire les strates ?

Quelle taille dchantillon slectionner dans chaque strate ?

Quel plan de sondage utiliser dans chaque strate ?

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

75 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Notation et sondage stratifi

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

76 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Dfinition

La population U est dite stratifie quand les units peuvent tre partitionnes en H sous-populations disjointes U1 , . . . , UH appeles strates.
Le plan de sondage est dit stratifi quand des chantillons indpendants
sont slectionns dans chaque strate.
On parle de Sondage alatoire simple stratifi (STSRS) si des chantillons
alatoires simples sont slectionns dans chaque strate.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

77 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Dcomposition
On note Nh la taille de la strate Uh . Un total ty peut se dcomposer sous
la forme
H
X
ty =
tyh ,
h=1

avec tyh = kUh yk le total de la variable y dans Uh . La moyenne y peut


se dcomposer sous la forme dune moyenne pondre
y =

H
1 X
Nh yh ,
N
h=1

avec yh = tyh /Nh la moyenne dans la strate Uh .

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

78 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Estimation dun total


Dans chaque strate Uh , on slectionne un chantillon Sh de taille nh selon
un SRS(Uh , nh ). Pour deux units quelconques k 6= l Uh , on a donc les
probabilits dinclusion
k =

nh
Nh

kl =

nh (nh 1)
.
Nh (Nh 1)

Pour deux units quelconques k et l appartenant deux strates distinctes


Uh et Uh0 , respectivement :
kl =

Guillaume Chauvet (ENSAI)

nh nh0
.
Nh Nh0

Echantillonnage

27 avril 2015

79 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Estimation dun total


Par linarit, le total ty peut tre estim sans biais par
ty =

H
X

tyh =

h=1

H
X

Nh yh

h=1

avec yh la moyenne simple dans Sh .


La variance sobtient par sommation (les tirages sont indpendants dans les
strates) :
Vp

ty

H
X



Vp tyh .

h=1

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

80 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Estimation dun total

Dans le cas dun SRS stratifi, on obtient


Vp

H
 X
1 fh 2

ty =
Nh2
Syh
nh

avec

2
Syh
=

h=1

X
1
(yk yh )2 ,
Nh 1
kUh

que lon estime par


H
  X
1 fh 2
Nh2
s
vST ty =
nh yh

avec

s2yh =

X
1
(yk yh )2 ,
nh 1
kSh

h=1

avec fh = nh /Nh le taux de sondage dans la strate Uh .

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

81 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Estimation dune moyenne


De faon analogue, la moyenne y peut tre estime sans biais par

y =

H
X
Nh
h=1

yh .

Sa variance est donne par



H 
X
Nh 2 1 fh 2
Vp [
y ] =
Syh ,
N
nh
h=1

et peut tre estime sans biais par


vST


H 
X
Nh 2 1 fh 2
[
y ] =
s .
N
nh yh
h=1

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

82 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Allocations pour le tirage stratifi

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

83 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Allocation dchantillon entre les strates

On suppose que la taille globale dchantillon n est fixe, et que les strates
ont t dfinies.
On doit choisir les tailles n1 , . . . , nH des sous-chantillons slectionner
dans chaque strate.
Nous revenons sur quelques allocations classiques pour le sondage alatoire
simple stratifi :
Allocation Proportionnelle,
Allocation Optimale,
Allocation de compromis.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

84 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Allocation Proportionnelle

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

85 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Allocation Proportionnelle

Avec une allocation proportionnelle, le taux de sondage est le mme dans


chaque strate :
nh
n
fh =
=
= f.
Nh
N
On peut le rcrire sous la forme
nh = n

Nh
.
N

Autrement dit, plus la strate est grande, plus lchantillon slectionn dedans
est grand.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

86 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Allocation Proportionnelle
Chaque unit de la population possde la mme probabilit dinclusion k =
n/N , et lestimateur stratifi de la moyenne est identique la moyenne
simple sur lchantillon :

y =

H
X
Nh
h=1

yh =

H
X
nh
h=1

yh = y.

Cette allocation conduit un plan de sondage auto-pondr o tous les


individus possdent le mme poids dk = N/n.
La variance de lestimateur stratifi du total est donne par
H
 
1 f X Nh 2
Vp ty = N 2
S .
n
N yh
h=1

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

87 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Equation de dcomposition de la variance

La dispersion de la variable y dans la population U peut se dcomposer sous


la forme
Sy2 =

H
X
Nh 1

|h=1
'

PH

N 1
{z

2
Syh
+

2
Sy,intra

Nh 2
h=1 N Syh

H
X
Nh
(yh y )2
N 1
{z
}
|h=1
2
Sy,inter

PH

Nh
h=1 N (yh

y )2

Le premier terme mesure la dispersion lintrieur des strates, alors que le


second terme mesure la dispersion entre les strates.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

88 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Equation de dcomposition de la variance


Notons que la dispersion globale Sy2 est fixe. Le poids de chacune des deux
composantes dpend de la variable de stratification choisie.
Exemple
k
yk
x1k
x2k

1
1
0
0

2
1
0
0

3
1
0
1

4
1
0
1

5
5
1
1

6
5
1
1

7
5
1
0

8
5
1
0

Dcomposition de la variance pour Sy2 :


si x1k est la variable de stratification,
si x2k est la variable de stratification.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

89 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Retour vers lallocation proportionnelle

La variance de lestimateur stratifi avec allocation proportionnelle est approximativement donne par
 
1f 2
Sy,intra ,
Vp ty ' N 2
n
de sorte que :
le SRS stratifi allocation proportionnelle est (presque) toujours plus
efficace que le SRS,
la stratification devrait tre choisie de faon ce que la dispersion
lintrieur des strates soit minimise.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

90 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Allocation de Neyman

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

91 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Principe

Lallocation de Neyman donne, pour une stratification donne et une variable


dintrt donne, lallocation dchantillon pour laquelle la variance du estimateur est minimise.
On cherche rsoudre un problme de minimisation (de la variance) sous
contraintes (taille globale dchantillon fixe) :
 
min V ty
nh

Guillaume Chauvet (ENSAI)

t.q.

H
X

nh = n

h=1

Echantillonnage

27 avril 2015

92 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Principe
Avec un sondage alatoire simple stratifi, ce problme de minimisation peut
se rcrire :

H 
X
1
1
2

Nh2 Syh
min
nh
nh Nh

t.q.

h=1

H
X

nh = n.

h=1

En utilisant une technique de Lagrangien, on obtient :


Nh Syh
nh = n PH
.
j=1 Nj Syj
Notons en particulier que le calcul de cette allocation optimale ncessite la
connaissance des dispersions dans les strates.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

93 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Principe

Lallocation de Neyman indique quil faut slectionner un chantillon plus


grand :
dans les grandes strates,
dans les strates prsentant une forte dispersion.
Lallocation nest optimale que pour la variable dintrt particulire y : pour
une autre variable dintrt, elle peut conduire des rsultats plus imprcis
que lallocation proportionnelle (voire que le sondage alatoire simple).

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

94 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Calcul de lallocation

Lallocation de Neyman peut conduire des tailles dchantillon suprieures


aux tailles de strates, si ces dernires prsentent une forte dispersion et/ou
sont de grande taille.
Dans ce cas :
1

on effectue un recensement dans les strates concernes (on fixe nh =


Nh ),

on recalcule lallocation dchantillon dans les autres strates.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

95 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Mise en oeuvre pratique


En pratique, on peut driver une allocation proche de lallocation de Neyman :
si on possde un a priori sur la dispersion dans les strates (approche
"mtier"),
ou si on peut estimer cette dispersion laide dune enqute antrieure.
Un problme alternatif peut tre doptimiser la prcision sous une contrainte
de cot global C fix
H
X
C0 +
Ch nh = C,
h=1

o C0 donne le cot fixe de lenqute, et Ch le cot associ une unit de


Uh .
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

96 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Principe

On rsout le problme doptimisation :


min
nh


H 
X
1
1
2

Nh2 Syh
nh Nh

t.q.

h=1

C0 +

H
X

Ch nh = C.

h=1

En utilisant une technique de Lagrangien, on obtient :




Nh Syh / Ch
nh = [C C0 ] PH p
.
Cj Nj Syj
j=1

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

97 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Allocation de compromis

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

98 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Allocation de compromis (1)


Imaginons que lon souhaite obtenir la mme prcision dans chaque strate,
par exemple si les strates sont des domaines destimation.
On veut obtenir

V (
yh ) =

1
1

nh Nh

2
Syh
= Cste.

Si les strates sont suffisamment grandes, on obtient :


2
Syh

nh = n PH

2
j=1 Syj

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

99 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Allocation de compromis (2)

Supposons maintenant que lon souhaite obtenir une allocation optimale,


sous des contraintes
de taille globale dchantillon fixe,
de prcision dans les strates suprieure un seuil fix.
Il sagit dun problme raliste (contraintes imposes par Eurostat dans les
enqutes).
Il est gnralement difficile dobtenir une solution explicite, mais ce type de
problme peut tre rsolu (par exemple) laide de la proc NLP de SAS.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

100 / 198

Mthodes dchantillonnage

Sondage alatoire simple stratifi

Principales questions

Comment construire les strates ?


de faon ce que la dispersion intra soit minimise

Quelle taille dchantillon slectionner dans chaque strate ?


tirer de plus gros chantillons dans les strates avec une grande dispersion

Quel plan de sondage utiliser dans chaque strate ?


le SRS par strate est une bonne stratgie si les units prsentes dans
une mme strate sont proches (au sens de la variable dintrt)

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

101 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Introduction

Nous avons vu prcedemment que la stratification tait une mthode simple


permettant de rduire la variance des estimateurs. Si les strates sont homognes relativement la variable dintrt (dispersion intra faible), le sondage
alatoire simple stratifi constitue une stratgie efficace dchantillonnage.
En pratique, il peut subsister une forte htrognit dans les strates. Dans
ce cas, on peut rechercher une stratgie dchantillonnage plus efficace en
individualisant les probabilits de slection k de chacun des individus.
On doit ensuite faire le choix dun algorithme de tirage, i.e. dune mthode
pratique de slection respectant les probabilits dinclusion choisies.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

102 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Algorithmes de tirage
Il existe en pratique des dizaines dalgorithmes de tirage permettant de respecter un jeu de probabilits dinclusion fix (voir Till, 2006). Nous dtaillerons deux de ces algorithmes :
le tirage poissonien,
le tirage systmatique.
Les diffrents algorithmes se distinguent par les probabilits dinclusion dordre
2 obtenues, i.e. par la variance des estimateurs. Cependant, il nexiste pas
dalgorithme uniformment prfrable en termes de variance.
Le choix de la mthode utiliser dpend de la connaissance que lon a de la
base de sondage mais aussi des contraintes pratiques sur lchantillonnage.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

103 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Proprits dun algorithme de tirage


Pour un algorithme de tirage, on se posera gnralement les questions suivantes :
1

Est-ce que lalgorithme est exact, i.e. permet de respecter exactement


un jeu de probabilits dinclusion (k )kU fix ?

Est-ce que lalgorithme est de taille fixe, i.e. ne slectionne que des
chantillons de la taille (moyenne) voulue ?

Est-ce que les probabilits kl sont calculables, et que vaut la variance


du -estimateur avec cet algorithme ?
Est-ce que ces probabilits kl :

sont > 0 : assure quon dispose dun estimateur sans biais de variance.
vrifient les conditions de Yates-Grundy : assure quon dispose dun
estimateur toujours positif de variance (pour un plan de taille fixe).

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

104 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Le tirage de Poisson

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

105 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Principe
Cest une gnralisation du tirage de Bernoulli au cas des probabilits ingales :
Etape 1 : on gnre u1 U [0, 1]. Si u1 1 , lunit 1 est retenue dans
lchantillon.
Etape 2 : on gnre u2 U [0, 1] indpendamment de u1 . Si u2 2 ,
lunit 2 est retenue dans lchantillon.
...
Etape N : on gnre uN U [0, 1] indpendamment de u1 , . . . , uN 1 .
Si uN N , lunit N est retenue dans lchantillon.
Cest un principe de piles ou faces indpendants, avec une pice et un lancer
diffrents pour chaque unit.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

106 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Estimation de Horvitz-Thompson
En utilisant les proprits dune loi U [0, 1], on a :
P(k S) = P(uk k ) = FU (k ) = k .
Du fait de lindpendance dans la slection des units :
kl = k l si k 6= l.
Le plan de sondage peut tre entirement spcifi. Pour une partie quelconque s = {i1 , . . . , ip } de U , on a :
Y
Y
P(S = s) =
k
(1 k ).
ks

Guillaume Chauvet (ENSAI)

ku\s

Echantillonnage

27 avril 2015

107 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Application
Dans la population ci-dessous, utiliser les nombres alatoires pour slectionner un chantillon selon un tirage de Poisson, et en dduire une estimation
de ty .
Unit
k
uk
yk
Tirage

1
0.1
0.07
0

2
0.1
0.44
0

3
0.1
0.52
1

4
0.1
0.19
2

5
0.4
0.95
2

6
0.4
0.24
2

7
0.4
0.54
2

8
0.4
0.07
4

Quelle est la taille moyenne dchantillon attendue ? Quelle est la taille


dchantillon effectivement obtenue ?
Comparer ty et ty , et commenter la diffrence observe. Comparer avec le
tirage de Bernoulli.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

108 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Estimateur de Horvitz-Thompson
La variance sobtient partir de lexpression gnrale de Horvitz-Thompson :
X  yk 2
 

k (1 k ),
Vpois ty =
k

(8)

kU

que lon estime sans biais par


v ty


X  yk 2
kS

(1 k ).

En particulier, cela implique que la taille dchantillon est alatoire :


X
Vpois [n(S)] =
k (1 k ).
kU

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

109 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Estimateur par le ratio


Si la taille de la population N est connue, on prfre lestimateur de
Horvitz-Thompson lestimateur par le ratio
tyR =

N
t .
y
N

Sa variance est approximativement donne par


X  Ek 2
 
k (1 k )
Vpois tyR '
k

(9)

kU

avec Ek = yk y . On peut utiliser lestimateur de variance


X  ek 2
 
v tyR =
(1 k )
k

(10)

kS

avec ek = yk

ty
.
N

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

110 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Estimateur par le ratio (2)


Pour lestimation de la moyenne y , on peut utiliser lestimateur par substitution
y =

ty
,
N

de variance (approximative)

Vpois [
y ] '

 
1 X Ek 2
k (1 k ).
N2
k

(11)

kU

On peut utiliser lestimateur de variance


v [
y ] =

 
1 X ek 2
(1 k ).
2
k
N

(12)

kS

Lestimateur par substitution


y peut tre calcul mme si la taille de la
population est inconnue.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

111 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Utilisation
Le tirage poissonien est rarement utilis pour un tirage dchantillon, en
raison de sa grande variance. On trouve cependant des applications dans le
cas dchantillonnage forestier (Schreuder et al., 1993).
Le tirage poissonien est galement utilis dans un contexte de non-rponse.
On parle de non-rponse totale quand certains individus chantillonns ne
peuvent finalement pas tre enquts. Pour exploiter lchantillon de rpondants, not Sr , il est gnralement ncessaire de modliser le mcanisme de
rponse.
Une modlisation classique consiste supposer que lchantillon Sr est obtenu par sous-chantillonnage dans lchantillon S dorigine. Plus de dtails
dans le cours sur les Donnes Manquantes (Attachs).

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

112 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Le tirage systmatique

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

113 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Principe

Cest une mthode simple et trs rapide permettant de slectionner un chantillon probabilits ingales et de taille fixe.
Principe :
On pose Vk =

Pk

l=1 l

pour k U , avec la convention V0 = 0.

On tire une variable alatoire u selon une loi uniforme U [0, 1].
On slectionne toutes les units k telles que, pour un entier i {1, . . . , n} :
Vk1 u + (i 1) < Vk .

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

114 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Exemple
Population U de taille N = 14 avec n = 4 :
1 = 2 = 5 = 6 = 7 = 8 = 12 = 1/7,
3 = 4 = 9 = 10 = 11 = 13 = 14 = 3/7.
0

?
V0 V1 V2

V3

?
V4 V5 V6 V7 V8

?
V9

V10

V11V12

?
V13

V14

u = 0.82 [V3 , V4 ] lunit 4 est slectionne,


1 + u = 1.82 [V8 , V9 ] lunit 9 est slectionne,
2 + u = 2.82 [V10 , V11 ] lunit 11 est slectionne,
3 + u = 3.82 [V13 , V14 ] lunit 14 est slectionne.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

115 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Probabilits dinclusion

Les probabilits k sont exactement respectes. En effet :


P(k S) = P(Vk1 u + (i 1) < Vk )
= Vk Vk1 = k .
Les probabilits dinclusion dordre deux sont plus difficiles calculer (Till,
2006, p. 126).
Beaucoup dunits prsentent des probabilits dinclusion doubles gales 0
(mthode trs peu alatoire)
il nexiste pas destimateur sans biais de variance pour lestimateur de
Horvitz-Thompson.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

116 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Applications du tirage systmatique

Exemple 1 : slection pour contrle dun sous-chantillon de questionnaires,


arrivant flux tendu.
Exemple 2 : enqute auprs des clients entrant dans un magasin.
Exemple 3 : tirage de logements dans un pt de maison lors dune enqute
mnage.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

117 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Cas des probabilits gales


On suppose dans la suite de cette section que les probabilits dinclusion
sont gales (k = n/N ), et que le pas de tirage p = N/n est entier.
Dans ce cas, lalgorithme peut tre simplifi de la faon suivante :
On tire un individu i au hasard parmi les p premiers.
On slectionne les individus i, i + p, . . . , i + (n 1)p.
On a en particulier

kl =

n/N
0

si k l [p],
sinon.

Il nexiste pas destimateur sans biais de variance, et les conditions de YatesGrundy ne sont pas vrifies.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

118 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Exemple
Slection dun chantillon de taille 3 dans une population de taille 12 selon
un tirage systmatique probabilits gales (k = 41 ).
0

?
V0

V1

V2

V3

?
V4

V5

V6

V7

?
V8

V9

V10

V11

V12

u = 0.82 [V3 , V4 ] lunit 4 est slectionne,


1 + u = 1.82 [V7 , V8 ] lunit 8 est slectionne,
2 + u = 2.82 [V11 , V12 ] lunit 12 est slectionne.
Seuls 4 chantillons sont slectionnables, chacun avec une probabilit de
0.25 :
{1, 5, 9}
{2, 6, 10}
{3, 7, 11}
{4, 8, 12}
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

119 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Prcision du tirage systmatique


Dans le cas prcdent (probabilits gales, pas de tirage entier), le tirage
est quivalent un tirage par grappes de taille m = 1 dans la population
Ug = {u1 , . . . , up }, avec
ui = {i, i + p, . . . , i + (n 1)p}.
Principe du tirage par grappes :
1

on tire un chantillon SI de grappes (ici, de taille m = 1),

tous les individus contenus dans les grappes de sI sont retenus dans
lchantillon s finalement enqut.

Pour plus de dtails : cours de Mthodologie dEnqute (Attachs).

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

120 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Prcision du tirage systmatique (2)


Le -estimateur peut se rcrire sous la forme
ty =

N X
Yi ,
n
ui SI

P
avec Yi = kui yk le total sur la grappe ui . En utilisant les rsultats du
SRS, on obtient
 
1 f SY2
Vsys ty = N 2
n n
avec
SY2


X 
ty 2
1
Yi
.
p1
p
ui Ug

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

121 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Comparaison avec le SRS


On appelle design-effect (ou effet de plan)
DEFFp (y) =

 
Vp ty
 
VSRS ty

le rapport entre la variance associe un plan de sondage, et la variance


associe au SRS de mme taille. On a ici :
DEFFsys (y) =

SY2 /n
.
Sy2

Dautre part, en utilisant une dcomposition de la variance :


p

Sy2

n1 X 2
(p 1) 2
Syi +
S
N 1
n(N 1) Y

(13)

i=1

'

1X 2
1 2 
Syi +
S /n .
p
n Y
i=1

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

122 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Comparaison avec le SRS (2)


Le tirage systmatique sera donc efficace par rapport au SRS si dans lquation (13), le terme de dispersion intra est grand, autrement dit si les grappes
sont htrognes en intra. Ce sera par exemple le cas si la population est
trie avant le tirage selon une variable auxiliaire xk corrle avec la variable
dintrt.
Le tirage systmatique peut au contraire tre trs inefficace si les grappes
sont homognes en intra : cest une difficult et une situation habituelle
dans le cas dun tirage par grappes.
Le cas le plus dfavorable est celui o la variable dintrt prsente une
priodicit + le pas de tirage p = N/n est proportionnel cette priodicit.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

123 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Exemple

Considrons une population U de taille 12 sur laquelle on relve trois caractristiques y1 , y2 , y3 (valeur moyenne 40) :
Unit
y1
y2
y3

1
10
10
15

2
10
45
45

3
10
60
10

4
15
15
60

5
45
50
60

6
45
65
50

7
50
10
45

8
50
50
65

9
60
60
10

10
60
10
50

11
60
45
10

12
65
60
60

On slectionne un chantillon de taille 2 selon un tirage systmatique


6 chantillons possibles.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

124 / 198

Mthodes dchantillonnage

Tirage probabilits ingales

Exemple
On obtient comme valeurs chantillonnes possibles pour y1
{10, 50} {10, 50} {10, 60} {15, 60} {45, 60} {45, 65},
pour y2
{10, 10} {45, 50} {60, 60} {15, 10} {50, 45} {65, 60},
et pour y3
{15, 45} {45, 65} {10, 10} {60, 50} {60, 10} {50, 60}.
On obtient galement :

DEFFp (y)
Guillaume Chauvet (ENSAI)

y1
0.50

y2
2.18

Echantillonnage

y3
1.39
27 avril 2015

125 / 198

Mthodes de redressement

Mthodes de redressement

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

126 / 198

Mthodes de redressement

Principe

Nous revenons au cas de lestimation dun total. On suppose quun chantillon S a t slectionn selon un plan de sondage p(). Un estimateur direct
est donn par :
X
X yk
=
dk yk .
ty =
k
kS

kS

Dans cet estimateur, les poids de sondage dk dpendent de linformation


auxiliaire mobilise au moment de lchantillonnage :
SRS dk = N/n
SRS stratifi dk = Nh /nh pour k Uh

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

127 / 198

Mthodes de redressement

Principe

Il se peut quune partie de linformation auxiliaire nait pas t utilise au


moment de la slection de lchantillon, ou quelle nait pas t disponible.
Si cette information est explicative de la variable dintrt, il va tre nanmoins intressant de lutiliser. On peut le faire au stade de lestimation, en
redressant lestimateur de Horvitz-Thompson.
Poids de sondage dk Poids redresss wk

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

128 / 198

Mthodes de redressement

Principe

On dit que lon redresse lchantillon lorsque lon modifie le systme de


pondrations associ S afin de respecter un certain nombre dinformations
auxiliaires.
On parle dinformation auxiliaire lorsque lon dispose dune information connue
sur lensemble de la population.
Exemples :
Chiffre daffaire total des entreprises dun secteur dactivit,
Rpartition par sexe et par ge dune population dindividus.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

129 / 198

Mthodes de redressement

Estimateur par calage

Estimateur par calage

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

130 / 198

Mthodes de redressement

Estimateur par calage

Principe
On suppose ici que lon dispose dun vecteur xk = [x1k , . . . , xpk ]> de variables auxiliaires, dont les totaux tx = [tx1 , . . . , txp ]> sur la population sont
connus.
Avant calage, on a pour toute variable y lestimateur sans biais du total :
X
ty =
dk yk ,
kS

 
Ep ty = ty ,
et en particulier pour les variables de calage :
 
Ep tx = tx .

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

131 / 198

Mthodes de redressement

Estimateur par calage

Modification des poids


On cherche de nouveaux poids wk qui
1

restent proches des poids de dpart dk ,

vrifient les quations de calage


X
wk xk = tx .
kS

Plus formellement, on rsoud le problme suivant :


 
X
X
wk
min
dk G
s.c.
wk xk = tx
wk
dk
ks

ks

o G dsigne une fonction de distance.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

132 / 198

Mthodes de redressement

Estimateur par calage

Modification des poids

On cherche rduire la variance de lestimation laide du calage sur les


totaux connus. La variance est nulle pour les variables auxiliaires ; elle sera
faible pour les variables dintrt bien expliques par les variables auxiliaires.
Pour respecter les totaux de variables auxiliaires, on accepte de biaiser lgrement lestimation. Ce biais sera gnralement ngligeable car on assure
que les poids cals restent proches des poids dorigine.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

133 / 198

Mthodes de redressement

Estimateur par calage

Solution thorique
On choisit une fonction de distance G telle que G(wk /dk ) mesure la distance
entre le poids initial dk et le poids final wk . Nous supposons que
G(1) = 0,
G est positive et convexe (i.e, plus wk /dk sloigne de 1, plus G(wk /dk )
est grand)
Le Lagrangien scrit
!
L=

dk G(wk /dk ) >

ks

wk x k t x

ks

o = [1 , . . . , p ]> est un vecteur de multiplicateurs de Lagrange.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

134 / 198

Mthodes de redressement

Estimateur par calage

Solution thorique (2)


La rsolution du problme doptimisation conduit :
wk = dk F [> xk ]
avec F la fonction inverse de G0 .
Le vecteur peut tre dtermin en rsolvant le systme (non-linaire)
constitu par les quations de calage
X
dk F [> xk ]xk = tx ,
ks

par exemple laide de la mthode itrative de Newton-Raphson.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

135 / 198

Mthodes de redressement

Estimateur par calage

Fonctions de distance usuelles : la mthode linaire


G(r) = 21 (r 1)2 et F (u) = 1 + u. La convergence est obtenue ltape
2 de lalgorithme de Newton, et on obtient lestimateur par la rgression
gnralise
X
ty,greg =
wk y k
ks



> tx tx
= ty + b

avec
"
=
b

X xk x>

#1

kS

X xk yk
kS

Cette mthode de calage peut conduire des poids finaux wk ngatifs.


Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

136 / 198

Mthodes de redressement

Estimateur par calage

Les fonctions de distance usuelles (2)

La mthode raking ratio


G(r) = r log(r) r + 1 et F (u) = exp(u). Cette mthode permet dassurer
que les poids finaux wk sont > 0.
Les mthodes bornes
Elles peuvent tre vues comme des versions "tronques" des deux mthodes
prcdentes. Ces deux mthodes permettent de spcifier explicitement des
bornes LO et U P pour les rapports de poids, i.e. dassurer que pour tout
individu k S
wk
U P.
LO
dk

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

137 / 198

Mthodes de redressement

Estimateur par calage

Estimation aprs calage

Aprs calage, on a pour toute variable y lestimateur cal :


X
tyw =
wk yk .
ks

Lestimation est exacte pour les totaux de variables auxiliaires :


txw = tx .
Elle est approximativement sans biais pour les autres variables dintrt :
 
Ep tyw ' ty .

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

138 / 198

Mthodes de redressement

Estimateur par la rgression gnralise

Estimateur par la rgression


gnralise

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

139 / 198

Mthodes de redressement

Estimateur par la rgression gnralise

Motivation de lestimateur par la rgression


Lestimateur par la rgression gnralise est obtenu par calage avec la mthode linaire. Il est motiv par le modle
yk = > xk + k

avec

Vm [k ] = k2 .

(14)

Si on dispose des donnes sur toute la population, le meilleur estimateur de


sobtient par les MCG :
"
#1
X xk x>
X x k yk
k
b=
et Ek = yk b> xk .
2
k
k2
kU

kU

et ek = yk b
> xk pour obtenir
On les remplace par leurs estimateurs b

lestimateur par la rgression :


ty,greg =

> t
b
| {z x}

prdiction du total
Guillaume Chauvet (ENSAI)

te
|{z}

estimation de lerreur totale

Echantillonnage

27 avril 2015

140 / 198

Mthodes de redressement

Estimateur par la rgression gnralise

Fonctions de distance usuelles : la mthode linaire


On peut rcrire lestimateur GREG sous la forme :


> tx tx .
ty,greg = ty + b



En utilisant lapproximation ty,greg ' ty + b> tx tx , on obtient :
h
i


Ep ty,greg ' Ep ty + b> {tx tx }
= ty ,
Vp ty,greg


h
i
' Vp ty b> tx
 
= Vp tE .

Lestimateur GREG est donc approximativement sans biais, et sa variance


est approximativement donne par les rsidus de la rgression de la variable
yk sur les variables auxiliaires xk .
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

141 / 198

Mthodes de redressement

Estimateur par la rgression gnralise

Fonctions de distance usuelles : la mthode linaire


Application : rgression simple

On se place dans le cas dun SRS(n). On suppose que lon utilise les variables
auxiliaires xk = [1, xk ]> , de totaux connus. Le modle de rgression sousjacent est :
yk = a + b xk + Ek .
On obtient
P

b=
b =
En notant =

(x x )(yk y )
kU
P k
2
kU (xk x )

(x
x)(yk
y)
kS
P k
x) 2
kS (xk

sxy
s2x

Sxy
Sx Sy

Sxy
Sx2

a = y b x
a
= y b x

le coefficient de corrlation linaire, on a :



1f 2
Vsrs ty,greg ' N 2
Sy (1 2 ).
n
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

142 / 198

Mthodes de redressement

Variance dun estimateur cal

Variance dun estimateur cal

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

143 / 198

Mthodes de redressement

Variance dun estimateur cal

Variance dun estimateur cal

Quelle que soit la fonction de distance utilise, la variance de lestimateur


cal tyw est approximativement celle de lestimateur par la rgression.
La variance de lestimateur cal tyw est donc approximativement gale
 
Vp tyw '

X Ek El
kl
k l

k,lU

o Ek = yk b> xk donne les rsidus de la rgression de y sur le vecteur de


variables auxiliaires xk dans la population U .

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

144 / 198

Mthodes de redressement

Variance dun estimateur cal

Estimation de variance

Deux estimateurs de variance peuvent tre utiliss :


 
v1 tyw =

X ek el kl
k l kl

k,lS

 
v2 tyw =

X gk ek gl el kl
,
k l kl

k,lS

T xk donne les rsidus estims.


o gk = wk /dk , et ek = yk b

Le second estimateur est gnralement (lgrement) prfrable.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

145 / 198

Mthodes de redressement

Variance dun estimateur cal

Estimation de variance

Un logiciel classique destimation de variance pour lestimation de totaux ty


peut tre utilis pour lestimation de variance destimateurs cals tyw de la
faon suivante :
Effectuer sur lchantillon S la rgression pondre (par les poids dk )
de la variable y sur les variables auxiliaires x1 , . . . , xp ,
Prendre les rsidus ek de la rgression et calculer les gk = wk /dk ,
Utiliser le logiciel en remplaant les yk par les ek (estimateur de variance
v1 ) ou par les gk ek (estimateur de variance v2 ).

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

146 / 198

Mthodes de redressement

Variance dun estimateur cal

Exemple
Echantillon de taille n = 5 tir selon un SRS dans une population de taille
N = 100. On suppose connu le total tx = 320.
x0k
1
1
1
1
1

x1k
1
3
2
5
4

yk
3
1
8
15
3

1f 2
tx = 300 ty = 600 v(ty ) = N 2
s = 6.08 104
n y

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

147 / 198

Mthodes de redressement

Variance dun estimateur cal

Exemple
Echantillon de taille n = 5 tir selon un SRS dans une population de taille
N = 100. On suppose connu le total tx = 320.
x0k
1
1
1
1
1

x1k
1
3
2
5
4

yk
3
1
8
15
3

ek = yk a
b x1k
0.8
-5
3.9
5.2
-4.9

1f 2
tx = 300 ty = 600 v(ty ) = N 2
s = 6.08 104
n y
a
= 0.3 b = 1.9
1f 2
tyw = 638 v(tyw ) = N 2
s = 4.365 104
n e
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

148 / 198

Application des mthodes de redressement

Application des mthodes de


redressement

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

149 / 198

Application des mthodes de redressement

Estimateur par le ratio

Estimateur par le ratio

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

150 / 198

Application des mthodes de redressement

Estimateur par le ratio

Lestimateur par le ratio

On suppose connu le total tx dune seule variable auxiliaire (positive) xk .


Lestimateur par le ratio est dfini par
X
tx
=
wk y k
tyR = ty
tx
kS

avec wk = dk

tx
.
tx

Exemple : enqute auprs dentreprises, avec redressement sur la variable


deffectif salari.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

151 / 198

Application des mthodes de redressement

Estimateur par le ratio

Motivation
Lestimateur par le ratio est motiv par le modle
yk = xk + k

avec

Vm [k ] = 2 xk .

Cest un cas particulier de lestimateur par la rgression gnralise, obtenu


avec xk = xk et k2 = 2 xk . On a :
"
#1
X xk x>
X xk yk
k
=
b
k2 k
k2 k
kS

kS

ty
,
=R
tx

et
te =

X yk b
> xk

kS
Guillaume Chauvet (ENSAI)

X yk R
xk
kS

Echantillonnage

= 0.

27 avril 2015

152 / 198

Application des mthodes de redressement

Estimateur par le ratio

Exemple de donnes

y/x

20

40

60

80

100

2
1
120

Guillaume Chauvet (ENSAI)

0 20

60

100

20

40

60

80

100

120

Echantillonnage

27 avril 2015

153 / 198

Application des mthodes de redressement

Estimateur par le ratio

Proprits de lestimateur par le ratio

Lestimateur par le ratio est approximativement non biais pour le total ty .


On a
 
 
Vp tyR ' Vp tE
avec Ek = yk b> xk yk R xk . La variance est donc rduite si les
variables yk et xk sont approximativement proportionnelles.
Lestimateur par le ratio est cal sur le total tx :
txR = tx .

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

154 / 198

Application des mthodes de redressement

Estimateur par le ratio

Cas du sondage alatoire simple

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

155 / 198

Application des mthodes de redressement

Estimateur par le ratio

Application au sondage alatoire simple


Dans le cas dun SRS(n), on obtient :
 
1f 2
SE .
Vp tyR ' N 2
n
On peut lestimer par
 
1f 2
v tyR = N 2
sE ,
n
mais Ek = yk R xk nest pas calculable sur lchantillon. On la remplace
xk pour obtenir
par la variable donnant les rsidus estims ek = yk R
lestimateur de variance final :
 
1f 2
se .
v tyR = N 2
n
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

156 / 198

Application des mthodes de redressement

Estimateur par le ratio

Exemple
Echantillon de taille n = 5 tir selon un SRS dans une population de taille
N = 100. On suppose connu le total tx = 320.

xk
1
3
2
5
4

yk
3
1
8
15
3

Guillaume Chauvet (ENSAI)

tx = 300
ty = 600

Echantillonnage

2
v(ty ) = N 2 1f
n sy
4
= 6.08 10

27 avril 2015

157 / 198

Application des mthodes de redressement

Estimateur par le ratio

Exemple
Echantillon de taille n = 5 tir selon un SRS dans une population de taille
N = 100. On suppose connu le total tx = 320.

xk
1
3
2
5
4

yk
3
1
8
15
3

xk
ek = yk R
1
-5
4
5
-5

Guillaume Chauvet (ENSAI)

tx = 300
ty = 600

= 2
R
tyR = 640

Echantillonnage

2
v(ty ) = N 2 1f
n sy
4
= 6.08 10

2
v(tyR ) = N 2 1f
n se
4
= 4.37 10

27 avril 2015

158 / 198

Application des mthodes de redressement

Estimateur par le ratio

Efficacit de lestimateur par le ratio


Dans le cas du SRS, lestimateur par le ratio est prfrable lestimateur
direct si
 
Sy2 2RSxy + Sx2
Vp tyR
  1
1
Sy2
Vp ty

avec cvx =

1 cvx
2 cvy

q
p
Sx2 /x et cvy = Sy2 /y .

Mme si les variables x et y sont corrles positivement, lestimateur direct


peut tre plus efficace. Si la corrlation est ngative, lestimateur direct est
toujours plus efficace.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

159 / 198

Application des mthodes de redressement

Estimateur par le ratio

Efficacit de lestimateur par le ratio (2)

On peut galement montrer que






 
Sx 2
21 f 2

,
Sy R
Vsrs tyR Vsrs ty,greg ' N
n
Sy
avec ty,greg lestimateur par la rgression simple obtenu avec le vecteur xk =
(1, xk )> .
Lestimateur par la rgression simple est donc toujours meilleur (asymptotiquement) que lestimateur par le ratio dans le cas dun sondage alatoire
simple.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

160 / 198

Application des mthodes de redressement

Estimateur par le ratio

Cas du sondage alatoire simple


stratifi

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

161 / 198

Application des mthodes de redressement

Estimateur par le ratio

Application au sondage alatoire simple stratifi


Si le total tx sur lensemble de la population est connu, on obtient lestimateur
par le ratio combin
PH
h
ty
h=1 Nh y

= tx PH
ty,RC = tx

tx
h
h=1 Nh x
et sa variance est approximativement gale


 
Vp ty,RC ' Vp tE
=

H
X

Nh2

h=1

1 fh 2
SEh .
nh

avec Ek = yk R xk . La variance est donc rduite si les variables y et x sont


approximativement proportionnelles sur lensemble de la population.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

162 / 198

Application des mthodes de redressement

Estimateur par le ratio

Application au sondage alatoire simple stratifi (2)


Cette variance peut tre estime par
H
X


1 fh 2
v ty,RC =
Nh2
s ,
nh eh
h=1

xk .
avec ek = yk R
Dun autre ct, si les totaux par strate txh sont connus, on peut appliquer
un redressement par le ratio strate par strate.
On obtient lestimateur par le ratio spar
ty,RS =

Guillaume Chauvet (ENSAI)

H
X

H
X
tyh
yh
=
txh .
txh

x
h
t xh
h=1
h=1

Echantillonnage

27 avril 2015

163 / 198

Application des mthodes de redressement

Estimateur par le ratio

Cas dun sondage alatoire simple stratifi


Sa variance est approximativement donne par
H
X


1 fh 2
SEh
Vp ty,RS '
Nh2
nh
h=1

avec Ek = yk Rh xk pour k Uh , et Rh = tyh /txh . La variance est donc


rduite si les variables y et x sont approximativement proportionnelles
dans les strates.
Cette variance peut tre estime par
H
X


1 fh 2
v ty,RS =
Nh2
s ,
nh eh
h=1

h xk et R
h = tyh /txh .
avec ek = yk R
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

164 / 198

Application des mthodes de redressement

Estimateur post-stratifi

Estimateur post-stratifi

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

165 / 198

Application des mthodes de redressement

Estimateur post-stratifi

Principe
On suppose que lon connat aprs le tirage de lchantillon une partition de la population en H groupes nots U1 , . . . , UH . On parle de poststratification.
Les effectifs des post-strates, nots N1 , . . . , NH , sont supposs connus.
Le -estimateur peut se rcrire
ty =

H X
X
yk
k
h=1 kSh

H
X

tyh

h=1

avec Sh lintersection de S et de Uh .
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

166 / 198

Application des mthodes de redressement

Estimateur post-stratifi

Principe de post-stratification
Lestimateur post-stratifi est dfini par
typost =

H
X

Nh
yh ,

h=1

avec
yk
kSh k
P
1
kSh k

yh =

tyh
h
N

lestimateur par substitution de la moyenne yh dans la post-strate Uh .


Chaque post-strate peut tre vue comme un domaine, non pris en compte
lors de lchantillonnage. Lestimateur post-stratifi sobtient laide dun
redressement par le ratio dans chaque post-strate.
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

167 / 198

Application des mthodes de redressement

Estimateur post-stratifi

Motivation
Lestimateur post-stratifi est motiv par le modle
yk = h + k

et

Vm (k ) = h2 dans chaque strate Uh .

Cest un cas particulier de lestimateur par la rgression gnralise, obtenu


avec xk = [1(k U1 ), . . . , 1(k UH )]T et k2 = h2 pour k Uh . On a :
"
=
b

X xk x>
k
k2 k

#1

kS

X xk yk
k2 k

kS
T

[
y1 , . . . ,
yH ] ,
et
> xk yk
ek = yk b
yh pour k Uh .

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

168 / 198

Application des mthodes de redressement

Estimateur post-stratifi

Proprits de lestimateur post-stratifi


Lestimateur par le ratio est approximativement non biais pour le total ty .
On a


 
Vp ty,post ' Vp tE
avec Ek = yk b> xk yk yh . La variance est donc rduite si la variable
y est peu disperse dans chaque post-strate.
Lestimateur post-stratifi est cal sur les effectifs des post-strates :
hpost = Nh
N

h = 1, . . . , H.

On obtient un estimateur de variance :


en prenant lestimateur v[tE ] associ au pds p(),
en remplaant les rsidus inconnus Ek par les rsidus estims ek =
yk
yh pour k Sh .
Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

169 / 198

Application des mthodes de redressement

Estimateur post-stratifi

Cas du sondage alatoire simple


Lestimateur post-stratifi se rcrit :
typost =

H
X

Nh yh

avec

h=1

yh =

1 X
yk .
nh
kSh

Sa variance vaut approximativement


H


1f 2
1 f X Nh 1 2
Vp typost ' N 2
SE = N 2
S ,
n
n
N 1 yh
|h=1 {z
}
Sy,intra2

et peut tre estime par


H


1 f X nh 1 2
1f 2
Se = N 2
s .
v typost = N 2
n
n
n 1 yh
h=1

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

170 / 198

Mise en oeuvre pratique dun calage

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

171 / 198

Mise en oeuvre pratique dun calage

Comment choisir les variables de calage ?

Les variables auxiliaires les plus explicatives doivent tre utilises pour
le calage (slection avec une PROC GLM, par exemple).
Les variables utilises pour concevoir le plan de sondage doivent tre
utilises pour le calage (ex : variables de stratification).
Si le calage est utilis pour compenser de la non-rponse, les variables
explicatives de la probabilit de rponse devraient tre incluses dans le
calage.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

172 / 198

Mise en oeuvre pratique dun calage

Est-ce que toute linformation auxiliaire doit tre utilise


dans le calage ?

En principe, plus on utilise de variables de calage, plus les rsidus sont faibles
et donc plus la variance de lestimateur cal diminue. En pratique :
le nombre de variables de calage doit rester faible devant la taille de
lchantillon,
les variables les plus explicatives sont gnralement suffisantes pour
obtenir une forte diminution de la variance.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

173 / 198

Mise en oeuvre pratique dun calage

Peut-on utiliser plusieurs niveaux dinformation auxiliaire ?

Cest possible avec la macro CALMAR 2, qui permet dutiliser jusqu trois
niveaux dinformation auxiliaire. Par exemple, pour une enqute auprs des
mnages :
information auxiliaire sur les units primaires (ex : les communes),
information auxiliaire sur les mnages,
information auxiliaire sur les individus.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

174 / 198

Mise en oeuvre pratique dun calage

La macro SAS CALMAR2

La macro SAS CALMAR2

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

175 / 198

Mise en oeuvre pratique dun calage

La macro SAS CALMAR2

Paramtres pour les tables SAS en entre

DATAMEN = nom de la table contenant les donnes de lchantillon


Observations : units chantillonnes,
Variables : variables de calage, variable identifiante, poids initial.
MARMEN = nom de la table contenant linformation auxiliaire
Observations : variables de calage,
Variables : nom de variable, nombre de modalits, marges associes.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

176 / 198

Mise en oeuvre pratique dun calage

La macro SAS CALMAR2

Paramtres pour les tables SAS en entre


POIDS = variable
Variable numrique donnant les poids initiaux des individus de lchantillon.
PONDQK = variable
Variable numrique de pondration pour les individus de lchantillon, diffrente de POIDS (utilise si le modle (14) est suppos htroscdastique).
IDENT = variable
Variable identifiante pour les units chantillonnes.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

177 / 198

Mise en oeuvre pratique dun calage

La macro SAS CALMAR2

Paramtres pour les tables SAS en entre

PCT = OUI or NON


Si PCT=OUI, les marges pour les variables catgorielles de la table DATAMAR sont donnes en pourcentage.
EFFTOT = valeur
Nombre total dunits dans la population ( renseigner si PCT=OUI).

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

178 / 198

Mise en oeuvre pratique dun calage

La macro SAS CALMAR2

Paramtres pour la mthode de calage


M = 1,2,3 or 4
Fonction de distance :
1

Mthode linaire

Mthode Raking Ratio

Mthode Logit

mthode linaire tronque

LO = valeur
Borne Infrieure pour les rapports de poids ( spcifier si M=3 ou 4).

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

179 / 198

Mise en oeuvre pratique dun calage

La macro SAS CALMAR2

Paramtres pour la mthode de calage

UP = valeur
Borne Suprieure pour les rapports de poids ( spcifier si M=3 ou 4).
SEUIL = valeur
Seuil dterminant larrt de lalgorithme de Newton (optionnel).
MAXITER = valeur entire
Nombre maximum ditrations de lalgorithme de Newton (optionnel).

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

180 / 198

Mise en oeuvre pratique dun calage

La macro SAS CALMAR2

Paramtres pour les tables SAS en sortie

DATAPOI = nom de la table SAS contenant les poids finaux


observations : units chantillonnes non supprimes,
variables : variable identifiante, poids final.
MISAJOUR = OUI ou NON
Spcifie le traitement de variables en sortie :
Si MISAJOUR=OUI, la variable donnant les poids cals est ajoute
la table DATAPOI,
Si MISAJOUR=NON, une nouvelle table SAS est cre. Lancienne
table SAS est dtruite.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

181 / 198

Mise en oeuvre pratique dun calage

La macro SAS CALMAR2

Paramtres pour les tables SAS en sortie

POIDSFIN = variable
Nom de la variable donnant les poids cals.
LABELPOI = label
Label associ la variable donnant les poids cals.
OBSELI = OUI ou NON
Si OBSELI=OUI, cre une table SAS OBSELI avec, pour chaque unit
supprime de lchantillon dorigine, la variable identifiante, les variables de
calage et les poids initiaux.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

182 / 198

Mise en oeuvre pratique dun calage

La macro SAS CALMAR2

Un petit exemple

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

183 / 198

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

La macro SAS CALMAR2

Echantillonnage

27 avril 2015

184 / 198

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

La macro SAS CALMAR2

Echantillonnage

27 avril 2015

185 / 198

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

La macro SAS CALMAR2

Echantillonnage

27 avril 2015

186 / 198

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

La macro SAS CALMAR2

Echantillonnage

27 avril 2015

187 / 198

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

La macro SAS CALMAR2

Echantillonnage

27 avril 2015

188 / 198

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

La macro SAS CALMAR2

Echantillonnage

27 avril 2015

189 / 198

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

La macro SAS CALMAR2

Echantillonnage

27 avril 2015

190 / 198

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

La macro SAS CALMAR2

Echantillonnage

27 avril 2015

191 / 198

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

La macro SAS CALMAR2

Echantillonnage

27 avril 2015

192 / 198

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

La macro SAS CALMAR2

Echantillonnage

27 avril 2015

193 / 198

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

La macro SAS CALMAR2

Echantillonnage

27 avril 2015

194 / 198

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

La macro SAS CALMAR2

Echantillonnage

27 avril 2015

195 / 198

Mise en oeuvre pratique dun calage

Guillaume Chauvet (ENSAI)

La macro SAS CALMAR2

Echantillonnage

27 avril 2015

196 / 198

Mise en oeuvre pratique dun calage

La macro SAS CALMAR2

Bibliographie

Ardilly, P. (2005). Panorama des principales mthodes destimation sur petits domaines. Actes des Journes de Mthodologie Statistique, Insee.
Ardilly, P. (2006), Les Techniques de Sondage, Technip, Paris.
Ardilly, P., et Till, Y. (2003), Exercices corrigs de mthodes de sondage Sondage,
Technip, Paris.
Cochran, W.G (1977), Sampling Techniques, Wiley, New-York.
De Peretti, P. et al (2006). Lenqute sans-domicile 2001. Insee Mthodes, 116,
Paris.
Deville, J-C. (1991). Une thorie des enqutes par quotas. Techniques dEnqute,
17, 177-195.
Hajek, J. (1964). Asymptotic theory of rejective sampling with varying probabilities
from a finite population. Annals of Mathematical Statistics, 35, 1491-1523.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

197 / 198

Mise en oeuvre pratique dun calage

La macro SAS CALMAR2

Bibliographie

Loonis, V. (2009). La construction du nouvel chantillon de lEnqute Emploi en


Continu partir des fichiers de la Taxe dHabitation. Actes des Journes de Mthodologie Statistique, Paris.
Rao, J.N.K (2003). Small Area Estimation. New-York, Wiley.
Srndal, C.-E., and Swensson, B., and Wretman, J.H. (1992), Model Assisted Survey
Sampling, Springer-Verlag, New-York.
Sautory, O., et Le Guennec, J. (2003). La macro CALMAR2 : Redressement dun
chantillon par calage sur marges, Insee.
Schreuder, H.T., and Gregoire, T.G., and Wood, G.B. (1993). Sampling Methods
for Multiresource Forest Inventry, Wiley, New-York.
Till, Y. (2006). Sampling algorithms, Springer, New-York.

Guillaume Chauvet (ENSAI)

Echantillonnage

27 avril 2015

198 / 198