Vous êtes sur la page 1sur 41

Chapitre 8

PONDERATION ET REDRESSEMENT

PLAN DU CHAPITRE 8
8.1 INTRODUCTION
8.2 POIDS DE SONDAGE
8.3 CALAGE AUX MARGES
8.3.1 Introduction
8.3.2 Buts du calage
8.3.3 Methodes de calage
8.4 REDRESSEMENT SUR VARIABLES QUANTITATIVES
8.4.1 Introduction
8.4.2 Un exemple
8.4.3 Estimation par le quotient (ratio)
8.4.4 Estimation par la regression
8.5 REDRESSEMENT SUR VARIABLES QUALITATIVES
(post-stratification)
8.5.1 Introduction
8.5.2 Notations
1

8.5.3 Estimateurs post-stratifies


8.5.4 Comparaisons
8.5.5 Conclusion

8.1 INTRODUCTION
Il est rare que lon ne dispose pas dune variable quantitative ou qualitative X dont la valeur/modalite est
connue pour chacun des individus de la population (variable auxiliaire).
Ex. :
- Si on sonde des logements recenses, on connat leur
nombre de pi`eces au moment du recensement (sauf
exception).
- Si on sonde des individus `a partir dun fichier electoral,
on connat leur age.
- Si on sonde des entreprises, on connat bien souvent
leur activite principale.
Principe fondamental
Lorsquon dispose dune information auxiliaire, il faut
chercher `a lutiliser dans le but dobtenir des estimateurs plus precis que les estimateurs simples de la moyenne
ou du total qui apparaissent dans le cadre du sondage
PESR ou PISR.

Linformation auxiliaire peut etre utilisee au niveau de


la construction de lechantillon (stratification, tirage
proportionnel `a un crit`ere de taille, . . . ) ou au niveau
de lexpression de lestimateur (techniques de redressement/calage).
Si plusieurs variables auxiliaires sont utilisees, on peut
recourir `a une technique mixte dans laquelle certaines
variables servent `a ameliorer le tirage de lechantillon,
et les autres `a ameliorer lestimateur.

8.2 POIDS DE SONDAGE


Lechantillon selectionne sert normalement `a effectuer
une inference sur la population.
Pour passer de lechantillon `a la population, on utilise
un poids attache `a chaque unite de lechantillon : `a chaque
unite i de lechantillon, on associe un poids wi.
Le poids le plus simple permettant deffectuer une estimation sans biais est le poids de sondage correspondant,
dans le cas de lestimation dun total, `a linverse de la probabilite dinclusion pi de lunite i (estimateur de HorvitzThompson) : pour tout i U ,
1
wi =
pi
Ces probabilites dinclusion dependant du plan de sondage
utilise, les poids de sondage dependent eux aussi du plan
de sondage mis en oeuvre.

8.3 CALAGE AUX MARGES


8.3.1 Introduction
Forme de redressement des estimations
Ajuste les poids de sondage de sorte que les estimations soient calees sur des totaux (ou moyennes)
connu(e)s : quel que soit lechantillon selectionne, on
estime parfaitement ces totaux (moyennes) connu(e)s ;
on supprime lerreur dechantillonnage dans lestimation des totaux (moyennes) connu(e)s.
Exemple
Population : individus dune certaine classe dages
Variable dinteret : Y
Variable auxiliaire : X sexe (xi = 1 si lindividu
i est un homme, xi = 0 si lindividu i est une femme)
- Le Recensement General de la Population fournit la
proportion reelle dhommes et de femmes dans la classe
dages consideree : 48% dhommes (X ) et 52% de
femmes.

On tire, par sondage PESR, un echantillon de n = 1000


individus afin destimer Y . Les poids de sondage sont
wi = p1i = f1 = Nn :
(
P
P
N
Y =
iS wi yi = n
iS yi = N y
Y = y
Cet echantillon permet aussi destimer la proportion
dhommes dans la classe dages consideree. Supposons
que lechantillon compte 500 hommes et 500 femmes :
1X
xi = 50% 6= 48% = X .
X = x =
n
iS

Le redressement revient `a modifier (redresser) les poids


de sondage (wi wi;red) de telle sorte que
1 X
X ;red =
wi;redxi = 48% = X
N
iS

Y;red

(calage sur la moyenne connue de X )


X
=
wi;redyi
iS

Y;red

Y;red
1 X
=
=
wi;redyi
N
N
iS

Idee (pari) sous-jacent


Si lestimateur (avec les poids de sondage redresses)
fournit la valeur exacte pour un param`etre relatif `a une
variable X que lon sait bien correlee avec la variable
dinteret Y, alors il doit logiquement fournir une tr`es
bonne estimation pour le param`etre dinteret inconnu
relatif `a Y.
Les redressements necessitent un choix judicieux
de linformation auxiliaire sur laquelle on effectue le
calage.
8.3.2 Buts du calage
Reduire les differences entre diverses sources destimations
Corriger le sous-denombrement (ou le sur-denombrement)
Jusqu`a un certain point, corriger la non-reponse totale
8.3.3 Methodes de calage
Le calage aux marges englobe :
estimation par quotient
estimation par regression
estimation par regression multiple
post-stratification
estimation par ratissage croise (raking ratio)
8

8.4 REDRESSEMENT SUR VARIABLES QUANTITATIVES


8.4.1 Introduction
Considerons le probl`eme de lestimation de Y , Y , . . . `a
partir dun echantillon aleatoire S `a partir duquel on calcule Y , Y , . . .
Si on dispose dune variable auxiliaire quantitative X
connue, comment lutiliser avec profit pour estimer Y , Y , . . . ?
Idee : Supposons que lon connaisse le total de X sur la
population :
X
X =
xi
iU

(si N est connu, il est equivalent de disposer de X =


X /N ).
Lechantillon S `a partir duquel on calcule Y , Y , . . . permet aussi dobtenir une estimation X de X , X de X .
Lidee du redressement est de rendre lestimation de Y
ou Y plus precise en corrigeant les poids de sondage de
telle sorte `a assurer la coherence des donnees par rapport
`a X , cest-`a-dire en prenant en compte la difference entre
la valeur reelle connue de X et la valeur de lestimation
X obtenue.
9

N.B.) Linformation sur X est utilisee au stade de lestimation (pas au stade de lechantillonnage).
Plusieurs methodes peuvent etre envisagees ; elles reposent sur les relations approximatives possibles entre Y
et X (utilisation de mod`eles lineaires).
8.4.2 Un exemple (Tryfos (1996), p.157)
Supposons quune compagnie de marketing cherche `a estimer le montant total des achats effectues par les hopitaux dune region donnee
pour environ 3 200 produits pharmaceutiques. Il y a 1 158 hopitaux
dans la region ; une liste de ces hopitaux est disponible.
Concentrons-nous sur un seul produit pharmaceutique (le produit Y )
et sur le probl`eme de lestimation du montant total (et du montant
moyen par hopital) des achats de ce produit sur une periode de temps
donnee (un mois, par exemple).
La table ci-dessous indique ce qui est connu et ce qui ne lest pas sur
la population. On connat notamment le nombre de lits dans chaque
hopital et donc aussi, par consequent, le nombre total de lits dans
lensemble des hopitaux (186 030).

10

Population des hopitaux


Hopital No.
Nombre de lits
Achats du produit Y
i
xi
yi ($000)
1
675
?
2
450
?
...
...
...
N = 1 158
1 500
?
Total
X = 186 030
Y =?
030
Y =?
X = 186
1 158 = 160.65
Il est raisonnable de supposer quil existe une relation entre le montant
Y des achats du produit Y effectues par un hopital au cours dun
mois et le nombre X de lits dans cet hopital : plus grand est lhopital
(plus il compte de lits), plus il aura tendance `a utiliser une grande
quantite du produit. On suppose donc que Y est approximativement
proportionnelle `a X :
Y
= X ,
o`u est une certaine constante inconnue.
La relation Y
= X signifie que, pour tout i U ,
yi
= xi,
ce qui implique que
(

Y
= X ,
Y
= X .

Puisque Y
= X et que le total X de la variable auxiliaire X dans
la population est connu, il suffit, pour estimer Y , de trouver une
estimation de : on prendra alors
X et Y = Y = X =
X
Y =
N
N
11

Supposons quun echantillon aleatoire simple de 3 hopitaux soit selectionne


par tirage PESR, et que cet echantillon consiste en les hopitaux 1, 2
et 1 158. Le tableau ci-dessous presente les donnees relatives `a cet
echantillon :
Hopital selectionne Nombre de lits Achats du produit Y
i
xi
yi($000)
1
675
500
2
450
350
1 158
1 500
1 100
2 625
1 950
Y
= X et Y
= X
Y
Y
=

=
X
X
On peut d`es lors estimer par
Y
Y
y
quot =
=
=
X
X
x
o`u Y , X , Y , X sont les estimateurs classiques des totaux et
moyennes-population de Y et de X dans le cas du tirage PESR.
On a alors
Y;quot = quotX

Y;quot = quotX .

et

Dans notre exemple :


quot =

y
x

1 950/3
2 625/3

650
875

= 0.7428

Y;quot = (0.7428)(186 030) = 138 183 ($000)


Y;quot =

138 183
1 158

= 119.329 ($000)
12

Cette methode destimation de Y et Y porte le nom de


methode destimation par le quotient (ratio).
8.4.3 Estimation par le quotient (ratio)
Supposons que X soit connu et donc, si N est connu, que
X soit connu.
Placons-nous dans le cadre general du tirage PISR.
(i) Tirage PISR
a) Hypoth`ese de base
Y
= X
(Y est approximativement proportionnelle `a X )

Y
= X
Y
Y

et
donc

=
=
X
X
Y
= X
Puisque X et X sont connus, il suffit, pour estimer Y
et Y , destimer . On prendra alors
X et Y;quot =
X.
Y;quot =
b) Estimation
Estimer par
Y
quot =
X
13

o`u Y et X sont les estimateurs de Horwitz-Thompson


de Y et X :
X yi
X xi
Y =
et X =
.
pi
pi
iS

iS

Cela donne alors


Y;quot
Y;quot
(
Y =

Y
N

Y
X

X = Y
= quot X =
X
X
Y
X
= quot X =
X = Y
X
X

et X =

X
N ).

Remarques
- On note que
X ;quot = X

X
= X
X

(calage sur le total connu X ) et


X
= X
X ;quot = X
X
(calage sur la moyenne connue X ).
- Poids de sondage initiaux : wi = p1i
Poids de sondage apr`es calage/redressement : wi

14

X
X

On trouve dans la litterature statistique une etude approfondie du biais et de lecart quadratique moyen de Y;quot.
On y retrouve aussi une etude de la situation dans laquelle
lestimateur par le quotient Y;quot est plus precis que lestimateur Y dans le cadre dune selection de lechantillon
par tirage PESR.
On montre par exemple que, dans le cas du tirage PESR :
 2
 
X ;corr
X Y;corr
1f

B(
Y;quot) = Y


n
2
X Y

B(
Y;quot) = 0 si, dans la population, les xi et yi
(i U ) sont lies par le mod`ele
yi = xi + ui
o`u les ui (i U ) sont de petites perturbations
sans
P
rapport avec les xi et de moyenne nulle ( N1 iU ui =
0), de telle sorte que = Y /X = Y /X (c`ad la
droite de regression des moindres carres de Y en X ,
dans la population, passe par lorigine et a une pente
egale `a = Y /X = Y /X ).

15

Dautre part, la droite de regression des moindres carres


de Y en X , dans la population, a pour equation
avec
+ x
y=
X Y
X
= Y
= 2
et
X
(minimisation du crit`ere des moindres carres dans la
population U ).
On montre que
EQM(
Y;quot) < Var(
Y )
si et seulement si
1 Y
1 Y
=
,
>
2 X
2 X
ce qui revient encore `a la condition
Y

<
2
(pente suffisamment forte et ordonnee `a lorigine suffisamment petite).
N.B.) En pratique, pour verifier si ces conditions sont
satisfaites, on utilise la droite de regression definie `a
partir de lechantillon S.

16

Remarque 1
Lorsquils disposent de la taille totale N de la population mais pas necessairement de variable auxiliaire X ,
les praticiens utilisent aussi assez souvent lestimateur
par le ratio
N
b
bY;quot = Y
b
N
o`u
X yi
X1
b
Y =
et N =
.
pi
pi
iS

iS

Cet estimateur permet un calage sur la taille N de la


population.
En effet, si Y est la variable indiquant lappartenance
`a la population U :

1 si i U
yi =
,
0 sinon
on a
X
N
b
b
= N.
Y =
1 = N et bY;quot = N
b
N
iU

17

Si lechantillonnage est `a probabilites egales et de taille


fixe (meme selon un plan complexe),
P
n
iU pi = n N p = n p = N = f
P N
b
=nN =N
N =
iS n

bY = b
bY;quot c`ad que lestimateur de Horwitz-Thompson
de Y est dej`a cale sur la taille de la population
Linteret de lestimateur par le ratio assurant le calage
sur N est quil permet destimer des structures de population selon les modalites dune variable qualitative
(proportions) de facon `a ce que la somme des proportions estimees fasse 1.
Supposons que U soit partitionnee en H classes
U1, U2, . . . , UH selon les modalites dune variable qualitative (sexe, profession, tranche dages, . . . ).
Les tailles N1, N2, . . . , NH de ces classes sont inconnues.
On desire estimer, pour tout h {1, . . . , H}, la proportion h = Nh/N dindividus de la population qui
appartiennent `a la classe Uh. Observons que
H
X

Nh = N et

h=1

H
X
h=1

18

h = 1.

En utilisant une variable indicatrice de lappartenance


`a Uh, lapproche de Horwitz-Thompson fournit lestimateur non biaise suivant :
X I[i Uh]
X 1
b
Nh =
=
pi
pi
iS

iSUh

bh
N
h =
N
On a
H
X

h=1
H
X
h=1

H
X
X 1 X1
b
b
Nh =
=
=N
pi
pi
h=1 iSUh

iS

b
N
h =
6= 1 .
N

Une solution `a ce probl`eme consiste `a prendre


N
bb
b
N
=
N
h;quot
h
b
N
et donc
bb
bh
N
N
h;quot
b

bh;quot =
=
.
b
N
N
Dans ce cas, on a bien
H
H
X
NX b
N b
bb
Nh =
N =N
N h;quot =
b
b
N h=1
N
h=1
19

et

H
X
h=1

bh;quot

H
b
N
1 X b
Nh =
=
=1.
b
b
N h=1
N

20

Remarque 2 : Estimation par le produit


Un estimateur alternatif `a Y;quot a ete propose lorsque X
est connu :
X
Y;prod = Y
X
De meme, si on connat X :
Y;prod

X
= Y
X

On montre que, dans le cas du tirage PESR,


 
X Y;corr 1f
B(
Y;prod) =
n
X

EQM(
Y;prod) < Var(
Y ) si et seulement si la droite
de regression des moindres carres de Y en X , dans la
population, a une pente
1 Y
1 Y

=
<
2 X
2 X
et, d`es lors, a une ordonnee `a lorigine
3Y
>

21

(ii) Tirage stratifie


a) Introduction
H strates relativement homog`enes
1
N1
Y;1
X ;1
PESR
n1
f1
Y;1
X ;1

... h
. . . Nh
. . . Y;h
. . . X ;h

. . . nh
. . . fh
. . . Y;h
. . . X ;h

... H
. . . NH
. . . Y;H
. . . X ;H

. . . nH
. . . fH
. . . Y;H
. . . X ;H

N
Y
X
n

Deux situations possibles :


1) Situation 1 : X est connu pour U
2) Situation 2 : X ;h est connu, pour tout h = 1, . . . , H

22

b) Dans la situation 1
Hypoth`ese de base :
Y
= X
(Y est approximativement proportionnelle `a X et la constante
de proportionnalite est la meme dans toutes les strates)
Etape 1 : estimation de par quot =
Y =
X =

H
X
Nh
h=1
H
X
h=1

Y;h =

Nh
X ;h =
N

H
X
Nh
h=1
H
X
h=1

o`u
yh

Nh
xh
N

Etape 2 : estimation (redressee) de Y par


X
(1)
Y;quot = quot X = Y
X
Remarques :
(1)

X ;quot = X (calage sur la moyenne connue X )


(1)

B(
Y;quot) = 0 si les droites de regression des moindres
carres de Y en X ont, dans chaque srate, la meme
pente = Y /X et passent par lorigine.
23

c) Dans la situation 2
Hypoth`ese de base : Dans chaque strate Uh (h {1, . . . , H}),
Y
= hX
(Y est approximativement proportionnelle `a X , mais la
constante de proportionnalite varie dune strate `a lautre)
Etape 1 : Pour tout h = 1, . . . , H, estimation de h par

Y;h

h;quot = o`u
X ;h

Y;h = y h

et

X ;h = xh

Etape 2 : Pour tout h = 1, . . . , H, estimation (redressee)


de Y;h par
X ;h
Y;h;quot = h;quot X ;h = Y;h
X ;h
Etape 3 : estimation de Y par
(2)
Y;quot

H
X
Nh
h=1

Y;h;quot

Remarques :
Pour tout h = 1, . . . , H : X ;h;quot = X ;h (calage sur
la moyenne connue X ;h)
24


(2)

X ;quot =
=

H
X
Nh
h=1
H
X
h=1

X ;h;quot

Nh
X ;h = X
N

(calage sur la moyenne connue X )


(2)

B(
Y;quot) = 0 si B(
Y;h;quot) = 0 pour tout h =
1, . . . , H, cest-`a-dire si les droites de regression des
moindres carres de Y en X dans chaque strate passent
par lorigine (et sont d`es lors de pente h = Y;h/X ;h).

25

d) Comparaison des situations 1 et 2


Dans la situation 1, on peut se contenter de connatre
la moyenne globale X .
Par contre, dans la situation 2, il faut connatre X ;h
pour tout h = 1, . . . , H.
(1)

(2)

Les deux estimateurs Y;quot et Y;quot sont concurrents. On peut montrer que
- si lechantillon est de petite taille n, le biais est
(1)
souvent plus faible avec Y;quot ;
- quelle que soit la taille n de lechantillon, lEQM
(2)
de Y;quot est generalement plus faible que celle de
(1)

Y;quot.

26

8.4.4 Estimation par la regression


Il existe des situations o`u la variable dinteret Y est approximativement liee lineairement `a une variable auxiliaire
connue X , mais Y ne tend pas vers zero lorsque X devient
nul (Y nest donc plus simplement proportionnelle `a X ).
Dans ce cas, il semble raisonnable de supposer que
Y
= + X
c`ad

yi
= + xi

pour tout i U .

On a alors
Y =

yi
=

iU

= N +

X
iU
X

( + xi)

xi = N + X

iU

et

Y
X
Y =
= + X
= +
N
N

Puisque X et X sont connus, il suffit, pour estimer Y et


Y , destimer et dans les relations ci-dessus sur base
des n paires dobservations (xi, yi) de lechantillon.
Estimation par la regression
27

Le principe de lestimation par la regression peut etre aisement


generalise au cas o`u
Y
= + 1X1 + . . . + J XJ
o`u X1, . . . , XJ sont J variables auxiliaires connues.

28

8.5 REDRESSEMENT SUR VARIABLES QUALITATIVES


(post-stratification)
Considerons une situation dans laquelle un echantillon aleatoire
stratifie serait souhaitable, mais les unites statistiques ne
peuvent etre assignees aux differentes strates quune fois
lechantillon preleve.
Exemple
Considerons une enquete des menages dune ville en vue
destimer le montant moyen des depenses menag`eres annuelles pour des reparations ou ameliorations de lhabitat (maison). Puisque lon peut sattendre `a ce que ces
depenses soient correlees `a lage de la residence du menage,
il serait souhaitable de pouvoir stratifier les residences de
la ville en differents groupes dages.
Nous supposerons ici quil y a une seule residence par
menage et un seul menage par residence.
On dispose dune liste de toutes les residences de la ville,
indiquant ladresse exacte - mais pas lage - de chaque
residence. Il est donc impossible, sur base de cette liste,
de prelever un echantillon aleatoire de residences stratifie
suivant lage.

29

Par contre, il est possible, `a partir de certains fichiers relatifs aux impots sur la propriete preleves par letat, de
determiner le nombre de residences de la ville dans differents
groupes dages. On connat donc la taille des different(e)s
strates/groupes dages, mais on ne peut pas classer a priori
les residences de la ville dans ces differentes strates.
Dans cette situation, il sera possible de selectionner un
echantillon aleatoire simple (par tirage PESR) de residences
et donc de menages, de determiner ensuite pour chaque
menage selectionne lage de sa residence, de classifier ainsi
a posteriori les residences selectionnees dans les differents
groupes dages et de calculer enfin lestimateur post-stratifie
du montant moyen auquel on sinteresse.

30

8.5.1 Introduction
Variable dinteret : Y
Echantillon PESR de taille n : S
Estimation de Y ou Y :
1X
Y =
yi = y
n

et

Y = N y

iS

Prise en compte a posteriori dune partition de U en H


strates deffectifs N1, . . . , NH connus
Peut-on ameliorer lestimation de Y et Y en utilisant
cette information ?

31

8.5.2 Notations
a) Population
U = U1 . . . UH
et Uh Ul = pour tout h 6= l {1, . . . , H}
P

Y;h = iUh yi et Y;h = NY;h


h
P
2
Y;h;corr
= N 11 iUh (yi Y;h)2
h
PH
PH Nh
Y = h=1 Y;h et Y = h=1 N Y;h =

Y
N

b) Echantillon
S(h) = S Uh :
partie de S incluse dans la strate h (h = 1, . . . , H)
nh = effectif de S(h) :
cet effectif est aleatoire ! !
P
1
yh = n
iS(h) yi
h
P
1
2
sY;h;corr = n 1 iS(h) (yi y h)2
h

32

8.5.3 Estimateurs post-stratifies


a) Estimation de Y et Y
Estimateur :
Y;post =

H
X

Nh y h

h=1
H

Y;post

Y;post X Nh
=
=
y
N
N h
h=1

Remarques :
1) Lestimateur post-stratifie est calcule exactement de la
meme facon que lestimateur stratifie
MAIS les observations resultent dun echantillonnage
simple, et non pas stratifie.
2) Les poids Nh/N sont supposes connus pour tout h =
1, . . . , H
3) La post-stratification est une methode de calage sur les
effectifs Nh. En effet,
 soit Xk , la variable indicatrice de lappartenance `a
la strate k :

1 si lindividu i strate k
xk,i =
0 sinon
33

 Xk =

xk,i = Nk : param`etre connu


P
 Xk ;post = H
h=1 Nh xk,h
o`u xk,h est la moyenne arithmetique de la variable
Xk parmi les individus appartenant au sous-echantillon
(post-strate) S(h) :

1 si k = h
xk,h =
0 si k 6= h
iU

D`es lors,
Xk ;post =

Nh 0 + Nk = Nk = X k .

h6=k

4) La post-stratification est moins exigeante en information auxiliaire que la stratification, car le sondeur na
pas besoin de connatre linformation auxiliaire pour
chaque individu de la population, mais seulement un
resume de cette information au travers des effectifs totaux Nh, h = 1, . . . , H.
Caract`ere aleatoire de Y;post : 2 niveaux daleas :
Niveau 1 : {n1, . . . , nH }
Niveau 2 : unites selectionnees appartenant `a la strate
h : {S(1), . . . , S(H)}

34

Esperance mathematique de Y;post :


On montre que
E(
Y;post) = Y
Y;post est un estimateur non biaise de Y
Variance de Y;post :
cf. litterature statistique
Exemple (suite)
Un EAS de 1 200 residences/menages a ete selectionne `a
partir de la liste des 45 000 residences de la ville. Deux des
questions du questionnaire etaient formulees comme suit :
5. Quand votre residence a-t-elle ete construite ?
5.a Il y a moins de 5 ans.
5.b Il y a entre 5 et 10 ans.
5.c Il y a plus de 10 ans.
17. A combien sel`event vos depenses menag`eres de lannee
passee pour des reparations ou ameliorations/amenagements
de votre residence ? $
Le tableau ci-dessous resume linformation utile. Les nombres
dans la 2`eme colonne proviennent de fichiers relatifs aux
impots sur la propriete.
35

Population des residences


Age de la
Nombre de
residence
residences, Nh
Moins de 5 ans
5 000
Entre 5 et 10 ans
15 000
Plus de 10 ans
25 000
45 000

Nh/N
0.111
0.333
0.556
1

Echantillon des residences/


menages
nh
y h s2Y;h s2Y;h;corr
140 350 610
614
420 675 750
752
640 920 940
941
1 200

Lestimation post-stratifiee du montant moyen des depenses


annuelles des menages pour des reparations ou amenagements
de leur residence est
Y;post = (0.111) 350 + (0.333) 675 + (0.556) 920
= $ 775.14

36

Autre exemple
Considerons une enquete sur le revenu mensuel, o`u on
decide de post-stratifier sur une variable tranche dages.
Le choix dune telle variable auxiliaire est lie `a la forte
correlation qui existe de mani`ere evidente entre lage et le
revenu.
On tire lechantillon par sondage PESR et on va consulter le Recensement pour obtenir la repartition Nh/N suivante :
< 20 ans 21-35 ans 36-50 ans > 50 ans
Nh/N
20%
35%
30%
15%
Dans lechantillon, les effectifs sont tels que la repartition
nh/n est la suivante :
< 20 ans 21-35 ans 36-50 ans > 50 ans
nh/n
15%
30%
30%
25%
yh
900
1 350
2 250
1 800
Si non ne redresse pas sur lage, alors on estime le revenu
mensuel moyen dans la population par
y =

H
X
nh
h=1

yh

= (0.15)900 + (0.30)1 350 + (0.30)2 250 + (0.25)1 800


= 1 665 Euros
37

Si on redresse selon la tranche dages, alors on estime le


revenu mensuel moyen dans la population par
Y;post =

H
X
Nh
h=1

yh

= (0.20)900 + (0.35)1 350 + (0.30)2 250 + (0.15)1 800


= 1 597.5 Euros
En labsence de post-stratification, le revenu mensuel moyen
aurait donc ete estime `a un montant plus eleve. En effet, on
constate que, sous leffet du hasard, lechantillon comprend trop de personnes de plus de 50 ans. Or,celles-ci
ont un revenu mensuel moyen relativement eleve, et leur
sur-representation tire la moyenne generale vers des valeurs trop elevees.
Les deux estimateurs sont sans biais, mais lestimateur
post-stratifie est plus precis.

38

8.5.4 Comparaisons
a) Comparaison avec PESR
Si N est grand :
 H
1 f X Nh
(Y;h Y )2
Var(
Y ) Var(
Y;post) =
n
N
h=1

X

H 
1f
Nh
2

1
Y;h;corr
nN
N


h=1

La difference Var(
Y ) Var(
Y;post) est positive et dautant plus grande que les moyennes Y;h sont dispersees et
2
que les Y;h;corr
sont faibles.
Toutefois, la difference entre les 2 variances est petite
lorsque lechantillon est de grande taille. Ceci sexplique
par le fait que, lorsque la taille n de lechantillon aleatoire
simple `a partir duquel est calcule lestimateur post-stratifie
est grande, on peut sattendre `a ce que la proportion des individus selectionnes qui appartiennent `a une certaine strate
Uh soit approximativement egale `a la proportion dindividus
de la population qui appartiennent `a cette strate, cest-`adire
n h Nh
.
=
n
N
39

En dautres termes, lorsque n est grand, on peut sattendre


`a ce que lestimateur PESR et lestimateur post-stratifie
soient tr`es proches lun de lautre.
b) Comparaison avec STP
Var(
Y;post) Var(
Y;STP) 0
Pour une meme taille n dechantillon, la precision de lestimateur post-stratifie est toujours moins bonne que celle de
lestimateur base sur un echantillon stratifie proportionnel.
Cependant, la difference entre les 2 variances est petite
lorsque lechantillon est de grande taille.

40

8.5.5 Conclusion
Si le hasard ne nous a pas fait selectionner un echantillon
comprenant des individus trop particuliers, les expressions
des poids de sondage avant et apr`es redressement devraient
donner lieu `a des valeurs numeriques voisines.
Les praticiens ont parfois tendance `a eprouver une certaine
deception lorsque la phase de redressement ne modifie que
tr`es peu leurs estimations. Cette attitude est quelque peu
illogique car une telle constatation est plutot de bon augure et tend `a prouver que lechantillon tire a une bonne
composition.
Par ailleurs, ils peuvent avoir tendance, apr`es avoir realise
un nombre important denquetes pour lesquelles le redressement ne modifiait rien ou presque rien, `a accorder une
confiance excessive `a lechantillonnage et `a ne plus engager du tout de procedure de redressement. Il va sans dire
que cette attitude est particuli`erement dangereuse, car il
est necessaire de maintenir une veille critique vis-`a-vis des
eventuels caprices du hasard.

41