Vous êtes sur la page 1sur 5

Nouvelles techniques d'échantillonnage et

de redressement

Exercice 1 : Redressement

Dans une population de taille 40000, on sélectionne un échantillon


de taille 4000 selon un plan aléatoire simple sans remise. On s'intéresse
à une variable d'intérêt Y . L'objectif est d'estimer la moyenne des va-
leurs prises par cette variable dans la population. On connaît en outre
la moyenne de la population µ = 9965 d'une variable auxiliaire X .
L'échantillon nous fournit les résultats suivants :
x

y = 900, x = 10000, s = 4000000, s = 62500 et s = 360000


2
x
2
y xy

1) Estimez la moyenne µ en utilisant les estimateurs suivants :


le π-estimateur, l'estimateur par Ratio et l'estimateur par la
y

régression.
2) Estimez la précision de ces trois estimateurs.
3) Commentez ce résultat. Quel estimateur choisissez-vous pour
estimer µ .
y

1
2

Exercice 2 : Estimateur par calage

On réalise une enquête auprès de couples de personnes. En utilisant


l'estimateur de Horvitz-Thompson (poids individuels : d = ), on 1

obtient les résultats suivants :


k πk

 Nombre estimé de couples ne comprenant aucune personne ac-


tive : X 1
N
b0 = = 3000
πk
 Nombre estimé de couples comprenant une seule personne ac-
k∈s0

tive : X 1
N
b1 = = 6000
πk
 Nombre estimé de couples comprenant deux personnes actives :
k∈s1

X 1
N
b2 = = 2000
πk
avec s , s et s sont les sous-échantillons de couples comprenant res-
k∈s 2

pectivement 0 personne active, 1 personne active et 2 personne active


0 1 2

(l'échatillon s est la réunion des sous-échantillons s , s et s ). On


0 1 2

dispose de l'information auxiliaire suivante :


 N = 10000, nombre de couples dans la population;
 t = 12000, nombre de personnes actives dans la population.
x

On désire améliorer par calage sur N et t l'estimateur de Horvitz-


Thompson.
x

(1) Identier les deux variables intervenant dans le calage.


(2) On note λ = (a, b) le vecteur des multiplicateurs de Lagrange,
0

et x le nombre d'actifs dans le couple k. Donner l'expression


du rapport des poids (ou facteur de calage) en fonction de a, b
k2

et x .
Ecrire les deux équations de calage pour une fonction F quel-
k

conque, et montrer qu'elles ne dépendent des poids initiaux que


par l'intermédiaire de Nb , Nb et Nb .
0 1 2

(3) On choisit la méthode linéaire (estimation par régression). Ré-


soudre les équations de calage et donner les valeurs des rapports
de poids.
3

Corrigé des exercices

Exercice 1

On est dans le cas d'un sondage aléatoire simple


1) Les estimations de la moyenne µ selon ces trois estimateurs
sont
y

µ
byπ = y = 900
µ
byπ y
µ
byR = µx = µx = 896, 85
µ
bxπ x
sxy
µ
bygreg byπ + bb (µx − µ
=µ bxπ ) = y + 2 (µx − x) = 896, 85
sx

2) Les estimateurs de la précision de ces trois estimateurs sont don-


nés par :
1−f 2
vd
ar (b
µyπ ) = s = 14, 0625
n y
1−f  2 
b2 s2 = 6, 7725
EQM
\ (b µyR ) = sy + 2Rsxy + R x
n
"  2 #
1−f 2 sxy
vd
ar (b
µygreg ) = s 1− = 6, 7725
n y sy sx
3) L'estimateur par le quotient est égal à l'estimateur par la régres-
sion car la droite de régression passe par l'origine. On préférera
l'estimateur par le quotient qui est plus simple.
Exercice 2

(1) Les variables de calage : on cale sur les totaux dans la population
suivants
 N =nombre de couples
 t = nombre de personnes actives
D'où, les variables de calage observées sur le couple k sont :
z

 x = 1 quel que soit le couple k


 x =nombre d'actifs dans le couple k
k1
k2
4

(2) Les rapport de poids pour le couple k sont donnés par


wk
= F (axk1 + bxk2 ) = F (a + bxk2 )
dk
Les équations de calage sont données par :
( P
k∈s dk F (axk1 + bxk2 )xk1 = N
P
dk F (axk1 + bxk2 )xk2 = tx
soit
k∈s

( P
k∈s dk F (a + bxk2 ) = 10000
P
dk F (a + bxk2 )xk2 = 12000
et x sont les valeurs des variables numériques. On cale
k∈s
xk1 k2

sur les totaux de deux variables numériques. Néanmoins, x


ne prend que 3 valeurs : 0, 1, 2. Soit s le sous-échantillon des
k2

couples sans actifs, s celui des couples ayant 1 actif, s celui


0

des couples de 2 actifs. Ainsi, les équations de calage peuvent


1 2

( P
s'écrire : P P
k∈s0 dk F (a) + k∈s1 dk F (a + b) + k∈s2 dk F (a + 2b) = 10000
P P
dk F (a + b) + dk F (a + 2b)2 = 12000
soit
k∈s1 k∈s2

 N
b0 F (a) + N
b1 F (a + b) + N
b2 F (a + 2b) = 10000
 N
b1 F (a + b) + 2N
b2 F (a + 2b) = 12000
Ainsi, quel que soit la fonction du calage F , les équations du
calage sont
(
:
3F (a) + 6F (a + b) + 2F (a + 2b) = 10
6F (a + b) + 4F (a + 2b) = 12

(3) Pour la fonction de distance linéaire, on a F (u) = 1 + u et les


équations
(
du calage deviennent :
3(1 + a) + 6(1 + a + b) + 2(1 + a + 2b) = 10
6(1 + a + b) + 4(1 + a + 2b) = 12
soit (
11a + 10b + 1 = 10
10a + 14b − 2 = 12
Ainsi, on trouve 17
a = − 27 et
b = 16
27
Les rapports de poids sont
5

donnés par : wk
= F (a + bxx2 )
Les rapports de poids sont les mêmes pour tous les individus
dk

ayant les mêmes valeurs des variables de calage. Ici, la première


variable de calage (x ) est une constante, donc varie en fonc-
wk

tion de x .
k1 dk
k2

wk
xk2
0 0.37dk

1 0.96
2 1.55