Académique Documents
Professionnel Documents
Culture Documents
Support de cours
Initiation ` a la th eorie des sondages
Anne Ruiz-Gazen
Formation INED
Slide 2
_
Y =
5 + 8 + 10 + 12 + 15
5
= 10
plan SASSR, n = 2
Echantillons possibles de taille n = 2 et estimations de
Y par y =
y
1
+ y
2
2
:
y
1
5 5 5 5 8 8 8 10 10 12
y
2
8 10 12 15 10 12 15 12 15 15
y 6.5 7.5 8.5 10 9 10 11.5 11 12.5 13.5
1
Slide 3
_
Remarques et Vocabulaire :
Echantillon de taille n : partie de taille n de la population.
plan SASSR = plan sans remise ( avec remise donc ind ependance si N est grand),
Taux de sondage= f =
n
N
= probabilit e pour chaque observation d etre tir ee dans l echantillon
(probabilit e dinclusion).
plan SASSR = plan ` a probabilit es egales ( equiprobabilit e).
Poids de sondage associ e ` a une observation : inverse de la probabilit e dinclusion de
lobservation.
plan SASSR =
N
n
.
Estimateur par les valeurs dilat ees :
y =
n
i=1
y
i
n
=
N
N
n
i=1
y
i
n
=
1
N
n
i=1
N
n
y
i
Exemple : y =
1
5
_
5
2
y
1
+
5
2
y
2
+
5
2
y
3
_
Slide 4
_
1.2 Biais
Propri et e : la moyenne des y sur lensemble des echantillons est
Y . On dit que y est sans biais.
Exemple : y 6.5 7.5 8.5 10 9 10 11.5 11 12.5 13.5
6.5 + 7.5 + 8.5 + 10 + 9 + 10 + 11.5 + 11 + 12.5 + 13.5
10
= 10
sans biais signie que le r esultat est bon en moyenne mais pas que le r esultat obtenu ` a partir
dun echantillon est exact.
Cas 1 Cas 2 Cas 3
Figure 1: Biais et pr ecision
2
Slide 5
_
i=1
(Y
i
Y )
2
Ecart-type (standard deviation) : racine carr e de la variance (m eme unit e que la variable).
Variance de y pour un plan SASSR :
_
\
V( y) = (1 f)
S
2
n
dautant plus petite que :
la taille de l echantillon est grande (n),
la dispersion des donn ees pour la variable consid er ee est grande (S
2
),
le taux de sondage est grand (f).
Slide 6
_
Remarques :
La taille N et le taux f ont peu dinuence sur la pr ecision.
Exemple :
N
1
= 1000 n
1
= 100 f
1
= 0.1 S
2
1
= 40
N
2
= 100000 n
2
= 1000 f
1
= 0.01 S
2
2
= 40
V( y
1
) = 0.9
40
100
= 0.60
V( y
2
) = 0.99
40
1000
= 0.20
Le fait que la variable dint er et soit peu ou tr` es dispers ee a beaucoup dinuence sur la pr ecision.
Exemple :
N
1
= 1000 n
1
= 200 f
1
= 0.2 S
2
1
= 80
N
2
= 1000 n
2
= 100 f
1
= 0.1 S
2
2
= 20
V( y
1
) = 0.8
80
200
= 0.32
V( y
2
) = 0.9
20
100
= 0.18
3
Slide 7
_
V( y) =
S
2
n
et
_
V( y) =
S
n
est lerreur standard (standard error) des Y
i
.
Le calcul de la variance V d epend de la valeur de S
2
qui est inconnue.
On estime S
2
par s
2
=
1
n 1
n
i=1
(y
i
y)
2
et V( y) par
V( y) = (1 f)
s
2
n
Slide 8
_
V( p) = (1 f)
p(1p)
n
0
0.05
0.1
0.15
0.2
0.25
0 0.5 1
p(1-p)
Figure 2: p p(1 p)
Maximum de p(1 p) = 1/4 (en p = 1/2)
utiliser la valeur S
2
= 1/4 dans calculs de
pr ecision de proportions (pire des cas).
4
Slide 9
_
Y
_
y 1.96
_
V( y) ; y + 1.96
_
V( y)
_
Petit exemple : n = 100, y = 11, s
2
= 36,
IC de
Y ` a 95% =
_
11 2
_
36/100 ; 11 + 2
_
36/100
_
= [9.8 ; 12.2].
Pr ecision absolue : demi-longueur de lintervalle de conance ` a 95% 2
_
V( y).
Petit exemple : 1.2
Pr ecision relative :
2
_
V( y)
y
Petit exemple : 1.2/11 = 10.9 %
Cas particulier dune proportion : pr ecision absolue dans le pire des cas = 1/
n, voir aussi
tableau extrait de Dussaix et Grosbras, Que sais-je ? 701, page 28.
5
Slide 11
_
V( y) d
= 2
_
(1 f)
S
2
n
d
dans le cas o` u N est grand (1 f 1) : n
0
=
4 S
2
d
2
,
dans le cas g en eral : n =
1
1
n
0
+
1
N
6
Slide 13
_
i=1
Y
i
, on a :
Y = N y
V(
Y ) = N
2
V( y)
Slide 14
_
Exemples avec le logiciel SAS : utilisation des proc edures surveyselect et surveymeans
1. tirage dans base de communes de Midi-Pyr en ees (source : rescencement 99) dun echantillon
selon plan SASSR, estimation ponctuelle et par intervalle de conance du nombre total de
logements vacants (10768).
2. tirage selon plan SASSR dans la base p edagogique (centre Qu etelet) extraite de lenqu ete
Emploi 2001, estimation ponctuelle et par intervalle de conance de la proportion dagriculteurs
dans la population active (4.2%).
Remarque : pour un plan SASSR, diff erences avec proc edure means dans
- possibilit e destimer un total et
- prise en compte du facteur (1 f).
7
Slide 15
_
1. /
*
Plan de sondage simple
*
/
title1 Logement Hte Gne (rec99) : plan simple;
proc surveyselect data=aussois.rec99htegne method=srs n=70 stats
seed=47279 out=logsi;
run;
title1 Logement Hte Gne (rec99); title2 Total estime log vacants
Plan SASSR; proc surveymeans data=logsi total=554 sum clm;
var logvac;
weight Samplingweight;
run;
Slide 16
_
R ecapitulatif
2
U, N, Y, S
n, y, s
2
_
\
V( y) = (1 f)
S
2
n
et
V( y) = (1 f)
s
2
n
9
Slide 19
_
2 Plan strati e
2.1 Principe
Id ee : on veut eviter les mauvais echantillons qui sont possibles avec un plan SASSR.
Exemples :
1. etude sur la consommation dalcool, diff erences entre hommes et femmes,
2. petit exemple :
y
1
5 5 5 5 8 8 8 10 10 12
y
2
8 10 12 15 10 12 15 12 15 15
y 6.5 7.5 8.5 10 9 10 11.5 11 12.5 13.5
Objectif : eviter de tirer que des petites ou que des grosses factures.
Slide 20
_
On d ecoupe la population en sous populations ou strates et on effectue des tirages ind ependants
dans chaque strate. On sint eresse ` a des plan SASSR dans chaque strate (notation : plan STSASSR).
n , y , s
h h h
2
U , N , Y , S
h h h h
2
Figure 4: Plan strati e
10
Slide 21
_
Formules :
Y =
H
h=1
N
h
N
Y
h
y
st
=
H
h=1
N
h
N
y
h
V( y
st
) =
H
h=1
N
h
N
V( y
h
) =
H
h=1
N
h
N
1 f
h
n
h
S
2
h
V( y
st
) =
H
h=1
N
h
N
V( y
h
) =
H
h=1
N
h
N
1 f
h
n
h
s
2
h
Slide 22
_
h=1
N
h
N
V( y
h
) =
1 f
n
1
N
H
h=1
N
h
S
2
h
pour N
h
grand ( 10) car
S
2
1
N
H
h=1
N
h
S
2
h
+
1
N
H
h=1
N
h
( y
h
y)
2
Variance totale = variance intra-strates + variance inter-strates
11
Slide 23
_
Si on pose
2
=
variance inter-strates
variance totale
, on a V( y
st
) =
1 f
n
S
2
(1
2
)
donc, plus les strates sont homog` enes, plus la stratication est efcace.
Petit exemple :
N
1
= 40000 N
1
/N = 0.8 n
1
= 160 y
1
= 12 s
2
1
= 85 s
1
= 9.22
N
2
= 10000 N
2
/N = 0.2 n
2
= 40 y
2
= 58 s
2
2
= 930 s
2
= 30.50
y
st
= y = 0.8 12 + 0.2 58 = 21.2 ,
V( y
st
) 0.64 85/160 + 0.04 930/40 = 1.27,
IC de
Y ` a 95% : [21.2
1.27 ; 21.2 +
H
h=1
N
h
N
S
h
On va augmenter les effectifs echantillonn es dans les strates o` u la variabilit e est grande et
diminuer les effectifs echantillonn es dans les strates homog` enes.
12
Slide 25
_
Cas particulier dune proportion : (si co uts identiques dans chaque strate)
le gain en pr ecision dun plan strati e proportionnel par rapport ` a un plan simple est faible
tant que les proportions p
h
ne varient pas fortement entre les strates.
Exemple : H = 3, pr ecision relative = variance plan SASSR / variance plan STSASSR
p
h
0.4, 0.5, 0.6 0.3, 0.5, 0.7 0.2, 0.5, 0.8 0.1, 0.5, 0.9
Pr ecision relative (en %) 103 112 132 174
le gain dun plan strati e optimal par rapport ` a un plan strati e proportionnel est faible si les
proportions varient entre 0.1 et 0.9.
Exemple : H = 2
p
h
0.4 ou 0.6 0.3 ou 0.7 0.2 ou 0.8 0.1 ou 0.9 0.05 ou 0.95
Pr ecision relative (en %) 100 99.8 98.8 94.1 86.6
(Cochran, Sampling techniques, p.109)
Slide 26
_
Exemple : tirage selon plan STSASSR dans la base p edagogique (centre Qu etelet) extraite de
lenqu ete Emploi 2001, estimation de la proportion dagriculteurs dans la population active.
Stratication selon tranche dunit e urbaine en 5 postes (tur5) :
affectation proportionnelle (gain modeste)
affectation optimale (gain plus substantiel)
On a p = 4.2% et selon tur5 : p
1
= 11.7%, p
2
= 3%, p
3
= 1.2%, p
4
= 0.4% et p
5
= 0%.
Variable Label N Mean Std Dev
SASSR agri_Mean Mean for agri 100 0.042 0.008
STSASSR Allocation proport agri_Mean Mean for agri 100
0.042 0.0059 optimale agri_Mean Mean for agri 100 0.042
0.0026
13
Slide 27
_
Remarques :
logique de construction des UP contraire ` a la logique de construction de strates (une UP devrait
regrouper des individus diff erents alors quune strate devrait regrouper des individus
semblables). Le mieux est de combiner une stratication pour s eparer comportements tr` es
diff erents avec un d ecoupage en UP (strate par strate).
taille echantillons : ` a (m n) x e, pr ef erable de choisir m maximum et donc n minimum.
pour le plan classique, si les les UP ont la m eme taille, sondage autopond er e (estimation dune
moyenne = moyenne usuelle sur l echantillon).
15
Slide 31
_
N
_
(
N 1)
_
Remarques :
- D` es que
2
> 1/
N, on perd en pr ecision par rapport au plan SASSR.
- Leffet de grappe existe aussi pour un plan ` a deux degr es quelconque et il est g en eralement mesur e
par un coefcient de corr elation intra-grappe qui vaut (
2
1/
N) lorsque les UP sont de m eme
taille.
Slide 32
_
4.3.2 Premier degr e = plan avec remise proportionnel ` a la taille des grappes
Notons N
i
la taille de la grappe i = 1, . . . , M et N la taille totale de la population.
Consid erons A
i
= N
i
/N la probabilit e de tirer une grappe et notons
Y
i
la moyenne de la variable Y
pour la grappe i. On a simplement :
y =
1
m
m
i=1
Y
i
V( y) =
1
m(m1)
m
i=1
(
Y
i
y)
2
Remarque : on a le m eme r esultat pour un plan ` a deux degr es quelconque avec y
i
(estim es ` a partir
des echantillons du second degr e) ` a la place de
Y
i
.
16