Vous êtes sur la page 1sur 16

Slide 1

Support de cours
Initiation ` a la th eorie des sondages
Anne Ruiz-Gazen
Formation INED
Slide 2
_

1 Plan de sondage simple (SASSR)


1.1 Principe
Pour une population de taille N et une taille d echantillon x ee ` a n, tous les echantillons ont la
m eme probabilit e d etre tir es.
Petit exemple : moyenne des montants des factures de vente dune soci et e en euros, N = 5
5 8 10 12 15

Y =
5 + 8 + 10 + 12 + 15
5
= 10
plan SASSR, n = 2
Echantillons possibles de taille n = 2 et estimations de

Y par y =
y
1
+ y
2
2
:
y
1
5 5 5 5 8 8 8 10 10 12
y
2
8 10 12 15 10 12 15 12 15 15
y 6.5 7.5 8.5 10 9 10 11.5 11 12.5 13.5
1
Slide 3
_

Remarques et Vocabulaire :
Echantillon de taille n : partie de taille n de la population.
plan SASSR = plan sans remise ( avec remise donc ind ependance si N est grand),
Taux de sondage= f =
n
N
= probabilit e pour chaque observation d etre tir ee dans l echantillon
(probabilit e dinclusion).
plan SASSR = plan ` a probabilit es egales ( equiprobabilit e).
Poids de sondage associ e ` a une observation : inverse de la probabilit e dinclusion de
lobservation.
plan SASSR =
N
n
.
Estimateur par les valeurs dilat ees :
y =

n
i=1
y
i
n
=
N
N

n
i=1
y
i
n
=
1
N
n

i=1
N
n
y
i
Exemple : y =
1
5
_
5
2
y
1
+
5
2
y
2
+
5
2
y
3
_
Slide 4
_

1.2 Biais
Propri et e : la moyenne des y sur lensemble des echantillons est

Y . On dit que y est sans biais.
Exemple : y 6.5 7.5 8.5 10 9 10 11.5 11 12.5 13.5
6.5 + 7.5 + 8.5 + 10 + 9 + 10 + 11.5 + 11 + 12.5 + 13.5
10
= 10
sans biais signie que le r esultat est bon en moyenne mais pas que le r esultat obtenu ` a partir
dun echantillon est exact.
Cas 1 Cas 2 Cas 3
Figure 1: Biais et pr ecision
2
Slide 5
_

Important de savoir si lensemble des r esultats possibles est proche de la cible



Y notion de
pr ecision et de risque d echantillonnage bas e sur la dispersion des r esultats possibles y.
1.3 Pr ecision
Rappels et notations : variance = mesure de dispersion
Variance des Y
i
, i = 1, . . . , N =
1
N 1
N

i=1
(Y
i


Y )
2
Ecart-type (standard deviation) : racine carr e de la variance (m eme unit e que la variable).
Variance de y pour un plan SASSR :
_
\

V( y) = (1 f)
S
2
n
dautant plus petite que :
la taille de l echantillon est grande (n),
la dispersion des donn ees pour la variable consid er ee est grande (S
2
),
le taux de sondage est grand (f).
Slide 6
_

Remarques :
La taille N et le taux f ont peu dinuence sur la pr ecision.
Exemple :
N
1
= 1000 n
1
= 100 f
1
= 0.1 S
2
1
= 40
N
2
= 100000 n
2
= 1000 f
1
= 0.01 S
2
2
= 40
V( y
1
) = 0.9
40
100
= 0.60
V( y
2
) = 0.99
40
1000
= 0.20
Le fait que la variable dint er et soit peu ou tr` es dispers ee a beaucoup dinuence sur la pr ecision.
Exemple :
N
1
= 1000 n
1
= 200 f
1
= 0.2 S
2
1
= 80
N
2
= 1000 n
2
= 100 f
1
= 0.1 S
2
2
= 20
V( y
1
) = 0.8
80
200
= 0.32
V( y
2
) = 0.9
20
100
= 0.18
3
Slide 7
_

Si N est grand (f 1),


_
`

V( y) =
S
2
n
et
_
V( y) =
S

n
est lerreur standard (standard error) des Y
i
.
Le calcul de la variance V d epend de la valeur de S
2
qui est inconnue.
On estime S
2
par s
2
=
1
n 1
n

i=1
(y
i
y)
2
et V( y) par

V( y) = (1 f)
s
2
n
Slide 8
_

Cas particulier : estimation dune proportion


Variable dint er et : Y
i
=
_
_
_
1 si lindividu i v erie A
0 sinon
p =

Y = proportion dindividus v eriant A et S
2
=
N
N 1
p(1 p) p(1 p)
_
\

V( p) = (1 f)
p(1p)
n
0
0.05
0.1
0.15
0.2
0.25
0 0.5 1
p(1-p)
Figure 2: p p(1 p)
Maximum de p(1 p) = 1/4 (en p = 1/2)
utiliser la valeur S
2
= 1/4 dans calculs de
pr ecision de proportions (pire des cas).
4
Slide 9
_

Utilisation des formules de variance


1. Pour calculer la pr ecision de lestimateur :
Hypoth` ese : la loi de y est une loi Normale
donc
y

Y
_
V( y)
suit une loi normale de moyenne nulle et d ecart-type egal ` a 1
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-1.96 0 1.96
95%
Figure 3: Loi normale
Slide 10
_

Intervalle de conance ` a 95%:

Y
_
y 1.96
_

V( y) ; y + 1.96
_

V( y)
_
Petit exemple : n = 100, y = 11, s
2
= 36,
IC de

Y ` a 95% =
_
11 2
_
36/100 ; 11 + 2
_
36/100
_
= [9.8 ; 12.2].
Pr ecision absolue : demi-longueur de lintervalle de conance ` a 95% 2
_

V( y).
Petit exemple : 1.2
Pr ecision relative :
2
_

V( y)
y
Petit exemple : 1.2/11 = 10.9 %
Cas particulier dune proportion : pr ecision absolue dans le pire des cas = 1/

n, voir aussi
tableau extrait de Dussaix et Grosbras, Que sais-je ? 701, page 28.
5
Slide 11
_

Pr ecision absolue de lestimation dune proportion en %.


n p 5% ou 95% 10% ou 90% 20% ou 80% 30% ou 70% 40% ou 60% 50%
100 8 9.2 9.8 10
200 4.3 5.7 6.5 6.9 7.1
300 2.5 3.5 4.6 5.3 5.7 5.8
400 2.2 3 4 4.6 4.9 5
500 2 2.7 3.6 4.1 4.4 5
1000 1.4 1.8 2.5 2.9 3 3.1
2000 1 1.3 1.8 2.1 2.2 2.3
3000 0.8 1.1 1.4 1.6 1.8 1.8
5000 0.6 0.8 1.1 1.3 1.4 1.4
10000 0.4 0.6 0.8 0.9 1 1
Slide 12
_

2. Pour d eterminer la taille de l echantillon si on se xe une pr ecision absolue d soit :


2
_

V( y) d
= 2
_
(1 f)
S
2
n
d
dans le cas o` u N est grand (1 f 1) : n
0
=
4 S
2
d
2
,
dans le cas g en eral : n =
1
1
n
0
+
1
N
6
Slide 13
_

Remarque : si on cherche ` a estimer un total Y =


N

i=1
Y
i
, on a :

Y = N y
V(

Y ) = N
2
V( y)
Slide 14
_

Exemples avec le logiciel SAS : utilisation des proc edures surveyselect et surveymeans
1. tirage dans base de communes de Midi-Pyr en ees (source : rescencement 99) dun echantillon
selon plan SASSR, estimation ponctuelle et par intervalle de conance du nombre total de
logements vacants (10768).
2. tirage selon plan SASSR dans la base p edagogique (centre Qu etelet) extraite de lenqu ete
Emploi 2001, estimation ponctuelle et par intervalle de conance de la proportion dagriculteurs
dans la population active (4.2%).
Remarque : pour un plan SASSR, diff erences avec proc edure means dans
- possibilit e destimer un total et
- prise en compte du facteur (1 f).
7
Slide 15
_

1. /
*
Plan de sondage simple
*
/
title1 Logement Hte Gne (rec99) : plan simple;
proc surveyselect data=aussois.rec99htegne method=srs n=70 stats
seed=47279 out=logsi;
run;
title1 Logement Hte Gne (rec99); title2 Total estime log vacants
Plan SASSR; proc surveymeans data=logsi total=554 sum clm;
var logvac;
weight Samplingweight;
run;
Slide 16
_

Logement Hte Gne (rec99) : plan simple


The SURVEYSELECT Procedure
Selection Method Simple Random Sampling
Input Data Set REC99HTEGNE
Random Number Seed 47279
Sample Size 70
Selection Probability 0.126354
Sampling Weight 7.914286
Output Data Set LOGSI
Total estime log vacants Plan SASSR
The SURVEYMEANS Procedure
Statistics
Lower 95% Upper 95%
Variable Label Sum Std Dev CL for Sum CL for Sum
LOGVAC LOGVAC 11650 2370.72 6920.38 16379
8
Slide 17
_

2. Fichier pedagogique enquete Emploi 2001


Proportion estimee plan SASSR (taux =10%)
The SURVEYMEANS Procedure
Data Summary
Number of Observations 711
Sum of Weights 7104
Statistics
Std Error Lower 95% Upper 95%
Variable N Mean of Mean CL for Mean CL for Mean
agri 711 0.0506 .0078 0.035 0.066
Slide 18
_

R ecapitulatif
2
U, N, Y, S
n, y, s
2
_
\

V( y) = (1 f)
S
2
n
et

V( y) = (1 f)
s
2
n
9
Slide 19
_

2 Plan strati e
2.1 Principe
Id ee : on veut eviter les mauvais echantillons qui sont possibles avec un plan SASSR.
Exemples :
1. etude sur la consommation dalcool, diff erences entre hommes et femmes,
2. petit exemple :
y
1
5 5 5 5 8 8 8 10 10 12
y
2
8 10 12 15 10 12 15 12 15 15
y 6.5 7.5 8.5 10 9 10 11.5 11 12.5 13.5
Objectif : eviter de tirer que des petites ou que des grosses factures.
Slide 20
_

On d ecoupe la population en sous populations ou strates et on effectue des tirages ind ependants
dans chaque strate. On sint eresse ` a des plan SASSR dans chaque strate (notation : plan STSASSR).
n , y , s
h h h
2
U , N , Y , S
h h h h
2
Figure 4: Plan strati e
10
Slide 21
_

Formules :

Y =
H

h=1
N
h
N

Y
h
y
st
=
H

h=1
N
h
N
y
h
V( y
st
) =
H

h=1
N
h
N
V( y
h
) =
H

h=1
N
h
N
1 f
h
n
h
S
2
h

V( y
st
) =
H

h=1
N
h
N

V( y
h
) =
H

h=1
N
h
N
1 f
h
n
h
s
2
h
Slide 22
_

2.2 Allocation : choix des n


h
2.2.1 Allocation propportionnelle : m eme taux de sondage dans toutes les strates
f
h
=
n
h
N
h
=
n
N
= f.
Int er ets :
m eme probabilit e dinclusion (m eme poids de sondage) pour toutes les observations de la base
de sondage et donc estimateurs usuels pour les moyennes ou proportions ( echantillon
autopond er e) : y = y
st
.
Gain en pr ecision :
V( y) =
1 f
n
S
2
V( y
st
) =
H

h=1
N
h
N
V( y
h
) =
1 f
n
1
N
H

h=1
N
h
S
2
h
pour N
h
grand ( 10) car
S
2

1
N

H
h=1
N
h
S
2
h
+
1
N

H
h=1
N
h
( y
h
y)
2
Variance totale = variance intra-strates + variance inter-strates
11
Slide 23
_

Si on pose
2
=
variance inter-strates
variance totale
, on a V( y
st
) =
1 f
n
S
2
(1
2
)
donc, plus les strates sont homog` enes, plus la stratication est efcace.
Petit exemple :
N
1
= 40000 N
1
/N = 0.8 n
1
= 160 y
1
= 12 s
2
1
= 85 s
1
= 9.22
N
2
= 10000 N
2
/N = 0.2 n
2
= 40 y
2
= 58 s
2
2
= 930 s
2
= 30.50
y
st
= y = 0.8 12 + 0.2 58 = 21.2 ,

V( y
st
) 0.64 85/160 + 0.04 930/40 = 1.27,
IC de

Y ` a 95% : [21.2

1.27 ; 21.2 +

1.27] = [18.94 ; 23.46],


s
2
inter
= 0.8 (12 21.2)
2
+ 0.2 (58 21.2)
2
= 338.56
s
2
intra
= 0.8 85 + 0.2 930 = 254 do` u s
2
= 592.56 et
2
= 57%.
La variance d echantillonnage a diminu e de 57% par rapport ` a un plan simple.
Slide 24
_

2.2.2 Allocation optimale


On cherche la r epartition de l echantillon qui maximise la pr ecision (et donc qui minimise la
variance).
On montre que les n
h
v erient :
f
h
=
n
h
N
h
= f
S
h

H
h=1
N
h
N
S
h
On va augmenter les effectifs echantillonn es dans les strates o` u la variabilit e est grande et
diminuer les effectifs echantillonn es dans les strates homog` enes.
12
Slide 25
_

Cas particulier dune proportion : (si co uts identiques dans chaque strate)
le gain en pr ecision dun plan strati e proportionnel par rapport ` a un plan simple est faible
tant que les proportions p
h
ne varient pas fortement entre les strates.
Exemple : H = 3, pr ecision relative = variance plan SASSR / variance plan STSASSR
p
h
0.4, 0.5, 0.6 0.3, 0.5, 0.7 0.2, 0.5, 0.8 0.1, 0.5, 0.9
Pr ecision relative (en %) 103 112 132 174
le gain dun plan strati e optimal par rapport ` a un plan strati e proportionnel est faible si les
proportions varient entre 0.1 et 0.9.
Exemple : H = 2
p
h
0.4 ou 0.6 0.3 ou 0.7 0.2 ou 0.8 0.1 ou 0.9 0.05 ou 0.95
Pr ecision relative (en %) 100 99.8 98.8 94.1 86.6
(Cochran, Sampling techniques, p.109)
Slide 26
_

Exemple : tirage selon plan STSASSR dans la base p edagogique (centre Qu etelet) extraite de
lenqu ete Emploi 2001, estimation de la proportion dagriculteurs dans la population active.
Stratication selon tranche dunit e urbaine en 5 postes (tur5) :
affectation proportionnelle (gain modeste)
affectation optimale (gain plus substantiel)
On a p = 4.2% et selon tur5 : p
1
= 11.7%, p
2
= 3%, p
3
= 1.2%, p
4
= 0.4% et p
5
= 0%.
Variable Label N Mean Std Dev
SASSR agri_Mean Mean for agri 100 0.042 0.008
STSASSR Allocation proport agri_Mean Mean for agri 100
0.042 0.0059 optimale agri_Mean Mean for agri 100 0.042
0.0026
13
Slide 27
_

3 Plan avec remise et probabilit es proportionnelles ` a la taille


Les tirages des individus sont ind ependants et on raisonne en terme de probabilit e des individus ` a
chaque tirage.
On montre que si on choisit une probabilit e de tirage proportionnelle ` a la variable alors la variance
d echantillonnage est nulle.
En pratique on peut connatre une variable auxiliaire bien corr el ee avec la variable dint er et et choisir
des probabilit es de tirage proportionnelle ` a la variable auxiliaire.
Exemple : on tire des cantons ou communes proportionnellement ` a la taille de la commune (en
nombre dhabitants) si on sint eresse ` a des quantit es tr` es corr el ees avec la taille de la population.
Slide 28
_

4 Plan ` a plusieurs degr es et plan en grappes


4.1 Principe du plan ` a plusieurs degr es
Population partitionn ee en groupes, chaque groupe pouvant etre partitionn e en sous-groupes,
. . . jusquaux individus (qui d enissent les plus petits sous-groupes).
On peut d enir un plan ` a plusieurs degr es :
1er degr e : tirage dun echantillon de groupes ou unit es primaires (UP),
2` eme degr e : tirage dun echantillon de sous-groupes ou unit es secondaires (US),
. . .
Exemple des enqu etes Insee.
Int er ets :
il nest pas utile de disposer dune base de sondage compl` ete mais uniquement de la base des
unit es primaires, des unit es secondaires s electionn ees,. . . .
il permet des economies de moyens si les groupes constituent des entit es g eographiques.
Exemple de lenqu ete Emploi (sondage ar eolaire).
14
Slide 29
_

4.2 Plan ` a deux degr es


Les poids de sondage sont les produits des poids de chaque degr e.
dispersion estimations = dispersion estimations + dispersion estimations
entre UP int erieur UP
variance totale = variance inter + variance intra
Cas particulier du plan SASSR, SASSR : si on note m le nombre dUP echantillonn ees (parmi M) et
n le nombre moyen dUS echantillonn ees, la variance inter est dordre de grandeur 1/m tandis que
la variance intra est dordre 1/(m n).
Pour obtenir variance inter faible, il faudrait des UP de tailles voisines, faibles et de comportement
moyen semblable. Dans la r ealit e, cest la variance intra qui est faible (effet de grappe du ` a
lexistence de similarit e entre individus dune m eme UP).
Plan classique : taille d echantillon dans une UP proportionnelle ` a la taille de lUP (taux de sondage
constant)
Slide 30
_

Remarques :
logique de construction des UP contraire ` a la logique de construction de strates (une UP devrait
regrouper des individus diff erents alors quune strate devrait regrouper des individus
semblables). Le mieux est de combiner une stratication pour s eparer comportements tr` es
diff erents avec un d ecoupage en UP (strate par strate).
taille echantillons : ` a (m n) x e, pr ef erable de choisir m maximum et donc n minimum.
pour le plan classique, si les les UP ont la m eme taille, sondage autopond er e (estimation dune
moyenne = moyenne usuelle sur l echantillon).
15
Slide 31
_

4.3 Plan en grappes


plan ` a 2 degr es ou toutes les unit es s econdaires sont interrog ees parmi les unit es primaires
echantillonn ees. Une grappe = une UP.
dispersion totale = dispersion entre grappes
Effet de grappe : en pratique les individus ` a lint erieur des grappes se ressemblent et il y a une
variabilit e importante entre les grappes.
Exemple de lenqu ete Emploi : sondage ar eolaire pour variable salaire (Deville, Roth).
4.3.1 Premier degr e = Plan SASSR
si grappes de m eme taille

N, sondage autopond er e et
V( y) =
_
1
m
M
_
S
2
m

N
_
1 +
_

N
_
(

N 1)
_
Remarques :
- D` es que
2
> 1/

N, on perd en pr ecision par rapport au plan SASSR.
- Leffet de grappe existe aussi pour un plan ` a deux degr es quelconque et il est g en eralement mesur e
par un coefcient de corr elation intra-grappe qui vaut (
2
1/

N) lorsque les UP sont de m eme
taille.
Slide 32
_

4.3.2 Premier degr e = plan avec remise proportionnel ` a la taille des grappes
Notons N
i
la taille de la grappe i = 1, . . . , M et N la taille totale de la population.
Consid erons A
i
= N
i
/N la probabilit e de tirer une grappe et notons

Y
i
la moyenne de la variable Y
pour la grappe i. On a simplement :
y =
1
m
m

i=1

Y
i
V( y) =
1
m(m1)
m

i=1
(

Y
i
y)
2
Remarque : on a le m eme r esultat pour un plan ` a deux degr es quelconque avec y
i
(estim es ` a partir
des echantillons du second degr e) ` a la place de

Y
i
.
16