Académique Documents
Professionnel Documents
Culture Documents
https://chesneau.users.lmno.cnrs.fr/
1 Introduction 7
1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Concepts de base et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
C. Chesneau 3
Table des matières
C. Chesneau 4
Table des matières
Index 155
∼ Note ∼
Ce document résume les notions abordées dans le cours Théorie des sondages du Master 2
orienté statistique de l’université de Caen.
Un des objectifs est de donner des pistes de réflexion à la mise en place de sondage.
N’hésitez pas à me contacter pour tout commentaire :
christophe.chesneau@gmail.com
Bonne lecture !
C. Chesneau 5
1 Introduction
1 Introduction
1.1 Exemples
2. 84% des français ne croient pas que leurs impôts vont baisser en 2019.
3. Parmi des amateurs de bières, la question suivante a été posée : Quel est votre type de bière
préféré ? Réponses : Blondes : 33.61%, Ambrées : 25.58%, Brunes : 15.92%, Blanches : 9.64%,
Un peu toutes : 15.24%
C. Chesneau 7
1 Introduction
Population et individus : On appelle population un ensemble fini d’objets sur lesquels une étude
se porte. Ces objets sont appelés individus/unités statistiques. Une population est notée
U = {u1 , . . . , uN },
où N est le nombre d’individus dans la population et, pour tout i ∈ {1, . . . , N }, ui est le i-ème
individu.
Base de sondage : On appelle base de sondage une liste qui répertorie tous les individus d’une
population.
Caractère : Un caractère est une qualité que l’on étudie chez les individus d’une population.
Un caractère est noté Y . Pour tout i ∈ {1, . . . , N }, on note yi la valeur de Y pour l’individu ui .
Moyenne-population :
N
1 X
yU = yi .
N
i=1
Écart-type corrigé-population :
C. Chesneau 8
1 Introduction
◦ le recensement : on a accès à tous les individus et on peut mesurer les valeurs de Y pour
chacun d’entre eux. Toutefois, cela n’est pas toujours possible pour des raisons de coût, de
temps ou à cause de certaines contraintes comme la destruction des individus étudiés.
Plan de sondage :
Remarques :
◦ Mathématiquement, sans autre précision, un échantillon s’obtient par tirage avec remise (AR)
des individus. Ainsi, un échantillon de n individus est la liste des n individus obtenus par n
prélèvements indépendants. Un individu peut donc être prélevé plusieurs fois.
C. Chesneau 9
1 Introduction
◦ Les formules habituelles d’estimation sont associées à un plan de sondage aléatoire de type
PEAR (Probabilités Égales + Avec Remise). Pour simplifier la situation, elles sont généra-
lement utilisées dans le cas SR (Sans Remise) lorsque n est beaucoup plus petit que N . Une
convention existante est N ≥ 10n.
C. Chesneau 10
2 Plan de sondage aléatoire simple sans remise (PESR)
2.1 Contexte
Loi de probabilité :
1
P(W = ω) = N
, ω ∈ W (Ω),
n
Explication : Pour fixer les idées, on considère la situation simplifiée suivante : on prélève au
hasard et simultanément n individus de la population pour former un échantillon. L’univers
associé à cette expérience aléatoire est Ω = {combinaisons de n individus parmi N }. Comme
Ω est fini et qu’il y a équiprobabilité, l’utilisation de la probabilité uniforme P est justifiée. Il
vient
Card({W = ω})
P(W = ω) = , ω ∈ W (Ω).
Card(Ω)
Or on a Card(Ω) = N
et Card({W = ω}) = 1, d’où le résultat.
n
Situations de référence : Les différents types de prélèvements décrits ci-dessous rentrent dans
le cadre d’un PESR :
C. Chesneau 11
2 Plan de sondage aléatoire simple sans remise (PESR)
Quelques commandes R : Pour illustrer un plan de sondage aléatoire de type PESR avec le
logiciel R, on propose l’animation :
library(animation)
sample.simple(nrow = 10, ncol = 10, size = 15, p.col = c("blue", "red"),
p.cex = c(1, 3))
Par exemple, pour faire un tirage sans remise de n = 20 individus dans une population de
N = 200 individus, on peut utiliser
◦ la commande sample :
library(sampling)
t = srswor(20, 200)
x = 1:200
x[t != 0]
Pécisons que t = srswor(20, 200) renvoie un vecteur de taille 200 constitué de 20 chiffres 1
et de 180 chiffres 0. Les 1 sont positionnés aux indices des individus prélevés et les 0 aux autres.
◦ pour les résultats, on considère un plan de sondage aléatoire de type PESR et la var W égale
à l’échantillon obtenu,
C. Chesneau 12
2 Plan de sondage aléatoire simple sans remise (PESR)
◦ pour les preuves, pour raison de simplicité, on se place dans la situation de référence I,
Taux de sondage :
Probabilités d’appartenance :
n
P(ui ∈ W ) = (= f ).
N
Preuve :
Card({ui ∈ W })
P(ui ∈ W ) = .
Card(Ω)
On a Card(Ω) = N
. Il reste à calculer Card({ui ∈ W }). Le nombre de possibilités pour
n
que ui soit dans l’échantillon est égal au nombre de possibilités de prélever n − 1 individus
−1
parmi les N − 1 autres que ui . D’où Card({ui ∈ W }) = N n−1 . On en déduit que
N −1
(N −1)!
n−1 (n−1)!((N −1)−(n−1))! n! (N − 1)! n
P(ui ∈ W ) = N
= N!
= = .
(n − 1)! N !
n n!(N −n)!
N
Card({(ui , uj ) ∈ W })
P((ui , uj ) ∈ W ) = .
Card(Ω)
On a Card(Ω) = N
. Il reste à calculer Card({(ui , uj ) ∈ W }).
n
C. Chesneau 13
2 Plan de sondage aléatoire simple sans remise (PESR)
Le nombre de possibilités pour que ui et uj soient dans l’échantillon est égal au nombre de
possibilités pour prélever simultanément n − 2 individus parmi les N − 2 autres que ui et
−2
uj . D’où Card({(ui , uj ) ∈ W }) = N
n−2 . On en déduit que
N −2
(N −2)!
n−2 (n−2)!((N −2)−(n−2))! n! (N − 2)! n(n − 1)
P((ui , uj ) ∈ W ) = N
= N!
= = .
(n − 2)! N ! N (N − 1)
n n!(N −n)!
2.2 Estimateurs
Estimation aléatoire de y U :
N
1X
yW = yi 1{ui ∈W } ,
n
i=1
1 si l’événement A est réalisé,
où 1 désigne la fonction indicatrice définie par : 1A =
0 sinon.
◦ sous la forme :
1X
yW = yi ,
n
i∈S
◦ sous la forme :
N n
1X X
yW = yi 1{Wm =ui } ,
n
i=1 m=1
C. Chesneau 14
2 Plan de sondage aléatoire simple sans remise (PESR)
Espérance de y W :
E(y W ) = y U .
N N
!
1X 1X
E(y W ) = E yi 1{ui ∈W } = yi E 1{ui ∈W }
n n
i=1 i=1
N N N
1X 1X n 1 X
= yi P(ui ∈ W ) = yi = yi = y U .
n n N N
i=1 i=1 i=1
Preuve II : On pose M = N
et W (Ω) = {ω1 , . . . , ωM }, où, pour tout m ∈ {1, . . . , M }, ωm
n
M M M N
X 1 X 1 X 1X
E(y W ) = y ωm P(W = ωm ) = N y ωm = N yi 1{ui ∈ωm }
n n
n
m=1 m=1 m=1 i=1
N M
1 X X
= N
yi 1{ui ∈ωm } .
n n i=1 m=1
N −1 X N
(N −1)! N N
n−1 (n−1)!((N −1)−(n−1))!
X 1 X
E(y W ) = yi = yi = yi = y U .
n N n n!(NN−n)!
!
n
N
i=1 i=1 i=1
C. Chesneau 15
2 Plan de sondage aléatoire simple sans remise (PESR)
Variance de y W :
La variance de y W est
s2U
V(y W ) = (1 − f ) .
n
N N
! !
1X 1 X
V(y W ) = V yi 1{ui ∈W } = 2 V yi 1{ui ∈W }
n n
i=1 i=1
N N Xi−1
1 X X
= V yi 1{ui ∈W } + 2 C yi 1{ui ∈W } , yj 1{uj ∈W }
n2
i=1 i=2 j=1
N N X i−1
1 X X
yi2 V 1{ui ∈W } + 2
= yi yj C 1{ui ∈W } , 1{uj ∈W } .
n2
i=1 i=2 j=1
2
= E 12{ui ∈W } − E 1{ui ∈W } = P(ui ∈ W ) − (P(ui ∈ W ))2
V 1{ui ∈W }
n n 2 n n
= − = 1− .
N N N N
C 1{ui ∈W } , 1{uj ∈W } = E 1{ui ∈W } 1{uj ∈W } − E 1{ui ∈W } E 1{uj ∈W }
C. Chesneau 16
2 Plan de sondage aléatoire simple sans remise (PESR)
En utilisant la décomposition :
N X
i−1 N
!2 N
X X X
2 yi yj = yi − yi2 ,
i=2 j=1 i=1 i=1
on obtient
N
N
!2 N
1 n X 2 n−1 n X X
V(y W ) = 1− yi + − yi − yi2
nN N N −1 N
i=1 i=1 i=1
XN X N
!2
1 n n−1 n n−1 n
= 1− − + yi2 + − yi
nN N N −1 N N −1 N
i=1 i=1
2
N N
!
1 N − n X 2 N −n X
= yi − yi
nN N − 1 N (N − 1)
i=1 i=1
N N
!2
N −n 1 X 1 X
= yi2 − N yi .
nN N −1 N
i=1 i=1
D’autre part, on a
N N N
!
1 X 1 X X
s2U = (yi − y U )2 = yi2 − 2y U yi + N y 2U
N −1 N −1
i=1 i=1 i=1
N N
! !
1 X 1 X
= yi2 − 2N y 2U + N y 2U = yi2 − N y 2U
N −1 N −1
i=1 i=1
N N
!2
1 X 2 1 X
= yi − N yi .
N −1 N
i=1 i=1
Il s’ensuit
N −n 2 n s2U s2
V(y W ) = sU = 1 − = (1 − f ) U .
nN N n n
C. Chesneau 17
2 Plan de sondage aléatoire simple sans remise (PESR)
s2
EQM (y W )[P ESR] = E (y W − y U )2 = (1 − f ) U .
n
La quantité EQM (y W )[P ESR] est une mesure de l’erreur que commet y W dans l’estimation
de y U .
On constate que :
Estimation aléatoire de sU :
Propriété de s2W :
E s2W = s2U .
N
Preuve : En remarquant que 1{ui ∈W } = n, il vient
P
i=1
N
1 X
s2W = (yi − y W )2 1{ui ∈W }
n−1
i=1
N N N
!
1 X X X
= yi2 1{ui ∈W } − 2y W yi 1{ui ∈W } + y 2W 1{ui ∈W }
n−1
i=1 i=1 i=1
N N
! !
1 X 1 X
= yi2 1{ui ∈W } − 2ny 2W + ny 2W = yi2 1{ui ∈W } − ny 2W .
n−1 n−1
i=1 i=1
C. Chesneau 18
2 Plan de sondage aléatoire simple sans remise (PESR)
On a P(ui ∈ W ) = n/N et
s2
E y 2W = V y 2W + (E (y W ))2 = (1 − f ) U + y 2U .
n
D’où
N N
!! !
1 X 1 X
s2W yi2 1{ui ∈W } ny 2W yi2 E y 2W
E = E − = 1{ui ∈W } − nE
n−1 n−1
i=1 i=1
N
!
1 X
yi2 P (ui ∈ W ) − nE y 2W
=
n−1
i=1
N !
s2U
1 n X 2 2
= yi − n (1 − f ) + yU
n−1 N n
i=1
N
! !
1 n X 2 n
= yi − N y 2U − 1 − s2
n−1 N N U
i=1
N
!!
n(N − 1) 1 X
2 2 1 n 2
= yi − N y U − 1− s .
(n − 1)N N − 1 n−1 N U
i=1
Or
N N N
!
1 X 1 X X
s2U = (yi − y U )2 = yi2 − 2y U yi + N y 2U
N −1 N −1
i=1 i=1 i=1
N N
! !
1 X 1 X
= yi2 − 2N y 2U + N y 2U = yi2 − N y 2U .
N −1 N −1
i=1 i=1
Par conséquent,
n(N − 1) 2 1 n 2
E s2W
= sU − 1− s
(n − 1)N n−1 N U
n(N − 1) − N + n 2 nN − n − N + n 2 (n − 1)N 2
= sU = sU = s = s2U .
(n − 1)N (n − 1)N (n − 1)N U
C. Chesneau 19
2 Plan de sondage aléatoire simple sans remise (PESR)
Estimation ponctuelle de y U :
Erreur d’estimation :
Probabilité d’erreur :
La probabilité de se tromper de plus de (100 × β)%, β ∈]0, 1[, en estimant y U par y W est le
réel :
1 X
pβ = N
1{eω ≥βyU } .
n ω∈W (Ω)
C. Chesneau 20
2 Plan de sondage aléatoire simple sans remise (PESR)
Estimation ponctuelle de sU :
C. Chesneau 21
2 Plan de sondage aléatoire simple sans remise (PESR)
C. Chesneau 22
2 Plan de sondage aléatoire simple sans remise (PESR)
Incertitude absolue :
r
s2ω
dω = zα s(y ω ) = zα (1 − f ) .
n
Incertitude relative :
dω
d∗ω = .
yω
Taille d’échantillon :
Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon n à choisir
pour avoir :
◦ une incertitude absolue sur y U au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à
d0 est le plus petit n tel que
N zα2 s2ω
dω ≤ d0 ⇔ n≥ ,
N d20 + zα2 s2ω
◦ une incertitude relative sur y U au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à
(100 × d1 )% est le plus petit n tel que
N zα2 s2ω
d∗ω ≤ d1 ⇔ n≥ .
N (y ω d1 )2 + zα2 s2ω
C. Chesneau 23
2 Plan de sondage aléatoire simple sans remise (PESR)
Méthode du tri aléatoire : La méthode du tri aléatoire est un un plan de sondage aléatoire de
type PESR. Pour la mettre en œuvre,
◦ on génère N nombres x1 , . . . , xN (indépendemment des uns des autres) suivant la loi uniforme
U([0, 1]),
C. Chesneau 24
2 Plan de sondage aléatoire simple sans remise (PESR)
Exercice 1 : L’objectif de cet exercice est d’illustrer certains résultats théoriques du cours sur les
plans de sondage aléatoire de type PESR avec un exemple. On étudie un caractère Y dans une
population de 5 individus : U = {u1 , . . . , u5 }. Pour tout i ∈ {1, . . . , 5}, soit yi la valeur de Y
pour l’individu ui . Les résultats sont :
y1 y2 y3 y4 y5
3 4 6 8 13
(a) Quel est est le taux de sondage ? Combien d’échantillons peut-on former ? Expliciter les.
(c) Soit y W la var égale à la moyenne-échantillon, l’aléatoire étant dans l’échantillon consi-
déré. Déterminer sa loi, puis calculer son espérance et sa variance.
(d) Soit sW la var égale à l’écart-type corrigé-échantillon, l’aléatoire étant dans l’échantillon
considéré. Calculer l’espérance de s2W .
(e) Retrouver les résultats des deux questions précédentes avec les formules du cours.
Solution :
1. On a
y U = 6.8, sU = 3.9623.
C. Chesneau 25
2 Plan de sondage aléatoire simple sans remise (PESR)
5 5!
= = 10.
2 2!(5 − 2)!
Ils sont :
ω Y yω sω
(c) Soit y W la var égale à la moyenne-échantillon. L’ensemble des valeurs possibles pour y W
est
y W (Ω) = {3.5, 4.5, 5.5, 8, 5, 6, 8.5, 7, 9.5, 10.5}.
C. Chesneau 26
2 Plan de sondage aléatoire simple sans remise (PESR)
L’espérance de y W est
X
E(y W ) = kP(y W = k)
k∈y W (Ω)
1
= (3.5 + 4.5 + 5.5 + 8 + 5 + 6 + 8.5 + 7 + 9.5 + 10.5)
10
= 6.8.
Or on a E(y W ) = 6.8 et
X
E(y 2W ) = k 2 P(y W = k)
k∈y W (Ω)
1
= (3.52 + 4.52 + 5.52 + 82 + 52 + 62 + 8.52 + 72 + 9.52 + 10.52 )
10
= 50.95.
D’où
V(y W ) = 50.95 − 6.82 = 4.71.
(d) Soit sW la var égale à l’écart-type corrigé-échantillon. L’ensemble des valeurs possibles
pour sW est
C. Chesneau 27
2 Plan de sondage aléatoire simple sans remise (PESR)
X
E(s2W ) = k 2 P(sW = k)
k∈sW (Ω)
1
= (0.70712 + 2 × 1.41422 + 2.12132 + 2.82842 + 2 × 3.53552 + 4.94972
10
+ 6.36392 + 7.07102 )
= 15.6997.
(e) En utilisant les formules du cours, on retrouve les résultats précédents (en prenant en
compte les approximations) :
s2U 3.96232
E(y W ) = y U = 6.8, V(y W ) = (1 − f ) = (1 − 0.4) = 4.71
n 2
et
eω = |y ω − y U | = |y ω − 6.8|.
C. Chesneau 28
2 Plan de sondage aléatoire simple sans remise (PESR)
ω yω eω
{u1 , u5 } 8 1.2
{u2 , u3 } 5 1.8
{u2 , u4 } 6 0.8
{u3 , u4 } 7 0.2
1 X 6
p= N
1{eω ≥β×yU } = = 0.6.
n
10
ω∈W (Ω)
Exercice 2 : On prélève 25 sacs de farine de maïs dans une usine en contenant 200 suivant un
plan de sondage aléatoire de type PESR. On pèse ces 25 sacs. Les valeurs obtenues donnent une
moyenne de 13.5 kilogrammes et un écart-type corrigé de 1.3 kilogrammes.
Déterminer un intervalle de confiance pour la moyenne des poids des 200 sacs de farine de maïs
au niveau 95%.
Solution : On a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1),
avec zα = 1.96.
C. Chesneau 29
2 Plan de sondage aléatoire simple sans remise (PESR)
Un intervalle de confiance pour la moyenne des poids des 200 sacs de farine y U au niveau 95%
est
" r r #
s2ω s2ω
iy U = y ω − zα (1 − f ) , y ω + zα (1 − f )
n n
" s s #
25 1.32 25 1.32
= 13.5 − 1.96 1− , 13.5 + 1.96 1−
200 25 200 25
= [13.0233, 13.9766].
Ainsi, il y a 95 chances sur 100 que [13.0233, 13.9766] contienne y U , l’unité étant le kilogramme.
Exercice 3 : On dispose d’une liste de 500 foyers avec, pour chacun d’entre eux, le nombre d’in-
dividus y vivant. Sur un échantillon de 8 foyers constitué par un plan de sondage aléatoire de
type PESR, les résultats sont :
3 6 1 2 4 4 1 8
2. Donner une estimation ponctuelle de la moyenne des effectifs des 500 foyers.
5. Déterminer la taille d’échantillon à choisir pour avoir une incertitude absolue sur la moyenne-
population inférieure ou égale à 1 au niveau 95%.
Solution :
n 8
f= = = 0.016.
N 500
2. Une estimation ponctuelle de la moyenne des effectifs des 500 foyers est la moyenne échan-
tillon :
y ω = 3.625.
C. Chesneau 30
2 Plan de sondage aléatoire simple sans remise (PESR)
4. On a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec
zα = 1.96. Un intervalle de confiance pour y U au niveau 95% est
= [1.9439, 5.3060].
5. On a 95% = 100(1 − α)% avec α = 0.05. On souhaite déterminer le plus petit n tel que :
r
s2ω N zα2 s2ω
dω = zα (1 − f ) ≤ d0 ⇔ n≥ ,
n N d20 + zα2 s2ω
Donc n = 22 convient.
C. Chesneau 31
2 Plan de sondage aléatoire simple sans remise (PESR)
2.8 Synthèse
Population U Échantillon ω
Taille N n
n
Taux de sondage f=
N
N N
1 X 1X
Moyenne yU = yi yω = yi 1{ui ∈ω}
N n
i=1 i=1
v v
u N u N
u 1 X u 1 X
Écart-type corrigé sU = t (yi − y U )2 sω = t (yi − y ω )2 1{ui ∈ω}
N −1 n−1
i=1 i=1
r r
s2 s2ω
Écart-type de y W σ(y W ) = (1 − f ) U s(y ω ) = (1 − f )
n n
" r r #
s2 s2
Intervalle de confiance iyU = y ω − zα (1 − f ) ω , y ω + zα (1 − f ) ω
n n
r
s2
Incertitude absolue dω = zα (1 − f ) ω
n
dω
Incertitude relative d∗ω =
yω
N zα2 s2ω
Taille n telle que dω ≤ d0 n≥
N d20 + zα2 s2ω
N zα2 s2ω
Taille n telle que d∗ω ≤ d1 n≥
N (y ω d1 )2 + zα2 s2ω
C. Chesneau 32
3 Total, proportion et effectif dans le cadre PESR
Total :
N
X
τU = yi = N y U .
i=1
Estimation aléatoire de τU :
N
1X
τW = N y W = N yi 1{ui ∈W } .
n
i=1
Espérance de τW :
E(τW ) = τU .
Variance de τW :
La variance de τW est
s2U
V(τW ) = N 2 (1 − f ) .
n
C. Chesneau 33
3 Total, proportion et effectif dans le cadre PESR
s2U
V(τW ) = V(N y W ) = N 2 V(y W ) = N 2 (1 − f ) .
n
s2U
EQM (τW )[P ESR] = N 2 (1 − f ) .
n
Estimation ponctuelle de τU :
On peut également définir l’incertitude absolue ou relative sur τU , ainsi que la taille d’échantillon
souhaitée pour une incertitude donnée.
C. Chesneau 34
3 Total, proportion et effectif dans le cadre PESR
Contexte : On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un
codage.
Proportion :
N
1 X
pU = yi (= y U ).
N
i=1
N
1X
pW = y W = yi 1{ui ∈W } .
n
i=1
Espérance de pW :
E(pW ) = pU .
Variance de pW :
La variance de pW est
s2U N
V(pW ) = (1 − f ) = (1 − f ) pU (1 − pU ).
n n(N − 1)
C. Chesneau 35
3 Total, proportion et effectif dans le cadre PESR
N N N
!
1 X N 1 X 2 1 X
s2U = 2
(yi − y U ) = yi − 2y U 2
yi + y U
N −1 N −1 N N
i=1 i=1 i=1
N N
!2
N 1 X 1 X N N
= yi − yi = (pU − p2U ) = pU (1 − pU ).
N −1 N N N −1 N −1
i=1 i=1
N
EQM (pW )[P ESR] = (1 − f ) pU (1 − pU ).
n(N − 1)
Estimation ponctuelle de pU :
C. Chesneau 36
3 Total, proportion et effectif dans le cadre PESR
Incertitude absolue :
r
pω (1 − pω )
dω = zα s(pω ) = zα (1 − f ) .
n−1
Incertitude relative :
dω
d∗ω = .
pω
C. Chesneau 37
3 Total, proportion et effectif dans le cadre PESR
Taille d’échantillon :
Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon n à choisir
pour avoir :
◦ une incertitude absolue sur pU au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à
d0 est le plus petit n tel que
N zα2 pω (1 − pω )
dω ≤ d0 ⇒ n≥ ,
N d20 + zα2 pω (1 − pω )
◦ une incertitude relative sur pU au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à
(100 × d1 )% est le plus petit n tel que
N zα2 pω (1 − pω )
d∗ω ≤ d1 ⇒ n≥ .
N (pω d1 )2 + zα2 pω (1 − pω )
On peut aussi remplacer pω (1 − pω ) par 1/4, ce qui évite une étude avec un échantillon préli-
minaire pour l’incertitude absolue.
C. Chesneau 38
3 Total, proportion et effectif dans le cadre PESR
Contexte : On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un
codage.
Effectif :
ηU = N p U .
Estimation aléatoire de ηU :
N
1X
ηW = N pW = N yi 1{ui ∈W } .
n
i=1
Espérance de ηW :
E(ηW ) = ηU .
Variance de ηW :
La variance de ηW est
N
V(ηW ) = N 2 (1 − f ) pU (1 − pU ).
n(N − 1)
C. Chesneau 39
3 Total, proportion et effectif dans le cadre PESR
N
V(ηW ) = V(N pW ) = N 2 V(pW ) = N 2 (1 − f ) pU (1 − pU ).
n(N − 1)
N
EQM (ηW )[P ESR] = N 2 (1 − f ) pU (1 − pU ).
n(N − 1)
Estimation ponctuelle de ηU :
On peut également définir l’incertitude absolue ou relative sur ηU , ainsi que la taille d’échantillon
souhaitée pour une incertitude donnée.
C. Chesneau 40
3 Total, proportion et effectif dans le cadre PESR
Exercice 1 : Sur un campus universitaire, un jour donné, on s’intéresse au total des montants
dépensés par les 1765 étudiants du campus pour le repas du midi. On note ce total τU . Sur un
échantillon ω de 279 étudiants prélevé suivant un plan de sondage aléatoire de type PESR, on
obtient : y ω = 4.25 € et sω = 2.15 €.
Solution :
4. On a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec
zα = 1.96.
C. Chesneau 41
3 Total, proportion et effectif dans le cadre PESR
Ainsi, il y a 95 chances sur 100 que [7092.673, 7909.827] contienne τU , l’unité étant le €.
Exercice 2 : Sur un campus universitaire de 1765 étudiants, un échantillon de 250 étudiants est
prélevé suivant un plan de sondage aléatoire de type PESR. Parmi ces 250 étudiants, 189
admettent regarder la télévision plus de 1 heure par jour. On note pU la proportion des 1765
étudiants qui admettent cela.
4. Déterminer la taille d’échantillon à choisir pour avoir une incertitude relative sur pU infé-
rieure ou égale à 5% au niveau 95%.
Solution :
189
pω = = 0.756.
250
C. Chesneau 42
3 Total, proportion et effectif dans le cadre PESR
3. On a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec
zα = 1.96. Un intervalle de confiance pour pU au niveau 95% est
" r r #
pω (1 − pω ) pω (1 − pω )
ipU = pω − zα (1 − f ) , pω + zα (1 − f )
n−1 n−1
" s
250 0.756(1 − 0.756)
= 0.756 − 1.96 1− ,
1765 250 − 1
s #
250 0.756(1 − 0.756)
0.756 + 1.96 1−
1765 250 − 1
= [0.7065, 0.8054].
4. On a 95% = 100(1 − α)% avec α = 0.05. On souhaite déterminer le plus petit n tel que :
N zα2 pω (1 − pω )
d∗ω ≤ d1 ⇒ n≥ ,
N (pω d1 )2 + zα2 pω (1 − pω )
On a
1765 × 1.962 × 0.756(1 − 0.756)
n≥ = 387.1626.
1765 × (0.756 × 0.05)2 + 1.962 × 0.756(1 − 0.756)
Donc la taille d’échantillon à choisir pour avoir une incertitude relative sur pU inférieure ou
égale à 5% au niveau 95% est de n = 388.
C. Chesneau 43
3 Total, proportion et effectif dans le cadre PESR
Population U Échantillon ω
Taille N n
n
Taux de sondage f=
N
N N
1 X 1X
Proportion pU = yi pω = yi 1{ui ∈ω}
N n
i=1 i=1
r r
N pω (1 − pω )
Écart-type de pW σ(pW ) = (1 − f ) pU (1 − pU ) s(pω ) = (1 − f )
n(N − 1) n−1
" r r #
pω (1 − pω ) pω (1 − pω )
Intervalle de confiance ipU = pω − zα (1 − f ) , p ω + zα (1 − f )
n−1 n−1
r
pω (1 − pω )
Incertitude absolue dω = zα (1 − f )
n−1
dω
Incertitude relative d∗ω =
pω
N zα2 pω (1 − pω )
Taille n telle que dω ≤ d0 n≥
N d20 + zα2 pω (1 − pω )
N zα2 pω (1 − pω )
Taille n telle que d∗ω ≤ d1 n≥
N (pω d1 )2 + zα2 pω (1 − pω )
C. Chesneau 44
4 Plan de sondage aléatoire simple avec remise (PEAR)
4.1 Contexte
Loi de probabilité :
On prélève un échantillon de n individus suivant un plan de sondage aléatoire simple avec
remise (PEAR pour Probabilités Egales Avec Remise) dans une population U . Soit W la var
égale à l’échantillon obtenu :
W = (W1 , . . . , Wn ),
où, pour tout m ∈ {1, . . . , n}, Wm est la var égale au m-ème individu de l’échantillon. Alors,
pour tout m ∈ {1, . . . , n}, la loi de Wi est donnée par
1
P(Wm = ui ) = , i ∈ {1, . . . , N },
N
Preuve : L’univers associé à cette expérience aléatoire est Ω = {u1 , . . . , uN }n . Comme Ω est fini
et que chaque individu a la même probabilité d’être prélevé, on considère la probabilité uniforme
P:
Card({Wm = ui })
P(Wm = ui ) = .
Card(Ω)
On a Card(Ω) = N n . Les prélèvements étant avec remise, il y a N possibilités pour chacun des
n − 1 individus autres que ui . Donc Card({Wm = ui }) = N n−1 . Il vient
N n−1 1
P(Wm = ui ) = n
= .
N N
Situation de référence : On prélève au hasard et avec remise n individus pour former un échan-
C. Chesneau 45
4 Plan de sondage aléatoire simple avec remise (PEAR)
Cette démarche est intéressante quand n est petit ou pour servir d’élément de comparaison avec
une situation de type PESR.
Quelques commandes R : Par exemple, pour faire un tirage avec remise de n = 20 individus
dans une population de N = 200 individus, on peut utiliser
◦ la commande sample :
library(sampling)
t = srswr(20, 200)
x = 1:200
x[t != 0]
Précisons que t = srswr(20, 200) renvoie un vecteur de taille 200 constitué de chiffres entre 0
et 20. Les chiffres non nuls m ∈ {1, . . . , 20} sont positionnés aux indices des individus prélevés
m fois et les 0 aux autres.
C. Chesneau 46
4 Plan de sondage aléatoire simple avec remise (PEAR)
Dans la suite :
◦ pour les résultats, on considère un plan de sondage aléatoire de type PEAR et la var
◦ pour les preuves, pour raison de simplicité, on se place dans la situation de référence.
Probabilités d’appartenance :
1 n
P(ui ∈ W ) = 1 − 1 − .
N
1 n 2 n
P((ui , uj ) ∈ W ) = 1 − 2 1 − + 1− .
N N
Preuve :
◦ On a
P(ui ∈ W ) = 1 − P(ui 6∈ W ).
Card({ui 6∈ W })
P(ui 6∈ W ) = .
Card(Ω)
Au final, on a
n
1
P(ui ∈ W ) = 1 − 1 − .
N
C. Chesneau 47
4 Plan de sondage aléatoire simple avec remise (PEAR)
n
1
P(ui ∈ W ) = P(uj ∈ W ) = 1 − 1 − .
N
D’autre part,
Or
Card({ui 6∈ W } ∩ {uj 6∈ W })
P({ui 6∈ W } ∩ {uj 6∈ W }) = .
Card(Ω)
n
(N − 2)n
2
P({ui ∈
6 W } ∩ {uj ∈
6 W }) = = 1− .
Nn N
Au final, on a
1 n 1 n 2 n
P((ui , uj ) ∈ W ) = 1 − 1 − +1− 1− − 1− 1−
N N N
n n
1 2
= 1−2 1− + 1− .
N N
C. Chesneau 48
4 Plan de sondage aléatoire simple avec remise (PEAR)
4.2 Estimateurs
Estimation aléatoire de y U :
N n
1X X
yW = yi 1{Wm =ui } .
n
i=1 m=1
◦ sous la forme :
1X
yW = yi ,
n
i∈S
◦ sous la forme :
n N
1 X X
yW = Zm , Zm = yi 1{Wm =ui } .
n
m=1 i=1
N −1 2
E(Z1 ) = y U , V(Z1 ) = sU .
N
Sous l’hypothèse que Y suit une loi normale et n ≥ 1, il est raisonnable de penser que Zm
suit une loi normale.
Espérance de y W :
E(y W ) = y U .
C. Chesneau 49
4 Plan de sondage aléatoire simple avec remise (PEAR)
N n N n
!
1X X 1X X
E(y W ) = E yi 1{Wm =ui } = yi E 1{Wm =ui }
n n
i=1 m=1 i=1 m=1
N n N N
1 X X 1 X n 1 X
= yi P(Wm = ui ) = yi = yi = y U .
n n N N
i=1 m=1 i=1 i=1
Variance de y W :
La variance de y W est
N − 1 s2U
V(y W ) = .
N n
Preuve : Les prélèvements étant avec remise et P(Wm = ui ) = 1/N , les var 1{W1 =ui } , . . . , 1{Wn =ui }
sont iid. Par conséquent, on a
N n n X
N
! !
1X X 1 X
V(y W ) = V yi 1{Wm =ui } = 2V yi 1{Wm =ui }
n n
i=1 m=1 m=1 i=1
n N N
! !
1 X X 1 X
= V yi 1{Wm =ui } = V yi 1{W1 =ui } .
n2 n
m=1 i=1 i=1
En utilisant la formule de König-Huyghens et le fait que, pour tout (i, j) ∈ {1, . . . , N }2 avec
i 6= j, 1{W1 =ui } 1{W1 =uj } = 0, on obtient
N
!
N
!2 N
!!2
X X X
V yi 1{W1 =ui } = E yi 1{W1 =ui } − E yi 1{W1 =ui }
i=1 i=1 i=1
N X
N
N
!2
X X
= E yi yj 1{W1 =ui } 1{W1 =uj } − yi E 1{W1 =ui }
i=1 j=1 i=1
N N
!2
X X
yi2 E 1{W1 =ui } −
= yi E 1{W1 =ui }
i=1 i=1
N N
!2
X X
= yi2 P(W1 = ui ) − yi P(W1 = ui )
i=1 i=1
N N
!2
1 X 2 1 X
= yi − yi .
N N
i=1 i=1
C. Chesneau 50
4 Plan de sondage aléatoire simple avec remise (PEAR)
D’autre part, on a
N N N
!
1 X 1 X X
s2U = (yi − y U )2 = yi2 − 2y U yi + N y 2U
N −1 N −1
i=1 i=1 i=1
N N
! !
1 X 1 X
= yi2 − 2N y 2U + N y 2U = yi2 − N y 2U
N −1 N −1
i=1 i=1
N N
!2
1 X 1 X
= yi2 − N yi .
N −1 N
i=1 i=1
Il s’ensuit
N
!
X N −1 2
V yi 1{W1 =ui } = sU .
N
i=1
Au final, il vient
N − 1 s2U
V(y W ) = .
N n
N − 1 s2U
EQM (y W )[P EAR] = .
N n
On constate que :
Remarque : L’estimation de y U par y W est plus précise avec un plan de sondage aléatoire de
type PESR que d’un plan de sondage aléatoire de type PEAR. En effet, en évaluant les erreurs
quadratiques moyennes, on a :
s2U n s2U
EQM (y W )[P ESR] = (1 − f ) = 1−
n N n
C. Chesneau 51
4 Plan de sondage aléatoire simple avec remise (PEAR)
et
N − 1 s2U 1 s2U
EQM (y W )[P EAR] = = 1− .
N n N n
Donc
EQM (y W )[P ESR] ≤ EQM (y W )[P EAR].
L’estimation de y U par y W commet donc moins d’erreur dans le cadre PESR que dans le cadre
PEAR.
Estimation aléatoire de sU :
Propriété de s2W :
N −1 2
E s2W = sU .
N
N P
n
Preuve : En remarquant que 1{Wm =ui } = n, il vient
P
i=1 m=1
N n
1 X X
s2W = (yi − y W )2 1{Wm =ui }
n−1
i=1 m=1
N n N n N X
n
!
1 X X X X X
= yi2 1{Wm =ui } − 2y W yi 1{Wm =ui } + y 2W 1{Wm =ui }
n−1
i=1 m=1 i=1 m=1 i=1 m=1
N n N n
! !
1 X X 1 X X
= yi2 1{Wm =ui } − 2ny 2W + ny 2W = yi2 1{Wm =ui } − ny 2W .
n−1 n−1
i=1 m=1 i=1 m=1
On a P(Wm = ui ) = 1/N et
N − 1 s2U
E y 2W = V y 2W + (E (y W ))2 = + y 2U .
N n
C. Chesneau 52
4 Plan de sondage aléatoire simple avec remise (PEAR)
D’où
N n
!!
1 X X
s2W yi2 ny 2W
E = E 1{Wm =ui } −
n−1
i=1 m=1
N n
!
1 X X
yi2 E 1{Wm =ui } − nE y 2W
=
n−1
i=1 m=1
N n
!
1 X X
yi2 P (Wm = ui ) − nE y 2W
=
n−1
i=1 m=1
N !
N − 1 s2U
1 n X
2 2
= yi − n + yU
n−1 N N n
i=1
N
! !
1 n X 1
= yi2 − N y 2U − 1 − s2U
n−1 N N
i=1
N
!!
n(N − 1) 1 X
2 2 1 1
= yi − N y U − 1− s2U .
(n − 1)N N −1 n−1 N
i=1
En remarquant que
N N N
!
1 X 1 X X
s2U = (yi − y U )2 = yi2 − 2y U yi + N y 2U
N −1 N −1
i=1 i=1 i=1
N N
! !
1 X 1 X
= yi2 − 2N y 2U + N y 2U = yi2 − N y 2U .
N −1 N −1
i=1 i=1
D’où
n(N − 1) 2 1 1 n(N − 1) − (N − 1) 2 N −1 2
s2W s2U =
E = sU − 1− sU = sU .
(n − 1)N n−1 N (n − 1)N N
C. Chesneau 53
4 Plan de sondage aléatoire simple avec remise (PEAR)
Estimation ponctuelle de y U :
N n
1X X
yω = yi 1{ωm =ui } .
n
i=1 m=1
Erreur d’estimation :
Probabilité d’erreur :
La probabilité de se tromper de plus de (100 × β)%, β ∈]0, 1[, en estimant y U par y W est le
réel :
1 X
pβ = 1{eω ≥βyU } .
Nn
ω∈W (Ω)
C. Chesneau 54
4 Plan de sondage aléatoire simple avec remise (PEAR)
Estimation ponctuelle de sU :
Résultat en loi : Si on peut admettre que Y suit une loi normale, alors
yW − yU
T = q
2
∼ T (ν),
sW
n
C. Chesneau 55
4 Plan de sondage aléatoire simple avec remise (PEAR)
iy U = [y ω − tα (ν)s(y ω ), y ω + tα (ν)s(y ω )]
" r r #
s2ω s2ω
= y ω − tα (ν) , y ω + tα (ν) ,
n n
C. Chesneau 56
4 Plan de sondage aléatoire simple avec remise (PEAR)
Résultat limite : Si n est suffisamment grand, sans hypothèse de loi normale sur Y , on a l’ap-
proximation :
yW − yU
Z= q
2
≈ N (0, 1).
sW
n
iy U = [y ω − zα s(y ω ), y ω + zα s(y ω )]
" r r #
s2ω s2ω
= y ω − zα , y ω + zα ,
n n
C. Chesneau 57
4 Plan de sondage aléatoire simple avec remise (PEAR)
Résultat en loi : Si on peut admettre que Y suit une loi normale, alors
s2W
K = (n − 1) ∼ χ2 (ν),
s2U
n−1 2 n−1 2
is2U = s , s ,
bα (ν) ω aα (ν) ω
α α
P(K ≥ aα (ν)) = 1 − , P(K ≥ bα (ν)) = ,
2 2
K ∼ χ2 (ν), ν = n − 1.
Incertitude absolue :
r
s2ω
dω = zα s(y ω ) = zα .
n
C. Chesneau 58
4 Plan de sondage aléatoire simple avec remise (PEAR)
Incertitude relative :
dω
d∗ω = .
yω
Taille d’échantillon :
Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon n à choisir
pour avoir :
◦ une incertitude absolue sur y U au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à
d0 est le plus petit n tel que
2
zα s ω
dω ≤ d0 ⇔ n≥ ,
d0
◦ une incertitude relative sur y U au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à
(100 × d1 )% est le plus petit n tel que
2
zα s ω
d∗ω ≤ d1 ⇔ n≥ .
y ω d1
C. Chesneau 59
4 Plan de sondage aléatoire simple avec remise (PEAR)
y1 y2 y3 y4
33 34 29 37
2. On prélève au hasard et avec remise 2 individus dans U formant ainsi un échantillon. Chaque
individu a la même probabilité qu’un autre d’être sélectionné. On est donc dans le cadre
d’un plan de sondage aléatoire de type PEAR.
(d) Soit y W la var égale à la moyenne-échantillon, l’aléatoire étant dans l’échantillon consi-
déré. Déterminer sa loi, puis calculer son espérance et sa variance.
(e) Soit sW la var égale à l’écart-type corrigé-échantillon, l’aléatoire étant dans l’échantillon
considéré. Calculer l’espérance de s2W .
(f) Retrouver les résultats des deux questions précédentes avec les formules du cours.
Solution :
1. On a
y U = 33.25, sU = 3.3040.
42 = 16.
C. Chesneau 60
4 Plan de sondage aléatoire simple avec remise (PEAR)
Ils sont :
1 n 1 2
7
P(u1 ∈ W ) = 1 − 1 − =1− 1− = = 0.4375.
N 4 16
ω Y yω sω
C. Chesneau 61
4 Plan de sondage aléatoire simple avec remise (PEAR)
(d) Soit y W la var égale à la moyenne-échantillon. L’ensemble des valeurs possibles pour y W
est
y W (Ω) = {29, 31, 31.5, 33, 33.5, 34, 35, 35.5, 37}.
L’espérance de y W est
X
E(y W ) = kP(y W = k)
k∈y W (Ω)
1
= (29 + 31 × 2 + 31.5 × 2 + 33 × 3 + 33.5 × 2 + 34 + 35 × 2
16
+ 35.5 × 2 + 37)
= 33.25.
Or on a E(y W ) = 33.25 et
X
E(y 2W ) = k 2 P(y W = k)
k∈y W (Ω)
1
= (292 + 312 × 2 + 31.52 × 2 + 332 × 3 + 33.52 × 2 + 342
16
+ 352 × 2 + 35.52 × 2 + 372 )
= 1109.656.
D’où
V(y W ) = 1109.656 − 33.252 = 4.0935.
C. Chesneau 62
4 Plan de sondage aléatoire simple avec remise (PEAR)
(e) Soit sW la var égale à l’écart-type corrigé-échantillon. L’ensemble des valeurs possibles
pour sW est
sW (Ω) = {0, 0.7071, 2.1213, 2.8284, 3.5355, 5.6568}.
X
E(s2W ) = k 2 P(sW = k)
k∈sW (Ω)
1 2
= (0 × 4 + 0.70712 × 2 + 2.12132 × 2 + 2.82842 × 4 + 3.53552 × 2
16
+ 5.65682 × 2)
= 8.1873.
(f) En utilisant les formules du cours, on retrouve les résultats précédents (en prenant en
compte les approximations) :
N − 1 s2U 3 3.30402
E(y W ) = y U = 33.25, V(y W ) = = × = 4.0936
N n 4 2
et
N −1 2 3
E(s2W ) = sU = × 3.30402 = 8.1873.
N 4
Exercice 2 : Sur les 80 sacs de pommes de terre d’une petite production, on prélève un échantillon
de 17 sacs suivant un plan de sondage aléatoire de type PEAR. On pèse ces 17 sacs. Les
valeurs obtenues donnent une moyenne de 22.53 kilogrammes et un écart-type corrigé de 1.25
kilogrammes. On suppose que le poids en kilogrammes d’un sac de pommes de terre issu de
cette production peut être modélisé par une var Y suivant une loi normale.
C. Chesneau 63
4 Plan de sondage aléatoire simple avec remise (PEAR)
1. Déterminer un intervalle de confiance pour la moyenne des poids des 80 sacs de la production
au niveau 90%.
2. Déterminer la taille d’échantillon à choisir pour avoir une incertitude absolue sur la moyenne
des poids des 80 sacs inférieure ou égale à 0.5 au niveau 90%.
Solution :
2. On a 90% = 100(1 − α)% avec α = 0.1. On souhaite déterminer le plus petit n tel que :
r 2
s2ω
zα s ω
dω = zα ≤ d0 ⇔ n≥ ,
n d0
2
1.645 × 1.25
= 16.9127.
0.5
Donc n = 17 convient.
C. Chesneau 64
4 Plan de sondage aléatoire simple avec remise (PEAR)
On suppose que le temps en secondes que met un élève de maternelle pour reproduire ces 16
dessins peut être modélisé par une var Y suivant une loi normale.
1. Déterminer un intervalle de confiance pour la moyenne des temps des 60 élèves au niveau
99%.
Solution :
y ω = 391.4286, sω = 17.9894.
2. On propose :
C. Chesneau 65
4 Plan de sondage aléatoire simple avec remise (PEAR)
4.7 Synthèse
Taille N n
N N n
1 X 1X X
Moyenne yU = yi yω = yi 1{ωm =ui }
N n
i=1 i=1 m=1
v v
u N u N n
u 1 X u 1 X X
Écart-type corrigé sU = t (yi − y U )2 sω = t (yi − y ω )2 1{ωm =ui }
N −1 n−1
i=1 i=1 m=1
r r
N − 1 s2U s2ω
Écart-type de y W σ(y W ) = s(y ω ) =
N n n
" r r #
s2ω s2ω
Intervalle de confiance iyU = y ω − zα , y ω + zα
n n
r
s2ω
Incertitude absolue dω = zα
n
dω
Incertitude relative d∗ω =
yω
2
zα s ω
Taille n telle que dω ≤ d0 n≥
d0
2
zα s ω
Taille n telle que d∗ω ≤ d1 n≥
y ω d1
C. Chesneau 66
5 Total, proportion et effectif dans le cadre PEAR
Total :
N
X
τU = yi = N y U .
i=1
Estimation aléatoire de τU :
N n
1X X
τW = N y W = N yi 1{Wm =ui } .
n
i=1 m=1
Espérance de τW :
E(τW ) = τU .
Variance de τW :
La variance de τW est
N − 1 s2U
V(τW ) = N 2 .
N n
N − 1 s2U
EQM (τW )[P EAR] = N 2 .
N n
C. Chesneau 67
5 Total, proportion et effectif dans le cadre PEAR
Estimation ponctuelle de τU :
N n
1X X
τω = N y ω = N yi 1{ωm =ui } .
n
i=1 m=1
On peut également définir l’incertitude absolue ou relative sur τU , ainsi que la taille d’échantillon
souhaitée pour une incertitude donnée.
C. Chesneau 68
5 Total, proportion et effectif dans le cadre PEAR
Contexte : On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un
codage.
Proportion :
N
1 X
pU = yi (= y U ).
N
i=1
N n
1X X
pW = y W = yi 1{Wm =ui } .
n
i=1 m=1
Espérance de pW :
E(pW ) = pU .
Variance de pW :
La variance de pW est
N − 1 s2U pU (1 − pU )
V(pW ) = = .
N n n
pU (1 − pU )
EQM (pW )[P EAR] = .
n
C. Chesneau 69
5 Total, proportion et effectif dans le cadre PEAR
Estimation ponctuelle de pU :
N n
1X X
pω = y ω = yi 1{ωm =ui } .
n
i=1 m=1
r
pω (1 − pω )
s(pω ) = .
n−1
C. Chesneau 70
5 Total, proportion et effectif dans le cadre PEAR
Incertitude absolue :
r
pω (1 − pω )
dω = zα s(pω ) = zα .
n−1
Incertitude relative :
dω
d∗ω = .
pω
C. Chesneau 71
5 Total, proportion et effectif dans le cadre PEAR
Taille d’échantillon :
Soit ω = (ω1 , . . . , ωn ) un échantillon prélevé lors d’une étude préliminaire. La taille d’échan-
tillon n à choisir pour avoir :
◦ une incertitude absolue sur pU au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à
d0 est le plus petit n tel que
zα2 pω (1 − pω )
dω ≤ d0 ⇒ n≥ ,
d20
◦ une incertitude relative sur pU au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale à
(100 × d1 )% est le plus petit n tel que
zα2 pω (1 − pω )
d∗ω ≤ d1 ⇒ n≥ .
(pω d1 )2
On peut aussi remplacer pω (1 − pω ) par 1/4, ce qui évite une étude avec un échantillon préli-
minaire pour l’incertitude absolue.
C. Chesneau 72
5 Total, proportion et effectif dans le cadre PEAR
Contexte : On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un
codage.
Effectif :
ηU = N p U .
Estimation aléatoire de ηU :
N n
1X X
ηW = N p W = N yi 1{Wm =ui } .
n
i=1 m=1
Espérance de ηW :
E(ηW ) = ηU .
Variance de ηW :
La variance de ηW est
pU (1 − pU )
V(ηW ) = N 2 .
n
pU (1 − pU )
EQM (ηW )[P EAR] = N 2 .
n
C. Chesneau 73
5 Total, proportion et effectif dans le cadre PEAR
Estimation ponctuelle de ηU :
N n
1X X
ηω = N pω = N yi 1{ωm =ui } .
n
i=1 m=1
r
pω (1 − pω )
s(ηω ) = N2 .
n−1
On peut également définir l’incertitude absolue ou relative sur ηU , ainsi que la taille d’échantillon
souhaitée pour une incertitude donnée.
Exercice 1 : Sur un campus universitaire, un jour donné, on s’intéresse au total des montants
dépensés par les 1765 étudiants du campus pour le café. On note ce total τU . Sur un échantillon
ω de 279 étudiants prélevé suivant un plan de sondage aléatoire de type PEAR, on obtient :
y ω = 1.25 € et sω = 0.25 €.
C. Chesneau 74
5 Total, proportion et effectif dans le cadre PEAR
Solution :
3. On a 95% = 100(1 − α)% avec α = 0.05. A priori, on n’a pas l’hypothèse de normalité sur
Y . On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec zα = 1.96. Un intervalle de confiance
pour τU au niveau 95% est
" r r #
s2 s2
iτU = τω − zα N2 ω , τ ω + zα N2 ω
n n
" r r #
0.252 0.252
= 2206.25 − 1.96 17652 , 2206.25 + 1.96 17652
279 279
= [2154.473, 2258.027].
Ainsi, il y a 95 chances sur 100 que [2154.473, 2258.027] contienne τU , l’unité étant le €.
Exercice 2 : Sur un campus universitaire de 1765 étudiants, un échantillon de 250 étudiants est
prélevé suivant un plan de sondage aléatoire de type PEAR. Parmi ces 250 étudiants, 144
admettent jouer aux jeux vidéos plus de 30 minutes par jour. On note pU la proportion des
1765 étudiants qui admettent cela.
3. Déterminer la taille d’échantillon à choisir pour avoir une incertitude relative sur pU infé-
rieure ou égale à 5% au niveau 95%.
C. Chesneau 75
5 Total, proportion et effectif dans le cadre PEAR
Solution :
144
pω = = 0.576.
250
3. On a 95% = 100(1 − α)% avec α = 0.05. On souhaite déterminer le plus petit n tel que :
zα2 pω (1 − pω )
d∗ω ≤ d1 ⇒ n≥ ,
(pω d1 )2
On a
1.962 × 0.576(1 − 0.576)
n≥ = 1131.138.
(0.576 × 0.05)2
Donc la taille d’échantillon à choisir pour avoir une incertitude relative sur pU inférieure ou
égale à 5% au niveau 95% est de n = 1132.
C. Chesneau 76
5 Total, proportion et effectif dans le cadre PEAR
Taille N n
N N n
1 X 1X X
Proportion pU = yi pω = yi 1{ωm =ui }
N n
i=1 i=1 m=1
r r
pU (1 − pU ) pω (1 − pω )
Écart-type de pW σ(pW ) = s(pω ) =
n n−1
" r r #
pω (1 − pω ) pω (1 − pω )
Intervalle de confiance ipU = pω − zα , p ω + zα
n−1 n−1
r
pω (1 − pω )
Incertitude absolue dω = zα
n−1
dω
Incertitude relative d∗ω =
pω
zα2 pω (1 − pω )
Taille n telle que dω ≤ d0 n≥
d20
zα2 pω (1 − pω )
Taille n telle que d∗ω ≤ d1 n≥
(pω d1 )2
C. Chesneau 77
6 Plan de sondage aléatoire stratifié (ST)
6.1 Contexte
Idée : Les plans de sondages aléatoire de types PESR ou PEAR sont adaptés lorsque la population
est homogène. Si la population n’est pas homogène mais qu’un découpage en plusieurs sous-
populations homogènes est possible, un plan de sondage aléatoire pour chacune de ces sous-
populations peut améliorer la précisions dans l’estimation des paramètres.
Strate :
SH
On considère une partition de H éléments de U notée (U1 , . . . , UH ). Ainsi, on a U = h=1 Uh
C. Chesneau 79
6 Plan de sondage aléatoire stratifié (ST)
ω = (ω1 , . . . , ωH ),
où, pour tout h ∈ {1, . . . , H}, ωh est un échantillon de nh individus de Uh prélevé suivant
un plan de sondage aléatoire de type PESR.
Dans ce contexte, il y a
N1 NH
× ... ×
n1 nH
échantillons possibles.
C. Chesneau 80
6 Plan de sondage aléatoire stratifié (ST)
Quelques commandes R : Pour illustrer un plan de sondage aléatoire de type ST avec le logiciel
R, on propose l’animation :
library(animation)
sample.strat(col = c("lightyellow", "white"))
C. Chesneau 81
6 Plan de sondage aléatoire stratifié (ST)
Remarque : Ce sont les plans de sondage aléatoire de type ST qui sont classiquement utilisés
pour les enquêtes de l’INSEE auprès des entreprises.
Paramètres-population :
◦ concernant la strate Uh :
C. Chesneau 82
6 Plan de sondage aléatoire stratifié (ST)
Preuve : On a
H
◦ comme (U1 , . . . , UH ) est une partition de U , on a Nh = N ,
P
h=1
◦ comme (U1 , . . . , UH ) est une partition de U , on a
H
X
1{ui ∈Uh } = 1{ui ∈SH Uh } = 1{ui ∈U } = 1.
h=1
h=1
Donc
H H N N H N
1 X 1 X 1 X 1 X X 1 X
Nh y Uh = Nh yi 1{ui ∈Uh } = yi 1{ui ∈Uh } = yi = y U .
N N Nh N N
h=1 h=1 i=1 i=1 h=1 i=1
H
◦ En utilisant de nouveau 1{ui ∈Uh } = 1, on a
P
h=1
N
X N
X H
X H X
X N
(yi − y U )2 = (yi − y U )2 1{ui ∈Uh } = (yi − y U )2 1{ui ∈Uh }
i=1 i=1 h=1 h=1 i=1
H XN
X 2
= (yi − y Uh ) + (y Uh − y U ) 1{ui ∈Uh }
h=1 i=1
XH X N H X
X N
= (yi − y Uh )2 1{ui ∈Uh } + 2 (yi − y Uh )(y Uh − y U )1{ui ∈Uh }
h=1 i=1 h=1 i=1
H X
X N
+ (y Uh − y U )2 1{ui ∈Uh } .
h=1 i=1
H X
X N H
X
2
(yi − y Uh ) 1{ui ∈Uh } = (Nh − 1)s2Uh .
h=1 i=1 h=1
C. Chesneau 83
6 Plan de sondage aléatoire stratifié (ST)
N N
Pour le deuxième terme, en utilisant 1{ui ∈Uh } = Nh et yi 1{ui ∈Uh } = Nh y Uh , il vient
P P
i=1 i=1
H X
X N H
X N
X
(yi − y Uh )(y Uh − y U )1{ui ∈Uh } = (y Uh − y U ) (yi − y Uh )1{ui ∈Uh }
h=1 i=1 h=1 i=1
H N N
!
X X X
= (y Uh − y U ) yi 1{ui ∈Uh } − y Uh 1{ui ∈Uh }
h=1 i=1 i=1
H N
!
X X
= (y Uh − y U ) yi 1{ui ∈Uh } − Nh y Uh = 0.
h=1 i=1
N
Pour le troisième terme, en utilisant encore 1{ui ∈Uh } = Nh , on a
P
i=1
H X
X N H
X N
X
2 2
(y Uh − y U ) 1{ui ∈Uh } = (y Uh − y U ) 1{ui ∈Uh }
h=1 i=1 h=1 i=1
XH
= Nh (y Uh − y U )2 .
h=1
Au final, on a
N
X H
X H
X
2
(yi − y U ) = (Nh − 1)s2Uh + Nh (y Uh − y U )2 .
i=1 h=1 h=1
D’où
v v
N H H
u u !
u 1 X
2
u 1 X X
sU = t (yi − y U ) = t (Nh − 1)s2Uh + Nh (y Uh − y U ) 2
.
N −1 N −1
i=1 h=1 h=1
C. Chesneau 84
6 Plan de sondage aléatoire stratifié (ST)
On pose
H H
X X Iinter
I = (N −1)s2U , Iintra = (Nh −1)s2Uh , Iinter = Nh (y Uh −y U )2 , η2 = .
I
h=1 h=1
Alors
◦ I = Iintra + Iinter ,
◦ Iintra est un indicateur sur la dispersion des valeurs de Y au sein des strates,
◦ Iinter est un indicateur sur la dispersion des valeurs de Y entre les strates,
Loi de probabilité :
Soit Wh la var égale à l’échantillon de taille nh obtenu dans la strate Uh par un plan de
sondage aléatoire de type PESR. Alors on a :
1
P(Wh = ω) = Nh
, ω ∈ Wh (Ω).
nh
Probabilités d’appartenance :
nh
P(ui ∈ Wh ) = 1 .
Nh {ui ∈Uh }
nh (nh − 1)
P((ui , uj ) ∈ Wh ) = 1 .
Nh (Nh − 1) {(ui ,uj )∈Wh }
C. Chesneau 85
6 Plan de sondage aléatoire stratifié (ST)
Dans la suite :
6.2 Estimateurs
Estimation aléatoire de y U :
H N
1 X 1 X
yW = Nh y Wh , y Wh = yi 1{ui ∈Wh } .
N nh
h=1 i=1
Espérance de y Wh :
Preuve : On a
N N N
!
1 X 1 X 1 X
E(y Wh ) = E yi 1{ui ∈Wh } = yi E 1{ui ∈Wh } = yi P(ui ∈ Wh )
nh nh nh
i=1 i=1 i=1
N N
1 X nh 1 X
= yi 1 = yi 1{ui ∈Uh } = y Uh .
nh Nh {ui ∈Uh } Nh
i=1 i=1
Variance de y Wh :
s2Uh
V(y Wh ) = (1 − fh ) ,
nh
avec fh = nh /Nh .
C. Chesneau 86
6 Plan de sondage aléatoire stratifié (ST)
N N
! !
1 X 1 X
V(y Wh ) = V yi 1{ui ∈Wh } = 2 V yi 1{ui ∈Wh }
nh nh
i=1 i=1
N N X i−1
1 X X
= V yi 1{ui ∈Wh } + 2 C yi 1{ui ∈Wh } , yj 1{uj ∈Wh }
n2h i=1 i=2 j=1
N N X i−1
1 X X
yi2 V 1{ui ∈Wh } + 2
= 2 yi yj C 1{ui ∈Wh } , 1{uj ∈Wh } .
nh i=1 i=2 j=1
2
= E 12{ui ∈Wh } − E 1{ui ∈Wh } = P(ui ∈ Wh ) − (P(ui ∈ Wh ))2
V 1{ui ∈Wh }
nh 2
nh nh nh
= 1 − 1{ui ∈Uh } = 1− 1{ui ∈Uh } .
Nh {ui ∈Uh } Nh Nh Nh
De plus, comme
P({ui ∈ Wh } ∩ {uj ∈ Wh }) = P((ui , uj ) ∈ Wh ) = nh (nh − 1)/(Nh (Nh − 1))1{(ui ,uj )∈Uh } , il vient
C 1{ui ∈Wh } , 1{uj ∈Wh } = E 1{ui ∈Wh } 1{uj ∈Wh } − E 1{ui ∈Wh } E 1{uj ∈Wh }
V(y Wh )
N
X N X
X i−1
1 nh nh nh nh − 1 nh
= 1− yi2 1{ui ∈Uh } + 2 − yi 1{ui ∈Uh } yj 1{uj ∈Uh }
n2h Nh Nh
i=1
Nh Nh − 1 Nh
i=2 j=1
N
X N Xi−1
1 nh n h − 1 n h
X
= 1− yi2 1{ui ∈Uh } + − 2 yi 1{ui ∈Uh } yj 1{uj ∈Uh } .
nh Nh Nh Nh − 1 Nh
i=1 i=2 j=1
C. Chesneau 87
6 Plan de sondage aléatoire stratifié (ST)
N i−1
N 2 N
On a 2 yi2 1{ui ∈Uh } . D’où
P P P P
yi 1{ui ∈Uh } yj 1{uj ∈Uh } = yi 1{ui ∈Uh } −
i=2 j=1 i=1 i=1
N
1 nh X 2
V(y W ) = 1− yi 1{ui ∈Uh }
nh Nh
Nh
i=1
N
!2 N
!
nh − 1 nh X X
+ − yi 1{ui ∈Uh } − yi2 1{ui ∈Uh }
Nh − 1 Nh
i=1 i=1
N
1 nh nh − 1 nh X 2
= 1− − + yi 1{ui ∈Uh }
nh Nh Nh Nh − 1 Nh
i=1
X N
!2 !
nh − 1 nh
+ − yi 1{ui ∈Uh }
Nh − 1 Nh
i=1
N N
!2
1 Nh − nh X 2 Nh − nh X
= yi 1{ui ∈Uh } − yi 1{ui ∈Uh }
nh Nh Nh − 1 Nh (Nh − 1)
i=1 i=1
N N
!2
Nh − nh 1 X 1 X
= yi2 1{ui ∈Uh } − Nh yi 1{ui ∈Uh } .
nh Nh Nh − 1 Nh
i=1 i=1
D’autre part, on a
N
1 X
s2Uh = (yi − y Uh )2 1{ui ∈Uh }
Nh − 1
i=1
N N
!
1 X X
= yi2 1{ui ∈Uh } − 2y Uh yi 1{ui ∈Uh } + Nh y 2Uh
Nh − 1
i=1 i=1
N N
! !
1 X 1 X
= yi2 − 2N y 2Uh + Nh y 2Uh = yi2 1{ui ∈Uh } − N y 2Uh
Nh − 1 Nh − 1
i=1 i=1
N N
!2
1 X 1 X
= yi2 1{u ∈U i h}
− Nh yi 1{ui ∈Uh } .
Nh − 1 Nh
i=1 i=1
Il s’ensuit
s2Uh s2Uh
Nh − nh 2 nh
V(y Wh ) = s = 1− = (1 − fh ) .
nh Nh Uh Nh nh nh
C. Chesneau 88
6 Plan de sondage aléatoire stratifié (ST)
Espérance de y W :
E(y W ) = y U .
H H H
!
1 X 1 X 1 X
E(y W ) = E Nh y Wh = Nh E y Wh = Nh y Uh = y U .
N N N
h=1 h=1 h=1
Variance de y W :
On a
H
1 X 2 s2Uh
V(y W ) = Nh (1 − fh ) .
N2 nh
h=1
Preuve : Comme (U1 , . . . , UH ) forme une partition de U , les var y W1 , . . . , y WH sont indépendantes.
Cela combiné à V y Wh = (1 − fh )s2Uh /nh donne
H H H
!
1 X 1 X 2 1 X 2 s2Uh
V(y W ) = V Nh y Wh = Nh V y Wh = Nh (1 − fh ) .
N N2 N2 nh
h=1 h=1 h=1
H
1 X 2 s2U
EQM (y W )[ST ] = 2 Nh (1 − fh ) h .
N nh
h=1
v
u N
u 1 X
sWh =t (yi − y Wh )2 1{ui ∈Wh } .
nh − 1
i=1
C. Chesneau 89
6 Plan de sondage aléatoire stratifié (ST)
Propriété de s2Wh :
E s2Wh = s2Uh .
N
Preuve : En remarquant que 1{ui ∈Wh } = n, il vient
P
i=1
N
1 X
s2Wh = (yi − y Wh )2 1{ui ∈Wh }
nh − 1
i=1
N N N
!
1 X X X
= yi2 1{ui ∈Wh } − 2y Wh yi 1{ui ∈Wh } + y 2Wh 1{ui ∈Wh }
nh − 1
i=1 i=1 i=1
N N
! !
1 X 1 X
= yi2 1{ui ∈Wh } − 2ny 2Wh + ny 2Wh = yi2 1{ui ∈Wh } − ny 2W .
nh − 1 n−1
i=1 i=1
2 s2U
E y 2Wh = V y 2Wh + E y Wh = (1 − fh ) h + y 2Uh ,
nh
on a
N
!!
1 X
E s2Wh yi2 1{ui ∈Wh } − nh y 2Wh
= E
nh − 1
i=1
N
!
1 X
yi2 E y 2Wh
= 1{ui ∈Wh } − nh E
nh − 1
i=1
N
!
1 X
yi2 P (ui ∈ Wh ) − nh E y 2Wh
=
nh − 1
i=1
N
!!
1 nh X 2 s2Uh
= yi 1{ui ∈Uh } − nh + (1 − fh ) y 2Uh
nh − 1 Nh n
i=1
N
! !
1 nh X 2 n h
= yi 1{ui ∈Uh } − Nh y 2Uh − 1 − s2Uh
nh − 1 Nh Nh
i=1
N
!!
nh (Nh − 1) 1 X
2 2 1 nh
= yi − Nh y Uh − 1− s2Uh .
(nh − 1)Nh Nh − 1 nh − 1 Nh
i=1
C. Chesneau 90
6 Plan de sondage aléatoire stratifié (ST)
En remarquant que
N
1 X
s2Uh = (yi − y Uh )2 1{ui ∈Uh }
Nh − 1
i=1
N N
!
1 X X
= yi2 1{ui ∈Uh } − 2y Uh yi 1{ui ∈Uh } + Nh y 2Uh
Nh − 1
i=1 i=1
N N
! !
1 X 1 X
= yi2 1{ui ∈Uh } − 2Nh y 2Uh + Nh y 2Uh = yi2 1{ui ∈Uh } − Nh y 2Uh .
Nh − 1 Nh − 1
i=1 i=1
D’où
nh (Nh − 1) 2 1 nh
s2Wh s2Uh
E = s − 1−
(nh − 1)Nh Uh nh − 1 Nh
nh (Nh − 1) − Nh + nh 2 nh Nh − nh − Nh + nh 2 (nh − 1)Nh 2
= s Uh = s Uh = s = s2Uh .
(nh − 1)Nh (nh − 1)Nh (nh − 1)Nh Uh
Estimation ponctuelle de y Uh :
C. Chesneau 91
6 Plan de sondage aléatoire stratifié (ST)
Estimation ponctuelle de y U :
H
Soit ω = (ω1 , . . . , ωH ) un échantillon de n = nh individus de U . Une estimation ponctuelle
P
h=1
de y U est la moyenne-échantillon (stratifiée) :
H
1 X
yω = Nh y ωh .
N
h=1
Y_1 = c(35, 43, 36, 39, 28, 28, 29, 25, 38, 27, 26, 32, 29, 40, 35, 41, 38,
31, 45, 34, 15, 4, 41, 49, 25, 10)
Y_2 = c(27, 15, 4, 41, 49, 25, 10, 30, 32, 29, 40, 35, 41, 36, 31, 45)
Y_3 = c(8, 14, 12, 12, 15, 30, 32, 21, 20, 34, 7, 11, 24, 32, 29, 42, 35,
41, 37, 31, 42)
n_h = c(3, 2, 4)
library(sampling)
t_1 = srswor(n_h[1], length(Y_1))
t_2 = srswor(n_h[2], length(Y_2))
t_3 = srswor(n_h[3], length(Y_3))
bar_y_w_1 = (1 / n_h[1]) * sum(Y_1 * t_1)
bar_y_w_2 = (1 / n_h[2]) * sum(Y_2 * t_2)
bar_y_w_3 = (1 / n_h[3]) * sum(Y_3 * t_3)
bar_y_w_h = c(bar_y_w_1, bar_y_w_2, bar_y_w_3)
N_h = c(length(Y_1), length(Y_2), length(Y_3))
N = sum(N_h)
bar_y_w = sum(N_h * bar_y_w_h) / N
bar_y_w
C. Chesneau 92
6 Plan de sondage aléatoire stratifié (ST)
Estimation ponctuelle de sU :
H
Soit ω = (ω1 , . . . , ωH ) un échantillon de n = nh individus de U . Une estimation ponctuelle
P
h=1
de sU est l’écart-type corrigé-échantillon :
v
H H
u !
u 1 X X
sω = t (Nh − 1)s2ωh + Nh (y ωh − y ω )2 .
N −1
h=1 h=1
v
H
s2ω
u
u 1 X
s(y ω ) = t 2 Nh2 (1 − fh ) h .
N nh
h=1
C. Chesneau 93
6 Plan de sondage aléatoire stratifié (ST)
Y_1 = c(35, 43, 36, 39, 28, 28, 29, 25, 38, 27, 26, 32, 29, 40, 35, 41, 38,
31, 45, 34, 15, 4, 41, 49, 25, 10)
Y_2 = c(27, 15, 4, 41, 49, 25, 10, 30, 32, 29, 40, 35, 41, 36, 31, 45)
Y_3 = c(8, 14, 12, 12, 15, 30, 32, 21, 20, 34, 7, 11, 24, 32, 29, 42, 35,
41, 37, 31, 42)
n_h = c(3, 2, 4)
t_1 = srswor(n_h[1], length(Y_1))
t_2 = srswor(n_h[2], length(Y_2))
t_3 = srswor(n_h[3], length(Y_3))
bar_y_w_1 = (1 / n_h[1]) * sum(Y_1 * t_1)
bar_y_w_2 = (1 / n_h[2]) * sum(Y_2 * t_2)
bar_y_w_3 = (1 / n_h[3]) * sum(Y_3 * t_3)
bar_y_w_h = c(bar_y_w_1, bar_y_w_2, bar_y_w_3)
s_w_1 = sqrt(sum((Y_1 - bar_y_w_1)^2 * t_1) / (n_h[1] - 1))
s_w_2 = sqrt(sum((Y_2 - bar_y_w_2)^2 * t_2) / (n_h[2] - 1))
s_w_3 = sqrt(sum((Y_3 - bar_y_w_3)^2 * t_3) / (n_h[3] - 1))
s_w_h = c(s_w_1, s_w_2, s_w_3)
N_h = c(length(Y_1), length(Y_2), length(Y_3))
N = sum(N_h)
bar_y_w = sum(N_h * bar_y_w_h) / N
s_bar_y_w = sqrt((1 / N^2) * sum(N_h^2 * (1-n_h / N_h) * (s_w_h^2 / n_h)))
s_bar_y_w
C. Chesneau 94
6 Plan de sondage aléatoire stratifié (ST)
Question : Comment doit-on choisir les nombres d’individus n1 , . . . , nH dans chaque strate pour
que l’estimation de y U soit la plus précise possible ? Deux réponses possibles sont apportées
par :
On appelle plan de sondage aléatoire stratifié proportionnel (STP) tout plan de sondage
aléatoire stratifié (ST) tel que les entiers n1 , . . . , nH vérifient, pour tout
h ∈ {1, . . . , H}, fh = f , soit
n
nh = Nh .
N
Choix pratique :
En pratique, pour tout h ∈ {1, . . . , H}, on prend le plus petit entier nh tel que
n
nh ≥ Nh .
N
H
Si on a nh 6= n, on ajuste en ajoutant ou enlevant une unités pour les échantillons les plus
P
h=1
nombreux.
Réécriture de y W :
On a
H H N H
1 X 1X 1X X
yW = Nh y Wh = nh y W h = yi 1{ui ∈Wh }
N n n
h=1 h=1 i=1 h=1
N
1 X
= yi 1{ui ∈W } .
n
i=1
On retrouve le même estimateur de la moyenne que celui présenté dans le cadre PESR.
C. Chesneau 95
6 Plan de sondage aléatoire stratifié (ST)
H
1 X Nh 2
EQM (y W )[ST P ] = (1 − f ) s .
n N Uh
h=1
Réécriture de y ω :
H
Soit ω = (ω1 , . . . , ωH ) un échantillon de n = nh individus de U . Une estimation ponctuelle
P
h=1
de y U est la moyenne-échantillon :
H N
1 X 1X
yω = Nh y ωh = yi 1{ui ∈ω} .
N n
h=1 i=1
On retrouve la même estimation ponctuelle de y U que celle présentée dans le cadre PESR.
H
Soit ω = (ω1 , . . . , ωH ) un échantillon de n = nh individus de U . Une estimation ponctuelle
P
h=1
de l’écart-type de y W est le réel :
v v
u H 2
u H
u 1 X
2 sω h
u 1 X Nh 2
s(y ω ) = t Nh (1 − fh ) = (1 − f )
t s .
N2 nh n N ωh
h=1 h=1
C. Chesneau 96
6 Plan de sondage aléatoire stratifié (ST)
On appelle plan de sondage aléatoire stratifié optimal (STO) tout plan de sondage aléatoire
stratifié (ST) tel que les entiers n1 , . . . , nH minimisent
H
1 X 2 s2Uh
f (n1 , . . . , nH ) = Nh (1 − fh ) ,
N2 nh
h=1
H
sous la contrainte
P
nh = n.
h=1
Notons que f (n1 , . . . , nH ) = EQM (y W )[ST ].
En utilisant une fonction lagrangienne, on obtient :
Nh sUh
nh = n H
.
P
N ` s U`
`=1
Choix pratique : Soit ω = (ω1 , . . . , ωH ) un échantillon prélevé lors d’une étude préliminaire. En
pratique, pour tout h ∈ {1, . . . , H}, on prend le plus petit entier nh tel que
Nh sωh
nh ≥ n H
.
P
N` sω`
`=1
On procède de même si nk ≥ Nk .
H
◦ Si nh 6= n, on ajuste en enlevant une unité pour les échantillons les plus nombreux.
P
h=1
C. Chesneau 97
6 Plan de sondage aléatoire stratifié (ST)
H
!2 H
1 X Nh 1 X Nh 2
EQM (y W )[ST O] = s Uh − s .
n N N N Uh
h=1 h=1
yW − yU
Z=v ≈ N (0, 1).
u H 2
u 1 X s W
t Nh2 (1 − fh ) h
N2 nh
h=1
C. Chesneau 98
6 Plan de sondage aléatoire stratifié (ST)
Incertitude absolue :
v
H
s2ωh
u
u 1 X
2
dω = zα s(y ω ) = zα t Nh (1 − fh ) .
N2 nh
h=1
C. Chesneau 99
6 Plan de sondage aléatoire stratifié (ST)
Incertitude relative :
dω
d∗ω = .
yω
Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon n à choisir
pour avoir une incertitude absolue sur y U au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou
égale à d0 est le plus petit n tel que dω ≤ d0 . En particulier,
H
N zα2 Nh s2ωh
P
h=1
n≥ H
,
N 2 d20 zα2 Nh s2ωh
P
+
h=1
H
2
zα2
P
Nh sωh
h=1
n≥ H
.
N 2 d20 + zα2 Nh s2ωh
P
h=1
C. Chesneau 100
6 Plan de sondage aléatoire stratifié (ST)
Soit ω un échantillon prélevé lors d’une étude préléminaire. La taille d’échantillon n à choisir
pour avoir une incertitude relative sur y U au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou
égale à (100 × d1 )% est le plus petit n tel que d∗ω ≤ d1 . En particulier,
H
N zα2 Nh s2ωh
P
h=1
n≥ H
,
N 2 (d1 y ω )2 zα2 Nh s2ωh
P
+
h=1
H
2
zα2
P
Nh sωh
h=1
n≥ H
.
N 2 (d1 y ω )2 + zα2 Nh s2ωh
P
h=1
C. Chesneau 101
6 Plan de sondage aléatoire stratifié (ST)
y1 y2 y3 y4 y5
17 14.5 26 22.5 23
(a) Quel est le taux de sondage ? Combien d’échantillons peut-on former ? Expliciter les.
(c) Soit y W la var égale à la moyenne-échantillon, l’aléatoire étant dans l’échantillon consi-
déré. Déterminer sa loi, puis calculer son espérance, sa variance et son erreur quadratique
moyenne : EQM(y W ).
(c) Soit y W la var égale à la moyenne-échantillon stratifié, l’aléatoire étant dans l’échan-
tillon considéré. Déterminer sa loi, puis calculer son espérance, sa variance et son erreur
quadratique moyenne : EQM(y W ).
C. Chesneau 102
6 Plan de sondage aléatoire stratifié (ST)
Solution :
1. On a
y U = 20.6, sU = 4.7090.
5 5!
= = 10.
2 2!(5 − 2)!
Ils sont :
(b) On a :
ω Y yω
(c) Soit y W la var égale à la moyenne-échantillon. L’ensemble des valeurs possibles pour y W
est
y W (Ω) = {15.75, 18.5, 18.75, 19.75, 20, 20.25, 21.5, 22.75, 24.25, 24.5}.
C. Chesneau 103
6 Plan de sondage aléatoire stratifié (ST)
L’espérance de y W est
X
E(y W ) = kP(y W = k)
k∈y W (Ω)
1
= (15.75 + 18.5 + 18.75 + 19.75 + 20 + 20.25 + 21.5 + 22.75 + 24.25 + 24.5)
10
= 20.6 (= y U )
Or on a E(y W ) = 20.6 et
X
E(y 2W ) = k 2 P(y W = k)
k∈y W (Ω)
1
= (15.752 + 18.52 + 18.752 + 19.752 + 202 + 20.252
10
+ 21.52 + 22.752 + 24.252 + 24.52 )
= 431.0125.
D’où
s2
V(y W ) = 431.0125 − 20.62 = 6.652 = (1 − f ) U
n
et
EQM (y W ) = V(y W ) = 6.652.
C. Chesneau 104
6 Plan de sondage aléatoire stratifié (ST)
2 3
= 2 × 3 = 6.
1 1
Ils sont :
(b) Dans le cadre d’un plan de sondage aléatoire de type ST, on rappelle que
H
1 X
yω = Nh y ωh .
N
h=1
2 3
y ω = 17 + 26 = 22.4.
5 5
On a
ω Y yω
(c) Soit y W la var égale à la moyenne-échantillon dans le cadre ST. L’ensemble des valeurs
possibles pour y W est
C. Chesneau 105
6 Plan de sondage aléatoire stratifié (ST)
L’espérance de y W est
X
E(y W ) = kP(y W = k)
k∈y W (Ω)
1
= (22.4 + 20.3 + 20.6 + 21.4 + 19.3 + 19.6)
6
= 20.6 (= y U )
Or on a E(y W ) = 20.6 et
X
E(y 2W ) = k 2 P(y W = k)
k∈y W (Ω)
1
= (22.42 + 20.32 + 20.62 + 21.42 + 19.32 + 19.62 )
6
= 425.47.
D’où
H
!
2 1 X 2 s2U
V(y W ) = 425.47 − 20.6 = 1.11 = 2 Nh (1 − fh ) h
N nh
h=1
et
EQM (y W )[ST ] = V(y W ) = 1.11.
Remarque : On a bien
H
s2Uh 1 1.76772 1 1.89292
1 X 2 1 2 2
Nh (1 − fh ) = 2 2 1− +3 1− = 1.10991.
N2 nh 5 2 1 3 1
h=1
C. Chesneau 106
6 Plan de sondage aléatoire stratifié (ST)
Donc le plan de sondage aléatoire de type ST donne une meilleure précision dans l’estimation
de y U que le plan de sondage aléatoire de type PESR.
◦ n1 = 2 individus pour U1 ,
◦ n2 = 6 individus pour U2 ,
◦ n3 = 12 individus pour U3 .
On mesure un caractère quantitatif Y sur chacun d’entre eux. Les résultats obtenus sont :
Solution :
1. Dans le cadre d’un plan de sondage aléatoire de type ST, une estimation ponctuelle de la
moyenne-population y U est
H
1 X
yω = Nh y ωh .
N
h=1
PH
Ici, H = 3, N1 = 12, N2 = 28, N3 = 50, N = h=1 Nh = 90,
C. Chesneau 107
6 Plan de sondage aléatoire stratifié (ST)
1
yω = (12 × 1524 + 28 × 802.1667 + 50 × 303.3333) = 621.2815.
90
2. Dans le cadre d’un plan de sondage aléatoire de type ST, une estimation ponctuelle de
l’écart-type de y W est v
H
s2ω
u
u 1 X
s(y ω ) = t 2 Nh2 (1 − fh ) h .
N nh
h=1
Ici on a
sω1 = 104.6518, sω2 = 112.352, sω3 = 85.9622
et
n1 2 n2 6 n3 12
f1 = = , f2 = = , f3 = = .
N1 12 N2 28 N3 50
Donc
2 104.65182 6 112.3522
1 1
s2 (y ω ) = 122
1− + 2 282 1 −
902 12 2 90 28 6
2
1 2 12 85.96229
+ 50 1 − = 385.566.
902 50 12
Il vient
√
s(y ω ) = 385.566 = 19.63583.
3. On a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec
zα = 1.96. En utilisant les résultats des questions 1 et 2, un intervalle de confiance pour y U
au niveau 95% est
v v
u H 2
u H 2
u 1 X s ω
u 1 X s ω
iy U = y ω − zα t 2 Nh2 (1 − fh ) h , y ω + zα t 2 Nh2 (1 − fh ) h
N nh N nh
h=1 h=1
= [621.2815 − 1.96 × 19.63583, 621.2815 + 1.96 × 19.63583] = [582.7953, 659.7677].
C. Chesneau 108
6 Plan de sondage aléatoire stratifié (ST)
Strate Uh U1 U2 U3 U4
(a) Déterminer les tailles des échantillons pour chacune des strates.
(a) Déterminer les tailles des échantillons pour chacune des strates.
Solution :
H
X
N= Nh = 770.
h=1
(a) Par la définition du type STP, on prend les plus petits entiers n1 , n2 , n3 et n4 tels que :
n n
n1 ≥ N1 = 0.1 × 310 = 31, n2 ≥ N2 = 0.1 × 220 = 22,
N N
n n
n3 ≥ N1 = 0.1 × 130 = 13, n4 ≥ N2 = 0.1 × 110 = 11.
N N
D’où :
n1 = 31. n2 = 22, n3 = 13, n4 = 11.
C. Chesneau 109
6 Plan de sondage aléatoire stratifié (ST)
H
On a nh = 77 = n, il n’y a pas d’ajustement à faire.
P
h=1
(b) L’erreur quadratique moyenne de l’estimateur de la moyenne-population y W est
H
1 X Nh 2
EQM (y W )[ST P ] = (1 − f ) s
n N Uh
h=1
77 1 310 2 220 2 130 2 110 2
= 1− 9.5 + 6.1 + 3.5 + 2.1
770 77 770 770 770 770
= 0.5804.
(a) Par la définition du type STO, on prend les plus petits entiers n1 , n2 , n3 et n4 tels que :
N 3 s U3 130 × 3.5
n3 ≥ n = 77 × = 7.0450,
H
P 310 × 9.5 + 220 × 6.1 + 130 × 3.5 + 110 × 2.1
N` sU`
`=1
et
D’où :
n1 = 46, n2 = 21, n3 = 8, n4 = 4.
H
Comme nh = 79 6= 77, on propose l’ajustement :
P
h=1
n1 = 45, n2 = 20, n3 = 8, n4 = 4.
C. Chesneau 110
6 Plan de sondage aléatoire stratifié (ST)
H
!2 H
1 X Nh 1 X Nh 2
EQM (y W )[ST O] = s Uh − s
n N N N Uh
h=1 h=1
2
1 310 220 130 110
= 9.5 + 6.1 + 3.5 + 2.1
77 770 770 770 770
1 310 2 220 2 130 2 110 2
− 9.5 + 6.1 + 3.5 + 2.1
770 770 770 770 770
= 0.4772.
4. On remarque que les plans de sondage amènent à des tailles différentes pour le choix des
échantillons. De plus, par rapport au type STP, le sondage aléatoire de type STO conduit à
une meilleure performance de y W dans l’estimation de y U .
C. Chesneau 111
6 Plan de sondage aléatoire stratifié (ST)
6.9 Synthèse
Strate Uh Échantillon ωh
Taille Nh nh
nh
Taux de sondage fh =
Nh
Nh Nh
1 X 1 X
Moyenne y Uh= yi y ωh = yi 1{ui ∈ωh }
Nh nh
v i=1 v i=1
u
u 1 N
X h
u
u 1 X N h
Population U Échantillon ω
Taille N n
N H
1 X 1 X
Moyenne yU = yi yω = Nh y ωh
N N
v i=1 v h=1
H H
s2U s2ω
u u
u 1 X u 1 X
Écart-type de y W σ(y W ) = t 2 Nh2 (1 − fh ) h s(y ω ) = t 2 Nh2 (1 − fh ) h
N nh N nh
h=1 h=1
C. Chesneau 112
6 Plan de sondage aléatoire stratifié (ST)
n Nh sUh Nh sωh
nh Nh n H
n H
N P P
N` sU` N` sω`
`=1 `=1
dω
Incertitude relative d∗ω =
yω
H
N zα2 Nh s2ωh
P
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ H
,
N 2 d20 + zα2
P
Nh s2ωh
H h=1 2
zα2
P
Nh sωh
h=1
dω ≤ d0 ◦ pour un plan de sondage aléatoire de type STO : n ≥ H
.
N 2 d20 + zα2
P
Nh s2ωh
h=1
H
N zα2 Nh s2ωh
P
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ H
,
P
N 2 (d1 y ω )2 + zα2 Nh s2ωh
h=1
H 2
zα2
P
Nh sωh
h=1
d∗ω ≤ d1 ◦ pour un plan de sondage aléatoire de type STO : n ≥ H
.
P
N 2 (d1 y ω )2 + zα2 Nh s2ωh
h=1
C. Chesneau 113
7 Total, proportion et effectif dans le cadre ST
Total :
N
X H
X
τU = yi = N y U = Nh y Wh .
i=1 h=1
Estimation aléatoire de τU :
Espérance de τW :
E(τW ) = τU .
Variance de τW :
La variance de τW est
H
X s2Uh
V(τW ) = Nh2 (1 − fh ) .
nh
h=1
H
X s2Uh
EQM (τW )[P ESR] = Nh2 (1 − fh ) .
nh
h=1
C. Chesneau 115
7 Total, proportion et effectif dans le cadre ST
Estimation ponctuelle de τU :
On peut également définir l’incertitude absolue ou relative sur τU , ainsi que la taille d’échantillon
souhaitée pour une incertitude donnée.
Contexte : On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un
codage.
Proportion :
C. Chesneau 116
7 Total, proportion et effectif dans le cadre ST
N
1 X
pU = yi (= y U ).
N
i=1
H
1 X
pW = Nh pUh ,
N
h=1
avec pUh = y Wh .
Espérance de pW :
E(pW ) = pU .
Variance de pW :
La variance de pW est
H H
1 X 2 s2Uh 1 X 2 Nh
V(pW ) = 2 Nh (1 − fh ) = 2 Nh (1 − fh ) pU (1 − pUh ).
N nh N nh (Nh − 1) h
h=1 h=1
H
1 X 2 Nh
EQM (pW )[ST ] = 2 Nh (1 − fh ) pU (1 − pUh ).
N nh (Nh − 1) h
h=1
Estimation ponctuelle de pU :
C. Chesneau 117
7 Total, proportion et effectif dans le cadre ST
C. Chesneau 118
7 Total, proportion et effectif dans le cadre ST
C. Chesneau 119
7 Total, proportion et effectif dans le cadre ST
icpST(N_h, y, 0.99)
En pratique, pour tout h ∈ {1, . . . , H}, on considère le plus petit entier nh tel que
n
nh = Nh .
N
Soit ω = (ω1 , . . . , ωH ) un échantillon prélevé lors d’une étude préliminaire. En pratique, pour
tout h ∈ {1, . . . , H}, on prend le plus petit entier nh tel que
p
Nh pωh (1 − pωh )
nh ≥ n H .
P p
N` pω` (1 − pω` )
`=1
Incertitude absolue :
v
u H
u 1 X pω (1 − pωh )
dω = zα s(y ω ) = zα t
2
Nh2 (1 − fh ) h .
N nh − 1
h=1
Incertitude relative :
dω
d∗ω = .
pω
C. Chesneau 120
7 Total, proportion et effectif dans le cadre ST
Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon n à choisir
pour avoir une incertitude absolue sur pU au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou
égale à d0 est le plus petit n tel que dω ≤ d0 . En particulier, cela entraîne,
H
N zα2
P
Nh pωh (1 − pωh )
h=1
n≥ H
,
N 2 d20 zα2
P
+ Nh pωh (1 − pωh )
h=1
H
2
p
zα2
P
Nh pωh (1 − pωh )
h=1
n≥ H
.
N 2 d20 zα2
P
+ Nh pωh (1 − pωh )
h=1
C. Chesneau 121
7 Total, proportion et effectif dans le cadre ST
Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon n à choisir
pour avoir une incertitude relative sur pU au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou
égale à (100 × d1 )% est le plus petit n tel que d∗ω ≤ d1 . En particulier, cela entraîne,
H
N zα2
P
Nh pωh (1 − pωh )
h=1
n≥ H
,
N 2 (d1 pω )2 zα2
P
+ Nh pωh (1 − pωh )
h=1
H
2
p
zα2
P
Nh pωh (1 − pωh )
h=1
n≥ H
.
N 2 (d1 pω )2 zα2
P
+ Nh pωh (1 − pωh )
h=1
Contexte : On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un
codage.
Effectif :
ηU = N p U .
Estimation aléatoire de ηU :
Espérance de ηW :
C. Chesneau 122
7 Total, proportion et effectif dans le cadre ST
E(ηW ) = ηU .
Variance de ηW :
La variance de ηW est
H H
X s2ωh X Nh
V(ηW ) = Nh2 (1 − fh ) = Nh2 (1 − fh ) pU (1 − pUh ).
nh nh (Nh − 1) h
h=1 h=1
H
X Nh
EQM (ηW )[ST ] = Nh2 (1 − fh ) pU (1 − pUh ).
nh (Nh − 1) h
h=1
Estimation ponctuelle de ηU :
C. Chesneau 123
7 Total, proportion et effectif dans le cadre ST
On peut également définir l’incertitude absolue ou relative sur ηU , ainsi que la taille d’échantillon
souhaitée pour une incertitude donnée.
Exercice 1 : Sur les 6000 employés d’une entreprise, on souhaite connaître la proportion pU d’entre
eux qui sont propriétaires de leur logement. On décide de former 3 strates en fonction du revenu
des employés. On considère alors :
◦ la strate U1 : ensemble des employés à revenu faible,
◦ la strate U2 : ensemble des employés à revenu modeste,
◦ la strate U3 : ensemble des employés à revenu fort.
On dispose des informations suivantes :
Uh U1 U2 U3
C. Chesneau 124
7 Total, proportion et effectif dans le cadre ST
Solution :
H
1 X 1
pω = Nh pωh = (2800 × 0.11 + 2200 × 0.55 + 1000 × 0.85) = 0.39466.
N 6000
h=1
2. On a
H
1 X 2 pω (1 − pωh )
s2 (pω ) = 2
Nh (1 − fh ) h
N nh − 1
h=1
1 2 210 0.11(1 − 0.11) 2 200 0.55(1 − 0.55)
= 2800 1 − + 2200 1 −
60002 2800 210 − 1 2200 200 − 1
!
2 110 0.85(1 − 0.85)
+ 1000 1 −
1000 110 − 1
= 0.0002752.
Donc
s(pω ) = 0.016589.
3. On a 95% = 100(1 − α)% avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec
zα = 1.96. Un intervalle de confiance pour τU au niveau 95% est
= [0.36214, 0.42717].
Exercice 2 : On veut estimer le taux de réussite à la session d’examens de juin dans une université
qui comprend 950 inscrits en première année, 700 en deuxième, 430 en troisième et 400 en
quatrième. On veut estimer le taux de réussite à partir des résultats de 500 étudiants.
C. Chesneau 125
7 Total, proportion et effectif dans le cadre ST
2. Est-ce que l’estimation aurait été meilleure avec un plan de sondage aléatoire de type ST
avec pour strates les années d’étude ?
C. Chesneau 126
7 Total, proportion et effectif dans le cadre ST
3. Combien d’étudiants aurait-il fallu prendre par année pour faire un plan de sondage aléatoire
de type STP ?
4. Avec un échantillon de 500 étudiants prélevé suivant un plan de sondage aléatoire de type
STP, on obtient :
Solution :
1. Soit pU le taux de réussite global. Par l’énoncé, on a pω = 0.72. On a 95% = 100(1 − α)%
avec α = 0.05. On a P(|Z| ≥ zα ) = α = 0.05, Z ∼ N (0, 1), avec zα = 1.96. Un intervalle de
confiance pour pU au niveau 95% est
" r r #
pω (1 − pω ) pω (1 − pω )
ipU = pω − zα (1 − f ) , pω + zα (1 − f )
n−1 n−1
" s
500 0.72(1 − 0.72)
= 0.72 − 1.96 1− ,
2480 500 − 1
s #
500 0.72(1 − 0.72)
0.72 + 1.96 1−
2480 500 − 1
= [0.6847, 0.7552].
2. Oui, il est fort probable qu’un plan de sondage aléatoire de type ST avec pour strates les
années d’étude aurait amené une meilleure estimation.
3. Pour faire un plan de sondage aléatoire de type STP, il faut choisir les plus petites tailles
d’échantillons : n1 , . . . , n4 telles que, pour tout h ∈ {1, . . . , 4},
n
nh ≥ Nh .
N
C. Chesneau 127
7 Total, proportion et effectif dans le cadre ST
Il vient
et
500
n1 ≥ 400 = 80.64516.
2480
4
Donc n1 = 192, n2 = 142, n3 = 87 et n4 = 81. On a nh = 502 6= 500, on ajuste :
P
h=1
n1 = 191, n2 = 141, n3 = 87 et n4 = 81.
4
1 X 1
pω = Nh pωh = (950 × 0.62 + 700 × 0.72 + 430 × 0.78 + 400 × 0.83) = 0.7098.
N 2480
h=1
C. Chesneau 128
7 Total, proportion et effectif dans le cadre ST
Strate Uh Échantillon ωh
Taille Nh nh
nh
Taux de sondage fh =
Nh
Nh Nh
1 X 1 X
Proportion p Uh = yi p ωh = yi 1{ui ∈ωh }
Nh i=1 nh i=1
r r
Nh pU (1 − pUh )
Écart-type de pWh σ(pWh ) = (1 − fh ) pU (1 − pUh ) s(pωh ) = (1 − fh ) h
nh (Nh − 1) h nh − 1
Population U Échantillon ω
Taille N n
N H
1 X 1 X
Moyenne pU = yi pω = Nh pωh
N N
v i=1 v h=1
u H u H
u 1 X 2 2 u 1 X 2 pω (1 − pωh )
Écart-type de pW σ(pW ) = t 2 Nh σ (pWh ) s(pω ) = t 2 Nh (1 − fh ) h
N N nh − 1
h=1 h=1
C. Chesneau 129
7 Total, proportion et effectif dans le cadre ST
dω
Incertitude relative d∗ω =
yω
H
2
P
N zα Nh pωh (1 − pωh )
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ ,
H
N 2 d20 + zα
2
P
Nh pωh (1 − pωh )
H h=1 2
2
P p
zα Nh pωh (1 − pωh )
h=1
dω ≤ d0 ◦ pour un plan de sondage aléatoire de type STO : n ≥ .
H
N 2 d20 2
P
+ zα Nh pωh (1 − pωh )
h=1
H
2 Nh s2ωh
P
N zα
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ ,
H
N 2 (d1 pω )2 + zα
2 Nh s2ωh
P
h=1
H 2
2
P p
zα Nh pωh (1 − pωh )
h=1
d∗ω ≤ d1 ◦ pour un plan de sondage aléatoire de type STO : n ≥ .
H
N 2 (d1 pω )2 2
P
+ zα Nh pωh (1 − pωh )
h=1
C. Chesneau 130
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)
8.1 Contexte
Un plan de sondage aléatoire est dit à probabilités inégales (PI) si au moins 2 individus n’ont
pas la même probabilité d’être sélectionné. De plus, il est dit PISR si il est à probabilités
inégales et si un même indiividu ne peut apparaître qu’une seule fois dans l’échantillon.
Ainsi, en notant W la var égale à l’echantillon obtenu, il existe deux individus ui et uj tels
que
P(ui ∈ W ) 6= P(uj ∈ W ).
πi = P(ui ∈ W ).
πi,j = P((ui , uj ) ∈ W ).
Dans la suite : On se place dans le cadre d’un plan de sondage aléatoire de type PISR.
C. Chesneau 131
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)
On a
N
P
◦ πi = n,
i=1
N
πi,j = (n − 1)πi ,
P
◦
j=1
j6=i
N
P
◦ (πi,j − πi πj ) = −πi (1 − πi ).
j=1
j6=i
Preuve :
n n
!
[ X
πi = P(ui ∈ W ) = P {Wm = ui } = P(Wm = ui ).
m=1 m=1
N N X
n n N n
!
X X X X X
πi = P(Wm = ui ) = P(Wm = ui ) = P(Wm ∈ U ) = n.
i=1 i=1 m=1 m=1 i=1 m=1
◦ Pour i 6= j, on a
n [
[ n
πi,j = P((ui , uj ) ∈ W ) = P {Wm = ui } ∩ {W` = uj }
m=1 `=1
`6=m
n X
X n
= P({Wm = ui } ∩ {W` = uj }).
m=1 `=1
`6=m
C. Chesneau 132
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)
N
X N X
X n X
n
πi,j = P({Wm = ui } ∩ {W` = uj })
j=1 j=1 m=1 `=1
j6=i j6=i `6=m
n X
X n N
[
= P {W
m = ui } ∩ {W` = uj }
m=1 `=1 j=1
`6=m j6=i
n
X n
X
= P ({Wm = ui } ∩ {W` ∈ U − {ui }})
m=1 `=1
`6=m
n
X n
X n
X
= P (Wm = ui ) = (n − 1) P(Wm = ui ) = (n − 1)πi .
m=1 `=1 m=1
`6=m
N N
◦ Par les éqgalités : πi = n et πi,j = (n − 1)πi , on obtient
P P
i=1 j=1
j6=i
N
X N
X N
X N
X N
X
(πi,j − πi πj ) = πi,j − πi πj = πi,j − πi πj − πi
j=1 j=1 j=1 j=1 j=1
j6=i j6=i j6=i j6=i
= (n − 1)πi − πi (n − πi ) = −πi (1 − πi ).
8.2 Estimateurs
N
1 X yi
yW = 1 .
N πi {ui ∈W }
i=1
C. Chesneau 133
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)
Espérance de y W :
E(y W ) = y U .
N N
!
1 X yi 1 X yi
E(y W ) = E 1 = E 1{ui ∈W }
N πi {ui ∈W } N πi
i=1 i=1
N N N
1 X yi 1 X yi 1 X
= P(ui ∈ W ) = πi = yi = y U .
N πi N πi N
i=1 i=1 i=1
Variance de y W :
La variance de y W est
N N X
N
1 X yi2 X yi yj
V(y W ) = 2
2 πi (1 − πi ) + (πi,j − πi πj )
.
N πi πi πj
i=1 i=2 j=1
j6=i
N N
! !
1 X yi 1 X yi
V(y W ) = V 1 = 2V 1
N π {ui ∈W } N π {ui ∈W }
i=1 i i=1 i
N X N X
N
1 X yi yi yj
= V 1 {u ∈W } + C 1{u ∈W } , 1 {u ∈W }
N2 πi i
πi i
πj j
i=1 i=2 j=1
j6=i
N N
N X
1 X yi2 X yi yj
= V 1 {u ∈W } + C 1 {u ∈W } , 1{u ∈W }
.
N2 πi2
i=1
i
πi πj
i=2 j=1
i j
j6=i
Or
2
= E 12{ui ∈W } − E 1{ui ∈W } = P(ui ∈ W ) − (P(ui ∈ W ))2
V 1{ui ∈W }
= πi − πi2 = πi (1 − πi ).
C. Chesneau 134
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)
De plus
C 1{ui ∈W } , 1{uj ∈W } = E 1{ui ∈W } 1{uj ∈W } − E 1{ui ∈W } E 1{uj ∈W }
La variance de y W est
N i−1
yj 2
1 XX yi
V(y W ) = 2 (πi πj − πi,j ) − .
N πi πj
i=2 j=1
N
Preuve : En utilisant l’égalité : πi (1 − πi ) = − (πi,j − πi πj ), on obtient
P
j=1
j6=i
N N X
N
1 X yi2 X yi yj
V(y W ) = πi (1 − πi ) + (πi,j − πi πj )
N2
i=1
πi2 i=2 j=1
πi πj
j6=i
N X
N N X
N
1 X yi2 X yi yj
= − (πi,j − πi πj ) − (πi,j − πi πj )
N2
i=1 j=1
πi2 i=2 j=1
πi πj
j6=i j6=i
N i−1 N X
i−1
!
1 XX yi2 yj2 X yi yj
= − 2 + (πi,j − πi πj ) − 2 (πi,j − πi πj )
N
i=1 j=1
πi2 πj2 πi πj
i=2 j=1
N X
i−1 2 N i−1
yj 2
1 X yi yj 1 XX yi
= − 2 (πi,j − πi πj ) − = 2 (πi πj − πi,j ) − .
N πi πj N πi πj
i=2 j=1 i=2 j=1
C. Chesneau 135
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)
N i−1
yj 2
2
1 XX yi
EQM (y W )[P ISR] = E (y W − y U ) = 2 (πi πj − πi,j ) − .
N πi πj
i=2 j=1
Estimation ponctuelle de y U :
C. Chesneau 136
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)
◦ le réel :
v
u
u
N N X
N
u 1 yi2 πi (1 − πi ) yi yj (πi,j − πi πj )
u X X
s1 (y ω ) = u 2 1{ui ∈ω} + 1{(ui ,uj )∈ω}
.
tN
i=1
πi2 πi
i=2 j=1
πi πj πi,j
j6=i
◦ le réel : v
N X
i−1
yj 2
u
u 1 X (πi πj − πi,j ) yi
s2 (y ω ) = t − 1{(ui ,uj )∈ω} .
N2 πi,j πi πj
i=2 j=1
iyU = [y ω − zα s1 (y ω ), y ω + zα s1 (y ω )] ,
C. Chesneau 137
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)
N N
1 X yi 1X
yW = 1{ui ∈W } = yi 1{ui ∈W } .
N πi n
i=1 i=1
nh
πi = P(ui ∈ Wh ) = 1 .
Nh {ui ∈Uh }
N H N
1 X yi 1 X X yi
yW = 1 = 1
N πi {ui ∈W } N πi {ui ∈Wh }
i=1 h=1 i=1
H N H
1 X 1 X 1 X
= Nh yi 1{ui ∈Wh } = Nh y Wh .
N nh N
h=1 i=1 h=1
C. Chesneau 138
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)
Pour tout i ∈ {1, . . . , n}, on suppose l’existance d’un caractère secondaire X tel que sa valeur
pour l’individu ωi , notée xi , est à peu près proportionnelle à yi .
Pour tout i ∈ {1, . . . , n}, on suppose l’existance d’un réel α tel que
πi = P(ui ∈ W ) = αxi .
N
Comme, par définition, on a πi = n, il vient
P
i=1
n
α= N
.
P
xi
i=1
N
En pratique : Comme on peut avoir πi = nxi / xi > 1 avec la méthode procédente, un ajuste-
P
j=1
ment doit être fait. On considère alors l’ensemble
N
1 X
A = i ∈ {1, . . . , N }; xi > xj
n
j=1
1 si i ∈ A,
πi∗ = x
(n − m) Pi si i ∈ U − A.
xj
j∈{1,...,N }−A
C. Chesneau 139
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)
library(sampling)
a = 1:20
p = inclusionprobabilities(a, 12)
p
On peut comprendre la sortie de p en faisant :
a * 12 / sum(a)
p2 = NULL
p2[1:17] = (12 - 3) * a[1:17] / sum(a[1:17])
p2[18:20] = 1
p2
◦ on considère n probabilités π1 , . . . , πn ,
Un inconvénient de cette méthode est que l’on ne sait pas a l’avance la taille n de l’échantillon
sélectionné. En revanche, la méthode est simple et rapide.
Sur le plan de la modélisation, on suppose que les var 1{u1 ∈W } , . . . , 1{un ∈W } sont indépendantes.
Ainsi, on a πi,j = πi πj
N N
Y 1{u ∈ω} Y
P(ω ∈ W ) = πk k (1 − πk )1{uk 6∈ω} .
k=1 k=1
C. Chesneau 140
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)
library(sampling)
pi_i = c(0.2, 0.7, 0.8, 0.5, 0.4, 0.4)
N = length(pi_i)
y = c(23.4, 5.64, 31.45, 25.4, 15.94, 21.45)
t = UPpoisson(pi_i)
(1:N)[t == 1]
bar_y_w = (1 / N) * sum((1 / pi_i[t == 1]) * y[t == 1])
bar_y_w
k
X
Ck = πi , C0 = 0,
i=1
C. Chesneau 141
8 Plan de sondage aléatoire à probabilités inégales sans remise (PISR)
library(sampling)
pi_i = c(0.2, 0.7, 0.8, 0.5, 0.4, 0.4)
Remarquons que sum(pi_i) = 3 = n.
N = length(pi_i)
y = c(23.4, 5.64, 31.45, 25.4, 15.94, 21.45)
t = UPsystematic(pi_i)
(1:N)[t == 1]
bar_y_w = (1 / N) * sum((1 / pi_i[t == 1]) * y[t == 1])
bar_y_w
C. Chesneau 142
9 Formulaire et tables de valeurs
C. Chesneau 143
9 Formulaire et tables de valeurs
Population U Échantillon ω
Taille N n
n
Taux de sondage f=
N
N N
1 X 1X
Moyenne yU = yi yω = yi 1{ui ∈ω}
N n
i=1 i=1
v v
u N u N
u 1 X u 1 X
Écart-type corrigé sU = t (yi − y U )2 sω = t (yi − y ω )2 1{ui ∈ω}
N −1 n−1
i=1 i=1
r r
s2 s2ω
Écart-type de y W σ(y W ) = (1 − f ) U s(y ω ) = (1 − f )
n n
" r r #
s2 s2
Intervalle de confiance iyU = y ω − zα (1 − f ) ω , y ω + zα (1 − f ) ω
n n
r
s2
Incertitude absolue dω = zα (1 − f ) ω
n
dω
Incertitude relative d∗ω =
yω
N zα2 s2ω
Taille n telle que dω ≤ d0 n≥
N d20 + zα2 s2ω
N zα2 s2ω
Taille n telle que d∗ω ≤ d1 n≥
N (y ω d1 )2 + zα2 s2ω
C. Chesneau 144
9 Formulaire et tables de valeurs
Population U Échantillon ω
Taille N n
n
Taux de sondage f=
N
N N
1 X 1X
Proportion pU = yi pω = yi 1{ui ∈ω}
N n
i=1 i=1
r r
N pω (1 − pω )
Écart-type de pW σ(pW ) = (1 − f ) pU (1 − pU ) s(pω ) = (1 − f )
n(N − 1) n−1
" r r #
pω (1 − pω ) pω (1 − pω )
Intervalle de confiance ipU = pω − zα (1 − f ) , p ω + zα (1 − f )
n−1 n−1
r
pω (1 − pω )
Incertitude absolue dω = zα (1 − f )
n−1
dω
Incertitude relative d∗ω =
pω
N zα2 pω (1 − pω )
Taille n telle que dω ≤ d0 n≥
N d20 + zα2 pω (1 − pω )
N zα2 pω (1 − pω )
Taille n telle que d∗ω ≤ d1 n≥
N (pω d1 )2 + zα2 pω (1 − pω )
C. Chesneau 145
9 Formulaire et tables de valeurs
Taille N n
N N n
1 X 1X X
Moyenne yU = yi yω = yi 1{ωm =ui }
N n
i=1 i=1 m=1
v v
u N u N n
u 1 X u 1 X X
Écart-type corrigé sU = t (yi − y U )2 sω = t (yi − y ω )2 1{ωm =ui }
N −1 n−1
i=1 i=1 m=1
r r
N − 1 s2U s2ω
Écart-type de y W σ(y W ) = s(y ω ) =
N n n
" r r #
s2ω s2ω
Intervalle de confiance iyU = y ω − zα , y ω + zα
n n
r
s2ω
Incertitude absolue dω = zα
n
dω
Incertitude relative d∗ω =
yω
2
zα s ω
Taille n telle que dω ≤ d0 n≥
d0
2
zα s ω
Taille n telle que d∗ω ≤ d1 n≥
y ω d1
C. Chesneau 146
9 Formulaire et tables de valeurs
Taille N n
N N n
1 X 1X X
Proportion pU = yi pω = yi 1{ωm =ui }
N n
i=1 i=1 m=1
r r
pU (1 − pU ) pω (1 − pω )
Écart-type de pW σ(pW ) = s(pω ) =
n n−1
" r r #
pω (1 − pω ) pω (1 − pω )
Intervalle de confiance ipU = pω − zα , p ω + zα
n−1 n−1
r
pω (1 − pω )
Incertitude absolue dω = zα
n−1
dω
Incertitude relative d∗ω =
pω
zα2 pω (1 − pω )
Taille n telle que dω ≤ d0 n≥
d20
zα2 pω (1 − pω )
Taille n telle que d∗ω ≤ d1 n≥
(pω d1 )2
C. Chesneau 147
9 Formulaire et tables de valeurs
Strate Uh Échantillon ωh
Taille Nh nh
nh
Taux de sondage fh =
Nh
Nh Nh
1 X 1 X
Moyenne y Uh= yi y ωh = yi 1{ui ∈ωh }
Nh nh
v i=1 v i=1
u
u 1 N
X h
u
u 1 X N h
Population U Échantillon ω
Taille N n
N H
1 X 1 X
Moyenne yU = yi yω = Nh y ωh
N N
v i=1 v h=1
H H
s2U s2ω
u u
u 1 X u 1 X
Écart-type de y W σ(y W ) = t 2 Nh2 (1 − fh ) h s(y ω ) = t 2 Nh2 (1 − fh ) h
N nh N nh
h=1 h=1
C. Chesneau 148
9 Formulaire et tables de valeurs
n Nh sUh Nh sωh
nh Nh n H
n H
N P P
N` sU` N` sω`
`=1 `=1
dω
Incertitude relative d∗ω =
yω
H
N zα2 Nh s2ωh
P
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ H
,
N 2 d20 + zα2
P
Nh s2ωh
H h=1 2
zα2
P
Nh sωh
h=1
dω ≤ d0 ◦ pour un plan de sondage aléatoire de type STO : n ≥ H
.
N 2 d20 + zα2
P
Nh s2ωh
h=1
H
N zα2 Nh s2ωh
P
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ H
,
P
N 2 (d1 y ω )2 + zα2 Nh s2ωh
h=1
H 2
zα2
P
Nh sωh
h=1
d∗ω ≤ d1 ◦ pour un plan de sondage aléatoire de type STO : n ≥ H
.
P
N 2 (d1 y ω )2 + zα2 Nh s2ωh
h=1
C. Chesneau 149
9 Formulaire et tables de valeurs
Strate Uh Échantillon ωh
Taille Nh nh
nh
Taux de sondage fh =
Nh
Nh Nh
1 X 1 X
Proportion p Uh = yi p ωh = yi 1{ui ∈ωh }
Nh i=1 nh i=1
r r
Nh pU (1 − pUh )
Écart-type de pWh σ(pWh ) = (1 − fh ) pU (1 − pUh ) s(pωh ) = (1 − fh ) h
nh (Nh − 1) h nh − 1
Population U Échantillon ω
Taille N n
N H
1 X 1 X
Moyenne pU = yi pω = Nh pωh
N N
v i=1 v h=1
u H u H
u 1 X 2 2 u 1 X 2 pω (1 − pωh )
Écart-type de pW σ(pW ) = t 2 Nh σ (pWh ) s(pω ) = t 2 Nh (1 − fh ) h
N N nh − 1
h=1 h=1
C. Chesneau 150
9 Formulaire et tables de valeurs
dω
Incertitude relative d∗ω =
yω
H
2
P
N zα Nh pωh (1 − pωh )
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ ,
H
N 2 d20 + zα
2
P
Nh pωh (1 − pωh )
H h=1 2
2
P p
zα Nh pωh (1 − pωh )
h=1
dω ≤ d0 ◦ pour un plan de sondage aléatoire de type STO : n ≥ .
H
N 2 d20 2
P
+ zα Nh pωh (1 − pωh )
h=1
H
2 Nh s2ωh
P
N zα
h=1
Taille n telle que ◦ pour un plan de sondage aléatoire de type STP : n ≥ ,
H
N 2 (d1 pω )2 + zα
2 Nh s2ωh
P
h=1
H 2
2
P p
zα Nh pωh (1 − pωh )
h=1
d∗ω ≤ d1 ◦ pour un plan de sondage aléatoire de type STO : n ≥ .
H
N 2 (d1 pω )2 2
P
+ zα Nh pωh (1 − pωh )
h=1
C. Chesneau 151
9 Formulaire et tables de valeurs
α 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.00 ∞ 2.576 2.326 2.170 2.054 1.960 1.881 1.812 1.751 1.695
0.10 1.645 1.598 1.555 1.514 1.476 1.440 1.405 1.372 1.341 1.311
0.20 1.282 1.254 1.227 1.200 1.175 1.150 1.126 1.103 1.080 1.058
0.30 1.036 1.015 0.994 0.974 0.954 0.935 0.915 0.896 0.878 0.860
0.40 0.842 0.824 0.806 0.789 0.772 0.755 0.739 0.722 0.706 0.690
0.50 0.674 0.659 0.643 0.628 0.613 0.598 0.583 0.568 0.553 0.539
0.60 0.524 0.510 0.496 0.482 0.468 0.454 0.440 0.426 0.412 0.399
0.70 0.385 0.372 0.358 0.345 0.332 0.319 0.305 0.292 0.279 0.266
0.80 0.253 0.240 0.228 0.215 0.202 0.189 0.176 0.164 0.151 0.138
0.90 0.126 0.113 0.100 0.088 0.075 0.063 0.050 0.038 0.025 0.013
C. Chesneau 152
9 Formulaire et tables de valeurs
HH α
H 0.90 0.50 0.30 0.20 0.10 0.05 0.02 0.01 0.001
ν HH
H
1 0.158 1.000 1.963 3.078 6.314 12.706 31.821 63.657 636.619
2 0.142 0.816 1.386 1.886 2.920 4.303 6.965 9.925 31.598
3 0.137 0.765 1.250 1.638 2.353 3.182 4.541 5.841 12.924
4 0.134 0.741 1.190 1.533 2.132 2.776 3.747 4.604 8.610
5 0.132 0.727 1.156 1.476 2.015 2.571 3.365 4.032 6.869
6 0.131 0.718 1.134 1.440 1.943 2.447 3.143 3.707 5.959
7 0.130 0.711 1.119 1.415 1.895 2.365 2.998 3.499 5.408
8 0.130 0.706 1.108 1.397 1.860 2.306 2.896 3.355 5.041
9 0.129 0.703 1.100 1.383 1.833 2.262 2.821 3.250 4.781
10 0.129 0.700 1.093 1.372 1.812 2.228 2.764 3.169 4.587
C. Chesneau 153
9 Formulaire et tables de valeurs
H
HH α
0.99 0.975 0.95 0.90 0.10 0.05 0.025 0.01 0.001
ν H
H
H
1 0.0002 0.001 0.004 0.016 2.71 3.84 5.02 6.63 10.83
2 0.02 0.05 0.10 0.21 4.61 5.99 7.38 9.21 13.82
3 0.11 0.22 0.35 0.58 6.25 7.81 9.35 11.34 16.27
4 0.30 0.48 0.71 1.06 7.78 9.49 11.14 13.28 18.47
5 0.55 0.83 1.15 1.61 9.24 11.07 12.83 15.09 20.51
6 0.87 1.24 1.64 2.20 10.64 12.59 14.45 16.81 22.46
7 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 24.32
8 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 26.12
9 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 27.88
10 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 29.59
C. Chesneau 154
Index
155