Vous êtes sur la page 1sur 61

Universit Montpellier 2

Licence 3 MASS
Sondages et Enqutes
Mathieu Ribatet
Anne 20122013
Table des matires
Liste des symboles iii
1 Formalisation mathmatique dun sondage 1
1.1 Population, Caractre et Fonction dintrt . . . . . . . . . . . . . . . . . . 1
1.2 chantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Plan de sondage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Probabilits dinclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5 Plans simples et de taille xe . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.6 Le estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.7 Lestimateur de Hjek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Les plans simples 11
2.1 Plans simples sans remise . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Plans simples avec remise . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Comparaison des plans simples avec et sans remise . . . . . . . . . . . . . 14
2.4 Plans simples sans remise et fonction dintrt . . . . . . . . . . . . . . . . 15
2.5 Dtermination de la taille de lchantillon . . . . . . . . . . . . . . . . . . . 17
3 Plans probabilits ingales 19
3.1 Caractre auxiliaire et probabilits dinclusion . . . . . . . . . . . . . . . . 19
3.2 Plan de Poisson

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Sondage systmatique probabilits ingales . . . . . . . . . . . . . . . . . 24
4 Stratication 27
4.1 Population et strates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 chantillons, probabilits dinclusion et estimation . . . . . . . . . . . . . . 28
4.3 Plan stratiti et allocation proportionnelle . . . . . . . . . . . . . . . . . 30
4.4 Plan strati optimal pour le total . . . . . . . . . . . . . . . . . . . . . . 31
4.5 Prise en compte du cot . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5 Plans par grappes et plusieurs degrs 33
5.1 Plans par grappes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.2 Choix sur le plan de sondage p
g
() . . . . . . . . . . . . . . . . . . . . . . . 36
5.3 Plans deux degrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6 Utilisation dune information auxiliaire 41
6.1 Post-stratication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.2 Caractre auxiliaire quantitatif . . . . . . . . . . . . . . . . . . . . . . . . 44
i
Liste des symboles
1
{xA}
Variable indicatrice

t
y,
,
y,
estimateur du total t
y
et de la moyenne
y
E(X) Esprance de la variable alatoire X
| Population
|
h
Strate de la population
|
i
Grappe de la population
L Lagrangien du problme doptimisation sous contraintes
S,

S Ensemble des chantillons non ordonns sans remise et ordonns avec remise

k
,
k
Probabilits dinclusion dordre un et deux

2
y
Variance du caractre y sur la population
Var(X) Variance de la variable alatoire X
k Unit de la population
N Taille de la population
N
h
Taille de la strate |
h
N
i
Taille de la grappe |
i
n
S
, n Taille de lchantillon S
p() Plan de sondage
S chantillon
S
2
y
Variance corrige du caractre y sur la population
t
y
,
y
Total et moyenne du caractre y sur la population
t
y,h
,
y,h
Total et moyenne du caractre y sur la strate/grappe |
h
y Caractre dni sur la population
iii
A faire
Pour amliorer la version actuelle du cours il faudrait (en vrac)
1. Organiser des sessions de TPs sous R
2. Augmenter le nombre dexercices sur les feuilles de TDs
3. Retravailler lintroduction des plans simples (actuellement trop lie au cadre sans
remise + redondance de la dnition)
4. Organiser un vrai sondage men par les tudiants
5. Rajouter un peu de matire (non rponse, plans plus complexes ? ? ?)
v
Remarques prliminaires
Ce polycopi se veut une introduction la thorie des sondages. Je dois avouer que
les rsultats prsents ici sont outrageusement pomps du livre de Yves Till Thorie des
Sondages : chantillonnage et estimation en populations nies. Ltudiant motiv pourra
donc sorienter vers ce livre sil veut approfondir ses connaissances sur la thmatique
ou tout simplement voir une rdaction bien meilleure que la mienne !
En lisant se document pour la premire fois (jespre que ce ne sera pas quelques jours
seulement avant lexamen), vous constaterez quil y a des trous dans le texte. Ces trous
masquent les dmonstrations ou encore les solutions aux exercices et seront complts lors
des sances de cours. Comme quoi a vaut la peine de venir en cours non?
Le cours comprends normment de formules. Si je peux me permettre un conseil,
nessayez pas dapprendre par coeur toutes ces formules mais seulement les plus impor-
tantes. En eet, les formules secondaires se retrouvent gnralement trs rapidement
par de simples calculs.
Enn si vous trouvez des coquilles (ce qui est plus que fort probable !) dans ce support
de cours, japprcierai que vous me les fassiez connatre.
Bonne lecture et travail donc. . .
Mathieu Ribatet
vii
Chapitre 1
Formalisation mathmatique dun
sondage
Ce chapitre pose les bases de la thorie des sondage en introduisant le vo-
cabulaire, la notion dalatoire spcicique aux sondages et les estimateurs
principaux.
1.1 Population, Caractre et Fonction dintrt
En sondage on sintresse une population (ou univers) nie | constitue de N
units (ou individus) notes u
1
, . . . , u
N
. On supposera que ces units sont identiables
si chacune dentre elle peut se voir attribuer un numro didentication unique. Ainsi
par abus de notations, on crira indiremment
| = u
1
, . . . , u
N
, | = 1, . . . , N.
Remarque. La dnition de la population | est souvent problmatique. Par exemple, pour
ltude des habitants de plus de 18 ans dun pays la population nest pas parfaitement
identie si lon ne suppose pas une date de rfrence pour lge et si lon ne prcise pas
certains critres comme : France mtropolitaine, Rsidants ou Nationalit, . . .
Lobjectif dun sondage ne porte pas sur les units elles mmes mais plutt sur un
caractre y qui est mesur sur chaque unit de |. Ainsi la valeur prise par le caractre
y sur la kme unit est note y
k
.
Remarque. Les valeurs prises par le caractre ne sont pas alatoires. Cest dailleurs
pour cela que lon parle de caractre plutt que de variable ; cette dernire ayant une
connotation alatoire.
Dans un monde idal, on aimerait donc connatre le vecteur paramtre y
N
=
(y
1
, . . . , y
N
) ; mais il est clair que ceci relve de limpossible. Comment connatre ces N
valeurs partir de n observations (n N) ? Souvent on visera seulement (et cest dj
bien susant) un rsum du vecteur paramtre y
N
comme par exemple la moyenne, une
proportion, . . . Plus formellement, on souhaite estimer une fonction de y
N
= (y
k
: k |).
Exemple 1.1.1. La fonction dintrt peut tre
un total : t
y
=

kU
y
k
;
une moyenne :
y
= N
1

kU
y
k
;
un ratio : R = t
y
/t
x
o x est un deuxime caractre dintrt.
1
1. Formalisation mathmatique dun sondage
1.2 chantillon
Dans ce cours nous allons croiser essentiellement deux types dchantillons : avec remise
et ordonn et sans remise ni ordre.
Exemple 1.2.1. Soit une population | = 1, 2. Lensemble des chantillons ordonns
avec remise est

S = (1), (2), (1, 1), (1, 2), (2, 1), (2, 2), (1, 1, 1), (1, 1, 2), . . . .
En particulier puisquil y a remise, la taille de lchantillon peut tre suprieure la taille
de la population!
Exemple 1.2.2. Soit une population | = 1, 2, 3. Lensemble des chantillons non
ordonns et sans remise est
S = 1, 2, 3, 1, 2, 1, 3, 2, 3, 1, 2, 3 .
Il est commode de se reprsenter un chantillon non ordonn et sans remise comme
un sous ensemble non vide de |. En eet un ensemble est par dnition non or-
donn et sans rptition. Ainsi lensemble des chantillons non ordonns et sans remise
est lensemble des parties non vides de |, i.e.,
S = s: s | .
Par consquent la taille de lchantillon est au plus gale la taille de la population et
[S[ = 2
N
1.
Remarque. Clairement il est possible de passer de

S S en supprimant linformation
sur lordre et la multiplicit laide dune fonction de rduction r :

S S.
Exemple 1.2.3. Pour | = 1, 2, 3, on a
r(1, 1, 2) = r(1, 2) = r(2, 1) = r(1, 2, 2) = 1, 2.
1.3 Plan de sondage
Dnition 1.3.1. Un plan de sondage non ordonn et sans remise p est une loi de
probabilit sur S, i.e,
p(s) 0, s S,
et

sS
p(s) = 1.
De mme on dnit un plan de sondage ordonn avec remise p comme une loi de
probabilit sur

S.
Clairement la fonction de rduction r permet de dnir un plan de sondage sur S
laide dun plan de sondage sur

S, i.e.,
p(s) =

s

S
p( s)1
{r( s)=s}
, s S.
Exemple 1.3.1. Pour | = 1, 2, 3, on considre le plan de sondage consistant slec-
tionner 2 units avec remise et probabilits gales.
2
1.4 Probabilits dinclusion
Le plan de sondage sur

S est alors
p(1, 1) = 1/9, p(1, 2) = 1/9, p(1, 3) = 1/9,
p(2, 1) = 1/9, p(2, 2) = 1/9, p(2, 3) = 1/9,
p(3, 1) = 1/9, p(3, 2) = 1/9, p(3, 3) = 1/9,
et celui sur S est
p(1) = 1/9, p(1, 2) = 2/9, p(1, 3) = 2/9
p(2) = 1/9, p(2, 3) = 2/9, p(3) = 1/9.
Notez que la taille de lchantillon pour le plan de sondage sur S est alatoire.
Puisquun plan de sondage nest rien dautre quune loi de probabilit, nous pouvons
dnir des chantillons alatoires S et

S, i.e., des variables alatoires valeurs dans S et

S respectivement. Les lois de S et



S sont donc donnes par
Pr(S = s) = p(s), s S, et Pr(

S = s) = p( s), s

S.
Remarque. Comme nous lavons vu dans lexemple prcdent, la taille de lchantillon
note n
S
peut tre alatoire. Lorsque Var(n
S
) = 0, lchantillon est dit de taille xe.
1.4 Probabilits dinclusion
Soit un chantillon alatoire S, la variable alatoire 1
{kS}
, k |, nous sera trs utile.
Notons que cest bien une variable alatoire puisque S est alatoire.
Dnition 1.4.1. La probabilit dinclusion de la kme unit, note
k
, correspond la
probabilit que cette kme unit appartienne lchantillon, i.e.,

k
= Pr(k S) =

sS
p(s)1
{ks}
=

sk
p(s), k |.
Notons galement que par dnition,
k
= E(1
{kS}
).
De mme nous pouvons dnir des probabilits dinclusion dordre suprieur.
Dnition 1.4.2. La probabilit dinclusion dordre 2 est la probabilit que deux units
distinctes appartiennent simultanment un chantillon, i.e.,

k
= Pr(k S, S) =

sk,
p(s), k, |, k ,= .
Notons que comme prcdemment,
k
= E(1
{kS}
1
{S}
).
On a
Var(1
{kS}
) = E(1
2
{kS}
) E(1
{kS}
)
2
=
k
(1
k
),
et
Cov(1
{kS}
, 1
{S}
) = E(1
{kS}
1
{S}
) E(1
{kS}
)E(1
{S}
) =
k

,
avec k, l |, k ,= .
Dans la suite on notera

k
=
_
_
_
Cov(1
{kS}
, 1
{S}
), k ,=
Var(1
{kS}
), k = .
3
1. Formalisation mathmatique dun sondage
1.5 Plans simples et de taille xe
La thorie des sondages revient souvent caractriser certaines proprits de plan de
sondage donns. Ici nous nous intressons aux plans dit simples et les plans de taille
xe.
Dnition 1.5.1. Un plan est dit simple si tous les chantillons de mme taille ont la
mme probabilit dtre slectionns.
Dnition 1.5.2. Un plan est dit de taille xe si Var([S[) = Var(n
S
) = 0, o [A[
reprsente la cardinalit dun ensemble A. On notera alors n = n
S
la taille de lchantillon.
Les plans de taille xe ont des probabilits dinclusion bien spciques.
Thorme 1.5.1. Si un plan est de tail le xe n, alors

kU

k
= n,

kU
k=

k
= (n 1)

, |,

kU

k
= 0, |.
Dmonstration.
1.

k|

k
=

k|
E(1
kS
) = E
_
_

k|
1
kS
_
_
= E(n) = n.
2.

k|
k,=

k
= E
_
_
_
_
_
_

k|
k,=
1
kS
1
S
_
_
_
_
_
_
= E
_
_
1
S

k|
1
kS
1
S
_
_
= n

= (n 1)

.
3.

k|

k
=

k|
k,=
(
k

) +

(1

)
=

k|
k,=

k|
k,=

k
+

= (n 1)

(n

) +

= 0.
4
1.6 Le estimateur
Dnition 1.5.3. Un plan sans remise est dit simple si tous les chantillons de mme
taille ont la mme probabilit dtre slectionns, i.e.,
p(s
1
) = p(s
2
), s
1
, s
2
S, [s
1
[ = [s
2
[.
Remarque. Clairement on a
_
N
n
_
chantillons (non ordonns) de taille n dans |. Ainsi si
le plan est simple et de taille xe on a pour tout s S
p(s) =
_
_
_
_
N
n
_
1
, [s[ = n
0, sinon,
avec
_
N
n
_
= N!/n!(N n)!.
En revanche, si le plan nest pas de taille xe on a
p(s) =
_
N
n
_
1
Pr([S[ = n),
o [s[ = n.
1.6 Le estimateur
Cest sans aucun doute lestimateur quil faut tout prix connatre lorsque lon sin-
tresse aux sondages.
1.6.1 Estimation dun total et dune moyenne
Horvitz et Thompson (1952) ont introduit un estimateur linaire sans biais dun total
t
y
pour tout plan de sondage

t
y,
=

kS
y
k

k
.
Cet estimateur est appel le estimateur, lestimateur dHorvitzThompson ou
encore lestimateur des valeurs dilates.
Thorme 1.6.1. Si
k
> 0 pour tout k |, alors

t
y,
estime t
y
sans biais.
Dmonstration.
E(

t
y,
) = E
_
_

kS
y
k

k
_
_
= E
_
_

k|
y
k

k
1
kS
_
_
=

k|
y
k

k
= t
y
.
5
1. Formalisation mathmatique dun sondage
Remarque. Si certaines probabilits dinclusion sont nulles alors lestimateur est biais
puisque
E(

t
y,
) = E
_
_

kS
y
k

k
_
_
= E
_
_
_
_

kU

k
>0
y
k

k
1
{kS}
_
_
_
_
=

kU

k
>0
y
k

k
= t
y

kU

k
=0
y
k
.
Notons que, lors de la deuxime galit, la restriction aux units telles que
k
> 0 sous
le signe de sommation est justie par le fait quune unit dont la probabilit dinclusion
dordre un est nulle nappartiendra jamais lchantillon alatoire S.
Nous avons introduit le estimateur pour estimer le total t
y
mais nous pouvons
galement lutiliser pour estimer la moyenne
y
par

y,
=
1
N

kS
y
k

k
.
Notons toutefois que pour utiliser cet estimateur il faut que la taille de la population N
soit connuece nest malheureusement pas toujours le cas. . .
Cela dit puisque N =

kU
1, on peut estimer N par HorvitzThompson, i.e.,

=

kS
1

k
.
1.6.2 Variance du estimateur
Il est galement possible de connatre la variance du estimateur.
Thorme 1.6.2. Soit

t
y,
le estimateur dun total t
y
. Si
k
> 0 pour tout k |,
alors
Var(

t
y,
) =

k,U
y
k
y

k
.
Dmonstration.
Var(

t
y,
) = Var
_
_

k|
y
k

k
1
kS
_
_
=

k|
Var
_
_
y
k

k
1
kS
_
_
+

k,|
k,=
Cov
_
_
y
k

k
1
kS
,
y

1
S
_
_
=

k|
y
2
k

2
k

kk
+

k,|
k,=
y
k
y

k
=

k,|
y
k
y

k
.
6
1.6 Le estimateur
1.6.3 Variance pour les plans de taille xe
Dans le cas de plans de taille xe, on peut rcrire la variance du estimateur sont
une forme dirente.
Thorme 1.6.3. Soit

t
y,
le estimateur dun total t
y
. Si le plan est de tail le xe et
que
k
> 0 pour tout k |, alors
Var(

t
y,
) =
1
2

k,U
k=
_
y
k

_
2

k
.
Dmonstration.

1
2

k,|
k,=
_
_
y
k

_
_
2

k
=

k,|
k,=
y
2
k

2
k

k
+

k,|
k,=
y
k
y

k
=

k|
_
_
_
_
_
_

y
2
k

2
k

|
,=k

k
+

|
,=k
y
k
y

k
_
_
_
_
_
_
.
Cela dit, puisque le plan est taille xe, on sait daprs la Sec-
tion 1.5 que

|

k
= 0 et donc

1
2

k,|
k,=
_
_
y
k

_
_
2

k
=

k|
_
_
_
_
_
_
y
2
k

2
k

kk
+

|
,=k
y
k
y

k
_
_
_
_
_
_
=

k,|
y
k
y

k
.
1.6.4 Estimation de la variance du estimateur
Lide de base du estimateur peut tre naturellement tendue au contexte des fonc-
tions de deux variables f(, ).
Thorme 1.6.4. Soit f(, ) une fonction de deux variables quelconque. Si
k
> 0, pour
tout k, | k ,= , alors

k,U
k=
g(y
k
, y

k
1
{kS,S}
est un estimateur sans biais de

k,U
k=
g(y
k
, y

k
.
7
1. Formalisation mathmatique dun sondage
Dmonstration.
E
_

k,|
k,=
g(y
k
, y

k
1
kS,S
_

_
=

k,|
k,=
g(y
k
, y

k
E
_
1
kS,S
_
=

k,|
k,=
g(y
k
, y

k
.
On peut donc se servir du thorme prcdent an de construire un estimateur sans
biais de Var(

t
y,
). On a donc partir de lexpression donne en Section 1.6.2 lestimateur

Var(

t
y,
) =

kU
y
2
k

2
k

kk

k
1
{kS}
+

k,U
k=
y
k
y

1
k

1

k
1
{kS,S}
=

kU
y
2
k
(1
k
)

2
k
1
{kS}
+

k,U
k=
y
k
y

k
1
{kS,S}
.
Si le plan est taille xe alors nous pouvons utiliser lexpression donne lors de la
Section 1.6.3 ; ce qui nous conduit lestimateur

Var(

t
y,
) =
1
2

k,U
k=
_
y
k

_
2

k
1
{kS,S}
.
Ce dernier estimateur est appel lestimateur de SenYatesGrundy, noms des personnes
layant trouv.
Remarque. Cet estimateur est sans biais uniquement lorsque le plan est de taille xe et il
nest pas dicile de voir que lestimateur sera toujours positif ds lors que
k
0 pour
tout k, |, k ,= . Cest la condition de SenYatesGrundy.
1.7 Lestimateur de Hjek
Bien que le estimateur soit trs largement utilis, il existe certaines situations o ce
dernier se comporte pas trs bien. . . An dillustrer nos propos, supposons que
Var
_
_

kU
1

k
1
{kS}
_
_
,= 0.
Remarque. Ceci est par exemple le cas lorsque la taille de lchantillon est alatoire.
Supposons de plus que y
k
= c pour tout k |. Alors le estimateur de la moyenne

y
est alors

y,
=
c
N

kU
1

k
1
{kS}
,
et nous concluons que
y,
nest pas gale c mais est une variable alatoire desprance
c. Avouons que cest une proprit assez embarrassante.
Lestimateur de Hjek a t introduit an de remdier ce problme et est donn par

y,H
=
_
_

kU
1

k
1
{kS}
_
_
1

kU
y
k

k
1
{kS}
.
8
1.7 Lestimateur de Hjek
Remarque. Lestimateur de Hjek correspond un ratio de deux variables alatoires. Le
calcul de ses moments est alors compliqu voire impossible.
videmment on peut tendre cet estimateur pour lestimation dun total t
y
en posant

t
y,H
= N
_
_

kU
1

k
1
{kS}
_
_
1

kU
y
k

k
1
{kS}
,
ds lors que N est connu bien videmment.
9
Chapitre 2
Les plans simples
Ce chapitre traite exclusivement des plans simples. Il est important de bien
matriser ces plans car ils forment souvent la base de plans de sondage plus
complexes, tel que les plans stratis ou par grappes. A bien connatre donc !
2.1 Plans simples sans remise
2.1.1 Plan de sondage et probabilits dinclusion
Un plan est dit simple si tous les chantillons de mme taille ont la mme probabilit
dtre slectionns. En consquence, il nexiste quun seul plan simple de taille xe n.
Dnition 2.1.1. Un plan de taille xe n est dit simple sans remise si
p(s) =
_
_
_
_
N
n
_
1
, [s[ = n,
0, sinon,
avec n 1, . . . , N.
Comme vous le savez maintenant, il est souvent utile pour nous statisticiens de connatre
les probabilits dinclusionan de pouvoir tablir le estimateur et sa variance par
exemple.
Ces probabilits dinclusions se calculent facilement. En eet

k
=

sk
p(s) =
_
N 1
n 1
_
. .
nb. dchantillons
contenant k
_
N
n
_
1
=
(N 1)!
(n 1)!(N n)!
n!(N n)!
N!
=
n
N

k
=

s: k,s
p(s) =
_
N 2
n 2
_
. .
nb. chantillons
contenant k et
_
N
n
_
1
=
(N 2)!
(n 2)!(N n)!
n!(N n)!
N!
=
n(n 1)
N(N 1)
Remarque. Notons que
k
,=
k

, indiquant une dpendance entre les units choisies d


au tirage sans remise.
Des deux expressions prcdentes, on en dduit

k
=
_
_
_
n(n1)
N(N1)

n
2
N
2
=
n(Nn)
N
2
(N1)
, k ,= ,
n
N
_
1
n
N
_
=
n(Nn)
N
2
, k = .
11
2. Les plans simples
2.1.2 Le estimateur pour ces plans
A laide des probabilits dinclusions de la Section 2.1.1, nous pouvons donner une
version plus explicite du estimateur. Le estimateur dune moyenne
y

y,
=
1
N

kU
y
k

k
1
{kS}
=
N
nN

kU
y
k
1
{kS}
= y,
et le estimateur du total t
y
est videmment

t
y,
= Ny, avec
y =
1
n

kU
y
k
1
{kS}
.
Rappelons que puisque le plan est taille xe et que les probabilits dinclusions des
deux premiers ordres sont strictement positives, on peut utiliser la formule de la variance
de
y,
trouve par SenYatesGrundy, i.e.,
Var(
y,
) =
1
2N
2

k,U
k=
_
y
k

_
2

k
=
1
2N
2

N n
n(N 1)

k,U
k=
(y
k
y

)
2
=
N n
nN
S
2
y
,
avec
S
2
y
=
1
N 1

kU
(y
k

y
)
2
=
1
2N(N 1)

k,U
k=
(y
k
y

)
2
.
Remarque. La variance prcdente peut galement scrire
Var(
y,
) =
_
1
n
N
_
S
2
y
n
.
Le terme S
2
y
/n correspond la variance dune moyenne empirique pour les statistiques
infrentielles classique alors que le premier terme (1 n/N) correspond au facteur de
correction en population nie. On appelle galement le ratio f = n/N le taux de
sondage.
De lexpression prcdente, on en dduit directement la variance du estimateur du
total t
y
Var(

t
y,
) = N(N n)
S
2
y
n
.
Thorme 2.1.1. Pour un plan de tail le xe n, simple et sans remise la variance corrige
de la population S
2
y
est estime sans biais par

S
2
y
=
1
n 1

kU
(y
k
y)
2
1
{kS}
.
Dmonstration. Puisque
1
n 1

k|
(y
k
y)
2
1
kS
=
1
2n(n 1)

k,|
(y
k
y

)
2
1
k,S
,
12
2.2 Plans simples avec remise
on a
E(

S
2
y
) =
1
2n(n 1)

k,|
k,=
(y
k
y

)
2

k
=
1
2n(n 1)

k,|
k,=
(y
k
y

)
2
n(n 1)
N(N 1)
=
1
2N(N 1)

k,|
k,=
(y
k
y

)
2
Au nal, on peut estimer sans biais la variance de
y,
pour ces plans particuliers par

Var(
y,
) =
N n
N

S
2
y
n
,
et pour le estimateur du total

t
y,

Var(

t
y,
) = N(N n)

S
2
y
n
.
2.2 Plans simples avec remise
Le plan de taille xe n, simple et avec remise correspond au cadre de la statistique
infrentielle usuelle. En eet le plan de sondage consiste slectionner une unit alatoire
avec probabilits gales 1/N et de recommencer lopration n fois indpendemment. On
se ramne donc au cadre de variable alatoire indpendantes et identiquement distribues
de moyenne

y
=
1
N

kU
y
k
,
et de variance

2
y
=
1
N

kU
(y
k

y
)
2
.
Nous le savons dj mais la moyenne sur la population
y
est estime sans biais par

y
=
1
n

kU
y
k
1
{kS}
= y.
En eet
E(
y
) =
1
n

kU
y
k
n
N
=
y
.
De plus, puisque les y
k
de lchantillon sont slectionnes indpendemment et sont de
mme loi,
Var(
y
) =

2
y
n
.
13
2. Les plans simples
Thorme 2.2.1. Pour un plan de taille xe n, simple et sans remise, la variance non
corrige de la population

2
y
=
1
N

kU
(y
k

y
)
2
,
est estime sans biais par

2
y
=
1
n 1
n

i=1
(y
i
y)
2
.
Dmonstration. Puisque la somme des carrs totale se dcompose
sous la forme suivante
n

i=1
(y
i
y)
2
=
n

i=1
(y
i

y
) ( y
y
)
2
=
n

i=1
(y
i

y
)
2
2( y
y
)
n

i=1
(y
i

y
) + n( y
y
)
2
=
n

i=1
(y
i

y
)
2
2n( y
y
)
2
+ n( y
y
)
2
=
n

i=1
(y
i

y
)
2
n( y
y
)
2
,
on a
E(

2
y
) =
1
n 1
n

k=1
E(y
i

y
)
2

n
n 1
E( y
y
)
2

=
n
n 1

2
y

n
n 1


2
y
n
, car y a pour variance
2
y
/n
=
2
y
.
Au nal la variance de
y
est estime sans biais par

Var(
y
) =

2
y
n
.
2.3 Comparaison des plans simples avec et sans re-
mise
Le sondage simple et sans remise est toujours prfrable celui avec remise. En eet
si lon appelle
y,
et
y,
les estimateurs de la moyenne avec et sans remise, alors pour
tout n 2
Var(
y,
)
Var(
y,
)
=
(N n)
N

S
2
y

2
y
=
N n
N

N
N 1
=
N n
N 1
< 1.
Voil pourquoi nous allons essentiellement nous concentrer sur les plan simples sans
remise.
14
2.4 Plans simples sans remise et fonction dintrt
Table 2.1: Rcapitulatif des rsultats pour les plans simples de taille xe n.
Sans remise Avec remise
Estimateur de la moyenne
1
n

kU
y
k
1
{kS}
1
n

kS
y
k
Variance de lestimateur de la
moyenne
Nn
N

S
2
y
n

2
y
n
Estimateur de la variance de
lestimateur de la moyenne
Nn
N

S
2
y
n

2
y
n
2.4 Plans simples sans remise et fonction dintrt
Jusqu prsent nous avons essentiellement parl de lestimation dun total t
y
ou dune
moyenne
y
. Parfois ltude porte sur dautres grandeurs et donc dautres fonctions din-
trt.
2.4.1 Estimation dune proportion
Il est frquent quune tude porte sur lestimation dune proportion p. Avec notre
terminologie estimer une proportion revient compter le nombre dunits y
k
, k |,
possdant une certaine caractristique. partir du caractre y
k
, on introduit alors un
nouveau caractre
z
k
=
_
_
_
1, si y
k
possde la caractristique,
0, sinon,
k |,
ce qui nous permettra gnralement de nous servir des fonctions dintrt dj rencontres :

z
=
1
N

kU
z
k
=
#z
k
| : z
k
= 1
N
= p
t
z
= #z
k
| : z
k
= 1 = Np

2
z
=
1
N

kU
z
2
k

2
z
= p p
2
= p(1 p)
S
2
z
=
N
N 1
p(1 p).
Nous voyons donc questimer une proportion nest rien dautre questimer une moyenne.
En revanche, pour des proportions, les expressions pour la variance se voient considra-
blement simplies du fait que z
2
k
= z
k
pour tout k |. Ainsi pour un plan simple sans
remise, nous avons
p =
1
n

kU
z
k
1
{kS}
s
2
z
=
1
n 1

kU
(z
k
p)
2
1
{kS}
=
n
n 1
p(1 p)
Var( p) =
N n
N

S
2
p
n
=
N n
N 1

p(1 p)
n

Var( p) =
N n
N

p(1 p)
n 1
.
Remarque. Une fois p estim par p, nous obtenons directement une estimation de Var( p).
Merci les proportions !
15
2. Les plans simples
2.4.2 Estimation dun ratio
Considrons cette fois deux caractres y et x. On sera souvent intress par lestimation
du ratio
R =

kU
y
k

kU
x
k
=

y

x
.
Pour un plan simple sans remise, on estimera ce ratio par le rapport des moyennes
empiriques, i.e.,

R =

kU
y
k
1
{kS}

kU
x
k
1
{kS}
=
y
x
.
Toutefois ltude des proprits de cet estimateur, comme le biais ou lerreur quadra-
tique, savre complique puisque nous sommes en prsence dun rapport de deux variables
alatoires ! Lors de tels cas, une technique retenir est la linarisation du ratio.

R R =
y R x
x
=
y R x

x
(1 + )
, =
x
x

x
Commenons par noter que E() = 0 et que 0 lorsque n N. Ainsi un dveloppement
limit de (1 +)
1
en 0 lordre 1 donne
(1 +)
1
= 1 +o(
2
),
et donc
E(

R R) E
_
y R x

x
(1 )
_
= E
_
y R x

_
, car E
_
y R x

x
_
= 0
= E
_
(R x y)( x
x
)

2
x
_
= E
_
(R x R
x
+
y
y)( x
x
)

2
x
_
, car
y
= R
x
=
RE( x
x
)
2
Cov( x, y)

2
x
.
Au nal on a donc que le biais de

R est approximativement
Biais(

R)
1

2
x
_
R
N n
N

S
2
x
n

N n
N

S
xy
n
_
=
1

2
x

N n
N

1
n
_
RS
2
x
S
xy
_
,
avec
S
xy
=
1
N 1

kU
(x
k

x
)(y
k

y
).
Remarque. Le biais est donc approximativement nul ds lors que la taille de lchantillon
est grande.
16
2.5 Dtermination de la taille de lchantillon
On procde de mme pour approcher lerreur quadratique moyenne de

R.
E(

R R)
2
E
_
_
_
_
y R x

x
_
2
_
_
_
= E
_
_
_
_
y
y
+R
x
R x

x
_
2
_
_
_
=
1

2
x
_
Var( y) + R
2
Var( x) 2RCov( x, y)
_
=
1

2
x

N n
N

1
n
_
S
2
y
+R
2
S
2
x
2RS
xy
_
.
Cette erreur quadratique tant naturellement estime par

E(

R R)
2
=
1
x
2

N n
N

1
n
_

S
2
y
+

R
2
S
2
x
2

R

S
xy
_
,
avec

S
xy
=
1
n 1

kU
(x
k
x)(y
k
y)1
{kS}
.
2.5 Dtermination de la taille de lchantillon
Avant de commencer un sondage, il est toujours souhaitable de se poser la question
des incertitudes lies nos futures estimations. Gnralement les limites budgtaires xe-
ront la taille de lchantillon et on se contentera alors de rpondre si le budget allou
est susant pour une prcision donneet de demander une rallonge son chef le cas
chant. . .
Par prcision donne nous entendons que le paramtre dintrt sera contenu dans
un intervalle de conance centr en

avec une probabilit dau moins 1 , i.e., trouver
> 0 tel que
Pr
_

_

,

+
__
1
En supposant que notre estimateur

suit approximativement une loi normale (ce qui
sera souvent le cas), on sait que
Pr
_

_

z
1/2
_

Var(

),

+z
1/2
_

Var(

)
__
= 1 ,
o z
1/2
le quantile dune loi normale centre rduite de probabilit au non dpassement
1 /2, i.e., Pr(Z z
1/2
) = 1 /2, Z N(0, 1).
Remarque. Puisque

Var(

) dpend de la taille de lchantillon n, on cherchera donc la


taille minimale n
0
induisant la prcision requise.
Pour illustrer nos propos prenons le cas de lestimation de la moyenne
y
pour un plan
simple sans remise. On a donc
Pr
_
_
_

y

_
_
y z
1/2

N n
nN
S
2
y
, y +z
1/2

N n
nN
S
2
y
_
_
_
_
_
= 1 ,
17
2. Les plans simples
et il faut donc ncessairement

2
z
2
1/2
N n
nN
S
2
y
nN
2
z
2
1/2
(N n)S
2
y
n(N
2
+z
2
1/2
S
2
y
) NS
2
y
z
2
1/2
n
NS
2
y
z
2
1/2
N
2
+z
2
1/2
S
2
y
Malheureusement cette expression nest pas si utile en pratique car si notre objectif
initial tait destimer
y
, il est fort parier que nous connaissions la variance corrige
S
2
y
. . . En pratique on pourra prendre par exemple une estimation de S
2
y
base sur des
tudes antrieures.
Lorsque notre paramtre dintrt est une proportion, nous pouvons tout de mme
dterminer la taille minimale. Dans ce contexte, nous avons alors
n
N
n
n1
p(1 p)z
2
1/2
N
2
+z
2
1/2
n
n1
p(1 p)
,
et nous pouvons considrer le pire cas possible qui est atteint lorsque p = 0.5. En eet
puisque

Var( p) est proportionnel p(1 p) la variance est maximale lorsque p = 1/2.
18
Chapitre 3
Plans probabilits ingales
Ce chapitre explique comment nous pouvons bncier de la connaissance dun
caractre auxiliaire pour obtenir des estimations plus prcises.
3.1 Caractre auxiliaire et probabilits dinclusion
Soit x
k
, k |, les valeurs prises par le caractre auxiliaire. Notons tout de suite que
cela implique donc sa connaissance sur toute la population! Notre tude portant toujours
sur une fonction dintrt telle que la moyenne ou le total dun caractre y. Le principe
dun plan probabilits ingales consiste dnir des probabilits dinclusion du premier
ordre proportionnelles aux x
k
.
Rappelons que pour un plan de taille xe, la variance du estimateur du total t
y
est
Var(

t
y
) =
1
2

k,U
k=
_
y
k

_
2

k
. (3.1)
Si nous souhaitons minimiser (3.1) en jouant seulement sur les probabilits dinclusions
du premier ordre
k
, il est clair que prendre

k
=
y
k

U
y

y
k
, k |,
est un choix judicieux puisque Var(

t
y
) est alors nulle. Bien videmment cette approche
est impossible puisquelle suppose connatre les valeurs prise par le caractre y sur toute
la population | inutile alors de faire un sondage !
En revanche si nous disposons dun caractre auxiliaire x connu sur toute la popula-
tion et dont on pense quil est approximativement proportionnel au caractre y, alors on
gagnera dnir les probabilits dinclusion du premier ordre proportionnellement aux
x
k
.
Remarque. Si au contraire le caractre x nest pas du tout proportionnel y, le plan
de sondage sera alors catastrophique et il sera prfrable de prendre un plan simple. A
mditer donc !
Puisque pour un plan de taille xe n, cf. Section 1.5,

kU

k
= n, (3.2)
pour obtenir des probabilits dinclusion proportionnelles aux x
k
, i.e.,
k
= cx
k
avec
c =
n

U
x

=
n
t
x
.
19
3. Plans probabilits ingales
Attention toutefois, il ny a aucune garantie que les
k
[0, 1] et il sera frquent
que certaines probabilits dinclusion soient suprieure 1. Pour de telles situations,
on slectionnera doce les units correspondantes, i.e.,
k
= 1, et lon recommencera la
procdure avec les units restantes en prenant soin de diminuer la taille de lchantillon
n dans (3.2).
Exemple 3.1.1. Considrons la population | = 1, 2, . . . , 6 avec une variable auxiliaire
x telle que
x
1
= 1, x
2
= 9, x
3
= 10, x
4
= 70, x
5
= 90, x
6
= 120.
On a donc t
x
= 300. Si lon souhaite obtenir un plan de taille xe n = 3, alors les
probabilits dinclusions temporaires.

1
=
3 1
300
,
2
=
3 9
300
,
3
=
3 10
300
,

4
=
3 70
300
,
5
=
3 90
300
,
6
=
3 104
300
> 1.
Lunit 6 est alors slectionne doce, le total sans la 6me unit est

kU\{6}
x
k
= t
x
120 = 180,
et les probabilits dinclusions deviennent

1
=
(3 1) 1
180
,
2
=
(3 1) 9
180
,
3
=
(3 1) 10
180
,

4
=
(3 1) 70
180
,
5
=
(3 1) 90
180
,
6
= 1.
On arrte ici la procdure et les vraies probabilits dinclusion sont

1
=
1
90
,
2
=
1
10
,
3
=
1
9
,
4
=
7
9
,
5
=
6
= 1.
Les units 5 et 6 sont donc slectionnes doce et il restera donc choisir une unit
parmi 1, 2, 3, 4. Notons que
6

k=1

k
=
1 + 9 + 10 + 70
90
+ 2 = 3,
comme souhait.
Rappelons quun plan de sondage est dni par les p(s) et non par les
k
. Pour avoir
un plan probabilits ingales, il faut donc dnir un plan de sondage p() tel que pour
tout k |,

sk
sS
n
p(s) =
k
, S
n
= s | : [s[ = n.
Remarque. Il existe une innit de plans de sondage vriant ces conditions. Nous allons
donc par la suite introduire quelques plans de sondage probabilits ingales taille xe
n couramment utiliss.
20
3.2 Plan de Poisson

Algorithme 1: Algorithme pour un plan de Poisson.


Entre : les probabilits dinclusions
k
, la taille de la population N
Sortie : Un chantillon s
1 s = ;
2 pour k 1 a N faire
3 U U(0, 1);
4 si U <
k
alors
5 s s k;
6 n
7 n
8 retourner s;
3.2 Plan de Poisson

Le plan de Poisson a de trs bonnes qualits mais galement un gros dfaut : il nest
pas de taille xe. Nanmoins nous allons lintroduire car il va nous servir an den dduire
des plans de taille xe.
Le plan de Poisson se programme trs facilement et est dcrit par lalgorithme 1. Il
est clair que cet algorithme nest pas de taille xe : impossible de connatre la taille de
lchantillon avant davoir termin lexcution de lalgorithme. Il y a mme une probabilit
non nulle de slectionner un chantillon de taille nulle ! ! ! Il a cependant de bonnes qualits.
Puisque les units sont slectionnes indpendemment

k
= Pr(k S, S) = Pr(k S) Pr( S) =
k

,
et donc

k
=
k

= 0, k ,= .
Clairement le plan de sondage est donn pour tout s |
p(s) =

ks

k
. .
proba. de slectionner
les units chosies

kU\{s}
(1
k
)
. .
proba. de ne pas slectionner
les units non retenues
Puisque
k
= 0, k ,= , la variance du estimateur du total t
y
est
Var(

t
y
) =

k,U
y
k
y

k
=

kU
y
2
k

k
(1
k
)

2
k
=

kU
y
2
k
(1
k
)

k
,
et peut tre estime par

Var(

t
y
) =

kU
y
2
k
(1
k
)

2
k
1
{kS}
.
Le plan de Poisson est intressant car il est simple mettre en oeuvre mais galement
car il maximise lentropie. Nous introduisons maintenant un mesure du dsordre.
Dnition 3.2.1. On appelle entropie dun plan p() la quantit
I(p) =

sU
p(s) ln p(s),
avec la convention que 0 ln 0 = 0.
21
3. Plans probabilits ingales
Clairement lentropie est toujours positive. De plus, comme mesure du dsordre, plus
I(p) sera grand plus le plan p() sera alatoire. Pour des probabilits dinclusion xes,
on cherchera donc le plan le plus alatoire ou dsordonn, i.e., celui maximisant lentropie.
Lemme 3.2.1.

sU

ks
x
k
=

kU
(1 + x
k
).
Dmonstration. Pour | = 1, 2, on a (avec la convention que
pour s = , x

= 1)
(1 + x
1
)(1 + x
2
) = 1 + x
1
+ x
2
+ x
1
x
2
.
Par rcurrence on a alors

k|N+1
(1 + x
k
) = (1 + x
N+1
)

k|
(1 + x
k
) = (1 + x
N+1
)

s|

ks
x
k
=

s|

ks
x
k
. .
chantillons ne contenant
pas x
N+1
+

s|
x
N+1

ks
x
k
. .
chantillons contenant
x
N+1
=

s|N+1

ks
x
k
.
Thorme 3.2.2. tant donn des probabilits dinclusions xes
k
, k |, le plan de
Poisson est le plan dentropie maximale sur S = s: s |.
Dmonstration. On cherche donc le problme doptimisation sous
contraintes suivant
argmax
p
I(p), tel que

s|
sk
p(s) =
k
et

s|
p(s) = 1.
En utilisant les multiplicateurs de Lagrange, on introduit le La-
grangien du problme
L(p,
k
, ) =

s|
p(s) ln p(s) +

k|

k
_

s|
sk
p(s)
k
_

_
+
_
_
_

s|
p(s) 1
_
_
_
=

s|
p(s) ln p(s) +

s|
p(s)

ks

k


k|

k
+
_
_
_

s|
p(s) 1
_
_
_
.
22
3.2 Plan de Poisson

En essayant dannuler les drives partielles par rapport aux p(s)


on trouve
L(p,
k
, )
p(s)
= 0 ln p(s) 1 +

ks

k
+ = 0
p(s) = exp
_
_

ks

k
+ 1
_
_
.
Do
p(s) =
exp (

ks

k
)
exp(1 )
, s |,
mais puisque

s|
p(s) = 1, on a donc
exp(1 ) =

s|
exp
_
_

ks

k
_
_
=

s|

ks
exp(
k
) =

k|
1 + exp(
k
).
la dernire galit provenant du Lemme 3.2.1. Nous avons gale-
ment

k
=

s|
sk
p(s) =

s|
sk

s
exp (

)
exp(1 )
=
exp(
k
)

s|k

s
exp(

k|
1 + exp(
k
)
=
exp(
k
)

|k
1 + exp(

k|
1 + exp(
k
)
=
exp(
k
)
1 + exp(
k
)

|
1 + exp(

k|
1 + exp(
k
)
=
exp(
k
)
1 + exp(
k
)
.
On obtient alors
(
k
1) exp(
k
) =
k
exp(
k
) =

k
1
k
,
et donc
p(s) =

ks

k
1
k

k|
_
1 +

k
1
k
_
=

ks

k
1
k

k|
1
1
k
=

ks

k


k/ s
(1
k
),
qui est la dnition dun plan de Poisson.
23
3. Plans probabilits ingales
On retiendra donc que le plan de Poisson est un plan de sondage respectant les pro-
babilits dinclusions dordre un xe a priori et tant le plus alatoire possible (au
sens de lentropie). Il a toutefois linconvnient de ne pas tre taille xe.
3.3 Sondage systmatique probabilits ingales
Ce plan de sondage a t introduit vers 1950 et est toujours largement utilis puisquil
a le mrite dtre simple et exact ! Contrairement au plan de Poisson, elle a galement le
bon got dtre de taille xe.
Comme depuis le dbut de ce Chapitre, on dsire tirer des chantillons dont les pro-
babilits dinclusion dordre un sont xes a priori et telles que 0 <
i
< 1, k | et

kU

k
= n.
Dnissons les probabilits dinclusion cumules
C
k
=
k

=1

, k |, C
0
= 0.
Lapproche consiste gnrer U U(0, 1) et de slectionner les units partir de cette
unique ralisation. La premire unit slectionne, appelons l k
1
, sera celle telle que
C
k
1
1
U < C
k
1
;
la deuxime unit slectionne, notons la k
2
, sera cette fois ci
C
k
2
1
1 +U < C
k
2
;
et ainsi de suite. . . De manire gnrale, la jme unit slectionne, note k
j
, sera alors
C
k
j
1
j 1 +U < C
k
j
.
Exercice 1. Prenons la situation o N = 6, n = 3,
1
= 0.2,
2
= 0.7,
3
= 0.8,
4
= 0.5
et
5
=
6
= 0.4. Dterminer lchantil lon slectionn sachant que U = 0.3658.
Solution. Les probabilits dinclusion dordre un cumules sont
C
0
= 0, C
1
= 0.2, C
2
= 0.9, C
3
= 1.7, C
4
= 2.2, C
5
= 2.6, C
6
= 3.
Notons au passage que C
6
= 3 ce qui est logique non? (Si vous ne
savez pas pourquoi, honte vous ! ! !)
An de dterminer quelles units sont slectionnes, un petit dessin
est bien pratique. A partir de la Figure 3.1, nous voyons clairement
que lchantillon slectionn est 2, 3, 5.
Nous venons de voir que cette mthode est en eet trs simple. Elle a quand mme
quelques dfauts ; notamment les probabilits dinclusions dordre deux sont souvent
nulles.
24
3.3 Sondage systmatique probabilits ingales
0.2 0.9 1.7 2.2 2.6
0 1 2 3
u
u + 1 u + 2
Figure 3.1: Illustration du tirage systmatique de lexercice 1.
Exercice 2. Montrez que la matrice P = (
k
)
k,
des probabilits dinclusion dordre deux
de lexercice 1 est
P =
_

_
0.0 0.2 0.2 0.0 0
0.0 0.5 0.2 0.4 0.3
0.2 0.5 0.3 0.4 0.2
0.2 0.2 0.3 0.0 0.3
0.0 0.4 0.4 0.0 0
0.0 0.3 0.2 0.3 0.0
_

_
Solution. La matrice P est clairement symtrique et par conven-
tion on ne remplit pas les lments diagonaux pour viter toute
confusion puisque
kk
=
k
.
Nous allons faire le calcul pour trois cas seulement, les autres tant
similaires. . .

12
= PrU (0, 0.2), 1 + U (0.2, 0.9) = PrU (0, 0.2), U (0.8, 0.1) = 0,

13
= PrU (0, 0.2), 1 + U (0.9, 1.7) = PrU (0, 0.2) = 0.2,

25
= PrU (0.2, 0.9), 2 + U (2.2, 2.6) = PrU (0.2, 0.6) = 0.4.
25
Chapitre 4
Stratication
La technique de stratication est largement utilise en sondage car el le permet
facilement dintroduire de linformation auxiliaire pour la construction dun
plan de sondage adquat.
4.1 Population et strates
Supposons que la population | soit partitionne en H sous-ensembles |
1
, . . . , |
H
ap-
pels strates et tels que
H
_
i=1
|
i
= |, |
i
|
h
= , i ,= h.
Chaque strate |
h
admet une taille N
h
et lon a bien videmment
H

h=1
N
h
= N,
o N est la taille de la population |.
Remarque. Les tailles des strates N
h
sont ici supposes connues et constituent linforma-
tion auxiliaire.
Notre but tant toujours destimer un total ou une moyenne, remarquons que le total
(resp. la moyenne) scrit laide des strates
t
y
=

kU
y
k
=
H

h=1

kU
h
y
k
=
H

h=1
t
y,h
,
o t
y,h
est le total des valeurs prises par le caractre y sur la strate |
h
, i.e.,
t
y,h
=

kU
h
y
k
.
De mme la moyenne sur la population scrit

y
=
1
N

kU
y
k
=
1
N
H

h=1

kU
h
y
k
=
1
N
H

h=1
N
h

y,h
,
o
y,h
est la moyenne des valeurs prises par le caractre y sur la strate |
h
, i.e.,

y,h
=
1
N
h

kU
h
y
k
.
27
4. Stratication
On dnit galement la variance et la variance corrige sur une strate |
h
par

2
y,h
=
1
N
h

kU
h
(y
k

y,h
)
2
,
et
S
2
y,h
=
1
N
h
1

kU
h
(y
k

y,h
)
2
.
Remarque. La variance sur la population (totale)
2
y
scrit

2
y
=
1
N

kU
(y
k

y
)
2
=
1
N
H

h=1

kU
h
(y
k

y,h
) + (
y,h

y
)
2
=
1
N
H

h=1
_

kU
h
(y
k

y,h
)
2
+ 2(
y,h

y
)

kU
h
(y
k

y,h
)
. .
=0
+N
h
(
y,h

y
)
2
_

_
=
1
N
H

h=1
N
h

2
y,h
+
1
N
H

h=1
N
h
(
y,h

y
)
2
=
2
y,intra
+
2
y,inter
,
o
2
y,intra
est la variance intrasrates, i.e.,

2
y,intra
=
1
N
H

h=1
N
h

2
y,h
,
et
2
y,inter
est la variance intersrates, i.e.,

2
y,inter
=
1
N
H

h=1
N
h
(
y,h

y
)
2
.
4.2 chantillons, probabilits dinclusion et estima-
tion
Dnition 4.2.1. Un sondage est dit strati si, pour chaque strate, on tire un chan-
tillon selon un sondage alatoire simple sans remise de taille xe n
h
et que les tirages au
sein de chaque strate sont mutuellement indpendant.
Soit S
h
lchantillon alatoire tir dans la strate |
h
laide dun plan de sondage p
h
().
Lchantillon alatoire S obtenu au nal est donc
S =
H
_
h=1
S
h
.
Le plan de sondage associ p() nest rien dautre que
p(s) =
H

h=1
p
h
(s
h
), s =
H
_
h=1
s
h
,
28
4.2 chantillons, probabilits dinclusion et estimation
et la taille de lchantillon S est
n =
H

h=1
n
h
.
Le calcul des probabilits dinclusion pour un sondage strati nest pas dicile mais
il faut tout de mme faire attention. Pour les probabilits dinclusion dordre un et si
lunit k appartient la strate |
h
alors

k
=
n
h
N
h
,
puisquon a eectu un plan simple sans remise de taille n
h
pour cette strate.
Pour les probabilits dinclusion dordre deux, cest un peu plus dicile et le rsultat
dpend du fait ou non que les units k et appartiennent la mme strate ou non.
Si k et appartiennent la mme strate |
h
alors

k
=
n
h
(n
h
1)
N
h
(N
h
1)
.
Si k et appartiennent deux strates direntes |
h
1
et |
h
2
alors (par indpendance
entre les strates)

kl
=
k

=
n
h
1
N
h
1
n
h
2
N
h
2
.
En consquence on a

k
=
_

_
n
h
N
h
_
1
n
h
N
h
_
, k = , k |
h
,

n
h
(N
h
n
h
)
N
2
h
(N
h
1)
, k ,= , k, |
h
,
0, k |
h
, / |
h
.
Du coup les estimateurs du total t
y
et de la moyenne
y
sont

t
y,strat
=

kS
y
k

k
=
H

h=1

kS
h
N
h
y
k
n
h
=
H

h=1

t
y,h
,
et

y,strat
=
1
N
H

h=1
N
h
n
h

kS
h
y
k
=
1
N
H

h=1
N
h
y
h
,
o

t
y,h
est lestimateur du total pour la strate h, i.e.,

t
y,h
=
N
h
n
h

kS
h
y
k
,
et y
h
est la moyenne de lchantillon prlev sur la strate h, i.e.,
y
h
=
1
n
h

kS
h
y
k
.
Puisque les strates sont indpendantes, la variance de ces estimateurs se calcule faci-
lement
Var(

t
y,strat
)
ind
=
H

h=1
Var(

t
y,h
)
simple
=
H

h=1
N
h
(N
h
n
h
)
S
2
y,h
n
h
,
variance qui sestime sans biais par

Var(

t
y,strat
) =
H

h=1
N
h
(N
h
n
h
)
s
2
y,h
n
h
,
avec
s
2
y,h
=
1
n
h
1

kS
h
(y
k
y
h
)
2
, h = 1, . . . , H.
29
4. Stratication
4.3 Plan stratiti et allocation proportionnelle
Dnition 4.3.1. Un plan strati est dit allocation proportionnelle si
n
h
N
h
=
n
N
, h = 1, . . . , H,
cest dire que les strates de tailles importantes auront plus dunit dans lchantillon
que celles de tailles plus petites .
Remarque. Gnralement la taille dchantillon pour chaque strate
n
h
= n
N
h
N
ne sera pas entire mais an de simplier les dveloppements thoriques qui viennent nous
allons tout de mme le supposer. . . No comment !
Les estimateur du total et de la moyenne sont alors

t
y,strat. prop.
=
H

h=1

t
y,h
=
N
n

kS
y
k
,

y,strat. prop.
=
1
n

kS
y
k
.
La variance du total est alors
Var(

t
y,strat. prop.
) =
H

h=1
N
h
(N
h
n
h
)
S
2
y,h
n
h
=
H

h=1
N
h
_
N
n
1
_
S
2
y,h
=
N n
n
H

h=1
N
h
S
2
y,h
.
Remarque. Lorsque les tailles des strates N
h
sont susamment grandes, alors S
2
y,h

2
y,h
et donc
Var(

t
y,strat. prop.
)
N n
n
H

h=1
N
h

2
y,h
= N(N n)

2
y,intra
n
,
alors que la variance de lestimateur du total pour un plan simple sans remise vrie
Var(

t
y,
) N(N n)

2
y
n
.
Les deux expressions sont quasiment identiques mais puisque

2
y
=
2
y,intra
+
2
y,inter
,
la premire expression est plus petite, i.e., on obtient de meilleurs rsultat avec un plan
strati avec allocation proportionnelle quavec un plan simple sans remise !
Ceci est bien entendu dautant plus vrai que la variance inter-strate sera grande, ce
qui est le cas lorsque le caractre dintrt y dpend fortement du caractre servant la
stratication, ici les tailles N
h
.
Bien entendu on estimera sans biais cette variance par

Var(

t
y,strat. prop.
) =
N n
n
H

h=1
N
h

S
2
y,h
,
avec

S
2
y,h
=
1
n
h
1

kS
h
(y
k
y
h
)
2
, h = 1, . . . , H.
30
4.4 Plan strati optimal pour le total
4.4 Plan strati optimal pour le total
Si notre intrt est destimer un total ou une moyenne alors il existe une taille optimale
pour les strates. On cherche donc les tailles dchantillon n
1
, . . . , n
h
minimisant la variance
du estimateur du total t
y
pour une taille dchantillon xe n, i.e., minimiser
Var(

t
y,strat
) =
H

h=1
N
h
(N
h
n
h
)
S
2
y,h
n
h
par rapport aux n
h
et sous la contrainte
H

h=1
n
h
= n.
Le Lagrangien de ce problme de minimisation est
L(n
1
, . . . , n
H
, ) =
H

h=1
N
h
(N
h
n
h
)
S
2
y,h
n
h
+
_
H

h=1
n
h
n
_
.
On a donc
L
n
h
= 0
N
2
h
n
2
h
S
2
y,h
+ = 0
n
h
=
N
h
S
y,h

.
Mais puisque

h
n
h
= n on a

1/2
H

h=1
N
h
S
y,h
= n,
et il vient
n
h
= n
N
h
S
y,h

H
j=1
N
j
S
y,j
, h = 1, . . . , H.
Remarque. La taille optimale pour une strate |
h
est donc proportionnelle au produit de
la taille de cette strate et de lcart-type du caractre y sur cette strate.
Bien entendu en pratique on ne connatra pas S
y,h
et donc la formule prcdente nest
pas dun grand intrt. Elle est cependant assez instructiveet intuitive ! Instructive
puisquelle indique quil faut surreprsenter les strates qui ont une forte variabilit ; ce qui
est intuitif non ?
Remarque. En pratique les tailles n
h
/ N et on arrondira les rsultats. De plus il peut
arriver galement que n
h
> N
h
pour un h 1, . . . , H. Pour de tels cas, on posera alors
n
h
= N
h
et on dterminera les tailles optimales sur les strates restantes en itrant le
procd si ncessaire.
Supposons que nos tailles optimales soient des entiers et telles que n
h
< N
h
pour tout
h. Alors la variance du estimateur est alors
Var(

t
y,opt
) =
H

h=1
N
h
(N
h
n
h
)
S
2
y,h
n
h
=
H

h=1
N
2
h

H
=1
N

S
y,
nN
h
S
y,h
S
2
y,h

h=1
N
h
S
2
y,h
=
_

H
=1
N

S
y,
n
_
H

h=1
N
h
S
y,h

h=1
N
h
S
2
y,h
=
1
n
_
H

h=1
N
h
S
y,h
_
2

h=1
N
h
S
2
y,h
.
31
4. Stratication
4.5 Prise en compte du cot
Faire une enqute est bien souvent coteux de sorte que lallocation optimale prsente
dans la Section 4.4 sera bien souvent dconnecte de la ralit. Bien souvent on visera
plutt une allocation optimale pour un budget x C. Nous allons donc minimiser la
variance de lestimateur du total
Var(

t
y,strat
) =
H

h=1
N
h
(N
h
n
h
)
S
2
y,h
n
h
,
sous la contrainte
H

h=1
n
h
C
h
= C,
o C
h
reprsente le cot dinterroger une unit dans la strate |
h
.
Exercice 3. Montrez que la taille optimale est alors
n
h
=
CN
h
S
y,h

C
h

H
=1
N

S
y,

, h = 1, . . . , H.
Solution. Le Lagrangien du problme scrit
L(n
1
, . . . , n
H
, ) =
H

h=1
N
h
(N
h
n
h
)
S
2
y,h
n
h
+
_
_
H

h=1
n
h
C
h
C
_
_
.
On a donc
L
n
h
= 0
N
2
h
S
2
y,h
n
2
h
+ C
h
= 0
n
h
=
N
h
S
y,h

C
h
.
Mais puisque

H
h=1
n
h
C
h
= C, on a
H

=1
N

S
y,

= C =
_
_
_

H
=1
N

S
y,

C
_
_
_
2
,
et donc
n
h
=
CN
h
S
y,h

C
h

H
=1
N

S
y,

, h = 1, . . . , H.
Remarque. De manire assez logique nous constatons que nous slectionnons moins les
strates les plus coteuses .
32
Chapitre 5
Plans par grappes et plusieurs
degrs
Dans ce chapitre nous allons voir comment une variable auxiliaire peut tre
utilise non pas pour amliorer la prcision de nos estimations mais le drou-
lement dune enqute !
5.1 Plans par grappes
Les plans par grappes ressemblent (aux premiers abords) fortement aux plans stratis.
Ce nest pourtant pas du tout le cas ! ! !
Supposons que la population | soit partitionne en M sous-ensembles |
1
, . . . , |
M
appels grappes et tels que
M
_
i=1
|
i
= |, |
i
|
j
= , i ,= j.
Chaque grappe |
i
admet une taille N
i
et lon a bien videmment
M

i=1
N
i
= N,
o N est la taille de la population |.
Notre but tant toujours destimer un total ou une moyenne, remarquons que le total
(resp. la moyenne) scrit laide des grappes
t
y
=

kU
y
k
=
M

i=1

kU
i
y
k
=
M

i=1
t
y,i
,
o t
y,i
est le total des valeurs prises par le caractre y sur la grappe |
i
, i.e.,
t
y,i
=

kU
i
y
k
.
De mme la moyenne sur la population scrit

y
=
1
N

kU
y
k
=
1
N
M

i=1

kU
i
y
k
=
1
N
M

i=1
N
i

y,i
,
33
5. Plans par grappes et plusieurs degrs
|
1
|
i
|
H
S
1
S
i
S
H
. . . . . .
|
1
|
i
|
M
Figure 5.1: Illustration de la dirence entre un plan de sondage strati (gauche) et par
grappes (droite). Pour lun, un chantillon alatoire est prlev dans chaque strate. Pour lautre
un chantillon alatoire sur les grappes est prlev et chaque grappe ainsi pioche est entirement
retenue.
o
y,i
est la moyenne des valeurs prises par le caractre y sur la grappe |
i
, i.e.,

y,i
=
1
N
i

kU
i
y
k
.
On dnit galement la variance et la variance corrige sur une grappe |
i
par

2
y,i
=
1
N
i

kU
i
(y
k

y,i
)
2
,
et
S
2
y,i
=
1
N
i
1

kU
i
(y
k

y,i
)
2
.
Jusque l rien de bien nouveau par rapport la manire dont nous avions introduit
les plans stratis me direz vous. Cest ce moment bien prcis que les deux approches
divergent ! ! !
Dnition 5.1.1. Un plan est dit par grappes si lon procde comme suit :
1. On slectionne un chantillon alatoire de grappes S
g
selon un plan de sondage p
g
()
dni sur les parties non vides de |
g
= 1, . . . , M ;
2. Toutes les units des grappes slectionnes sont alors retenues.
La Figure 5.1 illustre la dirence entre ces deux plans de sondages. Nous voyons
clairement que le plan strati utilise un chantillons dans chaque strates alors que le plan
par grappes slectionne soit totalement une grappe soit pas du tout. Ainsi un chantillon
alatoire S issu dun plan par grappes scrit
S =
_
iS
g
|
i
,
et sa taille n
S
est
n
S
=

iS
g
N
i
.
Remarque. La taille de lchantillon n
S
sera le plus souvent alatoire mme si le plan de
sondage sur les grappes p
g
() est taille xe les grappes nayant pas forcment des
tailles identiques.
34
5.1 Plans par grappes
Les probabilits dinclusion dordre un et deux dcoulent des probabilits de slection
des grappes (et donc du plan de sondage p
g
()). Ainsi si lunit k appartient la grappe
i, on a

k
=

sS
g
is
p
g
(s)
def
=
g,i
, k |
i
, i |
g
,
o S
g
est lensemble des chantillons possibles de |
g
.
Les probabilits dinclusions dordre deux scrivent de manire analogue

k
=
_
_
_

g,i
, k, |
i

g,ij
, k |
i
, |
j
,
avec

g,ij
=

sS
g
i,js
p
g
(s), i, j |
g
, i ,= j.
Exercice 4. Montrez que les conditions de SenYatesGrundy, i.e.,
k
< 0, ne sont pas
satisfaites lorsque k et appartiennent la mme grappe.
Solution. Supposons que k, |
i
pour un certain i |
g
. Alors

k
=
k

=
g,i

2
g,i
=
g,i
(1
g,i
) 0.
Les estimateurs du total et de la moyenne sont

t
y,
=

iS
g
t
y,i

g,i
,
y,
=
1
N

iS
g
N
i

y,i

g,i
.
Notons toutefois que, pour les plans par grappes, il est rare que la taille de la population
N soit connue. On utilisera plutt le ratio de Hjek de la Section 1.7 pour estimer la
moyenne
y
.
La variance du estimateur du total t
y
est, cf. Section 1.6.2,
Var(

t
y,
) =

k,U
y
k
y

k
=
M

i,j=1
t
y,i
t
y,j

g,i

g,j

g,ij
=
M

i=1
t
2
y,i

2
g,i

g,i
(1
g,i
) +

i=j
t
y,i
t
y,j

g,i

g,j
(
g,ij

g,i

g,j
),
que lon estimera classiquement par le estimateur.
Si le nombre de grappe slectionn est xe, alors on peut crire cette variance sous
une autre forme (cf. Section 1.6.3),
Var(

t
y,
) =
1
2
M

i,j=1
i=j
_
t
y,i

g,i

t
y,j

g,j
_
2

g,ij
. (5.1)
35
5. Plans par grappes et plusieurs degrs
5.2 Choix sur le plan de sondage p
g
()
5.2.1 Tirage des grappes probabilits gales
La premire ide venant lesprit pour le choix de p
g
() est de faire un plan de sondage
sans remise et taille xe m. Pour ce choix nous avons alors

g,i
=
m
M
,
g,ij
=
m(m1)
M(M 1)
, i, j = 1, . . . , M, i ,= j.
Cela dit bien que p
g
() soit de taille xe, la taille n
S
de lchantillon S obtenue est
comme nous lavons dj dit alatoire et vaut en esprance
E(n
S
) = E
_
_

iS
g
N
i
_
_
=
M

i=1
N
i
E(1
{iS
g
}
) =
M

i=1
N
i

g,i
=
mN
M
.
Les estimateurs du total et de la moyenne se simplient en

t
y,
=
M
m

iS
g
t
y,i
,
y,
=
M
mN

iS
g
N
i

y,i
.
Puisque p
g
() est taille xe, la variance scrit daprs (5.1)
Var(

t
y,
) =
1
2
M

i,j=1
i=j
_
t
y,i

g,i

t
y,j

g,j
_
2

g,ij
=
M
2
2m
2

i=j
(t
y,i
t
y,j
)
2
_
m(m1)
M(M 1)

m
2
M
2
_
=
M
2
2m
2
m(mM)
M
2
(M 1)

i=j
(t
y,i
t
y,j
)
2
=
M m
M 1
M
m
M

i=1
_
t
y,i

t
y
M
_
2
,
o on a utilis pour la dernire quation le fait que
n

i,j=1
(x
i
x
j
)
2
= 2n
n

i=1
(x
i
x)
2
.
Il est peut-tre plus parlant dcrire cette dernire expression de la manire suivante
Var(

t
y,
) = M(M m)
1
M1

iS
g
(t
y,i
t
y
/M)
2
m
,
qui nous fait furieusement penser lexpression vue maintes reprises
Var(

t
y,
) = N(N n)
S
2
y
n
,
mais o la variance corrige est maintenant calcule sur les soustotaux des grappesce
qui est logique non?
On estimera bien entendu cette variance par

Var(

t
y,
) =
M m
m1
M
m

iS
g
_
t
y,i

t
y
M
_
2
.
36
5.3 Plans deux degrs
5.2.2 Tirage proportionnel aux tailles des grappes
On peut galement eectuer un plan sans remise de taille xe m dont les probabilits
de slection sont proportionnelles la taille de chacune des grappes comme nous lavons
vu lors de la Section 3.1.
Pour simplier les choses on supposera que mN
i
N pour tout i = 1, . . . , M sinon
les grappes ne vriant pas cela seront systmatiquement choisies. Les probabilits de
slection des grappes sont alors

g,i
=
mN
i
N
, i = 1, . . . , M.
La taille n
S
de lchantillon S est toujours alatoire et vaut en moyenne
E(n
S
) = E
_
_

iS
g
N
i
_
_
=
M

i=1
N
i

g,i
=
m
N
M

i=1
N
2
i
.
Les estimateurs du total et de la moyenne sont

t
y,
=
N
m

iS
g
N
i
t
y,i
=
N
m

iS
g

y,i
,
y,
=
1
m

iS
g

y,i
,
et puisque le plan de sondage p
g
() est taille xe, la variance scrit daprs (5.1)
Var(

t
y,
) =
1
2
M

i,j=1
i=j
_
t
y,i

t
y,j

j
_
2

g,ij
=
1
2
M

i,j=1
i=j
_
Nt
y,i
mN
i

Nt
y,j
mN
j
_
2 _

g,ij

mN
i
N
mN
j
N
_
=
N
2
2M
2
M

i,j=1
i=j
(
y,i

y,j
)
2
_

g,ij

m
2
N
i
N
j
N
2
_
.
Remarque. Nous ne pouvons pas aller plus loin dans le calcul de cette variance car de
manire gnrale les probabilits dinclusion dordre 2 ne sont pas connues pour les tirages
proportionnels, cf. Chapitre 3.
5.3 Plans deux degrs
Les plans deux degrs portent bien leurs noms puisquils consistent en un double
chantillonnage :
1. sur les units primaires ;
2. puis les units secondaires.
En exemple valant mille mots, pour un sondage sur les mnages, les units primaires
seraient les communes alors que les units secondaires seraient les mnages. Un plan
deux degrs consisterait donc chantillonner les communes puis prlever, pour chaque
commune retenue, un chantillon de mnages.
Remarque. Cest un peu la stratgie de diviser pour mieux rgner et cela permet parfois
de rduire les cot de lenqute. En eet pour notre exemple sur les mnages, les uni-
ts (secondaires) seront forcment proches car issues de la mme commune. Imaginez la
facture dessence si lon avait chantillonn directement sur les mnages franais !
37
5. Plans par grappes et plusieurs degrs
|
1
|
2
|
3
|
i1 |
i
|
i+1
|
M2
|
M1 |
M

S
2,1
S
2,j
S
2,m
S
1,1
S
1,j
S
1,m
Figure 5.2: Illustration du concept de plan deux degrs. Lchantillon du premier degr est
de taille m et est S
1
=
m
j=1
S
1,j
. Lchantillon nal obtenu par un plan deux degrs est
alors S =
jS
1
S
2,j
.
5.3.1 Population, untis primaires et secondaires
Comme pour les sections prcdentes, on supposera que la population | = 1, . . . , N
est subdivise en M souspopulations |
i
, i = 1, . . . , M, que lon appellera units pri-
maires. Les units primaires sont composes de N
i
units secondaires et lon a bien
entendu
M

i=1
N
i
= N.
Pour eectuer un plan deux degrs, il faut donc
construire un chantillon S
1
dunits primaires partir dun plan de sondage p
1
()
sur 1, . . . , M ;
pour chaque unit primaire slectionne, construire un chantillon S
2
sur les units
secondaires partir dun plan de sondage p
2
().
Il est souhaitable que les plans deux degrs possdent les deux proprits suivantes :
Invariance : le plan du second degr p
2
() est indpendant du premier plan p
1
(), i.e.,
Pr(S
2
= s
2
[ S
1
= s
1
) = Pr(S
2
= s
2
) ;
Indpendance : les tirages du second degr sont mutuellement indpendants.
La Figure 5.2 essaye dillustrer le principe de fonctionnement dun plan de sondage
deux degrs. Clairement lchantillon obtenu par de tels plan scrit
S =
_
iS
1
S
2,i
,
et sa taille (alatoire) est
n
S
=

iS
1
n
i
, n
i
= [S
2,i
[.
Notons
1,i
et
1,ij
les probabilits dinclusion dordre 1 et 2 pour le premier degr,
i.e.,

1,i
= Pr(|
i
S
1
),
1,ij
= Pr(|
i
S
1
, |
j
S
1
).
Notons galement
k|i
la probabilit de slectionner lunit (secondaire) k sachant que
lunit (primaire) |
i
a t choisie. De manire analogue on notera
k|i
la probabilit
dinclusion dordre 2 sachant que |
i
a t retenue.
Avec ces notations, pour un k |
i
, la probabilit dinclusion (usuelle)
k
scrit

k
= Pr(k S
2,i
, i S
1
) = Pr(k S
2,i
[ i S
1
) Pr(i S
1
) =
k|i

1,i
.
38
5.3 Plans deux degrs
Un mme raisonnement nous conduit aux expressions pour les probabilits dinclusion
dordre 2,

k
=
_
_
_

k|i

1,i
, k, |
i
,

k|i

|j

1,ij
, k |
i
, |
j
, i ,= j,
o pour le deuxime cas nous nous sommes servit de lhypothse dindpendance pour le
deuxime tirage.
5.3.2 Le estimateur
Rappelons que dans ce contexte le total t
y
scrit
t
y
=

kU
y
k
=
M

i=1

kU
i
y
k
=
M

i=1
t
y,i
,
o t
y,i
est le total pour lunit primaire |
i
, i.e.,
t
y,i
=

kU
i
y
k
.
Le estimateur de ce total est donc

t
y,
=

iS
1

kS
2,i
y
k

k|i

1,i
=

iS
1

t
y,i

1,i
,
o

t
y,i
est bien entendu le estimateur du (sous) total t
y,i
, i.e.,

t
y,i
=

kS
2,i
y
k

k|i
.
Remarque. On peut tout a fait calculer la variance du estimateur, mais nous ne le ferons
pas. . .
39
Chapitre 6
Utilisation dune information
auxiliaire
Dans ce chapitre nous allons voir comment nous pouvons bncier de lutili-
sation dune information auxiliaire qui tait non disponible lors de la mise en
oeuvre du sondage. Le but tant bien entendu dobtenir de meil leures estima-
tion du paramtre dintrt.
6.1 Post-stratication
6.1.1 Notations
Lorsque lon parle dutilisation dune information auxiliaire, il faut tout prix connatre
lapproche dite de post-stratication. Cette mthode fait oce de rfrence et a en plus
le bon got dtre particulirement simple !
On suppose que le caractre auxiliaire est qualitatif et peut prendre H valeurs dis-
tinctes disons 1, . . . , H. Ce caractre auxiliaire nous permet ainsi de former une partition
de la population |, i.e.,
| =
H
_
h=1
|
h
, |
h
= i | : y
i
= h.
Remarque. Le terme post-stratication vient du fait que cette partition de la population
| ressemble sy mprendre la technique de stratication introduite au Chapitre 4.
Puisque cette stratication intervient aprs le sondage, on parlera naturellement de post-
stratication et de post-strates |
h
.
Le nombre dunits N
h
de la post-strate |
h
est appel la taille de la post-strate et bien
entendu
N =
H

h=1
N
h
.
Notons que nous supposons que les N
h
sont connus et constituent notre fameuse informa-
tion auxiliaire.
Comme pour le sondage strati, le total et la moyenne scrivent
t
y
=

kU
y
k
=
H

h=1

kU
h
y
k
=
H

h=1
N
h

y
=
1
N
H

h=1
N
h

h
,
41
6. Utilisation dune information auxiliaire
o
h
est la moyenne sur la post-strate |
h
, i.e.,

h
=
1
N
h

kU
h
y
k
, h = 1, . . . , H.
Nous pouvons galement sintresser la variance (corrige) pour chaque post-strate

2
y,h
=
1
N
h

kU
h
(y
k

h
)
2
, S
2
y,h
=
1
N
h
1

kU
h
(y
k

h
)
2
, h = 1, . . . , h.
Exercice 5. Montrez que lon peut dcomposer la variance totale
2
y
laide des variances
des post-strates, i.e.,

2
y
=
1
N
H

h=1
N
h

2
y,h
+
1
N
H

h=1
N
h
(
y,h

y
)
2
.
Solution.

2
y
=
1
N

k|
(y
k

y
)
2
=
1
N
H

h=1

k|
h
(y
k

y
)
2
=
1
N
H

h=1

k|
h
(y
k

y
)
2
=
1
N
H

h=1

k|
h
(y
k

y,h
) + (
y,h

y
)
2
=
1
N
H

h=1
_

k|
h
(y
k

y,h
)
2
+ 2

k|
h
(
y,h

y
)(y
k

y,h
)
. .
=0
+

k|
h
(
y,h

y
)
2
_

_
=
1
N
H

h=1
N
h

2
y,h
+
1
N
H

h=1
N
h
(
y,h

y
)
2
.
6.1.2 Lestimateur post-strati
Supposons quun chantillon altoire S de taille n ait t tir au sein dune population
| de taille N laide dun plan simple sans remise. Le estimateur du total t
y
est donc

t
y,
=

kS
y
k
n/N
=
N
n

kS
y
k
=
N
n
H

h=1
n
h
>0
n
h

y,h
,
42
6.1 Post-stratication
o n
h
est la taille des post-strates et

y,h
=
1
n
h

kS
h
y
k
.
Lestimateur post-strati scrit alors

t
y,post
=
H

h=1
n
h
>0
N
h

y,h
.
Remarque. La connaissance des tailles N
h
est ncessaire an dutiliser cet estimateur.
6.1.3 Proprit de lestimateur
Le calcul de lesprance de

t
y,post
est quelque peu compliqu du fait que les tailles n
h
des chantillons des post-strates sont alatoires. Commenons par calculer cette esprance
sachant les tailles n
h
. Nous avons
E(

t
y,post
[ n
1
, . . . , n
H
) =
H

h=1
n
h
>0
N
h
E(
y,h
[ n
1
, . . . , n
H
)
=
H

h=1
n
h
>0
t
y,h
= t
y

H

h=1
n
h
=0
t
y,h
.
Puisque EE(X [ Y ) = E(X), nous avons
E(

t
y,post
) = t
y

H

h=1
t
y,h
Pr(n
h
= 0).
Or puisque
Pr(n
h
= 0) = Pr(k S: k |
h
) =
_
NN
h
n
_
_
N
n
_
=
(N N
h
)!(N n)!
(N N
h
n)!N!
,
on a donc
E(

t
y,post
) t
y
=
H

h=1
t
y,h
(N N
h
)!(N n)!
(N N
h
n)!N!
.
Remarque. Lestimateur post-strati nest donc pas sans biais mais est approximative-
ment sans biais ds lors que Pr(n
h
= 0) est susamment faible pour tout h = 1, . . . , H.
Une rgle de pouce consiste ce que les post-strates soient susamment grandes, i.e.,
que les tailles N
h
des post-strates vrient
n
N
h
N
30, h = 1, . . . , H.
On peut galement calculer la variance de lestimateur post-strati en utilisant la
clbre formule
Var(

t
y,post
) = VarE(

t
y,post
[ n
1
, . . . , n
H
) +EVar(

t
y,post
[ n
1
, . . . , n
H
).
43
6. Utilisation dune information auxiliaire
Mais puisque nous avons montr que
E(

t
y,post
[ n
1
, . . . , n
H
) = t
y

H

h=1
n
h
=0
t
y,h
,
cela implique que VarE(

t
y,post
[ n
1
, . . . , n
H
) 0 ds lors que Pr(n
h
= 0) est susamment
faible. On a donc
Var(

t
y,post
) = EVar(

t
y,post
[ n
1
, . . . , n
H
)
= E
_

_
H

h=1
n
h
>0
N
h
(N
h
n
h
)
S
2
y,h
n
h
_

h=1
N
h
_
N
h
E(n
1
h
) 1
_
S
2
y,h
.
Il reste donc calculer E(n
1
h
) ce qui nest pas vident. En fait on calculera une
approximation de cette esprance en ayant recours la linarisation. Ceci est un peu long
mais reste tout fait faisable. . .
6.2 Caractre auxiliaire quantitatif
Dans la section prcdente, nous avons introduit la technique de post-stratication;
mais cette dernire supposait que linformation auxiliaire tait qualitative. Parfois cette
information auxiliaire sera quantitative.
Soit x le caractre auxiliaire (qui est quantitatif rappelons le encore une fois) dont le
total
t
x
=

kU
x
k
est suppos connu.
Si lon souponne que le caractre x soit li au caractre dintrt y, alors on aimerait
bien bncier de la connaissance de x pour estimer une fonction dintrt sur y. Dans
cette section, nous allons voir direntes approches de ce type et nous supposerons quun
plan de sondage simple est ralis. Avant dintroduire ces direntes techniques,
posons quelques notations.
6.2.1 Notations
Comme dhabitude on appelera

x
=
1
N

kU
x
k
,
y
=
1
N

kU
y
k
,
les moyennes des caractres x et y sur la population et
S
2
x
=
1
N 1
N

k=1
(x
k

x
)
2
, S
2
y
=
1
N 1
N

k=1
(y
k

y
)
2
,
les variances corriges des caractres x et y sur la population. On introduit galement la
nouvelle notation
S
xy
=
1
N 1
N

k=1
(x
k

x
)(y
k

y
),
44
6.2 Caractre auxiliaire quantitatif
i.e., la covariance entre le caractre x et le caractre y sur la population.
En ce qui concerne les quantits chantillonnes, on notera

S
2
x
=
1
n 1

kS
(x
k

x
)
2
,

S
2
y
=
1
n 1

kS
(y
k

y
)
2
,

S
xy
=
1
n 1

kS
(x
k

x
)(y
k

y
),
les variances et la covariance calcules partir de lchantillon S de taille n.
6.2.2 Estimation par la dirence
Lestimateur par la dirence du total t
y
, not

t
y,D
, est

t
y,D
=

t
y,
+t
x

t
x,
,
o

t
x,
et

t
y,
sont les estimateurs des totaux t
x
et t
y
.
En quelque sorte lide de cet estimateur est de reporter lerreur du estimateur
commise sur lestimation de t
x
sur lestimation de t
y
.
Exercice 6. Montrez que cet estimateur est sans biais.
Solution.
E(

t
y,D
) = E(

t
y,
) + t
x
E(

t
x,
) = t
y
+ t
x
t
x
= t
y
,
puisque le estimateur est un estimateur sans biais du total.
La variance (et donc lerreur quadratique puisque cest un estimateur sans biais) se
calcule galement aisment :
Var(

t
y,D
) = Var(

t
y,
) + Var(

t
x,
) 2Cov(

t
x,
,

t
y,
)
=
N(N n)
n
_
S
2
y
+S
2
x
2S
xy
_
.
Cette variance sera bien entendue estime par

Var(

t
y,D
) =
N(N n)
n
_

S
2
y
+

S
2
x
2

S
xy
_
.
6.2.3 Estimation par le quotient
Lestimateur par le quotient du total t
y
, not

t
y,Q
, est

t
y,Q
=

t
y,

t
x,
t
x
.
En quelque sorte lide de cet estimateur est similaire celle de lestimateur par la
dirence mais cette fois ci lerreur est reporte de manire multiplicative plutt quad-
ditive.
Le biais de cet estimateur nest pas calculable de manire explicite du fait de la prsence
dun quotient. On aura donc recours comme dhabitude la technique de linarisation.
45
6. Utilisation dune information auxiliaire
Puisque

t
y,Q
t
y
=

t
y,
R

t
x,

t
x,
t
x
=

t
y,
R

t
x,
1 +
,
avec R = t
y
/t
x
et
=

t
x,
t
x
t
x
.
A laide dun dveloppement limit de (1 +)
1
en = 0 et dordre 1, on obtient

t
y,Q
t
y
(

t
y,
R

t
x,
)(1 ).
Au nal on peut donc avoir une approximation du biais
E(

t
y,Q
t
y
) E
_
(

t
y,
R

t
x,
)
_
=
E(

t
x,

t
y,
) t
x
t
y
RE(

t
2
x,
) + Rt
2
x
t
x
=
RVar(

t
x,
) Cov(

t
x,
,

t
y,
)
t
x
=
N(N n)
n
RS
2
x
S
xy
t
x
.
Remarque. Le biais devient ngligeable ds lors que n est grand.
Exercice 7. Calculez une approximation de lerreur quadratique de lestimateur par quo-
tient.
Solution.
E(

t
y,Q
t
y
)
2
E(

t
y,
R

t
x,
)
2

= E
_
_
(

t
y,
t
y
) (R

t
x,
Rt
x
)
_
2
_
= Var(

t
y,
) + R
2
Var(

t
x,
) 2RCov(

t
x,
,

t
y,
)
=
N(N n)
n
_
S
2
y
+ R
2
S
2
x
2RS
xy
_
.
On estimera cette erreur quadratique par
N(N n)
n
_

S
2
y
+

R

S
2
x
2

R

S
xy
_
,

R =

t
y,

t
x,
.
46
6.2 Caractre auxiliaire quantitatif
6.2.4 Estimation par la rgression
Lestimateur du total t
y
par la rgression est

t
y,R
=

t
y,
+ a(t
x

t
x,
), a =

S
xy

S
2
x
.
Lide de cet estimateur est de supposer quil existe une relation linaire de la forme
y = ax +b entre les caractres x et y et donc que
t
y
at
x
+

b,

t
y,
a

t
x,
+

b.
On estime alors le total par

t
y,
+ (t
y

t
y,
) =

t
y,
+ a(t
x

t
x,
).
Comme pour les estimateurs prcdents, le calcul de lesprance de

t
y,R
ne peut tre
quapproch. Puisque

t
y,R
=

t
y,
+a(t
x

t
x,
) + ( a a)(t
x

t
x,
), a =
S
xy
S
2
x
,
et o lon peut montrer (admis) que le dernier terme est ngligeable, on a donc
E(

t
y,R
) E

t
y,
+a(t
x

t
x,
) = t
y
.
Lerreur quadratique est approche par
EQM(

t
y,R
) Var(

t
y,
) +a
2
Var(

t
x,
) 2aCov(

t
x,
,

t
y,
)
=
N(N n)
n
_
S
2
y
+a
2
S
2
x
2aS
xy
_
=
N(N n)
n
_
S
2
y
+
S
2
xy
S
2
x
2
S
2
xy
S
2
x
_
=
N(N n)
n
_
S
2
y

S
2
xy
S
2
x
_
=
N(N n)
n
S
2
y
_
1
2
_
, =
S
xy
S
x
S
y
.
On estimera cette dernire par
N(N n)
n

S
2
y
_
1
2
_
, =

S
xy

S
x

S
y
.
6.2.5 Comparaison
Le Tableau 6.1 donne lexpression des erreurs quadratiques moyennes pour les di-
rents estimateurs par redressement introduit prcdemment ainsi, qu titre de rfrence,
celle du estimateur. Nous allons donc maintenant comparer ces estimateurs deux deux
an dtablir une rgle de dcision an de choisir le meilleur estimateur au sens de
lerreur quadratique bien entendu.
47
6. Utilisation dune information auxiliaire
Table 6.1: Rcapitulatif des direntes mthodes de redressement laide dune variable quan-
titative.
Estimateur Dnition
_
N(Nn)
n
_
1
EQM
estimateur

t
y,
= n
1
N

kS
y
k
S
2
y
par la dirence

t
y,D
=

t
y,
+t
x

t
x,
S
2
y
+S
2
x
2S
xy
par le quotient

t
y,Q
=

t
y,
t
x
/

t
x,
S
2
y
+R
2
S
2
x
2RS
xy
par la rgression

t
y,R
=

t
y,
+ a(t
x

t
x,
) S
2
y
(1
2
)
Estimateur par la dirence vs. estimateur :
EQM(

t
y,
) EQM(

t
y,D
) =
N(N n)
n
S
2
y

N(N n)
n
(S
2
y
+S
2
x
2S
xy
)
=
N(N n)
n
_
2S
xy
S
2
x
_
.
Lestimateur par la dirence est donc meilleur lorsque
2S
xy
S
2
x
> 0 a >
1
2
.
Estimateur par quotient vs. estimateur :
EQM(

t
y,
) EQM(

t
y,Q
)
N(N n)
n
S
2
y

N(N n)
n
_
S
2
y
+R
2
S
2
x
2RS
xy
_
=
N(N n)
n
_
2RS
xy
R
2
S
2
x
_
.
Lestimateur par le quotient est donc (approximativement ! ! !) meilleur lorsque
2RS
xy
R
2
S
2
x
> 0
_
_
_
a >
R
2
, R > 0,
a <
R
2
, R 0.
Estimateur par le quotient vs. estimateur par la dirence :
EQM(

t
y,D
) EQM(

t
y,Q
)
N(N n)
n
_
S
2
y
+S
2
x
2S
xy
_

N(N n)
n
_
S
2
y
+R
2
S
2
x
2RS
xy
_
=
N(N n)
n
_
(1 R
2
)S
2
x
+ 2(1 R)S
xy
_
.
Lestimateur par le quotient est donc (approximativement ! ! !) meilleur lorsque
(1 R
2
)S
2
x
+ 2(1 R)S
xy
> 0 2(1 R)a > 1 R
2
.
Estimateur par rgression vs. les autres : Cet estimateur est (approximative-
48
6.2 Caractre auxiliaire quantitatif
ment ! ! !) le meilleurs de tous. En eet
EQM(

t
y,
) EQM(

t
y,R
)
N(N n)
n
S
2
y

2
=
2
EQM
_

t
y,
_
0
EQM(

t
y,D
) EQM(

t
y,R
)
N(N n)
n
_

2
S
2
y
+S
2
x
2S
xy
_
=
N(N n)
n
_
S
2
xy
S
2
x
+S
2
x
2S
xy
_
=
N(N n)
n
_
S
2
xy
S
2
x
S
x
_
2
0
EQM(

t
y,Q
) EQM(

t
y,R
)
N(N n)
n
_

2
S
2
y
+R
2
S
2
x
2RS
xy
_
=
N(N n)
n
_
S
2
xy
S
2
x
+R
2
S
2
x
2RS
xy
_
=
N(N n)
n
_
S
xy
S
x
RS
x
_
2
0
Remarque. Il faut tout de mme nuancer le fait que lestimateur par rgression
soit toujours meilleur que les autres estimateurs, puisque ce nest que du calcul
approch. De plus lestimateur par rgression requiert lestimation de la pente a ;
et la variabilit de lestimation de a na pas t prise en compte dans nos calculs.
49
Conclusion
Ce cours est maintenant termin ; jespre quil vous aura plu et que vous aurez ap-
pris beaucoup de choses. Jespre quavec un peu de recul maintenant sur la thorie des
sondages, vous remarquez que les lments thoriques ne sont pas en fait si nombreux et
quainsi la plupart des formules peuvent se retrouver facilement. . .
51