Vous êtes sur la page 1sur 32

Chapitre 5

SONDAGES COMPLEXES

PLAN DU CHAPITRE 5

5.1 SONDAGE EN GRAPPES


5.1.1 Principe
5.1.2 Facteurs intervenant dans le choix d’un sondage en
grappes
5.1.3 Quelques exemples
5.1.4 Dans la population
5.1.5 Tirage PESR des grappes
5.1.6 Grappes de tailles égales
5.1.7 Remarques
5.1.8 Tirage à probabilités proportionnelles à la taille des
grappes

5.2 TIRAGE SYSTEMATIQUE

5.3 SONDAGE A DEUX DEGRES


5.3.1 Principe
5.3.2 Population
5.3.3 Echantillon
1
5.3.4 Tirages PESR aux deux degrés
5.3.5 Tirages PISR aux deux niveaux
5.3.6 Tirage des UP avec probabilités inégales et des US
avec probabilités égales

5.4 SONDAGE A PLUSIEURS DEGRES

5.5 GRAPPES, DEGRES ET STRATIFICATION

2
5.1 SONDAGE EN GRAPPES

L’information auxiliaire n’est pas toujours utilisée pour améliorer


la précision des estimateurs. Elle peut également servir à
améliorer l’organisation d’une enquête et réduire les moyens
nécessaires, comme avec les plans par grappes par exemple.

5.1.1 Principe

• Population U partitionnée en M grappes Ug de tailles


Ng (g = 1, . . . , M )

• Echantillon
 Choix de m grappes parmi les M grappes (PESR,
PISR, . . . )
 Prise en compte de tous les individus des grappes sélectionnées
 Taille de l’échantillon = somme des tailles des m grappes
choisies
3
5.1.2 Facteurs intervenant dans le choix d’un sondage en
grappes

• Inexistence ou déficiences de la base de sondage


Ex. : Si l’on veut sélectionner un échantillon d’individus
d’un pays ou d’une région, on ne dispose généralement
pas d’une liste complète de tous les habitants (sauf
s’il existe un registre national). La liste des communes
(les grappes) est toutefois facile à se procurer. Si les
communes disposent d’une liste exhaustive des habi-
tants, l’application d’un plan par grappes va permettre
de réaliser un sondage sans qu’il soit nécessaire de
construire complètement la base de sondage ni même
de connaı̂tre la taille de la population.
• Nature des données à recueillir
• Considérations de coût
• Considérations de faisabilité

4
5.1.3 Quelques exemples

• Sondages électoraux
• Contrôles par lots
• Etudes médicales
• Etudes de marché
• Enquêtes ”passagers”
Sondage aréolaire : cas particulier du sondage en grappes
où
 la population est définie par rapport à un territoire
géographique
 les grappes sont des unités géographiques ”élémentaires”
ou aires (communes, quartiers, ilôts, . . . )

5
5.1.4 Dans la population

• Population des grappes :


UGR = {U1, U2, . . . , UM } ≡ {1, 2, . . . , M }

• Effectif de U : X
N= Ng
g∈UGR

• Variable d’intérêt : Y

• Valeurs de Y : yi, i ∈ U

• Total de la grappe Ug :
X
τg = yi
i∈Ug

• Moyenne de la grappe Ug :
τg
µg =
Ng

6
• Total de la population :
X X X X
τ= yi = yi = τg
i∈U g∈UGR i∈Ug g∈UGR

(τ peut donc être vu comme le total, dans la population


des grappes, de la variable associant à chaque grappe Ug
son total τg )

• Moyenne de la population :
τ X Ng
µ= = µg
N N
g∈UGR

• Total moyen par grappe :


τ 1 X
µτ = = τg
M M
g∈UGR

(µτ peut donc être vu comme la moyenne, dans la popula-


tion des grappes, de la variable associant à chaque grappe
Ug son total τg )

7
• Variance et variance corrigée de la grappe Ug :
2 1 X
σg = (yi − µg )2
Ng
i∈Ug

2 1 X Ng
σg;corr = (yi − µg )2 = σg2
Ng − 1 Ng − 1
i∈Ug

• Variance et variance corrigée de U :


2 1 X X
σ = (yi − µ)2
N
g∈UGR i∈Ug

2 1 X X
2 N
σcorr = (yi − µ) = σ2
N −1 N −1
g∈UGR i∈Ug

8
5.1.5 Tirage PESR des grappes

a) Définitions
Tirage PESR de m grappes dans UGR et observation de
tous les individus des grappes choisies

• Echantillon des grappes (échantillon aléatoire) : SGR

• Echantillon global (échantillon aléatoire) :


[
S= Ug
g∈SGR

• Taux de sondage des grappes :


m
fGR =
M
• Effectif de l’échantillon (effectif aléatoire) :
X
nS = Ng
g∈SGR

9
b) Probabilités d’inclusion (PESR dans UGR)
Soit i ∈ Ug :
m
pi = P(i ∈ S) = P(g ∈ SGR) = fGR =
M

10
c) Estimateurs
• Population des individus : U = {1, 2, . . . , i, . . . , N }

Taille de U : N

Variable d’intérêt : Y
Y : i ∈ U 7−→ yi
Valeurs de la variable d’intérêt dans U :
{y1, . . . , yN } = {yi; i ∈ U }
Paramètres :
1) Total des valeurs prises par Y dans la population U :
X
τ= yi
i∈U
2) Moyenne des valeurs prises par Y dans la population
U :
τ
µ=
N
11
• Population des grappes : UGR
UGR = {U1, U2, . . . , Ug , . . . , UM } ≡ {1, 2, . . . , g, . . . , M }
(les ”individus” sont les grappes)

Taille de UGR : M

Variable d’intérêt : ”total de Y” - variable qui associe à


chaque grappe le total de Y dans cette grappe
X
g ∈ UGR 7−→ τg = yi
i∈Ug

Valeurs de la variable d’intérêt dans UGR :


{τ1, . . . , τM } = {τg ; g ∈ UGR}

12
Paramètres :
1) Total des valeurs prises par la variable ”total de Y”
dans la population UGR :
X X X
τg = yi
g∈UGR g∈UGR i∈Ug
X
= yi = τ
i∈U

2) Moyenne des valeurs prises par la variable ”total de Y”


dans la population UGR :
1 X τ
τg = = µτ
M M
g∈UGR

• Le sondage en grappes dans la population U n’est autre


qu’un sondage PESR dans la population UGR : SGR est
obtenu par simple tirage PESR de m ”individus” (grappes)
dans la population UGR.

13
P
• Estimateur de τ = g∈UGR τg : estimateur de Horvitz-
Thompson
X τg X τg
τ̂GR = =
P(g ∈ SGR) m/M
g∈SGR g∈SGR

M X
= τg
m
g∈SGR

N.B.) Pour tout g ∈ SGR, τg est connu puisqu’on observe


tous les individus de chacune des grappes sélectionnées.

τ
• Estimateur de µ = N :
τ̂GR M X
µ̂GR = = τg
N mN
g∈SGR

τ
• Estimateur de µτ = M :
τ̂GR 1 X
µ̂τ ;GR = = τg
M m
g∈SGR

(moyenne de la variable d’intérêt ”total de Y” dans l’échantillon


SGR des grappes)

14
d) Remarques

• τg est connu (observé) pour tout g ∈ SGR (puisqu’on


observe tous les individus de la grappe Ug , pour g ∈ SGR)
P
=⇒ g∈SGR τg est la somme de toutes les valeurs de Y
qui seront observées dans l’échantillon S qui sera prélevé
P
• L’effectif nS = Ng est aléatoire :
g∈SGR
 
X
E(nS ) = E  Ng 
g∈SGR
 
X
= E Ng I[g ∈ SGR]
g∈UGR
X
= Ng P(g ∈ SGR)
g∈UGR
X m
= Ng ·
M
g∈UGR
m
= N· = mN
M
où N est la taille moyenne des grappes.

15
e) Variances des estimateurs

cf. sondage aléatoire PESR dans la population UGR des


grappes

(i) Expressions des variances


Définissons
1 X
στ2;corr = (τg − µτ )2
M −1
g∈UGR

(variance corrigée de la variable ”total de Y” dans la po-


pulation UGR des grappes)

2 στ2;corr
• Var(τ̂GR) = M (1 − fGR) m
στ2;corr
 
τ̂GR M2
• Var(µ̂GR) = Var N = N 2 (1 − fGR) m
στ2;corr
 
τ̂GR
• Var(µ̂τ ;GR) = Var M = (1 − fGR) m
La précision des estimateurs dans le cas du sondage en
grappes est d’autant meilleure que
1) m est grand
2) fGR est proche de 1
3) στ2;corr est faible, c’est-à-dire les totaux de Y dans les
grappes sont peu dispersés
16
(ii) Estimateurs des variances
Définissons
1 X
s2τ ;corr = (τg − µ̂τ ;GR)2
m−1
g∈SGR

(variance corrigée de la variable ”total de Y” dans l’échantillon


SGR des grappes)
2
c GR) = M 2(1 − fGR) sτ ;corr
• Var(τ̂ m

M2 s2τ ;corr
• Var(µ̂
c GR) =
N2
(1 − fGR) m
2
c τ ;GR) = (1 − fGR) sτ ;corr
• Var(µ̂ m

17
f) Exemple 1 (Tryfos (1996), p.131)
Afin de contrôler mensuellement la qualité du service fourni à ses
clients, la compagnie Gamma Airlines projette de questionner chaque
mois un certain nombre de personnes sélectionnées aléatoirement parmi
les passagers volant sur Gamma ce mois-là.
Les personnes chargées de mettre au point le sondage pour le mois
prochain sont confrontées à un problème : la compagnie ne sait pas
encore qui seront ses passagers ! Par contre, elle connaı̂t tous les vols
qui sont programmés pour le mois prochain. Bien que certains change-
ments surviendront encore certainement (certains vols seront annulés,
d’autres seront ajoutés), le nombre de ces changements est habituel-
lement relativement faible comparativement au nombre total de vols
programmés. Il semble donc raisonnable d’établir le plan de sondage
sans prendre en compte ces changements éventuels.
Le plan de sondage choisi consiste à sélectionner, par tirage PESR,
un échantillon aléatoire simple de vols dans la liste connue de tous les
vols programmés pour le mois prochain. Tous les passagers de chaque
vol sélectionné recevront un court questionnaire à remplir. Le ques-
tionnaire sera distribué durant le vol par le personnel de bord, qui
reprendra les questionnaires complétés en fin de vol.
Le principal avantage de ce plan de sondage est qu’il ne nécessite pas
de disposer de la liste de tous les passagers du mois prochain.
A titre d’illustration, supposons que 4 des 140 vols programmés en
mars aient été sélectionnés par tirage PESR. A la fin du mois de mars,
on connaı̂t les réponses des passagers à deux des questions posées dans
le questionnaire. Ces deux questions sont :

18
a) Globalement, comment trouvez-vous la qualité du service de Gamma ?
Excellente - Très bonne - Moyenne - Mauvaise
b) Combien de jours le vol sur lequel vous vous trouvez actuellement
vous a-t-il tenu/vous tiendra-t-il absent de chez vous ? . . . jours
Les réponses à ces deux questions sont résumées dans le tableau sui-
vant :
Nombre de Proportion Durée moyenne
g Date/Vol passagers de réponses du voyage
Ng ”Excellent” (en jours)
πg µg
1 08-03/417 60 0.24 2.4
2 15-03/200 45 0.17 2.1
3 16-03/315 128 0.15 3.5
4 25-03/167 80 0.18 2.7

A la fin du mois de mars, la compagnie Gamma Airlines connaı̂t aussi


le nombre total de passagers qui ont emprunté ses vols durant ce mois-
là : ce nombre s’élève à 10 700.
Quelles estimations de la proportion π de passagers trouvant le ser-
vice de Gamma excellent et de la durée moyenne µ du voyage des
passagers empruntant les vols de la compagnie fournissent les données
recueillies ?
N = 10 700
M = 140
m = 4

19

M X M X
µ̂GR = τg = Ng µg
mN mN
g∈SGR g∈SGR

140
= (60(2.4) + 45(2.1) + 128(3.5) + 80(2.7))
4(10 700)
= 2.952
Les passagers de la compagnie Gamma Airlines restent absents de chez
eux durant, en moyenne, un tout petit peu moins de 3 jours (2.952
jours).


M X
π̂GR = Ng π g
mN
g∈SGR

140
= (60(0.24) + 45(0.17) + 128(0.15) + 80(0.18))
4(10 700)
= 0.182
Approximativement 18% des passagers de la compagnie Gamma Air-
lines considèrent que le service fourni par cette compagnie est d’excel-
lente qualité.

20
g) Exemple 2
Supposons que l’on veuille estimer l’âge moyen des 500 000 résidents
d’une ville, ainsi que la proportion de résidents de cette ville qui sont
divorcés.
Chaque habitant de la ville appartient à un ménage comptant 1, 2 ou
plus de 2 membres. On peut dès lors voir la ville considérée comme une
population de ménages plutôt que comme une population d’habitants.
Supposons que la ville compte 150 000 ménages. On décide de mettre
en oeuvre un plan de sondage en grappes (les grappes sont constituées
par les ménages) et de prélever par tirage aléatoire PESR 5 ménages
dans la base de sondage des ménages de la ville. Les données recueillies
suite à l’observation de tous les membres de ces 5 ménages sont re-
prises dans le tableau suivant :

N˚ Nombre de Age total Nombre de


du ménage membres dans des membres membres divorcés
le ménage du ménage dans le ménage
1 2 85 0
2 1 26 1
3 3 60 0
4 2 70 0
5 4 79 1
Total 12 320 2

L’estimation de l’âge moyen des résidents de la ville est


150 000 ∗ 320
= 19.2 ans
5 ∗ 500 000

21
L’estimation de la proportion de résidents divorcés est
150 000 ∗ 2
= 0.12 = 12%
5 ∗ 500 000

22
5.1.6 Grappes de tailles égales

Dans le cas où Ng = N0 pour tout g ∈ UGR = {1, 2, . . . , M } :


• N = M N0
• n = mN0
m mN0 n
• fGR = M = M N0 = N =f
τg
• µg = N0 (g ∈ UGR)
P N0
• µ = g∈UGR N µg
P N0
= g∈UGR M N0 µg
1
P
= M g∈UGR µg

La moyenne de la population est la moyenne arithmétique


des moyennes dans les grappes.

23
a) Estimateur de µ

M X
µ̂GRTE = τg
mN
g∈SGR

M X
= τg car N = M N0
mM N0
g∈SGR

1 X
= τg
mN0
g∈SGR

= y
puisque
P
 g∈SGR τg = somme de toutes les observations dans
l’échantillon S
 mN0 = nombre total d’observations dans l’échantillon
S

24
b) Propriétés

(i) Rapport de corrélation :


2
2 σentre
η = 2
σ
où
1
σ2 = − µ)2
P P
N g∈UGR i∈Ug (yi
= mesure de la dispersion totale de Y dans la population U
et
2
P Ng 2
σentre = g∈UGR N (µ g − µ)
P N0 2
= g∈UGR M N0 (µg − µ)
1 2
P
= M g∈UGR (µ g − µ)
= mesure de la dispersion de Y entre les grappes

η 2 est d’autant plus proche de 1 que
– au sein de chaque grappe, les individus ont un ”profil”
très homogène du point de vue de la variable d’intérêt
Y
– l’hétérogénéité de la population par rapport à la va-
riable d’intérêt Y est bien expliquée par l’hétérogénéité
entre les grappes

25
(ii) Différentes réécritures de Var(µ̂GRTE)
On montre que
M2 στ2;corr
Var(µ̂GRTE) = (1 − fGR)
N2 m
= ...
1−f 1 X
= · (µg − µ)2
m M −1
g∈UGR

1−f M
= · η 2σ 2
m M −1
∼ 1−f 2 2
= η σcorr
m
Cette dernière approximation est valable si N et M sont
grands, N0 est petit (grande population constituée d’un
grand nombre de petites grappes).

Var(µ̂GRTE) est d’autant plus petite que


• f est proche de 1
• m est grand
• σ 2 est petit
• η 2 est petit : la précision de µ̂GRTE est donc d’autant
meilleure que la dispersion de Y entre les grappes est
petite
26
⇒ Le tirage PESR de grappes dans une population
de grappes de tailles égales est d’autant plus efficace
que la dispersion totale de Y dans la population U est
faible et essentiellement expliquée par l’hétérogénéité
des individus au sein des grappes.
N.B.) Il existe un effet de grappe entraı̂nant une perte
de précision due à l’existence fréquente de ressem-
blances entre les individus d’une même grappe.
Var(µ̂GRTE) dépend également du nombre M de grappes
dans la population.

27
c) Effet de sondage

Comparons les tirages GRTE (grappes de tailles égales) et


PESR, dans le cas où N0 est faible et N grand.
(1−f ) 2 (1−f ) 2
Rappel : Var(µ̂PESR) = n σcorr = mN0 σcorr

On a
Var(µ̂GRTE)
D(GRT E |P ESR) =
Var(µ̂PESR)
(1−f ) 2 2
∼ m η σcorr
= (1−f ) 2
= η 2 N0
mN0 σcorr


1
D(GRT E |P ESR) < 1 si η2 <
N0

28
5.1.7 Remarques

Si les grappes sont de tailles inégales, Var(µ̂GR) s’accroı̂t


d’un facteur positif représentant la dispersion des tailles !
On a donc intérêt à ce que les grappes aient toutes plus
ou moins la même taille.

⇒ Conditions favorables pour effectuer un tirage en grappes


(c’est-à-dire pour que Var(µ̂GR) soit faible) :
• Grappes hétérogènes (η 2 << 1), de faibles tailles,
nombreuses, de tailles voisines
• Tirer un maximum de grappes (m grand, fGR proche
de 1)
• Avoir les τg les moins dispersés possibles (στ2;corr faible)

29
5.1.8 Tirage à probabilités proportionnelles
à la taille des grappes

Tirage sans remise d’un nombre fixe m de grappes, avec


des probabilités de sélection des grappes proportionnelles
à leurs tailles (PISR)

a) Probabilités d’inclusion
Probabilité d’inclusion de la grappe Ug :
P(g ∈ SGR) = cNg .
Or, il faut que
X
P(g ∈ SGR) = m = taille de l’échantillon des grappes.
g∈UGR

Par conséquent,
P
g∈UGR cNg = m
P
⇒ c g∈UGR Ng = m
⇒ c = P m Ng = N m
g∈UGR
N
⇒ P(g ∈ SGR) = m Ng

Ng
N.B.) On suppose que m N ≤ 1 pour tout g ∈ UGR

30
b) Taille de l’échantillon
La taille de l’échantillon est toujours aléatoire :
P 
E(nS ) = E g∈SGR Ng
P 
= E g∈UGR Ng I[g ∈ SGR ]
P
= g∈UGR Ng P(g ∈ SGR )
P mNg
= g∈UGR N g N
m 2
P
= N g∈UGR Ng
≥ mN
où mN est la taille moyenne de l’échantillon S dans le cas
du tirage PESR de m grappes.

31
c) Estimation de µ
P τg P τg
τ̂HT = g∈SGR P(g∈SGR ) = g∈SGR mNg
N
N
P τg N
P
= m g∈SGR Ng = m g∈SGR µg
τ̂HT 1
P
⇒ µ̂HT = N = m g∈SGR µg
= moyenne arithmétique des moyennes des grappes
sélectionnées pour l’échantillon

Ce plan de sondage possède de bonnes propriétés. Cepen-


dant, pour pouvoir l’appliquer, il faut connaı̂tre les tailles
de toutes les grappes dans la population. De plus, pour
le même nombre de grappes sélectionnées, il fournit un
échantillon qui a en moyenne un nombre d’unités d’obser-
vation supérieur à la taille moyenne de l’échantillon fourni
par le plan à probabilités égales.

32