Vous êtes sur la page 1sur 113

Enqutes et sondages

Cours de Master 2
Florian HECHNER
florian.hechner@hotmail.fr
27 juin 2011

Avant-propos
Ces notes sont celles du cours intitul enqutes et sondages que jai donn au premier
semestre de lanne universitaire 20092010 la fois pour les tudiants en deuxime anne
de Master Mathmatiques et applications, spcialit Statistique et pour les tudiants en
deuxime anne de Master Finances, spcialit Actuariat et gestion de risque tous deux
lUniversit de Strasbourg.
Le cours sappuie essentiellement sur celui donn les annes prcdentes par Myriam
Maumy-Bertrand, dont les transparents sont disponibles sur
www-irma.u-strasbg.fr/~mmaumy
En particulier, le plan est permutation prs celui adopt prcdemment. Les exercices et
leurs corrigs sont directement ceux des annes prcdentes. Ils sont galement disponibles
sur la page personnelle de Mme Maumy-Bertrand.

Ce cours est trs certainement incomplet, et prsente au-moins deux dfauts majeurs :
il manque quelque peu dexemples et il souffre de labsence dune partie dinformatique
avec prsentation des algorithmes courants dchantillonnage. Ces deux manques sont lis
ce qui est lune des spcificits des enqutes : les chantillons sont gnralement assez
grands, ce qui rend presque obligatoire lutilisation dun moyen de calcul automatique, et
lorganisation de lenseignement ne prvoit pas dautre outil quune calculatrice, ce qui
nest pas trs pratique !
Vous pouvez madresser vos critiques, remarques, commentaires, suggestions. . . par courriel
florian.hechner@hotmail.fr
Vous trouverez une page derrata et la version mise jour de ce cours sur ma page personnelle
www-irma.u-strasbg.fr/~hechner

Bibliographie commente
Les ouvrages sur les sondages ne manquent pas : point de vue mathmatique, sociologique,
conomique, politique. . . sont diffrentes facettes de cette matire. Nous nous concentrons
bien sr sur la partie mathmatique. Vous trouverez un certain nombre de livres dans la
bibliographie en fin de polycopi, certains ny figurant qu titre de curiosit. Les principaux
ouvrages consulter absolument sont ceux cits ci-aprs :
Le point de vue adopt dans ce cours est essentiellement celui de Till, dont lexcellent
manuel [11] est la principale source dinspiration. Le principe des diffrents sondages y est
fort bien expliqu, et le livre contient de nombreux exercices parfois corrigs.
Louvrage de Grosbras [9], qui constituait la base du cours de Mme Maumy-Bertrand
est galement un excellent manuel, souvent plus complet encore que celui de Till (il
prsente plus frquemment les rsultats obtenus dans le cas de tirages avec remise, et
insiste galement davantage sur les aspects pratiques et non mathmatiques du sondage).
Nanmoins il souffre mes yeux dune typographie plus ancienne et donc dune plus grande
difficult tre lu ! Le livre dexercices [5] avec des indications de corrig en est un bon
complment.
Le livre dArdilly [1] prsente de faon trs dtaille les techniques de sondage, avec de
nombreux exemples et commentaires. Lauteur a galement crit le livre dexercices corrigs
[2] dont beaucoup dexercices des feuilles de TD sont tirs.
Je recommande trs vivement la lecture du petit livre [6] de la collection que sais-je, qui
contient, en peu de pages, une grande partie de la thorie (bien sr sans les preuves).
Enfin, le livre de Garrigou [7] est galement lire. Il ne sagit point ici de mathmatiques,
mais dune critique acerbe de la faon dont les instituts de sondage agissent, et des rsultats
auxquels ils arrivent.

Table des matires


Avant-propos

Bibliographie commente

Gnralits

11

0 Rappels sur lestimation


0.1 Introduction . . . . . . . . . . . . . .
0.2 Dfinitions . . . . . . . . . . . . . . .
0.3 Proprits dun estimateur . . . . . .
0.3.1 Convergence dun estimateur .
0.3.2 Biais dun estimateur . . . . .
0.3.3 Dispersion dun estimateur . .
0.4 Exemples . . . . . . . . . . . . . . .
0.4.1 Estimation dune moyenne . .
0.4.2 Estimation dune variance . .
0.4.3 Estimation dune proportion .
0.4.4 Estimation dun ratio . . . . .
0.5 Distribution dun estimateur . . . . .
0.5.1 Cas dun chantillon gaussien
0.5.2 Cas dun grand chantillon . .
0.6 Intervalles de confiance . . . . . . . .
0.6.1 Principe gnral . . . . . . . .
0.6.2 Exemples . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

13
13
14
15
15
15
16
17
17
17
18
18
19
19
19
20
20
21

1 Introduction aux mthodes de sondage


1.1 Quelques exemples . . . . . . . . . . . .
1.2 Un bref historique . . . . . . . . . . . . .
1.3 Objectifs, vocabulaire et notations . . . .
1.3.1 Population, base de sondage . . .
1.3.2 Variable dintrt . . . . . . . . .
1.3.3 chantillon . . . . . . . . . . . .
1.3.4 Enqute, recensement et sondage

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

23
23
24
24
24
26
27
28

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

TABLE DES MATIRES

1.4
1.5

1.6

1.7

II

1.3.5 Simplification, chantillon (bis) . . . . . . . . . . . .


1.3.6 Sources derreur . . . . . . . . . . . . . . . . . . . . .
1.3.7 Le processus complet . . . . . . . . . . . . . . . . . .
Les mthodes de sondage . . . . . . . . . . . . . . . . . . . .
Outils mathmatiques spcifiques . . . . . . . . . . . . . . .
1.5.1 Tirages sans remise . . . . . . . . . . . . . . . . . . .
1.5.2 Tirages avec remise . . . . . . . . . . . . . . . . . . .
1.5.3 Comparaison des mthodes . . . . . . . . . . . . . .
Le -estimateur . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.1 Biais du -estimateur . . . . . . . . . . . . . . . . . .
1.6.2 Variance du -estimateur . . . . . . . . . . . . . . . .
1.6.3 Estimation de la variance du -estimateur . . . . . .
1.6.4 Distribution du -estimateur, intervalles de confiance
Lestimateur de Hjek . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

Les mthodes dchantillonnage

2 Sondage alatoire simple


2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Sondage alatoire simple avec remise . . . . . . . . . . .
2.2.1 Estimation de la moyenne . . . . . . . . . . . . .
2.2.2 Estimation du total . . . . . . . . . . . . . . . . .
2.2.3 Estimation de la variance . . . . . . . . . . . . .
2.2.4 Remarque . . . . . . . . . . . . . . . . . . . . . .
2.2.5 Plan simple avec remise et conservation des units
2.3 Sondage alatoire simple sans remise . . . . . . . . . . .
2.3.1 Estimation de la moyenne . . . . . . . . . . . . .
2.3.2 Estimation du total . . . . . . . . . . . . . . . . .
2.3.3 Estimation de la variance . . . . . . . . . . . . .
2.3.4 Estimation dun ratio . . . . . . . . . . . . . . . .
2.4 Comparaison des prlvements avec et sans remise . . . .
3 Sondage
3.1 Tirage
3.1.1
3.1.2
3.1.3
3.1.4
3.2

30
32
32
33
34
34
36
36
37
37
38
39
40
41

43
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
distinctes
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

probabilits ingales
probabilits ingales avec remise . . . . . . . . . . . . . . . . . . .
Estimation dune moyenne . . . . . . . . . . . . . . . . . . . . . . .
Estimation dun total . . . . . . . . . . . . . . . . . . . . . . . . . .
Choix des Pi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Comparaison avec les sondages alatoires simples probabilits gales
avec remise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sondage alatoire simple probabilits ingales sans remise . . . . . . . . .
3.2.1 Estimation dune moyenne . . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Estimation dun total . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 Un exemple de calcul de probabilits dinclusion . . . . . . . . . . .

45
45
46
47
48
49
49
50
51
51
53
53
54
55
57
58
58
59
59
59
60
60
61
61

TABLE DES MATIRES


4 Sondage stratifi
4.1 Principes et objectifs . . . . . . . . . . . .
4.2 Dfinitions et notations . . . . . . . . . . .
4.3 Les formules de sondage . . . . . . . . . .
4.3.1 Probabilits dinclusion . . . . . . .
4.3.2 Estimateur de la moyenne . . . . .
4.3.3 Estimateur du total . . . . . . . . .
4.4 Sondage stratifi proportionnel . . . . . . .
4.5 Comment choisir les strates ? . . . . . . . .
4.6 Rpartition de Neyman . . . . . . . . . . .
4.7 Un exemple . . . . . . . . . . . . . . . . .
4.7.1 Une allocation choisie au pif . . . .
4.7.2 Avec une allocation proportionnelle
4.7.3 Avec une allocation optimale . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

5 Sondage par grappes


5.1 Principes et notations . . . . . . . . . . . .
5.2 Cas gnral . . . . . . . . . . . . . . . . . .
5.3 Tirage des grappes probabilits gales . . .
5.3.1 Cas gnral . . . . . . . . . . . . . .
5.3.2 Cas de grappes de taille fixe . . . . .
5.4 Tirage proportionnel aux tailles des grappes
6 Sondage plusieurs degrs
6.1 Principe et notations . . . . . . . . . .
6.1.1 Gnralits . . . . . . . . . . .
6.1.2 Notations . . . . . . . . . . . .
6.1.3 Probabilits dinclusion . . . . .
6.2 Le -estimateur . . . . . . . . . . . . .
6.3 Le cas des tirages probabilits gales

III

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

63
63
64
65
65
66
67
68
69
70
72
72
72
72

.
.
.
.
.
.

75
75
77
78
78
78
79

.
.
.
.
.
.

81
81
81
82
83
84
87

Les mthodes de redressement

89

7 Stratification a posteriori
7.1 Le principe . . . . . . . . . . . . . . . . . . .
7.2 Les formules . . . . . . . . . . . . . . . . . . .
7.2.1 Estimateur de la moyenne . . . . . . .
7.2.2 Estimateur du total . . . . . . . . . . .
7.3 Comparaison avec un sondage alatoire simple
7.4 Redressement sur critres multiples . . . . . .

91
91
91
92
92
94
96

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

10

TABLE DES MATIRES

8 Estimation par le quotient


8.1 Principe et notations . . . . . . . . . . . . . . . . . .
8.2 La mthode destimation par la diffrence . . . . . .
8.3 La mthode destimation par le quotient . . . . . . .
8.3.1 Biais de lestimateur et risque quadratique . .
8.3.2 Comparaison avec un sondage alatoire simple
8.4 La mthode destimation par la rgression . . . . . .
8.5 Comparaison des mthodes . . . . . . . . . . . . . . .
A Ralisation informatique
A.1 Mthode de tirage systmatique avec remise
A.2 Mthodes de tirage sans remise . . . . . . .
A.2.1 Cas du tirage probabilits gales . .
A.2.2 Cas des tirages probabilits ingales

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

99
99
100
100
101
102
103
103

.
.
.
.

107
107
107
107
108

B Les dveloppements limits en probabilit

109

Bibliographie

113

Premire partie
Gnralits

11

Chapitre 0
Rappels sur lestimation
0.1

Introduction

Le problme de lestimation est li limpossibilit de connatre la valeur (dite souvent


vraie valeur) dun paramtre inconnu. Il sagit de lun des principaux problmes statistiques, qui a de nombreux aspects diffrents.
Gnralement, on dispose de n observations x1 , . . . , xn dont on suppose quelles forment des
observations dune variable alatoire (v.a.) X, dont la loi P (inconnue) dpend de . Autrement dit, on dote la nature dun modle probabiliste. La manire dont les observations ont
t recueillies constitue un modle dchantillonnage, ce qui fera lobjet dune grande partie
de ce cours. Lensemble form par un modle probabiliste et un modle dchantillonnage
est souvent appel modle statistique.
Dans ce chapitre, nous allons chercher construire, partir des observations xi , une quantit approchant , qui sera appele estimation de .
Le cas le plus simple est celui dans lequel les n observations sont indpendantes. On
peut alors observer le problme sous un angle diffrent et considrer que chacune des
observations xi est en fait la ralisation dune variable alatoire Xi , les variables (Xi )16i6n
tant indpendantes de mme loi que X. On dit que les v.a. (Xi ) sont indpendantes,
identiquement distribues (en abrg que ce sont des v.a. i.i.d.). On dit galement que
(Xi )16i6n forme un chantillon alatoire (simple) de taille n, ou encore un n-chantillon.
Enfin, on peut galement dire que les Xi sont des copies indpendantes de X.
On peut alors chercher construire une fonction des (Xi ) dont chaque ralisation sera une
estimation de . Une telle v.a. est un estimateur de .
Bien videmment, compte-tenu des dfinitions introduites jusqu prsent, il est facile
de construire des estimateurs (ou estimations), et il va falloir dfinir les qualits attendues
pour quun estimateur soit bon.
13

14

CHAPITRE 0. RAPPELS SUR LESTIMATION

Une autre approche consiste fournir non pas une estimation de mais un intervalle
(alatoire) contenant avec une forte probabilit. Un tel intervalle est appel intervalle de
confiance pour .
Nous allons commencer par donner quelques dfinitions plus rigoureuses, puis les proprits
qui font quun estimateur est bon. Nous donnerons ensuite quelques exemples (en pratique,
pour les sondages, seules moyennes et variances nous intresseront). Ltude de ces exemples
se poursuivra par ltude de la loi suivie par les estimateurs usuels. Enfin, nous conclurons
par la construction dintervalles de confiance, en particulier pour une moyenne.

0.2

Dfinitions

Soit un paramtre inconnu dfini au sein dune population et lensemble des valeurs
possibles du paramtre . Soit X une v.a. dont la loi P dpend de .
Dfinition 0.2.1 :
Soit (X1 , . . . , Xn ) un n-chantillon de loi celle de X. On appelle estimateur de toute
fonction (mesurable) b de lchantillon :
b := h(X1 , . . . , Xn ).
Remarquons que b est ici une variable alatoire dont la loi dpend du paramtre inconnu.
Dfinition 0.2.2 :
Une fois lchantillon prlev, on dispose de n-observations x1 , . . . , xn . Lvaluation
de lestimateur en (x1 , . . . , xn ) est alors appele estimation de :
b := h(x1 , . . . , xn ).
On rencontre l une difficult de notations : en gnral, on note les v.a. par des majuscules,
et leurs ralisations par des minuscules. Cela nest pas vrai ds que lon travaille avec des
lettres grecques, ce qui est gnralement le cas pour les estimateurs ! ! Il convient donc
de faire attention lobjet avec lequel on travaille (v.a. ? rel ?), dautant plus que la
convention nest pas toujours respecte, mme quand elle pourrait ltre (et mme par
moi !)
Bien sr, il est important de disposer de critres objectifs permettant de choisir un estimateur, et de ne pas se fier sa seule intuition. Ces proprits attendues font lobjet du
paragraphe suivant.

15

0.3. PROPRITS DUN ESTIMATEUR

0.3

Proprits dun estimateur

Prcisons quun estimateur dpendant des (Xi )16i6n , il dpend en particulier de la taille
b n soit souvent
n de lchantillon. On ne stonnera donc pas que la suite destimateurs ()
identifie lestimateur lui-mme. . .

0.3.1

Convergence dun estimateur

La premire bonne proprit que lon peut attendre dun estimateur est quil sapproche
de la vraie valeur de quand la taille n de lchantillon tend vers +.
Dfinition 0.3.1 :
Un estimateur b dun paramtre est dit convergent sil converge en probabilit vers
quand la taille de lchantillon tend vers +.
Il est peut-tre ncessaire de rappeler ici la dfinition de la convergence en probabilit :
Dfinition 0.3.2 :
Une suite (Zn ) de v.a. converge en probabilit vers une v.a. Z si
> 0, N, n > N, P(|Zn Z| > ) 6 .
Un outil souvent efficace pour montrer la convergence en probabilit est lingalit de
Bienaym-Tchebychev :
Proposition 0.3.3 :
Soit X une v.a. admettant un moment dordre 2. Alors
> 0, P(|X EX| > ) 6

Var X
.
2

Le corollaire suivant est quelque peu anticip, mais comme il sagit dun chapitre de rappels :
Corollaire 0.3.4 :
Un estimateur sans biais dont la variance tend vers zro est convergent.

0.3.2

Biais dun estimateur

Le bon sens impose galement que lestimateur ne soit, n fix, pas trop loin de la vraie
valeur. On peut par exemple sattendre ce que lestimateur ait sa loi centre sur le
paramtre inconnu.

16

CHAPITRE 0. RAPPELS SUR LESTIMATION

Dfinition 0.3.5 :
On dit quun estimateur b dun paramtre est un estimateur sans biais de (ou
quil est non biais) si :
Eb = .
De faon plus gnrale, on dfinit le biais dun estimateur :
Dfinition 0.3.6 :
On appelle biais dun estimateur b du paramtre la quantit :
b := Eb .
B()
Il est rassurant de voir quun estimateur sans biais a un biais nul. . .
Signalons enfin quun estimateur est dit asymptotiquement sans biais si son biais tend vers
0 lorsque la taille de lchantillon tend vers +.

0.3.3

Dispersion dun estimateur

Il est enfin ncessaire dvaluer la prcision de lestimateur, cest--dire, dans lidal, la


b On prfre agir sur lestimateur ,
b qui tant
quantit |b | pour chaque estimation .
une variable alatoire, amne regarder une quantit de la forme E|b |. Travailler avec
des valeurs absolues ntant pas trs pratique, on prfre gnralement utiliser une autre
distance (tout comme on travaille gnralement avec la distance euclidienne dans le plan)
2
et considrer la quantit E|b | . Dveloppant le carr, on observe que :

2
2
b + (Eb ) = (b E)
b 2 + (Eb )2 + 2(b E)(E
b b )
(b ) = (b E)
Prenant lesprance de ces quantits, il vient (quels sont les termes alatoires ?) :
2
b 2 + (Eb )2 + 2(Eb E)(E
b b ) = Var b + (B())2 + 0
E(b ) = E(b E)

Ce qui conduit la dfinition :


Dfinition 0.3.7 :
Soit b un estimateur de . On appelle cart quadratique moyen de b ou risque quadratique la quantit :
b := E(b )2 = Var b + (B())2 .
EQM ()
Remarquons que lcart quadratique moyen dun estimateur sans biais nest rien dautre
que sa variance.
Remarque 0.3.8 :
Entre deux estimateurs dun paramtre , on choisit celui dont lcart quadratique
est le plus faible.

17

0.4. EXEMPLES
Dfinition 0.3.9 :
Un estimateur b1 est dit relativement plus efficace quun estimateur b2 si
EQM (b1 ) 6 EQM (b2 ).
Passons prsent aux exemples classiques.

0.4

Exemples

Dans toute cette partie, on se placera dans le cas de n-chantillons alatoires simples :
(Xi )16i6n est une suite de copies indpendantes de X. (On supposera le cas chant que
X admet un moment dordre suffisant pour les dmonstrations.)

0.4.1

Estimation dune moyenne

On cherche ici estimer la moyenne de la v.a. X, := = EX.


Dfinition 0.4.1 :
On appelle moyenne empirique de X1 , . . . , Xn la quantit :
X :=
b :=
On note x :=
bobs :=

x1 ++xn
n

X1 + + Xn
.
n

la moyenne empirique observe.

Proposition 0.4.2 :

b est un estimateur sans biais et convergent de .


Dmonstration faire en exercice!

0.4.2

Estimation dune variance

On cherche ici estimer la variance de la v.a. X : 2 := Var X.


Dfinition 0.4.3 :
On appelle variance empirique de X1 , . . . , Xn la quantit :
n

1X
S2n := S2 :=
(Xi
b)2 =
n i=1

1X 2
X
n i=1 i

b2 .

On appelle variance empirique corrige de X1 , . . . , Xn la quantit :


n

S2n,c := S2c :=

1 X
n
(Xi
b)2 =
S2 .
n 1 i=1
n1

18

CHAPITRE 0. RAPPELS SUR LESTIMATION

Dmonstration faire en exercice!

Proposition 0.4.4 :
S2c est un estimateur sans biais de 2 , S2 est asymptotiquement sans biais, et S2 est
plus efficace que S2c .
Dmonstration faire en exercice!

Remarque 0.4.5 :
titre dexercice (plus long), vous pouvez montrer que Var S2
=
4
n1
4
((n 1)4 (n 3) ), o 4 := E(X ) est le moment centr dordre
n3
4 de X, et donc que S2c et S2 sont convergents.

0.4.3

Estimation dune proportion

Pour estimer la proportion p dindividus ayant (


une certaine proprit, on considre en
1 si lindividu i a la proprit voulue
gnral les variables alatoires indicatrices : Xi :=
0 sinon.
Ainsi, Xi suit une loi B(p) et on se ramne au problme de lestimation dune moyenne.

0.4.4

Estimation dun ratio

Il peut arriver que lon cherche estimer un ratio, cest--dire une quantit de la forme
X
,
R :=
Y
o X et Y sont les moyennes de deux v.a. X et Y.
Si c
c
X et
Y sont respectivement des estimateurs de X et Y , alors un estimateur naturel
de R est
X
b := c
.
R
c
Y
Les calculs de biais et de variance sont dlicats, car on cherche estimer un quotient de
variables alatoires, et la prsence dune variable alatoire au dnominateur complique les
choses. On est amens utiliser des dveloppements limits pour rgler le problme ! On
crit :
c
c
c
Y R
X
Y R
X
b R = c
R
=
,
c
X (1 + )
X
X
o := cX
. Selon le choix de lestimateur c
X , on peut considrer que quand n est grand
X
est petit ( peut tendre vers 0 en probabilit), et on peut alors faire un dveloppement
limit, et crire le biais de la faon suivante :


c
c
Y R
X
2
b
E(R R) = E
.(1 + . . .) .
X

19

0.5. DISTRIBUTION DUN ESTIMATEUR

0.5

Distribution dun estimateur

Il est important, pour pouvoir faire des calculs de probabilits, (et a fortiori pour la
construction dintervalles de confiance qui fera lobjet de la dernire partie du chapitre) de
connatre la loi suivie par les estimateurs considrs. En pratique, le statisticien sait mener
bien les calculs dans essentiellement deux cas :
Si X suit une loi normale (dite aussi gaussienne).
Si lchantillon est de taille grande (n > 30).
Dans le second cas, on emploie gnralement le thorme de la limite centre (dit aussi
thorme central limite) :
Thorme 0.5.1 :
Soit (Yi ) une suite de v.a. indpendantes, admettant une mme esprance et une
mme variance 2 . Notons, pour tout n, Zn := Y1 + . . . + Yn la n-ime somme
partielle de la suite (Yi ). Alors la quantit
Zn n
Yn

=
=

n
n
n
converge en loi vers une v.a. Z suivant une loi normale centre rduite quand n
+.
Remarque 0.5.2 :
En pratique, si n > 30 (ou parfois 50), on identifie

0.5.1

Z
n n
n

et la v.a. limite Z.

Cas dun chantillon gaussien

Proposition 0.5.3 :
Si X suit une loi normale, alors :
b
suit une loi normale centre rduite.

nS2
2 suit une loi 2n1 .


b et S2 sont
indpendants.
Tn1 := n 1 b
suit une loi de Student tn1 .
S
Dmonstration faire en exercice!

0.5.2

Cas dun grand chantillon

Appliquant le thorme central limite (et la remarque 0.5 qui le suit), on a :

20

CHAPITRE 0. RAPPELS SUR LESTIMATION

Proposition 0.5.4 :
Si n est suffisamment grand, alors :

b
suit approximativement une loi normale centre rduite.

S 2
4 4 suit approximativement une loi normale centre rduite.

Dmonstration faire en exercice!

0.6

Intervalles de confiance

Lestimation que nous avons considre jusqu prsent est lestimation ponctuelle : on
donne une valeur b estimant la vraie valeur . Il est souvent plus agrable de disposer
dun encadrement de la vraie valeur , dautant plus que lon peut alors construire des
procdures permettant de connatre le risque derreur.
On cherche donc fournir un intervalle a 6 6 b, un intervalle de confiance.

0.6.1

Principe gnral

Pour cela, la stratgie est toujours la mme. On suppose quon a trouv un estimateur b
de dont on connat la loi de probabilit pour chaque valeur de . On se fixe un risque a
priori. (Gnralement, = 5%.) On commence par construire un intervalle de probabilit
de niveau 1 pour b :
Dfinition 0.6.1 :
On appelle intervalle de probabilit de niveau 1 pour b un intervalle [a1 , a2 ] tel
que
P(a1 6 b 6 a2 ) > 1 .
(si possible = 1 .)
Remarque 0.6.2 :
videmment, a1 et a2 dpendent de .
En pratique, on choisit souvent un intervalle risque symtrique.
On cherche pivoter la relation pour obtenir un intervalle de confiance :
Dfinition 0.6.3 :
On appelle intervalle de confiance de niveau 1 ou au risque pour un intervalle
b vrifiant :
alatoire [1 , 2 ] (i.e. 1 et 2 sont deux v.a., construites partir de )
P(1 6 6 2 ) > 1 .

0.6. INTERVALLES DE CONFIANCE


Remarque 0.6.4 :
Par simplicit, on appelle aussi intervalle de confiance la ralisation dun tel intervalle.
Cependant, il est alors faux de dire que si (y1 , y2 ) forment une ralisation de (1 , 2 ),
P(y1 6 6 y2 ) > 1 , lvnement {y1 6 6 y2 } tant soit de probabilit 1, soit
0!
Il est plus juste de dire que si on value n (n trs grand) ralisations dun intervalle
de confiance, la proportion de ceux dentre-eux qui contiendront la vraie valeur est
environ 1 .
Remarque 0.6.5 :
Plus diminue, plus la longueur de lintervalle augmente.
A priori, plus n augmente, plus la longueur de lintervalle diminue (cest du moins
vrai si b est convergent).

0.6.2

Exemples

Donnons les exemples usuels. Les dmonstrations sont laisses en exercice.


Exemple 0.6.6 :
Un intervalle de confiance pour la moyenne dune v.a. X de loi gaussienne est donn
par :

b u/2 si est connu.


n
et par
S2

b tn1,/2 c si est inconnu.


n
o u/2 et tn1,/2 sont respectivement les quantiles dordre 1 /2 dune loi normale
centre rduite et dune loi de Student n 1 degrs de libert.
Exemple 0.6.7 :
Daprs le thorme central limite, les intervalles prcdents sont encore valables si la
taille de lchantillon est assez grande. Le premier suffit dailleurs car quand n +,
tn1 N (0, 1).
Exemple 0.6.8 :
Un intervalle de confiance pour la variance 2 dune v.a. X de loi gaussienne est
donn par :

 2
nS nS2
,
,
k2 k1
o k1 et k2 sont les bornes dun intervalle de probabilit bien choisi dune loi 2n .

21

22

CHAPITRE 0. RAPPELS SUR LESTIMATION

Chapitre 1
Introduction aux mthodes de sondage
1.1

Quelques exemples

Tout le monde croit bien connatre la notion de sondage. Pourtant, leur champ dapplication
est bien plus vaste que ce que lon peut croire. Les sondages dopinion ne sont quune petite
partie des sondages pratiqus !
Le mot sonder apparat ds 1342. En 1559, il est dfini comme chercher pntrer (par
Amyot [les vies des hommes illustres. . . ]). Le terme sondage narrive que deux sicles
plus tard, mais dans le mme sens.
Aujourdhui encore, la recherche de gisements ptroliers seffectue par sondage. Mais le
terme dsigne prsent plus gnralement une technique statistique permettant de raliser
des enqutes dans des conditions contrles, sur des sous-ensembles de la population, qui
sont dsigns soit au hasard, soit en fonction de caractristiques particulires. On peut par
exemple citer :

les calculs dindices (des prix la consommation, du cot de la construction. . . ) ;


la vrification dune comptabilit dentreprise, ou les contrles fiscaux ;
les contrles de qualit dans les usines ;
les contrles antidopages (sauf chez Astana. . . ) ;
les calculs daudience des missions tl ou radio ;

qui se font gnralement en utilisant au-moins partiellement des techniques de sondage.


Aujourdhui, en France, plusieurs centaines dentreprises prives ralisent des sondages.
Signalons que le seul organisme public ralisant des sondages est lINSEE (Institut National
de la Statistique et des tudes conomiques). Cet institut public assure entre-autre des
sondages dcids par le CNIS (Conseil National de lInformation Statistique), et quil est
interdit de se soustraire certains dentre-eux !
23

24

1.2

CHAPITRE 1. INTRODUCTION AUX MTHODES DE SONDAGE

Un bref historique

On trouve dj trace de recensements dans la civilisation sumrienne (avant 2000 av J.C.),


mais aussi en gypte, en Chine, dans lEmpire Inca. . . Lobjectif est dvaluer la puissance de ltat : population, revenus, puissance militaire. . . En France, le 13me sicle voit
lavnement de dispositifs gnraliss de collecte de statistiques administratives.
Au 18me sicle, lcole darithmtique politique, fonde en Angleterre par John Graunt
et William Petty procde des enqutes sur une partie seulement de la population et
extrapole les rsultats. Lapparition des premiers rsultats de la thorie de probabilits
renforce lintrt pour ces mthodes, et Laplace sintresse au sujet dans un mmoire de
1783.
En 1895, le norvgien Kiaer prsente lInstitut International de Statistique les fondements du concept de reprsentativit dun chantillon. Aprs 1925, la thorie des sondages
fait lobjet de nombreux travaux (Bowley, Bortkiewicz, Tchupurow (1925) ; Jerzy Neyman
(1934) ; Horvitz et Thompson (1952) ; Dalenius (1957). . . ) qui sintressent au choix dun
chantillon.
Les premiers sondages dopinion remontent au 19me sicle aux tats-Unis, et la mthode
des quotas a t employe ds 1936, o trois sondages utilisant cette mthode ont prdit
la victoire de F.D. Roosevelt. En France, lIFOP est cre en 1938, lINSEE en 1946 .

1.3
1.3.1

Objectifs, vocabulaire et notations


Population, base de sondage

Dfinition 1.3.1 :
On considre une population de rfrence U (parfois appele univers) de taille N .
Les lments u1 , . . . , uN de cette population sont appels units statistiques ou units
dobservation, ou encore individus.

Remarque 1.3.2 :
Il est trs important de dfinir trs prcisment la population de rfrence avant de
dbuter une enqute !

1.3. OBJECTIFS, VOCABULAIRE ET NOTATIONS


Exemples 1.3.3 :
1. Lensemble des touristes dun pays ;
2. lensemble des mnages dun pays ;
3. la production de pices mcaniques dune usine
sont trois exemples de population.

Dfinition 1.3.4 :
On suppose quil existe, pour chaque individu de la population, une information
permettant de le reprer prcisment sans aucune ambigut. On suppose galement
quil existe une liste exhaustive de toutes les units dobservation, appele base de
sondage.

Proposition 1.3.5 :
Une base de sondage doit avoir les bonnes proprits suivantes :
1. permettre de reprer lunit sans ambigut ;
2. tre exhaustive : chaque unit de la population de rfrence doit tre rpertorie,
faute de quoi on a une base de sondage incomplte. On parle alors de dfaut de
couverture. (On peut dans une certaine mesure traiter ce problme.)
3. tre sans compte double : un individu ne doit tre prsent quune seule fois dans
la base.
Autrement dit, il est souhaitable davoir une bijection entre la base et la population !

Remarque 1.3.6 :
Si possible, on essaye de conserver toute linformation auxiliaire dont on dispose sur
la base. Ceci est important pour pouvoir redresser les donnes, comme nous le verrons
dans ce cours.

Remarque 1.3.7 :
Dans la suite, on disposera toujours dune base de sondage, et on reprsentera chaque
individu par un numro compris entre 1 et N , son identifiant. On parlera gnralement
de lindividu i et non pas de lindividu ui comme on devrait le faire.

25

26

CHAPITRE 1. INTRODUCTION AUX MTHODES DE SONDAGE

Remarque 1.3.8 :
Dans la pratique, il est trs difficile davoir une bonne base de sondage, alors que
cest primordial : lannuaire tlphonique manque dexhaustivit, prsence de comptes
doubles ; les listes lectorales ont un dfaut de couverture encore plus important. . .
En labsence de base de sondage, ou si celle-ci est trop importante pour que lon
puisse lutiliser, on peut avoir recours des sondages empiriques, des sondages
plusieurs degrs. . . Nous reparlerons de tout a.

1.3.2

Variable dintrt

Lobjet du sondage porte sur un caractre X, appel plus souvent variable dintrt. (Attention ! ce nest pas une variable alatoire !)
Dfinition 1.3.9 :
On considre un caractre X aussi appel variable dintrt, dfini pour chaque individu de la population, et formalisant linformation qui nous intresse. La valeur prise
par cette variable sur lindividu numro i est note Xi .
Le vecteur (X1 , . . . , XN ) est parfois appel vecteur paramtre.
Remarque 1.3.10 :
Un individu i tant fix, la quantit Xi nest PAS alatoire ! Tout lala du sondage
rside dans le choix de lindividu : on peut choisir ou non lindividu i.
Exemples 1.3.11 :
Revenons aux exemples prcdents. On peut considrer :
1. le budget X dpens par un touriste ;
2. le revenu X du mnage ;
3. la variable X qui indique si une pice est dfectueuse ou non.
Remarque 1.3.12 :
Les variables dintrt peuvent tre quantitatives, comme dans les deux premiers
exemples, qualitatives, dichotomiques, comme cest le cas dans le troisime. . . Pour le
troisime exemple, on considre en pratique la variable indicatrice qui vaut 1 si la pice
est dfectueuse et 0 sinon qui permet de la traiter comme une variable quantitative.
Dans toute la suite du cours, la variable tudie sera quantitative pour simplifier la
prsentation.

1.3. OBJECTIFS, VOCABULAIRE ET NOTATIONS

27

Remarque 1.3.13 :
Lobjectif du sondage nest pas de collecter des informations sur les units, mais
destimer une fonction dintrt, qui rsume linformation :
:= (X1 , . . . , XN ).
Gnralement, cette fonction est :
1. La moyenne de ces valeurs :
N
1 X
1 X
Xi =
Xi .
X :=
N iU
N i=1

2. Le total de ces valeurs :


T :=

Xi =

iU

N
X

Xi .

i=1

3. La variance de ces valeurs :


1 X
1 XX
2
2 :=
(Xi X) =
(Yi Yj )2 .
2
N iU
2N iU jU
(Montrez la dernire galit en guise dexercice.)
Mais cela peut aussi tre : pour une variable quantitative, les quantiles ; ou encore,
pour une variable qualitative, un pourcentage. . . On peut imaginer des choses plus
compliques. . .

1.3.3

chantillon

Nous allons distinguer deux types dchantillon, selon que lon autorise ou non des remises.

chantillon avec remise


Dans ce cas, on tire successivement avec remise n individus de U , en conservant linformation correspondant lordre et la multiplicit des units.
Dfinition 1.3.14 :
Un chantillon ordonn avec remise de taille n est un n-uple ordonn de U avec
rptition.

28

CHAPITRE 1. INTRODUCTION AUX MTHODES DE SONDAGE

Remarque 1.3.15 :
Lensemble des chantillons de taille n ordonns avec remise forme une partie de U n .
Il y a N n chantillons de taille n avec remise que lon peut construire partir dune
population de N individus.
Remarquons quil est possible de crer des chantillons avec remise de taille n pour tout
n N, y compris pour n > N .
Dfinition 1.3.16 :
Un chantillon avec remise est donc un lment de e := U U 2 U 3 . . ..

chantillon sans remise


Dans ce cas, on tire successivement n individus sans remise. Il est en gnral inutile de
retenir lordre de tirage.
Dfinition 1.3.17 :
Un chantillon sans remise de taille n est une partie n lments de U .
Remarque 1.3.18 :
Il y a CNn chantillons de taille n sans remise que lon peut construire partir dune
population de N individus.
Dfinition 1.3.19 :
Un chantillon sans remise est donc une partie non vide de U . Il y en a 2N 1. On
note := P(U ) \ .

1.3.4

Enqute, recensement et sondage

Dfinition 1.3.20 :
On appelle enqute la dmarche consistant collecter et traiter linformation pour
mieux connatre la population au travers des Xi .
On appelle paramtres de lenqute les quantits que lon cherche estimer, cest-dire les variables dintrt.
On peut distinguer deux types denqutes :

1.3. OBJECTIFS, VOCABULAIRE ET NOTATIONS

29

Dfinitions 1.3.21 :
1. On appelle recensement une enqute exhaustive, cest--dire une enqute dans
laquelle on mesure les valeurs Xi pour tous les individus i U . Dans ce cas, on
peut calculer exactement les paramtres recherchs.
2. On appelle sondage ou enqute par sondage une enqute dans laquelle la collecte
de linformation X ne seffectue que sur une partie de la population, formant
un chantillon dindividus que lon interroge. La constitution de lchantillon
est lchantillonnage.
Lchantillonnage seffectue laide dun plan de sondage :
Dfinition 1.3.22 :
On appelle plan de sondage avec remise (resp. sans remise) la donne dune probabilit
sur e (resp. ).

Exemple 1.3.23 :
On considre la population U := {1, 2, 3, 4, 5, 6}.
On considre les chantillons : s1 := {1, 2, 3}, s2 := {1, 4, 5}, s3 := {5, 6}.
Un plan de sondage sans remise est donn par :
1
1
1
P(s1 ) := , P(s2 ) := , P(s3 ) := et s
2
4
4

, i = 1, 2, 3, s 6= si , P(s) = 0.

Remarque 1.3.24 :
Un recensement correspond donc au plan de sondage sans remise dfini par
P(U ) = 1,

, s 6= U, P(s) = 0.

Cest galement un chantillon de taille N sans remise.


Bien videmment, le recensement semble plus naturel, puisquil permet dobtenir un rsultat exact, en relevant toutes les informations possibles. Mais le sondage a plusieurs
avantages :
1. Un cot (financier et matriel) bien plus faible quun recensement : le recensement
de la population tel quil se faisait en France ncessitait 8 ans de prparation, et un
cot de plus de 200 millions deuros. Un sondage de lINSEE sur 15000 mnages ne
ncessite que 2 ans de prparation et 1,5 million deuros. (Le cot unitaire reste plus
faible pour le recensement.)
2. Des rsultats qui mettent moins longtemps arriver que pour un recensement, limitant le nombre de calculs et la dure de traitement des donnes.
3. Une collecte de meilleure qualit : lenqute est mene par des enquteurs spciale-

30

CHAPITRE 1. INTRODUCTION AUX MTHODES DE SONDAGE


ment forms.

Notons quil est tout bonnement impossible, dans certaines situations, de procder un
recensement : imaginez de procder par recensement pour tester la rsistance de carrosseries
de voitures un choc violent !
Enfin, procder sans cesse des recensements entranerait sans doute des taux de nonrponse catastrophiques ! !
Remarque 1.3.25 :
Les notions de recensement et de sondage sont donc complmentaires : les recensements fournissent des bases de sondage et de linformation auxiliaire, tandis que les
sondages permettent de tester la qualit des recensements.

Remarque 1.3.26 :
Le recensement nexiste souvent pas en pratique : dmnagement des gens durant la
dure du recensement . . .

1.3.5

Simplification, chantillon (bis)

En rgle gnrale, lorsquune enqute est effectue, on dcide de la taille de lchantillon


obtenir au pralable (on verra que ce nest pas toujours le cas). On considre donc des
chantillons de taille fixe.
Dans toute la suite, on ne considrera (sauf mention du contraire) que des
chantillons de taille fixe

Dfinition 1.3.27 :
On notera n la taille dun chantillon obtenu lors dun sondage, cest--dire le nombre
dindividus interrogs pour obtenir lchantillon donn. On a donc 1 6 n 6 N .
e (comme
On notera lchantillon alatoire sans remise (resp. avec remise) S (resp. S)
sample, traduction anglaise dchantillon).
On notera enfin n (resp. e n ) lensemble des chantillons de taille n sans (resp. avec)
remise.

Remarque 1.3.28 :
Un chantillon est donc de taille fixe si Var(n) = 0.

1.3. OBJECTIFS, VOCABULAIRE ET NOTATIONS

31

Dfinition 1.3.29 :
On appelle taux de sondage la proportion, note f , dindividus sonds :
f :=

n
N

Cest le rapport de la taille de lchantillon et de la taille de la population.


Dfinition 1.3.30 :
Un chantillon est dit reprsentatif sil permet destimer les paramtres tudis avec
une prcision acceptable compte-tenu des objectifs de lenqute.
Une enqute par sondage prsente donc plusieurs difficults :
1. Slectionner un chantillon dindividus : de nombreuses mthodes existent pour
cela. Ce sont celles que nous allons tudier dans ce cours. Le paragraphe suivant en
donne un panorama.
2. Agrger les donnes, cest--dire construire des estimateurs permettant, partir
des donnes collectes (Xi )iS , destimer la fonction des (Xi )iU recherche.
3. Dterminer la prcision du rsultat.
Dfinition 1.3.31 :
On appelle finalement aussi sondage lensemble constitu par une mthode dchantillonnage et une mthode destimation du paramtre.
Exemple 1.3.32 :
Supposons que lon sintresse la population U forme de tous les tudiants de
lUnistra,P la variable dintrt X donnant leur taille, et prcisment la moyenne
:= N1
Xk . Une faon destimer consiste choisir, au hasard et avec remise,
kU

un chantillon Se de n tudiants parmi lensemble des tudiants (en se servant, par


exemple, du fichierP
des inscriptions comme base de sondage). On estimera alors
k . Lerreur dchantillonnage effectue est alors celle tudie
X
en prenant
b := n1
kS

dans le chapitre prcdent, celle faite en remplaant par


b, quantifie par EQM (b
).

32

CHAPITRE 1. INTRODUCTION AUX MTHODES DE SONDAGE

1.3.6

Sources derreur

Dfinition 1.3.33 :
1. On appelle erreur de couverture lerreur lie au fait que la base de sondage ne
corresponde pas la population-cible, ce qui rend impossible lapplication du
plan de sondage prvu.
2. On appelle erreur dchantillonnage lerreur qui provient du fait que les estimations obtenues suite un chantillonnage sont uniquement fonctions des
individus formant lchantillon et pas de tous les individus. En pratique, on la
quantifie laide de lcart quadratique moyen de lestimateur considr. Cest
celle que lon va essayer de contrler.
3. On appelle erreur cause par la non-rponse lerreur lie labsence de rponses
de la part de certains individus.
4. On appelle erreur dobservation ou erreur de mesure lerreur qui provient du
fait que linformation collecte sur lindividu i nest pas la vraie valeur. Elle
peut tre due lenquteur ou lenqut.

1.3.7

Le processus complet

Terminons ce long paragraphe dintroduction par une description succincte du processus


complet dune enqute par sondage :
1. Dfinir les objectifs : dfinir la population, les informations recherches, ainsi que les
contraintes (de cot, dorganisation).
2. Trouver la base de sondage, et choisir la taille de lchantillon, la mthode dchantillonnage, la technique de recueil des informations.
3. Raliser le tirage de lchantillon.
4. Rdiger le questionnaire.
5. Tester le questionnaire et le procd de collecte, et corriger ce qui doit ltre.
6. Briefer les enquteurs, collecter les donnes et contrler la qualit du travail des
enquteurs.
7. Saisir les donnes, et vrifier la saisie.
8. Analyser les donnes.
9. Estimer les erreurs.
10. Publier les rsultats.

1.4. LES MTHODES DE SONDAGE

1.4

33

Les mthodes de sondage

Dfinition 1.4.1 :
On appelle mthode de sondage ou mthode dchantillonnage la faon de prlever les
individus pour constituer lchantillon.
Ici encore, on parlera parfois abusivement de sondage au lieu de dire chantillonnage.
On distingue a priori deux types dchantillonnages :
1. Les chantillonnages alatoires, ou probabilistes : on choisit les individus au hasard,
selon certaines contraintes. En particulier, on fixe les probabilits qua lindividu i
dtre slectionn, ce pour chaque i. Il est quivalent de doter la population U dune
distribution de probabilit.
2. Les sondages judicieux, ou encore empiriques, ou encore choix raisonn, dans lesquels les individus slectionns doivent obir des contraintes et ne sont donc pas
tous slectionns simultanment lavance. Cest le cas en particulier de la mthode
des quotas, souvent pratique. Il faut procder ainsi lorsque la base de sondage est
absente ! Mais ces mthodes prsentent des inconvnients, et il est ncessaire davoir
des enquteurs intgres. Les sondages chaud effectus lors dmissions tlvises
pour mesurer le degr de persuasion de lorateur politique invit sont partiaux !
Nous allons dans les chapitres suivants successivement considrer :
1. Les sondages alatoires simples, dans lesquels lchantillon de taille n est choisi parmi
toutes les parties de U , les chantillons tant choisis avec quiprobabilit.
2. Les sondages probabilits ingales, pour lesquels lchantillon est choisi parmi toutes
les parties de U , mais dans lequel tous les individus nont pas la mme chance dtre
choisis.
3. Les sondages stratifis, dans lesquels on commence par diviser la population en plusieurs parties (strates) plus homognes (on utilise pour cela de linformation auxiliaire), puis on effectue un sondage simple dans chacune de ces parties.
4. Les sondages par grappe, dans lesquels on divise la population en plusieurs parties, puis on effectue un premier sondage pour choisir certaines de ces parties dans
lesquelles on fait un recensement.
5. Les sondages plusieurs degrs, dans lesquels on divise la population en plusieurs
parties, puis on effectue un premier sondage pour choisir certaines de ces parties dans
lesquelles on refait un sondage simple.
6. Des mthodes de redressement, parmi lesquelles la post-stratification et lestimation
par le quotient, qui permettent damliorer la qualit des estimateurs.

34

1.5
1.5.1

CHAPITRE 1. INTRODUCTION AUX MTHODES DE SONDAGE

Outils mathmatiques spcifiques


Tirages sans remise

ON CONSIDRE DANS CETTE SECTION UNIQUEMENT DES TIRAGES SANS REMISE : un individu ne peut apparatre quune fois dans un chantillon.
Terminons ce chapitre par quelques mots sur les probabilits dinclusion, qui interviendront
frquemment dans tous les chapitres ultrieurs.
Dfinition 1.5.1 :
On note i la v.a. indicatrice de lappartenance de lindividu i lchantillon S :
(
1 si lindividu i appartient S
i :=
.
0 si lindividu i nappartient pas S
De telles variables indicatrices sont parfois appeles variables de Cornfield en hommage Cornfield qui les a introduites en 1944.
Les i sont des variables alatoires car ce sont des fonctions de la variable alatoire S.
Remarque 1.5.2 :
La grande utilit de ces variables rside dans le fait de pouvoir crire des galits
comme :
N
X
X
X
Xi =
X i i =
X i i .
iS

iU

i=1

35

1.5. OUTILS MATHMATIQUES SPCIFIQUES


Dfinitions 1.5.3 :
1. On appelle probabilit dinclusion de lindividu i ou probabilit de slection de
lindividu i la probabilit que lindividu i soit prsent dans lchantillon S :
X
i := P(i S) = Ei =
P(S),
S3i

la dernire somme tant tendue tous les chantillons contenant lindividu i,


et P(S) dsignant la probabilit de tirer lchantillon S.
2. On appelle probabilit dinclusion double des individus i et j la probabilit que
les individus i et j soient tous deux prsents dans lchantillon S.
ij := P(i S et j S) = E(i j ) = Cov(i ; j ) + i j .
3. On notera ij := Cov(i , j ). Ainsi ij = ij i j si i 6= j et ii = i (1 i ).
Les probabilits dinclusion vrifient les proprits suivantes :
Proposition 1.5.4 :
Si le plan de sondage est un plan de taille fixe n, (cest--dire si lchantillon est de
taille fixe n), alors :
N
P
1.
i = n.
i=1

2. i U,

N
P

ij = i (n 1).

j=1
j6=i

3.

N P
N
P
i=1

ij = n(n 1).

j=1
j6=i

4. j U,

N
P

ij = 0.

i=1

Dmonstration :

1.

N
P


i =

i=1

n, donc

P
iU
P

E(i ) = E


P

= E(n) = n car on slectionne un chantillon de taille

iU

i = n.

iU

2.

N
P

ij = E

j=1
j6=i

le point 1.
3.

N P
N
P
i=1

j=1
j6=i

i,j =

N
P
j=1
j6=i

N
P
i=1

i j = E i

!
P

j i

= E(ni i ) = i (n1), o lon a utilis

jU

i (n 1) = n(n 1) par les points 1. et 2.

36

CHAPITRE 1. INTRODUCTION AUX MTHODES DE SONDAGE


4.
X

ij =

iU

ij + jj =

iU
i6=j

X
iU
i6=j

(ij i j ) + (j j2 )

iU
i6=j

ij j

i + j j2 = j (n 1) j (n j ) + j j2 = 0.

iU
i6=j

Remarque 1.5.5 :
Ces proprits sont fausses dans le cas o le sondage nest pas de taille fixe.

1.5.2

Tirages avec remise

ATTENTION : dans le cas de sondages avec remise, les proprits prcdentes sont fausses
et la notion de probabilit dinclusion devient sans intrt.
Effectuer un tirage avec remise dun n-chantillon revient effectuer le tirage dun individu
parmi la population, puis renouveler cette exprience N fois de faon indpendante.
Loutil adquat est alors le suivant :
Dfinition 1.5.6 :
On note Pi la probabilit pour lindividu i dtre choisi au moment du choix du
premier individu.
Proposition 1.5.7 :
N
P
On a
Pi = 1.
i=1

1.5.3

Comparaison des mthodes

Intuitivement, on perd de linformation en ayant plusieurs fois le mme individu dans un


chantillon. Nous verrons dans le cas des sondages alatoires simple ( probabilits gales)
et dans le cas des sondages alatoires probabilits ingales que tel est vraiment le cas.
Sauf mention explicite, nous nous placerons dans la suite dans le cas de tirages sans remise.

37

1.6. LE -ESTIMATEUR

1.6

Le -estimateur

Afin de limiter les calculs dans les chapitres ultrieurs, nous prsentons encore dans ce
chapitre lestimateur de Horvitz-Thompson. Celui-ci, prsent en 1952, est un estimateur
linaire sans biais dun total, utilisable pour tous les plans de sondage sans remise.
Dfinition 1.6.1 :
On appelle estimateur de Horvitz-Thompson
ou -estimateur ou estimateur par les
P
valeurs dilates du total T :=
Xi la quantit :
iU

Tb :=

X Xi
iS

Pour estimer la taille dune population de taille N inconnue, on crit N =

1 et on

kU

utilise le -estimateur :

Dfinition 1.6.2 :
Si la taille N de la population est inconnue, on lestime par son -estimateur :
b :=
N

X 1
.
i
iS

Pour estimer une moyenne, on peut utiliser le -estimateur, donn par

b =

1 b
T ,
N

mais ce nest parfois pas vident (si N est inconnu on peut estimer N comme mentionn
ci-dessus). Il est parfois prfrable dutiliser le ratio de Hjek (voir la section 1.7 ce sujet).

1.6.1

Biais du -estimateur

Proposition 1.6.3 :
Si i > 0 pour tout i U (i.e. sil ny a pas de problme de couverture), alors Tb est
un estimateur sans biais de T .
Dmonstration :

ETb = E

X Xi
iS

!
=E

X Xi
iU

!
i

X Xi
iU

Ei =

X
iU

Xi = T.

38

CHAPITRE 1. INTRODUCTION AUX MTHODES DE SONDAGE

Remarque 1.6.4 :
Dans le cas dun plan de sondage prsentant un problme de couverture (par exemple
en labsence de base de sondage fiable),

!
X Xi
X Xi
X Xi
X
X
ETb = E
= E
i =
Ei =
Xi = T
Xi .
i
i
i
iS
iU |i >0

iU |i >0

iU |i >0

iU |i =0

Lestimateur est alors biais, et ce biais est impossible estimer puisquon ne peut
pas observer les Xi sur les units manquantes !

1.6.2

Variance du -estimateur

Proposition 1.6.5 :
Si i > 0 pour tout i U , alors
Var Tb =

X X Xi X j
iU jU

i j

ij .

Dmonstration :

Var Tb = Var

X Xi
iU

X X2
i
2

i
iU

!
i

X X2

i (1 i ) +

i
2

i
iU

Var(i ) +

iU

X X Xi X j
iU

jU
j6=i

X X Xi Xj

i j

jU
j6=i

i j

(ij i j ) =

Cov(i , j )

X X Xi Xj
iU jU

i j

ij .

Dans le cas dun plan de taille fixe, Yates et Grundy ainsi que Sen ont montr, indpendamment, en 1953, que :
Proposition 1.6.6 :
Si le plan est de taille fixe et que i > 0 pour tout i U , alors :

2
1 X X Xi Xj
b
Var T =

ij .
2 iU jU i
j
j6=i

39

1.6. LE -ESTIMATEUR
Dmonstration :

1 XX

2 iU jU

Xi X j

i
j

j6=i

2

1 XX
ij =
2 iU jU

Xi Xj

i
j

2
(i j ij )

j6=i


1 X X X2
2

iU

i
i2

jU
j6=i

X X X2
iU

jU
j6=i

i
2
i

Xi Xj Xj2
+ 2
2
i j
j

(i j ij ) +


(i j ij )

X X Xi Xj
iU

jU
j6=i

i j

(i j ij )

X X 2 X
1 X X X Xi Xj
i
=
(i j ij )

ij

j
2

i jU
i j
i
jU
jU
iU
iU
j6=i

j6=i

j6=i

 XX
X X2 
Xi X j
1
i
(i j ij )
=
n j i (n 1)
2

i
i j
i
jU
iU
iU
j6=i

Ce qui donne donc



2
X X2
X X Xi Xj
1 X X Xi Xj
i

ij =

(1

)
+
(ij i j )
i
i
2 iU jU i
j
i2
i j
iU
iU jU
j6=i

j6=i

= Var Tb

1.6.3

Estimation de la variance du -estimateur

Lemme 1.6.7 :
Pour toute fonction g de deux variables, lestimateur :
X X g(Xi , Xj )
iS

jS
j6=i

ij

est un estimateur sans biais de


XX
iS

g(Xi , Xj )

jU
j6=i

si et seulement si toutes les probabilits dinclusion dordre 2 sont strictement positives.

40

CHAPITRE 1. INTRODUCTION AUX MTHODES DE SONDAGE

On dduit alors des deux expressions de Var Tb donnes dans la partie prcdente les deux
estimateurs suivants de cette variance :
Proposition 1.6.8 :
\
Var1 Tb :=
et

X X2
i
2

i
iS

(1 i ) +

X X X i Xj
(ij i j ).

ij i j
jS
iS
j6=i

1 XX
\
Var2 Tb :=
2 iS jS

Xi Xj

i
j

2

i j ij
.
ij

j6=i

Remarques 1.6.9 :
1. Le premier estimateur, toujours sans biais, peut prendre des valeurs ngatives.
2. Le second, appel estimateur de Sen-Yates-Grundy nest sans biais que si le plan
est de taille fixe. De plus, il est positif si et seulement si i j ij > 0 i, j 6= i.
Dfinition 1.6.10 :
Les conditions i j ij > 0 i, j 6= i sont appeles conditions de Sen-Yates\
Grundy. Elles assurent que Var2 Tb soit un bon estimateur de Var Tb au sens o cet
estimateur ne prend alors que des valeurs positives.

1.6.4

Distribution du -estimateur, intervalles de confiance

Comme nous lavons dit prcdemment, on cherchera en gnral estimer un total ou


une moyenne. Lestimation de la variance des estimateurs est destine la construction
dintervalles de confiance. Hlas, la distribution des estimateurs est gnralement inconnue,
mme si des rsultats existent dans certains cas particuliers, le problme rsidant dans le
tirage sans remise dans des populations finies, amenant des dpendances entre v.a. En
gnral, on considre que le -estimateur suit approximativement une loi normale quand
la taille de lchantillon est grand.
Un intervalle de confiance pour T au niveau 1 est alors donn par
q
\
Tb u/2 Var(Tb )
et, en supposant la taille de la population connue, un intervalle de confiance pour au
niveau 1 est donn par
q
\

b u/2 Var(b
)

41

1.7. LESTIMATEUR DE HJEK

Ces rsultats sont valables si lchantillon est suffisamment grand. Si lchantillon est plus
petit, on considre parfois que lestimateur suit bien une loi normale, mais que comme la
variance est inconnue on doit utiliser le quantile de la loi de Student. Le problme est li
au fait que le passage la limite dans le thorme central limite sapplique souvent quand
n > 30 alors que lapproximation dune loi de Student par une loi normale ne sapplique
souvent que pour n > 50. Mais la taille dun chantillon de sondage est sauf dans les
exercices bien plus grande !

1.7

Lestimateur de Hjek

Il peut arriver que le -estimateur ait de mauvaises proprits, notamment pour les plans
simples de taille alatoire ; de manire gnrale lorsque :
!
X 1
6= 0.
Var

i
iS
En effet, si on cherche alors estimer la moyenne dune constante C, le -estimateur de la
moyenne vaut :
CX 1

b =
N iS i
qui nest pas constant, mais est une variable alatoire de moyenne C ! On en dduit que la
variance de
b dpend non seulement de la dispersion du caractre tudi, mais aussi dun
problme li lestimateur, ce qui est pour le moins gnant. On utilise alors lestimateur
de Hjek suivant :
Dfinition 1.7.1 :
On appelle estimateur de Hjek de la moyenne (ou ratio de Hjek) lestimateur :

bH :=

X 1
i
iS

!1

X Xj
jS

La somme des poids affects aux units vaut alors 1, mais ce sont des variables alatoires.
Il sagit dun estimateur gnralement biais, mais de biais ngligeable en gnral.
Il a t construit en remplaant, dans lexpression du -estimateur de la taille N de la
population par son -estimateur.

42

CHAPITRE 1. INTRODUCTION AUX MTHODES DE SONDAGE

Deuxime partie
Les mthodes dchantillonnage

43

Chapitre 2
Sondage alatoire simple
Attention, la deuxime section forme une des deux exceptions dans ce cours. Nous y travaillerons avec un sondage avec remise, cest--dire que lon pourra interroger plusieurs fois
le mme individu. Nous montrerons en particulier que cette situation est moins intressante
pour lenqute, justifiant ainsi de ne sintresser quaux sondages sans remise.

2.1

Introduction

Le sondage alatoire simple est la mthode de tirage la plus simple, qui ne ncessite aucune
manipulation pralable dans la population, ni aucun apport dinformation.
Dfinition 2.1.1 :
Un sondage alatoire est simple si tous les chantillons de taille n fixe a priori, prlevs au sein de la population U deffectif N sont ralisables avec la mme probabilit.
Cette dfinition est en fait quivalente pour un sondage sans remise la suivante :
Dfinition 2.1.2 :
Un sondage alatoire sans remise est simple si tous les individus ont la mme probabilit dinclusion, sans quaucune manipulation pralable ne soit utilise, et sans
intervention daucune information auxiliaire.
Il est facile de voir que la dfinition 2.1 entrane la dfinition 2.1 en prenant n = 1. . . La
rciproque est moins claire.
Il est important de savoir que la notion de sondage alatoire simple nest pas stricto sensu
quivalente la notion de sondage probabilits gales, cest--dire de sondage dans lequel
les probabilits dinclusion sont gales. En effet, on peut raliser des sondages tels que
P(S) varie avec S et tels que pourtant i soit indpendant de i (sondages stratifis. . . ) !
Cependant, lorsque lon parle de sondage probabilits gales, on parle gnralement par
abus de langage dun sondage alatoire simple !
45

46

CHAPITRE 2. SONDAGE ALATOIRE SIMPLE

Il est trs important de bien connatre cette mthode dchantillonnage (en fait ces mthodes). En effet, si on essaye en pratique dutiliser autant dinformation auxiliaire que
possible, il sert dlment de comparaison avec les autres types dchantillonnage. De plus,
souvent (sondages stratifis. . . ), le sondage alatoire simple est lune des briques formant
les sondages plus complexes.
On va considrer deux types de sondages alatoires simples :
1. le sondage alatoire simple avec remise, dans lequel on replace chaque individu dans
la population avant le tirage suivant ;
2. le sondage alatoire simple sans remise, dans lequel on ne replace pas chaque individu
dans la population avant le tirage suivant.

2.2

Sondage alatoire simple avec remise

On notera un tel sondage P EAR pour Probabilits gales Avec Remise.


On se place dans la situation dun plan de taille fixe.
Proposition 2.2.1 :
Il y a N n chantillons de taille n possible.
Chaque n-chantillon peut donc tre choisi avec probabilit N1n . Le plan de sondage est
donc dfini par
1
e
s e n , P(e
s) = n ,
N
et P(e
s) = 0 si s est un chantillon avec remise qui nest pas de taille n.

Comme nous lavons dj dit, dans le cas de tirages avec remise, tout se passe comme si on
rptait n fois une mme exprience consistant choisir un individu, de faon indpendante.
N
P
Comme
Pi = 1, et que les Pi sont tous gaux puisque le sondage est simple, on a Pi = N1 .
i=1

On peut donc considrer le problme diffremment et considrer que le problme revient


e i )16i6n sont les observations de variables
considrer que les observations (Xi )iSe := (X
e i indpendantes de mme loi ! Le premier lment de lchantillon, X
e 1 a donc
alatoires X
e1 =
pour ralisations possibles les Xi , avec pour probabilit associe Pi . Par consquent, EX
e 1 = 2.
et Var X
Proposition 2.2.2 :
On considre que lchantillon Se est une suite de v.a. indpendantes et identiquement
e i = et Var(X
e i ) = 2 , o et 2 sont respectivement
distribues, telles que i, EX
la moyenne et la variance de la population U .

2.2. SONDAGE ALATOIRE SIMPLE AVEC REMISE

2.2.1

47

Estimation de la moyenne

Dfinition 2.2.3 :
Un estimateur de la moyenne de la population U est donn par :
n

bP EAR

1X
1Xe
Xi .
:=
Xi =
n
n i=1
iSe

Proposition 2.2.4 :
Eb
P EAR = et Var
bP EAR =

2
.
n

Dmonstration faire en exercice!

Remarque 2.2.5 :
La prcision de lestimateur ne dpend que de la variance dans la population et de la
taille de lchantillon ! Elle ne dpend pas de la taille de la population, ce qui nest
pas intuitif. Ainsi, utiliser un sondage alatoire simple avec remise pour slectionner
un chantillon de taille 1000 dans la France entire donnera un rsultat de mme
prcision que la slection dun chantillon de mme taille selon la mme procdure
dans la ville de Strasbourg.

La variance 2 tant gnralement inconnue, il est ncessaire de construire un estimateur


de la variance de
bP EAR .
Dfinition 2.2.6 :
Un estimateur de la variance de
bP EAR est donn par :
S2
Var\

bP EAR = c .
n

Proposition 2.2.7 :
2
EVar\

bP EAR = n .
Dmonstration faire en exercice!

48

CHAPITRE 2. SONDAGE ALATOIRE SIMPLE

Exemple 2.2.8 :
On sintresse la somme (en milliers deuros) disponible sur les comptes de N = 5
individus. Ces sommes sont respectivement 13, 15, 17, 25 et 30.
On cherche estimer la moyenne = 20 de ces sommes en interrogeant deux
individus. Les 52 = 25 chantillons possibles et les estimations correspondantes sont
les suivants (pour simplifier, on omet les rptitions : quand lchantillon (i, j) existe,
lchantillon (j, i) existe galement !) :
1
X
13 13 13 13 13 15 15 15 15 17 17 17 25 25

X2
13 15 17 25 30 15 17 25 30 17 25 30 25 30
1 +X
2
X

b := 2
13 14 15 19 21,5 15 16 20 22,5 17 21 23,5 25 27,5
On peut vrifier les proprits annonces :
1
Eb
= 25
(13 + 2.14 + 2.15 + 2.19 + 2.21, 5 + 15 + 2.16 + + 30) = 20.
Les autres proprits sont laisses titre dexercice !

2.2.2

Estimation du total

Dfinition 2.2.9 :
Un estimateur du total T de la population U est donn par :
n
NX
NXe
b
Xi .
TP EAR := N
b=
Xi =
n
n i=1
iSe

Proposition 2.2.10 :
2
ETbP EAR = T et Var Tb = N 2 n .
Dmonstration faire en exercice!

Ici aussi, il convient de construire un estimateur de la variance de TbP EAR .


Dfinition 2.2.11 :
Un estimateur de la variance de TbP EAR est donn par :
2

S
\
Var TbP EAR = N 2 c .
n
Proposition 2.2.12 :
2
\
EVar TbP EAR = N 2 .
n

30
30
30

2.2. SONDAGE ALATOIRE SIMPLE AVEC REMISE

2.2.3

49

Estimation de la variance

Dfinition 2.2.13 :
Un estimateur de la variance 2 de la population U est donn par :
n

S2c :=

2
1 X e
1 X
(Xi
b)2 =
( Xi
b) .
n1
n 1 i=1
iSe

Proposition 2.2.14 :
1
[(n 1)4 (n 1) 4 ].
ES2c = 2 et Var S2c = n(n1)
Ici aussi, il faudrait estimer la variance de lestimateur. . .

2.2.4

Remarque

En effectuant un prlvement avec remise, il peut arriver quun mme individu apparaisse
plusieurs fois dans lchantillon.
Deux situations peuvent donc survenir :
1. Si les n tirages fournissent n individus distincts, alors Se est un sous-ensemble de U ,
de taille n. On peut conserver les mmes dfinitions de
b, Tb et S2c , en sommant de
1 n, pour peu que lon renumrote les individus de U de sorte que Se = 1, . . . , n.
2. Si les n tirages fournissent m := nSe < n individus distincts, on a deux choix :
on prend en compte lensemble des observations, autant de fois quelles ont t
recueillies ;
on oublie les rptitions, et on ne conserve que les observations distinctes. Dans
ce cas, la taille n de lchantillon nest plus une constante mais devient elle-mme
une variable alatoire.
Cette deuxime situation ncessite quelques explications supplmentaires.

50

CHAPITRE 2. SONDAGE ALATOIRE SIMPLE

2.2.5

Plan simple avec remise et conservation des units distinctes

On considre ici lchantillon Se constitu de nSe units distinctes, obtenu en supprimant les
rptitions dun chantillon de taille n slectionn en utilisant un plan simple avec remise.
Les dmonstrations des rsultats suivants se trouvent dans la section 4.4 de [11].
Proposition 2.2.15 :
La distribution de probabilit de nSe est donne par
P(nSe = r) =

N!
N n sn(r) ,
(N r)!

r = 1, . . . , min(n, N );

(r)

o sm est un nombre de Stirling de deuxime espce, dfini par :


r

s(r)
n

1X i
C (1)ri in .
:=
r! i=1 r

On peut remarquer que conditionnellement nSe le plan de sondage est simple sans remise,
i.e :
( 1
si #Se = 1, . . . , min(n, N );
e e) = CN#Se
P(S|n
S
0
sinon.
Le plan de sondage non conditionnel est donc donn par :
( 1
e
e
e = #S) si #S = 1, . . . , min(n, N );
e P(nS
#S
C
e
N
P(S) =
0
sinon.
Proposition 2.2.16 :
Lestimateur suivant de est sans biais :

bnSe :=

1 X
Xk .
nSe
kSe

et sa variance vaut
Var
bnSe

N 1
2 X n1
= n
j .
N j=1

51

2.3. SONDAGE ALATOIRE SIMPLE SANS REMISE

2.3

Sondage alatoire simple sans remise

Comme le sondage est sans remise, chaque tirage fait dcrotre la taille de la population U
dune unit. Les observations ne sont donc plus des v.a. indpendantes les unes des autres.
Un plan tant dit simple lorsque tous les chantillons de mme taille ont la mme probabilit
dtre slectionn, le plan de sondage est le suivant :
Dfinition 2.3.1 :
Un plan de taille fixe n est dit simple sans remise si et seulement si :
(
1
lorsque s est de taille n
n
P(s) = CN
0
sinon.
En effet, il y a CNn chantillons de taille n diffrents. Donc P(s) =

1
n .
CN

Les probabilits dinclusion et ij sont donnes par :


Proposition 2.3.2 :
1. i =
2.

n
=f;
N
ij = Nn(n1)
(N 1)

3. ij =

;
(
n)
Nn(N
2 (N 1)

si i 6= j

n(N n)
N2

si i = j.

Dmonstration :

1. i =

P
S3i

2. ij =

1
P(S) = CNn1
1 C n =

P
S3i,j

P(S) =

P
S3i,j

1
n
CN

3. Si i 6= j, ij = ij i j =
si i = j, ii = i (1 i ) =

2.3.1

n
.
N
n2
CN
2
n
CN

n(n1)
.
N (N 1)

2
n(n1)
n)
Nn 2 = Nn(N
2 (N 1)
N (N 1)

n
1 Nn = n(NNn)
.
2
N

et

Estimation de la moyenne

Dfinition 2.3.3 :
Un estimateur de la moyenne de la population U est donn par :

bP ESR :=

1X
Xi .
n iS

52
Proposition 2.3.4 :
Eb
P ESR = et Var
bP ESR =

CHAPITRE 2. SONDAGE ALATOIRE SIMPLE


N n 2
N 1 n

= (1 f ) NN1 n = (1 f ) nc .

Dmonstration faire en exercice!

Remarque 2.3.5 :
2
Si la taille de la population N est grande, Var
b ' (1 f ) n .
Remarque 2.3.6 :
Si f est petit, ce qui est souvent le cas, on peut considrer que 1 f ' 1 et ngliger
le taux de sondage. (En pratique, f est trs souvent infrieur 1% !) Dans ce cas,
comme dans le cas du sondage alatoire simple avec remise, la prcision de lestimateur de dpend pas de la taille de la population, ce qui nest pas naturel !
Ainsi, si vous avez effectu un sondage selon cette procdure en France sur un chantillon de taille 2000 et que vous voulez le spcialiser la ville de Strasbourg avec la
mme prcision, il vous faudra slectionner galement 2000 strasbourgeois !
Proposition 2.3.7 :
2
Var\

bP ESR := (1 f ) Snc est un estimateur sans biais de Var


b.
Dmonstration faire en exercice!

Exemple 2.3.8 :
On reprend lexemple 2.2.1 prcdent : on sintresse la somme (en milliers deuros)
disponible sur les comptes de N = 5 individus. Ces sommes sont respectivement
13, 15, 17, 25 et 30, et on cherche estimer la moyenne := 20 de ces sommes
en interrogeant deux individus selon un sondage simple sans remise. Les C52 = 10
chantillons et les estimations sont donns par :
observation 1 13 13 13 13 15 15 15 17 17
25
observation 2 15 17 25 30 17 25 30 25 30
30

b
14 15 19 21,5 16 20 22,5 21 23,5 27,5
On peut vrifier les proprits annonces :
1
Eb
= 10
(14 + 15 + 19 + 21, 5 + 16 + + 27, 5) = 20.
Les autres proprits sont laisses titre dexercice !

53

2.3. SONDAGE ALATOIRE SIMPLE SANS REMISE

2.3.2

Estimation du total

Dfinition 2.3.9 :
Un estimateur du total T de la population U est donn par :
NX
TbP ESR := N
bP ESR =
Xi .
n iS
Remarque 2.3.10 :
P
Cela scrit aussi TbP ESR =
iS

N
Xi
n

P
iS

: chaque individu i reprsente

Xi
i

N
n

individus

de la population : tout se passe comme si on avait dcoup la population en n groupes,


chacun de taille Nn , le k-ime groupe tant form de copies de Xk . . .
Proposition 2.3.11 :
2
ETbP ESR = T et Var TbP ESR = N 2 (1 f ) nc .
Dmonstration faire en exercice!

Proposition 2.3.12 :
2
\
Var TbP ESR := N 2 (1 f ) Snc est un estimateur sans biais de Var TbP ESR .
Dmonstration faire en exercice!

2.3.3

Estimation de la variance

Dfinition 2.3.13 :
Un estimateur de la variance 2 dune population U est donn par :

bP2 ESR :=

N 1 2
Sc
N

Proposition 2.3.14 :
Eb
P2 ESR = 2
et
Var
bP2 ESR =

N n
(4 (N 1)[N (n 1) (n + 1)]
n(n 1)N (N 2)(N 3)

4 [N 2 (n 3) + 6N 3(n + 1)]

54

CHAPITRE 2. SONDAGE ALATOIRE SIMPLE

Dmonstration faire en exercice!

2.3.4

Estimation dun ratio

X
Dans la section 0.4.4, nous avons mentionn le problme de lestimation dun ratio R := Y
.
Dveloppons ce point ici. On note c
X lestimateur de X obtenu par sondage alatoire
c
X
b
simple sans remise et c
.
Y lanalogue pour Y . On estime R par R := c
X

b et son risque quadratique.


Dterminons le biais de R
On crit, comme prvu
c
c
c
Y R
X
Y R
X
b R = c
,
=
R
c

(1
+
)
X
X
o
:=

c
X X
.
X
S2

est une variable alatoire centre, de variance NNn 2X,cn , et donc converge en probabilit
X
vers 0. On peut donc faire un dveloppement limit.
c
Y R
X
b R ' c
R
(1 )
X


c
c
c
Y R
X
X X
'
1
.
X
X


c
X
= 0.
En prenant lesprance, comme E cY R
X



(Rc
c
c
X
Y )(
X muX )
2X


(Rc
c
c
X X R
Y + Y )(
X X )
'E
2X

b 'E
B(R)

2
RE(c
Y Y )(c
X X ) E(c
X X )
'
2
X
R Var c
Y , c
X Cov(c
X)
'
2
X

Finalement,
b '
B(R)
o
SXY,c =

1 N n
2
(RX,c
XY,c )
2X N n

1 X
(Yk X,c )(Xk Y,c ).
N 1 kU

55

2.4. COMPARAISON DES PRLVEMENTS AVEC ET SANS REMISE


Par consquent le biais est ngligeable quand la taille de lchantillon est grande.

prsent on cherche une approximation de lerreur quadratique moyenne de cet estimateur.


On a alors

2
b =E R
bR
EQM (R)
2

c
c
Y R
X
'E
X

1
2
' 2 Var c
c
c
c
Y + R Var
X 2R Cov(
X;
Y)
X

N n 1
2
2
Y,c
+ R2 X,c
2RXY,c
'
2
N n X

2.4

Comparaison des prlvements avec et sans remise

Nous allons faire ces comparaisons pour les estimateurs de la moyenne, en remarquant que
les deux estimateurs fournis taient sans biais.
La comparaison de deux mthodes produisant des estimateurs sans biais diffrents est
effectue en considrant leffet de sondage :
Dfinition 2.4.1 :
Leffet de sondage de deux estimateurs sans biais b et b dun mme paramtre est
dfini par
b
b = Var .
D(b |)
Var b
b < 1, alors b sera plus prcis que .
b
Si D(b |)
Dans notre cas, rappelons que, en notant
bP EAR lestimateur de la moyenne obtenu par
prlvement avec remise et
bP ESR celui obtenu par prlvement sans remise, Var
bP EAR =
2
2 N n
N n
et Var
bP ESR = n N 1 . Par consquent, D(b
P ESR |b
P EAR ) = N 1 . Si n > 1, cette
n
quantit est strictement plus petite que 1.
La prcision de lestimateur de la moyenne pour un sondage alatoire simple probabilits
gales est donc meilleure pour un estimateur sans remise quavec remise.
Si la taille de la population est grande, leffet de sondage est quivalent
Lamlioration de la prcision est donc dautant meilleure que f est grand.

N n
N

= 1 f.

Quand f est faible (gnralement infrieur 10%), leffet de sondage est proche de 1, et les
deux mthodes fournissent des estimateurs de prcision analogue ! On est souvent amens

56

CHAPITRE 2. SONDAGE ALATOIRE SIMPLE

identifier 1 f et 1.
Remarque 2.4.2 :
Signalons pour finir ce chapitre que dans le cas avec remise, S2c est un estimateur sans
biais de 2 alors que dans le cas sans remise S2c est un estimateur sans biais de c2 . . .

Chapitre 3
Sondage probabilits ingales
Dans le chapitre prcdent, nous avons vu que les tirages probabilits gales ne ncessitent
pas dinformation supplmentaire : il est naturel daccorder un poids gal toutes les units
de la population.
Il est cependant frquent que lon dispose dinformations rsultant denqutes pralablement effectues.
Dans certaines situations, notamment quand les variables sont lies par des effets de taille,
il est intressant dutiliser des sondages probabilits ingales, cest--dire dattribuer un
poids diffrent aux diffrentes units de la population.
Exemple 3.0.3 :
On peut choisir diffrentes formations universitaires proportionnellement leur
nombre dtudiants. . .
Nous verrons au chapitre 6 la notion de sondage a plusieurs degrs, gnralisation du
sondage stratifi, qui est lun des champs dapplication des sondages probabilits ingales :
Exemple 3.0.4 :
Pour faire un sondage parmi des mnages, on peut commencer par choisir des communes en effectuant un sondage probabilits ingales pour lequel on fixe des probabilits dinclusion proportionnelles la taille de la commune, puis on effectue un
sondage alatoire simple dans les communes retenues.
Lide essentielle est quune unit grande apporte plus dinformations quune petite unit.
Dans ce chapitre, nous allons une nouvelle (et dernire) fois considrer le cas de tirages
avec remise.

57

58

3.1

CHAPITRE 3. SONDAGE PROBABILITS INGALES

Tirage probabilits ingales avec remise

On reprend dans cette section les notations du paragraphe dintroduction 1.5.2.


Dfinition 3.1.1 :
Un sondage est dit probabilits ingales avec remise sil existe une famille Pi de rels
N
P
positifs non tous gaux vrifiant
Pi = 1, telle que Pi soit la probabilit de slection
i=1

de lindividu i chacun des tirages.


Comme nous lavons dj soulign, il est frquent que le choix des Pi se fasse de telle sorte
que Pi soit proportionnel la taille de lindividu i :
Remarque 3.1.2 :
Soit Yi une mesure de la taille de lindividu i. On choisit souvent
Pi :=

Yi
.
N
P
Yi
i=1

3.1.1

Estimation dune moyenne

Dfinition 3.1.3 :
Un estimateur de la moyenne est donn par :

bP IAR

n
1 X 1
1 Xg
Xk
:=
Xi =
,
nN Pi
nN k=1 Pk
iS


f
Xk
Xk
o f
dsigne
une
suite
i.i.d.
de
v.a
telles
que
j

1,
N
,
P
=
Pk
Pk

Xj
Pj

= Pj .

Proposition 3.1.4 :
Eb
P IAR = et Var
bP IAR =

1
nN 2

N
P
i=1

1
X2
Pi i

Dmonstration faire en exercice!

Proposition 3.1.5 :
Un estimateur sans biais de Var
bP IAR est donn par
\
Var

bP IAR

2
n
X 1
X
g
1
1
Xk
:= 2
Xi N
bP IAR = 2
N
bP IAR
N n(n 1) Pi
N n(n 1) k=1 Pk
iS

!2
.

59

3.1. TIRAGE PROBABILITS INGALES AVEC REMISE


Dmonstration faire en exercice!

3.1.2

Estimation dun total

Dfinition 3.1.6 :
Un estimateur du total T est donn par :
n

1X 1
1 Xg
Xk
TbP IAR :=
Xi =
.
n Pi
n k=1 Pk
iS

Proposition 3.1.7 :
ETbP IAR = T et Var TbP IAR =

1
n

N
P
i=1

1
X2
Pi i


T .
2

Dmonstration faire en exercice!

Proposition 3.1.8 :
Un estimateur sans biais de Var TbP IAR est donn par
\
Var TbP IAR

X
1
:=
n(n 1)
iS

1
Xi TbP IAR
Pi

2

n
X
g
1
Xk
=
TbP IAR
n(n 1) i=1 Pk

!2
.

Dmonstration faire en exercice!

3.1.3

Choix des Pi

On dduit de ce qui prcde que la variance optimale est obtenue pour Pi :=

Xi
.
N
P
Xi

Bien

i=1

sr, on ne connat pas les Xi (on ne connat leur valeur quaprs sondage), mais on peut
avoir des rsultats trs prcis en choisissant les Pi en fonction dune variable fortement
corrle avec Xi .

3.1.4

Comparaison avec les sondages alatoires simples probabilits gales avec remise

On a Var TbP EAR > Var TbP IAR si et seulement si

N
P
i=1

ment si

N
P
i=1

Xi2 (1/Pi N ) < 0. Comme

N Xi2 >

N
P
i=1

Xi2
,
Pi

cest--dire si et seule-

Pi = 1, on ne peut pas prendre tous les Pi >

Mais cette lingalit est en particulier vraie lorsque, simultanment :

1
N

60

CHAPITRE 3. SONDAGE PROBABILITS INGALES

Pi > 1/N pour Xi2 grand ;


Pi < 1/N pour Xi2 petit ;
ce qui est le cas lorsque Pi est choisi proportionnel une quantit corrle positivement
avec Xi .
Ce rsultat est celui attendu : si la variable dintrt peut prendre de grandes valeurs pour
certains individus, on va gagner en prcision leur accorder un plus grand poids.

3.2

Sondage alatoire simple probabilits ingales sans


remise

Dans ce cas, on reprend les notations du paragraphe 1.5.1


Comme pour le tirage avec probabilits ingales avec remise, si on dispose dune variable
auxiliaire Yi mesurant la taille de Xi , on essaye de prendre des probabilits dinclusion
i proportionnelles aux Yi . On calcule les probabilits dinclusion dordre 1 en utilisant la
formule :
Yi
i := n P .
Yi
IU

Si lexpression fournit des i > 1, on slectionne doffice les units correspondantes. On


recalcule alors les quantits i sur les units restantes. La section 3.2.3 prsente un tel
calcul.
Le cas chant, les probabilits dinclusion double sont calcules (ou values) ensuite, ce
qui permet de mesure la prcision des estimateurs que nous allons introduire.
Le tirage de lchantillon est trs dlicat, et peut se faire selon diffrentes mthodes de
tirage. Nous aborderons trs rapidement ce point dans une annexe.

3.2.1

Estimation dune moyenne

Dfinition 3.2.1 :
Lestimateur de Horvitz-Thompson de la moyenne est donn par :

bP ISR :=

1 X 1
Xi .
N iS i

3.2. SONDAGE ALATOIRE SIMPLE PROBABILITS INGALES SANS REMISE61


Proposition 3.2.2 :
Eb
P ISR = et Var
bP ISR =

1
2N 2

N P
N
P
j=1

k=1
k6=j


X
(j k jk ) jj

Xk
k

2

Dmonstration faire en exercice!

Proposition 3.2.3 :
Un estimateur de Var
bP ISR est donn par
\
Var

bP ISR


2
Xk
1 X X j k jk Xj

.
:=
2N 2 jS kS
jk
j
k
k6=j

3.2.2

Estimation dun total

Dfinition 3.2.4 :
Lestimateur de Horvitz-Thompson du total T est donn par :
TbP ISR :=

X Xi
iS

Proposition 3.2.5 :
ETbP ISR = T et Var TbP ISR =

1
2

N P
N
P
j=1

(j k jk )

k=1
k6=j

Xj
j

Xk
k

2

Dmonstration faire en exercice!

Proposition 3.2.6 :
Un estimateur de Var TbP ISR est donn par

2
1 X X j k jk Xj
Xk
\
b
Var TP ISR :=

.
2 jS kS
jk
j
k
k6=j

Dmonstration faire en exercice!

3.2.3

Un exemple de calcul de probabilits dinclusion

Comme nous lavons indiqu au dbut de cette section, si Yi mesure la taille de Xi , on


essaye de prendre les probabilits dinclusion i proportionnelles aux Yi . Supposons que
dans une population de taille N = 6 on cherche prlever un chantillon de taille n = 3. On
observe une variable auxiliaire Y dans la population U . Les observations sont donnes dans

62

CHAPITRE 3. SONDAGE PROBABILITS INGALES

le tableau ci-dessous. On observe que

Yi = 300. Les probabilits dinclusion devraient

iU
Yi
. Ainsi :
donc tre celles donnes par i := 3. 300

i
1
2
3
4
5
6
Yi 1
9 10 70 90 120
1
9
1
7
9
6
i 100
100
10
10
10
5
On observe que 6 > 1, par consquent, on slectionne doffice lunit
P 6 dans lchantillon,
en prenant 6 = 1, et on reprend le calcul prcdent. prsent,
Yi = 180, et il reste
iU \{6}
Yi
deux individus choisir. Donc i = 2 180
. Ainsi :

i
1 2 3
4
5
Yi 1 9 10 70 90
1
1
1
7
i 90
1
10
9
9
Finalement, on slectionne doffice les individus 5 et 6, et on slectionne, parmi les 4
1
1
individus restant, un individu avec les probabilits dinclusion 1 = 90
, 2 = 10
, 3 = 19 et
4 = 79 .

Chapitre 4
Sondage stratifi
4.1

Principes et objectifs

Pour les sondages alatoires simples, que nous avons rencontr dans un chapitre prcdent,
tous les chantillons de taille n taient choisis avec la mme probabilit. Ces mthodes
dchantillonnage ne ncessitaient aucune information auxiliaire, et il en tait de mme
pour les estimateurs mis en uvre. On a galement remarqu que la vraie variance 2
intervenait dans les mesures de dispersion des estimateurs de la moyenne. Autrement dit,
dans une population homogne, lutilisation de la moyenne empirique peut mener de
trs bons rsultats, alors que dans une population inhomogne, les performances de cet
estimateur seront bien moins bonnes.
Lintroduction des sondages probabilits ingales a permis dincorporer de linformation
auxiliaire, en tenant compte de la taille de chaque individu. Mais la mthode consiste nanmoins travailler sur la population entire, sans tenir compte dventuels regroupements
dindividus plus homognes.
Lide du sondage stratifi est alors la suivante : si les individus sont trs diffrents du point
de vue de la variable tudie, on devrait pouvoir dcouper la population en sous-ensembles
appels strates, dont on espre quils soient plus homognes que la population de dpart,
et raliser ensuite un sondage alatoire simple dans chacune des strates.
Les objectifs dune telle approche sont souvent doubles :
exclure les chantillons extrmes et amliorer la prcision des estimateurs ;
rduire les cots denqute (optimisation de la gestion, spcialisation des enquteurs. . . )

63

64

CHAPITRE 4. SONDAGE STRATIFI

Exemples 4.1.1 :
Les chantillons de mnages ou dindividus peuvent tre stratifis par rgion et
type dhabitat ;
les chantillons dentreprises peuvent tres stratifis par secteur dactivit et par
taille (en effectifs ou chiffre daffaire) ;
les chantillons dexploitation agricoles peuvent tre stratifis par superficie ;
les chantillons de jeunes universitaires peuvent tre stratifis par discipline ;
...

4.2

Dfinitions et notations

Commenons par fixer les notations.


Dfinition 4.2.1 :
On partitionne la population U en H sous-ensembles appels strates :
U :=

H
[

Uh

et Uh Ui = i.

h=1

On note Nh leffectif de la strate Uh , de sorte que Wh :=


Uh dans la population.
On a

H
P

Nh
N

reprsente le poids de la strate

Nh = N .

h=1

Remarque 4.2.2 :
Les Nh sont supposs connus, et constituent linformation auxiliaire disponible sur la
population entire.
On considre un chantillon S de taille n pris sans remise dans la population U . On note
Sh := S Uh .
On note nh leffectif de lchantillon propre la strate Uh (donc le cardinal de Sh ), fh := Nnhh
H
P
le taux de sondage dans la strate Uh . Ainsi, n =
nh .
h=1

On note h :=

Xk la moyenne de la variable dintrt X dans la strate Uh , et h2


kUh
P
2
sa variance. Ainsi, h,c
= Nh11
(Xk h )2 .
1
Nh

kUh

65

4.3. LES FORMULES DE SONDAGE

Dfinition 4.2.3 :
Un sondage alatoire est dit stratifi si, dans chaque strate, on effectue un sondage
de nh units, gnralement par sondage alatoire simple sans remise, et si la slection
dun chantillon dans une strate est indpendante de la slection dun chantillon
dans toutes les autres strates.
P
P
2
On note alors
bh := n1h
Xi et S2h,c := nh11
(Xi
bh )2 les estimateurs de h et h,c
iSh

iSh

construits dans la strate h.

Remarquons les deux relations suivantes :


T :=

N
X
i=1

Xi =

H
X

h=1

iUh

Xi

H
X

h=1

sur laquelle repose la construction des estimateurs, et :


H
H
1 X
1 X
1 X
2
2
=
(Xk ) =
Nh h +
Nh (h )2 ,
N kU
N h=1
N h=1
2

qui nest autre que la relation


2
2
2 = intra
+ inter
2
2
la variance inter-strates, qui
o intra
intra reprsente la variance intra-strates et inter
permet de dcomposer la variance de la population en une partie intra-strate dautant plus
faible que la strate est homogne et une partie inter-strate qui mesure lcart entre la strate
et la population.

4.3

Les formules de sondage

Comme vous lavez compris, le -estimateur permet de fournir de bons estimateurs dans la
plupart des situations. Dans cette section, nous calculons donc tout dabord les probabilits
dinclusion du plan, puis nous donnons les critures des -estimateurs de la moyenne et du
total.

4.3.1

Probabilits dinclusion

Si lindividu i est dans la strate h, comme on effectue dans cette strate un sondage alatoire
simple sans remise de taille nh dans une population de taille Nh , on a
i =

nh
.
Nh

Pour les probabilits dinclusion dordre 2, cest plus dlicat :

66

CHAPITRE 4. SONDAGE STRATIFI

si i et j sont dans la mme strate h , alors

ij =

nh (nh 1)
;
Nh (Nh 1)

si i et j appartiennent deux strates diffrentes h et k, par indpendance des tirages,

ij =

4.3.2

nh nk
.
Nh Nk

Estimateur de la moyenne

Dfinition 4.3.1 :
Le -estimateur de la moyenne de la population U est alors :

bst :=

H
X
Nh
h=1

Rappelons que
bh est dfini par
bh :=

1
nh

bh .

Xi .

iSh

Proposition 4.3.2 :
Eb
st = et Var
bst =

H
P
h=1

Nh2
(1
N2

fh )

2
h,c
.
nh

Dmonstration faire en exercice!

Proposition 4.3.3 :
Un estimateur sans biais de la variance de
bst est donn par :
\
Var

bst =

H
X
N2
h=1

h
(1
N2

H
s2h,c X
Nh2
s2h
fh )
=
(1

f
)
.
h
2
nh
N
n
h1
h=1

Dmonstration faire en exercice!

67

4.3. LES FORMULES DE SONDAGE


Exemple 4.3.4 :
On reprend ici aussi lexemple 2.2.1. On sintresse la somme (en milliers deuros)
disponible sur les comptes de N = 5 individus. Ces sommes sont respectivement
13, 15, 17, 25 et 30.
On cherche estimer la moyenne := 20 de ces sommes en interrogeant deux individus.
On peut stratifier en deux strates, en dcidant quil y a des comptes avec de petites
sommes : 13, 15, 17 et des comptes avec de grandes sommes : 25, 30.
Les 25 chantillons possibles et les estimations correspondantes sont les suivants (pour
simplifier, on omet les rptitions : quand lchantillon (i, j) existe, lchantillon (j, i)
existe galement !) :
y1 :=observation 1 13
13 15 15 17
17
y2 :=observation 2 25
30 25 30 25
30

bst
17,8 19,8 19 21 20,2 22,2
o
bst = 35 y1 + 25 y2 .
On peut vrifier que lestimateur est aussi sans biais, mais que son cart-type est trois
fois plus faible que pour les sondages simples !

4.3.3

Estimateur du total

Dfinition 4.3.5 :
Le -estimateur du total T de la population U est alors :
Tbst :=

H
X

Nh
bh .

h=1

Proposition 4.3.6 :
H
P
2
ETbst = T et Var Tbst =
Nh2 (1 fh ) nh,c
.
h
h=1

Dmonstration faire en exercice!

Proposition 4.3.7 :
Un estimateur sans biais de la variance de Tbst est donn par :
H

X
s2h,c X 2
s2
\
Var Tbst =
Nh2 (1 fh )
=
Nh (1 fh ) h .
nh
nh 1
h=1
h=1
Dmonstration faire en exercice!

68

CHAPITRE 4. SONDAGE STRATIFI

Remarque 4.3.8 :
Remarquons que
Tbst =

H
X
h=1

nh
1 X
Xi
nh i=1

!
=

nh
H X
X
Nh
h=1 i=1

nh

Xi .

Dans cette formule, la variable Xi est pondre par le coefficient Nnhh , appel coefficient
dextrapolation, qui permet dextrapoler les rsultats de la strate h la population.
On remarque que ce coefficient dpend a priori de h, cest--dire que lon effectue un
sondage a probabilits ingales.
Dans la section suivante, nous allons tudier le cas particulier o
auquel cas le sondage est un sondage a probabilits gales.

4.4

Nh
nh

est une constante,

Sondage stratifi proportionnel

La solution la plus naturelle pour dcider des effectifs des chantillons nh de chaque strate
est de les choisir proportionnels aux tailles Nh , ce qui peut sexprimer ainsi :
Dfinition 4.4.1 :
Lorsque les effectifs des strates sont choisis de sorte que lune des deux conditions
quivalentes suivantes soit vrifie :
les strates ont dans lchantillon des poids nnh gaux leurs poids NNh dans la
population,
les taux de sondages dans toutes les strates sont gaux : fh = Nnhh = Nn = f ,
alors on dit que le sondage est un sondage stratifi proportionnel, ou que lchantillon
est un chantillon stratifi proportionnel, ou encore parfois que lchantillon est un
chantillon stratifi reprsentatif.

Remarque 4.4.2 :
Attention, ce terme de reprsentatif, apprci des instituts de sondage, ne dit pas
que le rsultat est parfait, ni mme que la rpartition soit la meilleure possible. Il dit
juste que la composition de lchantillon est proportionnelle la composition de la
population selon les critres de stratification fixs. Cest en ce sens que lchantillon
reprsente la population.

69

4.5. COMMENT CHOISIR LES STRATES ?


Proposition 4.4.3 :
Dans le cas dun sondage stratifi proportionnel, lestimation de la moyenne vaut :
!
H
1X X

bst =
Xi .
n h=1 iS
h

Il sagit donc de la moyenne, non pondre, de tout lchantillon.


De plus, sa variance vaut
H

Var
bst = (1 f )

1 X Nh 2
.
n h=1 N h,c

On retrouve que plus les strates sont homognes, plus la stratification est efficace.
Remarque 4.4.4 :
Soit
b lestimateur issu du sondage alatoire simple sans remise. Alors
H

1 X Nh
(h )2 .
Var
b = Var
bst + (1 f )
n h=1 N
Cette quation, danalyse de la variance, montre que le sondage stratifi proportionnel
est toujours meilleur que le sondage alatoire simple. De plus, le rsultat sera dautant
meilleur que les strates sont diffrentes les unes des autres.

4.5

Comment choisir les strates ?

On dduit de ce qui prcde quon a intrt choisir les strates de telle sorte que :
1. les strates soient aussi homognes que possible ;
2. les strates soient aussi diffrentes que possible.
On cherchera donc utiliser, pour constituer les strates, la variable la plus discriminante
possible, cest--dire une variable Y la plus corrle possible X. Il est ncessaire pour
cela de bnficier dinformation auxiliaire (tudes prcdentes, intuition) et que ces donnes
figurent dans la base de sondage ! Attention, pour deux sondages diffrents sur une mme
population, il peut tre avantageux dutiliser deux stratifications diffrentes !
Le nombre de strates doit quand lui tre en thorie le plus lev possible, mais plus
il augmente, plus le cot augmente et plus le gain statistique est rduit. De plus, il faut
prendre garde au fait que des strates deffectif insuffisant sont davantage soumises au risque
de non-rponse !

70

4.6

CHAPITRE 4. SONDAGE STRATIFI

Rpartition de Neyman

Dans le cas o X est trs htrogne dans une mme strate, on a intrt ne pas procder
une reprsentation proportionnelle.
On peut en fait plus gnralement chercher quelle est la meilleure rpartition, i.e. celle qui
minimise la variance.
Nous avons vu plus haut que celle-ci tait, pour T , la suivante :
Var Tbst =

H
X

Nh

h=1

Nh nh 2
h,c ;
nh

quantit que lon cherche minimiser (en fonction des nh ) sous la contrainte
H
X

nh = n.

h=1

Lestimateur optimal est obtenu lorsque la rpartition est celle de Neyman, dfinie comme
suit :
Dfinition 4.6.1 :
La rpartition de Neyman consiste rendre constante la quantit :
nh
Nh h,c
qui doit donc tre gale

, autrement dit prendre

n
H
P

Nh h,c

h=1

nh =

nNh
h,c .
H
P
N` `,c
`=1

Dmonstration :

En effet, utilisant la mthode des multiplicateurs de Lagrange, on tudie :


!
H
H
X
X
Nh nh 2
L(n1 , . . . , nH , ) :=
Nh
h,c +
nh n .
nh
h=1
h=1
Annulons prsent les drives partielles par rapport aux nh et . On est amens aux
quations suivantes :

Nh2 2
L

+=0
1 6 h 6 H
n
n2h h,c
h
H
P

=
nh n = 0.
L

h=1

71

4.6. RPARTITION DE NEYMAN


De la premire formule, on tire
Nh
nh = h,c ,

ce qui, en linjectant dans la dernire quation, donne n =

H
P

nh =

h=1

On obtient ainsi :

H
P

Nh h,c .

h=1

1X
=
Nh h,c .
n h=1

Finalement,
nh =

Nh n
H
P

h,c .

N` `,c

`=1

Cette rpartition utilise donc un taux de sondage proportionnel la dispersion de X dans


chaque classe : plus une strate est htrogne, plus on utilise un taux de sondage important.
Une fois les strates dtermines, cette rpartition fournit la variance la plus faible. Mais
on ne connat pas en gnral les h,c !
Remarque 4.6.2 :
On retiendra quil faut sur-reprsenter les individus dans les strates de forte dispersion.
Remarque 4.6.3 :
En pratique, en appliquant la mthode de Neyman, on obtient souvent nh > Nh , ce
H
P
qui est absurde. Ceci est du au fait que lon a pris la contrainte
nh = n, mais sans
h=1

imposer 0 6 nh 6 Nh . . .
On commencera donc par calculer les nh . On slectionnera doffice tous les individus
dans les strates o nh > Nh . Une fois ceci fait, on recalculera les nh en utilisant la
mme formule sur les strates restantes.
Enfin, il faut souvent arrondir les rsultats obtenus, les nh ntant pas entiers en
gnral.
On peut montrer que le gain de prcision entre le plan de Neyman et lallocation pro2
portionnelle est de lordre de Nn Var(h,c ), Var h,c dsignant ici la variance dune srie
statistique (et non dune v.a.. . . )
En pratique, on regarde si la distribution de X est symtrique par rapport la moyenne
ou non. Si oui, on utilise un sondage proportionnel, et si de loin non, on essaye un sondage
avec rpartition de Neyman.

72

4.7

CHAPITRE 4. SONDAGE STRATIFI

Un exemple

On dispose dune population de 1060 entreprises, et on cherche estimer le nombre moyen


demploys de lentreprise. On effectue une stratification en prenant en compte des tranches
de tailles en nombre demploys qui proviennent de documents fiscaux (le taux dimposition
ne dpendant pas du nombre exact demploys mais de la tranche dans laquelle on se trouve,
on a accs ces donnes mais pas au nombre demploys !)

4.7.1

Une allocation choisie au pif

On effectue un sondage alatoire simple sans remise dans chaque strate, et on veut un
chantillon de taille totale n = 300. Les donnes rcoltes sont fournies par le tableau
suivant :
Tranche de taille
09
1019
2049
50-499
500 et plus
Total

Nh
500
300
150
100
10
1060

ch
5
12
30
150
600

s2h,c
1,5
4
8
100
2500

nh
130
80
60
25
5
300

Lestimation par lestimateur stratifi vaut


bst =
Une estimation de sa variance est 0, 055.

4.7.2

1
(5.500+12.300+ +10.2500)
1060

= 29, 8.

Avec une allocation proportionnelle

On cherche prsent reprendre cet exemple en effectuant une allocation proportionnelle.


300
. On devrait alors avoir les effectifs nh suivants :
Alors pour toute strate, Nnhh = 1060
Tranche de taille
Nh
nh

09
500
142

1019
300
85

2049
150
42

50-499
100
28

500 et plus
10
3

total
1060
300

Lestimation de la variance serait alors de 0, 086. Autrement dit, lallocation proportionnelle


est ici moins bonne que celle de la sous-section prcdente.

4.7.3

Avec une allocation optimale

On devrait ici avoir


nh = 300.

Nh .sh,c
.
5
P
Nh sh,c
h=1

73

4.7. UN EXEMPLE
Autrement dit, la rpartition devrait tre :
Tranche de taille
Nh
nh

09
500
59

1019
300
57

2049
150
41

50-499
100
96

500 et plus
10
48

total
1060
301

Dans la classe des entreprises de plus de 500 employs, on devrait sonder les 48 entreprises
alors quil ny en a que 10 ! Par consquent on les incorpore toutes les 10 dans lchantillon,
Nh .sh,c
et on reprend les calculs pour les 4 premires strates, avec nh = 290. P
. On obtient :
4
Nh sh,c

h=1

Tranche de taille
Nh
nh

09
500
67

1019
300
66

2049
150
47

50-499
100
110

500 et plus
10
10

total
1060
300

Dans la classe des entreprises de 50 499 employs, on retrouve le mme problme que
prcdemment. On sondera donc toutes les entreprises de cette classe, et on recommence,
pour trouver :
Tranche de taille
Nh
nh

09
500
71

1019
300
70

2049
150
49

50-499
100
100

500 et plus
10
10

total
1060
300

Maintenant tout marche ! Lestimation de la variance de lestimateur est ici 0, 01 : lallocation optimale fournit bien une meilleure prcision que les deux allocations prcdentes
(la variance a t divise par plus de 5 par rapport lallocation proportionnelle !).

74

CHAPITRE 4. SONDAGE STRATIFI

Chapitre 5
Sondage par grappes
Il peut arriver que la base de sondage ne soit pas connue, mais que lon dispose dune
information sur des paquets dindividus. Par exemple, une enqute portant sur lensemble
des habitants dun pays ncessiterait une liste de tous les habitants, ce qui nexiste pas
a priori. Mais il est facile de se procurer une liste des communes, qui elles disposent en
gnral dune liste des habitants, ou au-moins des logements.
Lobjectif du sondage par grappes est donc de raliser un sondage sans construire compltement la base de sondage ni connatre ncessairement la taille de la population. On peut
galement sen servir pour utiliser de linformation auxiliaire, mais lobjectif de la constitution des grappes est de rduire les cots de sondage, surtout lorsquelles sont construites
gographiquement.
Le sondage par grappes constitue le dual du sondage stratifi : on stratifie, mais on choisit
un chantillon de strates (appeles ici grappes) dans lesquels on fait un recensement. Dans
le chapitre prcdent, on faisait le contraire : stratifier puis faire dans toutes les strates un
sondage !

5.1

Principes et notations

Commenons par fixer les notations.


Dfinition 5.1.1 :
On partitionne la population U en G sous-ensembles appels grappes :
U :=

G
[

Ug

et Ug Ui = i.

g=1

On remarque que cette notion est identique celle de strate. Lobjectif ntant pas le
mme, on change de dnomination et de notations ! !
75

76

CHAPITRE 5. SONDAGE PAR GRAPPES

On note Ng leffectif de la grappe Ug , de sorte que Wg :=


grappe Ug dans la population.
G
P

On a

Ng
N

reprsente le poids de la

Ng = N .

g=1

Remarquons que
T =

Xk =

g=1 kUg

kU

et

G X
X

Xk =

G
X

Tg

g=1

G
G
1 XX
1 X
1 X
Xk =
Xk =
Ng g ,
=
N kU
N g=1 kU
N g=1
g

o Tg :=

Xk reprsente le total au sein de la grappe g et g :=

kUg

Tg
Ng

reprsente la

moyenne au sein de cette mme grappe.


Notons enfin g2 :=
2
g,c
=

1
Ng

2
la variance corrige :
(Xk g )2 la variance de la grappe g, et g,c

kUg

Ng
2.
Ng 1 g

Dfinition 5.1.2 :
On dit que le plan est par grappes si :
on slectionne un chantillon de grappes SG au moyen dun plan pG . On note m le
nombre de grappes ainsi slectionnes ;
on observe ensuite tous les individus des grappes slectionnes (autrement dit on
fait un recensement dans chaque grappe).
S
Lchantillon est alors donn par S :=
Ug .
P gSG
Lchantillon S est de taille nS :=
Ng .
gSG

Remarque 5.1.3 :
Il faut prter attention ce que nS est alatoire mme quand m ne lest pas ! En
gnral, on ne sait pas combien dindividus on va atteindre !

77

5.2. CAS GNRAL

5.2

Cas gnral

Comme dhabitude, on commence par calculer les probabilits dinclusion des individus.
Celles-ci dcoulent immdiatement des probabilits dinclusion G des grappes. Ainsi :
si lindividu k appartient la grappe g, k = Gg ;
si k et ` appartiennent la mme grappe g, k` = Gg ;
si k et ` appartiennent deux grappes distinctes g et h, alors k` = Gg Gh .
On trouve hlas les problmes craints au dbut de ce cours : la taille de lchantillon
est alatoire, et les conditions de Sen-Yates-Grundy ne sont pas satisfaites quand deux
2
Gg = Gg (1Gg ).
individus k et ` sont dans la mme grappe g puisque k ` k` = Gg

Dfinition 5.2.1 :
Les -estimateurs de T et sont respectivement donns par :
c :=
T

X Tg
Gg
gS

et
c :=

1 X Ng g
.
N gS Gg
G

Remarque 5.2.2 :
N tant gnralement inconnu dans ce contexte, on utilise plutt lestimateur de
Hjek pour estimer la moyenne, comme annonc au chapitre 1.

Proposition 5.2.3 :
La variance du -estimateur de T est donne par
c =
Var T

G
G X
G
X
X
Tg2
Tg Th
(1 Gg ) +
(Ggh Gg Gh )

Gg
Gg
Gh
h=1
g=1
g=1
h6=g

que lon peut estimer sans biais par :


X Tg2
X X Tg Th (Ggh Gg Gh )
\
c1 :==
Var T
(1

)
+
.
Gg
2

Gg
Gh
Ggh
Gg
gS
gS hS
G

G
h6=g

78

CHAPITRE 5. SONDAGE PAR GRAPPES

Proposition 5.2.4 :
Si le nombre m de grappes slectionnes est fixe, alors la variance du -estimateur
de T scrit
2
G
G 
1 X X Tg
Th
c
Var T =

(Gg Gh Ggh )
2 g=1 h=1 Gg Gh
h6=g

que lon peut estimer sans biais par :



2
1 X X Tg
Th
(Gg Gh Ggh )
\
c
Var T2 =

.
2 gS hS
Gg Gh
Ggh
G

5.3
5.3.1

G
h6=g

Tirage des grappes probabilits gales


Cas gnral

On a alors Gg =

m
G

et Ggh =

m(m1)
G(G1)

pour toutes grappes g et h.

Proposition 5.3.1 :
La taille de lchantillon est alors alatoire, et vaut en moyenne

Nm
.
G

Dmonstration :

!
E(nS ) = E

P
gSG

Ng

P
gUg

Ng m
=
G

Nm
.
G

Proposition 5.3.2 :
c :=
Le -estimateur du total vaut alors : T

G
m

Tg .

gSG

Remarque 5.3.3 :
Dans ce cas, il est nouveau prfrable dutiliser le ratio de Hjek pour estimer la
moyenne.

5.3.2

Cas de grappes de taille fixe

Si toutes les grappes ont la mme taille (ncessairement N


), la taille de lchantillon est
G
fixe et vaut NGm . Dans ce cas, il ny a pas de difficult avec les -estimateurs. Celui de la
moyenne vaut :
G X
1 X

c :=
Ng g =
g
N m gS
m gS
g

79

5.4. TIRAGE PROPORTIONNEL AUX TAILLES DES GRAPPES


qui nest autre que la moyenne des moyennes par grappes.

5.4

Tirage proportionnel aux tailles des grappes

Il peut arriver que les totaux des grappes soient corrls avec leur taille, auquel cas il peut
tre judicieux de choisir les Gg proportionnels la taille Ng .
Les probabilits de slection sont donc Gg :=
quantits soient toutes plus petites que 1.

mNg
N

g = 1 . . . , G, en supposant que ces

Remarque 5.4.1 :
La taille nS de lchantillon est toujours alatoire, de moyenne

m
N

Ng2 .

gUg

Proposition 5.4.2 :
P
Le estimateur de la moyenne vaut
c = m1
g .
gSG
c = N P g .
Le estimateur du total vaut T
m
gSG

Remarque 5.4.3 :
Si on cherche estimer une constante C, g = C et

1
m

C = C : on ne rencontre

gSG

plus le problme dj rencontr, et il est inutile dutiliser un estimateur de Hjek.


c et
On peut dduire des formules classiques concernant les -estimateurs la variance de T
son estimation.
Proposition 5.4.4 :
Si le nombre m de tailles slectionnes est fixe, alors :


G X
G
2 X
N
mN
mN
g
h
2
c ) =
Var(T
(g h )
Ggh
2m2 g=1 h=1
N N
h6=g

que lon estime par :




N 2 X X (g h )2 mNg mNh
\
c
Var(T ) =
Ggh .
2m2 gS hS
Igh
N N
G

G
h6=g

80

CHAPITRE 5. SONDAGE PAR GRAPPES

Chapitre 6
Sondage plusieurs degrs
Lide du sondage plusieurs degrs consiste effectuer des tirages successifs. Il sagit
la fois dune gnralisation du sondage stratifi et du sondage par grappes : on effectue un
sondage pour choisir des groupes dindividus et un second pour choisir les individus !

6.1
6.1.1

Principe et notations
Gnralits

Dfinition 6.1.1 :
On commence par slectionner un certain nombre de regroupements dunits, appeles units primaires, souvent par sondage probabilits ingales. Dans un second
temps, dans chaque unit primaire, on choisit un chantillon dunits, appeles units
secondaires, souvent par sondage probabilits gales.

Dfinition 6.1.2 :
On obtient ainsi un sondage deux degrs.

Remarque 6.1.3 :
Cette dfinition se gnralise bien sr des plans de sondages d N degrs.
Dans ce chapitre, nous ne nous intresserons, pour des questions de lourdeurs de notations,
qu des plans de sondage deux degrs.

81

82

CHAPITRE 6. SONDAGE PLUSIEURS DEGRS

Exemples 6.1.4 :
1. On peut effectuer des contrles dobjets en sondant certains lots.
2. Pour les enqutes sur des mnages, la base de sondage est gnralement une
liste de logements. La mise jour de cette base tant longue et coteuse, on
slectionne des units primaires gographiques (communes. . . ) pour lesquelles
on fait un suivi de la base de sondage. On slectionne alors les units secondaires
dans ces communes.

6.1.2

Notations

Notation 6.1.5 :
On suppose que la population U := {1, . . . , N } est compose de M sous-ensembles
(Ui )16i6M qui forment les units primaires. Chaque unit primaire Ui est compose
de Ni units secondaires ou individus.
On choisit un chantillon dunits primaires SI de taille m selon un plan pI (sI ). Ainsi,
P(SI = sI ) = pI (sI ) et SI est de taille m.
Si une unit primaire Ui est slectionne, on y slectionne un chantillon Si de taille
ni dunits secondaires au moyen dun plan pi (si ). Ainsi, P(Si = si ) = pi (si ) et Si est
de taille ni .
Remarque 6.1.6 :
Les plans deux degrs doivent possder les proprits dinvariance et dindpendance. Linvariance signifie que P(Si = si ) = P(Si = si |SI ) : les plans du second
degr ne dpendent pas de ce qui sest pass au premier degr. Lindpendance signifie que les tirages du second degr sont indpendants les uns des autres.
S
Ainsi, lchantillon alatoire est S :=
Si .
iSI

Dfinition 6.1.7 :
Le total calcul au sein de la population peut scrire :
T :=

X
kU

Xk =

M X
X

o
Ti :=

Xk

kUi

est le total calcul au sein de lunit primaire i.


De la mme faon :

Xk =

i=1 kUi

M
X
i=1

Ti

83

6.1. PRINCIPE ET NOTATIONS


Dfinition 6.1.8 :
La moyenne calcule au sein de la population peut scrire :
M
M
1 X
1 XX
1 X
:=
Xk =
Xk =
Ni i
N kU
N i=1 kU
N i=1
i

o
i :=

1 X
Xk
Ni kU
i

est le total calcul au sein de lunit primaire i.


Enfin :
Dfinition 6.1.9 :
La variance calcule au sein de lunit primaire i peut scrire :
i2 :=

1 X
(Xk i )2
Ni kU
i

et la variance corrige

Ni
I2 .
Ni 1
P
La taille de lchantillon S est ici n :=
ni .
2
ic
=

iSI

6.1.3

Probabilits dinclusion

On note Ii la probabilit dinclusion pour le premier tirage, cest--dire la probabilit de


slectionner lunit primaire Ui . On note Iij la probabilit de slectionner conjointement
les units primaires Ui et Uj . On a ainsi
(
Iij Ii Ij si i 6= j
Iij :=
Ii (1 Ii ) si i = j.
On note k|i la probabilit de slectionner lunit secondaire k tant donn que lunit
primaire i a t slectionne, et k`|i la probabilit de slectionner conjointement les units
secondaires k et ` tant donn que lunit primaire i a t slectionne. Ainsi :
(
k`|i k|i `|i si k 6= `
i = 1, . . . , M, k`|i :=
ki (1 k|i )
si k = `.
La probabilit dinclusion dordre un dun individu pour lensemble du plan est alors le
produit de la probabilit de slectionner lunit primaire contenant cet individu par la
probabilit de slectionner cet individu dans lunit primaire :
k = Ii k|i .

84

CHAPITRE 6. SONDAGE PLUSIEURS DEGRS

Pour les probabilits dinclusion dordre 2, il faut utiliser les proprits dinvariance et
dindpendance :
Si deux individus k et ` appartiennent la mme unit primaire Ui , alors la probabilit
dinclusion dordre deux vaut k` = Ii k`|i .
Si deux individus k et ` appartiennent deux units primaires distinctes respectivement
Ui et Uj , alors la probabilit dinclusion dordre deux vaut k` = Iij k|i `|j .
Remarquons que le cas particulier o les Ii valent tous 1 est celui des sondages stratifis,
tandis que pour un sondage en grappes les k|i valent tous 1.

6.2

Le -estimateur

Commenons par donner les expressions du -estimateur du total T et de celui de la


moyenne .
Dfinition 6.2.1 :
Le -estimateur du total est donn par
c :=
T

XX
iSI kSi

X
Xk
=
Tc
i
Ii k|i iS
I

o Tc
i est le -estimateur de Ti :
Tc
i =

X Xk
,

k|i
iS
i

et le -estimateur de la moyenne par :

c :=

1 X X Xk
.
N iS kS Ii k|i
I

Proposition 6.2.2 :
Le -estimateur est un estimateur sans biais de T .

85

6.2. LE -ESTIMATEUR
Proposition 6.2.3 :
Dans un plan deux facteurs, le -estimateur a pour variance :
c = VU P + VU S
Var T
o VU P est le terme de la variance se rapportant aux units primaires :
VU P :=

M X
M
X
Ti Tj
i=1 j=1

Ii Ij

Iij ,

et VU S est le terme de la variance se rapportant aux units secondaires :


VU S :=

M
X
Var Tc
i
i=1

et
i = 1, . . . , M, Var Tc
i =

Ii

X X Xk X`
k`|i .

k|i `|i
kU `U
i

Dmonstration :

Il est ncessaire de travailler par conditionnement : crivons


c = Var E(T
c |SI ) + E Var(T
c |SI ).
Var T
c |SI ) en utilisant linvariance :
Commenons par le premier terme. Calculons E(T
!
!
!


X Tc
X
X
X Ti
c
c
T
T
i
i
i
E
E
E
=
SI =
SI =
Ii
Ii
Ii
Ii
iS
iS
iS
iS
I

do
X Ti
c |SI ) = Var
Var E(T
Ii
iS

M X
M
X
Ti Tj
=
Iij .

i=1 j=1 Ii Ij

Le second terme se calcule en utilisant les deux proprits dindpendance et dinvariance :


!
!

X
X Var Tc
X Tc
c
Ti
i
i
Var
Var
SI =
SI =
2
Ii
Ii
Ii
iS
iS
iS
I

donc
c |SI ) = E
E Var(T

X Var T
c
iSI

2
Ii

!
=

M
X
Var Tc
i
i=1

Ii

86

CHAPITRE 6. SONDAGE PLUSIEURS DEGRS

Remarquons que dans le cas dun plan stratifi, le premier terme de la variance disparat,
puisquon slectionne lensemble des units primaires. Dans le cas dun plan par grappes,
on slectionne toutes les units secondaires et cest le second terme qui disparat.
Un estimateur de cette variance est donn par :
Proposition 6.2.4 :
Dans un plan deux degrs,
\
c = Vc
c
Var1 T
A + VB ,
c , o Vc
est un estimateur sans biais de Var T
A est le terme de variance calcul au
niveau des units primaires (avec Iii = Ii ) :
Vc
A =

X X Tc
c
i Tj Iij
,
Ii Ij Iij
iS jS
I

et Vc
B est le terme de variance calcul au niveau des units secondaires :
Vc
B =

\
X Var
Tc
i
Ii

iSI

et, avec k`|i = k|i ,


X X Xk X` k`|i
\
Var Tc
i =
k|i `|i k`|i
kS `S
i

Dmonstration :

(
2
Var Tc
i + Ti
c
On commence par remarquer que E(Tc
i Tj |SI ) =
Ti Tj
que :

EVc
A = EE

!

X X Tc
c
i Tj Iij
SI
Ii Ij Iij
iS jS
I

=E

X X Ti Tj Iij
iSI jS

si i = j
. On en dduit
si i =
6 j

M X
M
X
i=1 j=1

Ii Ij Iij

Ti Tj
Iij +
Ii Ij

M
X
i=1

X Var Tc
i
iSI

2
Ii


Var Tc
i

!
(1 Ii )


1
1 .
Ii

6.3. LE CAS DES TIRAGES PROBABILITS GALES

87

Dautre part
!
X Var
\
Ti
SI
Ii

EVc
B = EE

iSI

=E

X E(Var
\
Ti |SI )
Ii

iSI

X Var
\
Ti

=E

iSI

M
X

Ii

Var Tc
i

i=1

M
X
Var Tc
i
i=1

Ii

M
X
i=1



1
Var Tc
.
i 1
Ii

c
c
On a donc bien EVc
A + EVB = Var T .
Remarque 6.2.5 :
c
Signalons que Vc
A nest pas un estimateur sans biais de VU P et que VB nest pas un
estimateur sans biais de VU S . Le premier surestime VU P et est en pratique suprieur
au second.

6.3

Le cas des tirages probabilits gales

Supposons les plans de sondage des units primaires et secondaires simples sans remise.
Les probabilits dinclusion pour le premier tirage vaut donc :
Ii =

m
M

et

Iij =

m(m 1)
.
M (M 1)

Pour le second tirage, la taille des chantillons des units primaires tant ni , la probabilit
dinclusion pour lensemble du plan de sondage vaut :
k =

mni
.
M Ni

Dfinition 6.3.1 :
Le -estimateur vaut alors :
X X Ni
c = M
T
Xk .
m iS kS ni
I

88

CHAPITRE 6. SONDAGE PLUSIEURS DEGRS

Proposition 6.3.2 :
La variance du -estimateur vaut :
c = M
Var T


 2
M
2
MX 2
ni i,c
m  I,c
+
;
1
N 1
M m
m i=1 i
Ni ni

o
2
I,c

2
M 
1 X
T
:=
Ti
M 1 i=1
M

et

2
i,c
:=

1 X
(Xk i )2 .
Ni 1 kU
i

Proposition 6.3.3 :
Un estimateur de cette variance est alors
 2

M
 s2

X
si,c
m
M
n
\
i
I,c
2
2
c = M 1
;
Var T
+
Ni 1
M m
m i=1
Ni ni
o
s2I,c :=

1
m1

M
X
i=1

c
T
Tc
i
M

!2
et

s2i,c :=

1
ni 1 kU

On peut bien sr imaginer beaucoup dautres cas particuliers ! !

Tc
i
Xk
Ni

!2
.

Troisime partie
Les mthodes de redressement

89

Chapitre 7
Stratification a posteriori
Comme nous lavons vu prcdemment, un sondage bien stratifi est plus prcis quun
sondage alatoire simple.
Il arrive que lon puisse croiser les rsultats dun sondage avec des donnes existantes et
dont on na pas profit lors de llaboration du plan de sondage.
On va alors essayer de redresser lchantillon. La mthode de stratification a posteriori est
lune des mthodes de redressement dchantillon sur une variable qualitative.

7.1

Le principe

On tudie un caractre X sur une certaine population U dans laquelle on connat la


distribution dun autre caractre Y .
On suppose que lchantillon na pas t stratifi a priori, et on va relever, pour chaque
individu chantillonn, le couple (Xi , Yi ). On dfinira ensuite des strates selon les valeurs
de Y , puis on repondrera les donnes par les poids vritables des strates sur Y .
Si le critre Y est corrl avec X, on aura une reprsentativit plus fidle, et sans doute
des rsultats plus fiables.
Cest pour cette raison que beaucoup de sondages comportent des questions annexes,
comme le nombre de personnes du mnage, la catgorie socio-professionnelle, les caractristiques du logement. . .

7.2

Les formules

Ici, tout se passe comme pour une stratification a priori, mais les effectifs nh sont des
quantits qui ne sont pas fixes lavance : elles dpendent de lchantillon ! Ainsi, les
91

92

CHAPITRE 7. STRATIFICATION A POSTERIORI

tailles nh sont des quantits alatoires. Les calculs (de biais. . . ) vont donc reposer sur des
calculs conditionnels !
h
> 30, ce qui garantit
En gnral, on veille choisir les strates de telle sorte que nN
N
raisonnablement labsence de nh nuls ! On supposera dans la suite que tel est le cas !

7.2.1

Estimateur de la moyenne

Dfinition 7.2.1 :
Un estimateur de la moyenne est donn par :

bpost :=

H
X
Nh
h=1

bh ,

1 X
Xi .
nh iS

bh =

Proposition 7.2.2 :
Eb
post = et
H
P
Nh 2
Var
bpost ' 1f
+
n
N h,c
h=1

1f
n2

H
P
h=1

N Nh 2
h,c .
N

pour n grand.

Dmonstration faire en exercice!

7.2.2

Estimateur du total

Dfinition 7.2.3 :
Un estimateur du total T est donn par :
Tbpost =

H
X

Nh
bh .

h=1

Proposition 7.2.4 :
ETbpost = T , et,pour n grand,
H
P
2
Var Tbpost ' N 1f
Nh h,c
+
n
h=1

1f
n2

H
P

(N

2
Nh )h,c


.

h=1

Dmonstration :

En fait, ce nest pas tout fait vrai, mais a lest si aucun nh nest nul !

93

7.2. LES FORMULES

Les effectifs post-stratifis nh sont des variables alatoires suivant des lois hypergomtriques H(n; Nh ; N Nh ) car on choisit sans remise dans une population de N individus
dont Nh sont dans la strate h, et N Nh ny sont pas n individus. Ainsi, Enh = n NNh et
h N n
.
Var nh = n NNh N N
N
N 1
Nous pouvons prsent passer la dmonstration proprement parler.
Il sagit bien sr de conditionner par rapport nh , puisque dans chaque strate on effectue
un sondage alatoire simple pour lequel les calculs ont dj t faits ! (Lestimateur
ch est
en particulier un estimateur sans biais de h .)
On commence par crire
E(Td
post |nh ) =

H
X

Nh E(c
h |nh ) =

h=1

H
X

Nh h = T

h=1

d
Donc ETd
post = E(Tpost |nh ) = E(T ) = T .
Pour la variance, on utilise la formule (bien connue ?) :
d
d
Var(Td
post ) = Var E(Tpost |nh ) + E Var(Tpost |nh ).
Le premier terme est nul en vertu des calculs faits juste au-dessus. Il suffit donc de calculer
la variance conditionnelle. Mais comme conditionnellement aux nh le plan est simple sans
remise, on a
H
X
Nh nh 2
d
Var(Tpost |nh ) =
Nh
h,c .
nh
h=1
En prenant lesprance, il vient
Var(Td
post ) =

H
X



1
2
Nh Nh E 1 h,c
.
n
h
h=1

Il suffit donc de calculer lesprance de n1h . La variable alatoire tant au dnominateur,


on va faire un dveloppement limit. On crit :
1
1
1
=
.
nh
Enh 1 (1

nh
)
E(nh )

1
1
.
,
Enh 1

nh
nh
o := 1 En
=1 N
.
nNh
h
On remarque que est une v.a. centre, de variance

Var nh
Nh N Nh N n N 2
N n N Nh
=
n
=
.
2
2
N
N
N 1 n2 Nh
n Nh (N 1)
(Enh )

94

CHAPITRE 7. STRATIFICATION A POSTERIORI

Si n est grand, Nnn ' 0 et donc tend vers 0 en probabilit. On peut donc faire un
dveloppement limit en probabilit lordre 2, ce qui permet dcrire :

E

1
nh

1
E(1 + + 2 )
Enh
1
(1 + E + Var )
'
Enh
N
N (N Nh ) N n
'
+
.
Nh n Nh n
Nh
n
'

Il suffit deffectuer la substitution pour obtenir le rsultat attendu.

7.3

Comparaison avec un sondage alatoire simple

Rappelons que, comme nous lavons vu en comparant sondage alatoire simple et sondage
stratifi proportionnel,
pour N grand,
H

H
P
P
2
1f
Nh 2
Nh
Var
b' n
+
(h ) .
N h,c
N
h=1

h=1

Par consquent,
H

X Nh
1 X N Nh 2
n
(Var
b Var
bpost ) '
(h )2
h,c .
1f
N
n
N
h=1
h=1
La stratification a posteriori est justifie si cette dernire quantit est positive. Finalement,
il faut :
1. que la variable tudie soit corrle avec le critre de stratification,
2. que n soit assez grand : on ne repondre pas les petits chantillons,
3. Nh /N doit tre assez grand : il est inutile davoir beaucoup de petites strates.

7.3. COMPARAISON AVEC UN SONDAGE ALATOIRE SIMPLE


Exemple 7.3.1 :
On sintresse au revenu annuel moyen en milliers deuros. On effectue un sondage
alatoire simple sans remise dans la population, mais on relve galement lge des
personnes sondes. On obtient le tableau de rsultats suivant, o F reprsente la
frquence des individus interrogs appartenant la classe dge indique :
ge
F
revenu

< 20 ans
0, 15
12

21 35 ans
0, 3
18

36 50 ans
0, 3
30

> 50 ans
0, 25
24

En fait, la rpartition thorique des ges dans la population est la suivante :


ge
Ftheo

< 20 ans
0, 2

21 35 ans
0, 35

36 50 ans
0, 3

> 50 ans
0, 15

Sans redresser, le revenu annuel moyen est estim par la moyenne des observations,
i.e.
b = 0, 15 12 + 0, 3 18 + 0, 3 30 + 0, 25 24 = 22, 2 milliers deuros.
En effectuant le redressement, on obtient lestimation d
post = 0, 2 12 + 0, 35 18 +
0, 3 30 + 0, 15 24 = 21, 3 milliers deuros. Sans stratification a posteriori, on aurait
donc surestim le salaire annuel, en raison de la prsence dans lchantillon de trop
de personnes en fin de carrire, avec des salaires plus levs. Le rsultat est alors plus
prcis, comme on la vu prcdemment.

95

96

7.4

CHAPITRE 7. STRATIFICATION A POSTERIORI

Redressement sur critres multiples

Supposons que lon naie des renseignements, non pas sur un, mais sur deux caractres auxiliaires qualitatifs. Le premier permet de stratifier la population en H strates U1 , . . . , uh , . . . , UH ,
et le second permet de la stratifier en I strates U1 , . . . , Ui , . . . , UI . On obtient ainsi une
stratification croise :
U11
..
.

. . . U1i
..
.

. . . U1I
..
.

U1
..
.

Uh1 . . . Uhi . . . UhI Uh


..
..
..
..
.
.
.
.
UH1 . . . UHi . . . UHI UH
U1 . . . Ui . . . UI
U
On note Nhi leffectif de la strate Uhi . Les Nhi sont supposs inconnus. Par contre on
suppose que lon connat les effectifs marginaux Nh et Ni de Uh et Ui .
Un algorithme permettant de rsoudre ce genre de problmes est lalgorithme de calage
sur marges, appel aussi mthode itrative du quotient. On considre de faon tout--fait
gnral le tableau ajuster :
a11
..
.

. . . a1i
..
.

. . . a1I
..
.

a1
..
.

ah1 . . . ahi . . . ahI ah


..
..
..
..
.
.
.
.
aH1 . . . aHi . . . aHI aH
a1 . . . ai . . . aI a
On cherche ajuster ce tableau en un tableau proche mais ayant les marges respectives
bh et bi .
On commence par ajuster les totaux en ligne, en remplaant ahi par ahi abh
.
h
bi
On ajuste ensuite les totaux en colonne, en remplaant ahi par ahi ai .
On recommence jusqu convergence.
En pratique, lalgorithme converge trs vite, et on dpasse rarement la dizaine dtapes.
On peut montrer quil y a toujours une solution si ahi > 0 pour tous h et i. De plus, il est
quivalent de caler dabord les lignes ou les colonnes.

7.4. REDRESSEMENT SUR CRITRES MULTIPLES


Exemple 7.4.1 :
On sintresse la population de logements locatifs dans laquelle on cherche estimer
le loyer moyen une date donne. On tire n = 1000 logements selon un sondage
alatoire simple sans remise, dans une base de sondage qui permet de disposer pour
chaque logement du nombre de pices et de lanne dachvement du logement. Dans
la population, 43% des logements ont t construits avant 1948, 36% entre 1948 et
1975 et 21% aprs 1975. De plus, 15% des logements sont des 1 pice, 30% des deux
pices et 55% des logements ont au-moins trois pices.
Pour lchantillon, on observe les rsultats suivants :
Avant 1948
De 1948 1975
Aprs 1975
Total

1 pice
80
90
10
180

2 pices
170
80
80
330

> 3 pices
150
210
130
490

Total
400
380
220
1000

Faisons tourner lalgorithme cit. On a b1 = 430, b2 = 360, b3 = 210, b1 =


150, b2 = 300 et b3 = 550.
Le premier ajustement sur les lignes donne :
Avant 1948
De 1948 1975
Aprs 1975
Total

1 pice
86
85,263
9,545
180,8

2 pices
182,750
75,789
76,364
334,9

> 3 pices
161,250
198,947
124,091
483,4

Total
430
360
210
1000

Les marges ne sont pas encore bonnes, on ajuste sur les colonnes :
Avant 1948
De 1948 1975
Aprs 1975
Total

1 pice
71,346
70,734
7,919
150

2 pices
163,704
67,891
68,405
300

> 3 pices
183,130
225,942
140,928
550

Total
418,1
364,6
217,3
1000

Et on recommence. Vous pouvez trouver la suite dans [1] ! Au bout de la neuvime


itration, on obtient :
Avant 1948
De 1948 1975
Aprs 1975
Total

1 pice
73,008
69,380
7,601
150

2 pices
167,641
66,649
65,710
300

> 3 pices
189,351
223,960
136,688
550

Total
430
360
210
1000

Il ny a plus dvolution par la suite. On estimera donc que 7, 3% des logements de


1 pice ont vraiment t construits avant 1948, etc,. . . pour calculer lestimation du
loyer !

97

98

CHAPITRE 7. STRATIFICATION A POSTERIORI

Chapitre 8
Mthodes de redressement utilisant un
caractre quantitatif
Lestimation par le quotient a le mme but que la stratification a posteriori, mais pour des
variables qualitatives. Lobjectif est ici aussi de redresser lchantillon.

8.1

Principe et notations

Nous cherchons ici aussi estimer le total TX (ou la moyenne X ) dune variable X sur
la population U . Supposons que lon connaisse, pour une seconde variable Y dfinie sur la
mme population, le total TY (ou la moyenne Y ). Comme souvent, il est plus ais de faire
les calculs pour le total, ce qui vite les problmes de population de taille inconnue.
Si le caractre Y est li au caractre X, il peut tre intressant de construire un estimateur
de TX utilisant TY .
2
2
Notons X,c
et Y,c
les variances corriges respectives de X et Y dans la population
P
1
2
(Xk X)2 ), et XY,c la covariance corrige de X et Y : XY,c =
(donc X,c := N 1
kU
P
1
(X

)(Y
k
X
k Y ).
N 1
kU

En gnral, les sondages sont effectus


en utilisant P
un plan simple sans remise, les P
N
N
d
d
estimateurs tant alors TX, := n
Xi et TY, = n
Yi . On notera galement d
X, :=
iS
iS
P
1
2
2
Xi , d
Y, lanalogue pour Y . Enfin SX,c , SY,c et SXY dsigneront respectivement la
n
kS

variance corrige empirique (sur S) de X, celle de Y et la covariance de X et Y .


99

100

8.2

CHAPITRE 8. ESTIMATION PAR LE QUOTIENT

La mthode destimation par la diffrence

Il est bas sur lide que lcart entre TX et son estimateur est gal celui entre TY et son
estimateur :
Dfinition 8.2.1 :
Lestimateur de TX par la diffrence est donn par :
d
d
[
T
X,D := TX, + TY TY, .
Proposition 8.2.2 :
[
[
ET
X,D = TX , Var TX,D =

N (N n)
2
(X,c
n

2
+ Y,c
2XY,c ).

Dmonstration faire en exercice!

Proposition 8.2.3 :
Un estimateur sans biais de la variance de lestimateur est donn par :
N (N n) 2
\
2
[
(SX,c + SY,c
2SXY,c ).
Var T
X,D =
n

8.3

La mthode destimation par le quotient

Lide est ici dexploiter une relation de proportionnalit :


Dfinition 8.3.1 :
Lestimateur du total TX par la mthode de lestimation par le quotient est alors :
Td
X,
[
T
:=
T
.
.
X,Q
Y
d
TY,
Exemple 8.3.2 :
On effectue un sondage concernant la quantit moyenne dun certain produit fabriqu en un mois par des entreprises dans un chantillon dtablissements industriels
appartenant un mme groupe. On observe une moyenne de c
X := 23550 objets.
On suppose que la fabrication de tels objets est lie la consommation dun autre
produit, dont c
Y := 3225 objets ont t consomms durant le mme mois par les
entreprises formant lchantillon. Or on sait que la quantit moyenne de ce second
produit utilis dans tous les tablissements du groupe est Y := 3350.
On va donc estimer la quantit moyenne dobjets produits X par
[
X,Q :=
3350
23550. 3225
= 24463.

101

8.3. LA MTHODE DESTIMATION PAR LE QUOTIENT

[
Nous allons voir que lestimateur T
X,Q est en gnral biais, mais quil est parfois plus
prcis que Td
X, .
d
Dans la formule prcdente, Td
X, et TY, sont deux estimateurs, donc des variables alatoires, ce qui va compliquer les calculs.

8.3.1

Biais de lestimateur et risque quadratique

Proposition 8.3.3 :
Lorsque n est suffisamment grand,
2
XY,c
N n RY,c
N n
[
E(T
TX
= TX +
X,Q ) ' TX +
n
TY
n

o R :=

TX
.
TY

2
Y,c
XY,c

2
TY
TX TY


,

et lerreur quadratique moyenne de cet estimateur vrifie :


EQM (Td
X, ) '

N (N n) 2 2
2
(R Y,c 2RXY,c + X,c
),
n

que lon peut estimer par


N (N n) 2 2
\
XY,c + S 2 ).
(R SY,c 2RS
EQM (Td
X, ) :=
X,c
n
Dmonstration :

Commenons par crire :

d
d
Td
Td
Td
X,
X, r TY,
X, r TY,
[
T
TX = TY
=
X,Q TX = TY .
1+
Td
Td
Y,
Y,

o :=

Td
Y, TY
TY

tend vers 0 quand n tend vers + (car Td


Y, est convergent. . . ). Un

102

CHAPITRE 8. ESTIMATION PAR LE QUOTIENT

dveloppement limit donne alors


d
d
[
T
X,Q TX ' (TX, RTY, )(1 )
d
= (Td
X, RTY, )
1
TY
1
=
TY
1
=
TY
1
=
TY
=




2TY Td
Y,
TY

d
dd
d
2Td
X, TY 2RTY, TY TX, TY, + RTY,

2
2
2
d
dd
d
R(Td
Y, 2TY TY, + TY ) RTY + 2TX, TY TX, TY,


2
d
d
d
d
d
d
R(Td

T
)

T
T
+
T
T
+
T
T

T
T
+
(
T
T

T
T
)
Y,
Y
X Y
X, Y
Y, X
X, Y,
X, Y
Y, X


2
d
d
d
d
R(Td
Y, TY ) (TX, TX )(TY, TY ) + (TX, TY TY, TX ) .


En prenant lesprance, comme les -estimateurs sont sans biais, il vient alors :


1 
d
d
d
[
R Var(TY, ) Cov(TX, TY, ) .
E TX,Q TX '
Y


Dans notre cas, on effectue des tirages selon un plan simple sans remise, ce qui donne le
rsultat.
2
[
[
Lerreur quadratique moyenne EQM T
X,Q = E(TX,Q TX ) . Comme nous lavons dj vu,
d 2
cette quantit quivaut, pour n grand, E(Td
X, RTY, ) . On peut alors achever, comme
prcdemment :

2
d
d
[
EQM TX,Q ' E (TX, TX ) R(TY, TY )
2
d
d d
' Var Td
X, + R Var TY, 2R Cov(TY, , TX, )
N (N n) 2
2
(X,c + R2 Y,c
2RXY,c ).
'
n

Remarque 8.3.4 :
Le biais est de lordre de n1 , donc ngligeable pour des gros chantillons.
Si le coefficient de variation de Y est petit, le biais de Td
Q, est ngligeable devant
c
Var TY .

8.3.2

Comparaison avec un sondage alatoire simple

En reprenant les calculs faits dans la section prcdente, EQM (b


P ESR ) EQM (xQ ) >
2
0 2RXY,c R2 Y,c
> 0. Le redressement par le quotient est donc intressant lorsquil
existe une relation proche de la proportionnalit entre X et Y .

8.4. LA MTHODE DESTIMATION PAR LA RGRESSION

103

En pratique, on estime ce terme et on effectue le redressement sil est strictement positif.


On peut remarquer que les calculs effectus plus haut sadaptent des tirages autre que le
tirage alatoire simple sans remise. On peut en particulier envisager le cas des chantillons
stratifis.

8.4

La mthode destimation par la rgression

On utilise ici une relation affine entre X et Y :


Dfinition 8.4.1 :
Lestimateur du total TX par la mthode de lestimation par la rgression est alors :
d b
d
Td
X,R := TX, + b(TY TY, ),
o bb =

SXY
SY2

Le biais de cet estimateur ne peut pas tre calcul exactement, mais les techniques de
la dmonstration faite dans le cas de lestimateur par le quotient permettent dcrire les
approximations suivantes :
Proposition 8.4.2 :
d
ETd
X,R ' TX et EQM TX,R '

8.5

N (N n) 2
X (1
n

2 ) o =

XY
X Y

Comparaison des mthodes

Si la population est de taille importante, lestimateur par la rgression est le meilleur. Mais
il ncessite lestimation du coefficient de rgression. Il peut donc tre prfrable dutiliser
lune des deux autres mthodes.

104

CHAPITRE 8. ESTIMATION PAR LE QUOTIENT

Annexes

Annexe A
Ralisation informatique
Dans ce chapitre, nous voquons rapidement quelques mthodes de ralisation des sondages
rencontrs prcdemment. Nous renvoyons [11] et [9] pour les dtails et dautres mthodes.

A.1

Mthode de tirage systmatique avec remise

On pose v0 := 0 et vk := vk1 + Pk . On obtient ainsi une subdivision v0 < v1 < . . . <


vN = 1. On gnre une observation u dune variable continue de loi uniforme sur [0, 1], et
on slectionne lunit k telle que vk1 6 u < vk . On rpte nfois cette opration de faon
indpendante pour obtenir lchantillon.
Remarquons que lon est confront au mme problme que dans le cas du sondage alatoire
simple avec remise, savoir que lon tient compte de linformation lie la multiplicit des
units.
Une variante de ce plan consiste rejeter lchantillon ds lors quune unit est slectionne
plus dune fois, ce qui prsente dautres problmes. . .

A.2

Mthodes de tirage sans remise

A.2.1

Cas du tirage probabilits gales

Tirage successif des units


Lide naturelle dans ce cas l est de procder ainsi :
slectionner probabilits gales 1/N une unit de la population et la supprimer de la
population ;
slectionner probabilits gales 1/(N 1) une unit de la population et la supprimer
de la population ;
continuer ainsi jusqu avoir slectionn n individus.
Hlas, cette procdure est dlicate appliquer une base de sondage relativement grande.
107

108

ANNEXE A. RALISATION INFORMATIQUE

Mthode de tri alatoire


Elle consiste trier au hasard le fichier de donnes composant la population. On affecte
chaque individu de la population un nombre slectionn selon une loi uniforme sur [0, 1].
On trie ensuite le fichier par ordre croissant, et on prend les n premiers individus. Hlas,
il faut trier tout le fichier, ce qui peut tre long.
Tirage systmatique des units
Il sagit dune mthode fort peu couteuse : on tire au hasard un rel u [0, 1] et on pose
k := N/n. Lchantillon est alors compos des units E(ku), E(k(u + 1)) + 1, . . . , E(k(u +
n1))+1. Cette mthode peut savrer trs mauvaise dans le cas o la variable tudie a des
variations priodiques de priode sous-multiple de k. Elle est par contre trs intressante
dans le cas o deux units voisines se ressemblent. . .

A.2.2

Cas des tirages probabilits ingales

Tirage successif des units


Cette mthode ne peut hlas pas se gnraliser aux probabilits ingales. En effet, on
montre quil faudrait remplacer les probabilits dinclusions par des probabilits modifies,
mais de faon complexe et mme impossible pour n > 2 !
Sondage systmatique
Comme dans le cas du tirage sans remise probabilits gales, il sagit de la mthode la
plus conomique et la plus simple utiliser. On pose ici aussi v0 := 0 et vn+1 := vn + n+1 .
On gnre u selon une loi uniforme sur [0, 1[. On choisit ui1 si vi1 1 6 u < vi1 , puis uik si
vik 1 6 u + (k 1) < vik . . . On sarrte avec u + (n 1).
Exemple A.2.1 :
On se donne une population de taille N = 10 dans laquelle on veut prlever un
chantillon de taille n = 4 sans remise avec les probabilits dinclusion suivantes :
i
i

1
0,1

2
0,4

3
0,2

4
0,3

5
0,6

6
0,1

7
0,9

8
0,8

9
0,4

10
0,2

On obtient donc les vi suivants :


i
vi

0
0

1
0,1

2
0,5

3
0,7

4
1

5
1,6

6
1,7

7
2,6

8
3,4

9
3,8

10
4

Supposons que le nombre alatoire u [0, 1[ tir soit 0, 2. Ainsi u + 0 = 0, 2


[v1 , v2 [; u + 1 = 1, 2 [u4 , u5 [; u + 2 = 2, 2 [u6 , u7 [ et u + 3 = 3, 2 [u7 , u8 [. Les
individus interroger sont donc les individus 2, 5, 7 et 8.

Annexe B
Les dveloppements limits en
probabilit

Nous avons parfois t amens, dans les chapitres prcdents, effectuer des dveloppements limits. Ceux-ci ont t effectus sur des fonctions de variables alatoires, ce qui
pose des problmes pour la dtermination des restes. Loutil adquat pour faire ces tudes
est, comme dans le cas rel, celui des suites ngligeables ou domines, mais en probabilit.

Dfinitions B.0.2 :
Soit (Xn ) une suite de v.a., et (hn ) une suite de nombres rels strictement positifs.
1. On dit que (Xn ) est ngligeable devant (hn ) en probabilit (ou que (hn ) est
prpondrante devant (Xn ) en probabilit), ce que lon note Xn = oP (hn ) si :
Xn
= 0.
n+ hn
lim

2. On dit que (Xn ) est domine par (hn ) en probabilit, ce que lon note Xn =
OP (hn ) si :
> 0, M > 0, n N, P(|Xn | > M hn ) 6 .

Un certain nombre daffirmations bien connues pour des suites relles restent vraies dans
ce cas. Dune part pour la ngligeabilit :

109

110

ANNEXE B. LES DVELOPPEMENTS LIMITS EN PROBABILIT

Thorme B.0.3 :
Soient (Xn ) et (Yn ) deux suites de v.a. Soient (hn ) et (gn ) deux suites de rels
strictement positifs. Soient enfin a R et > 0.
On suppose Xn = oP (hn ) et Yn = oP (gn ). Alors :
1. aXn = oP (hn ) ;
2. |Xn | = oP (hn ) ;
3. Xn Yn = oP (hn gn ) ;
4. Xn + Yn = oP (max(hn , gn )).
Dautre par pour la domination :
Thorme B.0.4 :
Soient (Xn ) et (Yn ) deux suites de v.a. Soient (hn ) et (gn ) deux suites de rels
strictement positifs. Soient enfin a R et > 0.
On suppose Xn = OP (hn ) et Yn = OP (gn ). Alors :
1. aXn = OP (hn ) ;
2. |Xn | = OP (hn ) ;
3. Xn Yn = OP (hn gn ) ;
4. Xn + Yn = OP (max(hn , gn )).
Rappelons que lun des principaux outils dtude de la convergence en probabilit (du
moins dans le contexte de ce cours) est lingalit de Markov (parfois sous la version de
Bienaym-Tchebychev). Elle permet de dmontrer les deux thormes suivants :
Thorme B.0.5 :
Soit (Xn ) une suite de v.a. relles,
et (hn ) une suite de rels strictement positifs.
2
Si EXn = O(hn ), alors Xn = OP ( hn ).
Dmonstration :

Soit > 0. Comme EX2n = O(hn ), il existe M > 0 tel que n, EX2n 6 M hn . En apE|X|2
pliquant lingalit
de
Markov
sous
la
version
:
P(|X|
>
t)
6
, il vient, en prenant
t2

M
M > et t := M hn :
P(|Xn | >

p
EX2n
M hn
M hn ) 6
6
6 .
M hn
M hn

Thorme B.0.6 :
Soit (Xn ) une suite de v.a. relles, et (hn ) une
positifs.
suite de rels strictement

Si E (Xn EXn )2 = O(hn ) et EXn = O( hn ), alors Xn = OP ( hn ).

111
Dmonstration :



Il suffit dcrire EX2n = E (Xn EXn )2 + (EXn )2 = O(hn ) en vertu du thorme prcdent.
Exemple B.0.7 :
Si (Xn ) est une suite de v.a. i.i.d et
bn :=
 
OP 1n .

1
n

n
P
i=1

Xi , alors Var
bn =

2
.
n

Ainsi
bn =

Signalons enfin que la formule de Taylor sapplique galement :


Thorme B.0.8 :
Soient > 1 un rel, I un intervalle, x0 un point intrieur I et f une fonction
drivable fois sur I, dont les drives successives sont continues en x0 . Soit (hn )
une suite de rels strictement positifs qui tend vers 0. Soit enfin (Xn ) une suite de
v.a. telle que Xn = x0 + OP (hn ). Alors :
f (Xn ) = f (x0 ) +

1
X
i=1

(Xn x0 )i

f (i) (x0 )
+ OP (hn ).
i!

112

ANNEXE B. LES DVELOPPEMENTS LIMITS EN PROBABILIT

Bibliographie
[1] Pascal Ardilly. Les techniques de sondage. Technip, 2006.
[2] Pascal Ardilly and Yves Till. Exercices corrigs de mthodes de sondage. Ellipses,
2003.
[3] Gilles Dowek. Peut-on croire les sondages ? Les petites pommes du savoir. Le
pommier, 2002.
[4] Jean-Jacques Droesbeke. lments de statistiques. Universit de Bruxelles. 2001.
[5] Anne-Marie Dussaix and Jean-Marie Grosbras. Exercices de sondage, avec aidemmoire et solutions. Economica, 1982.
[6] Anne-Marie Dussaix and Jean-Marie Grosbras. Les sondages : principes et mthodes. Number 701 in Que sais-je ? Presses universitaires de France, 1996.
[7] Alain Garrigou. Livresse des sondages. La dcouverte, 2006.
[8] Christian Gourieroux. Thorie des sondages. Economica, 1981.
[9] Jean-Marie Grosbras. Mthodes statistiques des sondages. Economica, 1987.
[10] Myriam Maumy-Bertrand. Cours de sondages, M2 Stat.
www-irma.u-strasbg.fr/mmaumy, 2008-2009.
[11] Yves Till. Thorie des sondages. Dunod, 2001.

113