Vous êtes sur la page 1sur 82

Anne Universitaire 2008-2009

Service Universitaire dEnseignement Distance


Campus La Harpe - Avenue Charles Tillon
CS 24 414 - 35 044 RENNES Cedex
Tel : 02 99 14 14 15 / 20
Mel : sued-contact@uhb.fr

Licence A E S - Troisime anne


UEF2 - Semestre 5

Enqute et Sondage
Laurent Rouvire

Code cours : E4A5F221

Prambule
Rsum : En prsence dune taille de population trs leve, on a souvent recours un
plan de sondage pour valuer une caractristique prcise de cette population. Dit brtalement, le sondage consiste mesurer la caractre sur une partie de la population (appele
chantillon). Le statisticien doit ensuite tendre les tendances observes sur lchantillon
la population entire. Une telle procdure soulve plusieurs difficults telles que le choix
des personnes sonder ou encore leur nombre. Plusieurs plans de sondage sont prsents
dans ce cours. La mise en oeuvre pratique ainsi que les proprits mathmatiques de ces
diffrents plans sont tudis en dtail. Les diffrents concepts sont illustrs par de nombreux
exemples et exercices.
Mots cls :
stratifis.

plan de sondage alatoire - estimateur - biais - variance - plan simple - plans

Prrequis Les diffrents thmes de la statistique abords en premire et deuxime anne


de licence sont ncessaires la comprhension de ce cours. Plus prcisement les notions
de variables alatoires, biais et variance dun estimateur ainsi que dintervalle de confiance
doivent tre maitrises.
Objectifs dapprentissage
Etre capable de choisir un chantillon de manire judicieuse avant de raliser le plan
de sondage
Savoir prsenter les rsultats dun sondage, donner par exemple des marges derreurs
(ou un niveau de confiance)
Modalits dapprentissage Ce polycopi est compos de
Trois chapitres de cours illustrs par des exemples et des exercices en fin de chapitre ;
Les corrections des exercices se trouvent en Annexe B.
De propositions de devoirs en Annexe C et D.
Conseils mthodologiques
Les notations utilises peuvent paratre complexes. Travailler toujours avec un exemple
en tte et relier les notations avec lexemple que vous avez choisi.
Refaire chacun des exemples prsents dans le cours avant de passer aux exercices.
Le fait davoir les corrections des exercices peut savrer dangereux. Regarder les uniquement pour vrifier vos rponses ou lorsque vous avez pass un temps suffisamment
long sur la question.
Venez aux stages... Il est en effet difficile de faire des mathmatiques uniquement sur
un polycopi. Lors des stages, jessaie de rsumer chacun des chapitres en une heure et
quart environ avant de passer des exercices types.

Nhsitez pas menvoyer par courrier les devoirs que vous avez faits. Vous pouvez
posez des questions sur la copie, jy rpondrai.. Rdigez proprement.
Vous pouvez menvoyer par mail vos questions sur ce cours, jy rponds assez rapidement
en gnral ( condition que les questions soient bien dtailles...)
Si vous avez de grandes difficults de comprhesion, vous pouvez passer mon bureau
(contactez moi avant pour tre sr que je sois la !).
Modalits dvaluation Vous aurez un examen crit de deux heures en fin danne
universitaire. Vous naurez droit aucun document, seulement une calculatrice. Un formulaire sera distribu.

Bon courage...

Table des matires


1 Introduction
1.1 Quest-ce quun sondage . . . . . . . . . . .
1.2 Modlisation et notation . . . . . . . . . . .
1.3 Les estimateurs sont des variables alatoires
1.4 Plan de sondage et qualit dun estimateur .

.
.
.
.

2 Sondage alatoire simple


2.1 Dfinition du plan de sondage alatoire simple
2.1.1 Plans avec ou sans remise . . . . . . .
2.1.2 Plan alatoire simple . . . . . . . . . .
2.1.3 Rcapitulatif - Notations . . . . . . . .
2.2 Estimation de la moyenne . . . . . . . . . . .
2.2.1 Estimation ponctuelle . . . . . . . . .
2.2.2 Estimation par intervalle de confiance .
2.3 Estimation dune proportion . . . . . . . . . .
2.3.1 Estimation ponctuelle . . . . . . . . .
2.3.2 Estimation par intervalle de confiance .
2.4 Taille dchantillon . . . . . . . . . . . . . . .
2.4.1 Cas de la moyenne . . . . . . . . . . .
2.4.2 Cas de la proportion . . . . . . . . . .
2.5 Exercices . . . . . . . . . . . . . . . . . . . . .
3 Sondages stratifis
3.1 Principe et justification . . . . . . . . . . .
3.2 Plan de sondage stratifi . . . . . . . . . .
3.3 Estimateur de la moyenne . . . . . . . . .
3.3.1 Un exemple . . . . . . . . . . . . .
3.3.2 Cas gnral . . . . . . . . . . . . .
3.4 Rpartition de lchantillon . . . . . . . . .
3.4.1 Plan avec allocation proportionnelle
3.4.2 Plan avec allocation optimale . . .
3.5 Exercices . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

3
3
4
5
6

.
.
.
.
.
.
.
.
.
.
.
.
.
.

9
9
9
9
10
11
11
14
15
16
16
17
17
18
20

.
.
.
.
.
.
.
.
.

23
23
24
26
26
27
27
28
32
35

A Intervalle de confiance pour une moyenne dans un plan de sondage alatoire simple
39
AES-Sondage

Laurent Rouvire

B Correction des exercices

41

C Sujet Licence AES 3 : juin 2006 (assidus)

53

D Sujet Licence AES 3 : septembre 2006 (assidus)

57

E Sujet Licence AES 3 : mai 2007 (non assidus)

61

F Sujet Licence AES 3 : mai 2008 (non assidus)

65

G Sujet Licence AES 3 : juin 2008 (non assidus)

69

H Un dernier problme...

73

Chapitre 1
Introduction
1.1

Quest-ce quun sondage

Il existe deux approches pour connatre les caractristiques statistiques dun caractre sur
une population.
Le recensement est lapproche descriptive. Il consiste mesurer le caractre sur toute
la population.
Le sondage est lapproche infrentielle. Lorsque le recensement nest pas possible pour
des raisons de cot, de temps ou cause de certaines contraintes (test destructif par
exemple), on a recours un sondage, cest--dire ltude statistique sur un sousensemble de la population totale, appel chantillon. Si lchantillon est constitu
de manire correcte, les caractristiques statistiques de lchantillon seront proches de
celles de la population totale.
Exemple 1.1
Je dsire connatre lge moyen de TOUS les tudiants de Rennes 2.
Recensement : je demande lge tous les tudiants et je calcule la moyenne... a risque
dtre long ! ! !
Sondage : je choisis une partie des tudiants (chantillon), je calcule la moyenne des
ges sur cette partie en esprant que cette moyenne soit proche de lge moyen de
tous les tudiants.
Nous voyons sur cet exemple que la mise au point dun sondage ncessite plusieurs choix
pour le statisticien :
comment choisir les tudiants ?
combien dtudiants doit-on choisir ?
comment doit-on formuler la rponse :
sous la forme dune valeur, cest dire que lon donne une estimation de lge moyen
sous la forme dun rel (24.8 ans par exemple) ;
sous la forme dun ensemble de valeurs. On pourra par exemple donner une fourchette
ou un intervalle ([23.4 ;26.3] par exemple).
est-ce que lestimation est satisfaisante ? Dit autrement suis-je capable de donner une
estimation de lerreur commise par la prdiction. On pourra par exemple dire lge
moyen des tudiants de Rennes 2 se trouvent dans lintervalle [23.4 ;26.3] avec un
niveau de confiance de 95%..
AES-Sondage

Laurent Rouvire

Introduction
Lobjectif de ce cours consiste tudier des procdures de sondage pour lesquelles nous
pourrons rpondre ces questions. Nous allons dans ce chapitre prsenter le contexte, les
notations ainsi que les critres permettant dvaluer la qualit dun sondage. Nous proposerons dans les chapitres 2 et 3 diffrentes mthodes de sondage permettant destimer des
moyennes et proportions.

1.2

Modlisation et notation

Nous prsentons dans cette partie le cadre dtude et introduisons les notations qui seront
utilises tout au long de ce cours.
On sintresse une population U composs dindividus ou units (tudiants de Rennes
2). Chaque unit est reprsente par un numro allant de 1 N :
U = {U1 , . . . , UN } = base de sondage.
On souhaite valuer une caractristique de la population (lge par exemple). On note Xi
la valeur de ce caractre mesur sur lindividu i (Xi est donc ici lge du ime individu). On
peut utiliser un sondage pour estimer lge moyen
N
1 X
Xi .
=
N i=1

Une autre caractristique souvent tudie est le total


T =

N
X

Xi .

i=1

On peut galement sintresser une proportion dindividus qui vrifie un certain critre.
Dans ce cas, Xi prendra deux valeurs :
1 si lindividu Ui satisfait le critre ;
0 sinon.
La proportion dindividus appartenant la catgorie qui nous intresse sera alors :
N
1 X
p=
Xi .
N i=1

Exemple 1.2
Considrons le cas dun sondage lectoral. On sintresse la proportion dindividus votant
pour un candidat A. On dfinit alors Xi la variable qui prend pour valeurs :
1 si lindividu Ui vote pour un candidat A ;
0 sinon.
Le nombre dindividus qui votent pour A est
n
X

Xi ,

i=1

Laurent Rouvire

AES-Sondage

1.3 Les estimateurs sont des variables alatoires


on en dduit que la proportion dindividus qui votent pour A est
p=

N
1 X
Xi .
N i=1

Pour diffrentes raisons (cots, temps...), on ne peut pas mesurer la caractristique sur tous
les individus. Par consquent les paramtres , T ou p sont inconnus. On slectionne alors
un sous ensemble de la population U constitu de n units de la population (n N ) (voir
Figure 1.1). Ce sous-ensemble est appel chantillon et sera not E.

1
0
1
0
1
0
0
1

1
0
0
1
1
0
0
1
1
0
0
1

1
0
0
1
1
0
0
1

Fig. 1.1 Population compose de N = 20 individus (gauche) dans laquelle on slectionne un


chantillon de n = 8 individus reprsents par des ronds noirs (droite).
On dsignera par x1 , . . . , xn les valeurs de la caractristique (ge) observes sur lchantillon.
Ces valeurs sont connues, et tout le problme consiste dsormais estimer les paramtres
inconnus partir des valeurs mesures sur lchantillon (qui elles sont connues).
Exemple 1.3
Un moyen naturel destimer la moyenne consiste prendre la moyenne observe sur
lchantillon :
n
1X
x =
xi .
n i=1
Le total T sera quant lui estim par

t=

n
X

xi .

i=1

1.3

Les estimateurs sont des variables alatoires

Considrons lexemple suivant.


AES-Sondage

Laurent Rouvire

Introduction
Exemple 1.4
Nous disposons dune population compose de N = 5 individus. Nous nous posons le
problme de connatre lge moyen de ces individus. Pour certaines raisons, on ne peut
demander lge qu n = 2 individus qui constitueront lchantillon (bien entendu, une telle
situation ne se produit jamais en ralit...). Le statisticien propose destimer lge moyen
des 5 tudiants par lge moyen
des deux tudiants de lchantillon.
Supposons que lge des 5 tudiants soit : 15, 25, 18, 14, 20. Si lchantillon est constitu par
les deux premiers individus, lestimation de sera 15+25
= 20. Si maintenant lchantillon
2
est constitu des deux derniers individus alors lestimation vaudra 14+20
= 17. Nous voyons
2
clairement que la valeur de
va dpendre des individus prsents dans lchantillon. Cest en
ce sens que nous affirmons que lestimateur
est une variable alatoire (il peut prendre
diffrentes valeurs suivant lchantillon choisi).
Ce qui est alatoire dans un sondage est le fait quun individu donn appartienne
ou non lchantillon.
Dans la suite, pour les diffrents plans de sondage que nous tudierons, nous noterons les
estimateurs avec des chapeaux (voir la tableau suivant).

Moyenne
Total
Proportion

1.4

Vraie valeur

T
p

Estimateur

T
p

Plan de sondage et qualit dun estimateur

Nous nous plaons dans le cas de lestimation de la moyenne dune certaine caractristique
sur une population. Tous les concepts tudis dans cette partie sont galement valables pour
lestimation dun total ou dune proportion. Nous rappelons que
U = (U1 , . . . , UN )
dsigne la population ou la base de sondage et nous noterons
E = (u1 , . . . , un )
un sous-ensemble de u de taille n N qui constituera lchantillon. Le problme consiste
construire un estimateur
de partir de lchantillon.
Comment tre sr que
soit proche de .
Elments de rponse :
si n est proche de N , alors lchantillon est proche de la population. n joue donc un
rle dans la rponse.
E doit reprsenter U . Si par exemple est le revenu annuel moyen de la population
franaise et que lchantillon est constitu dun groupe dtudiants, il sera difficile de
construire un estimateur
qui sera proche de .
Laurent Rouvire

AES-Sondage

1.4 Plan de sondage et qualit dun estimateur


Plusieurs questions peuvent tre poses concernant le choix de E :
Comment sassurer que E soit reprsentatif de U ? En contrlant la faon dont il est
slectionn.
Mais U est inconnu : comment faire pour que E ressemble U ? Le problme est
insoluble. Au mieux, on peut seulement maximiser les chances que E reprsente U .
Comment maximiser les chances ? En utilisant un sondage probabiliste.
Dfinition 1.1
Un plan de sondage est une procdure permettant de slectionner un chantillon E dans
une population U . Un plan de sondage est dit probabiliste ou alatoire si chaque individu
de la population U a une probabilit connue de se retrouver dans lchantillon E.
Dans les chapitres venir, nous nous intresserons diffrents plans de sondage alatoires.
Pour un plan donn, un estimateur
de la moyenne sera construit sur lchantillon. La
qualit du sondage est mesure par la qualit de lestimateur.
Nous avons vu dans la partie prcdente que pour un plan de sondage alatoire, lestimateur

est une variable alatoire. On va donc pouvoir calculer son esprance et sa variance. Ces
deux quantits seront utilises pour mesurer la qualit de lestimateur.
Dfinition 1.2
On dfinit le biais dun estimateur
par :
B(
) = E(
) .
Ainsi, on dira que
est un estimateur sans biais de si
B(
) = 0

E(
) = .

Dit autrement,
tombe en moyenne sur sa cible .
Remarque
Dire que lestimateur est sans biais ne veut pas dire que le rsultat soit exact. Avant
de raliser lchantillon, on ne connat pas la valeur de
, on sait seulement que cest
une variable alatoire qui en moyenne vaut .
Dire que lestimateur est sans biais revient dire que la valeur moyenne de
sur tous
les chantillons possibles est la vraie valeur .
Sur la Figure 1.2, nous schmatisons cette notion de biais. La vraie valeur de est la cible
atteindre (carr). Les points dsignent les diffrentes valeurs de lestimateur
suivant
lchantillon.
Lestimateur de gauche est sans biais : la valeur moyenne de toutes les valeurs
est gale
la cible . Ce nest clairement pas le cas pour lestimateur associ la figure de droite.
Pour un estimateur sans biais
, il est aussi utile de savoir comment lensemble des valeurs
possibles de
se rpartit autour de la cible , si elles en sont proches ou sil y a un risque
de tomber sur une combinaison malheureuse (un mauvais chantillon).
AES-Sondage

Laurent Rouvire

Introduction

Fig. 1.2 Un exemple destimateur sans biais (gauche) et biais (droite).

Fig. 1.3 Deux exemples destimateur sans biais : gauche la variance est faible, droite elle
est leve.
Les deux estimateurs schmatiss sur la Figure 1.3 sont sans biais. Nous voyons cependant
que les valeurs de
pour lestimateur de gauche sont plus proches de que pour celui de
droite. On prfrera ainsi lestimateur de gauche celui de droite.
La dispersion de
autour de se mesure par la variance de lestimateur :
gauche, la variance est faible les diffrentes valeurs de
sont faiblement disperses
autour de .
droite, la variance est leve les diffrentes valeurs de
sont fortement disperses
autour de .
Le tableau ci-dessous rsume la mesure de la qualit de lestimateur en fonction de son biais
(esprance) et de sa dispersion (variance).
Qualit
bonne
mauvaise

Biais Dispersion
faible
faible
leve
leve

Pour des plans de sondage alatoires, la difficult consiste rechercher des estimateurs sans
biais (ventuellement de biais faible), et de variance minimale.

Laurent Rouvire

AES-Sondage

Chapitre 2
Sondage alatoire simple
2.1

Dfinition du plan de sondage alatoire simple

Le sondage alatoire simple est le modle dchantillonnage en apparence le plus simple que
lon puisse imaginer : il consiste considrer que, dans une population deffectif N , tous les
chantillons de n units sont possibles avec la mme probabilit.

2.1.1

Plans avec ou sans remise

Dfinition 2.1
Un plan de sondage est dit avec remise si un mme individu peut apparatre plusieurs fois
dans lchantillon et si lordre dans lequel apparaissent les individus compte.
Exemple 2.1
P = {1, 2, 3, 4, 5}, n = 3. Lchantillon {1, 1, 2} est diffrent de lchantillon {1, 2, 1}.
Dans le cas dun plan avec remise, il y a N n chantillons possibles.
Dfinition 2.2
Un plan de sondage est dit sans remise si un mme individu ne peut apparatre quune
seule fois dans lchantillon.
Dans lexemple prcdent, lchantillon {1, 1, 2} nest donc pas possible.
Dans le cas dun plan sans remise, il y a CNn =

N!
chantillons possibles.
n!(N n)!

La plupart du temps, nous nous intresserons aux plans sans remise : interroger deux fois le
mme individu napporte pas dinformation supplmentaire. Cependant, il nest pas inintressant de considrer parfois des plans avec remise, ne serait-ce que pour servir dlment
de comparaison et de rfrence.

2.1.2

Plan alatoire simple

Dfinition 2.3 (Plan simple)


Un plan de sondage alatoire est dit simple, ou probabilits gales, si chaque chantillon
a la mme probabilit quun autre dtre tir au sort.
AES-Sondage

Laurent Rouvire

10

Sondage alatoire simple


Exemple 2.2
Dans le cas dun plan simple sans remise, un chantillon de taille fixe n a donc une proba1
n!(N n)!
bilit gale n =
dtre tir au sort. Si N = 5 et n = 2, cette probabilit est
CN
N!
232
1
donc gale
= .
5432
10

Proposition 2.1 (Probabilit dinclusion)


Tous les individus ont la mme probabilit dtre slectionns dans lchantillon et cette
probabilit est gale Nn .

2.1.3

Rcapitulatif - Notations

Remarque (trs importante)


Les donnes concernant la population toute entire (Xi pour tous les i, , T , p...) sont
inconnues et dterministes (puisque lon a pas accs aux informations concernant
toute le population) ;
En revanche, les valeurs obtenues partir de lchantillon sont connues et alatoires. Elles dpendent en effet du hasard puisquelles varient dun chantillon alatoire
un autre, et elles sont connues puisque lon dispose des informations ncessaires pour
les calculer sur lchantillon.
Le tableau suivant rcapitule les notions relatives la population et lchantillon.

Population U
inconnu, dterministe

chantillon E
connu, alatoire

N
N
1 X
Xk
=
N k=1
N
X
T =
Xk = N

n
n
1X
x =
xk
n k=1
n
X
t=
xk = n
x

Taille
Moyenne
Total
Variance
Variance corrige

2 =

k=1
N
X

1
N

(Xk )2

k=1
N
X

1
S =
(Xk )2
N 1 k=1
N
=
2
N 1
2

k=1

1 X
s =
(xk x)2
n 1 k=1
2

Rappels : moyenne et cart-type Pour toute variable alatoire X, on peut calculer sa


moyenne et son cart-type.
P
valeur
Moyenne =
Effectif total
Laurent Rouvire

AES-Sondage

11

2.2 Estimation de la moyenne


Variance =

P
(valeur- moyenne)2
valeur2
=
moyenne2
Effectif total
Effectif total

Ecart-type = Variance

On rappelle que lcart-type donne une ide de la dispersion des donnes autour de la
moyenne.
Remarque (trs importante)
La moyenne x observe sur lchantillon est une variable alatoire qui prend des valeurs
diffrentes dun chantillon un autre. On peut donc calculer son esprance et sa variance
( ne surtout pas confondre avec la variance du caractre dans la population note 2 ou
dans lchantillon note s2 ).

2.2
2.2.1

Estimation de la moyenne
Estimation ponctuelle

On va estimer par une valeur


.
Problme : Trouver une mthode qui nous permette de donner une estimation de
partir de lchantillon slectionn par un plan de sondage alatoire simple ?
Solution : Dans ce chapitre, nous estimons la moyenne par la moyenne observe sur
lchantillon. On appelle estimateur de la formule qui nous permet de calculer une
estimation du paramtre inconnu (). Dans le cas que nous tudions, lestimateur de , que
nous noterons
nest rien dautre que x :
n

1X
xi = x.
n i=1

(2.1)

Exemple 2.3
On dispose de N = 5 jetons portant les valeurs -1, 2, 4, 10, 20.
1. Calculer la moyenne et la variance de la valeur sur toute la population ( = 7,
2 = 55.1, = 7.43).
2. On souhaite estimer la moyenne calcule prcdemment par un sondage alatoire
simple (a na aucun sens, juste mieux comprendre le problme). On tire un chantillon
de taille n = 2 sans remise. tablir la liste de tous les chantillons possibles, et calculer
la moyenne pour chacun deux.
Ech
{1, 2}
{1, 4}
{1, 10}
{1, 20}
{2, 4}
AES-Sondage

ou x
0.5
1.5
4.5
9.5
3

Ech
{2, 10}
{2, 20}
{4, 10}
{4, 20}
{10, 20}

ou x
6
11
7
12
15

Laurent Rouvire

12

Sondage alatoire simple


3. Calculer lesprance de la variable alatoire ainsi obtenue.
Soit xi (i = 1, 2) la variable alatoire correspondant la valeur du ime jeton dans
lchantillon. La moyenne empirique des xi est lestimateur

=x=

x1 + x2
.
2

Cet estimateur est une variable alatoire dont la loi est donne par :
Valeurs de
ou x
Probabilits

0.5
0.1

1.5
0.1

4.5
0.1

9.5
0.1

3
0.1

6
0.1

11
0.1

7
0.1

12 15
0.1 0.1

Les probabilits sont gales car on est dans un plan alatoire simple (tous les chantillons ont la mme probabilit). On dduit ainsi lesprance et la variance de X.
E(x) = 7,

V(x) = 20.7.

Exemple 2.4
Une socit bancaire souhaite mener une tude approfondie auprs des particuliers ayant
un compte chez elle : il sagit de prparer le lancement dun nouveau produit financier.
La socit dispose dun fichier de N (N grand) clients et ltude par sondage doit porter
sur n (n < N ) dentre eux. Pour illustrer les proprits du SAS, nous allons simplifier
lextrme : supposons que le fichier comporte N = 5 titulaires de comptes et prlevons un
chantillon deffectif n = 2. A la date de ltude, les dpts sur ces 5 comptes sont, en
millier de francs : 13, 15, 17, 25, 30. La moyenne de ces 5 valeurs est gale = 20. On
suppose que lorganisme charg de lenqute ignore ces montants et se fixe pour objectif
dvaluer leur moyenne partir de deux valeurs quil constatera sur lchantillon.
1. tablir la liste de tous les chantillons possibles et calculer la moyenne pour chacun
deux.
Ech
{13, 15}
{13, 17}
{13, 25}
{13, 30}
{15, 17}

Ech
{15, 25}
{15, 30}
{17, 25}
{17, 30}
{25, 30}

x
14
15
19
21.5
16

x
20
22.5
21
23.5
27.5

2. Calculer lesprance et la variance de la variable alatoire ainsi obtenue.


Soit xi (i = 1, 2) la variable alatoire correspondant la valeur du i-me compte
prleve. La moyenne empirique des xi
x=

x1 + x2
2

est une variable alatoire dont la loi est donne par :


Valeurs de x
Probabilits

14
0.1

15
0.1

19 21.5
0.1 0.1

16
0.1

20 22.5
0.1 0.1

21 23.5
0.1 0.1

27.5
0.1

On dduit ainsi lesprance et la variance de X.


E(x) = 20,

Laurent Rouvire

V(x) = 15.6.

AES-Sondage

13

2.2 Estimation de la moyenne


Nous remarquons que pour les exemples 2.3 et 2.4, lestimateur
est sans biais. Le thorme
suivant montre que ceci est toujours le cas pour un plan de sondage alatoire simple.
Thorme 2.1
Soit
lestimateur dune moyenne pour un plan de sondage alatoire simple dfini par
(2.1). On a alors
E(
) = .
Dit autrement,
est un estimateur sans biais de , cest dire quil tombe en moyenne
sur sa cible .
On peut utiliser ce rsultat pour calculer directement lesprance de
dans les exemples
2.3 et 2.4.
Il est aussi utile de savoir comment lensemble des rsultats possibles (lensemble des
moyennes des chantillons) se rpartit autour de la cible , sils en sont proches, ou sil
y a un risque de tomber sur une combinaison malheureuse (sur un mauvais chantillon).
Pour cela, nous rappelons que la variance de
est un indice qui permet de mesurer cette
dispersion.
Thorme 2.2
Soit f le taux de sondage f = n/N . Alors
V(
) = (1 f )
On peut aussi crire
V(
) =

S2 
n  S2
= 1
.
n
N n

(2.2)

2 N n
.
n N 1

On peut vrifier laide de ce rsultat les calculs de variance de


pour les exemples 2.3 et
2.4.
Pour lexemple 2.3, on a = 7.43, N = 5, n = 2 donc
S2 =

N
5
2 = 7.432 = 69.
N 1
4

Par consquent, daprs le Thorme 2.2


S2
V(
) = (1 f )
=
n

2
1
5

69
= 20.7.
2

Remarque
La formule (2.2) permet de caractriser la prcision dun SAS (plus la variance est faible,
plus lestimateur est prcis).
Plus la taille n de lchantillon est grande, plus la variance de
diminue et donc plus
lestimateur est prcis. A lextrme, si n = N la variance est nulle. Ceci est normal,
car dans ce cas on a ralis un recensement et on connat de faon certaine la vraie
moyenne.
AES-Sondage

Laurent Rouvire

14

Sondage alatoire simple


La prcision dpend galement de la variance de la variable dintrt 2 (ou S 2 ) dans
la base de sondage. Cest une condition naturelle : plus une population est homogne
(variance faible), plus le sondage y est efficace. A lextrme, si la variance 2 est nulle
(tous les individus ont le mme ge), la variance de lestimateur est nulle et nous aurons
besoin dune seul individu pour connatre de manire parfaite. A linverse, sonder dans
une population trs htrogne ncessite des tailles dchantillons de taille importante,
ou un dcoupage au pralable en sous populations homognes (cest le principe des
sondages stratifis que nous verrons dans le chapitre 3).
Exemple 2.5
Reprenons lexemple de la socit bancaire. La socit dispose dun fichier de N = 50 000
clients et ltude par sondage doit porter sur n = 200 dentre eux. On note le montant
moyen des comptes des 5000 clients. On suppose que la variance 2 du montant est connue
et vaut 41.6. On a alors
V(
) =

2 N n
41.6 50000 200
=
0.21.
n N 1
200 50000 1

Pour un chantillon de taille 500, on obtient


V(
) =

2.2.2

41.6 50000 500


2 N n
=
0.08.
n N 1
500 50000 1

Estimation par intervalle de confiance

On cherche une fourchette de valeurs possibles pour laquelle on puisse associer un


certain degr de confiance (par exemple 95%).
Exemple 2.6
Si une enqute montre que lon peut affirmer avec un niveau de confiance de 95% que le
temps moyen pass par jour par les franais regarder la tlvision se situe entre 1h30 et
3h00, on dit que [1, 5; 3] est un intervalle de confiance 95% pour la dure moyenne passe
par jour par les franais regarder la tlvision.
Notations :
(1 ) : niveau de confiance
: risque
z1 2 : quantile dordre 1 2 de la loi normale centre rduite.
Si la variance corrige S 2 est connue :
#
"
r
i
p
(1 f ) 2
)
S
IC1 ()
z1 2 Var(
z1 2
n
h

Si S 2 est inconnue, on la remplace par une estimation :


n

1 X
n
s =
(xk x)2 =
n 1 k=1
n1
2

Laurent Rouvire

Pn

k=1

x2k


AES-Sondage

15

2.3 Estimation dune proportion


Preuve : voir Annexe A pour un rappel sur le Thorme central limite et la construction
de cet intervalle de confiance.
Rcapitulatif : Lestimation dune moyenne dun caractre sur une population de taille
se ralise de la manire suivante :
On prlve au hasard n individus parmi les N sur lesquels on mesure le caractre. On
obtient alors
P une suite de variables alatoires x1 , . . . , xn (chantillon).

= x = n1 ni=1 xi est lestimateur ponctuel de .
 2
Son esprance vaut et sa variance vaut 1 Nn Sn .
r
r


 
n S2
n S2
1 N n ,
1 N n est un intervalle de confiance de
+ z1/2

z1/2
niveau 1 pour .

Exemple 2.7
Reprenons lexemple de la socit bancaire. La socit dispose de N = 50000 clients et lorganisme charg de lenqute recueille les donnes relatives n = 200 clients. On sintresse
nouveau au montant prsent sur les comptes des clients. Par consquent le paramtre
estimer sera : le montant moyen prsent sur les comptes des 50000 clients.
Les 200 comptes sonds ont un montant moyen
= 22.5 et une variance s2 = 42.2. Calculons
lintervalle de confiance de niveau 1 = 0.95. Lintervalle est donn par :
r
r


n  s2
n  s2

z1/2
,
+ z1/2
.
1
1
N n
N n
z1/2 est la quantile dordre 1 /2 de la loi N (0, 1). Ici 1 = 0.95 donc = 0.05 et
1 /2 = 0.975. z1/2 est donc le quantile dordre 0.975 de la loi N (0, 1) que lon lit dans
la table. On trouve z1/2 = 1.96.
Un IC de niveau 0.95 est donc
"
r
22.5 1.96

#
r
42.2
42.2
, 22.5 + 1.96
= [21.6, 23.4].
200
200

Remarque
Donner une estimation par intervalle de confiance est doublement prudent ; dune part, on
ne fournit pas une valeur ponctuelle, mais une plage de valeur possibles ; dautre part, on
prvient quil existe un risque faible que la vraie valeur soit en dehors de la fourchette.

2.3

Estimation dune proportion

Une proportion peut-tre considre comme un cas particulier de la moyenne.


AES-Sondage

Laurent Rouvire

16

Sondage alatoire simple

2.3.1

Estimation ponctuelle

Exemple 2.8
Poursuivons lexemple de la socit bancaire qui souhaite raliser une enqute pour estimer
la proportion p de clients prts souscrire un nouveau produit financier. La socit dispose
de N = 50000 clients et souhaite raliser son enqute sur n = 200 clients.
Construisons la variable alatoire xi qui au ime client interrog fait correspondre la valeur
suivante :
xi = 1 si le client i a lintention de souscrire au produit ;
xi = 0 sinon.
Remarquons que xi suit une loi de Bernoulli de paramtre p. La proportion p de clients favorables est naturellement estime par la proportion p de clients interrogs (sonds) favorable.
On remarque que
n
1X
xi = x.
p =
n i=1

Ainsi en utilisant les Thormes 2.1 et 2.2, on montre que :


E(
p) = p
et

2.3.2

N p(1 p)
S2
= (1 f )
.
V(
p) = (1 f )
n
n(N 1)

Estimation par intervalle de confiance

En suivant un raisonnement analogue au cas de la moyenne, on montre quun IC de niveau


1 pour une proportion p est donn par :
h
i
p
p
p), p + z1/2 V(
p) ,
p z1/2 V(
avec

V(
p) = (1 f )
Do lIC

N p(1 p)
S2
= (1 f )
.
n
n(N 1)

r
r
h
S2
S2 i
.
p z1/2 (1 f ) ; p + z1/2 (1 f )
n
n

(2.3)

Remarque
V(
p) dpend de la proportion p qui est inconnue. En pratique dans la formule (2.3), on
remplace V(
p) par son estimateur
2

ce qui donne lintervalle


h
Laurent Rouvire

p z1/2

p(1 p)
s
,
V (
p) = (1 f ) = (1 f )
n
n1
r

p(1 p)
, p + z1/2
(1 f )
n1

(1 f )

p(1 p) i
.
n1

(2.4)

AES-Sondage

17

2.4 Taille dchantillon


Exemple 2.9 (Calcul dun IC pour une proportion)
La banque possde N = 1 000 clients. Sur n = 200 clients interrogs, 30 se dclarent
favorable souscrire au nouveau produit financier. Dterminer un IC de niveau 0.95 pour
p.
1 = 0.95 donc z1/2 = 1.96. Sur les 200 clients interrogs, 30 sont favorables donc la
30
= 0.15. Un IC de niveau
proportion de personnes favorable sur lchantillon est p = 200
0.95 est :
s
s


h
0.15(1 0.15)
0.15(1 0.15) i
200
200
0.15 1.96
, 0.15 + 1.96
1
1
1 000
200
1 000
200
[0.106, 0.194]

2.4

Taille dchantillon

Jusqu prsent la taille dchantillon n tait fixe. Cependant, on pose souvent la question au statisticien : A partir de combien dlment un chantillon est-il valable ?. Bien
entendu, il faut dfinir ce quon entend par valable. Dans le contexte qui est le ntre, nous
conviendrons dun cart maximum tolr de lintervalle de confiance. Cest dire que nous
chercherons la taille dchantillon minimum n0 de manire ce que lintervalle de confiance
ne soit pas trop grand. Plus prcisment, nous fixons une demi-longueur h0 pour lintervalle
de confiance et nous cherchons la taille dchantillon n0 pour laquelle la demi-longueur de
lintervalle de confiance vaut h0 .

2.4.1

Cas de la moyenne

Dans le cadre de lestimation dune moyenne, on rappelle que lintervalle de confiance de


niveau 1 est donn par :


p
p

z1/2 V(
),
+ z1/2 V(
) .
z1/2

p
V(
)

+z1/2

V(
)

IC
Fig. 2.1 Intervalle de confiance.
La demi longueur de lIC vaut donc (voir Figure 2.1)
p
),
z1/2 V(
AES-Sondage

Laurent Rouvire

18

Sondage alatoire simple


ou encore
r
n  S2
1
N n
r
2
S
z1/2
n

p
) = z1/2
z1/2 V(

on considre que le taux de sondage n/N est proche de 0.

z1/2

2
n

on approche la variance corrige par la variance.

Problme : cette demi longueur dpend de la variance de tous les individus qui est incon2
nue. Une solution consiste utiliser un majorant max
de cette variance 2 (ce majorant
sera en gnral dtermin sur la base dune enqute prcdente). La demi longueur de lIC
sera alors au plus gale
r
2
max
z1/2
n
2
(on se place dans le pire des cas, cest dire celui o la variance vaut max
). Par consquent
la taille dchantillon minimum n0 telle que la demi longueur de lIC ne dpasse pas h0 sera
la solution de lquation
s
z1/2

cest--dire
n0 =

2.4.2

2
max
= h0 ,
n0

2
2
z1/2
max

h20

Cas de la proportion

Pour la proportion, on angligera le taux de sondage et on approchera la demi-longueur de


lIC par :
r
p(1 p)
.
z1/2
n
Ici le problme est que cette demi longueur dpend de la proportion p qui est inconnue.
Cependant une simple tude de fonction montre que
p [0, 1],

p(1 p) 1/4.

Par consquent, la demi longueur de lIC est au plus gale


r
1
z1/2
4n
(on se place dans le pire des cas o p(1 p) = 1/4)). La taille dchantillon minimum n0
telle que la demi longueur de lIC ne dpasse pas h0 est la solution de lquation
r
1
= h0
z1/2
4n0
Laurent Rouvire

AES-Sondage

19

2.4 Taille dchantillon


cest--dire
n0 =

AES-Sondage

2
z1/2

4h20

Laurent Rouvire

20

Sondage alatoire simple

2.5

Exercices

Exercice 2.1
Soit une caractristique X dfinie sur une population de N = 4 units.
Individu
Valeur de X

1 2
11 10

3 4
8 11

1. Calculer la valeur des paramtres suivants de la population : la moyenne, la variance,


et la variance corrige, notes respectivement , 2 , et S 2 .
2. On tire un chantillon sans remise de taille n = 2 probabilits gales.
(a) Combien dchantillons peut-on tirer ?
(b) Pour chaque chantillon possible, calculer la moyenne x et la variance corrige
s2 obtenues sur lchantillon.
(c) Calculer E(
x), V(
x), et E(s2 ).
Exercice 2.2
Sur la population {1, 2, 3}, on considre le plan de sondage suivant :
n=2

1
1
(cest--dire que lchantillon {1, 2} a une probabilit dapparatre)
2
2
1
P({1, 3}) =
4
1
P({2, 3}) =
4
P({1, 2}) =

1. Est-ce un sondage alatoire simple ?


2. Calculer la probabilit pour que lindividu 1 fasse partie de lchantillon. Mme question pour les individus 2 et 3.
3. Calculer la valeur de lestimateur de la moyenne pour chaque chantillon possible.
4. Vrifier que cet estimateur est biais.
Exercice 2.3
On veut estimer la superficie moyenne cultive dans les fermes dun canton rural. Sur les
2010 fermes que comprend le canton, on en tire 100 par sondage alatoire simple. On mesure
(en hectares) la surface cultive xk par la ferme numro k de lchantillon et on trouve :
100
X
k=1

xk = 2907 et

100
X

x2k = 154593.

k=1

1. Donner la valeur de lestimateur de la moyenne


= x.
2. Donner un intervalle de confiance 95% pour
.

Laurent Rouvire

AES-Sondage

21

2.5 Exercices
Exercice 2.4
Un ppiniriste souhaite estimer la taille moyenne de ses arbustes dune mme varit. Sur
les 10000 plantes de la serre, on en slectionne 200 par sondage alatoire simple, puis on
mesure la hauteur de chacune de ces plantes. Les rsultats sont les suivants (en m) :
200
X

xk = 248,

k=1

200
X

x2k = 331.

k=1

1. Donner un intervalle de confiance 95% pour la taille moyenne des arbustes.


2. Le ppiniriste a de bonnes raisons de penser que lcart-type calcul sur la population
de tous les arbustes se situe entre 0.25 et 0.45 m. En ngligeant le taux de sondage,
quelle taille dchantillon doit-on retenir pour donner un intervalle de confiance 95%
ayant une demi-longueur dau plus 2 cm ?
Exercice 2.5
On souhaite estimer la quantit deau moyenne (exprime en m3 ) consomme annuellement
par les habitants dune ville donne de 100 000 habitants. On slectionne par un plan simple
un chantillon de 250 habitants. Les rsultats obtenus sont les suivants :
n
X
i=1

xi = 15 125

n
X

x2i = 921 310.

i=1

1. Traduire en quelques mots linformation contenue dans la formule :

n
X

xi = 15 125.

i=1

2. Donner un intervalle de confiance 95% pour la quantit deau moyenne consomme


annuellement par les habitants de cette ville.
3. On sintresse maintenant la quantit totale consomme annuellement par lensemble
des habitants de la ville. Donner une estimation, puis un intervalle de confiance 95%
pour cette quantit totale.
Exercice 2.6
Dans une rgion qui possde 250 htels, on souhaite estimer la proportion dhtels deux
toiles qui ont un parking. On slectionne par plan simple 50 htels deux toiles de la rgion.
Parmi les 50 htels de lchantillon, 34 possdent un parking. Donner une estimation par
intervalle de confiance 95% de la proportion dhtels deux toiles de la rgion possdant
un parking. Mme question avec un intervalle de confiance 90%.
Exercice 2.7
Quelle taille dchantillon doit-on retenir, si on choisit un sondage alatoire simple, pour
donner un intervalle de confiance 95% ayant une demi-longueur dau plus 2% pour la
proportion de parisiens qui portent des lunettes ?
Indications
1. La taille de la population de la ville de Paris tant trs grande, on suppose que le
taux de sondage est ngligeable.
AES-Sondage

Laurent Rouvire

22

Sondage alatoire simple


2. Nayant manifestement aucune indication a priori sur la proportion recherche, on se
place dans le cas le plus dfavorable qui conduit une taille dchantillon maximale
(taille de prcaution). Montrer que cette taille maximale correspond au cas o la
vraie proportion dans population p est gale 50% (indication : tudier les variations
de la fonction f (p) = p(1p) sur lintervalle [0, 1]. Montrer quelle prend son maximum
pour p = 50%)
3. Trouver la taille dchantillon recherche.
Exercice 2.8
On souhaite raliser un sondage dopinion dans le but destimer la proportion p dindividus
qui ont une opinion favorable dune certaine personnalit politique. On suppose que la
taille de la population est trs grande, ce qui nous conduit ngliger le taux de sondage.
En admettant que lon utilise un sondage alatoire simple, combien de personnes doit-on
interroger pour que lon puisse donner un intervalle de confiance 95% pour p ayant une
demi-longueur dau plus 0.02 ?
Indication : en labsence dinformations complmentaires, on peut utiliser "lintervalle de
prcaution" consistant considrer la plus grande demi-longueur possible (cest--dire le
pire des cas).

Laurent Rouvire

AES-Sondage

Chapitre 3
Sondages stratifis
3.1

Principe et justification

Dans un sondage alatoire simple, tous les chantillons dune population de taille N sont
possibles avec la mme probabilit. On imagine que certain dentre eux puissent savrer a
priori indsirables. Dans le cas de lexemple 2.3, nous disposions de 5 jetons : -1, 2, 4, 10
et 20 dont nous souhaitions valuer la moyenne ( = 7) laide dun chantillon de taille
2. Parmi les chantillons deux units, on trouve les cas extrmes {1, 2} et {10, 20}, qui
sont particulirement mauvais.
Plus concrtement, dans ltude du lancement dun nouveau produit financier, on peut
supposer des diffrences de comportement entre les petits et les gros clients de la banque.
Il serait malencontreux que les hasards de lchantillonnage conduisent ninterroger que les
clients appartenant une seule de ces catgories, ou simplement que lchantillon soit trop
dsquilibr en faveur de lune delles. Sil existe dans la base de sondage une information
auxiliaire permettant de distinguer, a priori, les catgories de petits et gros clients, on
aura tout gagner utiliser cette information pour rpartir lchantillon dans chaque souspopulation. Cest le principe de la stratification : dcouper la population en sous-ensembles
appels strates et raliser un sondage dans chacune delles.
Lintrt de cette mthode, en comparaison des plans simples, est quelle permet damliorer
la prcision des estimateurs. Elle ncessite lutilisation dune information auxiliaire connue
pour lensemble de la population.
Exemple 3.1
Reprenons lexemple initial o nous souhaitions estimer lge moyen de toutes les personnes
voluant sur le site de Rennes 2. La base de sondage est compose de lensemble des personnes de Rennes 2. Supposons que nous disposions de la rpartition des lments de la
base suivant les catgories :
tudiants ;
enseignants ;
IATOS.
Dit autrement nous connaissons la rpartitions des personnes de Rennes 2 suivant ces 3
catgories (voir Figure 3.1). Il y a fort parier que la variable ge ne se comporte pas
de la mme manire dans ces trois classes (en moyenne, on peut en effet penser que la
AES-Sondage

Laurent Rouvire

24

Sondages stratifis

IATOS
Enseignants

Etudiants

Fig. 3.1 Exemple de rpartition des personnels de Rennes 2.


population enseignant ou IATOS est plus ge que la population tudiante). Il parat ds
lors pertinent dessayer de prendre en compte cette information dans le plan de sondage.
La rpartition des personnes de Rennes 2 fournit une information auxiliaire ntre problmatique. Lobjectif principal consiste donc mettre profit cette information pour obtenir
des rsultats prcis. Linformation auxiliaire peut tre utilise deux moments :
ltape de la conception du plan de sondage ;
ltape de lestimation des paramtres.
Dans ce chapitre, nous utiliserons cette information uniquement pour btir le plan de sondage.

3.2

Plan de sondage stratifi

Nous prcisons maintenant quelques notations utiles la dfinition dun plan stratifi.
Rappel du contexte : on note N le nombre dindividus dans la population. On souhaite
valuer une caractristique de la population. On note Xi la valeur de ce caractre mesure
sur le ime individu. On cherche estimer la moyenne du caractre sur la population
N
1 X
Xi .
=
N i=1

Dans ce chapitre, nous nous restreindrons lestimation de la moyenne. Cependant tout


comme dans le chapitre prcdent, tous les concepts stendent facilement lestimation
dun total ou dune proportion.
On suppose que la population P est partage en H sous-ensembles ou strates notes Ph ,
h = 1, . . . , H. On dfinit :
Laurent Rouvire

AES-Sondage

25

3.2 Plan de sondage stratifi


taille de la strate h : Nh ;
moyenne de la strate h : h =

1 X
Xi .
Nh iP
h

1 X
(Xi h )2 ;
variance de la strate : h2 =
Nh iP
h

variance corrige de la strate h : Sh2 =


Proposition 3.1

X
Nh
1
2 .
(Xi h )2 =
Nh 1 iP
Nh 1 h
h

1. Rcriture de :
N
N
1 X
1 X
=
Xi =
Nh h .
N i=1
N i=1

2. Rcriture de 2 :
N
H
H
1 X
1 X
1 X
2
2
2
(Xi ) =
Nh h +
Nh (h )2
=
N i=1
N h=1
N h=1

= Variance intra-strate + Variance inter-strate.

Le premier terme reprsente la moyenne des variances des strates. Le second est d aux
diffrences entre strates : si par exemple lchantillon est stratifi entre tudiant, enseignant,
IATOS, ce terme reprsente le contraste dge entre ces diffrentes catgories.
Nous sommes maintenant en mesure de dfinir un plan stratifi.
Dfinition 3.1
Un plan de sondage est dit stratifi si dans chaque strate on slectionne un chantillon
alatoire de taille fixe nh et que les slections sont ralises indpendamment dune strate
une autre. On suppose en outre dans ce cours quau sein de chaque strate les plans sont
simples et sans remise.
Les nh doivent vrifier

H
X

nh = n.

h=1

Exemple 3.2
Reprenons lexemple de la stratification de la population Rennes 2 suivant : tudiant,
enseignant, IATOS. Pour simplifier lextrme, supposons que la population est compose
de N = 20 individus :
10 tudiants (strate 1, N1 = 10) ;
6 enseignants (strate 2, N2 = 6) ;
4 IATOS (strate 3, N3 = 4) ;
La population est donc compose de N = N1 + N2 + N3 = 20 individus. On effectue un plan
de sondage stratifi : on slectionne un chantillon alatoire de taille n = 10 de la manire
suivante (voir Figure 3.2) :
n1 = 5 dans la strate 1 ;
n2 = 3 dans la strate 2 ;
n3 = 2 dans la strate 3.
AES-Sondage

Laurent Rouvire

26

Sondages stratifis

P1
E1

E2

P2

E3

P3

Fig. 3.2 Echantillonnage stratifi : gauche la population, droite lchantillon.

3.3

Estimateur de la moyenne

Une fois lchantillonnage effectu, il se pose bien entendu la question de lestimateur de la


moyenne .

3.3.1

Un exemple

Reprenons lexemple prcdent. Pour i = 1, . . . , n, on note xi lge du ime individu prsent


dans lchantillon E. Cet chantillon E est divis en trois sous-ensembles :
E1 contient les tudiants de lchantillon ;
E2 contient les enseignants de lchantillon ;
E3 contient les IATOS de lchantillon.
On calcule ensuite lge moyen des individus de lchantillon strate par strate :
P
x1 = PiEh xi : ge moyen des individus de la strate 1 ;
x2 = PiEh xi : ge moyen des individus de la strate 2 ;
x3 = iEh xi : ge moyen des individus de la strate 3 ;
On rappelle que N1 est le nombre dindividus prsents dans la strate 1 (dans la population
entire), par consquent N1 x1 est un estimateur de lge total de la population tudiante
(strate 1). De mme N2 x2 est un estimateur de lge total de la population enseignante
(strate 2) et N3 x3 est un estimateur de lge total de la population IATOS (strate 3). Par
consquent :
3
X
Ni xi = N1 x1 + N2 x2 + N3 x3
i=1

est un estimateur de lge total de la population. Pour obtenir un estimateur de lge moyen
il suffit donc de diviser par le nombre dindividus dans la population. Lestimateur
est
Laurent Rouvire

AES-Sondage

27

3.4 Rpartition de lchantillon


donc

3
1
1 X
Ni xi =
(N1 x1 + N2 x2 + N3 x3 ) .

=
N i=1
N

Application numrique : les rsultats du sondage sont donns dans le tableau suivant :
Strate
Age

1 2
20 50

1
25

3 1
42 23

1
22

2
35

3 2
44 38

1
26

Tab. 3.1 Age des individus sonds.


On calcule la moyenne des ges des individus de lchantillon par strate :
x1 = 23.2,

x2 = 42,

x3 = 44.

Une estimation de est donc :

3.3.2

1
(10 23.2 + 6 42 + 4 44) = 33.
20

Cas gnral

Nous pouvons maintenant dfinir lestimateur


dans un contexte gnral pour un plan
stratifi. Pour chaque strate h, on note xh la moyenne calcule sur lchantillon issu de la
strate h :
1 X
xh =
xi .
nh iE
h

Lestimateur
scrit alors :

H
1 X

=
Nh xh .
N h=1

(3.1)

Le tableau 3.3.2 rcapitule les notations relatives la population et lchantillon.


Comme pour le plan simple, on tudie la prcision de lestimateur (et donc du sondage) en
tudiant son biais et sa variance. On a le rsultat suivant.
Thorme 3.1
Soit
lestimateur de la moyenne pour un plan stratifi (dfini par (3.1)). On a :
E(
) = :
est un estimateur sans biais de ;
La variance de
est donne par :
V(
) =

3.4

H
1 X
N h nh 2
Sh .
N
h
N 2 h=1
nh

(3.2)

Rpartition de lchantillon

Jusqu prsent, dans le plan stratifi, nous avons suppos que les tailles dchantillons
nh taient fixs pour chaque strate. En pratique, lors de la planification du sondage, le
statisticien doit se poser la question suivante : combien de personnes dois-je sonder par
strate pour que mon estimateur soit le plus prcis possible ? Dit autrement, comment choisir
les nh ?
AES-Sondage

Laurent Rouvire

28

Sondages stratifis

Totale

Strate

Population P
inconnu, dterministe

Echantillon E
connu, alatoire

Taille
Moyenne
Variance
Variance Corrige

2
S2

n
x

Taille
Moyenne
Variance
Variance Corrige

Nh
h
h2
Sh2

s2

nh
xh
s2h

Tab. 3.2 Notations pour le plan stratifi.

3.4.1

Plan avec allocation proportionnelle

Pour dcider des effectifs dchantillon nh , la solution la plus simple, et de trs loin la plus
utilise, est de les tablir au prorata des tailles Nh , ce qui peut sexprimer de deux faons
quivalentes :
les strates ont dans lchantillon des poids nh /n gaux leurs poids Nh /N dans la
population ;
on applique le mme taux de sondage dans toutes les strates : fh = nh /N = n/N = f .
Pour lexemple de lge moyen de la population Rennes 2, un tel plan signifie que les
proportions de chaque strate dans la population sont les mmes que dans lchantillon. Si
on a par exemple la rpartition suivante :
Strate
Etudiant
Enseignant
IATOS

Nh
6000
2500
1500

Alors un plan stratifi avec allocation proportionnelle de taille n = 100 consistera sonder :
n1 = 60 tudiants ;
n2 = 25 enseignants ;
n3 = 15 IATOS.

Dfinition 3.2
Dans un plan stratifi avec allocation proportionnelle, on choisit les nh de telle sorte que la
proportion dindividus provenant de la strate h dans lchantillon soit la mme que dans la
population, cest--dire :
nh
Nh
=
,
n
N
Laurent Rouvire

AES-Sondage

29

3.4 Rpartition de lchantillon


do
nh = n

Nh
.
N

Attention : Cette procdure ne donne gnralement pas de rsultat


PH entier. Il faut alors
recourir une procdure darrondi (et vrifier que lon a toujours h=1 nh = n).
Proposition 3.2
Soit
lestimateur construit pour un plan avec allocation proportionnelle. On a :

V(
) =

H
n 1 X
1
Nh Sh2 .
1
n
N N h=1

(3.3)

Remarque
Dans le cas dun plan avec allocation proportionnelle on aura le choix entre cette formule
et (3.2) pour calculer la variance de lestimateur
.
Si les tailles Nh de chaque strate h sont grandes, on a Sh2 h2 . On peut donc crire daprs
(3.3) :
1
n 2
V(
)
1
intra .
n
N

Dans le cas dun plan simple (chapitre prcdent), si N est grand, on rappelle que :
1
n 2
1
.
V(
) =
n
N

On a donc remplac, grce la stratification le terme 2 intervenant dans la variance de


2
lestimateur par le terme intra
. Comme
2
intra
2,

on en dduit que la stratification avec allocation proportionnelle donne presque toujours


de meilleurs rsultats quun plan simple puisque lon supprime la variance inter-strate dans
lexpression de la variance de lestimateur. Les rsultats seront dautant plus satisfaisants
lorsque la variance inter-strate est grande. Celle ci est grande quand la variable de stratification est fortement lie la variable dintrt. Cest pourquoi il faut toujours stratifier
avec une variable trs dpendante de la variable dintrt.
Exemple 3.3
On donne dans le tableau pour chaque individu de Rennes 2 :
son ge ;
sa catgorie : 1 si tudiant, 2 si enseignant, 3 si IATOS ;
sa couleur de cheveux : a si brun, b si blond, c si chtain.
Pour simplifier les calculs, on considre une population de 20 individus.
AES-Sondage

Laurent Rouvire

30

Sondages stratifis
Age
24
52
42
19
38
26
45
23
39
24

Cat
1
2
3
1
3
1
2
1
2
1

Che
c
a
b
c
a
b
c
a
a
b

Age
22
48
24
38
26
36
46
23
39
18

Cat
1
2
1
3
1
3
2
1
2
1

Che
c
a
a
a
b
b
b
c
a
c

1. On souhaite estimer la moyenne laide dun plan simple. Quel est la variance de
lestimateur ?
Daprs le chapitre prcdent



10 115.305
n  S2
= 1
= 5.77.
V(
) = 1
N n
20
n
2. On dsire stratifier la population suivant la catgorie. Quelle est la variance de lestimateur
pour un tel plan ?
La population est divise selon la Figure 3.3.
24
19

26

P1
24

23
22

23
26

24

P2

18

45

52

39
46

48
39
42

38

P3
38

36

Fig. 3.3 Population divise suivant la catgorie.


Calculons les moyennes et variances corriges par strate :
1 = 22.9, S12 = 6.99 ;
2 = 44.83, S22 = 26.17 ;
Laurent Rouvire

AES-Sondage

31

3.4 Rpartition de lchantillon


3 = 38.5, S32 = 6.33.
On en dduit la variance de lestimateur laide de la formule (3.3) :
H
1
n 1 X
V(
) =
1
Nh Sh2
n
N N h=1


10 1
1
[10 6.99 + 6 26.17 + 4 6.33] = 0.63.
1
=
10
20 20

On peut galement retrouver ce rsultat avec la formule (3.2).


3. On choisit maintenant de stratifier suivant la couleur des cheveux. Quelle est la variance de lestimateur pour un tel plan ?
Dans ce cas, la population est divise selon la Figure 3.4.
52
23

38

48
39

24
38

26

24

39

26

42

36

46
24
45
19
22

23
18

Fig. 3.4 Population stratifie suivant la couleur des cheveux.


Par un raisonnement similaire celui de la question prcdente on peut montrer que
la variance de lestimateur vaut 4.86 pour ce plan de sondage.
Le tableau suivant rcapitule les rsultats :
Plan
simple
Strat Cat
Strat Che

AES-Sondage

V(
)
5.77
0.63
4.86

Laurent Rouvire

32

Sondages stratifis
On voit que les deux plans stratifis possdent des variances infrieures au plan simple. Le
gain de la stratification par la catgorie est significatif compar celui de la couleur des
cheveux. Ceci vient du fait que la variable dintrt (ge) dpend plus de la catgorie que
de la couleur de cheveux. Il sera donc beaucoup plus pertinent de stratifier par rapport
la catgorie que par rapport la couleur de cheveux (on pouvait sy attendre...)
Nous avons vu quen terme de variance de lestimateur, le plan avec allocation proportionnelle est plus prcis que le plan simple. Peut-on faire encore mieux ?

3.4.2

Plan avec allocation optimale

La rponse la question prcdente est : oui, si lon sait a priori que certaines classes sont
beaucoup plus homognes que dautres. Intuitivement, on a intrt sous-chantillonner
les premires pour consacrer plus de moyens aux secondes.
Dfinition 3.3
Dans un plan stratifi avec allocation optimale, on choisit les tailles dchantillons n1 , . . . , nH
P
telles que H
) soit minimale. La soh=1 nh = n et telles que la variance de lestimateur V(
lution de ce problme est
N h Sh
.
nh = n H
X
N h Sh
h=1

Par dfinition, lestimateur construit avec un plan dallocation optimale possde la plus
petite variance possible (parmi tous les plans stratifis). Le prix payer est que pour
construire un tel estimateur (pour choisir les tailles dchantillons dans chaque strate), il
nous faut connatre la variance corrige du caractre dans chaque strate de la population.
La variance de lestimateur associ ce plan est toujours donne par (3.2). On ne peut par
contre pas utiliser la formule (3.3) qui est valable uniquement pour un plan avec allocation
proportionnelle.

Remarque
1. L encore, les nh ne sont pas ncessairement entiers, il faut recourir une procdure
darrondi. De plus la formule prcdente peut parfois conduire des choix de nh tels
que nh > Nh . Dans ce cas, on fait un recensement dans les strates o le problme se
pose et on recalcule les valeurs de nh pour les strates restantes.
2. La formule prcdente ncessite de connatre les variances corriges de chaque strate
Sh (ou plutt leurs racines carres). En pratique, il faut donc les estimer. En sondage,
on utilise souvent les rsultats denqutes prcdentes.
Pour les estimateurs construits par plans stratifis, on peut calculer des intervalles de
confiance comme pour les plans simples. Un intervalle de confiance de niveau 1 est
donn par
h
i
p
p
IC =
z1/2 V(
);
+ z1/2 V(
) ,

o z1/2 dsigne le quantile dordre 1 /2 de la loi normale centre rduite. Nous terminons par un exemple sur les plans stratifis, nous rappelons que tout ce qui a t vu dans
ce chapitre peut sadapter lestimation dun total ou dune proportion.

Laurent Rouvire

AES-Sondage

33

3.4 Rpartition de lchantillon


Exemple 3.4
Une grande entreprise veut raliser une enqute auprs de son personnel qui comprend 10000
personnes. Elle sintresse lvolution de lge de ses employs et souhaitent commencer
par estimer lge moyen. Des tudes prliminaires ont montr que la variable que lon
cherche analyser est trs contraste selon les catgories de personnel et quil y a donc
intrt stratifier selon ces catgories. Pour simplifier, on considrera quil y a trois grandes
catgories qui formeront les strates. On va donc proposer des plans dchantillonnage, on
dispose des renseignements suivants :
Catgories Effectifs Ecart-type des ges
1
2000
18
2
3000
12
3
5000
3.6
Ensemble
10000
16
On dsire estimer lge moyen not partir dun chantillon de n = 100 personnes.
1. On ralise dabord un plan simple, proposer un estimateur de et calculer sa variance.
2. Un sondage stratifi est ensuite envisag. Proposer un estimateur pour . Quels effectifs doit on slectionner dans chaque strate si on ralise un plan avec allocation
proportionnelle. Calculer la variance de lestimateur construit.
3. Reprendre la question prcdente pour un plan avec allocation optimale.
Elments de correction :
1. n = 100, on note xi , i = 1, . . . , n lge de la ime personne interroge. Lestimateur de
est
n
1X

=
xi .
n i=1
La variance dun dun tel estimateur est donne par


n  S2
.
V(
) = 1
N n

Ici S 2 est inconnu mais on connat 2 , donc


S2 =
On dduit

N
10000 2
2 =
16 = 256.03.
N 1
9999



256.03
100
= 2.53.
V(
) = 1
10000
100

2. Plan stratifi : soit nh , h = 1, 2, 3 le nombre de personnes interroges dans chaque


strate. Lestimateur est donn par :

AES-Sondage

H
1 X
Nh xh ,
N h=1

Laurent Rouvire

34

Sondages stratifis
o xh est lge moyen des personnes interroges dans la strate h. Pour un plan avec
allocation proportionnelle, les effectifs sont choisis suivant :
nh = n

Nh
.
N

Par consquent,
2000
3000
5000
n1 = 100
= 20,
n2 = 100
= 30,
n3 = 100
= 50.
10000
10000
10000
Calculons les variances corriges par strate Sh2 = NN1 h2 :
10000 2
10000 2
10000 2
18 = 324.03,
S22 =
12 = 124.01,
S32 =
3.6 = 12.96.
9999
9999
9999
La variance de lestimateur est donne par (3.2) ou (3.3) :
S12 =

H
1
n 1 X
Nh Sh2
1
n
N N h=1


i
100
1 h
1
1
2000 324.03 + 3000 124.01 + 5000 12.96
=
100
10000 10000
= 1.10

V(
) =

3. Pour un plan avec allocation optimale, les effectifs sont choisis suivant :
nh = n

N h Sh
H
X

N h Sh

h=1

On calcule
H
X

Nh Sh = 2000 324.03 + 3000 124.01 + 5000 12.96 = 87409.6


h=1

On dduit

3000 124.01
n2 = 100
= 38.22,
87409.6

5000 12.96
n3 = 100
= 20.59.
87409.6

2000 324.03
= 41.18,
n1 = 100
87409.6

On arrondit

n1 = 41,

n2 = 38,

n3 = 21

en vrifiant que la somme fait bien 100. On peut maintenant calculer la variance
laide de la formule (3.2)
V(
) =

H
1 X
N h nh 2
N
Sh
h
N 2 h=1
nh
i
2000 41
3000 38
5000 21
1 
2000
324.03
+
3000
124.01
+
5000
12.96
=
100002
41
38
21
= 0.75.

Laurent Rouvire

AES-Sondage

35

3.5 Exercices

3.5

Exercices

Exercice 3.1
Soit une population P = {1, 2, 3, 4} et X1 = X2 = 0, X3 = 1, X4 = 1 les valeurs prises
par la variable laquelle on sintresse.
1. Calculer la variance de lestimateur de la moyenne pour un plan alatoire simple sans
remise de taille n = 2.
2. Calculer la variance de lestimateur de la moyenne pour un plan alatoire stratifi
pour lequel une seule unit est prleve par strate, les strates tant donnes par :
E1 = {1, 2},

E2 = {3, 4}.

Exercice 3.2
Dans une grande ville, on sintresse au nombre moyen de clients que peut avoir un mdecin
pendant une journe de travail. On part de lide a priori que plus le mdecin a dexprience, plus il a de clients. On classe donc la population de mdecins en trois groupes : les
"dbutants" (classe 1), les "confirms" (classe 2), et les "trs expriments" (classe 3). Par
ailleurs, on suppose que lon connat, dans la base de sondage des mdecins, la classe de
chacun dentre eux. On tire par sondage alatoire simple 200 mdecins dans chaque classe.
On obtient les rsultats suivants :
xh
s2h
Nh

h=1 h=2
10
15
4
7
500 1000

h=3
20
10
2500

1. Comment sappelle ce plan de sondage ?


2. Comment estimez vous le nombre moyen de clients soigns par jour et par mdecin ?
3. Donner un intervalle de confiance 95% pour le vrai nombre moyen de clients soigns
par jour et par mdecin.
4. Si vous naviez comme contrainte que le nombre total de mdecin enquter (soit
600), procderiez-vous comme ci-dessus ?
Exercice 3.3
Un directeur de cirque possde 100 lphants classs en deux catgories : les mles et les
femelles. Le directeur veut estimer le poids total de son troupeau car il veut traverser un
fleuve en bateau. Cependant, lanne prcdente, le directeur de cirque avait fait peser tous
les lphants de son troupeau et avait obtenu les rsultats suivants (les moyennes sont
exprimes en tonnes) :
Effectif Nh
Mles
60
Femelles
40

Moyenne h
6
4

Sh2
4
2.25

1. Calculer 2 et S 2 pour lanne prcdente.


AES-Sondage

Laurent Rouvire

36

Sondages stratifis
2. Le directeur suppose dsormais que les dispersions de poids nvoluent pas sensiblement dune anne sur lautre (ce type dhypothse reste ici trs raisonnable et se
rencontre couramment en pratique quand on rpte des enqutes dans le temps). Si le
directeur procde un tirage alatoire simple de 10 lphants, quelle est la variance
de lestimateur du poids total du troupeau ?
3. Si le directeur procde un tirage stratifi avec allocation proportionnelle de 10
lphants, quelles tailles dchantillon doit-on retenir dans chaque strate ? Quelle est
alors la variance de lestimateur du poids total du troupeau ?
4. Si le directeur procde un tirage stratifi optimal de 10 lphants, quelles tailles
dchantillon doit-on retenir dans chaque strate ? Quelle est alors la variance de lestimateur du poids total du troupeau ?
Exercice 3.4
Sur les 7500 employs dune entreprise, on souhaite connatre la proportion p dentre eux
qui possdent au moins un vhicule. Pour chaque individu de la base de sondage, on dispose
de la valeur de son revenu. On dcide alors de constituer trois strates dans la population :
individus de faible revenu (strate 1), individus de revenu moyen (strate 2), individus de
revenu lev (strate 3). On note ph la proportion dindividus possdant au moins un vhicule
dans lchantillon issu de la strate h. Les rsultats obtenus sont les suivants :
Nh
nh
ph

h=1
3500
500
0.13

h=2
2000
300
0.45

h=3
2000
200
0.50

1. Quel estimateur p de p proposez-vous ?


2. Donner un intervalle de confiance 95% pour p.
indications : dans le cas dune proportion, on peut estimer la variance corrige Sh2
par s2h = NN1 ph (1 ph ).
Exercice 3.5
Dans une population de trs grande taille N = 10000, on souhaite estimer lge moyen
des individus. Pour cela, on stratifie la population en trois catgories dge, et on tire
un chantillon par sondage alatoire simple dans chaque catgorie. De plus, grce une
enqute prcdente, on dispose destimations pour les variances corriges de chaque strate.
Lensemble des informations dont on dispose sont rsumes dans le tableau suivant :
Strate

Nh

xh Sh2 nh

Moins de 40 ans 5000 25 16 40


De 40 50 ans 3000 45 10 20
Plus de 50 ans 2000 58 20 40

Laurent Rouvire

AES-Sondage

37

3.5 Exercices
1. Quelle est la valeur de lestimateur stratifi de lge moyen ?
2. Calculer la variance de cet estimateur.
3. Quelles tailles dchantillons nh doit-on choisir pour chaque strate si on souhaite
raliser une allocation proportionnelle afin de constituer un chantillon de n = 100
individus ? Calculer alors la variance de lestimateur stratifi que lon obtient avec ce
plan de sondage.
4. On souhaite maintenant raliser une allocation optimale (toujours avec n = 100).
Calculer alors la valeur des nh ainsi que la variance de lestimateur stratifi que lon
obtient avec ce plan de sondage.
5. Parmi les trois plans de sondage proposs, lequel vous semble le plus appropri ?
Exercice 3.6
La variable dintrt est ici le chiffre daffaire moyen ralis par un ensemble de 1060 entreprises. Celles-ci tant de tailles trs diffrents, on a constitu cinq strates en fonction
du nombre de salaris dans chaque entreprise. De plus, grce une enqute prcdente, on
Nombre de salaris 0 9 10 19 20 29 50 499
Nombre dentreprises 500
300
150
100

500 et plus
10

dispose destimations pour les variances corriges Sh2 de chaque strate. On considre donc
que :
S11 = 1.5, S22 = 4, S32 = 8, S42 = 100, S52 = 2500.
1. A lintrieur de chaque strate, on ralise un sondage alatoire simple avec les tailles
dchantillon suivantes :
n1 = 130,

n2 = 80,

n3 = 60,

n4 = 25,

n5 = 5.

Les rsultats sont les suivants :


x1 = 5,

x2 = 12,

x3 = 30,

x4 = 150,

x5 = 600.

Donner un intervalle de confiance 90% pour le chiffre daffaire moyen.


2. En conservant toujours la mme taille globale dchantillon, quels effectifs dchantillon faut-il prendre dans chaque strate
(a) pour une allocation proportionnelle ?
(b) pour une allocation optimale ?
3. Calculer les variances de lestimateur pour le plan avec allocation proportionnelle puis
pour le plan avec allocation optimale.

AES-Sondage

Laurent Rouvire

Annexe A
Intervalle de confiance pour une
moyenne dans un plan de sondage
alatoire simple
Thorme A.1 (Thorme central limite)
Soit
Pnx1 , . . . , xn une suite de n variables alatoires i.i.d telles que E(xi ) = . Soit x =
1
i=1 xi la moyenne empirique des xi . Alors on peut approcher la loi de x par la loi
n
normale N (, V(x)). Ou encore, on peut approcher la loi de la variable alatoire

par la loi N (0, 1).

x
Z=p
V(x)

On appellera intervalle de confiance pour de niveau 1 un intervalle alatoire [xh, x+h]


tel que

P [x h, x + h] = 1 .
Calculons un intervalle de confiance pour de niveau 1 . On remarque que :

P [x h, x + h] = P(x h x + h)
= P(h x h)
= P(h x h)

h 
x
h
.
p
p
=P p
V(x)
V(x)
V(x)

Il suffit donc de trouver h tel que



h
h 
x
P p
= 1 .
p
p
V(x)
V(x)
V(x)
En notant F la fonction de rpartition de la loi N (0, 1), on a donc

 h 
h 
F p
=1
F p
V(x)
V(x)
AES-Sondage

Laurent Rouvire

40

Intervalle de confiance pour une moyenne dans un plan de sondage alatoire simple
 h 
1=1
2F p
V(x)
 h 

F p
=1 .
2
V(x)

h
Avec z1/2 le quantile dordre 1 /2 de la loi N (0, 1), on obtient p
= z1/2 et
V(x)
donc
p
h = z1/2 V(x).
Un intervalle de confiance de niveau 1 est donc donne par


p
p
x z1/2 V(x), x + z1/2 V(x)

avec

n  S2
V(x) = 1
N n
pour un plan de sondage alatoire simple. LIC de niveau 1 scrit alors
r
r


n  S2
n  S2
x z1/2
.
, x z1/2
1
1
N n
N n


Laurent Rouvire

AES-Sondage

Annexe B
Correction des exercices
Exercice B.1
La population est compose de N = 4 individus.
1. Moyenne :
=
Variance :

N
1 X
1
Xi = (11 + 10 + 8 + 11) = 10.
N i=1
4

N
N
1 X 2
1
1 X
2
(Xi ) =
Xi 2 = (112 + 102 + 82 + 112 ) 102 = 1.5.
=
N i=1
N i=1
4
2

Variance corrige :
N

1
1 X
(Xi )2 = ((11 10)2 + (10 10)2 + (8 10)2 + (11 10)2 ) = 2.
S =
N 1 i=1
3
2

On peut galement utiliser la formule


S2 =

N
2.
N 1

2. (a) On effectue un sondage alatoire simple sans remise, il y a donc CNn = C42 chantillons possibles, soit :
C42 =

4!
4!
=
= 6.
2!(4 2)!
2!2!

(b)
Ech
x
s2

(1,2)
10.5
0.5

(1,3) (1,4) (2,3)


9.5
11
9
4.5
0
2

(2,4) (3,4)
10.5
9.5
0.5
4.5

3. E(
x) est la moyenne des valeurs de x sur tous les chantillons possibles :
1
E(
x) = (10.5 + 9.5 + 11 + 9 + 10.5 + 9.5) = 10,
6
AES-Sondage

Laurent Rouvire

42

Correction des exercices


on retrouve ici que x est un estimateur sans biais de (Thorme 1 du cours) :
E(
x) = = 10.
1
1
V(
x) = ((10.510)2 +(9.510)2 +(1110)2 +(910)2 +(10.510)2 +(9.510)2 ) = ,
6
2
on peut aussi calculer V(
x) laide du thorme 2 :

n  S2
.
V(
x) = 1
N n
1
E(s2 ) = (0.5 + 4.5 + 0 + 2 + 0.5 + 4.5) = 2.
6
Exercice B.2
1. On nest pas dans le cas dun plan de sondage alatoire simple puisque lchantillon
{1, 2} a ici plus de chances dapparatre que les autres.
2. On note P({j}) la probabilit que lindividu j fasse partie de lchantillon. Lindividu
1 fait partie de lchantillon si on tire lchantillon {1, 2} ou lchantillon {1, 3}, donc
P({1}) = P({1, 2}) + P({1, 3}) =

1 1
3
+ = .
2 4
4

De mme,
P({2}) = P({1, 2}) + P({2, 3}) =
et

3
4

1
P({3}) = P({1, 3}) + P({2, 3}) = .
2

3. Soit x la moyenne de lchantillon prlev :


Ech
x
Proba

{1, 2}
1.5
1/2

{1, 3}
2
1/4

{2, 3}
2.5
1/4

4. x est un estimateur de la moyenne = 31 (1 + 2 + 3) = 2. On a


1
1
1
E(
x) = 1.5 + 2 + 2.5 = 1.875 6= 2.
2
4
4
E(
x) 6= , donc x nest pas un estimateur sans biais de ici. Ceci vient du fait quon
ne ralise pas un plan de sondage alatoire simple (tous les chantillons nont pas la
mme probabilit dtre tirs).
Exercice B.3

Laurent Rouvire

AES-Sondage

43
1. On estime la moyenne inconnue (moyenne des surfaces cultives par les 2010 fermes)
par la moyenne des surfaces cultives de lchantillon :
n

100

1X
1 X
2907

=
xk =
xk =
= 29.07.
n k=1
100 k=1
100
2. Un intervalle de confiance de niveau 95% pour est donn par :
#
"
r
r
S2
S2
+ z0.975 (1 f )

z0.975 (1 f ) ;
n
n
o
z0.975 est le quantile dordre 0.975 de la loi normale N (0, 1), on lit sur la table
z0.975 = 1.96 ;
f = n/N = 100/2010 = 0.05 est le taux de sondage ;
S 2 est la variance corrige des superficies sur toute la population, elle est inconnue
ici. On lestime par la variance corrige sur lchantillon :
" n
#


n
X
X
1
1
n
100 154593
2
2
2
2
2
s =
29.07 707.94.
(xk
x) =
x x =
n 1 k=1
n 1 n k=1 k
99
100
On obtient aprs calcul lintervalle de confiance :
[23.99; 34.15].
Exercice B.4
1. Par un raisonnement analogue celui de lexercice prcdent on trouve lintervalle de
confiance :
[1.19; 1.29].
2. La demi longueur de lintervalle de confiance de niveau est (voir poly page 17-18) :
r
r
S2
S2
z1/2 (1 f )
z1/2
n
n
car on nglige ici le taux de sondage f . On cherche la taille dchantillon n de manire
ce que cette demi-longueur ne dpasse pas 2 cm, dit autrement, on cherche n tel
que :
r
S2
S2
S2
2
2
2
0.02 z1/2
0.02 z1/2
n.
z1/2
n
n
0.022
2
Ici z1/2
= 1.962 mais la variance corrige de la population S 2 est inconnue. On sait
cependant daprs lnonc que la variance de la population 2 est comprise entre
0.252 et 0.452 , comme
N
2
S2 =
N 1

AES-Sondage

Laurent Rouvire

44

Correction des exercices


on dduit :
N
N
0.252 S 2
0.452 0.06 S 2 0.20.
N 1
N 1
Rappel : on cherche n tel que :
n 1.962

S2
0.022

(B.1)

et S 2 0.20. Ce qui signifie que dans le pire des cas la variance corrige vaut 0.20. Si
on trouve une taille dchantillon qui satisfait (B.1) dans le pire des cas, alors cette
taille dchantillon vrifiera toujours (B.1). On cherche donc n qui vrifie (B.1) dans
le cas le plus dfavorable, cest--dire :
n 1920.8.
A partir de n = 1921, la demi longueur de lintervalle de confiance est au plus gale
2cm.
Exercice B.5
1. Le total de la consommation deau des 250 habitants de lchantillon est 15 125m3 .
2. Pour calculer lintervalle de confiance, on procde comme dans les exercices 3 et 4 et
on obtient :
[59.88; 61.12].
3. On note T la somme totale dpense par tous les habitants de la ville. T est inconnu,
on lestime laide dun plan de sondage alatoire simple. On note xk la somme
dpense par lhabitant numro k de lchantillon et
lestimateur de la somme
moyenne dpense par les habitants :
n

1X
15125
xk =
= 60.5.
n k=1
250

Pour obtenir un estimateur de la somme totale dpense T il suffit de multiplier la


somme moyenne dpense par les habitants de lchantillon par le nombre dhabitants,
on estime donc T par
T = N
= 100 000 60.5 = 6 050 000.
Par analogie avec la moyenne, un intervalle de confiance de niveau 1 pour le total
est donn par :


q
q

T z1/2 V(T ); T + z1/2 V(T ) .

Ici 1 = 0.95, donc z1/2 = z0.975 = 1.96. Il reste calculer V(T) :

V(T) = V(N
) = N 2 V(
) = (100 000)2 V(
) = 1 000 000 000 = 109 ,
car V(
) = 0.1 a t calcul la question prcdente. On obtient donc lintervalle de
confiance :
h

i
9
6 050 000 1.96 10 ; 6 050 000 + 1.96 109 = [5 988 019; 6 111 981]
Laurent Rouvire

AES-Sondage

45
Exercice B.6
Soit p la proportion inconnue dhtels deux toiles admettant un parking et p la proportion
dhtels deux toiles de lchantillon admettant un parking. Un intervalle de confiance de
niveau 1 pour p est donn par :
r
r
h
n  p(1 p)
n  p(1 p) i
1
1
p z1/2
, p + z1/2
N
n1
N
n1

(voir poly page 16). Ici, n = 50, N = 250 et p = 34/50 = 0.68.


Si le niveau de lintervalle de confiance est 0.95, = 0.05 et z1/2 = z0.975 = 1.96, ce
qui donne :
"
#
r
r
0.68(1 0.68)
0.68(1 0.68)
0.68 1.96 (1 0.2)
; 0.68 + 1.96 (1 0.2)
49
49
= [0.563; 0.797];

Si le niveau de lintervalle de confiance est 0.90, = 0.1 et z1/2 = z0.95 = 1.64, ce qui
donne :
"
#
r
r
0.68(1 0.68)
0.68(1 0.68)
0.68 1.64 (1 0.2)
; 0.68 + 1.64 (1 0.2)
49
49
= [0.582; 0.778];
Exercice B.7
Soit p la proportion (inconnue) de parisiens qui portent des lunettes et p la proportion de
parisiens de lchantillon qui portent des lunettes. En ngligeant le taux de sondage, la
demi longueur dun intervalle de confiance de niveau 1 est donne par :
r
p(1 p)
z1/2
n
(voir poly page 18). Ici z12 = z0.975 = 1.96, on cherche donc une taille dchantillon n
telle que
r
p(1 p)
p(1 p)
z1/2
0.02 n 1.962
.
n
0.022
Le problme vient bien entendu du fait que p est ici inconnue. Etudions comme lindique
lnonc la fonction f (p) = p(1 p) sur [0, 1]. f (p) = 1 2p, donc f est croissante sur
[0, 1/2] et dcroissante sur [1/2, 1], elle atteint donc son maximum en p = 1/2, ce qui
implique f (p) f (1/2) = 1/4.
Rappel : on cherche n tel que

p(1 p)
(B.2)
0.022
et p(1 p) 1/4, ce qui signifie que dans le pire des cas p(1 p) = 1/4. On se place donc
dans ce cas le plus dfavorable qui va conduire une taille dchantillon maximale (si (B.2)
est vraie dans le pire des cas, elle sera vraie dans tous les autres cas). On cherche donc n
tel que :
1
n 1.962
= 2401.
4 0.022
n 1.962

AES-Sondage

Laurent Rouvire

46

Correction des exercices


Il faut interroger 2401 personnes pour tre sr que lintervalle de confiance de niveau 95%
pour la proportion de parisiens qui portent des lunettes ait une demi longueur dau plus
0.02.
Exercice B.8
Mme raisonnement et mme rponse que pour lexercice 7.

Laurent Rouvire

AES-Sondage

47
Exercice B.9
1. Pour un plan simple, la variance de
vaut :

n  S2
V(
) = 1
.
N N

Il faut donc calculer S 2 la variance corrige sur la population :


N

S2 =

1 X
2
1
(Xi )2 = ((0 0)2 + (0 0)2 + (1 0)2 + (1 0)2 ) = .
N 1 i=1
3
3

On dduit :
V(
) =

2
1
4

2
3

1
= .
4
6

2. Pour un plan stratifi la variance est donne par :


H
N h nh 2
1 X
Nh
Sh .
V(
) = 2
N h=1
nh

(B.3)

Il faut cette fois calculer la variance corrige dans les deux strates :
N

S12
On dduit :

= 0, et

1
V(
) = 2
4

S22

2
1 X
=
(Xi 2 )2 = 2.
N2 1 i=1


21
21
1
2
0+2
2 = .
1
1
4

Exercice B.10
1. La population (ensemble des mdecins) est ici divise en trois catgories dans lesquelles
on ralise un plan simple, il sagit donc dun plan de sondage stratifi.
2. Lestimateur du nombre moyen de clients soigns par jour par mdecin pour un tel
plan est donn par
H
1
1 X
Nh xh =
(500 10 + 1 000 15 + 2 500 20) = 17.5.

=
N h=1
4 000

3. Il faut dabord calculer la variance de


, en utilisant la formule (B.3), on trouve
V(
) = 0.0199.
On calcule lintervalle de confiance de niveau 0.95 partir de la formule :
i
h
p
p
);
+ z0.975 V(
) = [17.22; 17.78].
IC =
z0.975 V(
AES-Sondage

Laurent Rouvire

48

Correction des exercices


4. Si la variance corrige Sh2 de chaque strate est inconnue, on effectue un plan stratifi avec allocation proportionnelle. On choisit alors comme taille dchantillon dans
chaque strate :
n1 = 75,
n2 = 150,
n3 = 375.
Si Sh2 est connu pour chaque strate, on fait alors un plan stratifi avec allocation
optimale, i.e., on choisit les tailles dchantillon suivant :
N h Sh
.
nh = n PH
h=1 Nh Sh

Exercice B.11

1. Pour calculer h2 , on utilise la formule :


2 =
h2 =

Nh 1 2
Sh ,
Nh

H
H
1 X
1 X
2
2
Nh h2 +
Nh (h )2 = intra
+ inter
.
N h=1
N h=1

donc
12 =

59
4 = 3.93,
60

Do
2
intra
=

et
2
inter
=

22 =

39
2.25 = 2.19.
40

1
[60 3.93 + 40 2.19] = 3.24
100

1
[60 (6 5.2)2 + 40 (4 5.2)2 ] = 0.96.
100

On dduit

N 1 2 100
=
4.2 = 4.24.
N
99
2. On ralise ici un plan simple. Soit
lestimateur de pour ce plan. Pour avoir une
estimation du total T , il suffit de multiplier le poids moyen de lchantillon par le
nombre total dlphants, ce qui donne T = N
. On a donc


10 4.24
2
2

= 3 816.
V(T ) = V(N
) = N V(
) = 100 1
100 10
2 = 4.2,

S2 =

3. On note nM (resp nF ) le nombre de mles (resp femelles) dans lchantillon. Pour un


plan avec allocation proportionnelle, on a :
nH = n

NH
60
= 10
=6
N
100

et

NF
40
= 10
=4
N
100
On calcule la variance en utilisant la formule (B.3) et on trouve :
nF = n

V(
) = 2970.

Laurent Rouvire

AES-Sondage

49
4. Pour un plan avec allocation optimale, les tailles dchantillons sont donnes par :
nH = 10
et

Cela donne nH
la variance

60 2

= 6.66
60 2 + 40 2.25

40 2.25

= 3.33.
nF = 10
60 2 + 40 2.25
= 7 et nF = 3 aprs arrondi. On utilise toujours (B.3) pour obtenir
V(
) = 2927.

Parmi les trois plans de sondage tudis dans cet exercice, la variance de lestimateur

est la plus faible pour le plan stratifi avec allocation optimale. Ce plan est donc le
plus prcis.
Exercice B.12
On cherche estimer la proportion p (inconnue) demploys qui possdent un vhicule.
1. On interroge nh personnes dans chaque strate Eh , ph dsigne la proportion de personnes interroges (de lchantillon) dans la strate Eh qui possdent un vhicule.
On estime p par
H
1 X
p =
Nh ph ,
N h=1
la moyenne des proportions par strate pondre par le nombre dindividus dans chaque
strate Nh . Compte tenu des rsultats du sondage on a
p =

1
(3 500 0.13 + 2 000 0.45 + 2 000 0.5 = 0.314.
7 500

2. Comme pour lestimation de la moyenne, un intervalle de confiance de niveau 0.95 est


donn par :
h
i
p
p
p); p + z0.975 V(
p) .
IC0.95 = p z0.975 V(
On lit sur la table z0.975 = 1.96. Une proportion tant une moyenne, on a
H
N h nh 2
1 X
Nh
Sh .
V(
p) = 2
N h=1
nh

La variance corrige de chaque strate Sh2 est ici inconnue, on va lestimer partir des
rsultats de lenqute par la variance corrige prise sur lchantillon s2h . La difficult
consiste ici dterminer cette variance. On utilise la formule donne dans lnonc :
s2h =

N
ph (1 ph ).
N 1

On dduit
s21 =
AES-Sondage

7 500
0.13(1 0.13) = 0.114,
7 449

s22 = 0.248,

s23 = 0.251,
Laurent Rouvire

50

Correction des exercices


et on obtient


3 500 500
2 000 300
2 000 200
1
3 500
0.114 + 2 000
0.248 + 2 000
0.251
V(
p) =
7 5002
500
300
200
=0.0001724.
On trouve donc lintervalle de confiance
IC0.95 = [0.288; 0.339].
Exercice B.13
1. Lestimateur stratifi de lge moyen est donn par
H
1 X
1

=
Nh xh =
(5 000 25 + 3 000 45 + 2 000 58) = 37.6.
N h=1
10 000

2. La variance de cet estimateur se calcule laide de la formule (B.3), on trouve aprs


calcul
V(
) = 0.16.
3. Lallocation proportionnelle propose de choisir les tailles dchantillon de sorte que
les proportions dindividus dans les strates de lchantillon soient les mmes que dans
les strates de la population :
Nh
Nh
nh
=
nh = n .
n
N
N
On obtient
n1 = 50,

,2 = 30,

n3 = 20.

Toujours par la formule (B.3), on obtient


V(
) = 0.1485.
4. Pour un plan stratifi avec allocation optimale, on choisit les tailles dchantillon de
manire minimiser la variance de lestimateur
,

On obtient aprs calcul

N h Sh
nh = n PH
.
h=1 Nh Sh

n1 = 52.04,

n2 = 24.68,

n3 = 23.27,

en arrondissant
n1 = 52,

n2 = 25,

n3 = 23.

On calcule toujours la variance laide de (B.3) :


V(
) = 0.1462.

Laurent Rouvire

AES-Sondage

51
Exercice B.14
1. Un intervalle de confiance de niveau 0.90 est donn par
h
i
p
p
IC0.90 =
z0.95 V(
),
+ z0.95 V(
) ,
avec z0.95 1.64. On calcule V(
) grce (B.3) et on obtient
V(
) = 0.055.
On calcule
= 29.81 et on dduit
IC0.90 = [29.43; 30.19].
2. (a) Pour une allocation proportionnelle nh = n NNh , donc
n1 = 141.51,

n2 = 84.91,

n3 = 42.45,

n4 = 28.30,

n5 = 2.83,

en arrondissant
n1 = 142,

n2 = 85,

n3 = 42,

n4 = 28,

n5 = 3.

(b) (plus difficile) Pour une allocation optimale


N h Sh
nh = n PH
,
h=1 Nh Sh

ce qui donne
n1 = 58.57,

n2 = 57.39,

n3 = 40.58,

n4 = 95.64,

n5 = 47.82,

en arrondissant
n1 = 59,

n2 = 57,

n3 = 40,

n4 = 96,

n5 = 48.

On doit interroger 48 personnes dans la strate 5 alors quelle nen contient que
10 ! ! ! Cest bien entendu impossible, on choisit donc dinterroger les 10 personnes
de la strate 5 (n5 = 10) et on recalcule les tailles dchantillons pour les quatre
autres strates avec n = 300 10 = 290. On a par exemple pour n1

500 1.5

= 67.35,
n1 = 290
500 1.5 + 300 4 + 150 8 + 100 100
de mme
n2 = 65.99,

n3 = 46.66,

n4 = 109.98.

Encore une fois, on doit interroger n4 = 110 individus dans la strate 4 qui en
contient 100. On les interroge donc toutes (n4 = 100) et on recalcule n1 , n2 et n3
avec n = 290 100 = 190. On obtient aprs arrondi
n1 = 71,

n2 = 70,

n3 = 49.

n2 = 70,

n3 = 49,

n4 = 100,

Pour rsumer
n1 = 71,

AES-Sondage

n5 = 10.

Laurent Rouvire

52

Correction des exercices


3. Pour lallocation proportionnelle on obtient grce (B.3)
V(
) = 0.0819.
Pour lallocation optimale, on obtient :
V(
) = 0.00974.

Laurent Rouvire

AES-Sondage

Annexe C
Sujet Licence AES 3 : juin 2006
(assidus)
NB : Ce devoir vous sera corrig si vous me le remettez loccasion dun stage ou me
lexpdiez par courrier (noubliez pas de joindre une enveloppe votre adresse) :
Laurent Rouvire
Dpartement MASS
Universit Rennes 2-Haute Bretagne
Campus Villejean
Place du Recteur Henri Le Moal, CS 24307
35043 Rennes Cedex, France
e-mail : laurent.rouviere@uhb.fr
tel : 02 99 14 18 21
Exercice C.1
Expliquer en quoi consiste un plan de sondage alatoire simple ainsi quun plan stratifi.
Dans le cas de la stratification, quel est le principe de lallocation proportionnelle ? Et de
lallocation optimale ? Quel est lintrt de la stratification ?

Exercice C.2
On souhaite estimer la quantit deau moyenne (exprime en m3 ) consomme annuellement
par les habitants dune ville donne de 100 000 habitants. On slectionne par un plan simple
un chantillon de 250 habitants. Les rsultats obtenus sont les suivants :
n
X
i=1

xi = 15 125

n
X

x2i = 921 310.

i=1

1. Traduire en quelques mots linformation contenue dans la formule :

n
X

xi = 15 125.

i=1

2. Donner un intervalle de confiance 95% pour la quantit deau moyenne consomme


annuellement par les habitants de cette ville.
AES-Sondage

Laurent Rouvire

54

Sujet Licence AES 3 : juin 2006 (assidus)


Effectif Nh
Mles
60
Femelles
40
Mles et femelles confondus

Sh2
4
2.25

Effectif N
100

S2
4.24

3. On sintresse maintenant la quantit totale consomme annuellement par lensemble


des habitants de la ville. Donner une estimation, puis un intervalle de confiance 95%
pour cette quantit totale.

Exercice C.3
Un directeur de cirque possde un troupeau de 100 lphants et souhaite estimer le poids
moyen de ses lphants. Cependant, lanne prcdente, le directeur de cirque les avait
classs en deux catgories, les mles et les femelles, puis avait fait peser tous les lphants
de son troupeau. Il avait obtenu les rsultats suivants (les moyennes sont exprimes en
tonnes) :
1. Le directeur suppose dsormais que les dispersions de poids nvoluent pas sensiblement dune anne sur lautre, cest--dire que les valeurs des Sh2 restent inchanges (ce
type dhypothse reste ici trs raisonnable et se rencontre couramment en pratique
quand on rpte des enqutes dans le temps). Si le directeur procde un tirage alatoire simple de 10 lphants, quelle est la variance de lestimateur du poids moyen du
troupeau ?
2. Le directeur procde un tirage stratifi et slectionne cinq femelles et cinq mles.
Il obtient pour lchantillon des mles une moyenne de x1 = 6.5 et de x2 = 3.9 pour
celui des femelles. Donner une estimation du poids moyen du troupeau. Calculer la
variance de lestimateur de ce poids moyen.
3. Si le directeur procde un tirage stratifi avec allocation proportionnelle de 10
lphants, quelles tailles dchantillon doit-on retenir dans chaque strate ? Quelle est
alors la variance de lestimateur du poids moyen du troupeau ?
4. Si le directeur procde un tirage stratifi optimal de 10 lphants, quelles tailles
dchantillon doit-on retenir dans chaque strate ? Quelle est alors la variance de lestimateur du poids moyen du troupeau ?
5. Parmi les quatre plans de sondage proposs, lequel vous semble le plus appropri ?

Exercice C.4
Une quipe est charge de raliser une enqute dans le but destimer la proportion de
restaurants disposant dune salle entirement non fumeur en France. On slectionne par
plan simple un chantillon de 120 restaurants. Parmi ces 120 restaurants slectionns, 51
disposent dune salle entirement non fumeur.
Dans cet exercice on ngligera le taux de sondage f .

Laurent Rouvire

AES-Sondage

55
1. On souhaite donner un intervalle de confiance 90% puis 95% pour la proportion
p de restaurants disposant dune salle entirement non-fumeur.
(a) Avant deffectuer les calculs, pouvez-vous dire, en justifiant votre rponse, quel
sera lintervalle le plus large ?
(b) Donner ces intervalles de confiance.
2. Quelle taille dchantillon doit-on retenir pour que lon puisse donner un intervalle de
confiance 95% pour p ayant une demi-longueur dau plus 3%, en utilisant "lintervalle
de prcaution" ?
Indications :
(a) Montrer que la fonction f (p) = p(1 p) = p p2 dfinie pour 0 p 1 atteint
1
1
son maximum en p = et que ce maximum est gal .
2
4
(b) En dduire que le "pire des cas", cest--dire le cas o la demi-longueur de
1
lintervalle de confiance est la plus grande, correspond au cas o p = .
2
(c) Trouver la taille dchantillon n recherche.

AES-Sondage

Laurent Rouvire

Annexe D
Sujet Licence AES 3 : septembre 2006
(assidus)
NB : Ce devoir vous sera corrig si vous me le remettez loccasion dun stage ou me
lexpdiez par courrier (noubliez pas de joindre une enveloppe votre adresse) :
Laurent Rouvire
Dpartement MASS
Universit Rennes 2-Haute Bretagne
Campus Villejean
Place du Recteur Henri Le Moal, CS 24307
35043 Rennes Cedex, France
e-mail : laurent.rouviere@uhb.fr
tel : 02 99 14 18 21
Exercice D.1
Quest-ce quun plan de sondage alatoire ? Donner un exemple de plan non alatoire.
Expliquer en quoi consiste un plan de sondage alatoire simple ainsi quun plan stratifi.
Dans le cas de la stratification avec allocation optimale, de quelle(s) information(s)
supplmentaire(s) par rapport lallocation proportionnelle a-t-on besoin pour calculer
les tailles des chantillons issus des diffrentes strates ? Comment obtient-on en pratique
ces informations ?
Exercice D.2
On souhaite estimer la quantit moyenne de fruits (exprime en kg) consomme annuellement par les habitants dune ville de 100 000 habitants. On slectionne par un plan simple
un chantillon de 200 habitants. Les rsultats obtenus sont les suivants :
n
X
i=1

xi = 18 700

n
X

x2i = 1 766 500.

i=1

1. Donner un intervalle de confiance 95% pour la quantit de fruits moyenne consomme annuellement par les habitants de cette ville.
AES-Sondage

Laurent Rouvire

58

Sujet Licence AES 3 : septembre 2006 (assidus)


2. On sintresse maintenant la quantit totale consomme annuellement par lensemble
des habitants de la ville. Donner une estimation, puis un intervalle de confiance 95%
pour cette quantit totale.
3. On souhaite dans cette question donner un intervalle de confiance 95% pour la
quantit de fruits moyenne consomme annuellement par les habitants de cette ville
ayant une demi-longueur dau plus 1 kg. On cherche une taille dchantillon n qui
permette de construire un tel intervalle.
(a) Pour trouver cette taille n, on nglige le taux de sondage f . Pouvez-vous donner
une interprtation "concrte" de cette hypothse et expliquer pourquoi elle est
raisonnable ? A linverse, que signifie un taux de sondage gal 1 ?
(b) Un premier expert estime en se basant sur des enqutes prcdentes que lon peut
considrer que la variance corrige S 2 calcule sur lensemble de la population
est gale 100. Un autre expert estime que la variance corrige S 2 est un peu
plus leve, et est gale 125.
i. Si vous souhaitez tre prudent et vous placer dans le pire des cas possibles,
de quel expert allez-vous suivre lavis ?
ii. Calculer n (dans ce pire des cas).
Exercice D.3
Une grande entreprise qui comprend 10 000 personnes souhaite estimer lge moyen de son
personnel. Des tudes prliminaires ont montr que lge est fortement li aux diffrentes
catgories de personnels. Pour simplifier, on considrera quil y a 3 grandes catgories qui
formeront les strates. Cinq annes auparavant, le directeur avait recens lge de tous ses
employs, il avait obtenu les rsultats suivants : Le directeur souhaite estimer lge moyen
Catgories
1
2
3
Ensemble

Effectif Nh
2000
3000
5000
10000

Sh2
324
144
100
256

des employs not partir dun chantillon de 100 personnes. Il suppose dsormais que
les dispersions des ges nont pas volu sensiblement au cours des 5 dernires annes (ce
type dhypothse reste ici trs raisonnable et se rencontre couramment en pratique quand
on rpte des enqutes dans le temps).
1. Si le directeur procde un tirage alatoire simple de 100 employs, quelle est la
variance de lestimateur de lge moyen des employs ?
2. Le directeur procde un tirage stratifi avec allocation proportionnelle de 100 employs.
(a) Quelles tailles dchantillon doit-on retenir dans chaque strate ? Quelle est alors
la variance de lestimateur du lge moyen des employs ?
Laurent Rouvire

AES-Sondage

59
(b) Il obtient pour lchantillon de la catgorie 1, une moyenne de x1 = 34, pour
lchantillon de la catgorie 2, une moyenne de x2 = 38 et pour lchantillon de
la catgorie 3, une moyenne de x3 = 50. Donner un intervalle de confiance de
90% pour lge moyen des employs.
3. Dans cette question, nous ngligerons le taux de sondage f . Nous sommes toujours
dans le cas dun tirage stratifi avec allocation proportionnelle. Le directeur souhaite
connatre la taille dchantillon n quil doit retenir pour quun intervalle de confiance
de niveau 90% pour ait une demi-longueur dau plus 1 an.
(a) Avant deffectuer les calculs, pouvez vous dire, en justifiant votre rponse, si cette
taille dchantillon sera suprieure ou infrieure 100 ?
(b) Calculer cette taille dchantillon.

AES-Sondage

Laurent Rouvire

Annexe E
Sujet Licence AES 3 : mai 2007 (non
assidus)
NB : Ce devoir vous sera corrig si vous me le remettez loccasion dun stage ou me
lexpdiez par courrier (noubliez pas de joindre une enveloppe votre adresse) :
Laurent Rouvire
Dpartement MASS
Universit Rennes 2-Haute Bretagne
Campus Villejean
Place du Recteur Henri Le Moal, CS 24307
35043 Rennes Cedex, France
e-mail : laurent.rouviere@uhb.fr
tel : 02 99 14 18 21
Exercice E.1 (Vrai ou Faux : +0.5 bonne rponse, -0.5 mauvaise rponse.)
On souhaite estimer lge moyen dans une population de taille N . La population est
dcoupe suivant trois strates. On estime laide des trois plans de sondage suivant :
P1 : un plan de sondage alatoire simple. On note
1 lestimateur de pour un tel plan.
P2 : un plan stratifi avec allocation proportionnelle. On note
2 lestimateur de pour
un tel plan.
P3 : un plan stratifi avec allocation optimale. On note
3 lestimateur de pour un
tel plan.
Pour les trois plans de sondage ci-dessus, les chantillons sont de mme tailles n. Dire sans
justifier si les assertions suivantes sont vraie ou fausses.
1. est une variable alatoire (il peut prendre plusieurs valeurs suivant lchantillon
choisi).
2.
1 ,
2 et
3 sont des variables alatoires (ils peuvent prendre plusieurs valeurs suivant
lchantillon choisi).
3. Les estimateurs
1 ,
2 et
3 sont tous sans biais.
AES-Sondage

Laurent Rouvire

62

Sujet Licence AES 3 : mai 2007 (non assidus)


4. Les intervalles de confiance de niveau 0.95 construits partir de ces trois plans ont
tous la mme longueur.
5. Les intervalles de confiance de niveau 0.95 construits partir de ces trois plans ont
tous le mme centre.
6. Pour la plan P2 , le centre de lintervalle de confiance de niveau 0.95 est
2 .
7. La variance de
3 est toujours infrieure ou gale la variance de
2 .
8. Si le taux de sondage f = n/N est gal 1, on a forcment
1 =
2 =
3 = .
Exercice E.2 (7.5 points)
On souhaite estimer la distance moyenne (exprime en kilomtres) parcourue en vlo
par les habitants dune ville de N = 50 000 habitants en mai 2005. On slectionne par un
plan de sondage alatoire simple un chantillon de taille n = 250. On note xi la distance
(exprime en kilomtres) parcourue en mai 2005 par le ime individu de lchantillon. Les
rsultats sont :
250
250
X
X
xi = 15 150,
x2i = 1 155 400.
i=1

i=1

P
1. Traduire en quelques mots linformation contenue dans la formule 250
i=1 xi = 15 150.
2
2. Avec les notations du cours, on rappelle que la variance corrige s de lchantillon
peut se calculer de la manire suivante :
!
n
X
n
1
s2 =
x2 x2 .
n 1 n i=1 i

Calculer cette variance corrige s2 .


3. On souhaite donner un intervalle de confiance de niveau 90%, puis 95% pour .
(a) Avant deffectuer les calculs, pouvez vous dire, en justifiant votre rponse, quel
sera lintervalle le plus large ?
(b) Donner ces intervalles de confiance (pour la loi normale centre rduite, on rappelle que le quantile dordre 0.95 vaut 1.64, celui dordre 0.975 vaut 1.96).
4. On souhaite dans cette question donner un intervalle de confiance de niveau 95%
pour ayant une demi-longueur dau plus 2 kilomtres. On considre que la variance
corrige S 2 calcule sur lensemble de la population est la mme que la variance
corrige s2 calcule sur lchantillon (elle a t calcule la question 2).
(a) Avant deffectuer les calculs, pouvez vous dire, en justifiant votre rponse, si la
taille dchantillon cherche sera suprieure ou infrieure 250.
(b) Calculer cette taille dchantillon (on ngligera le taux de sondage f = n/N pour
simplifier les calculs).
Exercice E.3 (7.5 points)
Le chef dune entreprise de N = 10 000 employs souhaite estimer lge moyen de ses
employs. Pour chaque individu de son lentreprise, lentrepreneur connat la rpartition de
ses employs suivant deux variables :
Laurent Rouvire

AES-Sondage

63
le salaire net partage en 3 catgories :
infrieur 1 400 euros ;
entre 1 400 et 2 500 euros ;
suprieur 2 500 euros ;
lanciennet (mesure en nombre dannes dans lentreprise) :
moins de 8 ans ;
entre 8 et 18 ans ;
plus de 18 ans.
Les rpartitions des individus suivant ces deux variables sont donnes dans les tableaux
suivants :
Salaires
[0; 1 400[
[1 400; 2 500[
plus de 2 500

Effectifs Nh
2 000
6 500
1 500

Sh2
100
64
81

Tab. E.1 Rpartition selon les salaires.

Anciennet
moins de 8 ans
entre 8 et 18 ans
plus de 18 ans

Effectifs Nh
1 500
4 500
4 000

Sh2
16
25
9

Tab. E.2 Rpartition selon lanciennet.

La colonne Sh2 dsigne la variance corrige de la variable ge mesure sur la population qui
compose la strate h.
Le patron de lentreprise dcide de faire raliser ltude par deux instituts de sondage. Le
premier institut I1 dcide de raliser un plan stratifi en dcoupant la population suivant
les classes de salaires proposes dans le tableau E.1. Le second institut propose de stratifier
la population suivant les classes danciennet du tableau E.2.
1. Avant deffectuer les calculs, pouvez vous dire quel est le plan qui vous semble le plus
pertinent parmi les deux plans proposs par I1 et I2 ? Justifier votre rponse.
2. Les deux instituts de sondage dcide de constituer un chantillon de taille n = 100.
(a) Quelles tailles dchantillon doit retenir linstitut I1 dans chaque strate sil ralise
un plan avec allocation proportionnelle ? Calculer alors la variance de lestimateur stratifi que lon obtient avec ce plan de sondage.
(b) Quelles tailles dchantillon doit retenir linstitut I2 dans chaque strate sil ralise un plan avec allocation optimale ? Calculer alors la variance de lestimateur
stratifi que lon obtient avec ce plan de sondage.
3. Pour le plan ralis par linstitut I2 dans la question 2-b), on a les rsultats suivants :
x1 = 28,

x2 = 40,

x3 = 52,

o xh dsigne lge moyen des individus de lchantillon dans la strate h.


(a) Donner
lestimateur ponctuel de pour ce plan de sondage.
(b) Donner un intervalle de confiance de niveau 0.95 pour .

AES-Sondage

Laurent Rouvire

Annexe F
Sujet Licence AES 3 : mai 2008 (non
assidus)
NB : Ce devoir vous sera corrig si vous me le remettez loccasion dun stage ou me
lexpdiez par courrier (noubliez pas de joindre une enveloppe votre adresse) :
Laurent Rouvire
Dpartement MASS
Universit Rennes 2-Haute Bretagne
Campus Villejean
Place du Recteur Henri Le Moal, CS 24307
35043 Rennes Cedex, France
e-mail : laurent.rouviere@uhb.fr
tel : 02 99 14 18 21
Exercice F.1 (Vrai ou Faux : +0.5 bonne rponse, -0.5 mauvaise rponse.)
On souhaite estimer lge moyen dans une population de taille N . La population est
dcoupe suivant trois strates. On estime laide des trois plans de sondage suivant :
P1 : un plan de sondage alatoire simple. On note
1 lestimateur de pour un tel plan.
P2 : un plan stratifi avec allocation proportionnelle. On note
2 lestimateur de pour
un tel plan.
P3 : un plan stratifi avec allocation optimale. On note
3 lestimateur de pour un
tel plan.
Pour les trois plans de sondage ci-dessus, les chantillons sont de mme tailles n. Dire sans
justifier si les assertions suivantes sont vraie ou fausses.
1. est une variable alatoire (il peut prendre plusieurs valeurs suivant lchantillon
choisi).
2. Plus la taille n de lchantillon est grande, plus la variance de
1 est petite.
3.
1 ,
2 et
3 sont des variables alatoires (ils peuvent prendre plusieurs valeurs suivant
lchantillon choisi).
4. Les estimateurs
1 ,
2 et
3 sont tous sans biais.
5. Si n = N alors la variance de
2 est nulle.
AES-Sondage

Laurent Rouvire

66

Sujet Licence AES 3 : mai 2008 (non assidus)


6. Les intervalles de confiance de niveau 0.95 construits partir de ces trois plans ont
tous le mme centre.
7. La demi-longueur dun intervalle de confiance de niveau 0.90 est toujours plus grande
que celle dun intervalle de confiance de niveau 0.95
8. Si le taux de sondage f = n/N est gal 1, on a forcment
1 =
2 =
3 = .
Exercice F.2 (7.5 points)
On souhaite estimer le poids moyen (exprim en kilogrammes) des habitants dune ville
de N = 50 000 habitants. On slectionne par un plan de sondage alatoire simple (sans
remise) un chantillon de taille n = 500. On note xi le poids (exprime en kilogrammes) du
ime individu de lchantillon. Les rsultats sont :
500
X

xi = 40 200,

i=1

500
X

x2i = 3 300 000.

i=1

1. Traduire en quelques mots linformation contenue dans la formule

P500

i=1

xi = 40 200.

2. Donner une estimation ponctuelle du poids moyen ainsi que du poids total des habitants de la ville.
3. Avec les notations du cours, on rappelle que la variance corrige s2 de lchantillon
peut se calculer de la manire suivante :
!
n
X
n
1
s2 =
x2 x2 .
n 1 n i=1 i
Calculer cette variance corrige s2 .
4. On souhaite donner un intervalle de confiance de niveau 90%, puis 95% pour .
(a) Avant deffectuer les calculs, pouvez vous dire, en justifiant votre rponse, quel
sera lintervalle le plus large ?
(b) Donner ces intervalles de confiance (pour la loi normale centre rduite, on rappelle que le quantile dordre 0.95 vaut 1.64, celui dordre 0.975 vaut 1.96).
5. On souhaite dans cette question donner un intervalle de confiance de niveau 95% pour
ayant une demi-longueur dau plus 1 kilogramme. On considre que la variance
corrige S 2 calcule sur lensemble de la population est la mme que la variance
corrige s2 calcule sur lchantillon (elle a t calcule la question 2).
(a) Avant deffectuer les calculs, pouvez-vous dire, en justifiant votre rponse, si la
taille dchantillon cherche sera suprieure ou infrieure 500.
(b) Calculer cette taille dchantillon (on ngligera le taux de sondage f = n/N pour
simplifier les calculs).

Exercice F.3 (7.5 points)


Le ministre de lindustrie souhaite estimer le chiffre daffaire moyen en millions deuros
des N = 10 000 entreprises dun dpartement. Pour chaque entreprise du dpartement, la
Laurent Rouvire

AES-Sondage

67
personne charge de ltude connat la rpartition des entreprises du dpartement suivant
deux variables :
le nombre demploys :
infrieur 15 employs ;
entre 15 et 50 employs ;
suprieur 50 employ ;

lge moyen des employs


moins de 35 ans ;
entre 35 et 48 ans ;
plus de 48 ans.

Les rpartitions des individus suivant ces deux variables est donne dans les tableaux suivants :
Nb employ
Age moyen

[0; 35[
[35; 48[
plus de 48
Total

[0; 15[
1 500
2 000
500
4 000

[15; 50[ plus de 50


500
1 500
1 500
3 500

500
1 000
1 000
2 500

Total
2 500
4 500
3 000
10 000

Tab. F.1 Rpartition des entreprises selon lge moyen et le nombre demploys.

Lcart type corrig de la variable chiffre daffaire suivant les variables nombre demploys
et age moyen des employs est connu. Il est donn dans les tableaux suivants :
Nombre demploys
[0; 15[
[15; 50[
plus de 50

Sh
10
6
12

Tab. F.2 Ecart-type corrig selon le


nombre demploys.

Age moyen
[0; 35[
[35; 48[
plus de 48

Sh
17
14
28

Tab. F.3 Ecart type corrig selon lge


moyen.

La personne charge de ltude dcide de faire appel deux instituts de sondage. Le premier
institut I1 dcide de raliser un plan stratifi en dcoupant la population suivant lge moyen
des salaris de lentreprise. Le second institut I2 propose de stratifier la population suivant
le nombre demploys des entreprises.
1. Avant deffectuer les calculs, pouvez vous dire quel est le plan qui vous semble le plus
pertinent parmi les deux plans proposs par I1 et I2 ? Justifier votre rponse.
2. Les deux instituts de sondage dcide de constituer un chantillon de taille n = 100.
(a) Quelles tailles dchantillon doit retenir linstitut I1 dans chaque strate sil ralise
un plan avec allocation proportionnelle ? Calculer alors la variance de lestimateur stratifi que lon obtient avec ce plan de sondage.
(b) Quelles tailles dchantillon doit retenir linstitut I2 dans chaque strate sil ralise un plan avec allocation optimale ? Calculer alors la variance de lestimateur
stratifi que lon obtient avec ce plan de sondage.

AES-Sondage

Laurent Rouvire

68

Sujet Licence AES 3 : mai 2008 (non assidus)


3. Pour le plan ralis par linstitut I2 dans la question 2-b), on a les rsultats suivants :
x1 = 18.4,

x2 = 31.8,

x3 = 90.2,

o xh dsigne le chiffre daffaire moyen des individus de lchantillon dans la strate h.


(a) Donner
lestimateur ponctuel de pour ce plan de sondage.
(b) Donner un intervalle de confiance de niveau 0.95 pour .

Laurent Rouvire

AES-Sondage

Annexe G
Sujet Licence AES 3 : juin 2008 (non
assidus)
NB : Ce devoir vous sera corrig si vous me le remettez loccasion dun stage ou me
lexpdiez par courrier (noubliez pas de joindre une enveloppe votre adresse) :
Laurent Rouvire
Dpartement MASS
Universit Rennes 2-Haute Bretagne
Campus Villejean
Place du Recteur Henri Le Moal, CS 24307
35043 Rennes Cedex, France
e-mail : laurent.rouviere@uhb.fr
tel : 02 99 14 18 21
Exercice G.1 (Vrai ou Faux : +0.5 bonne rponse, -0.5 mauvaise rponse.)
On souhaite estimer lge moyen dans une population de taille N . La population est
dcoupe suivant trois strates. On estime laide des trois plans de sondage suivant :
P1 : un plan de sondage alatoire simple. On note
1 lestimateur de pour un tel plan.
P2 : un plan stratifi avec allocation proportionnelle. On note
2 lestimateur de pour
un tel plan.
P3 : un plan stratifi avec allocation optimale. On note
3 lestimateur de pour un
tel plan.
Pour les trois plans de sondage ci-dessus, les chantillons sont de mme tailles n. Dire sans
justifier si les assertions suivantes sont vraie ou fausses.
1. est une variable alatoire (il peut prendre plusieurs valeurs suivant lchantillon
choisi).
2. Plus la taille n de lchantillon est grande, plus la variance de
1 est petite.
3.
1 ,
2 et
3 sont des variables alatoires (ils peuvent prendre plusieurs valeurs suivant
lchantillon choisi).
4. Les estimateurs
1 ,
2 et
3 sont tous sans biais.
5. Si n = N alors la variance de
2 est nulle.
AES-Sondage

Laurent Rouvire

70

Sujet Licence AES 3 : juin 2008 (non assidus)


6. Les intervalles de confiance de niveau 0.95 construits partir de ces trois plans ont
tous le mme centre.
7. La demi-longueur dun intervalle de confiance de niveau 0.90 est toujours plus grande
que celle dun intervalle de confiance de niveau 0.95
8. Si le taux de sondage f = n/N est gal 1, on a forcment
1 =
2 =
3 = .
Exercice G.2 (7.5 points)
On souhaite estimer le poids moyen (exprim en kilogrammes) des habitants dune ville
de N = 50 000 habitants. On slectionne par un plan de sondage alatoire simple (sans
remise) un chantillon de taille n = 500. On note xi le poids (exprime en kilogrammes) du
ime individu de lchantillon. Les rsultats sont :
500
X

xi = 40 200,

i=1

500
X

x2i = 3 300 000.

i=1

1. Traduire en quelques mots linformation contenue dans la formule

P500

i=1

xi = 40 200.

2. Donner une estimation ponctuelle du poids moyen ainsi que du poids total des habitants de la ville.
3. Avec les notations du cours, on rappelle que la variance corrige s2 de lchantillon
peut se calculer de la manire suivante :
!
n
X
n
1
s2 =
x2 x2 .
n 1 n i=1 i
Calculer cette variance corrige s2 .
4. On souhaite donner un intervalle de confiance de niveau 90%, puis 95% pour .
(a) Avant deffectuer les calculs, pouvez vous dire, en justifiant votre rponse, quel
sera lintervalle le plus large ?
(b) Donner ces intervalles de confiance (pour la loi normale centre rduite, on rappelle que le quantile dordre 0.95 vaut 1.64, celui dordre 0.975 vaut 1.96).
5. On souhaite dans cette question donner un intervalle de confiance de niveau 95% pour
ayant une demi-longueur dau plus 1 kilogramme. On considre que la variance
corrige S 2 calcule sur lensemble de la population est la mme que la variance
corrige s2 calcule sur lchantillon (elle a t calcule la question 2).
(a) Avant deffectuer les calculs, pouvez-vous dire, en justifiant votre rponse, si la
taille dchantillon cherche sera suprieure ou infrieure 500.
(b) Calculer cette taille dchantillon (on ngligera le taux de sondage f = n/N pour
simplifier les calculs).

Exercice G.3 (7.5 points)


Le ministre de lindustrie souhaite estimer le chiffre daffaire moyen en millions deuros
des N = 10 000 entreprises dun dpartement. Pour chaque entreprise du dpartement, la
Laurent Rouvire

AES-Sondage

71
personne charge de ltude connat la rpartition des entreprises du dpartement suivant
deux variables :
le nombre demploys :
infrieur 15 employs ;
entre 15 et 50 employs ;
suprieur 50 employ ;

lge moyen des employs


moins de 35 ans ;
entre 35 et 48 ans ;
plus de 48 ans.

Les rpartitions des individus suivant ces deux variables est donne dans les tableaux suivants :
Nb employ
Age moyen

[0; 35[
[35; 48[
plus de 48
Total

[0; 15[
1 500
2 000
500
4 000

[15; 50[ plus de 50


500
1 500
1 500
3 500

500
1 000
1 000
2 500

Total
2 500
4 500
3 000
10 000

Tab. G.1 Rpartition des entreprises selon lge moyen et le nombre demploys.

Lcart type corrig de la variable chiffre daffaire suivant les variables nombre demploys
et age moyen des employs est connu. Il est donn dans les tableaux suivants :
Nombre demploys
[0; 15[
[15; 50[
plus de 50

Sh
10
6
12

Tab. G.2 Ecart-type corrig selon le


nombre demploys.

Age moyen
[0; 35[
[35; 48[
plus de 48

Sh
17
14
28

Tab. G.3 Ecart type corrig selon lge


moyen.

La personne charge de ltude dcide de faire appel deux instituts de sondage. Le premier
institut I1 dcide de raliser un plan stratifi en dcoupant la population suivant lge moyen
des salaris de lentreprise. Le second institut I2 propose de stratifier la population suivant
le nombre demploys des entreprises.
1. Avant deffectuer les calculs, pouvez vous dire quel est le plan qui vous semble le plus
pertinent parmi les deux plans proposs par I1 et I2 ? Justifier votre rponse.
2. Les deux instituts de sondage dcide de constituer un chantillon de taille n = 100.
(a) Quelles tailles dchantillon doit retenir linstitut I1 dans chaque strate sil ralise
un plan avec allocation proportionnelle ? Calculer alors la variance de lestimateur stratifi que lon obtient avec ce plan de sondage.
(b) Quelles tailles dchantillon doit retenir linstitut I2 dans chaque strate sil ralise un plan avec allocation optimale ? Calculer alors la variance de lestimateur
stratifi que lon obtient avec ce plan de sondage.

AES-Sondage

Laurent Rouvire

72

Sujet Licence AES 3 : juin 2008 (non assidus)


3. Pour le plan ralis par linstitut I2 dans la question 2-b), on a les rsultats suivants :
x1 = 18.4,

x2 = 31.8,

x3 = 90.2,

o xh dsigne le chiffre daffaire moyen des individus de lchantillon dans la strate h.


(a) Donner
lestimateur ponctuel de pour ce plan de sondage.
(b) Donner un intervalle de confiance de niveau 0.95 pour .

Laurent Rouvire

AES-Sondage

Annexe H
Un dernier problme...
On ralise une enqute pour valuer le salaire moyen des employs dune entreprise. Lentreprise est compose de 20 salaris, on connat la rpartition des salaris suivant deux
catgories : ouvrier (O) ou cadre (C). Les salaires ainsi que les catgories se trouvent dans
le tableau H.1.
Employs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Catgories
C
C
C
C
C
C
C
C
C
C
O
O
O
O
O
O
O
O
O
O

salaire mensuel
2225
1616
2456
3350
2600
2028
3025
2756
1965
2618
1415
1415
1469
1335
1554
1465
1498
1325
1598
1484

Tab. H.1 Salaires et catgories des employs.


1. Calculer le salaire moyen (que lon va ensuite chercher estimer ! ! !) et la variance
corrige S 2 ?
2. Un employ parmi les ouvrier souhaitent estimer le salaire moyen des employs en
effectuant un plan de sondage alatoire simple (avec un chantillon de taille n = 8).
AES-Sondage

Laurent Rouvire

74

Un dernier problme...
(a) Rappeler la formule qui permet de calculer lestimateur de pour ce plan de
sondage.
(b) Quelle est la variance de cet estimateur ?
3. Les cadres se trouvant dans des locaux loigns du sien, il dcide dinterroger uniquement des ouvriers de lentreprise. Dans le cas o il interroge les 8 premiers ouvriers
du tableau H.1, donner la valeur de lestimateur de la moyenne
.
Un ouvrier (un peu plus malin) se dit que lestimation du salaire moyen serait meilleure
en interrogeant des ouvriers et des cadres. Il dcide de raliser un plan de sondage stratifi
(la taille de lchantillon est toujours gale 8).
4. Dcrire lenqute permettant de raliser un tel plan de sondage ainsi que la manire
de calculer lestimateur
du salaire moyen. Quel est lintrt dune telle procdure
en comparaison avec les plans simples ?
5. On note nC le nombre de personnes interroges parmi les cadres et nO parmi les
ouvriers. Dans le cas dun plan stratifi avec allocation proportionnelle :
(a) Calculer nC et nO .
(b) Calculer la variance de
.
(c) On a interrog les nC premiers cadres et les nO premiers ouvriers du tableau H.1,
quelle est la valeur de
?
(d) En dduire un intervalle de confiance de niveau 0.95 pour .
6. Reprendre la question 6 dans le cas dun plan avec allocation optimale.
7. Comparer et commenter les diffrences entre les variances des estimateurs pour les
trois plans de sondage proposs dans cet exercice.

Laurent Rouvire

AES-Sondage

CORRECTION

1. Moyenne :
N
1 X
Xi = 1959.4.
=
N i=1

Variance corrige :

1 X
S =
(Xi )2 = 399 906.7.
N 1 i=1
2

2. (a) Pour i = 1, . . . 8, on note xi le salaire de la ime personne intrroge, lestimateur


de est donn par :
n
1X

=
xi .
n i=1
(b) La variance de cet estimateur est donne par :



8 399 906.7
n  S2
= 1
= 11 997.2
V(
) = 1
N N
20
20

3. Valeur de
sur lchantillon :

1415 + 1469 + . . . + 1325


= 1434.5.
8

4. Un plan de sondage stratifi consiste dcouper la population suivant les deux catgories (ouvriers et cadres) et raliser un plan de sondage alatoire simple dans
chacune de ces deux populations (strates). Plus prcisment, on interroge nC salaris
parmi les cadres et nO parmi les ouvriers. On note xC (resp xO ) le salaire moyen des
cadres (resp ouvriers) interrogs. Lestimateur du salaire moyen de tous les salaris
est obtenu grce la formule :

10
xO + 10
xC
NO xO + NC xC
=
.
N
20

(H.1)

Lintrt dune telle procdure est de fournir des estimateurs plus prcis (ayant une
variance plus faible). Pour augmenter la prcision, il est ncessaire dutiliser une variable de stratification fortement lie la variable dintrt. Cest le cas ici puisque
intuitivement, on sent bien que les salaires des cadres sont plus levs que ceux des
ouvriers.
5. Pour raliser le plan stratifi, il reste maintenant choisir les tailles dchantillon nC
et nO , cest dire le nombre de cadres et douvriers que lon va interroger.

76

Un dernier problme...
(a) Lallocation proportionnelle propose de choisir les tailles dchantillon dans les
strates de manire ce que la proportion dindividus dans les strates de lchantillon soit la mme que dans les strates de la population. On choisit donc nC tel
que
nC
NC
NC
10
=
nC = n
=8
= 4.
n
N
N
20
De mme
10
NO
=8
= 4.
nO = n
N
20
(b) Calculons dabord la variance corrige pour les deux strates :
N

SC2

C
X
1
(Xi C )2
=
NC 1 i=1

=
et

(2225 2463.9)2 + (1616 2463.9)2 + . . . + (2618 2463.9)2


= 271 397.7 ,
10 9
N

SO2

O
X
1
(Xi O )2
=
NO 1 i=1

(1415 1454.9)2 + (1415 1454.9)2 + . . . + (1484 1454.9)2


= 7 249.211.
10 1

La variance de
pour un plan stratifi avec allocation proportionnelle est donne
par :
H
1
n 1 X
V(
) =
1
Nh Sh2
n
N N h=1


8
1
1
1
(10 271 397.7 + 10 7 249.211) = 10 449.26.
=
8
20 20

(c) Le salaire moyen des cadres et ouvriers interrogs est


xO =
et
xC =

1415 + 1415 + 1465 + 1335


= 1 408.5
4

2225 + 1616 + 2456 + 3350


= 2 411.75.
4

On dduit de (H.1)

10 1408.5 + 10 2411.75
= 1 910.125.
20

(d) Un intervalle de confiance 95% est donn par


h
i
p
p

z0.975 V(
);
+ z0.975 V(
) = [1 709.771; 2 110.479].
Laurent Rouvire

AES-Sondage

77
6. Pour un sondage avec allocation optimale, on choisit les tailles dchantillon de manire minimiser la variance de lestimateur
.
(a) Les tailles dchantillon sont donnes par :
N h Sh
.
nh = n PH
h=1 Nh Sh

Par consquent
nC = 8

10 520.9584
= 6.87,
10 520.9584 + 10 85.1423

10 85.1423
= 1.13.
10 520.9584 + 10 85.1423
Il faut arrondir nC = 7 et nO = 1.
nO = 8

(b) La variance de
se calcule partir de
H
1 X
N h nh 2
V(
) = 2
Sh
Nh
N h=1
nh


10 7
10 1
1
271 397.7 + 10
7 249.211 = 4 538.905.
= 2 10
20
7
1

(c) Le salaire moyen des cadres et ouvriers interrogs est


xO =

1415
= 1415
1

et
xC =

2225 + 1616 + 2456 + 3350 + 2600 + 2028 + 3025


= 2 471.429.
7

On dduit de (H.1)

10 1415 + 10 2471.429
= 1 943.215
20

(d) Un intervalle de confiance 95% est donn par


h
i
p
p

z0.975 V(
);
+ z0.975 V(
) = [1 811.167; 2 075.263].

7. Le tableau H.2 rcapitule les variance de lestimateur


en fonction du plan de sondage :
plans
Simple
Alloc. prop
Alloc opti

V(
)
11 997.2
10 449.26
4 538.9

Tab. H.2 Variances de


pour les trois plans de sondage tudis.

AES-Sondage

Laurent Rouvire

78

Un dernier problme...
Les plans simple et stratifi avec allocation proportionnelle conduisent des estimateurs possdant des variances similaires. Le plan stratifi avec allocation optimale
permet de rduire la variance de manire significative. En regardant les donnes, on
saperoit que ceci vient du fait que les disparits sont beaucoup plus importantes
chez les cadres que chez les ouvriers (SC2 = 271 397.7 et SO2 = 7 249.211), il est donc
ncessaire dinterroger plus de cadres que douvriers pour estimer au mieux le salaire
moyen dans chacune des catgories. Cest ce que propose lallocation optimale puisque
quon interroge 7 cadres et un seul ouvrier.

Laurent Rouvire

AES-Sondage