Vous êtes sur la page 1sur 4

UNIVERSITE CHEICK ANTA DIOP

CREFDES : ASEF 3
COURS DE THEORIE DES SONDAGES

FICHE DE TD N°2

EXERCICE N°1

Dans une population de taille N partitionnée en H strates, on sélectionne un échantillon de taille


n suivant un plan stratifié. Dans chaque strate ℎ, on tire 𝑛ℎ individus parmi 𝑁ℎ selon un sondage
aléatoire simple sans remise de taille fixe.

Préalable montrer la formule de décomposition de la variance


𝐻 𝐻
1 1 1
σ2y = ∑ (𝑌𝑘 − 𝑌̅)2 = ∑ 𝑁ℎ 𝜎𝑦ℎ
2
+ ∑ 𝑁ℎ (𝑌̅ℎ − 𝑌̅)2
N 𝑁 𝑁
𝑘𝜖𝑈 ℎ=1 ℎ=1

1. Pour une variable d’intérêt 𝑌, donner les estimateurs du total 𝑡𝑌 et de la moyenne

2. Montrer que ces deux estimateurs sont sans biais et calculer leur variance

3. On considère l’allocation proportionnelle de l’échantillon : on décide de tirer dans chaque strate


ℎ un nombre d’individus 𝑛ℎ tel que :
𝑛ℎ 𝑛
=
𝑁ℎ 𝑁

a. Comment s’écrive alors les estimateurs du total et de la moyenne ?


b. Que vaut leur variance ?
2 2
c. Montrer alors, que si on suppose : 𝜎𝑦2 ≈ 𝑆𝑦2 et 𝜎𝑦ℎ ≈ 𝑆𝑦ℎ pour tout ℎ, l’allocation
proportionnelle est toujours meilleure qu’un sondage aléatoire simple.

4. Le point de vue envisagé maintenant est celui d’une allocation optimale afin de satisfaire un
souci de précision. Sous la contrainte que :
𝐻

∑ 𝑛ℎ = 𝑛
ℎ=1

a. Quelle est l’allocation des 𝑛ℎ qui minimise la variance de l’estimateur du total ?


b. Que vaut alors la variance ?
c. Comment peut-on interpréter le choix des allocations optimales ?

1
EXERCICE N°2

Une grande entreprise veut réaliser une enquête auprès de son personnel, qui comprend 10 000
personnes. Des études préliminaires ont montré :

o que les variables qu’on cherche à analyser dans l’enquête sont très contrastées selon les
catégories de personnel, et qu’il y a donc intérêt à stratifier selon ces catégories. Pour
simplifier, on considèrera qu’il y a trois grandes catégories qui formeront les strates.
o que les variables sont également très fortement liées à l’âge des individus.

On va donc proposer des plans d’échantillonnage comme si on voulait étudier l’âge des individus :
si une stratégie est meilleure que d’autres pour estimer l’âge moyen, on a de bonnes raisons de
penser qu’elle sera aussi la meilleure pour les vraies variables d’intérêt. Comme on connaît l’âge
des membres du personnel, on peut raisonner en faisant les comparaisons exactes.

On dispose donc des renseignements suivants :

Catégorie Poids dans l'ensemble du personnel Ecart-type des âges


1 20% 18
2 30% 12
3 50% 3,6
Ensemble 100% 16

1. Soit 𝑌̅ l’âge moyen et 𝑌̅̂ l’estimateur issu d’un échantillon aléatoire simple sans remise à

probabilités égales de 𝑛 = 100 individus. Quelle est l’erreur-type de 𝑌̅̂ ?

2. On décide que l’échantillon de 100 individus doit être stratifié selon les trois catégories de
personnel. Quelle est la répartition « représentative » ? Quelle est l’erreur-type de l’estimateur de 𝑌̅
qui en découle ? Comparer les résultats avec les résultats de la question 1.

3. Quelle serait la répartition optimale de l’échantillon ? Quelle est l’erreur-type de l’estimateur de


𝑌̅ qui en découle ? Comparer avec le résultat de la question 2.

EXERCICE N°3
Un journal a 40 000 abonnés, desservis par transporteurs. Il y a une carte pour chaque abonné, et
le fichier des cartes est trié par ordre géographique de sorte que les zones géographiques se suivent
les unes les autres.

Le but de l’enquête est d’estimer combien d’abonnés sont propriétaires de leur résidence principale
(en vue de cibler certaines publicités). La direction du journal passe commande d’une enquête par

2
interviews auprès de 800 abonnés, pris par grappes de 10 ; procéder ainsi économise des coûts de
transport, car un enquêteur peut généralement faire 10 interviews en une demi-journée si elles sont
proches géographiquement.

Le responsable du plan de sondage considère donc les N = 40 000 cartes comme une base
composée de M = 4000 grappes de N0 unités chacune (remarque : quelques grappes peuvent être
réparties dans des zones différentes, mais néanmoins proches). On sélectionne, selon un procédé
systématique assimilable à un tirage à probabilités égales et sans remise, 80 grappes au sein des
4 000.

Soit 𝑌𝑖 le nombre total d’abonnés de la grappe 𝑖 propriétaires de leur résidence principale ((0 ≤
𝑌𝑖 ≤ 10). On trouve :

80 80

∑ 𝑌𝑖 = 370 ∑ 𝑌𝑖2 = 2 536


𝑖=1 𝑖=1

1. Trouver un intervalle de confiance à 95% pour le nombre total de propriétaires parmi la


population totale des abonnés au journal.

2. Si 𝑃 désigne la proportion de ces propriétaires dans l’ensemble des abonnés, quelle est la valeur
de l’estimateur 𝑃̂ ? Donner un intervalle de confiance à 95% pour 𝑃.

3. Si la valeur numérique de 𝑃̂ obtenue à la question précédente était issue d’un sondage simple à
probabilités égales sans remise au sein des 40 000 abonnés, quel serait alors l’intervalle de confiance
qui en aurait découlé pour 𝑃.

4. Comment expliquez-vous la différence constatée pour les intervalles calculés aux deux questions
précédentes ?

5. En tant que statisticien(ne), on vous demande de formuler des suggestions pour améliorer la
qualité (précision) de la procédure de sondage. Enoncez brièvement et en argumentant vos
suggestions.

EXERCICE N°4
Un statisticien souhaite réaliser une enquête sur la qualité des soins assurés dans les services de
cardiologie des hôpitaux. Pour cela, il tire par sondage aléatoire simple 100 hôpitaux parmi les 1000
répertoriés, puis, dans chacun des hôpitaux tirés, il recueille l’avis de tous les malades du service
de cardiologie.

3
1. Comment se nomme ce plan de sondage et quelle est sa raison d’être ?

2. On considère que chaque service de cardiologie comprend exactement 50 lits et que l’intervalle
de confiance à 95% sur la vraie proportion 𝑃 de malades insatisfaits est :

𝑃𝜖[0,10 ± 0,018]

(Cela signifie en particulier de 10% des malades sont insatisfaits de la qualité des soins). Comment
estimez-vous l’effet grappe ?

3. Le statisticien se demande comment évoluerait la précision de son enquête de satisfaction si,


d’un coup, il échantillonnait deux fois plus d’hôpitaux mais que dans chaque tiré, il ne collecte ses
données que sur la moitié du service de cardiologie (mettons que les services soient
systématiquement partagés par un couloir et que notre statisticien ne s’intéresse exclusivement
qu’aux 25 lits qui se situent à droite du couloir).

4. Commentez ce résultat par rapport à ce que donnait le premier plan de sondage.

Vous aimerez peut-être aussi