Vous êtes sur la page 1sur 9

UNIVERSITE DE YAOUNDE II

THE UNIVERSITY OF YAOUNDE II

FACULTE DES SCIENCES FACULTY OF ECONOMICS AND MANAGEMENT


ECONOMIQUES ET DE GESTION P.O Box 1365 YAOUNDE
BP. 1365 YAOUNDE CAMEROON
CAMEROUN fseg@.univ-yde2.org
www.univ-yde2.org
Tél: (237) 22 06 26 98 / Fax (237)22 23 84 28 Tel: (237) 22 06 26 98/ Fax (237) 22 23 84 28

Année académique 2022-2023

Travaux dirigés de techniques de sondage et enquête

Questions de cours
1- Qu’est-ce qu’un plan de sondage aléatoire simple ?
2- Qu’est-ce qu’un sondage stratifié ?
3- Quelle différence faites-vous entre un sondage stratifié et un sondage en grappes ?
4- Citez deux exemples de plans de sondage à probabilités inégales.

Exercice 1

On considère pour cela tous les échantillons possibles de taille 2 pris dans une population de
taille N = 5. On connaît par ailleurs les valeurs de la variable d’intérêt Y pour chaque unité de
la population, à savoir respectivement : 8, 3, 11, 4 et 7.
1. Calculer la moyenne Y et la dispersion 𝑆𝑌2 du caractère d’intérêt sur la population.
2. Lister tous les échantillons possibles de taille 2.
3. Pour chacun de ces échantillons, calculer l’estimateur 𝑌̅̂ de la moyenne de la variable
d’intérêt.
4. Vérifier que 𝑌̅̂ estime sans biais la vraie moyenne.
5. Calculer la variance de cet estimateur 𝑉(𝑌̅̂)
6. Vérifier que cette variance 𝑉(𝑌̅̂) coïncide avec la formule donnée par la théorie.
7. Calculer l’estimateur de variance 𝑉̂ (𝑌̅̂) pour chacun des échantillons possibles.
8. Vérifier que 𝑉̂ (𝑌̅̂) estime sans biais la vraie variance 𝑉(𝑌̅̂).

Exercice 2

Considérons qu’on veuille estimer le total et la moyenne d’une grandeur Y dans une population
U de taille N. Pour cela, on procède à un sondage aléatoire simple sans remise de taille n et on
note S l’échantillon aléatoire obtenu.
1. Combien y a-t-il d’échantillons possibles ? Quelle est la probabilité de tirer chacun d’entre
eux ?

1
2. On considère un individu k quelconque dans U. Combien y a-t-il d’échantillons contenant
cet individu ? En déduire la probabilité de tirage de k.
3. On note 𝐼𝑘 la variable aléatoire valant 1 si k appartient à l’échantillon et 0 sinon.
a. Que vaut 𝐸 (𝐼𝑘 ) ?
b. Comment peut-on réécrire ∑𝑘∈𝑆 𝑌𝑘 à partir des 𝐼𝑘 ?
4. En déduire que :
𝑁
a. 𝑡̂𝑦 = ∑𝑘∈𝑆 𝑌𝑘 estime sans biais le vrai total 𝑡𝑦 = ∑𝑘∈𝑈 𝑌𝑘
𝑛
b. et que 𝑌̅̂ = 𝑛 ∑𝑘𝜖𝑆 𝑌𝑘 estime sans biais la vraie moyenne 𝑌̅ = 𝑁 ∑𝑘𝜖𝑈 𝑌𝑘 .
1 1

5. Combien y a-t-il d’échantillons comprenant les individus identifiés k et l ? En déduire la


probabilité de tirer ces deux individus conjointement. Que vaut alors 𝐸 (𝐼𝑘 𝐼𝑙 ) ? En déduire
𝐶𝑜𝑣(𝐼𝑘 , 𝐼𝑙 ).
1 𝑛
6. On note 𝑆𝑦2 = ∑𝑘∈𝑈 (𝑌𝑘 − 𝑌̅ )2 et 𝑓 = . Montre que :
𝑁−1 𝑁
𝑆𝑦2
a. 𝑉𝑎𝑟(𝑡̂𝑦 ) = 𝑁(𝑁 − 𝑛) 𝑛
𝑆𝑦2
b. 𝑉𝑎𝑟(𝑌̅̂) = (1 − 𝑓)
𝑛
7. Quel est l’intérêt du sondage sans remise par rapport au sondage avec remise ?
2
8. Montrer que 𝑆 2 = 𝑛−1 ∑𝑘∈𝑆(𝑌𝑘 − 𝑌̅̂) estime sans biais 𝑆𝑦2 .
1

9. En déduire des estimateurs sans biais de 𝑉𝑎𝑟(𝑡̂𝑦 ) et de 𝑉𝑎𝑟(𝑌̅̂)


.

Exercice 3. Soit la population {1,2,3} . On considère le plan de sondage suivant :


(n=2)
1 1 1
𝑃({1,2}) = 𝑃({1,3}) = 𝑃({2,3}) =
2 4 4
1. Est-ce un sondage aléatoire simple ?
2. Calculer la probabilité pour que l’individu 1 fasse partie de l’échantillon. Même question
pour les individus 2 et 3.
3. Calculer la valeur de l’estimateur de la moyenne pour chaque échantillon possible.
4. Vérifier que cet estimateur est biaisé.

Exercice 4. Les 4 pandas d’un zoo de Vienne forment une population de quatre sujets. Soit Y
la variable donnant leur poids et {98.7, 102.6, 108.5, 120.3} les valeurs observées.

a. Déterminer la moyenne et la variance dans cette population


b. Combien d’échantillons de taille 3 peut-on extraire de la population ? Citez-les
c. Pour chacun de ces échantillons, calculer la moyenne et la variance
d. En supposant que les différents échantillons soient équiprobables, donner la distribution
de l’estimateur de la moyenne de la population et calculer l’espérance de cette moyenne,
son biais et son erreur quadratique moyenne
e. Les pandas femelles se laissent plus difficilement attraper que les mâles. La population
étant constituée de trois mâles et d’une femelle, l’échantillon masculin a une probabilité
qui vaut 2/5 contre 1/5 seulement pour les échantillons contenant la femelle. Donner

2
alors la distribution de l’estimateur de la moyenne de la population et calculer
l’espérance de cette moyenne, son biais et son erreur quadratique moyenne.

Exercice 5.
Considérons une population de quatre sujets sur lesquels on mesure une variable X dont voici
les valeurs : {6.2; 9.3; 9.9; 10.7}
a. Déterminer la moyenne et la variance dans cette population ;
b. Combien d’échantillons de taille 3 peut-on extraire de la population ? Citez-les
c. Pour chacun de ces échantillons, calculer la moyenne et la variance ;
d. En supposant que les différents échantillons sont équiprobables, donner la distribution de
l’estimateur de la moyenne de la population et calculer l’espérance de cette moyenne, son biais
et son erreur quadratique moyenne ;
e. En supposant maintenant que l’individu n°4 soit moins disponible que les autres pour
l’enquête, recalculer ces valeurs si la probabilité de l’échantillon dans lequel il n’apparaît pas
est deux fois plus grande que pour les autres échantillons.

Exercice 6. On rappelle que l'on tire un n-échantillon d'un sondage aléatoire simple sans
remise comme suit :

i) On affecte à chaque unité k de U un réel aléatoire 𝑍𝑘 tiré selon une loi U(0; 1).
ii) On trie les observations par 𝑍𝑘 croissant, par exemple.
iii) On prend pour échantillon les n premiers de la liste ainsi triée.

On veut montrer ici que ce procédé fournit bien un sondage aléatoire simple.

1. Quelle est la probabilité d'un ordre particulier des unités k de U selon ce procédé ?
2. Quelle est la probabilité que l'ordre commence par n unités (ordonnées) données
(𝑘1 , … . . , 𝑘𝑛 ) ?
3. En déduire la probabilité que l'ordre commence par n unités (désordonnées) données
{𝑘1 , … , 𝑘𝑛 }, c'est-à-dire la probabilité d'un échantillon particulier.

Exercice 7.
On veut estimer la superficie moyenne cultivée dans les fermes d’un canton rural. Sur les 2010
fermes que comprend le canton, on en tire 100 par sondage aléatoire simple. On mesure (en
hectares) la surface cultivée 𝑥𝑘 par la ferme numéro k de l’échantillon et on trouve :
100 100

∑ 𝑥𝑘 = 2907 𝑒𝑡 ∑ 𝑥𝑘2 = 154.593


𝑘=1 𝑘=1

1. Donner la valeur de l’estimateur de la moyenne 𝜇̂ = 𝑥̅ .


2. Donner un intervalle de confiance à 95% pour 𝜇.

Exercice 8. Dans une population 𝑈 = {1,2,3,4,5}, on considère le plan de sondage suivant :

3
1
𝑝({1,2,4}) = 𝑝({1,2,5}) = 𝑝({1,4,5}) = 𝑝({2,3,4}) = 𝑝({2,3,5}) = 𝑝({3,4,5}) =
6
Calculez les probabilités d'inclusion d'ordre un et deux ainsi que les ∆𝑘𝑙 . De quel type de plan
de sondage s’agit-il ?

Exercice 9
On désire estimer à l’échelle d’un canton le nombre de kilomètres linéaires d’archives stockées
dans les mairies. Pour cela, on procède à un tirage de 4 communes parmi les 9 du canton,
proportionnellement à leur population.

1. Calculer les probabilités d’inclusion de chaque commune à partir des données suivantes :

N°de Nom de la Population


commune commune
1 Val le Grand 1100
2 Les Gries 650
3 Les Combres 500
4 Flins 2300
5 Villers le Lac 4000
6 Fortin 5500
7 Montlebon 1900
8 Sanzeau 200
9 Aumont 150

2. Estimer le métrage total des archives du canton à partir des résultats suivants :

N° de commune Nom de la Mètres


commune d’archives
2 Les Gries 17
4 Flins 38
5 Villers le Lac 55
6 Fortin 70

Exercice 10.
Dans une population de taille N partitionnée en H strates, on sélectionne un échantillon de taille
n suivant un plan stratifié. Dans chaque strate h, on tire 𝑛ℎ individus parmi 𝑁ℎ selon un sondage
aléatoire simple sans remise de taille fixe.

Préalable : montrer la formule de décomposition de la variance :


𝐻 𝐻
1 1 1
𝜎𝑦2 = ∑(𝑌𝑘 − 𝑌̅ )2 = ∑ 𝑁ℎ 𝜎𝑦ℎ
2
+ ∑ 𝑁ℎ (𝑌̅ℎ − 𝑌̅ )2
𝑁 𝑁 𝑁
𝑘𝜖𝑈 ℎ=1 ℎ=1

1. Pour une variable d’intérêt Y, donner les estimateurs du total et de la moyenne.

4
2. Montrer que ces deux estimateurs sont sans biais et donner leur variance.

3. On considère l’allocation proportionnelle de l’échantillon : on décide de tirer dans chaque


strate h un nombre d’individus 𝑛ℎ tel que :
𝑛ℎ 𝑛 𝑛
= 𝑁 (en supposant que 𝑁ℎ 𝑁 soit entier).
𝑁ℎ
a. Comment s’écrivent alors les estimateurs du total et de la moyenne ?
b. Que vaut leur variance ?
2 2
c. Montrer alors, que si on suppose : 𝜎𝑦2 ≈ 𝑆𝑦2 et 𝜎𝑦ℎ ≈ 𝑆𝑦ℎ pour tout h, l’allocation
proportionnelle est toujours meilleure qu’un sondage aléatoire simple.

4. Le point de vue envisagé maintenant est celui d’une allocation optimale afin de satisfaire un
souci de précision. Sous la contrainte que ∑𝐻
ℎ=1 𝑛ℎ = 𝑛 ,
a. Quelle est l’allocation des 𝑛ℎ qui minimise la variance de l’estimateur du total ?
b. Que vaut alors la variance ?
c. Comment peut-on interpréter le choix des allocations optimales ?

Exercice 11.
Une grande entreprise veut réaliser une enquête auprès de son personnel qui comprend 10 000
personnes. Des études préliminaires ont montré :

- que les variables que l’on cherche à analyser dans l’enquête sont très contrastées selon les
catégories de personnel et qu’il y a donc intérêt à stratifier selon ces catégories. Pour simplifier,
on considérera qu’il y a 3 grandes catégories qui formeront les strates,

- que ces variables sont également très fortement liées à l’âge des individus.

On va donc proposer des plans d’échantillonnage comme si on voulait étudier l’âge des
individus : si une stratégie est meilleure que d’autres pour estimer l’âge moyen, alors on a de
bonnes raisons de penser qu’elle le sera aussi pour les variables d’intérêt. Comme on connaît
l’âge des membres du personnel, on peut raisonner en faisant les comparaisons exactes.
On dispose des renseignements suivants :

Catégorie de Poids dans l’ensemble Ecart-type des


personnel du personnel âges
1 20% 18,0
2 30% 12,0
3 50% 3,6
Ensemble 100% 16,0

5
1. Soit 𝑌̅ l’âge moyen et 𝑌̅̂ l’estimateur issu d’un échantillon aléatoire simple sans remise à
probabilités égales de n = 100 individus. Quelle est l’erreur type de 𝑌̅̂ ?
2. On décide que l’échantillon de 100 individus doit être stratifié selon les catégories de
personnel. Quelle est la répartition « représentative » ? Quelle est l’erreur type de l’estimateur
de 𝑌̅ qui en découle ? Comparer avec les résultats de la question 1.
3. Quelle serait la répartition optimale de l’échantillon ? Quelle est l’erreur type de l’estimateur
de 𝑌̅ qui en découle ? Comparer avec les résultats de la question 2.

Exercice 12. Un directeur de cirque possède 100 éléphants classés en deux catégories : « mâles
et femelles ». Le directeur veut estimer le poids total de son troupeau car il veut traverser un
fleuve en bateau. Cependant, l’année précédente, ce même directeur de cirque avait fait peser
tous les éléphants de son troupeau et avait obtenu les résultats précédents dans le tableau ci-
dessous (les moyennes sont exprimées en tonnes).

Effectifs 𝑁ℎ Moyennes 𝜇ℎ 2
Variances corrigées 𝜎ℎ,𝑒
Mâles 60 6 4
Femelles 40 4 2,25

1. Calculer la variance 𝜎 2 dans la population de la variable « poids de l’éléphant » pour l’année


précédente.
2. Le directeur suppose désormais que les dispersions de poids n’évoluent pas sensiblement
d’une année sur l’autre. Si le directeur procède à un sondage aléatoire simple sans remise de 10
éléphants, quelle est la variance de l’estimateur du poids total du troupeau ?
3. Si le directeur procède à un tirage stratifié avec allocation proportionnelle de 10 éléphants,
quelle est la variance de l’estimateur du poids total du troupeau ?
4. Si le directeur procède à un tirage stratifié optimal de 10 éléphants, quels sont les effectifs de
l’échantillon dans chacune des deux strates et quelle est la variance de l’estimateur du poids
total ?

Exercice 13. On considère une population U de taille N partitionnée en H strates notées


𝑈1 , … … . , 𝑈𝐻 , de tailles respectives 𝑁1 , … … , 𝑁𝐻 . On note également 𝜇𝑦,1 , … . , 𝜇𝑦,𝐻 les
moyennes de chaque strate.
Pour chaque strate, on sélectionne un échantillon selon un plan aléatoire simple sans remise de
taille 𝑛ℎ , ℎ = 1, … . , 𝐻.. Les tirages sont indépendants d'une strate à l'autre. Un jeune statisticien
propose d'estimer 𝜇𝑦 par
𝐻
1
𝜇̂ 𝑌 = ∑ 𝑦𝑘 , 𝑛 = ∑ 𝑛ℎ
𝑛
𝑘∈𝑆 ℎ=1
1. Calculez E(𝜇̂ 𝑌 ) et en déduire le biais de 𝜇̂ 𝑌 .
2. Calculez Var(𝜇̂ 𝑌 ).
3. Calculez le ratio du biais, c’est-à-dire le rapport entre le biais et l'écart-type de 𝜇̂ 𝑌 .
4. Pourquoi ne faut-il pas utiliser cet estimateur ?

6
Exercice 14. vrai ou faux

On souhaite estimer l’âge moyen μ dans une population de taille N. La population est découpée
suivant trois strates. On estime μ à l’aide des trois plans de sondage suivants :
• 𝑃1 : un plan de sondage aléatoire simple. On note 𝜇̂ 1 l’estimateur de μ pour un tel plan.
• 𝑃2 : un plan stratifié avec allocation proportionnelle. On note 𝜇̂ 2 l’estimateur de μ pour un tel
plan.
• 𝑃3 : un plan stratifié avec allocation optimale. On note 𝜇̂ 3 l’estimateur de μ pour un tel plan.

Pour les trois plans de sondage ci-dessus, les échantillons sont de même tailles n. Dire sans
justifier si les assertions suivantes sont vraie ou fausses.
1. μ est une variable aléatoire (il peut prendre plusieurs valeurs suivant l’échantillon choisi).
2. 𝜇̂ 1 , 𝜇̂ 2 et 𝜇̂ 3 sont des variables aléatoires (ils peuvent prendre plusieurs valeurs suivant
l’échantillon choisi).
3. Les estimateurs 𝜇̂ 1 , 𝜇̂ 2 et 𝜇̂ 3 sont tous sans biais.
4. Les intervalles de confiance de niveau 0.95 construits à partir de ces trois plans ont tous la
même longueur.
5. Les intervalles de confiance de niveau 0.95 construits à partir de ces trois plans ont tous le
même centre.
6. Pour le plan 𝑃2 , le centre de l’intervalle de confiance de niveau 0.95 est 𝜇̂ 2 .
7. La variance de 𝜇̂ 3 est toujours inférieure ou égale à la variance de 𝜇̂ 2 .
8. Si le taux de sondage f = n/N est égal à 1, on a forcément 𝜇̂ 1 = 𝜇̂ 2 = 𝜇̂ 3 = μ.

Exercice 15. Dans une population de très grande taille N = 10000, on souhaite estimer l’âge
moyen μ des individus. Pour cela, on stratifie la population en trois catégories d’âge, et on tire
un échantillon par sondage aléatoire simple dans chaque catégorie. De plus, grâce à une enquête
précédente, on dispose d’estimations pour les variances corrigées de chaque strate.
L’ensemble des informations dont on dispose sont résumées dans le tableau suivant :

Strate 𝑵𝒉 ̅𝒉
𝒙 𝑺𝟐𝒉 𝒏𝒉
Moins de 40 ans 5000 25 16 40

De 40 à 50 ans 3000 45 10 20
Plus de 50 ans 2000 58 20 40

1. Quelle est la valeur de l’estimateur stratifié de l’âge moyen μ ?


2. Calculer la variance de cet estimateur.
3. Quelles tailles d’échantillons 𝑛ℎ doit-on choisir pour chaque strate si on souhaite réaliser une
allocation proportionnelle afin de constituer un échantillon de n = 100 individus ? Calculer alors
la variance de l’estimateur stratifié que l’on obtient avec ce plan de sondage.
4. On souhaite maintenant réaliser une allocation optimale (toujours avec n = 100).

7
Calculer alors la valeur des 𝑛ℎ ainsi que la variance de l’estimateur stratifié que l’on obtient
avec ce plan de sondage.
5. Parmi les trois plans de sondage proposés, lequel vous semble le plus approprié ?

Exercice 16. La variable d’intérêt est ici le chiffre d’affaire moyen réalisé par un ensemble de
1060 entreprises. Celles-ci étant de tailles très différentes, on a constitué cinq strates en fonction
du nombre de salariés dans chaque entreprise.

Nombre de salariés 0à9 10 à 19 20 à 29 50 à 499 500 et plus


Nombre d’entreprises 500 300 150 100 10

De plus, grâce à une enquête précédente, on dispose d’estimations pour les variances corrigées
𝑆ℎ2 de chaque strate. On considère donc que :
𝑆12 = 1,5 𝑆22 = 4 𝑆32 = 8 𝑆42 = 100 𝑆52 = 2500
1. A l’intérieur de chaque strate, on réalise un sondage aléatoire simple avec les tailles
d’échantillon suivantes :
n1 = 130, n2 = 80, n3 = 60, n4 = 25, n5 = 5.
Les résultats sont les suivants :
𝑥̅1 = 5 𝑥̅ 2 = 12 𝑥̅ 3 = 30 𝑥̅4 = 150 𝑥̅5 = 600
Donner un intervalle de confiance à 90% pour le chiffre d’affaire moyen.
2. En conservant toujours la même taille globale d’échantillon, quels effectifs d’échantillons
faut-il prendre dans chaque strate
(a) pour une allocation proportionnelle ?
(b) pour une allocation optimale ?
3. Calculer les variances de l’estimateur pour le plan avec allocation proportionnelle, puis pour
le plan avec allocation optimale.

Exercice 17. Nous nous intéressons à l'estimation de la proportion d'hommes p atteints par une
maladie professionnelle dans une entreprise de 1500 travailleurs. Nous savons par ailleurs que
trois travailleurs sur dix sont ordinairement touchés par cette maladie dans des entreprises du
même type. Nous nous proposons de sélectionner un échantillon au moyen d'un sondage
aléatoire simple.
1. Quelle taille d'échantillon faut-il sélectionner pour que la longueur totale d'un intervalle de
confiance avec un niveau de confiance 0,95 soit inférieure à 0,02 pour les plans simples avec
et sans remise ?
2. Que faire si nous ne connaissons pas la proportion d'hommes habituellement touchés par la
maladie, pour le cas du plan sans remise ?

Exercice 18
Une société bancaire structurée en 3 980 succursales gère 39 800 clients, à raison de 10 clients
par agence. On choisit 40 succursales par sondage aléatoire simple sans remise pour lesquelles
on compte le nombre de clients ayant obtenu un prêt durant une période donnée.

8
On note 𝑡𝑦,𝑖 le nombre obtenu dans la succursale i et on observe : ∑40
𝑖=1 𝑡𝑦,𝑖 = 185 et
∑40 2
𝑖=1 𝑡𝑦,𝑖 = 1263.
1. Estimer le nombre total de clients de la banque qui ont obtenu un prêt durant la période de
référence ainsi que leur proportion dans l’ensemble de la clientèle. On notera ces estimateurs
𝑡̂𝑦 et 𝑝̂
2. Calculer la variance des estimateurs 𝑡̂𝑦 et 𝑝̂
3. Estimer ces variances et fournir un intervalle de confiance approché à 95% pour chacune des
quantités estimées.
4. Calculer l’effet de sondage défini comme le ratio mesurant la perte de variance estimée par
rapport à un sondage aléatoire simple sans remise de même taille (indication : on commencera
par estimer la dispersion 𝑆𝑦2 ). On pourra commenter le résultat en comparant les amplitudes
des intervalles de confiance à 95% obtenus pour la proportion d’intérêt entre les deux plans de
sondage.
5. Calculer le coefficient de corrélation intra-grappe.

Vous aimerez peut-être aussi