Vous êtes sur la page 1sur 5

PROJET DE RATTRAPAGE DE SONDAGE,

Hervé Toulassi & Yves Amevoin, ISE

Octobre 2019

Lisez attentivement et respectez les instructions avant de commencer la rédaction. Une attention particulière sera
accordée à la présentation du devoir.

INSTRUCTIONS.
IL S’AGIT D’UN PROJET INDIVIDUEL QUE CHAQUE ETUDIANT DOIT EFFECTUER. LA DATE LIMITE POUR
RENDRE LE PROJET EST FIXEE DANS LE MAIL ENVOYE. TOUT RETARD DE PLUS DE 72 HEURES CORRES-
PONDRA À LA NOTE 0.

TOUT ETUDIANT EN RETARD SE VERRA RETIRER SEVEREMENT DES POINTS EN FONCTION DU NOMBRE
D’HEURES DE RETARD.

Chaque étudiant doit rendre un fichier word contenant les réponses aux questions qui ont été posées dans le
projet et un fichier script .R contenant les codes correspondants aux analyses que l’étudiant aura effectuées. Les
deux fichiers doivent avoir le nom et le ou les prénom(s) de l’étudiant comme nom de fichier. Ex : si vous vous
appelez Dembele BOLADJI, vous devez rendre deux fichiers : un fichier word nommé boladji_dembele.docx
et un fichier script R nommé boladji_dembele.R. Le tout en miniscule, avec un tiret de 8 (_) séparant le
nom et le prénom. Si vous avez plusieurs prénoms, mettez-les tous séparés par des tirets de huit (_).

Les deux (2) fichiers non zipés (non compressés) doivent être envoyés à l’adresse suivante : amevoinyves@
gmail.com dans un mail ayant pour objet : PROJET SONDAGE RATTRAPAGE CREFDES

Tous ceux qui ne respecteront pas exactement la phrase à mettre dans l’objet (en majuscule) et l’adresse
mail sur laquelle il faut envoyer le projet (amevoinyves@gmail.com) ainsi que les consignes dans les noms
des fichiers auront -1.

Au début de chaque fichier, vous devez mettre votre nom complet et votre numéro d’ordre sur la liste. Au début
du fichier script R, vous devrez mettre ces informations en commentaire.

NE METTEZ PAS DE CARACTÈRES ACCENTUÉS ET DES SIGNES DE PONCTUATION DANS VOTRE FICHIER
SCRIPT (é, è, â, ô, ï. . . ) OU DANS LE NOM DE VOS FICHIERS. POUR LES CARACTÈRES ACCENTUÉS, METTEZ
LEUR ÉQUIVALENT SANS LES ACCENTS.

Vous traiterez tous les exercices de 1 à 2. Chaque exercice compte pour 20 points. La note totale que l’étudiant
obtient est ensuite divisée par 2. Le Bonus est facultatif.

— Exercice 1 : Répondez aux questions dans un fichier word.


— Exercice 2 : Répondez aux questions dans un fichier script R.
— Bonus : Répondez aux questions dans le fichier word.

1
Projet de rattrapage de sondage, Yves Amevoin et Hervé Toulassi, Octobre 2019

Exercice 1 (20pts)

Vous répondrez à toutes les questions dans le fichier word

PARTIE 1 :

Vous conduisez une enquête dans le but de parer aux urgences dans un grand centre hospitalier où vous voulez
estimer la proportion des membres du personnel qui seraient prêts à travailler après un grand tremblement de terre.

1. Vous pouvez décider soit d’envoyer un questionnaire à chaque membre du personnel, soit d’envoyer
un questionnaire à 10% du staff et de vous assurer après du remplissage en rappelant au téléphone les
personnes qui n’auront pas rempli le questionnaire. Quels sont les inconvénients de ces deux méthodes ?
(1 pt)

2. Vous choisissez finalement de n’interviewer qu’un échantillon. Sur quelles variables pensez-vous que l’on
pourrait construire des strates ? (2pts)

3. L’enquête a finalement été conduite avec que deux strates : Une première strate correspondant aux médecins
et une autre correspondant aux autres staff. Le centre hospitalier contient 900 médecins et 9000 autres staff.
Vous décidez d’échantillonner 450 médecins et 450 autres staff. Quelles sont les probabilités pour chaque
personnel de l’hôpital d’apparaître dans l’échantillon ? (2pts)

4. 300 Médecins et 150 autres staff affirment qu’ils sont prêts à aller travailler après un tremblement de
terre. Donnez une estimation non biaisée de la proportion de personnes qui iraient travailler en cas d’un
tremblement de terre dans chaque strate et dans la population. Donnez également une estimation non
biaisée du nombre de personnes prêtes à travailler dans le centre, après un tremblement de terre. (4pts)

PARTIE 2 :

5. Quelle taille d’échantillon faut-il choisir si vous désirez connaître la proportion d’habitants de la ville de
Dakar ayant acheté un mouton à la tabaski passée si vous effectuez un sondage aléatoire simple sans remise,
en admettant une marge d’erreur d’au plus 2% avec un intervalle de confiance à 95% ? (3pts)

6. On a mesuré la superficie de 100 champs parmi les 2010 dans la région de WAOUH. Ces 100 champs
ont été sélectionnés suivant un sondage aléatoire simple (sans remise). La superficie totale des champs
sélectionnés est de 2907 ha. La somme des carrés des superficies est de 154593 ha 2 . Donnez une estimation
de la superficie moyenne et son intervalle de confiance à 95%. (3pts)

7. On décide d’effectuer un sondage d’opinion au niveau des étudiants de l’Afrique de l’ouest. On suppose qu’il y
a 100 millions d’étudiants, y compris vous-même. On en choisit 1000 suivant un sondage aléatoire simple
(sans remise).
— Quelle est la probabilité que vous soyez dans l’échantillon sélectionné ? (1pt)
— On suppose que l’on choisit, de façon indépendante 2000 échantillons de taille 1000. Quelle est la
probabilité que vous ne soyez dans aucun de ces 2000 échantillons ? (2pts)
— Combien d’échantillon doit-on choisir afin que vous ayez une probabilité de 0.5 d’être dans au moins
un échantillon ? (2pt)

2
Projet de rattrapage de sondage, Yves Amevoin et Hervé Toulassi, Octobre 2019

Exercice 2 (20pts)

Vous répondrez à toutes les questions dans le fichier script.

PARTIE 1 :
Dans un sondage stratifié avec deux strates, on dispose des données suivantes :

— la taille de la population totale, nommée N (N ∈ N, N > 1)


— la taille de la population dans la première strate, nommée N1 (N1 ∈ N, 1 < N1 < N )
— la taille de l’échantillon, nommée n (n ∈ N, 1 < n < N1 )
— la taille de l’échantillon dans la première strate, nommée n 1 (n 1 ∈ N, 1 < n 1 < n)

On connaît la variance du phénomène que l’on veut mesurer dans chaque strate. Si on note σ21 et σ22 les variances dans la
première et deuxième strate respectivement, on a : σ1 = α ∗ σ2 (σ1 , σ2 , α ∈ R∗ + ).

8. Écrivez sur R une fonction appelée variance_total qui calcule la variance du total en fonction de n, N ,
N1 , n 1 , σ1 et α. (3pts)

9. On suppose N = 1000000, n = 1100, α = σ1 = 2, N1 = N /2. Calculez et affichez sur R, la variance du total


pour les différentes valeurs suivantes de n 1 : (2pts)

10 15 20 25 30 35 40 45 50 55 60 65 70
75 80 85 90 95 100 105 110 115 120 125 130 135
140 145 150 155 160 165 170 175 180 185 190 195 200
205 210 215 220 225 230 235 240 245 250 255 260 265
270 275 280 285 290 295 300 305 310 315 320 325 330
335 340 345 350 355 360 365 370 375 380 385 390 395
400 405 410 415 420 425 430 435 440 445 450 455 460
465 470 475 480 485 490 495 500 505 510 515 520 525
530 535 540 545 550 555 560 565 570 575 580 585 590
595 600 605 610 615 620 625 630 635 640 645 650 655
660 665 670 675 680 685 690 695 700 705 710 715 720
725 730 735 740 745 750 755 760 765 770 775 780 785
790 795 800 805 810 815 820 825 830 835 840 845 850
855 860 865 870 875 880 885 890 895 900 905 910 915
920 925 930 935 940 945 950 955 960 965 970 975 980
985 990 995 1000 1005 1010 1015 1020 1025 1030 1035 1040 1045
1050 1055 1060 1065 1070 1075 1080 1085 1090

10. Représentez l’évolution de la variance du total en fonction de n 1 . (1pts)

11. On fixe cette fois-ci n 1 = 550 et σ1 = 100 et on maintient les valeurs des autres paramètres, sauf α. On fait
varier α suivant les valeurs suivantes :

0.5 0.75 1 1.25 1.5 1.75 2


2.25 2.5 2.75 3 3.25 3.5 3.75
4 4.25 4.5 4.75 5 5.25 5.5
5.75 6 6.25 6.5 6.75 7 7.25
7.5 7.75 8 8.25 8.5 8.75 9
9.25 9.5 9.75 10

Représentez l’évolution de la variance du total en fonction de α (2pts)

12. Si l’on veut avoir une variance faible, dans quelle strate doit-on sélectionner un échantillon de plus grande
taille si α = 0.5 ? (2pt)

3
Projet de rattrapage de sondage, Yves Amevoin et Hervé Toulassi, Octobre 2019

PARTIE 2 :
Le package survey que nous avions utilisé en cours sur R contient des bases de données du California Academic Performance
Index. Il s’agit d’une base de données sur des tests standardisés administrés aux élèves des écoles de Californie. Plusieurs
indicateurs socio-économiques ont été mesurés sur les élèves. Nous allons utiliser la base apisrs dans le package survey
pour effectuer quelques analyses.

13. Sélectionnez suivant un sondage aléatoire simple 100 écoles de la base apisrs et composez le design pour
calculer la moyenne de la variable enroll. (2pts)

14. Calculez la moyenne de la variable enroll et précisez son intervalle de confiance sur la base que vous avez
obtenue. (1pt)

15. On veut vérifier si la moyenne a vraiment une distribution normale. Sélectionnez 2000 échantillons différents
de taille 100 de la base apisrs. Calculez pour chacun de ces 2000 échantillons la moyenne de la variable
enroll et représentez un histogramme des moyennes de chaque échantillon. Ajoutez-y la densité estimée
en utilisant le noyau de epanechnikov. Représentez le graphique quantile-quantile des moyennes. Effectuez
un test de normalité sur les moyennes et concluez. (4pts)

16. A partir de la base mère apisrs, calculez la moyenne et l’intervalle de confiance de la moyenne des variables
api00, api99, enroll, suivant les catégories de la variable awards et les catégories de la variable both.
Calculez la moyenne et l’intervalle de confiance des variables api00 et api99 et enroll pour les élèves
ayant une valeur supérieure à 15 pour la variable emer. Faites de même pour les élèves ayant une valeur
égale à 0 pour la variable emer. Représentez les calculs dans des tableaux de sortie. (3pt)

Bonus (Facultatif, 12pts)

Cette partie est facultative et dépend de la volonté ou pas d’y répondre. Tout étudiant ayant plus de 20 se verra attribuer la
note 20. Si vous répondez, veuillez le faire dans le même fichier word que celui de l’exercice 1.

Hypothèses :

On suppose que l’on veut sélectionner un échantillon s d’une population P de taille supérieure à 1 où chaque individu i
(i ∈ N∗ ) de la population P que l’on cible a une probabilité πi d’appartenir à l’échantillon (en supposant que les individus
de la population sont numérotés 1, 2, ...). Puisque l’on a fait l’hypothèse que la population a une taille supérieure à
1, on appelle ainsi πi j la probabilité que deux individus i et j différents de la population soient simultanément dans
l’échantillon.

Données :

On se place dans un schéma sans remise. On définit une variable aléatoire R i associée à chaque individu de la population
qui prend la valeur 1 si l’individu i appartient à s et 0 sinon. On veut estimer le total d’une grandeur quantitative X dont
la mesure effectuée sur l’individu i est notée X i . On définit l’estimateur de Horvitz-Thompson, du total de X par :

X 1
Tbx = Xi
i ∈s πi

Questions :

17. Montrez que l’estimateur de Horvitz-Thompson est un estimateur sans biais du total de X , en utilisant la
notation P pour la population totale. (1 pt)

4
Projet de rattrapage de sondage, Yves Amevoin et Hervé Toulassi, Octobre 2019

18. Calculez la variance de R i notée V ar [R i ] en fonction de πi et la covariance de R i et R j notée cov[R i , R j ] où


j 6= i en fonction de πi , π j et πi j . (0.5pt)

19. Montrez que la variance de l’estimateur de Horvitz-Thompson est donnée par :

Xi
x̃ i x̃ j (πi j − πi π j ) où x̃ i =
X
V ar [TbX ] = .
i , j ∈P πi

(2pts)

20. Montrez qu’un estimateur sans biais de cette variance est donné par :

X Ri R j Xi
V
 ar [T̂ X ] = x̃ i x̃ j (πi j − πi π j ) où x̃ i = . ( E.0 )
i , j ∈P πi j πi

(2pts)

21. Montrez que l’équation (E.0) de la question précédente peut être réduite à

Xi X j Xi X j
µ ¶
X
V
 ar [T̂ X ] = − (E.1)
i , j ∈s πi π j πi j

(2pts)

22. Une autre formule populaire de l’estimateur de la variance est la suivante :

1 − πi π i j − πi π j
X i2
X X
V
 ar [T̂ X ] = + Xi X j
i ∈s π2i i 6= j ,i , j ∈s π i π j πi j

Montrez qu’elle correspond à l’équation (E.1) de la question précédente. (1pt)

23. Dans le cadre d’un sondage aléatoire simple sans remise à partir d’une population de taille N (N ∈ N, N > 1
) d’un échantillon de taille n ( n ∈ N, 1 < n < N ) , donnez les valeurs de πi et πi j . (0.5pt)

24. On pose V ar [X ] = N1−1 iN=1 (X i − X̄ )2 où X̄ désigne la moyenne de X dans la population P . Montrez que
P

dans le cas d’un sondage aléatoire simple sans remise,

N −n V ar [X ]
V ar [TbX ] = × N2 ×
N n

(3pts)