Cahier de Charge 18 19

Cahier de charges
I. Introduction et méthodes d’échantillonnage
1. Quelle est la différence entre population et échantillon?

2. Quelle est la différence entre recensement et sondage?
3. Soit l’échantillon {1,4,5,9}. S’agit-il d’un échantillon observé ou aléatoire?
4. Ecrivez soigneusement l’échantillon aléatoire (en symboles mathématiques).
5. Qu’est-ce qu’une statistique? Comment l’écrire?
6. Comment se représenter un échantillonnage aléatoire simple (EAS) au moyen
d’un graphique?
7. Qu’est-ce que le taux de sondage?
8. Quelles sont les conséquences d’un tirage avec remise sur la population
définie à chaque tirage?
9. Qu’est-ce qu’un échantillon i.i.d.?
10. Quel est le lien entre un échantillon i.i.d. et un échantillon obtenu par EAS?
11. Discutez les avantages et inconvénients d’un échantillonnage en grappes.
12. Discutez les avantages et inconvénients d’un échantillonnage stratifié.
13. Discutez les avantages et inconvénients de la méthode des quotas.
14. Discutez les avantages et inconvénients d’un échantillonnage systématique.
II. Echantillonnage et estimation ponctuelle
1. Pour chaque question, donnez la meilleure réponse (il n’y a qu’une seule
bonne réponse).
2. Si la taille d’une population n’est pas spécifiée, on la considère comme suf-
fisamment grande pour ne pas devoir apporter de correction de variance.
Remarque
Si pour une question, il y a plusieurs bonnes réponses et si dans ce cas, une option
dit qu’il y a plusieurs bonnes réponses, la meilleure réponse est alors cette option.
Exemple : Un nombre plus grand que 2 est
a) 0
b) 4
c) 5
d) −2
e) Il y a au moins deux réponses correctes parmi les options a), b), c) et d).
1
Dans ce cas, la meilleure réponse est (e).
1. {1,4,8,9} est le résultat d’un tirage aléatoire. Comment l’appelle-t-on?

(a) Une population aléatoire
(b) Un échantillon aléatoire.
(c) En pratique, on parlera souvent d’un échantillon de taille 4. Plus
précisément, il s’agit d’un échantillon observé de taille 4.
(d) Une population.
(e) Aucune des réponses ci-dessus n’est correcte.
2. De manière générale, une statistique est
(a) une fonction des données.
(b) un paramètre de la population.
(c) un indicateur chiffré traduisant un phénomène.
(d) une estimation (ponctuelle).
(e) une moyenne empirique.
3. Dans un sondage aléatoire simple sans remise,
a) la distribution de la variable aléatoire d’intérêt change lors de chaque
tirage.
b) on peut négliger les changements (de tirage en tirage) de distribution
de la variable aléatoire d’intérêt si le taux de sondage est suffisamment
petit.
c) la propriété i.i.d. est théoriquement violée.
d) Aucune des trois réponses ci-dessus n’est correcte.
e) Les trois premières réponses ci-dessus sont correctes.
4. On s’intéresse au salaire moyen des étudiants sortis d’une école de commerce
donnée. A partir d’un échantillon de 27 étudiant(e)s dans cette école de
commerce, on obtient un salaire moyen de 3170 euros avec un écart-type
de 410 euros. Le salaire est modélisé à partir d’une loi normale. Quelle
affirmation est correcte?
(a) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale)
où le paramètre de variance est supposé connu, l’objet d?étude et le
paramètre d’intérêt sont le salaire moyen.
(b) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale)
où le paramètre de variance est supposé inconnu, l’objet d’étude est le
salaire et le paramètre d’intérêt est la moyenne empirique du salaire.
(c) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale)
où le paramètre de variance est supposé inconnu, l’objet d’étude est le
salaire et le paramètre d’intérêt est le salaire moyen.
2
(d) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale)
où le paramètre de variance est supposé inconnu, l’objet d’étude est
le salaire et le paramètre d’intérêt est la moyenne arithmétique simple
en échantillon.
5. On suppose que le poids des pièces produites par une machine est distribué
de façon normale et en moyenne égal à 120 grammes, avec un écart-type de
7 grammes. On considère 3 pièces prélevées au hasard (échantillon i.i.d.).
Quelle est la loi du poids total des 3 pièces?
a) Normale de moyenne 360 grammes et de variance 147 grammes (au
carré)
b) Normale de moyenne 360 grammes et de variance 49 grammes (au
carré)
c) Normale de moyenne 120 grammes et de variance 49 grammes (au
carré)
d) Normale de moyenne 120 grammes et d’écart-type 7 grammes
e) Deux des quatre réponses a., b., c. et d. ci-dessus sont correctes.
6. Dans quel intervalle centré sur l’espérance de ce poids total (noté PM dans
les réponses ci-dessous) se situera ce poids total avec une probabilité de 95%
(pour Z ∼ N (0,1), P (Z ≤ zα ) = α)? Xi , i = 1,2,3, correspond à la variable
aléatoire décrivant le poids de la ième pièce.
√ √
a) [P M − 7 3z1−α/2 ; P M + 7 3z1−α/2 ], α = 0.05
√ √
b) [P M − 7 3z1−α ; P M + 7 3z1−α ], α = 0.01
√ √
c) [X1 + X2 + X3 − 7 3z1−α/2 ; X1 + X2 + X3 + 7 3z1−α/2 ], α = 0.05
√ √
d) [X1 + X2 + X3 − 7 3z1−α ; X1 + X2 + X3 + 7 3z1−α ], α = 0.01
e) [P M − 7z1−α ; P M + 7z1−α ], α = 0.01
7. On considère ensuite 100 pièces prélevées au hasard dans la production
(échantillon i.i.d.). Quelle est la loi de la moyenne empirique du poids cal-
culée sur ces 100 pièces?
a) Normale de moyenne 120 grammes et de variance 49 grammes (au
carré)
b) Normale de moyenne 120 grammes et de variance 0,49 grammes (au
carré)
c) Normale de moyenne 120 grammes et d’écart-type 7 grammes
d) Normale de moyenne 120 grammes et d’écart-type 0,07 grammes
8. Si le poids d’un pièce prise au hasard n’est pas distribué selon une normale,
que peut-on dire de la loi de la moyenne empirique du poids calculée sur
ces 100 pièces? On considère que l’échantillon reste i.i.d.
a) La même chose qu’à la question précédente
3
b) Cette moyenne empirique centrée et réduite (moyenne empirique moins
sa moyenne et divisée par son écart-type) est asymptotiquement dis-
tribuée selon une N (0,1).
c) La loi de cette moyenne empirique centrée et réduite est proche d’une
N (0,1).
d) On ne sait rien de la loi de cette moyenne empririque.
9. Quelle est la probabilité (éventuellement approximative) que le poids moyen
des 100 pièces soit supérieur à 121 grammes?
a) 0.5.
b) 0.
c) 1.
d) 0.0766.
e) 0.236.
10. On considère une variable aléatoire X ∼ N (µ,σ 2 ). On observe 3 réalisations
de cette v.a. : x1 ,x2 et x3 . Parmi les propositions suivantes, combien d’entre
elles sont des statistiques observées?
– x1x+x
3
2
– X1X+X3
2
– x̄
– s2n
– Sn2
a) 3
b) 2
c) 5
d) 4
e) 1
11. Le proportion d’étudiants végétariens à l’EDHEC est de 14%. On réalise un

sondage (i.i.d.) parmi 100 étudiants. 17 d’entre eux disent être végétariens
(83 disent ne pas être végétariens). Quelles sont les proportions p dans la
population et p̂100 dans l’échantillon correspondant à cet énoncé?
a) p = 0.14 et p̂100 = 0.17
b) p = 0.17 et p̂100 = 0.14
c) La proportion dans la population n’est pas donnée mais celle de l’échantillon
vaut 0.14.
d) La proportion dans la population n’est pas donnée mais celle de l’échantillon
vaut 0.17.
4
e) La proportion dans l’échantillon n’est pas donnée mais celle de la po-
pulation vaut 0.14.
12. Si on construisait (pouvait construire) un très grand nombre d’échantillons
(issus de la même population), de quelle valeur s’approcherait la moyenne
arithmétique des proportions calculées dans ces échantillons?
a) 0.17
b) 0.14
c) 1
d) La moyenne des ces proportions ne s’approcherait d’aucune valeur en
particulier.
e) La moyenne des ces proportions se trouverait entre 0.14 et 0.17.
13. Dans le contexte de la question précédente, de quelle valeur s’approcherait
la variance estimée des proportions calculées dans ces échantillons?
a) L’infini
b) 0.142
c) 0.17(1 − 0.17)/100
d) 0.14(1 − 0.14)/100 = 0.001204
e) 0.14 × 0.17
14. Imaginons qu’on se limite à une population de 1000 étudiants. Que devien-
drait la réponse à la question précédente?
a) Elle ne changerait pas si le sondage est aléatoire simple sans remise.
b) Elle serait multipliée par 900/999.
c) Elle serait multipliée par 999/900.
d) Elle serait multipliée par 900/999 si le sondage est aléatoire simple
sans remise.
e) Deux des réponses ci-dessus sont correctes.
15. On appelle P̂100 , l’estimateur de cette proportion p. Quelle est la meilleure
proposition?
a) P̂100 n’est pas aléatoire et est une statistique.
b) P̂100 est aléatoire et est une statistique.
c) P̂100 est aléatoire mais n’est pas une statistique.
d) P̂100 n’est pas aléatoire et n’est pas une statistique.
e) P̂100 est toujours égal à p̂100 .
16. Quelle est la meilleure proposition?
a) On approxime la distribution de P̂100 par une N (µ = 0.14; σ 2 =
0.001204).
b) 100P̂100 ∼ Bin(100; 0.14).
5
c) 100P̂100 ∼ Bin(100; 0.17).
d) Deux des trois réponses a., b. et c. ci-dessus sont correctes.
e) Toutes les réponses a., b. et c. ci-dessus sont correctes.
17. On étudie le comportement d’une machine à embouteiller de la bière. Celle-
ci a un volume de remplissage nominal (moyen) de 25cl. Le volume débité à
chaque bouteille est distribué normalement avec une variance de σ 2 = 4.8cl2 .
Les volumes débités successifs sont considérés indépendants et identique-
ment distribués.
On analyse un échantillon de 10 bouteilles. Donnez la probabilité que le
volume moyen de l’échantillon soit supérieur à 26cl.
a) 0.2232
b) 0.0745
c) 0.5471
d) 0.9459
e) 0.0013
18. On prélève un nouvel échantillon de 15 bouteilles (toujours i.i.d. et indépendant
du premier) sur la même machine. Donnez la probabilité que la moyenne
de ce nouvel échantillon soit supérieure à la moyenne de l’échantillon de
10 bouteilles. Indice: une somme de normales indépendantes est encore une
normale.
a) 0.3
b) 0.43
c) 0.5
d) 0.01
e) 0.465
19. Dans les capitales de 5 cantons d’un grand pays, on observe les superficies
suivantes
103 118 24 27 90
Quelles sont les estimations ponctuelles de l’écart-type sn et de la moyenne

xn (n = 5)?
a) xn = 72.4 et sn = 1932.3
b) xn = 72.4 et sn = 31.98
c) xn = 72.4 et sn = 39.32
d) xn = 72.4 et sn = 43.96
e) xn = 72.4 et sn = 46.01
6
III. Intervalles de confiance
Remarque : mêmes remarques qu’à la section 2.
1. Le niveau de confiance dans ce dernier exemple peut être augmenté à 99%.

Que vaut l’intervalle de confiance correspondant? Que remarquez-vous par
rapport à l’intervalle de niveau 95%?
(a) [86,55; 108,65]. L’intervalle est plus grand car il est la réalisation d’un
intervalle aléatoire qui a une plus faible probabilité de contenir la
moyenne.
(b) [86,55; 108,65]. L’intervalle est plus grand car il est la réalisation d’un
intervalle aléatoire qui a une plus grande probabilité de contenir la
moyenne.
(c) [89,19; 106,00]. La longueur de l’intervalle ne change pas car ce dernier
est la réalisation d’un intervalle aléatoire dont la probabilité de contenir
la moyenne est la même.
(d) [91,42; 105,01]. La longueur de l’intervalle diminue car ce dernier est
la réalisation d’un intervalle aléatoire qui a une plus faible probabilité
de contenir la moyenne.
(e) [91,42; 105,01]. La longueur de l’intervalle diminue car ce dernier est la
réalisation d’un intervalle aléatoire qui a une plus grande probabilité
de contenir la moyenne.
2. Si la taille de l’échantillon augmente, la longueur de l’intervalle de confiance
a tendance à
(a) diminuer et c’est normal car plus d’information (n plus grand) doit
mener à une plus grande précision.
(b) augmenter et c’est normal car plus d’information (n plus grand) doit
mener à une plus grande précision.
(c) rester stable.
(d) diminuer et c’est normal car plus d’information (n plus grand) doit
mener à une plus faible précision.
(e) augmenter et c’est normal car plus d’information (n plus grand) doit
mener à une plus faible précision.
3. Si un intervalle de confiance aléatoire a une probabilité (approximative dans
la dernière vidéo) 1 − α (un niveau de confiance (1 − α) × 100% ou 1 − α)
de contenir le paramètre d’intérêt (la moyenne dans la dernière vidéo), on
peut imaginer des intervalles qui ne sont pas limités à droite (dont la borne
supérieure vaut par exemple +∞ pour l’exemple de la moyenne dans la
dernière vidéo) et dont le niveau reste (1 − α) × 100%. De manière générale,
7
on appellera ce type d’intervalle, intervalle de confiance unilatéral à droite.
Comment transforme-t-on l’intervalle obtenu dans la vidéo introd. de ce
chapitre pour obtenir ces intervalles? Indice : reprenez le raisonnement fait
dans la vidéo d’introduction en remplaçant zα/2 la première fois qu’il ap-
paraı̂t par z0 = −∞.
(a) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure
et z1−α dans la borne inférieure (au lieu de z1−α/2 dans la vidéo d’in-
troduction).
(b) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure
et z1−α/2 dans la borne inférieure.
(c) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure
et zα (au lieu de z1−α/2 dans la vidéo d’introduction) dans la borne
inférieure.
(d) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure
et zα/2 (au lieu de z1−α/2 dans la vidéo d’introduction) dans la borne
inférieure.
(e) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure
et z0 (au lieu de z1−α/2 dans la vidéo d’introduction) dans la borne
inférieure.
4. En suivant un raisonnement similaire à celui de la question précédente,
proposez un intervalle de confiance approximatif unilatéral à gauche pour
la moyenne µ (sur base des mêmes hypothèses que celles utilisées dans la
vidéo d’introduction).
√ 2 √ 2
z Sn z1−α/2 Sn
(a) X̄n − 1−α/2√
n
; X̄ n + √
n
.
√ 2

z Sn
(b) −∞; X̄n + 1−α/2 √
n
.
√
z S2
(c) −∞; X̄n + 1−α√n n .
√ 2
zα Sn
(d) −∞; X̄n + √n .
√ 2
zα/2 Sn
(e) −∞; X̄n + √n .
5. Le propriétaire d’un restaurant français veut étudier les préférences de ses

clients. Il décide de se concentrer sur deux variables: la somme d’argent
dépensée par client et la commande ou non d’un dessert par ces derniers.
L’étude porte sur un groupe de n = 60 clients (échantillon supposé i.i.d.).
Pour ce groupe de clients, il en ressort une somme d’argent dépensée par
client de moyenne x̄n = $38.54 et d’écart-type sn = $7.26 ainsi que 18
desserts commandés. Déterminez un intervalle de confiance approximatif
8
(bilatéral) au niveau de confiance 0,90 (ou 90%) pour la proportion de clients
(en population) qui commandent un dessert. NB: z0.95 =1.6449, z0.975 =1.96,
z0.90 =1.2816 avec P (Z ≤ zα ) = α, Z ∼ N (0,1).
a) [0.1840; 0.4160]
b) [0.1227; 0,5276]
c) [0.2027; 0.3973]
d) [0.4568; 0.9906]
e) [0.1298; 1]
6. Déterminez un intervalle de confiance unilatéral à droite approximatif au
niveau 0,90 pour la proportion de clients qui commandent un dessert.
a) [0.2027; 1]
b) [0.2242; 1]
c) [0.2027; +∞]
d) [0; 0.2242]
e) [−∞; 0.2242]
7. Comment interpréter cet intervalle unilatéral à droite? Donnez la meilleure
réponse non triviale.
a) On y trouve une borne inférieure sur la valeur de la vraie proportion de
clients du restaurant qui prennent un dessert (au niveau de confiance
donné).
b) On y trouve une borne supérieure sur la valeur de la vraie proportion de
clients du restaurant qui prennent un dessert (au niveau de confiance
donné).
c) On y trouve une borne inférieure sur la valeur de la proportion observée
de clients du restaurant qui prennent un dessert (au niveau de confiance
donné).
d) On y trouve une borne supérieure sur la valeur de la proportion ob-
servée de clients du restaurant qui prennent un dessert (au niveau de
confiance donné).
e) On y trouve deux bornes inférieures sur la valeur de la vraie proportion
de clients du restaurant qui prennent un dessert (au niveau de confiance
donné).
8. Prenons deux intervalles de confiance unilatéraux à droite observés (construits
sur le même échantillon) pour la proportion ci-dessus dont les niveaux de
confiance sont respectivement 0.95 et 0.90.
a) L’intervalle de niveau 0.90 est plus long que celui de niveau 0.95
b) L’intervalle de niveau 0.95 est plus long que celui de niveau 0.90
c) Les deux intervalles ont une longueur infinie.
9
d) On ne peut savoir quel est l’intervalle le plus long.
e) L’intervalle unilatéral à droite de niveau 0.95 est plus court que l’in-
tervalle bilatéral de niveau 0.90.
9. Donnez un intervalle de confiance approximatif (bilatéral) au niveau 0,95
pour la somme d’argent moyenne dépensée par client dans ce restaurant.
NB: z0.95 =1.6449, z0.975 =1.96, z0.90 =1.2816 avec P (Z ≤ zα ) = α, Z ∼
N (0,1).
a) [36.9983; 40.0817]
b) [37,7220; 39,874]
c) [38,2134; 39,248]
d) [38,2134; 38,8934]
e) [36,7030; 40,377]
10. Un intervalle de confiance du type de la question précédente est
a) symétrique autour de la moyenne observée dans l’échantillon.
b) plus grand si la variance observée dans l’échantillon est plus grande
(les autres quantités restant les mêmes).
c) plus grand si la taille de l’échantillon est plus grande (les autres quan-
tités restant les mêmes).
e) Toutes les réponses a., b. et c. ci-dessus sont correctes.
11. Si le niveau d’un intervalle de confiance du même type augmente (les autres
quantités restant les mêmes),
a) l’intervalle de confiance s’élargit.
b) l’intervalle se raccourcit.
c) L’intervalle peut s’agrandir ou se raccourcir.
d) L’intervalle reste le même.
e) 0 entre dans l’intervalle.
12. On reste dans le contexte du propriétaire du restaurant qui veut étudier
les préférences de ses clients mais on considère que l’échantillon obtenu
est maintenant le résultat d’un sondage aléatoire simple sans remise. Le
propriétaire possède un listing de ses clients de taille 651 sur lequel il effectue
ce sondage. Les autres données de la question ci-dessus restent les mêmes.
Que devient l’intervalle de confiance de niveau 0,9 pour la proportion de
clients (en population) qui commandent un dessert?
a) Il reste le même car l’échantillon est toujours i.i.d.
b) [0,2072; 0,3928].
c) On ne peut le calculer car le taux de sondage est trop grand.
d) [0,2010; 0,4589].
10
e) [0,1801; 0,4990].
13. On fabrique des pièces en série à l’aide d’une machine. La machine est réglée
de telle sorte que le diamètre des pièces fabriquées est distribué selon une loi
normale. On prélève un échantillon aléatoire i.i.d. de 10 pièces dans la pro-
duction. On mesure la dispersion du diamètre des pièces dans l’échantillon
2
comme indiqué par la statistique S10 . On obtient s10 = 0,02 mm. Calculez
un intervalle de confiance bilatéral de niveau 95% pour l’écart-type du
diamètre.
a) [0,0365; 0,0546]
b) [0,0034; 0,0134]
c) [0,0041; 0,1267]
d) [0,0138; 0,0365]
e) [0; 0,0398]
14. Afin d’évaluer l’intérêt d’un formation, on construit deux échantillons indépend-
ants et i.i.d. d’individus sans emploi. Dans le premier (de taille 54), tous les
individus ont suivi la formation tandis que dans le second (de taille 112),
aucun individu ne l’a suivie. Au bout d’une année, on constate que 23 in-
dividus ont trouvé de l’emploi dans le premier échantillon tandis que 30 en
ont trouvé dans le second. Donnez un intervalle de confiance bilatéral au
niveau 95% pour p1 − p2 . p1 et p2 désignent respectivement les proportions
dans les deux populations considérées (ceux qui ont suivi la formation et
ceux qui ne l’ont pas suivie).
a) [−0.9801; −0.0034]
b) [0.4567; 0.6743]
c) [0.0028; 0.3134]
d) [−0.4567; 0.6743]
e) [−1.4523; 2,4538]
IV. Tests d’hypothèses
1. Un électricien est convaincu que l’écart-type des mesures de son ampèremètre

est exactement égal à 2. Il effectue 16 mesures (que l’on suppose i.i.d.)
à l’aide de son ampèremètre. On se demande si les données permettent
d’infirmer la conviction de l’électricien. Pour ce faire, on réalise un test bi-
latéral sur la variance au seuil 5%. A quelle condition sur s2n rejette-t-on
11
l’hypothèse nulle de ce test ? On supposera que les mesures suivent une
distribution normale.
a) s2n < 6.26 ou s2n > 27.49

b) s2n < 1.669903 ou s2n > 7.330238
c) 6.26 < s2n < 27.49
d) 6.67733 < s2n < 29.3226667
e) s2n > 4
2. Une compagnie aérienne décide de contrôler le retard de ses vols au départ

de l’aéroport de Bruxelles. Pour son étude, elle décide de se concentrer sur
le vol Bruxelles-Rio. Elle a relevé la durée réelle (exprimée en minutes) de
100 vols (échantillon i.i.d.) Bruxelles-Rio. On peut supposer que le temps
de vol entre ces 2 villes suit une loi normale. Voici les statistiques obtenues :
100 100 100

x2i (xi − x̄)2 = 391360.3
X X X
xi = 67762.21, = 46308531 et
i=1 i=1 i=1
Dans sa dernière compagne publicitaire, la compagnie aérienne affirme que

ses vols arrivent toujours à l’heure (sous-entendu en moyenne). Sachant que
la durée de vol en conditions normales est de 11h10, elle souhaite savoir si
ses vols arrivent en moyenne à l’heure à l’aide d’un test au seuil de 5%.
Quelle est ici la valeur de la statistique de test?
a) -0.121838981
b) 1.212282555
c) 0.121838981
d) 1.21838981
e) -1.21838981
3. Un chercheur a mis au point un médicament et prétend que celui-ci fa-

vorise le sommeil pour une proportion p = 80% des personnes souffrant
d’insomnie. Après avoir examiné le dosage, vous pensez que ses allégations
concernant l’efficacité de la dose sont fausses. Afin de confirmer votre in-
tuition, vous administrez ce médicament à 200 insomniaques (échantillon
i.i.d.) et vous observez 101 insomniaques pour qui le médicament favorise
le sommeil. Vous voulez tester l’hypothèse H0 : p ≥ 0.8 contre H1 : p < 0.8
au seuil 5%. Quelle affirmation est correcte pour ce test? On peut utiliser
une statistique de test dont la loi est sous H0
a) normale et asymptotique.
b) une χ2 et asymptotique.
c) normale et exacte.
12
d) de Student et asymptotique.
e) de Student et exacte.
4. On considère l’énoncé de la question précédente. Pour ce test, quelle est la
formule de la p-valeur?
√ √ √ √
a) P ( 200(Fn − 0.8)/ 0.8 × 0.2 < 200(101/200 − 0.8)/ 0.8 × 0.2|p =
0.8)
√ √ √ √
b) P ( 200(Fn − 0.8)/ 0.8 × 0.2 > 200(101/200 − 0.8)/ 0.8 × 0.2|p =
0.8)
√ √ √ √
c) P ( 200(Fn − 0.8)/ 0.8 × 0.2 > 200(101/200 − 0.8)/ 0.8 × 0.2|p =
101/200)
√ √ √ √
d) P ( 200(Fn − 0.8)/ 0.8 × 0.2 < 200(101/200 − 0.8)/ 0.8 × 0.2|p =
101/200)
√ √ √ √
e) P ( 200(Fn − 0.8)/ 0.8 × 0.2 < 200(101/200 − 0.8)/ 0.8 × 0.2)
5. Dans la question précédente, pour un test unilatéral à droite, la p-valeur
serait
a) P (Fn < 101/200|p = 0.8)
b) P (Fn > 101/200|p = 101/200)
c) P (Fn < 101/200|p = 101/200)
d) P (Fn > 101/200|p = 0.8)
e) P (Fn > 101/200)
6. Dans le contexte des deux questions précédentes,
a) au vu de la valeur de Fn , le test unilatéral à gauche semble bien plus
utile que le test unilatéral à droite.
b) au vu de la valeur de Fn , le test unilatéral à droite semble bien plus
utile que le test unilatéral à gauche.
c) la p-valeur doit toujours correspondre à une probabilité conditionnelle
à une valeur de p possible sous H0 .
d) 2 des 3 propositions a), b) et c) de cette question sont correctes.
e) Aucune des propositions a), b), c) et d) de cette question n’est correcte.
7. On souhaite construire un intervalle de confiance pour la différence de
proportions de végétariens en Suède (p1 ) et au Portugal (p2 ). On extrait
ainsi un échantillon i.i.d. de Suède et un échantillon i.i.d. du Portugal. Les
deux échantillons sont indépendants. La proportion de végétariens en Suède
est 0.09 pour un échantillon de 100 personnes. Cette même proportion au
Portugal tombe à 0.04 avec un échantillon de n2 personnes. Quelle est
l’expression de la statistique pivotale observée correspondant à ce problème
d’intervalle de confiance pour une différence de proportions?
0.09−p1 0.04−p2
a) √ 0.0008
−q 0.0384
n2
13
p1 −p2
b) q
0.000819+ 0.0384
n2
p2 −p1
c) q
0.000819+ 0.0384
n2
−p2 )
0.05−(p1q
d) √ 0.0384
0.000819+ n2
e) q0.05−(p1 −p0.0384
2)
0.000819+ n2
8. Si on voulait tester p1 = p2 (sous H0 ) dans la question précédente, que

devrait-on changer à la statistique pivotale pour en faire une statistique de
test?
a) Poser p1 = p2 , ce qui signifie modifier uniquement le numérateur de la
statistique pivotale.
b) Poser p1 = p2 , ce qui signifie modifier uniquement le dénominateur de
la statistique pivotale.
c) Rien du tout.
d) Poser p1 = p2 = 0.
e) Poser p1 = p2 , ce qui signifie modifier le numérateur et le dénominateur
de la statistique pivotale.
9. Afin d’évaluer l’intérêt d’un formation, on construit deux échantillons
indépendants et i.i.d. d’individus sans emploi. Dans le premier (de taille 54),
tous les individus ont suivi la formation tandis que dans le second (de taille
112), aucun individu ne l’a suivie. Au bout d’une année, on constate que
23 individus ont trouvé de l’emploi dans le premier échantillon tandis que
30 en ont trouvé dans le second. Quelle est la p-valeur du test H0 : p1 ≤ p2
contre H1 : p1 > p2 ? p1 et p2 désignent respectivement les proportions dans
les deux populations considérées (ceux qui ont suivi la formation et ceux
qui ne l’ont pas suivie).
a) 0.6573
b) 0.0203
c) 0.0000
d) 0.05
e) 0.9541
10. Le propriétaire d’un commerce de détail change de stratégie de marketing.
Il espère ainsi augmenter le montant moyen de ses transactions. Jusqu’à
présent, ce montant moyen avait été calculé sur un échantillon i.i.d. de taille
300 ; le propriétaire avait obtenu un montant moyen de x̄n1 = 510 avec un
écart-type sn1 = 111. Il constate qu’après avoir mis en oeuvre sa nouvelle
stratégie de marketing, le montant moyen des transactions d’un échantillon
i.i.d. de 200 clients (indépendant du premier échantillon) est de x̄n2 = 537
14
euros avec un écart-type sn2 = 100 euros. On voudrait savoir si sa nouvelle
stratégie de marketing augmente effectivement le montant moyen de ses
transactions? Quel est le protocole de test relatif à cette question (µ1 et µ2
désignent respectivement les montants moyens avant et après changement
de stratégie de marketing)?
a) H0 : µ2 ≤ µ1 contre H1 : µ2 > µ1
b) H0 : µ2 ≥ µ1 contre H1 : µ2 < µ1
c) H0 : µ2 = µ1 contre H1 : µ2 6= µ1
d) H0 : µ2 < µ1 contre H1 : µ2 ≥ µ1
e) H0 : µ2 > µ1 contre H1 : µ2 ≤ µ1
11. Pour ce problème, on prend un niveau de test égal à 5%. Une diminution
de ce niveau entraı̂ne
a) une limite de la région critique plus grande (en valeur absolue).
b) une p-valeur plus grande.
c) une p-valeur plus petite.
d) des tailles d’échantillons plus grandes.
e) Deux des trois réponses a., b. et c. ci-dessus sont correctes.
12. Quelle est la p-valeur pour ce test? On suppose l’égalité des variances.
a) 0.000
b) 0.0023
c) 0.1091
d) 0.0028
e) 0.1043
13. Quelle est la p-valeur pour ce test? On ne suppose pas l’égalité des variances.
a) 0.000
b) 0.0023
c) 0.1091
d) 0.0028
e) 0.1043
14. Au niveau 5%,
a) on rejette dans les deux cas.
b) on rejette quand on suppose l’égalité des variances et on ne rejette pas
quand on ne suppose pas cette égalité.
c) on ne rejette pas quand on suppose l’égalité des variances et on rejette
quand on ne suppose pas cette égalité.
d) on ne rejette dans aucun des deux cas.
e) on rejette plus qu’au niveau 10%.
15
15. Supposons que l’échantillon de taille 200 soit issu d’une population de
clients de taille 1000 (cette population a été considérée dans les questions
précédentes comme suffisamment grande pour ne pas se soucier du caractère
avec ou sans remise du sondage aléatoire simple qui a permis d’obtenir
les échantillons). Afin de collecter le plus possible d’individus différents,
cet échantillon traité ici (de taille 200) a été construit par la méthode de
sondage aléatoire simple sans remise. Peut-on affirmer au niveau 5% que
la nouvelle stratégie permet d’obtenir un montant moyen des transactions
supérieur à 530? Quelle est la p-valeur correspondante?
a) Non, la p-valeur vaut 0,05.
b) Oui, la p-valeur vaut 0,0087.
c) Non, la p-valeur vaut 0,8657.
d) Oui, la p-valeur vaut 0,0134.
e) Non, la p-valeur vaut 0,1343.
V. Régression linéaire simple
On suppose un modèle de régression linéaire simple Y = α + βX + ε, ε ∼

N (0,σ 2 ), entre le revenu Y et la durée des études X (en années). En 1970, un
échantillon de 50 nord-américains suivant le modèle ci-dessus avec des erreurs
indépendantes, dont l’âge variait entre 35 et 54 ans a permis d’estimer les pa-
b obs = 1200 et b = βbobs = 800. Le revenu
ramètres de la droite de régression: a = α
moyen était de y n = 10000 et la durée moyenne des études était de xn = 11 avec
50
(xi − xn )2 = 900.
X
i=1
L’écart-type (estimé) des erreurs autour de la droite de régression ajustée était

de 73.
1. Dans cet énoncé,

a) les erreurs ne peuvent être que i.i.d.
b) les couples (Xi ,Yi ), i = 1, . . . ,n, sont i.i.d.
c) les Yi sont i.i.d.
e) Les trois réponses a., b. et c. ci-dessus sont correctes.
16
2. Dans cet énoncé,
a) augmenter d’une année le nombre d’années d’études a pour effet d’aug-
menter en moyenne le revenu d’environ 800.
b) si le modèle est correct en 0, ne pas faire d’études correspond en
moyenne à un revenu d’environ 1200.
c) si le modèle est correct en 0, faire une année d’études correspond en
moyenne à un revenu d’environ 2000.
3. Sur un graphe des résidus (en fonction des valeurs de la covariable), on
observe si
a) la distribution des points (résidus) est relativement similaire pour des
valeurs de covariable différentes. Si ce n’est pas le cas, alors les résultats
d’inférence statistique en régression linéaire simple sont à remettre en
question.
b) la relation entre les résidus et les valeurs de la covariable est linéaire.
Si c’est le cas, les résultats d’inférence statistique sont corrects.
c) la relation entre les résidus et les valeurs de la covariable est à peu
près constante (la droite passant le mieux par ces résidus -au sens des
moindres carrés a une pente proche de 0 -). Si ce n’est pas le cas, les
résultats d’inférence statistique sont incorrects.
4. Dans cet énoncé, que vaut la somme des carrés des résidus?
a) 73
b) 255792
c) 3504
d) 5329
e) 146
5. Avec un tel nombre de degrés de liberté, on considérera que la Student et
la normale standard se confondent. Donnez un intervalle de confiance pour
α de niveau 95% (NORM.INV(0,975;0;1)=1,96).
a) [a − 1,96seα ,a + 1,96seα ].
b) [b − 1,96seβ ,a + 1,96seβ ].
c) [a − t21;0,975 seα ,a + t21;0,975 seα ].
d) [a − χ221;0,975 seα ,a + χ221;0,975 seα ].
e) [b − χ221;0,975 seβ ,b + χ221;0,975 seβ ].
17
Pn
(ŷi −ȳn )2 2
6. Nous savons que R = 2 Pi=1
n
(y i −ȳ n )
= 1 − Pn(n−2)se
2
ε
(y −ȳn )2
. Si ici le R2 = 0,7,
i=1 i=1 i
que vaut l’estimation ponctuelle de la variance de Y ?
a) 238,3673
b) 248,4028
c) 18133,4
d) 17400,82.
e) 7457,493
7. Ce R2 = 0,7 signifie que
a) 70% de la variabilité des réponses sont expliqués par la droite de
régression.
b) 70% de la variabilité des erreurs sont expliqués par la droite de régression.
c) 70% de la variabilité des réponses sont expliqués par les erreurs du
modèle.
8. Un économiste prétend que β, la vraie pente du modèle, vaut 700. Pour
tester cette affirmation, on effectue un test unilatéral à droite. Quel est le
bon protocole (hypothèses nulle et alternative) pour ce test?
a) H0 : β ≤ 800, H1 : β > 800.
b) H0 : β ≥ 700, H1 : β < 700.
c) H0 : β ≤ 700, H1 : β > 700.
d) H0 : β ≥ 800, H1 : β < 800.
e) Aucune des réponses a., b., c. et d. ci-dessus n’est correcte.
9. Dans ce contexte, quelle est la bonne statistique de test observée?
a) 100/seβ
b) −100/seβ
c) 0
√
d) −100 ∗ 48/seβ
10. Quelle est la région critique pour ce test (niveau de test de 5%)?
a) [t48;0,05 , + ∞[
b) ] − ∞, − t48;0,05 ]
c) ] − ∞, − t48;0,95 ]
d) [t48;0,95 , + ∞[
11. Quelle est la p−valeur pour ce test?
a) 1
18
b) 1,96
c) 0,05
d) 0
e) 0,975
12. Quelle est la prédiction/prévision du revenu de quelqu’un ayant effectué 10
années d’études?
a) 8000
b) 9200
c) 10000
d) 10000 ± 150
e) 10000 ± 73
13. Fournissez un intervalle de confiance de niveau 95% pour α+10β. T.INV(0,975;48)=2,010635;
T.INV(0,95;48)=1,677224; T.INV(0,95;50)=1,675905 ; T.INV(0,975;50)=2.008559 ;
T.INV(0,05;50)=-1,675905.
q
a) [9178.674; 9221.326] 9200 ± 2,010635 × 73 1/50 + 1/900
b) [9182.21; 9217.79]
c) [9051.682; 9348.318]
d) [9851.682; 10148.32]
e) [9851.836; 10148.16]
14. Fournissez un intervalle de prédiction/prévision de niveau 95% pour le re-
venu d’un individu ayant effectué 10 années d’études.
a) [9178.674; 9221.326]
b) [9182.21; 9217.79] q
c) [9051.682; 9348.318] 9200 ± 2,010635 × 73 1 + 1/50 + 1/900
d) [9851.682; 10148.32]
e) [9851.836; 10148.16]
VI. Régression linéaire simple : aspect complémentaires et vraisem-

blance
1. Considérons un échantillon i.i.d. {X1 , . . . ,X4 } issu d’une population de

Bernoulli de paramètre p = P (Xi = 1), i = 1, . . . ,4. L’échantillon observé
est {x1 , . . . ,x4 } = {1,0,0,0}. Quelle est la fonction de vraisemblance?
a) 1/4
19
b) p(1 − p)3
c) 1/3
d) p3 (1 − p)
e) Aucune des réponses ci-dessus n’est correcte.
2. Dans ce contexte, quelle est la fonction de log-vraisemblance?
a) log(p) + 3 log(1 − p)
b) p(1 − p)3
c) log(3p/(1 − p))
d) log(p3 (1 − p))
e) log(1/4)
3. Dans ce contexte, quelle est la valeur de l’estimateur du maximum de vrai-
semblance?
a) 1/4
b) p(1 − p)3
c) 1/3
d) p3 (1 − p)
e) No good answer above
4. Un certain composant électronique est fabriqué une fois par mois par l’en-
treprise Micro-Systèmes. La quantité fabriquée varie avec la demande du
marché. Dans le but de planifier la production et d’établir certaines normes
sur le nombre d’hommes-minutes exigés pour la production de différents
lots de ce composant électronique, le responsable de la production a relevé
l’information suivante pour 15 cédules de production. Le nombre d’hommes-
minutes est identifié par Y et la quantité fabriquée par X.
x 35 42 64 88 70 85 40 30 55 60 51 72 80 44 39
Y 150 192 264 371 300 358 192 134 242 238 226 302 340 182 169
Dans ce contexte, le responsable voudrait supposer un modèle de régression
linéaire simple. Quel modèle pouvez-vous traiter facilement (estimation et
inférence pour les paramètres)?
a) Y = β0 + β1 X + ε, ε ∼ N (0,σ 2 )
b) Y = β0 + β1 X + ε
c) Y = β0 + β1 X
d) Y = β0 + β1 X + ε, V ar[ε] = σ 2
e) Y = β0 + β1 X + ε, E[ε] = 0
5. On calcule x̄15 = (1/15) 15 15 15
i=1 (xi −
P P P
i=1 xi = 57, ȳ15 = (1/15) i=1 yi = 244,
2 P15
x̄15 ) = 4986, i=1 (xi − x̄15 )(yi − ȳ15 ) = 20027, où les xi (respectivement yi )
20
sont les valeurs de x (respectivement Y ) dans le tableau ci-dessus. Donnez
une estimation pour la pente dans le modèle choisi.
a) −0.0045
b) −2.5285
c) 0
d) 4.0166
e) 1.5490
6. Dans ce contexte, l’estimation ponctuelle du coefficient de corrélation (r(X,Y ))
doit être
a) positive.
b) négative.
c) nulle.
d) égale à l’estimation ponctuelle de la pente.
e) égale à −1.
7. Selon le modèle estimé (β̂0obs et β̂1obs sont les estimations correspondant aux
estimateurs β̂0 et β̂1 des moindres carrés),
a) si la quantité fabriquée augmente d’une unité, le nombre d’hommes-
minutes moyen augmente de β̂1obs .
b) si la quantité fabriquée diminue d’une unité, le nombre d’hommes-
minutes moyen augmente de β̂1obs .
c) si la quantité fabriquée augmente d’une unité, le nombre d’hommes-
minutes moyen diminue de β̂1obs .
d) si la quantité fabriquée augmente d’une unité, le nombre d’hommes-
minutes reste constant.
Trouvez une estimation de la variance des erreurs sachant que 15 i=1 (yi −
P
8.
obs obs 2
β̂0 − β̂1 xi ) = 90056.29
a) Cette quantité divisée par 13 fournit une estimation de la variance des
erreurs.
b) La racine carrée de cette quantité fournit une estimation de la variance
des erreurs.
c) Cette quantité divisée par 13 est utile pour calculer un intervalle de
confiance pour β1 .
d) Une bonne estimation de l’écart-type des erreurs est 83.23105.
e) Seule une réponse parmi a., b., c. et d. est fausse.
9. Calculez un intervalle de confiance bilatéral au niveau 90% pour β1 (t13;0.90 =
1.3502, t13;0.95 = 1.7709, t15;0.90 = 1.3406, t15;0.95 = 1.7531, z0.90 = 1.2816,
z0.95 = 1.6449)
a) [−1.929172,4.104028]
21
b) [1.950251,6.082949]
c) [2.077784,5.955416]
d) [1.929172,6.104028]
e) [2.425131,5.608069]
10. On suppose un modèle de régression linéaire simple Y = β0 + β1 X + ε,
ε ∼ N (0,σ 2 ), entre le durée des études des enfants Y et celle des parents
X. En 2009, un échantillon de 40 données ((xi ,Yi ), i = 1, . . . ,40) suivant
le modèle ci-dessus avec des erreurs indépendantes a permis d’estimer les
paramètres de la droite de régression: b0 = βb0obs = 0,3 et b1 = βb1obs = 1,2. La
durée moyenne (observée) des études des enfants est y n = 14,5 et la durée
moyenne des études des parents de xn = 11 avec
50
(xi − xn )2 = 100.
X
i=1
L’écart-type (estimé) des résidus autour de la droite de régression ajustée

était de 1,4. Soit la statistique √β̂1 −β
2
1
.
σ̂ /100
a) Sa distribution est normale

b) Sa distribution est une Student à 38 degrés de liberté.
c) Sa distribution serait normale si les erreurs n’étaient pas distribuées
selon une normale.
d) Sa distribution est asymptotique.
11. Si les erreurs n’étaient pas distribuées selon une normale (toutes les autres
hypothèses du modèle ci-dessus seraient néanmoins conservées), quelle se-
rait la distribution de cette quantité?
a) Sa distribution serait normale.
b) Sa distribution serait asymptotiquement normale.
c) Sa distribution serait une Student à 38 degrés de liberté.
d) Sa distribution serait asymptotiquement une χ2 .
12. Si on veut calculer une estimation ponctuelle du coefficient de corrélation
linaire (r(X,Y )), que nous manque-t-il pour le calculer?
a) Une estimation ponctuelle de Cov[X,Y ].
Pn
b) i=1 (xi − x̄n )ȳn .
c) Une estimation ponctuelle de la variance de la réponse Y .
d) Deux des trois réponses a), b) et c) sont correctes.
e) Aucune des trois réponses a), b) et c) n’est correcte.
22
13. On considère bien pour la suite ε ∼ N (0,σ 2 ). On se donne l’intervalle [1,2 −
t38;0,975 × 0,14; 1,2 + t38;0,975 × 0,14] où t38;0,975 suit les notations habituelles
du cours pour les quantiles. Il s’agit d’un intervalle de confiance
a) observé
b) bilatéral
c) pour b1
d) Les réponses a), b) et c) sont correctes.
e) Deux des trois réponses a), b) et c) sont correctes.
14. Soit H0 : β1 ≥ 0 contre H1 : β1 < 0. A quelle question pourrait correspondre
ce protocole?
a) La durée des études des enfants a-t-elle un impact sur celle des parents?
b) La durée des études des enfants est-elle significativement positive?
c) La durée des études des parents est-elle significativement positive?
d) La durée des études des enfants est-elle (significativement) positive-
ment (pente positive) liée à la durée des études des parents?
e) La durée des études des enfants est-elle (significativement) négativement
(pente négative) liée à la durée des études des parents?
15. Comment transformer la statistique ci-dessus pour effectuer le test corres-
pondant à ce protocole?
a) En remplaçant β1 par 0.
b) En remplaçant β̂1 par b1 .
c) En remplaçant β̂1 par β0 .
d) En remplaçant β̂1 par 0.
16. Quelle est la région critique de ce test (niveau 5%)? On appelle Stat la
statistique de l’énoncé (dernière ligne) adaptée à la question précédente.
a) |Stat| > t38;0,975
b) Stat < t38;0,05
c) Stat > t38;0,05
d) Stat > t38;0,95
17. Donnez une prédiction (ponctuelle) pour x = 5.
a) 0,3
b) 6,3 ± 1,4
c) 6,3
d) 0,9
23
18. Soit Ŷ5 = β̂0 + 5β̂1 (β̂0 et β̂1 sont les estimateurs de moindres carrés). On
donne la statistique √ 2Ŷ5 −β0 −5β1 . A quoi sert cette statistique?
σ̂ (1/40+36/100)
a) A obtenir un intervalle de confiance pour Y5 , la variable aléatoire

décrivant la vraie valeur de Y quand x = 5.
b) A obtenir un intervalle de confiance pour β0 + β1 x.
c) A obtenir un intervalle de confiance pour β0 + 5β1 .
d) A obtenir un intervalle de confiance pour Ŷ5 ,
19. On donne ensuite √ 2 Ŷ5 −Y5 . A quoi sert cette statistique?
σ̂ (1+1/40+36/100)
a) A obtenir un intervalle de prédiction pour β0 + β1 x.

b) A obtenir un intervalle de prédiction pour β0 + 5β1 .
c) A obtenir un intervalle de prédiction pour Ŷ5 ,
d) A obtenir un intervalle de prédiction pour Y5 , la variable aléatoire
décrivant la vraie valeur de Y quand x = 5.
e) A rien : on ne connaı̂t rien de sa distribution.
20. Quelle est la différence entre les intervalles des deux questions précédentes?
a) L’intervalle de la question précédente est toujours plus étroit que l’in-
tervalle de l’autre question (2 questions plus haut).
b) L’intervalle de la question précédente est un intervalle pour une quan-
tité aléatoire alors que celui de l’autre question l’est pour une grandeur
non aléatoire.
c) L’intervalle de la question précédente est un intervalle pour une quan-
tité non aléatoire alors que celui de l’autre question l’est pour une
grandeur aléatoire.
d) Deux des trois réponses a), b) et c) proposées dans cette question sont
correctes.
24

Cahier de Charge 18 19

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cahier de Charge 18 19

Transféré par

Droits d'auteur :

Formats disponibles

Cahier de charges

I. Introduction et méthodes d’échantillonnage

1. Quelle est la différence entre population et échantillon?

II. Echantillonnage et estimation ponctuelle

1. {1,4,8,9} est le résultat d’un tirage aléatoire. Comment l’appelle-t-on?

11. Le proportion d’étudiants végétariens à l’EDHEC est de 14%. On réalise un

Quelles sont les estimations ponctuelles de l’écart-type sn et de la moyenne

Remarque : mêmes remarques qu’à la section 2.

1. Le niveau de confiance dans ce dernier exemple peut être augmenté à 99%.

5. Le propriétaire d’un restaurant français veut étudier les préférences de ses

IV. Tests d’hypothèses

Remarque : mêmes remarques qu’à la section 2.

1. Un électricien est convaincu que l’écart-type des mesures de son ampèremètre

a) s2n < 6.26 ou s2n > 27.49

2. Une compagnie aérienne décide de contrôler le retard de ses vols au départ

100 100 100

Dans sa dernière compagne publicitaire, la compagnie aérienne affirme que

3. Un chercheur a mis au point un médicament et prétend que celui-ci fa-

8. Si on voulait tester p1 = p2 (sous H0 ) dans la question précédente, que

V. Régression linéaire simple

Remarque : mêmes remarques qu’à la section 2.

On suppose un modèle de régression linéaire simple Y = α + βX + ε, ε ∼

L’écart-type (estimé) des erreurs autour de la droite de régression ajustée était

1. Dans cet énoncé,

VI. Régression linéaire simple : aspect complémentaires et vraisem-

Remarque : mêmes remarques qu’à la section 2.

1. Considérons un échantillon i.i.d. {X1 , . . . ,X4 } issu d’une population de

L’écart-type (estimé) des résidus autour de la droite de régression ajustée

a) Sa distribution est normale

a) A obtenir un intervalle de confiance pour Y5 , la variable aléatoire

a) A obtenir un intervalle de prédiction pour β0 + β1 x.

Vous aimerez peut-être aussi