Vous êtes sur la page 1sur 4

Université de Lille Département de Mathématiques

M1 NSA
biostatistiques Année 2021-2022

Examen
Calculatrice, une fiche A5 et tables statistiques non annotées autorisées
Les autres documents sont interdits

Exercice 1 : Tablettes de chocolat


Une tablette de chocolat sera qualifiée de qualité supérieure si le mélange utilisé pour la fabriquer
contient plus de 430 grammes de cacao par kilogramme. Le fabriquant décide de contrôler la teneur
en cacao de 10 tablettes, pour savoir s’il doit modifier son processus de fabrication. On obtient les
teneurs suivantes (exprimées en grammes par kilogramme) :

381.22 418.59 428.75 437.45 472.37 421.09 407.76 420.52 390.05 404.10

La teneur en cacao d’une tablette de chocolat suit une loi normale N (m, σ 2 ), m étant la teneur en
cacao du mélange utilisé. Pour vous éviter des calculs fastidieux, on a calculé la moyenne empirique

X̄10 = 418.2g/kg et la variance empirique corrigée : V10 = 655.4.
1. Modéliser le problème (donner un nom aux observations et au(x) paramètres, si ce n’a pas
déjà été fait).
2. Exprimer les hypothèses, en français et sous forme mathématique.
3. On suppose dans un premier temps, au vu de mesures précédentes, que l’écart-type théorique
est connu égal à 30g/kg. On décide de construire un test au niveau α = 5% :
(a) Quelle statistique de test choisissez-vous ?
(b) Sous H1 , cette statistique a-t-elle tendance à être plus petite ou plus grande que sous
H0 ? En déduire le sens de la zone de rejet.
(c) Lorsque µ = 430g/kg, quelle est la loi de cette statistique de test ? En déduire la zone de
rejet.
(d) Que concluez-vous ?
(e) Que décide de faire le fabriquant ?
(f) Quelle est la puissance de ce test si en réalité, la teneur en cacao du mélange est de
400g/kg ?
4. On ne suppose plus l’écart-type connu. On souhaite construire un test au niveau α = 5% :
(a) Donnez la statistique de test, et la zone de rejet.
(b) Que concluez-vous ?
(c) Que décide de faire le fabriquant ?
Solution:
1. On note Xi la teneur en chocolat de la ième tablette. Les Xi sont indépendants, et suivent
tous une loi normale N (µ, σ 2 ).
2. On considère les hypothèses H0 : le chocolat est de qualité supérieure µ ≥ 430 contre H1 :
le chocolat n’est pas de qualité supérieure : µ < 430. En effet, le fabriquant veut éviter de
revoir son processus de fabriquation s’il n’en a pas besoin.
3. C’est un test sur l’espérance, à variance connue.
(a) On considère la statistique de test X̄10 , la moyenne empirique.
(b) Sous H1 , X̄10 a tendance a être plus petite que sous H0 , donc la zone de rejet est de la
forme R = {X̄10 ≤ k}.

(c) Si µ = 430, alors 10(X̄10 − 430)/30 ∼ N (0, 1). (Ce n’est pas le TCL (qui ne s’appli-
querait pas car n = 10 est trop petit), c’est la loi exacte). Donc
√ X̄10 − 430 √ k − 430 √ k − 430
   

P430 X̄10 ≤ k = P430 10 ≤ 10 = P N ≤ 10
30 30 30

√ loi normale est -1.645, donc 10(k − 430)/30 = −1.645 et
Le quantile à 5% d’une
k = 430 − 1.645 × 30/ 10 = 414.4. Donc la zone de rejet est

R = {X̄10 ≤ 414.4}

Pour trouver le quantile, il faut se rappeler que la loi normale est symétrique, donc si
le quantile à 5% est égal à - quantile à 95%.
(d) On trouve X̄n = 418, donc X̄n n’est pas dans la zone de rejet et on conserve H0 .
(e) Le producteur décide de ne rien faire.
(f) La puissance de ce test est
√ X̄n − 400 √ 414.4 − 400
 

P400 X̄n ≤ 418 = P400 10 ≤ 10 = P (N ≤ 1.52) ' 0.92.
30 30

Donc la puissance est de 92%.


4. Test si σ est inconnue. C’est un test sur l’espérance, à variance inconnue.

(a) On considère la statistique de test Tn = 10 X̄10−430
√ ∗ . Sous H1 , Tn est plus grande que
Vn
sous H0 , donc la zone de rejet est de la forme R = {Tn ≥ k}. Si µ = 430, alors Tn suit
une loi de Student de paramètre 9. Donc la zone de rejet est R = {Tn ≤ −1.83}.
(b) On trouve Tn = −1.46 donc on conserve H0 .
(c) Le fabriquant décide de ne rien faire.

Exercice 2 : Poissons
On veut connaı̂tre la proportion d’adultes parmis les thons rouges de méditerrannée pêchés. On
note p cette proportion. On décide d’examiner n poissons (nombre n à déterminer), et on note Sn
le nombre d’adultes parmis ces poissons.

Page 2
1. Quelle est la loi de Sn ?
2. Rappeler la formule de l’intervalle de confiance à 95% sur la proportion p construit en
majorant la variance.
3. On voudrait estimer p à ±0.05 près (pour un intervalle de confiance à 95%). Combien de
poissons au moins doit-on examiner ?
4. On a finalement examiné 400 thons, pris au hasard parmis les poissons pêchés. Sur les 400,
250 étaient des adultes. Construire un intervalle de confiance de niveau 95% pour p. Il existe
plusieurs méthodes pour construire un intervalle de confiance pour une proportion, utilisez
en une qui soit la plus précise possible (mais qui reste facilement calculable).

Solution:
1. Sn ∼ B(n, p)
2. L’intervalle de confiance à 95% avec majoration de la variance est
 
ˆ Sn 1.96
In = ± √
n 2 n
√ √
3. On cherche n tel que 1.96/(2 n) ≤ 1/20 donc n ≥ 19.6 et n ≥ 384.16 donc n ≥ 385
4. On décide d’utiliser l’intervalle de confiance d’Agresti-Coull :
" p #
ˆ p̃n (1 − p̃n )
In = p̃n ± 1.96 √ = [0.576; 0.671]
n

où p̃n = Sn+4


n +2
. Il était aussi possible (mais légèrement moins bon) d’utiliser l’intervalle de
confiance de Wald :  √ 
ˆ p̂n (1 − p̂n )
In = p̂n ± 1.96 √
n
avec p̂n = Sn /n.

Exercice 3.
Deux échantillons indépendants de 280 hommes divorcés et 350 femmes divorcées ont été classés
suivant leur âge :
Age/Sexe Homme Femme
moins de 30 126 180
31 – 40 55 89
41 – 50 56 34
51 et plus 43 47
Total 280 350
On veut savoir si la distribution de l’âge des hommes et des femmes divorcées sont les mêmes.
1. Écrire les hypothèses, en français et sous forme mathématique.
2. Quel test décidez-vous de faire ? On donnera le nom complet du test.
3. Faire le test au niveau α = 5%.

Page 3
4. Peut-on conclure que la distribution de l’âge des hommes divorcés et des femmes divorcées
sont les même ?
5. Quelle est la tranche d’âge ou la différence de répartition est la plus grande ?

Solution:
1. On considère les hypothèses :
H0 : la distribution des âges des hommes et des femmes divorcées sont les mêmes
H1 : la distribution des âges des hommes et des femmes divorcées sont diférentes.
Notons Fx la fonction de répartition des âges des hommes divorcés, FY la fonction de
répartition des âges des femmes divorcées, alors H0 : FX = FY contre H1 : FX 6= FY .
Autre formulation possible, avec l’indépendance (mais c’est moins naturel) :
H0 : l’âge et le sexe d’une personne divorcée sont indépendants.
H1 : l’âge et le sexe d’une personne divorcée sont liés.

Il est faux de dire que les âges des hommes divorcés et des femmes divorcés sont indépendants
2. On décide de faire un test du χ2 d’homogénéité (ou d’indépendance).
3. On calcule la statistique de test : Pour cela, on calcule le tableau des valeurs attendues :
âge/sexe homme femme total
moins de 30 136 170 306
31-40 64 80 144
41-50 40 50 90
51 et plus 40 50 90
total 280 350 630
La statistique de test est

100 100 81 81 162 162 9 9


Tn = + + + + + + + = 15.32
136 170 64 80 40 50 40 50
Sous H0 , Tn suit une loi du chi2 de paramètre 3. Donc la zone de rejet est R = {Tn ≥ 7.81}.
Donc on rejette H0 , la distribution des âges des hommes et des femmes divorcées n’est pas
la même.
4. La différence la plus grande est pour la tranche d’âge des 41-50 ans (c’est là que la contri-
bution à la statistique de test est la plus grande)

Page 4

Vous aimerez peut-être aussi