Vous êtes sur la page 1sur 4

Statistiques - Année 3 Semestre 6 - 2023

Chapitre 1 : Tests statistiques


Feuille de TD 2

Exercice 1 : "Industriel vs Protection de la nature"

La limite légale du niveau d’un certain polluant dans les déchets d’une usine est de 6 mg/kg, et son
seuil d’alerte de toxicité pour la faune et la flore environnantes est de 8 mg/kg. Suite à un recours d’une
association de protection de la nature, l’ANSES effectue des prélèvements aléatoires dans les déchets
de cette usine, dose dans chaque prélèvement le niveau du polluant, et communique ses résultats au
directeur de l’usine en question, ainsi qu’à l’association.
Dans toute la suite, on supposera que, de manière générale, le niveau de ce polluant dans les déchets
de cette usine suit une loi d’espérance µ inconnue.
1. Modélisation du point de vue du directeur de l’usine.
(a) Quelles hypothèses veut départager le directeur de l’usine ?
(b) De quelle observation X dispose-t-il pour cela ?
(c) En s’inspirant de la botanique de tests du cours, proposer un test qu’il peut effectuer :
i. s’il suppose que les prélèvements suivent une loi normale ;
ii. s’il ne suppose pas que les prélèvements suivent une loi normale mais que le nombre de
prélèvements est plus grand que 30.
Préciser dans chacun des deux cas si le test est exact ou asymptotique, la statistique utilisée
pour le test, ainsi que la région de rejet associée à un niveau de risque α ∈]0, 1[.

Nous nous limiterons à présent au premier cas : le dosage a été effectué sur 20 prélèvements,
sur lesquels l’ANSES a observé une moyenne empirique de 7 mg/kg et un écart-type empirique
(usuel) de 2.4 mg/kg.
(d) Montrer que le test φα (X) ainsi construit est de taille α (on pourra dans un premier temps
considérer le cas d’une hypothèse nulle simplifiée).
(e) En utilisant des commandes Python/R (lesquelles ?), conclure au niveau α = 5%.
(f) Déterminer l’expression de la p-valeur, et la calculer numériquement à l’aide de commandes
Python/R.
(g) Conclure au niveau α = 2.5%.

1
2. Modélisation du point de vue de l’association de protection de la nature.
(a) Quelles hypothèses veut départager l’association ?
(b) De quelle observation X dispose-t-elle pour cela ?
(c) En s’inspirant de la botanique de tests du cours, proposer un test qu’elle peut effectuer :
i. si elle suppose que les prélèvements suivent une loi normale ?
ii. si elle ne suppose pas que les prélèvements suivent une loi normale mais que le nombre de
prélèvements est plus grand que 30 ?
Préciser dans chacun des deux cas si le test est exact ou asymptotique, la statistique utilisée
pour le test, ainsi que la région de rejet associée à un niveau de risque α ∈]0, 1[.

Nous nous limiterons à présent au premier cas : le dosage a été effectué sur 20 prélèvements,
sur lesquels l’ANSES a observé une moyenne empirique de 7 mg/kg et un écart-type empirique
(usuel) de 2.4 mg/kg.
(d) Montrez que le test φα (X) ainsi construit est bien de taille α.
(e) En utilisant des commandes Python/R (lesquelles ?), conclure au niveau α = 5%.
(f) Déterminez l’expression de la p-valeur, et la calculer numériquement à l’aide de commandes
Python/R.
(g) Conclure au niveau α = 2.5%.

3. Quelles commandes Python/R vous permettent d’obtenir directement la p-valeur pour ces tests
si vous disposez de l’ensemble des données x1 , . . . , xn où xi est le niveau du polluant dans le i-ème
prélèvement (et non plus uniquement du résumé des données à travers la moyenne empirique et
l’écart-type empirique) ?

2
Exercice 2 : Introduction aux tests non-paramétriques
ou comment faire des tests avec de petits échantillons

1. Test du signe : On veut tester l’efficacité d’un nouveau traitement contre les migraines. On dispose
d’un échantillon de 18 personnes sujettes aux migraines à qui l’on fournit une quantité égale de
pilules correspondant au nouveau traitement (A) et de pilules d’aspirine standard (B). Lorsqu’ils
ont utilisé l’intégralité des deux jeux de pilules on demande à chaque patient de juger quel type de
pilule (A ou B) a été le plus efficace. Sur les 18 patients, 12 déclarent que le nouveau traitement
(A) est plus efficace que l’ancien (B).
Comment tester l’efficacité du nouveau traitement ?
(a) Modéliser mathématiquement la situation.
(b) Expliquer pourquoi l’on utilise ici le test du signe plutôt qu’un autre test.
(c) Énoncer l’hypothèse nulle et l’hypothèse alternative.
(d) Quelle statistique utilisez-vous pour ce test ? Rappeler son expression et sa loi sous H0 (à quel
test paramétrique cela nous ramène-t-il ?). Donner, pour tout α ∈]0, 1[, le test du signe de
niveau α associé à cette situation.
(e) A l’aide de commandes Python/R, conclure au niveau α = 5%
(f) Déterminer l’expression explicite de la p-valeur, puis la calculer numériquement à l’aide de
commandes Python/R.
(g) Conclure si l’on teste au niveau α = 15%.
(h) Quelles commandes Python/R pouvez-vous utiliser pour obtenir directement la p-valeur de ce
test ?
2. Test de Wilcoxon des rangs signés : Une critique régulièrement émise envers l’industrie cinéma-
tographique est une préférence pour les actrices jeunes, alors que les acteurs masculins de tous
âges peuvent avoir accès à des grands rôles. Afin de tester cette hypothèse, on note l’âge (que
l’on traitera comme une variable continue) des premiers rôles masculin et féminin des 9 films en
lice pour l’Oscar 2014 du meilleur film.

Age de l’acteur principal 40 57 44 52 39.2 77 48 36 39


Age de l’actrice principale 39.5 55 41.5 49 39.5 84 79 30 23

De gauche à droite : American Bluff, Capitaine Phillips, Dallas Buyers Club, Gravity, Her,
Le Loup de Wall Street, Nebraska, Philomena, Twelve Years a Slave.

Comment tester si, oui ou non, les actrices sont plus jeunes que les acteurs dans les films
américains à succès ?
(a) Modéliser mathématiquement la situation.
(b) Expliquer pourquoi l’on utilise ici le test de Wilcoxon des rangs signés plutôt qu’un autre test.
(c) Énoncer l’hypothèse nulle et l’hypothèse alternative.
(d) Quelle statistique utilisez-vous pour ce test ? Rappeler son expression et sa loi sous H0 . Donner,
pour tout α ∈]0, 1[, le test de Wilcoxon des rangs signés de niveau α associé à cette situation.
(e) Calculer la p-valeur de ce test à l’aide de la table ci-dessous, qui correspond à la loi de W9+
sous H0 .

3
(f) Conclure si l’on teste au niveau α = 5%.
(g) Quelles commandes Python/R pouvez-vous utiliser pour obtenir directement la p-valeur de ce
test ?

k 0 1 2 3 4 5 6 7 8 9
P(W9+ ≤ k) 0.0019 0.0039 0.0058 0.0097 0.0136 0.0195 0.0273 0.0371 0.0488 0.0644
k 10 11 12 13 14 15 16 17 18 19
P(W9+ ≤ k) 0.0820 0.1015 0.125 0.1503 0.1796 0.2128 0.2480 0.2851 0.3261 0.3671
k 20 21 22 23 24 25 26 27 28 29
P(W9+ ≤ k) 0.4101 0.4550 0.5 0.5449 0.5898 0.6328 0.6738 0.7148 0.7519 0.7871
k 30 31 32 33 34 35 36 37 38 39
P(W9+ ≤ k) 0.8203 0.8496 0.875 0.8984 0.9179 0.9355 0.9511 0.9628 0.9726 0.9804
k 40 41 42 43 44 45
P(W9+ ≤ k) 0.9863 0.9902 0.9941 0.9960 0.9980 1

3. Test de Mann-Whitney : On s’intéresse à l’effet d’une dose faible de Cambendazole sur les in-
fections des souris par la Trichinella Spiralis. Seize souris ont été infectées par un même nombre
de larves de Trichinella et ensuite réparties au hasard entre deux groupes. Le premier groupe de
7 souris a reçu du Cambendazole, à raison de 10 mg par kilo, 60 heures après l’infection. Les
9 autres souris n’ont pas reçu de traitement. Au bout d’une semaine, toutes les souris ont été
sacrifiées et les nombres suivants de vers adultes ont été retrouvé dans les intestins :

Souris non traitées 51 55 62 63 65 68 71 75 79


Souris traitées 47 49 53 57 60 61 67

Comment tester l’efficacité éventuelle du Cambendazole pour le traitement des infections des
souris par la Trichinella Spiralis ?
(a) Modéliser mathématiquement la situation.
(b) Expliquer pourquoi l’on utilise ici le test de Mann-Whitney plutôt qu’un autre test.
(c) Énoncer l’hypothèse nulle et l’hypothèse alternative.
(d) Quelle statistique utilisez-vous pour ce test ? Rappeler son expression et sa loi sous H0 . Donner,
pour tout α ∈]0, 1[, le test de Mann-Whitney de niveau α associé à cette situation.
(e) Voici quelques valeurs de la f.d.r. FM W (n,p) de la statistique de Mann-Whitney sous H0 pour
n = 9 et p = 7 :

FM W (9,7) (10) = 0.011, FM W (9,7) (11) = 0.016, FM W (9,7) (12) = 0.021 .

En déduire la p-valeur du test ci-dessus.


(f) Conclure si l’on teste respectivement aux niveaux α1 = 5%, α2 = 2.5%, α3 = 0.5%.
(g) Quelles commandes Python/R pouvez-vous utiliser pour obtenir directement la p-valeur de ce
test ?

Vous aimerez peut-être aussi