Vous êtes sur la page 1sur 5

CORRIGE DES EXERCICES DE LA SEANCE DE TD 2

Exercice 1
1. Puisque X suit une loi de χ 2 à 1 ddl, il faut utiliser la ligne ddl = 1 de la table de χ 2 .

a) Les probabilités demandées se lisent sur la première ligne de la table pour les valeurs de χ α
2

correspondantes. On obtient ainsi : P(X > 1,64) = 0,20 et P(X > 6,7) = 0,01. Une variable X suivant
une loi de χ 2 est toujours positive; on a donc |X| = X, d’où : P(|X| > 6,7) = P(X > 6,7) = 0,01.

b) Pour trouver les valeurs de a, il faut lire sur la ligne ddl = 1, les valeurs de χ α correspondant aux
2

valeurs α des probabilités demandées.


On obtient donc : P(X > 3,84) = 0,05 et P(X > 1,07) = 0,30

2. a) Il faut lire cette fois sur la ligne ddl = 5. La valeur 13 n’y figurant pas, on prend la valeur la
plus proche (12,83), ce qui donne P(X > 13) ≈ 0,025.

b) La ligne ddl = 70 ne figure pas dans la table du livre. Il faut utiliser l’approximation de la loi de
χ 2 par la loi normale de moyenne µ = ddl = 70 et de variance σ 2 = 2 ddl = 140, comme cela est
X − 70
indiqué en bas de la table. Z = suit donc à peu près une loi normale centrée réduite. On en
140
⎛ 85 − 70 ⎞
déduit : P(X > 85) = P ⎜ Z > = 1,268⎟ = 0,100 .
⎝ 140 ⎠

Exercice 2

1. Soit X le nombre de fumeurs dans l’échantillon.

a) Si n = 10, X suit une loi binomiale de paramètres n = 10 et P = 0,46. L’effectif de l’échantillon


est trop petit (nP = 4,6) pour que l’approximation par la loi normale soit possible.

b) Si n = 100, c’est aussi une loi binomiale, mais le calcul des probabilités devient très lourd et on
peut faire une approximation par la loi normale car nP = 46 est largement supérieur à 5.
X suit donc approximativement une loi normale de moyenne µ = nP = 46 et de variance
σ 2 = nPQ = 24,84 ≈ 25 .
La proportion observée de fumeurs suit une loi normale de moyenne µ’ = P = 0,46 et de variance
PQ
σ '2 = = 0,0025 .
n

2. Pour n = 100, on utilise l’approximation par la loi normale comme cela a été dit à la question
précédente. On obtient, en se ramenant à la loi normale centrée réduite :
⎛ 0,30 − 0,46 ⎞
( )
P P0 < 0,30 = P ⎜ Z <
⎝ 0,05
( )
⎟⎠ = P Z < −3,2 = 0,0005

Master Santé Publique - 2019-2020 1


M1 - UE de biostatistiques - TD 2 - Corrigé
Compléments pour les curieuses (x) :
• Le calcul avec la loi binomiale serait le suivant : P(X<30) = P(X=0) + P(X=1) + … + P(X=29), c’est-à-dire :
P(X < 30) = C100
0
0,460 0,54100 + C1100 0,461 0,5499 + ... + C100
29
0,46 29 0,5471 . En pratique, ce calcul n’est pas réalisable
sans ordinateur (on trouverait ici 0,00038, peu éloigné du calcul approché).
• Pour n=10, le calcul avec la loi binomiale serait possible (on ne peut cependant pas utiliser la table du livre où
p=0,46 ne figure pas). On doit calculer :
P(X < 3) = C10
0
0,460 0,5410 + C110 0,461 0,549 + C10
2
0,46 2 0,548
= 0,002 + 10 × 0,46 × 0,004 + 45 × 0,212 × 0,007 = 8,7%
• On voit par ailleurs ici qu’il n’est pas du tout indifférent de calculer P(P0<0,30) ou P(P0≤0,30) lorsque n=10
puisque P(X ≤ 3) = P(X < 3) + P(X = 3) = 0,087 + C10
3
0,463 0,547 = 0,243
En revanche, pour n=100, cela n’a aucune répercussion pratique de calculer P(X<30) ou P(X≤30) puisqu’on a :
P(X = 30) = C100
30
0,4630 0,5470 = 2,94 10 25 × 7,63 10 −11 × 1,85 10 −19 = 4,15 10 −4
L'écart entre P(X<30) et P(X≤30) est donc négligeable en en valeur absolue.

3. a) Le pourcentage vrai de fumeurs dans la population étant P = 0,46, on a nP et nQ ≥ 5. On


PQ
peut donc utiliser la formule P ± z α/2 pour calculer l’intervalle de fluctuation du pourcentage
n
0,46 × 0,54
observé P0. On obtient : 0,46 ± 1,96 = ⎡⎣0,36 ; 0,56 ⎤⎦ .
100

b) Dans un échantillon de 100 sujets de la population, on attend 46 fumeurs et 54 non fumeurs.


Les fumeurs consomment en moyenne µ1 = 10,3 cigarettes par jour et les non fumeurs µ 0 = 0 . La
46 × 10,3 + 54 × 0
moyenne attendue sur l’ensemble de l’échantillon est donc = 4,74 cigarettes par
100
jour.

Remarque : le calcul de l’intervalle de fluctuation de la moyenne du nombre de cigarettes fumées serait


compliqué car les fluctuations d’échantillonnage concernent à la fois le pourcentage de fumeurs observé dans
l’échantillon (qui fluctue autour de 46%) et la consommation moyenne des fumeurs (qui fluctue autour de 10,3
cigarettes par jour).

4. a) La taille de l’échantillon étant supérieure à 30, l’intervalle de fluctuation de la moyenne m est


σ2 6,5
obtenu par la formule µ ± z α/2 qui donne ici : 10,3 ± 1,96 = ⎡9,7 ;10,9 ⎤⎦ .
n 61 ⎣

σ2
b) Pour que l’intervalle soit deux fois plus petit, il faut que soit deux fois plus petit, c’est-à-dire
n
que n soit quatre fois plus grand. Il faut donc un échantillon de 244 sujets.

c) Si la distribution d’une variable est normale, l’intervalle de fluctuation de sa variance est :


⎡ a 2 b 2⎤
⎢ n − 1σ ; n − 1σ ⎥ où a et b sont les limites à 0,975 et 0,025 de χn−1 (pour un intervalle à 95%).
2

⎣ ⎦
Ici, n-1 = 60 et la table de χ 2 donne a = 40,48 et b = 83,30.
⎡ 40,48 83,30 ⎤
On obtient donc l’intervalle : ⎢ × 6,5 ; × 6,5 ⎥ = ⎡⎣ 4,39 ; 9,02 ⎤⎦ .
⎣ 60 60 ⎦
Rappelons la condition d’application de ce calcul : distribution du nombre quotidien de cigarettes
fumées normale dans la population.
Master Santé Publique - 2019-2020 2
M1 - UE de biostatistiques - TD 2 - Corrigé
Comme ici n est supérieur à 30, on peut aussi utiliser l’approximation par la loi normale qui donne
2σ 4 2 × 6,5 2
l’intervalle de fluctuation suivant : σ 2 ± z α/2 = 6,5 ± 1,96 = ⎡⎣ 4,17 ; 8,83 ⎤⎦ .
n−1 60
Pour ce calcul, les conditions d’application sont : effectif supérieur à 30 et distribution du nombre
quotidien de cigarettes fumées normale dans la population.

Remarque : l’écart entre les intervalles de confiance calculé à l’aide des deux méthodes est dû à l’approximation
par la loi normale : le second intervalle est approché alors que le premier est exact.

Exercice 3

1. L’échantillon est petit (n < 30), mais comme la distribution du dosage suit une loi normale, on
σ2
peut calculer l’intervalle de fluctuation de la moyenne par la formule µ ± 1,96 qui donne ici :
n
34
22 ± 1,96 = ⎡19,4 ; 24,6 ⎤⎦ .
20 ⎣

2. a) En notant X la valeur du dosage biologique, le pourcentage P d’enfants de la population dont


le dosage dépasse 25 est égal à la probabilité que X soit supérieur à 25. Puisque X suit une loi
normale de moyenne 22 et de variance 34, on peut calculer cette probabilité en se ramenant à la
⎛ 25 − 22 ⎞
loi normale centrée réduite : P = P(X > 25) = P ⎜ Z > = 0,515⎟ = 0,305 .
⎝ 34 ⎠
Il y a donc 30,5% des enfants de la population dont le dosage dépasse 25 (il s’agit de la valeur
vraie et non d’une estimation).

b) Le pourcentage vrai d’enfants dont le dosage dépasse 25 a été calculé à la question


précédente : P = 0,305. L’intervalle de fluctuation du pourcentage observé dans un échantillon de
PQ
20 enfants est donné par P ± z α/2 . Cette formule est applicable parce que nP=6,1 et nQ=13,9
n
0,305 × 0,695
sont supérieurs à 5. On obtient 0,305 ± 1,96 = ⎡⎣0,103 ; 0,507 ⎤⎦ .
20

3. a) Cette solution conduit à un échantillon non représentatif car les enfants venant à une
consultation de PMI n’ont pas les mêmes caractéristiques que l’ensemble des enfants de moins de
15 ans de la population. Par exemple, ils n’ont pas la même répartition de niveau social, ni la
même répartition par âge.
Lorsqu’il s’agit d’estimer un paramètre (moyenne, variance, pourcentage, …), il est essentiel
d’avoir un échantillon représentatif pour que les estimations ne soient pas biaisées. La solution
envisagée n’est donc pas acceptable. Il faut cependant noter que le fait de prendre les 100
premiers enfants venus consulter ne pose a priori pas de problème de biais en soi.

Master Santé Publique - 2019-2020 3


M1 - UE de biostatistiques - TD 2 - Corrigé
b) En raison des fluctuations d'échantillonnage, on s'attend à ce que le pourcentage d'enfants
avec un dosage dépassant 25 observé dans l'échantillon soit contenu dans l'intervalle de
fluctuation (du moins cela doit être le cas pour 95% des échantillons).
L'intervalle de fluctuation s'obtient comme à la question 2.b, mais avec ici n=100, ce qui donne :
0,305 × 0,695
0,305 ± 1,96 = ⎡⎣0,215 ; 0,395 ⎤⎦ .
100
On constate tout d'abord qu'il est beaucoup plus étroit que celui de la question 2.b, ce qui est dû à
une taille d'échantillon plus grande. Traduit en nombre d'enfants, l'intervalle devient [21,5 ; 39,5].
Le nombre observé, 28, fait partie de cet intervalle. Il est donc conforme à ce qu'on attend.

Remarques :
• Les bornes de l'intervalle de fluctuation exprimées en nombre d'enfants ne sont pas des entiers, ce qui peut
paraître curieux. Il en est ainsi parce qu’il s'agit des moyennes des nombres observés sur tous les échantillons
possibles, qui n’ont aucune raison d’être des nombres entiers. Si on veut arrondir à des entiers, ce qui peut être
plus "présentable", cela implique de modifier un peu le risque d'erreur ; l'intervalle de fluctuation n'est plus à 95%,
mais un peu plus ou un peu moins.
• Si le nombre observé n'était pas dans l'intervalle de fluctuation, deux interprétations sont possibles :
- il s'agit de fluctuations d'échantillonnage qui arrivent dans moins de 5% des cas ("on n'a pas eu de chance")
- l'échantillon n'a pas été tiré au sort comme il faut (par exemple comme en 3.a) et c'est la raison pour laquelle la
valeur observée s'écarte de ce qui est attendu.

Exercice 4

a) On ne peut pas répondre à cette question car on ne connait pas la distribution de la TAS. On
sait juste qu'elle n'est pas normale, ce qui permet seulement de savoir qu'on ne peut pas utiliser la
table de la loi normale ...
L'approximation par la loi normale ne s'applique pas car propriété concerne la moyenne calculée
sur un échantillon suffisamment grand (n ≥ 30) alors que la question porte sur les valeurs
individuelles des sujets de la population.

b) La taille de l’échantillon étant supérieure à 30, l’intervalle de fluctuation à 95% de la moyenne m


σ2 280
est obtenu par la formule µ ± z α/2 qui donne ici : 121± 1,96 = ⎡⎣116,4 ;125,6 ⎤⎦ .
n 50
L'interprétation de cet intervalle est la suivante. Si on calcule la moyenne de la TAS dans tous les
échantillons de 50 sujets tirés au sort dans la population, elle sera dans cet intervalle dans 95%
des cas.

c) L'écart entre les 2 moyennes est 123,8 - 118,3 = 5,5. Pour savoir si cet intervalle est "normal"
(c'est-à-dire qu'il résulte de fluctuations d'échantillonnage) ou pas, il faut calculer l'intervalle de
fluctuation de la différence des deux moyennes qui donnera les limites de cette "normalité".

Les 2 échantillons étant tirés de la même population et ayant la même taille, supérieure à 30, leur
moyenne a une distribution normale dont les moyenne et variance vrai sont les mêmes : µ = 121
σ 2 280
et = = 5,6 . La différence D entre les moyennes a une distribution normale de moyenne
n 50

Master Santé Publique - 2019-2020 4


M1 - UE de biostatistiques - TD 2 - Corrigé
σ2 σ2
µD = µ − µ = 0 et de variance σ D2 = + = 11,2 . L'intervalle de fluctuation de la différence
n n
observée est µD ± z α/2 σ D2 = 0 ± 1,96 11,2 = ⎡⎣ −6,6 ; 6,6 ⎤⎦ .

L'écart observé entre les moyennes des 2 échantillons étant dans l'intervalle de fluctuation, sa
valeur peut s'expliquer par les fluctuations d'échantillonnage. Elle fait donc partie des valeurs
attendues, il n'est pas surprenant d'observer un tel écart.

Master Santé Publique - 2019-2020 5


M1 - UE de biostatistiques - TD 2 - Corrigé

Vous aimerez peut-être aussi