Vous êtes sur la page 1sur 7

CORRIGE DES EXERCICES DE LA SEANCE DE TD 11

Exercice 1

Désignons par P1, P3 et P3 les proportions de jets des 2 pièces donnant respectivement deux fois
piles, deux fois face et pile-face. Si les pièces ne sont pas biaisées, on doit avoir P1 = P2 = 0,25 et
P3 = 0,50. Les hypothèses testées sont donc :
H0 : P1 = 0,25 P2 = 0,25 P3 = 0,50
H1 : une, au moins, des égalités n’est pas vraie

Pour 100 jets de pièces, le tableau de χ 2 est le suivant :

pile-pile face-face pile-face

Effectifs théoriques 25 25 50 100


Effectifs observés 20 35 45 100

Les conditions de validité du test de χ 2 sont satisfaites puisque les effectifs théoriques sont
supérieurs à 5. On obtient :
(20 − 25)2 (35 − 25)2 (45 − 50)2
χ02 = + + = 1 + 4 + 0,5 = 5,5 avec 2 ddl puisqu’il y a 3 classes.
25 25 50

La valeur seuil pour α = 5% de la loi de χ 2 à 2 ddl est 5,99. La différence entre répartition

observée et théorique est donc non significative. On ne rejette pas H0 : on ne met pas en évidence
que les pièces sont biaisées.

Remarque : il faut noter que la valeur de χ 02 est très proche du seuil de signification, et par conséquent garder
une grande prudence dans la conclusion. Ces résultats ne permettent pas d’écarter totalement un doute sur le
caractère biaisé des pièces.

Exercice 2

1. a)
• Pour les 80 femmes dont la montée thermique est rapide, le pourcentage estimé d’avortements
est p1 = 0. Son intervalle de confiance à 95% est donné par la table 5 : [0 ; 4,51%].

• Pour les 160 femmes dont la montée thermique est de rapidité moyenne, le pourcentage estimé
11
d’avortements est p 2 = = 0,069 . Son intervalle de confiance est donné par la formule :
160
p 2 q2 0,069 × 0,931
p2 ± zα / 2 = 0,069 ± 1,96 = ⎡⎣0,030 ; 0,108 ⎤⎦
n 160
On a cependant npi = 160×0,030 = 4,8 < 5. Les conditions d’application de la formule précédente
ne sont donc pas satisfaites. On ne peut donc pas ici calculer l’intervalle de confiance du

Master de Santé Publique - 2019-2020 1


M1 – UE de biostatistiques - TD 11 - Corrigé
pourcentage d’avortements car la table 5 “s’arrête” à n =100.

• Pour les 60 femmes dont la montée thermique est lente, le pourcentage estimé d’avortements
8
est p3 = = 0,133 .
60

Son intervalle de confiance à 95% est donné par la table 5 : [5,94% ; 24,59%].

Remarques :
• Pour les femmes dont la rapidité de la montée thermique est moyenne, une table plus complète (ou un logiciel
statistique) donnerait les bornes suivantes de l'intervalle de confiance : [0,035 ; 0,120].
• Pour les femmes dont la rapidité de la montée thermique est lente, les conditions d'application de la formule
p 3 q3
p3 ± z α/2 ne sont pas satisfaites, comme on pourrait s'en rendre compte en faisant le calcul jusqu'au bout.
n

b) En notant P1, P2 et P3 les pourcentages vrais d’avortements selon que la montée thermique est
rapide, moyenne ou lente, les hypothèses testées sont :
H0 : P1 = P2 = P3
H1 : une des égalités, au moins, est fausse
(on pourrait aussi envisager un test de tendance, voir la remarque à la fin de la question)

Le tableau de χ 2 permettant de tester ces hypothèses est le suivant :

Montée thermique
rapide moyenne lente Total
0 11 8
Avortements 19
(5,1) (10,1) (3,8)
80 149 52
Naissances 281
(74,9) (149,9) (56,2)
Total 80 160 60 300

Il y a un effectif calculé inférieur à 5 (c’est 3,8; par contre la case où était l’effectif observé 0 donne
lieu à un effectif calculé suffisant). Comme la correction de Yates n’est pas possible en dehors du
tableau à 4 cases, on peut envisager 2 solutions :
• grouper les deux dernières colonnes, et faire un χ 2 habituel,
• grouper les deux premières colonnes, et faire un χ 2 avec la correction de Yates.

Si on adopte la première solution qui ne demande pas de correction, le tableau devient le suivant :

Montée thermique
rapide moyenne ou
lente
0 19
Avortements (5,1) (13,9)
80 201
Naissances (74,9) (206,1)

Master de Santé Publique - 2019-2020 2


M1 – UE de biostatistiques - TD 11 - Corrigé
(5,1)2 (5,1)2 (5,1)2 (5,1)2 (5,1)2
On obtient : χ02 = + + + + = 7,44 à 1 ddl
5,1 13,9 74,9 206,1 13,9

La liaison est significative avec p<1% dans le sens : fréquence d’avortements moins grande
lorsque la montée thermique est rapide.

Si on adopte la seconde solution, on a le tableau :


Montée thermique
rapide ou moyenne lente
11 8
Avortements
(15,2) (3,8)
229 52
Naissances
(224,8) (56,2)

Après correction de Yates, on obtient : χc2 = 4,81 à 1 ddl.

La liaison est donc significative, avec un degré de signification p < 5% dans le sens : fréquence
d’avortements plus grande lorsque la montée thermique est lente.

La conclusion est donc la même dans les deux cas. Cela la renforce car elle ne dépend pas du
choix de la façon de regrouper les catégories (qui comporte un certain arbitraire).

Remarque : la montée thermique étant une variable ordonnée, il serait tout à fait logique de faire ici un test de
tendance. Les hypothèses testées seraient H0 : P1 = P2 = P3 et H1 : les pourcentages P1 à P3 varient linéairement
avec la rapidité de la montée thermique. Pour la réalisation du test, les effectifs théoriques seraient les mêmes
que ceux qui ont été calculés plus haut, c’est-à-dire insuffisants. Il faudrait donc regrouper des catégories, ce qui
conduirait à la même situation que celle que nous avons rencontrée (car dans un tableau 2×2, le test de
tendance et le χ 2 “habituel” sont identiques).

2. a) Les proportions d’avortement sont de 15% pour les courbes inclassables et de 6,3% pour les
courbes classables. La comparaison de ces proportions peut être faite par un test de χ 2 , les

hypothèses testées étant : H0 : P1 = P2 et H1 : P1 ≠ P2 où P1 et P2 sont les pourcentages vrais


d’avortements selon que la courbe thermique est classable ou inclassable.
Le tableau d’analyse est le suivant :

Courbes
classables inclassables
Avortements 19 15 34
Naissances 281 85 366
300 100 400

Les conditions d’application sont satisfaites, puisque l’effectif théorique le plus petit est supérieur à
⎛ 34 × 100 ⎞ (19 × 85 − 15 × 281)2 × 400
5 ⎜ = 8,5⎟ . On obtient : χ02 = 7,2 .
⎝ 400 ⎠ 34 × 366 × 300 × 100
Le test est donc significatif avec un degré de signification p < 1%. La différence est dans le sens :
proportion d’avortements plus grande lorsque la courbe est inclassable (15% versus 6,3%).
Master de Santé Publique - 2019-2020 3
M1 – UE de biostatistiques - TD 11 - Corrigé
b) Le problème qui est posé ici est celui des données manquantes. Le test de la question 1.b a été
fait sur une partie seulement de l’échantillon initial; on doit donc se demander si ses résultats sont
valides ou s'ils sont biaisés. De façon générale, il n’y a pas de biais si les données manquantes le
sont au hasard. On a alors seulement une perte de puissance statistique car l’analyse porte sur un
moins grand nombre de sujets.
Pour apprécier si les données manquent “au hasard”, on compare les sujets dont l’information
manque aux autres pour les variables disponibles. On a constaté qu’il y a plus d’avortements dans
le cas des courbes inclassables. Cela signifie que les femmes avec données manquantes sont
différentes des autres pour la question étudiée (taux d’avortement) et laisse suspecter un biais
dans la comparaison faite à la question 1.b dont le résultat doit donc être considéré avec
prudence.

Remarques :
• Pour aller plus loin, il faudrait savoir la raison pour laquelle certaines courbes thermiques n’ont pas pu être
classées. L’interprétation sera différente selon que les inclassables sont des courbes peu nettes (ce serait un
résultat biologique intéressant) ou des courbes avec des points manquants : dans ce dernier cas, cette
constatation pourrait être liée au résultat de la question 1.b, le risque de points manquants au voisinage de la
montée thermique étant d’autant plus grand que celle-ci dure plus longtemps. Pour trancher entre ces deux
éventualités, il faudrait étudier séparément les deux types de courbes inclassables.
• Il est clair que, dans un problème comme celui-ci, la conclusion “montée lente, ou moyenne, ou rapide”, mais
aussi la conclusion préalable “montée classable ou inclassable” doivent être prises par une lecture “à l’aveugle”,
c’est-à-dire en ignorant si la courbe correspond à une naissance ou à un avortement, car c’est la seule garantie
d’objectivité.
• Signalons enfin que la question des données manquantes qui vient d’être discutée n’a de réelle importance que
lorsque celles-ci sont nombreuses (comme c’est le cas ici). Si il ne manque que quelques pour-cent de données,
le biais (si il existe) est de toute façon de faible ampleur.

Exercice 3

1. L’échantillon de 450 sujets n’est pas représentatif de la population. En particulier, sa répartition


en fonction des horaires de travail a été fixée par l’enquêteur et ne reflète en rien celle de la
population. On ne peut donc pas estimer le pourcentage de sujets travaillant de jour avec de telles
données.

2. a) On peut estimer les pourcentages d’arrêt de travail fréquent selon les horaires de travail car
chacun des échantillons de 150 sujets est représentatif de sa population d’origine. On peut donc
aussi comparer ces pourcentages.
Les hypothèses testées sont : H0 : P1 = P2 = P3 et H1 : une des égalités, au moins, est fausse, où
P1, P2 et P3 sont les pourcentages vrais d’arrêts de travail fréquents selon que l’on travaille de jour,
de nuit ou en alternance.

Le test est un test de χ 2 à partir du tableau suivant :

Master de Santé Publique - 2019-2020 4


M1 – UE de biostatistiques - TD 11 - Corrigé
Arrêt de travail fréquent
Oui Non
Jour 7 (14,7) 143 (135,3) 150
Horaires de travail Nuit 12 (14,7) 138 (135,3) 150
Alternance 25 (14,7) 125 (135,3) 150

Les effectifs théoriques sont indiqués entre parenthèses. Ils sont tous supérieurs ou égaux à 5.
Les conditions d’application du test de χ 2 sont donc satisfaites. On obtient :
7,7 2 10,3 2
χ02 = + ... + = 13,02 à 2 ddl. Significatif avec p < 1%.
14,7 135,3
On conclut donc qu'il y a un lien entre les horaires de travail et les arrêts de travail fréquents.

Remarque : Il n’y a pas lieu ici d’envisager un test de tendance car la variable “horaires de travail” n’est pas une
variable ordonnée.

b) Les résultats précédents ne permettent pas de conclure qu'il y a un lien de cause à effet entre
les horaires de travail et les arrêts de travail fréquents. Le tirage au sort qui a été fait permet
d'avoir des échantillons représentatifs de sujets au sein des trois catégories d'horaires de travail
(mais pas une représentativité au niveau de l'ensemble de la population comme cela a été précisé
à la question 1). Il ne permet pas de rendre comparables ces 3 catégories pour les facteurs autres
que les horaires de travail (il faudrait pour cela tirer au sort quel sujet aurait un horaire de jour,
quel aurait un horaire de nuit, etc.).

Exercice 4

Il y a plusieurs façons de répondre à cette question avec les données de l’énoncé. Nous allons en
envisager 3 :
- comparaison des distributions de consommation de tabac chez les cas et les témoins (par un test
de χ 2 à 3 ddl)
- comparaison des pourcentages de fumeurs chez les cas et les témoins (par un test de χ 2 à
1 ddl)
- comparaison des consommations moyennes de cigarettes par jour
- test de tendance puisque la consommation de tabac est une variable ordonnée (il s'agit alors
d'un test de χ 2 à 1 ddl)

• Comparaison des distributions de consommation de tabac chez les cas et les témoins
Les hypothèses testées sont :
H0 : P01 = P11 ; P02 = P12 ; P03 = P13 ; P04 = P14
H1 : une des égalités, au moins, est fausse
où P0i et P1i sont les pourcentages vrais de la catégorie de i de consommation de tabac
respectivement chez les témoins et chez les cas.
Master de Santé Publique - 2019-2020 5
M1 – UE de biostatistiques - TD 11 - Corrigé
Il faut faire le test de χ 2 correspondant au tableau suivant :

Témoins Malades Total


Non fumeurs 116 (115,5) 96 (96,5) 212
1 à 10 cig/jour 8 (6,0) 3 (5,0) 11
11 à 20 cig/jour 12 (9,8) 6 (8,2) 18
≥ 21 cig/jour 4 (8,7) 12 (7,3) 16
Total 140 117 257

Les effectifs théoriques (entre parenthèses) étant tous supérieurs ou égaux à 5, les conditions
d’application du test sont satisfaites. On obtient :
(116 − 115,5)2 (12 − 7,3)2
χ02 = + ... + = 8,1 à 3 ddl.
115,5 7,3
Les distributions de consommation de tabac chez les cas et les témoins sont donc
significativement différentes. Le degré de signification est p < 5%. Les pourcentages de malades
sont égaux à 45,3%, 27,3%, 33,3% et 75,0%. Le sens de la liaison n'est pas très facile à
commenter. On observe que, parmi les fumeurs, le pourcentage de malades a tendance à
augmenter avec la consommation de tabac. On observe cependant aussi un pourcentage élevé de
malades chez les non fumeurs.

Remarque
Il faut noter que ces pourcentages ne servent qu’à déterminer le sens de la liaison et n’ont pas de sens en eux-
mêmes. Ils ne représentent en tout cas pas le taux de malades dans la population en fonction de la
consommation de tabac. C’est la conséquence de la constitution de échantillon où les nombres de malades et de
témoins ont été choisis arbitrairement, indépendamment de la répartition dans la population.

• Comparaison des pourcentages de fumeurs chez les cas et les témoins


Les hypothèses testées sont H0 : P0 = P1 et H1 : P0 ≠ P1 où P0 et P1 sont les pourcentages vrais de
fumeurs chez les témoins et chez les cas.
En regroupant les trois catégories de fumeurs, on obtient le tableau ci-dessous (les effectifs
théoriques s’additionnent comme les effectifs observés).

Témoins Malades
Non fumeurs 116 (115,5) 96 (96,5)
Fumeurs 24 (24,5) 21 (20,5)

Les conditions d’application du test sont satisfaites. On obtient : χ02 = 0,03 . On ne met donc pas

en évidence de différence entre les pourcentages de fumeurs chez les témoins et chez les
malades.

• Comparaison des consommations moyennes de cigarettes par jour


Les hypothèses testées sont H0 : µ0 = µ1 et H1 : µ0 ≠ µ1 où µ0 et µ1 sont les moyennes vraies de
Master de Santé Publique - 2019-2020 6
M1 – UE de biostatistiques - TD 11 - Corrigé
consommation de cigarettes par jour chez les témoins et chez les cas.

Les effectifs des deux échantillons étant supérieurs à 30, on compare les moyennes (sans
condition d’application particulière) en calculant :
m1 − m2 3,97 − 2,43
zo = = = 1,50 .
s12 s02 89,46 40,82
+ +
n1 n0 117 140

|z0| étant inférieur à 1,96, on ne met pas en évidence de différence entre les moyennes de
consommation de cigarettes par jour.

• Test de tendance
Pour tenir compte du fait que la variable consommation de tabac est ordonnée, il s'agirait ici de
tester si le pourcentage de malades a tendance à augmenter (ou à diminuer) avec la
consommation de tabac.
Or, on a vu plus haut que les pourcentages de malades selon la consommation de tabac étaient
égaux à 45,3%, 27,3%, 33,3% et 75,0%. Ils forment donc un U et il n'y a pas de tendance
constante à l'augmentation ou à la diminution. Le test de tendance n'est pas approprié.

Conclusion générale :
Les résultats obtenus avec les 3 premiers tests paraissent contradictoires. Avant d’envisager une
conclusion, il faut essayer de comprendre pourquoi. La première chose qu’il ne faut pas oublier est
qu’un résultat non significatif ne signifie pas qu’il n’y a pas de liaison, mais peut-être qu’il y en a
une “qu’on n’a pas vue”. En ce sens, les résultats ne doivent pas être considérés comme
formellement contradictoires. Ils sont cependant différents et cela peut s’expliquer en examinant
les répartitions (en pourcentages) de la consommation de tabac.
Témoins Malades
Non fumeurs 82,9% 82,1%
1 à 10 cig/jour 5,7% 2,6%
11 à 20 cig/jour 8,6% 5,1%
≥ 21 cig/jour 2,9% 10,3%

On constate que la différence entre les témoins et les malades est essentiellement due à la plus
forte proportion de gros fumeurs chez les malades. Il est donc logique qu’en regroupant les
fumeurs en une seule catégorie, on fasse disparaître cette différence (en la "noyant"). D’autre part,
il y a, dans les deux groupes, une très forte proportion de non fumeurs, ce qui atténue la différence
entre les moyennes de la consommation X de cigarettes puisque pour tous les non fumeurs on a
X=0.
Au total, on conclura à l’existence d’un lien entre la consommation de tabac et la maladie, mais en
insistant sur le fait qu’il est dû essentiellement aux gros fumeurs et les autres.

Master de Santé Publique - 2019-2020 7


M1 – UE de biostatistiques - TD 11 - Corrigé

Vous aimerez peut-être aussi