Vous êtes sur la page 1sur 6

CORRIGE DES EXERCICES DE LA SEANCE DE TD 12

Exercice 1

Il s’agit de comparer les moyennes de taux d’anticorps dans les 4 groupes de sujets. Les
hypothèses testées sont : H0 : µ1 = µ2 = µ3 = µ4 et H1 : il y a au moins une différence, où les µi sont
les moyennes vraies des taux d’anticorps selon le vaccin utilisé.
On utilise pour faire cette comparaison l’analyse de variance qui nécessite que les 4 distributions
des anticorps soient normales et de même variance.
Le tableau d’analyse de la variance est le suivant. On utilise un tableau “mixte” puisque les
données sont données à la fois sous forme groupée (moyennes) et individuelle ( ∑ x 2 ).

Somme des carrés des Carré moyen


Source de variation d.d.l. (ou variance) F
écarts

SCEA s2A
SCEA = ∑ n jm − nm s = F0 =
2 2 2
Entre vaccins k-1
j
j A
k −1 sR2

SCER
Résiduelle SCER = ∑ x 2 − ∑ n jm2j n-k sR2 =
i,j j
n−k

On a ici k = 4 et les éléments de calcul nécessaires sont les suivants :

• ∑n m j
2
j
= 100 × 17,5 2 + ... + 100 × 22,12 = 153 799,0
j

• m=
∑nm i i
=
100 × 17,5 + … + 100 × 22,1
= 19,525
n 400

On obtient donc :

Source de Carré moyen


Somme des carrés des écarts d.d.l. F
variation (ou variance)

SCEA = 153 799 - 400×19,5252


Entre vaccins 3 s2A = 436,25 F0 = 8,38
= 1 308,75

SCER = 174 415 - 153 799 sR2 = 52,06


396
Résiduelle = 20 616

3
F0 doit être comparé à la valeur seuil à 5% de F396 . Celle-ci ne figure pas dans la table mais est
3 3
comprise entre les valeurs seuils de F500 (2,62) et de F200 (2,65).

Master de Santé Publique - 2019-2020 1


M1 – UE de biostatistiques - TD 12 - Corrigé
La différence entre vaccins est significative. Le degré de signification est p < 1‰. On rejette donc
H0 et on conclut que les taux moyens d’anticorps sont différents selon les vaccins.

Remarque : attention à la précision de m pour les calculs ultérieurs. Si, en arrondissant, on prend m = 19,53 au
lieu de 19,525, on obtient SCEA = 1230,64 et F0 = 7,83. Les conclusions seraient ici les mêmes, mais on voit les
conséquences numériques d'arrondis sur m.

Exercice 2

1. Les trois lignes du tableau sont “entre groupes”, “résiduelle” et “total”. Pour les distinguer, on
s’aide des degrés de liberté. La ligne “total” est celle qui a le plus de ddl, c’est-à-dire ici 149. Pour
les deux autres lignes, l’énoncé ne permet pas de trancher entre deux possibilités.
La première est n-k = 4 et k-1 = 145 et correspond à 146 groupes et 150 sujets.
La seconde est n-k = 145 et k-1 = 4 et correspond à 5 groupes et 150 sujets.
Nous retiendrons la seconde solution qui est la seule réaliste, la première impliquant que la plupart
des groupes ne comprennent qu’un seul sujet.

2. On reconstitue alors facilement le tableau complet :

Source de Carré moyen


Somme des carrés des écarts ddl F
variation (ou variance)
Résiduelle 495 - 60 = 435 145 3
Total 495 149
Entre groupes 30 2 4 15 15
66 - = 60 F0 = =5
150 3

4
La valeur seuil de F145 est comprise entre 2,42 et 2,46. La différence est donc significative. Le
degré de signification est p < 1%. (On ne peut, avec la table du livre, savoir si p est inférieur à 1‰
4
car on ne sait pas si F0 dépasse la valeur seuil de F145 à 1‰ qui est comprise entre 4,81 et 5,02).

Exercice 3

1. Pour répondre à cette question, il faut faire une analyse de variance (qui suppose la normalité et
l’égalité des variances du temps de survie dans chaque population après administration d’un
traitement donné).
Les calculs nécessaires sont les suivants :

Tj2 675 2 898 2 1145 2


• ∑n =
10
+
10
+
10
= 2 573 05,40
j j

• TG = 675 + 898 + 1 145 = 2 718

• ∑x 2
= 53 2 + ...1322 = 260 114
i,j

Master de Santé Publique - 2019-2020 2


M1 – UE de biostatistiques - TD 12 - Corrigé
On obtient le tableau d’analyse :

Carré moyen
Somme des carrés des écarts ddl F
(ou variance)

Entre Tj2 TG2 5527,3


SCEA = ∑ − = 11054,6 2 s2A = 5527,3 F0 = = 53,1
traitements j nj n 104,0

Tj2
Résiduelle SCER = ∑ x 2 − ∑ = 2808,6 27 sR2 = 104,0
i,j j nj

2
F0 doit être comparé à la valeur seuil à 5% de F27 qui est comprise entre 3,32 et 3,40. On conclut

donc que les trois moyennes diffèrent significativement. Le degré de signification est p < 1‰.

2. La méthode adéquate pour répondre à cette question est un calcul de régression entre la dose
X et la durée de survie Y. Attention aux notations, la durée de survie était notée X dans la question
précédente.
Notons cependant que, comme on a démontré à la première question que le temps de survie était
différent selon la dose et que l’inspection des moyennes montre que A < B < C, on a déjà
démontré que le temps de survie croît en fonction de la dose. Il n’est intéressant de faire un calcul
de régression que pour obtenir l’équation de la droite de régression. Ce calcul ne devrait pas
infirmer le premier résultat. (Mais l’inverse aurait pu arriver, c’est pourquoi bien sûr c’est le test de
régression entre X et Y qu’il faut par principe utiliser ici).

X vaut successivement 0, 1 et 2 pour chacun des 3 groupes. On obtient donc :


• ∑ x = 30
• ∑ y = 2718 (c'est le TG précédent)
• ∑ x = 50
2

• ∑ y = 260 114 (c'est le ∑ x précédent)


2 2

• ∑ xy = 0 × 675 + 1× 898 + 2 × 1145 = 3 188

La pente de la droite de régression est donc :


1 1
∑ xy − n (∑ x)(∑ y) 3188 − 30 × 30 × 2718
b= = = 23,5
1 1
∑ x − n (∑ x )
2 2
50 −
30
30 2

s2y
478
− b2 − 23,5 2
s2x 0,69
La variance de pente est : var(b) = = = 5,0
n−2 28
Master de Santé Publique - 2019-2020 3
M1 – UE de biostatistiques - TD 12 - Corrigé
b 23,5
On en déduit : t 0 = = = 10,5 à 28 ddl, significatif avec p < 1‰.
var b 5,0
Le temps de survie augmente donc de façon significative avec la dose. Ce test suppose que la
régression est linéaire et que la distribution du temps de survie Y à dose X fixée est normale et de
variance constante quel que soit X.

L’équation de la droite de régression est : ŷ − my = b(x − mx ) c’est-à-dire : ŷ = 23,5 x + 90,6

Remarque : Il existe un test de linéarité (pas au programme) qui pourrait être utilisé ici. On peut cependant “se
faire une idée” sur la linéarité de la régression (qui est souvent tout à fait suffisante) en représentant les
moyennes du temps de survie y pour chaque dose x.
mA = 67,5 correspond à x = 0
mB = 89,8 correspond à x = 1
mC = 114,5 correspond à x = 2
Comme il s’agit de moyennes estimées, il faut faire figurer leur intervalle de confiance sur le graphique pour tenir

s2
compte de leur précision. L’intervalle de confiance s’écrit m ± t k;α/2 . Son calcul nécessite celui de la variance
n
pour laquelle il y a plusieurs choix possibles a priori :

- prendre une variance différente pour chaque groupe : s2A = 99,2 ; sB2 = 51,3 et sC2 = 161,6 . Le degré de liberté

qu’il faut prendre pour t est alors k = n-1, différent pour chaque intervalle.

- prendre une variance commune qui peut être la variance résiduelle de l’analyse de la variance ( sR2 = 104,0 et

k = 27) ou la variance liée de la régression ( s2Y|x = 100,4 et k = 28).

Le choix de la variance liée ne paraît pas opportun car son calcul suppose la linéarité de la régression. Les deux
autres possibilités se défendent. On retiendra ici la variance résiduelle car l’hypothèse d’égalité des variances a
été faite depuis le début et qu’il n’y a pas particulièrement de raison de la remettre en cause à ce moment précis.

sR2
La variance de chacune des moyennes vaut donc = 10,4 , où sR2 est la variance résiduelle, constante
10
quelque soit la dose x. Cette variance ayant 27 ddl, l’intervalle de confiance à 95% de µ est :
A

s2
mA ± 2,052 = [61; 74] . Pour µB, l’intervalle de confiance est : [83 ; 96], et pour µC : [108 ; 121].
10

140 Temps de
survie en
heures
120
Le graphique ci-contre
confirme visuellement la
100
linéarité.

80

Dose X
60
cc
-1 0 1 2

Master de Santé Publique - 2019-2020 4


M1 – UE de biostatistiques - TD 12 - Corrigé
Exercice 4

1. Puisque les 15 quantités dosées viennent du même prélèvement, elles ont toutes la même
teneur vraie en micropolluant. Les sources de variation potentielles entre les 15 valeurs de
dosages sont d’une part la déviation systématique du laboratoire par rapport à la valeur réelle (qui
expliquerait des valeurs différentes des moyennes des mesures d’un laboratoire à l’autre) et
d’autre part des erreurs de mesures aléatoires indépendantes les unes des autres. Pour un même
laboratoire, la déviation systématique est la même pour les 5 valeurs et ces 5 valeurs sont
indépendantes puisque leur seule source de différence est l’erreur aléatoire. D’un laboratoire à
l’autre, les valeurs sont aussi indépendantes, même si elles sont centrées sur des moyennes
différentes. Tout se passe comme si chaque laboratoire mesurait 5 “individus” tirés d’une même
population. Il s’agit donc d’échantillons indépendants.

2. Les variances des trois laboratoires sont respectivement :


1 1 1
516 − 44 2 3732 − 124 2 16363 − 275 2
2
s1 = 5 = 32,2 ; s2 =
2 5 = 164,2 et s3 =
2 5 = 309,5
4 4 4

Pour comparer deux de ces variances entre elles avec un test au risque 5%, on calcule le rapport
de la plus grande sur la plus petite que l’on compare à la valeur seuil à 2,5% de F44 , c’est-à-dire
9,60. On trouve ainsi que s12 et s32 sont significativement différentes (avec p < 5%). En revanche,
s12 n’est pas significativement différente de s22 , et s22 n’est pas significativement différente de s32 .

3. Pour comparer les trois moyennes, on utilise l’analyse de la variance qui nécessite que, dans
chaque laboratoire, les distributions de la mesure faite soient normales et de même variance. La
normalité n’est pas vérifiable en pratique avec ces données. Les variances des trois séries
paraissent différentes, ce que tendent à confirmer les tests de la question précédente. Ces tests
ne sont cependant pas tout à fait corrects pour répondre à la question car il faudrait faire une
comparaison globale et non des comparaisons deux par deux.

On sait cependant que l’analyse de la variance est un test robuste aux écarts à l’égalité des
variances, surtout avec des effectifs égaux. On considérera donc qu’on peut comparer les 3
moyennes par analyse de la variance.

Indiquons de plus que la comparaison globale des variances (par l’un ou l’autre des deux tests –
non au programme – indiqués dans le chapitre 16) est non significative.

Les calculs nécessaires sont les suivants :


Tj2 44 2 124 2 275 2
• ∑n =
5
+
5
+
5
= 18 587,4
j j

Master de Santé Publique - 2019-2020 5


M1 – UE de biostatistiques - TD 12 - Corrigé
• TG = 44 + 124 + 275 = 443

• ∑x 2
= 3 2 + ... + 422 = 516 + 3732 + 16363 = 20 611
i,j

On obtient le tableau d’analyse :

Source de Carré moyen


Somme des carrés des écarts ddl F
variation (ou variance)

Entre Tj2 TG2 2752,07


SCEA = ∑ − = 5 504,13 2 s2A = 2 752,07 F0 = = 16,3
laboratoires j nj n 168,63

Tj2
Résiduelle SCER = ∑ x 2 − ∑ = 2 023,6 12 sR2 = 168,63
i,j j nj

La table de la loi F122 indique que la différence est significative avec p < 1‰. On rejette donc

l’hypothèse d’égalité des moyennes des mesures dans les trois laboratoires.

Master de Santé Publique - 2019-2020 6


M1 – UE de biostatistiques - TD 12 - Corrigé

Vous aimerez peut-être aussi