Vous êtes sur la page 1sur 10

Unité d'Enseignement de biostatistiques

Examen du 21 janvier 2013


Les questions sont indépendantes et peuvent être traitées dans le désordre.

Les pédiatres d'une ville de taille moyenne ont enregistré pendant un an les caractéristiques des
139 enfants de 1 à 2 ans ayant consulté pour une otite. L'intérêt a notamment porté sur la
température de l'enfant au moment de la consultation, son mode de garde, et un prélèvement
nasal a été effectué pour déterminer le type de bactérie responsable de l'otite. On s'intéressera ici
à la bactérie Moraxella Catarrhalis (appelée dans la suite Moraxella). Lorsque l'analyse du
prélèvement révèle sa présence, l'enfant est dit porteur.
Une partie des résultats de cette enquête figure dans les tableaux 1 à 3 à la fin de l'énoncé.

1. Quel est l'âge moyen des enfants (et son intervalle de confiance) selon qu'ils sont porteurs ou
pas de Moraxella ?

2. a) Quelle est la fréquence du portage de Moraxella et son intervalle de confiance parmi les
enfants dont la température est supérieure à 39°C ?
b) Quelle est la fréquence du portage de Moraxella et son intervalle de confiance parmi les enfants
dont la température est supérieure à 40°C ?
c) Pensez-vous que les deux fréquences précédentes peuvent être extrapolées à la population de
l'ensemble des enfants entre 1 et 2 ans ayant une otite ?

3. a) Y a-t-il un lien entre le fait d'avoir une température supérieure à 39°C et le portage de
Moraxella ?
b) La fréquence du portage de Moraxella est-elle différente entre les enfants dont la température
est supérieure à 39°C et ceux dont la température est supérieure 40°C ?

4. a) Y a-t-il un lien entre l'âge des enfants et le portage de Moraxella ?


b) L'âge des enfants est-il différent selon le mode de garde ?
c) Peut-on parler d'une tendance entre l'âge et le mode de garde ?

5. a) Y a-t-il un lien entre le portage de Moraxella et le mode de garde ?


b) Peut-on considérer que le mode garde en crèche est une cause de portage plus fréquent de
Moraxella ?

6. Pour 100 des enfants, une prise de sang a été effectuée, qui permet en particulier de connaître
le nombre de leucocytes. Ces prises de sang, ainsi que les prélèvements nasaux, ont tous été
analysés par 2 laboratoires de biologie différents. Les résultats figurent dans le tableau 3.
a) Les taux de portage de Moraxella sont-ils différents entre les deux laboratoires ?
Master de Santé Publique - 2012-2013 1
Unité d'Enseignement de biostatistiques - Examen du 21 janvier 2013
b) Y a-t-il un lien entre les résultats des deux laboratoires pour le portage de Moraxella ?
c) Y a-t-il un laboratoire meilleur que l'autre ?
d) On peut montrer que les nombres de leucocytes par mm3 ne sont pas significativement
différents entre les deux laboratoires (on ne vous demande pas de faire le test). Quelle puissance
avait-on pour mettre en évidence une différence moyenne de 1000 leucocytes par mm3 entre les
deux laboratoires ?

Master de Santé Publique - 2012-2013 2


Unité d'Enseignement de biostatistiques - Examen du 21 janvier 2013
Tableau 1 : Température, âge et mode garde des enfants selon qu'ils sont porteurs ou non de
Moraxella
Portage de Moraxella
Non Oui
Effectif 111 28
Température ≥ 39°C 43 13
Température ≥ 40°C 5 1
2
Age (en mois) m=18,0 ; s =10,4 m=18,5 ; s2=9,8
Mode de garde
Domicile 31 4
Nourrice 40 6
Crèche 40 18

Tableau 2 : Age, température et portage de Moraxella selon le mode de garde des enfants
Mode de garde
Domicile Nourrice Crèche
Effectif 35 46 58
Age (en mois) m=16,8 ; s2=11,6 m=18,1 ; s2=9,4 m=19,0 ; s2=8,6
Température ≥ 39°C 42,9% 34,8% 43,1%
Portage de Moraxella 4 6 18

Tableau 3 : Résultats des analyses pour 100 enfants par 2 laboratoires différents

a) Portage de Moraxella
Portage de Moraxella
pour le 1er laboratoire
oui non
Portage de Moraxella oui 16 5
pour le 2ème laboratoire non 14 65

b) Nombre de leucocytes (en milliers par mm3)


1er laboratoire 2ème laboratoire Ecart entre les 2 laboratoires
m 9,31 8,98 0,33
s2 6,25 5,97 8,53

Master de Santé Publique - 2012-2013 3


Unité d'Enseignement de biostatistiques - Examen du 21 janvier 2013
Unité d'Enseignement de biostatistiques
Examen du 21 janvier 2013 - Corrigé

1. Les moyennes m1 et m0 de l'âge des enfants selon qu'ils sont porteurs ou non de Moraxella sont
données dans le tableau 1. Ce tableau donne aussi les variances, ce qui permet de calculer les
intervalles de confiance des moyennes vraies correspondantes.
§ pour les non porteurs de Moraxella
Puisque la taille de l'échantillon d'enfants non porteurs de Moraxella est supérieure à 30,
l'intervalle de confiance de la moyenne l'âge est donné, sans autre condition d'application, par :
s2 10,4
m ± z !/2 = 18,0 ± 1,96 = "17,4;18,6 $% pas de condition d'application
n 111 #

§ pour les porteurs de Moraxella


Le nombre d'enfants porteurs de Moraxella étant inférieur à 30, l'intervalle de confiance de la
moyenne de l'âge est donné par :
s2 9,8
m ± t n!1;"/2 = 18,5 ± 2,052 = #17,3;19,7 %&
n 28 $
L'utilisation de cette formule nécessite que la distribution de l'âge est normale chez les porteurs de
Moraxella.

2. a) Parmi les enfants dont la température est supérieure à 39°C, la fréquence du portage de
13
Moraxella se déduit des données du tableau 1 : p0 = = 0,23
56
p o qo 0,23 " 0,77
L'intervalle de confiance est donné par : po ± z !/2 = 0,23 ± 1,96 = #$0,12 ; 0,34 %& On
n 56
vérifie a posteriori que les conditions d'application sont satisfaites : npi, nps, nqi et nqs sont
supérieurs à 5 (la plus petite valeur vaut 56 ! 0,12 = 6,72 .
Remarque : On peut aussi utiliser la table pour petits échantillons qui donne les résultats jusqu'à
n=100. On obtient : [0,1298 ; 0,3642] ≈ [0,13 ; 0,36].
On constate que le résultat est différent du précédent. Si on doit choisir, l'intervalle donné par la table
est le meilleur car il ne souffre pas de l'approximation de la loi binomiale par la loi normale.
L'importance de la différence s'explique par le fait que la taille de l'échantillon reste modérée même si
les conditions d'application sont satisfaites (npi n'est que peu supérieur à 5). La différence entre les
deux intervalles de confiance reste cependant limité au regard de leur largeur.

b) La fréquence du portage de Moraxella parmi les enfants dont la température est supérieure à
1
39°C, se déduit aussi des données du tableau 1 : p'0 = = 0,17 .
6
Pour calculer l'intervalle de confiance, on ne peut pas utiliser la formule "habituelle" car on sait
d'emblée que les conditions d'applications ne sont pas satisfaites. En effet, np'0 = 1 est inférieur à
5, et donc npi, si on le calculait, serait a fortiori inférieur à 5. Il faut donc utiliser la table pour petits
échantillons qui donne [0,0042 ; 0,6412] ≈ [0 ; 0,64].

Master de Santé Publique - 2012-2013 1


Unité d'Enseignement de biostatistiques - Examen du 21 janvier 2013 - Corrigé
c) L'échantillon n'est pas représentatif de l'ensemble des enfants de 1 à 2 ans ayant une otite, car
tous ces enfants ne consultent pas un pédiatre. Les résultats observés ne sont donc a priori pas
extrapolables aux enfants de 1 à 2 ans ayant une otite.
Remarques
• La réponse générale précédente peut être nuancée ou discutée de la façon suivante.
On peut penser que les enfants ayant une otite consultent tous un médecin de ville ou à l'hôpital.
Comme le type de bactérie est inconnu des parents avant la consultation, il est possible qu'il ne soit
pas lié au lieu de consultation. Si c'est le cas, les résultats observés concernant le pourcentage de
portage de Moraxella sur l'échantillon de cette enquête peuvent être extrapolés à l'ensemble des
enfants de 1 à 2 ans ayant une otite.
En revanche, l'extrapolation n'est pas possible si le type de bactérie est associé à des caractéristiques
(socio-économiques ou âge par exemple) elles-mêmes liées au fait de consulter tel ou tel médecin de
ville (pédiatre ou généraliste) ou d'aller aux urgences de l'hôpital.
• La taille réduite de l'échantillon n'a rien à voir avec la possibilité d'extrapoler les résultats. Elle est
liée à la précision des estimations, ce qui est une autre question.

3. a) Les hypothèses à tester s'écrivent : H0 : P1= P2 et H1 : P1 ≠ P2 où P1 et P2 sont les


pourcentages vrais de portage de Moraxella selon que la température est inférieure ou supérieure
à 39°C.
Le tableau de χ2 correspondant, que l'on peut reconstituer avec les données du tableau 1, est le
suivant :
Température ≥ 39°C
Non Oui
Portage de Non 68 43 111
Moraxella (66,3) (44,7)
Oui 15 13 28
(16,7) (11,3)
83 56 139

Les conditions d’application du test de χ2 sont satisfaites puisque les effectifs théoriques (entre
parenthèses) sont tous supérieurs à 5. On obtient donc :
(68 " 66,3)2 (43 " 44,7)2 (15 " 16,7)2 (13 " 11,3)2
!02 = + + + = 0,55
66,3 44,7 16,7 11,3
La valeur obtenue étant inférieure à la valeur seuil de la loi de χ2 à 1 ddl (3,84), le test est non
significatif. On ne rejette pas Ho. On ne met donc pas en évidence de différence entre les taux de
portage de Moraxella selon que la température est inférieure ou supérieure à 39°C.

b) Les taux de portages de Moraxella sont égaux à 23% et 17% selon que la température est
supérieure à 39°C ou à 40°C. On ne peut cependant pas les comparer car les enfants de la 2ème
catégorie sont tous inclus dans la 1ère.
Remarque : une façon de répondre à la question (ou du moins à une question proche) serait de
comparer les taux de portage chez les enfants dont la température est comprise entre 39°C et 40°C et
2
chez ceux dont la température est supérieure à 40°C. Le tableau de χ correspondant peut être
reconstitué à partir du tableau 1.
39≤Temp<40 Temp≥40
38 5
Non 43
Portage de (38,4) (4,6)
Moraxella 12 1
Oui 13
(11,6) (1,4)
50 6 56
Les effectifs sont trop petits, même pour appliquer la correction de Yates. On ne peut donc pas
conclure avec les méthodes du cours. Le test de Fisher pour les très petits échantillons donnerait un
résultat non significatif.
Master de Santé Publique - 2012-2013 2
Unité d'Enseignement de biostatistiques - Examen du 21 janvier 2013 - Corrigé
4. a) Les hypothèses testées sont : H0 : µ1 = µ2 et H1 : µ1 ≠ µ2, où µ1 et µ2 sont les moyennes
vraies de l'âge selon que les enfants sont non porteurs ou porteurs de Moraxella.
Le nombre de non porteurs étant inférieur à 30, il faut utiliser le test de Student qui nécessite que
les distributions de l'âge soient normales et de même variances. On peut vérifier l'hypothèse
s12 10,4
d'égalité des variances en calculant F0 = 2
= = 1,06 qu'il faut comparer à la valeur seuil à
s 2
9,8
110
2,5% de F27 qui est comprise entre 1,84 et 2,02. La différence entre les variances est donc non
significative. D'un point de vue pratique, on peut admettre que cette condition d'application du test
de Student est satisfaite.
m1 ! m2
Le test de Student s'écrit : t 0 = .
2 1 1
s ( + )
n1 n2

(n1 ! 1)s12 + (n2 ! 1)s22 110 " 10,4 + 27 " 9,8


La variance commune est : s2 = = = 10,28
n1 + n2 ! 2 137
18,0 ! 18,5
On obtient donc : t 0 = = !0,74 . La valeur de t0 étant inférieure à la valeur seuil
" 1 1 %
10,28 $ +
# 28 111'&
de la loi de Student à 137 ddl (qui est comprise entre 1,960 et 1,984), on ne rejette pas
l’hypothèse H0. On ne met pas en évidence de différence d'âge entre les porteurs et les non
porteurs de Moraxella.

b) Les hypothèses testées sont : H0 : µ1 = µ2 = µ3 et H1: il y a au moins une différence, où les µi


sont les moyennes vraies de l'âge dans les 3 classes de mode de garde.
Il faut recourir à l’analyse de la variance dont les conditions d’application sont : distributions de
l'âge dans les 3 classes de mode de garde normales et de même variance. La normalité ne peut
pas être vérifiée avec les données de l'énoncé, mais on peut constater que les variances qui
figurent dans le tableau 2 sont homogènes (ce qu'un test — non au programme — confirmerait).

Les éléments de calcul nécessaires pour établir le tableau d’analyse de la variance sont les
suivants :

• m=
!nm i i
=
35 " 16,8+46 " 18,1+58 " 19,0
= 18,148
n 139
• ! n m = 35 " 16,8 +46 " 18,1 +58 " 19,0 = 45886,46
j
2
j
2 2 2
 

• " (n ! 1)s = 34 # 11,6 + 45 # 9,4 + 57 # 8,6 = 1307,60


i
2
i

On en déduit le tableau d’analyse de la variance :

Master de Santé Publique - 2012-2013 3


Unité d'Enseignement de biostatistiques - Examen du 21 janvier 2013 - Corrigé
Source de Somme des carrés des écarts ddl Variance F
variation
2
Entre mode de SCEA = 45886,46 - 139×18,148 s2A =
106,82
= 53,41 F0 =
53,41
= 5,56
2
garde = 106,82 2 9,61
1307,60
Résiduelle SCER = 1307,60 136 sR2 = = 9,61
136
Totale SCET = SCEA +SCER = 1409,19 138

2
F0 doit être comparé à la valeur seuil lue pour 5% dans la table F136 . Cette valeur seuil est
2 2
comprise entre celles de F100 (3,09) et de F200 (3,04). On rejette donc H0. On met en évidence une
différence entre les âges moyens des enfants selon le mode de garde. Le degré de signification
est p < 1%.

c) La variable "mode de garde" n'est a priori pas ordonnée. On ne peut donc pas parler de
tendance.
Si on considère cependant qu'elle représente des conditions où la proximité d'autres enfants (qui
sont des porteurs potentiels) est de plus en plus importante, alors on peut parler de tendance.
Dans ce cas, il n'est pas nécessaire de faire un test de tendance supplémentaire. En effet,
l'analyse de la variance est déjà significative et les moyennes sont ordonnées de façon croissante
selon les modes de garde.

5. a) Les hypothèses à tester sont : H0 : P1 = P2 = P3 ; et H1 : il y a au moins une différence où Pi


est le pourcentage vrai de portage de Moraxella dans la catégorie i mode de garde.
Le tableau de χ2 correspondant, que l'on peut reconstituer à partir du tableau 2 de l'énoncé, est le
suivant :
Mode de garde
Domicile Nourrice Crèche
Non 31 40 40 111
Portage de (27,9) (36,7) (46,3)
Moraxella 4 6 18 28
Oui
(7,1) (9,3) (11,7)
35 46 58 139

Les conditions d’application du test de χ2 sont satisfaites puisque tous les effectifs théoriques
(entre parenthèses) sont supérieurs à 5. On obtient :
(31" 27,9)2 (18 " 11,7)2
!02 = + ... + = 7,37
27,9 11,7
La valeur de !02 étant supérieure à la valeur seuil de la loi de χ2 à 2 ddl (5,99), on rejette H0. On
conclut que le pourcentage de portage de Moraxella n'est pas le même selon le mode de garde.
Le degré de signification est p < 0,05
Remarque : le degré de signification est très proche de 0,025, la valeur seuil correspondante étant
7,38. Une table plus précise indique d'ailleurs que p = 0,0251.

b) La réponse à la question précédente permet un "jugement de signification". C'est-à-dire qu'il


permet de conclure (avec le risque d'erreur ! = 5% ) que les différences observées de taux de
portage de Moraxella selon le mode de garde ne peuvent pas s'expliquer par le hasard des

Master de Santé Publique - 2012-2013 4


Unité d'Enseignement de biostatistiques - Examen du 21 janvier 2013 - Corrigé
fluctuations d'échantillonnage, mais correspondent à des différences de taux vrais de portage.
Ce n'est cependant pas un "jugement de causalité". On ne peut pas conclure que les différences
de taux de portage sont dues au mode de garde (que ce soit la crèche ou un autre). Il s'agit en
effet d'une enquête d'observation et on ne peut pas exclure que d'autres sources de différences
que le mode de garde existe entre les enfants comparés.

6. a) Les hypothèses à tester s'écrivent : H0 : P1= P2 et H1 : P1 ≠ P2 où P1 et P2 sont les


pourcentages vrais de portage de Moraxella pour les laboratoires 1 et 2. Comme ce sont les
mêmes prélèvements qui ont été analysés par les deux laboratoires, il s'agit de données
appariées.
Les résultats peuvent être résumés dans le tableau ci-dessous où + et – indiquent le portage et le
non portage.

Laboratoire 1 Laboratoire 2 Nombre de


dosages
+ + 16
+ - 14 = a
- + 5=b
- - 65
Total 100

a+b
Comme ! 5 , les conditions d'application du test de séries appariées sont satisfaites et on
2

(b " c )
2
92
obtient : ! 2
= = 4,26 =
o
b+c 19
La valeur obtenue étant supérieure à la valeur seuil de la loi de χ2 à 1 ddl (3,84), le test est
significatif. On rejette Ho et on conclut que les taux de portage sont différents entre les deux
laboratoires. Le degré de signification est p < 5%. On observe que la différence est dans le sens
d'un taux de portage plus grand dans les analyses du laboratoire 1.

Remarque : on peut préciser le degré de signification en tenant compte du fait que pour un ! 2 à 1 ddl,
on a Z = ! 2 . En prenant 2,26 = 2,06 , et en utilisant la table de la loi normale, on trouve p<4%

b) Les données à analyser sont les mêmes que pour la question précédente, mais les hypothèses
testées sont différentes. Elles s'écrivent ici : H0 : P'1= P'2 et H1 : P'1 ≠ P'2 où P'1 et P'2 sont les
pourcentages vrais de portage de Moraxella pour le laboratoire 2 lorsque le laboratoire 1 a conclu
portage ou non portage. Il s'agit donc de comparer des pourcentages sur deux échantillons
différents et indépendants : les prélèvements positifs avec le laboratoire 1 d'un côté et ceux
négatifs avec le laboratoire 1 de l'autre. Le test est un test de χ2 "habituel" (il n'y a pas
d'appariement dans ce cas).
Le tableau de χ2 correspondant est le suivant :
Laboratoire 1
Portage Non portage
Portage 16 5 21
(6,3) (14,7)
Laboratoire 2
Non portage 14 65 79
(23,7) (55,3)
30 70 100

Master de Santé Publique - 2012-2013 5


Unité d'Enseignement de biostatistiques - Examen du 21 janvier 2013 - Corrigé
Les conditions d’application du test de χ2 sont satisfaites puisque les effectifs théoriques (entre
parenthèses) sont tous supérieurs à 5. On obtient donc :
(16 " 6,3)2 (5 " 14,7)2 (14 " 23,7)2 (65 " 55,3)2
!02 = + + + = 27,01
6,3 14,7 23,7 55,3
La valeur obtenue étant supérieure à la valeur seuil de la loi de χ2 à 1 ddl (3,84), le test est
significatif. On rejette Ho et on conclut que les taux de portage du laboratoire 2 sont différents
selon que le laboratoire 1 a conclu portage ou non portage. Il y a donc un lien entre les résultats
des deux laboratoires. Le degré de signification est p < 1‰. On observe que le lien est dans le
sens "concordance", c'est-à-dire que le laboratoire 2 conclut plus souvent "portage" quand le
laboratoire 1 a conclu "portage" que quand le laboratoire 1 a conclu "non portage".
Remarque : C'est d'une certaine manière un résultat attendu, ou du moins espéré car les laboratoires
sont sensés doser la même chose ...

c) Dire qu'un laboratoire est "meilleur" que l'autre signifie que ses résultats sont plus proches de la
vérité, c'est-à-dire ici du portage ou non de Moraxella. Or, cette vérité, on ne la connait pas. Il n'est
donc pas sûr que ce soit le laboratoire avec le plus fort taux de portage qui soit le meilleur (ni
l'inverse d'ailleurs). On ne peut pas répondre à la question sans connaître la réalité du portage.

d) Le test qui doit être utilisé pour comparer les moyennes des leucocytes entre les deux
laboratoires est un test de séries appariées.
Les hypothèses testées sont : H0 : µ1 = µ2 et H1 : µ1 ≠ µ2, où µ1 et µ2 sont les moyennes vraies des
leucocytes dans les laboratoires 1 et 2.
Dans le cas de données appariées, on sait que ces hypothèses doivent s'écrire : H0 : µd = 0 et H1 :
µd ≠ 0, où µd est la moyenne vraie de la différence entre le nombre de leucocytes avec les
laboratoires 1 et 2. Il s'agit donc de comparer une moyenne à une valeur théorique (ici 0).
$
La formule à utiliser pour calculer la puissance est donc : z1!" = z #/2 !
%2
n
On a ici : n=100 ; z !/2 = 1,96 ; ! = 1 (puisque les leucocytes sont mesurés en milliers par mm3. On
ne connait pas ! 2 , on prendra comme approximation la valeur observée sur l'échantillon :
! 2 = 8,53 .
$ 1
On obtient ainsi : z1!" = z #/2 ! = !1,46 d'où 1! " = 0,93 .
= 1,96 !
% 2
8,53
n 100
On avait donc une très bonne puissance (93%) pour mettre en évidence une différence moyenne
de 1000 leucocytes par mm3 entre les deux laboratoires. Le test étant non significatif, on peut donc
conclure, avec un risque d'erreur de 7%, que la différence entre les laboratoires est inférieure à
cette valeur de 1000 leucocytes par mm3.
Remarque : le calcul précédent s'appelle souvent un calcul de puissance a posteriori. Il faut
cependant bien comprendre que ce qui est pris a posteriori ce sont les conditions de réalisation
réelles de la comparaison : nombre de sujets, variances des quantités comparées. En aucun cas,
! n'est déterminé a posteriori. ! doit rester la différence pertinente à mettre en évidence; elle est
déterminée par l'expérimentateur selon ses connaissances de la question et n'a aucune raison d'être
égale à la différence observée sur l'échantillon (ici 0,33).

Master de Santé Publique - 2012-2013 6


Unité d'Enseignement de biostatistiques - Examen du 21 janvier 2013 - Corrigé
Histogramme des notes

nombre de copies : 115


moyenne : 10
notes supérieures à 10 : 54%

Master de Santé Publique - 2012-2013 7


Unité d'Enseignement de biostatistiques - Examen du 21 janvier 2013 - Corrigé

Vous aimerez peut-être aussi