Académique Documents
Professionnel Documents
Culture Documents
Les pédiatres d'une ville de taille moyenne ont enregistré pendant un an les caractéristiques des
139 enfants de 1 à 2 ans ayant consulté pour une otite. L'intérêt a notamment porté sur la
température de l'enfant au moment de la consultation, son mode de garde, et un prélèvement
nasal a été effectué pour déterminer le type de bactérie responsable de l'otite. On s'intéressera ici
à la bactérie Moraxella Catarrhalis (appelée dans la suite Moraxella). Lorsque l'analyse du
prélèvement révèle sa présence, l'enfant est dit porteur.
Une partie des résultats de cette enquête figure dans les tableaux 1 à 3 à la fin de l'énoncé.
1. Quel est l'âge moyen des enfants (et son intervalle de confiance) selon qu'ils sont porteurs ou
pas de Moraxella ?
2. a) Quelle est la fréquence du portage de Moraxella et son intervalle de confiance parmi les
enfants dont la température est supérieure à 39°C ?
b) Quelle est la fréquence du portage de Moraxella et son intervalle de confiance parmi les enfants
dont la température est supérieure à 40°C ?
c) Pensez-vous que les deux fréquences précédentes peuvent être extrapolées à la population de
l'ensemble des enfants entre 1 et 2 ans ayant une otite ?
3. a) Y a-t-il un lien entre le fait d'avoir une température supérieure à 39°C et le portage de
Moraxella ?
b) La fréquence du portage de Moraxella est-elle différente entre les enfants dont la température
est supérieure à 39°C et ceux dont la température est supérieure 40°C ?
6. Pour 100 des enfants, une prise de sang a été effectuée, qui permet en particulier de connaître
le nombre de leucocytes. Ces prises de sang, ainsi que les prélèvements nasaux, ont tous été
analysés par 2 laboratoires de biologie différents. Les résultats figurent dans le tableau 3.
a) Les taux de portage de Moraxella sont-ils différents entre les deux laboratoires ?
Master de Santé Publique - 2012-2013 1
Unité d'Enseignement de biostatistiques - Examen du 21 janvier 2013
b) Y a-t-il un lien entre les résultats des deux laboratoires pour le portage de Moraxella ?
c) Y a-t-il un laboratoire meilleur que l'autre ?
d) On peut montrer que les nombres de leucocytes par mm3 ne sont pas significativement
différents entre les deux laboratoires (on ne vous demande pas de faire le test). Quelle puissance
avait-on pour mettre en évidence une différence moyenne de 1000 leucocytes par mm3 entre les
deux laboratoires ?
Tableau 2 : Age, température et portage de Moraxella selon le mode de garde des enfants
Mode de garde
Domicile Nourrice Crèche
Effectif 35 46 58
Age (en mois) m=16,8 ; s2=11,6 m=18,1 ; s2=9,4 m=19,0 ; s2=8,6
Température ≥ 39°C 42,9% 34,8% 43,1%
Portage de Moraxella 4 6 18
Tableau 3 : Résultats des analyses pour 100 enfants par 2 laboratoires différents
a) Portage de Moraxella
Portage de Moraxella
pour le 1er laboratoire
oui non
Portage de Moraxella oui 16 5
pour le 2ème laboratoire non 14 65
1. Les moyennes m1 et m0 de l'âge des enfants selon qu'ils sont porteurs ou non de Moraxella sont
données dans le tableau 1. Ce tableau donne aussi les variances, ce qui permet de calculer les
intervalles de confiance des moyennes vraies correspondantes.
§ pour les non porteurs de Moraxella
Puisque la taille de l'échantillon d'enfants non porteurs de Moraxella est supérieure à 30,
l'intervalle de confiance de la moyenne l'âge est donné, sans autre condition d'application, par :
s2 10,4
m ± z !/2 = 18,0 ± 1,96 = "17,4;18,6 $% pas de condition d'application
n 111 #
2. a) Parmi les enfants dont la température est supérieure à 39°C, la fréquence du portage de
13
Moraxella se déduit des données du tableau 1 : p0 = = 0,23
56
p o qo 0,23 " 0,77
L'intervalle de confiance est donné par : po ± z !/2 = 0,23 ± 1,96 = #$0,12 ; 0,34 %& On
n 56
vérifie a posteriori que les conditions d'application sont satisfaites : npi, nps, nqi et nqs sont
supérieurs à 5 (la plus petite valeur vaut 56 ! 0,12 = 6,72 .
Remarque : On peut aussi utiliser la table pour petits échantillons qui donne les résultats jusqu'à
n=100. On obtient : [0,1298 ; 0,3642] ≈ [0,13 ; 0,36].
On constate que le résultat est différent du précédent. Si on doit choisir, l'intervalle donné par la table
est le meilleur car il ne souffre pas de l'approximation de la loi binomiale par la loi normale.
L'importance de la différence s'explique par le fait que la taille de l'échantillon reste modérée même si
les conditions d'application sont satisfaites (npi n'est que peu supérieur à 5). La différence entre les
deux intervalles de confiance reste cependant limité au regard de leur largeur.
b) La fréquence du portage de Moraxella parmi les enfants dont la température est supérieure à
1
39°C, se déduit aussi des données du tableau 1 : p'0 = = 0,17 .
6
Pour calculer l'intervalle de confiance, on ne peut pas utiliser la formule "habituelle" car on sait
d'emblée que les conditions d'applications ne sont pas satisfaites. En effet, np'0 = 1 est inférieur à
5, et donc npi, si on le calculait, serait a fortiori inférieur à 5. Il faut donc utiliser la table pour petits
échantillons qui donne [0,0042 ; 0,6412] ≈ [0 ; 0,64].
Les conditions d’application du test de χ2 sont satisfaites puisque les effectifs théoriques (entre
parenthèses) sont tous supérieurs à 5. On obtient donc :
(68 " 66,3)2 (43 " 44,7)2 (15 " 16,7)2 (13 " 11,3)2
!02 = + + + = 0,55
66,3 44,7 16,7 11,3
La valeur obtenue étant inférieure à la valeur seuil de la loi de χ2 à 1 ddl (3,84), le test est non
significatif. On ne rejette pas Ho. On ne met donc pas en évidence de différence entre les taux de
portage de Moraxella selon que la température est inférieure ou supérieure à 39°C.
b) Les taux de portages de Moraxella sont égaux à 23% et 17% selon que la température est
supérieure à 39°C ou à 40°C. On ne peut cependant pas les comparer car les enfants de la 2ème
catégorie sont tous inclus dans la 1ère.
Remarque : une façon de répondre à la question (ou du moins à une question proche) serait de
comparer les taux de portage chez les enfants dont la température est comprise entre 39°C et 40°C et
2
chez ceux dont la température est supérieure à 40°C. Le tableau de χ correspondant peut être
reconstitué à partir du tableau 1.
39≤Temp<40 Temp≥40
38 5
Non 43
Portage de (38,4) (4,6)
Moraxella 12 1
Oui 13
(11,6) (1,4)
50 6 56
Les effectifs sont trop petits, même pour appliquer la correction de Yates. On ne peut donc pas
conclure avec les méthodes du cours. Le test de Fisher pour les très petits échantillons donnerait un
résultat non significatif.
Master de Santé Publique - 2012-2013 2
Unité d'Enseignement de biostatistiques - Examen du 21 janvier 2013 - Corrigé
4. a) Les hypothèses testées sont : H0 : µ1 = µ2 et H1 : µ1 ≠ µ2, où µ1 et µ2 sont les moyennes
vraies de l'âge selon que les enfants sont non porteurs ou porteurs de Moraxella.
Le nombre de non porteurs étant inférieur à 30, il faut utiliser le test de Student qui nécessite que
les distributions de l'âge soient normales et de même variances. On peut vérifier l'hypothèse
s12 10,4
d'égalité des variances en calculant F0 = 2
= = 1,06 qu'il faut comparer à la valeur seuil à
s 2
9,8
110
2,5% de F27 qui est comprise entre 1,84 et 2,02. La différence entre les variances est donc non
significative. D'un point de vue pratique, on peut admettre que cette condition d'application du test
de Student est satisfaite.
m1 ! m2
Le test de Student s'écrit : t 0 = .
2 1 1
s ( + )
n1 n2
Les éléments de calcul nécessaires pour établir le tableau d’analyse de la variance sont les
suivants :
• m=
!nm i i
=
35 " 16,8+46 " 18,1+58 " 19,0
= 18,148
n 139
• ! n m = 35 " 16,8 +46 " 18,1 +58 " 19,0 = 45886,46
j
2
j
2 2 2
2
F0 doit être comparé à la valeur seuil lue pour 5% dans la table F136 . Cette valeur seuil est
2 2
comprise entre celles de F100 (3,09) et de F200 (3,04). On rejette donc H0. On met en évidence une
différence entre les âges moyens des enfants selon le mode de garde. Le degré de signification
est p < 1%.
c) La variable "mode de garde" n'est a priori pas ordonnée. On ne peut donc pas parler de
tendance.
Si on considère cependant qu'elle représente des conditions où la proximité d'autres enfants (qui
sont des porteurs potentiels) est de plus en plus importante, alors on peut parler de tendance.
Dans ce cas, il n'est pas nécessaire de faire un test de tendance supplémentaire. En effet,
l'analyse de la variance est déjà significative et les moyennes sont ordonnées de façon croissante
selon les modes de garde.
Les conditions d’application du test de χ2 sont satisfaites puisque tous les effectifs théoriques
(entre parenthèses) sont supérieurs à 5. On obtient :
(31" 27,9)2 (18 " 11,7)2
!02 = + ... + = 7,37
27,9 11,7
La valeur de !02 étant supérieure à la valeur seuil de la loi de χ2 à 2 ddl (5,99), on rejette H0. On
conclut que le pourcentage de portage de Moraxella n'est pas le même selon le mode de garde.
Le degré de signification est p < 0,05
Remarque : le degré de signification est très proche de 0,025, la valeur seuil correspondante étant
7,38. Une table plus précise indique d'ailleurs que p = 0,0251.
a+b
Comme ! 5 , les conditions d'application du test de séries appariées sont satisfaites et on
2
(b " c )
2
92
obtient : ! 2
= = 4,26 =
o
b+c 19
La valeur obtenue étant supérieure à la valeur seuil de la loi de χ2 à 1 ddl (3,84), le test est
significatif. On rejette Ho et on conclut que les taux de portage sont différents entre les deux
laboratoires. Le degré de signification est p < 5%. On observe que la différence est dans le sens
d'un taux de portage plus grand dans les analyses du laboratoire 1.
Remarque : on peut préciser le degré de signification en tenant compte du fait que pour un ! 2 à 1 ddl,
on a Z = ! 2 . En prenant 2,26 = 2,06 , et en utilisant la table de la loi normale, on trouve p<4%
b) Les données à analyser sont les mêmes que pour la question précédente, mais les hypothèses
testées sont différentes. Elles s'écrivent ici : H0 : P'1= P'2 et H1 : P'1 ≠ P'2 où P'1 et P'2 sont les
pourcentages vrais de portage de Moraxella pour le laboratoire 2 lorsque le laboratoire 1 a conclu
portage ou non portage. Il s'agit donc de comparer des pourcentages sur deux échantillons
différents et indépendants : les prélèvements positifs avec le laboratoire 1 d'un côté et ceux
négatifs avec le laboratoire 1 de l'autre. Le test est un test de χ2 "habituel" (il n'y a pas
d'appariement dans ce cas).
Le tableau de χ2 correspondant est le suivant :
Laboratoire 1
Portage Non portage
Portage 16 5 21
(6,3) (14,7)
Laboratoire 2
Non portage 14 65 79
(23,7) (55,3)
30 70 100
c) Dire qu'un laboratoire est "meilleur" que l'autre signifie que ses résultats sont plus proches de la
vérité, c'est-à-dire ici du portage ou non de Moraxella. Or, cette vérité, on ne la connait pas. Il n'est
donc pas sûr que ce soit le laboratoire avec le plus fort taux de portage qui soit le meilleur (ni
l'inverse d'ailleurs). On ne peut pas répondre à la question sans connaître la réalité du portage.
d) Le test qui doit être utilisé pour comparer les moyennes des leucocytes entre les deux
laboratoires est un test de séries appariées.
Les hypothèses testées sont : H0 : µ1 = µ2 et H1 : µ1 ≠ µ2, où µ1 et µ2 sont les moyennes vraies des
leucocytes dans les laboratoires 1 et 2.
Dans le cas de données appariées, on sait que ces hypothèses doivent s'écrire : H0 : µd = 0 et H1 :
µd ≠ 0, où µd est la moyenne vraie de la différence entre le nombre de leucocytes avec les
laboratoires 1 et 2. Il s'agit donc de comparer une moyenne à une valeur théorique (ici 0).
$
La formule à utiliser pour calculer la puissance est donc : z1!" = z #/2 !
%2
n
On a ici : n=100 ; z !/2 = 1,96 ; ! = 1 (puisque les leucocytes sont mesurés en milliers par mm3. On
ne connait pas ! 2 , on prendra comme approximation la valeur observée sur l'échantillon :
! 2 = 8,53 .
$ 1
On obtient ainsi : z1!" = z #/2 ! = !1,46 d'où 1! " = 0,93 .
= 1,96 !
% 2
8,53
n 100
On avait donc une très bonne puissance (93%) pour mettre en évidence une différence moyenne
de 1000 leucocytes par mm3 entre les deux laboratoires. Le test étant non significatif, on peut donc
conclure, avec un risque d'erreur de 7%, que la différence entre les laboratoires est inférieure à
cette valeur de 1000 leucocytes par mm3.
Remarque : le calcul précédent s'appelle souvent un calcul de puissance a posteriori. Il faut
cependant bien comprendre que ce qui est pris a posteriori ce sont les conditions de réalisation
réelles de la comparaison : nombre de sujets, variances des quantités comparées. En aucun cas,
! n'est déterminé a posteriori. ! doit rester la différence pertinente à mettre en évidence; elle est
déterminée par l'expérimentateur selon ses connaissances de la question et n'a aucune raison d'être
égale à la différence observée sur l'échantillon (ici 0,33).