Académique Documents
Professionnel Documents
Culture Documents
STATISTICAL TESTS : VALUE, PRINCIPLE, AND INTERPRETATION ABSTRACT Comparison of data groups requires the use of statistical tests. This art i cle utilizes an example taken from the R evue Mdicine Tropicale to illustrate the value of statistical testing as well as an interp re t ation of the pro b ability value p associated with test results. KEY WORDS Statistics - Data interp retation.
ans un art i cle paru dans un prcdent nu m ro de la revue Mdecine Tropicale (Fargier et Coll - Med Trop 1999 ; 59 : 151-156), les auteurs ont compar, sur un chantillon de 84 personnes, lefficacit de lartmther et de la quinine dans le traitement du paludisme grave Plasmodium falciparum. Le critre de jugement de lefficacit tait le temps moyen de disparition de la parasitmie. Ce dernier tait de 35 heure s avec lartmther et de 42 heures avec la quinine. La diffrence tait significative (p = 0,0004). Les auteurs ont par ailleurs tudi le temps de normalisation de la conscience. Il tait de 31,2 heures sous artmther et de 30 heures sous quinine. Cette diffrence tait non significative (p = 0,6). Pourquoi les auteurs ont-ils utilis un test statistique ? Que signifie la valeur de p ? En nous appuyant sur les rsultats de ltude de Fargier et al. nous prsentons de faon trs synthtique le principe gnral des tests statistiques ainsi quune interp r t ation de la valeur de la probabilit p associe aux conclusions de ces tests.
heures. Si lon avait ralis ltude sur un autre chantillon issu de la mme population de malades, le temps de disparition de la parasitmie aurait probablement t diffrent. Lcart entre le temps de disparition de la parasitmie observ sur un chantillon et sa vraie valeur dans la population est li aux fluctuations dchantillonnage. En raison de ces fluctuations, il est impossible de connatre la vraie valeur du temps de disparition de la parasitmie sous artmther ou sous quinine. On ne peut donc rpondre avec certitude la question : lartmther est-il plus efficace que la quinine ? Nanmoins, la rponse cette question peut tre apporte par lutilisation dun test statistique avec un risque derreur connu.
R. Michel et Collaborateurs
La dmarche adopte dans les tests statistiques peut tre rsume en quatre tapes successives. Il sagit de (i) noncer lhypothse nulle, (ii) dterminer la vraisemblance de notre observation sous cette lhypothse, (iii) choisir un seuil de dcision et (iv) dfinir une rgle de dcision.
COMMENT INTERPRETER LES RESULTATS DUN TEST STATISTIQUE ? Interprter une diffrence significative p < 0,05
Rejeter H0 consiste dire que, si les deux traitements avaient la mme efficacit, la probabilit dobserver, sur un chantillon, une diffrence au moins gale celle observ est trop faible. Dans notre exemple, p = 0,0004. Cela signifie que si l a rtmther et la quinine avaient la mme efficacit, la probabilit dobserver, dans notre chantillon un cart de clairance dau moins 7 heures serait de 4 sur 10 000. Cette probabilit tant infrieure au seuil de signification a fix 5 pour 100, on rejette H0 et lon dit que la diffrence observe est statistiquement significative. Le degr de signification p est ici de 4 pour 10 000.
une
diff rence
non
H0 ne peut tre rejete. Nous navons pas mis en vidence de diffrence significative au risque a. La diffrence o b s e rve sur les donnes des chantillons peut tre explique par les fluctuations dchantillonnage. Dans larticle de Fargier et Coll, le temps de normalisation de la conscience tait de 31,2 heures sous artmther et de 30 heures sous quinine. La valeur de p tait de 0,6. Cette diffrence tait donc non significative. Cela signifie que si, le temps de normalisation de la conscience tait le mme sous artmther et sous quinine, la probabilit dobtenir, du simple fait du hasard, un cart au moins aussi grand que celui observ dans lchantillon (31,2-30 = 1,2 heures) serait de 60 chances sur 100. Cette probabilit tant suprieure au seuil de signification a fix 5 pour 100, la diffrence observe dans lchantillon tait juge non significative. Attention, cela ne veut pas dire quil nexiste pas de diff rence en ralit mais seulement que lon na pas observ de diffrence ! La comparaison des donnes observes sur lch a ntillon comporte le risque de conclure tort que le temps de normalisation de la conscience est le mme sous artmther et sous quinine. Ce risque appel risque b correspond un manque de puissance du test, cest dire une incapacit montrer que H0 est fausse. La quantit (1 - b) mesure la capacit dun test mettre en vidence une diff rence lorsque celle-ci existe vra iment. Cette quantit est appele puissance du test. La puissance dun test peut tre compare celle dune loupe : si on peroit un signe, on peut affirmer son existence ; si on ne le peroit pas, on ne peut pas affirmer quil nexiste pas, peut tre serait-il perceptible avec une loupe plus puissante (D. Schwartz). La puissance tant en partie lie au nombre de sujets, elle peut tre amliore en augmentant les effectifs dun chantillon. Ltude a t mene sur 84 dossiers. Linclusion dun plus grand nombre de patients aurait permis daugmenter la puissance du test et peut tre de mettre en vidence une diffrence entre le temps de normalisation de la conscience sous artmther et sous quinine.
Les fluctuations dchantillonnage rendent impossibl e la comparaison de donnes observes sur des chantillons sans lutilisation dun test stat i s t i q u e. Ces tests comportent un risque de concl u re tort quune diff rence nexiste pas. Ils comportent galement le risque de ne pas mettre en vidence une diffrence qui existe en raison dun manque de puissance. Cependant, la plupart des tudes tant ralises sur des ch a ntillons, les tests statistiques sont des outils incontourn ables ds lors que lon veut comparer des donnes observes I
cet ouvrage se propose de rendre attractives et comprhensibles les disciplines de la statistique et de lpidmiologie pour les tudiants en sciences de la sant mais aussi pour les professionnels. Il met laccent sur la comprhension des principes fondamentaux grce auxquels il devient possible, partir de nombreux exemples et exercices, dutiliser les tests statistiques les plus appropris une recherche, de conduire une enqute pidmiologique. Le livre est divis en quatre parties. La premire partie tudie les outils servant dcrire les donnes. La deuxime aborde les mthodes destimation dun paramtre inconnu partir dun chantillon. La troisime partie concerne lemploi des tests statistiques. La quatrime partie est oriente vers les concepts statistiques utiliss en pidmiologie de terrain. Lambition de cet ouvrage est de fournir au lecteur une aide pratique et lui communiquer lenvie dapprofondir les notions de statistique et dpidmiologie quil aura entrevues.