Vous êtes sur la page 1sur 3

Technique LES TESTS STATISTIQUES : INTERET, PRINCIPE ET INTERPRETATIONS

R. MICHEL, L. OLLIVIER-GAY, A. SPIEGEL, J-P. BOUTIN

Med Trop 2002 ; 62 : 561-563


RESUME La comparaison de donnes observes sur des chantillons ncessite lutilisation des tests statistiques. Dans cet article sont prsents, laide dun exemple pris dans la revue Mdecine Tropicale, lintrt dutiliser les tests statistiques, le principe gnral de ces tests ainsi quune interprtation de la valeur de la probabilit p associe aux conclusions de ces tests. MOTS-CLES Statistics - Data interpretation.

STATISTICAL TESTS : VALUE, PRINCIPLE, AND INTERPRETATION ABSTRACT Comparison of data groups requires the use of statistical tests. This art i cle utilizes an example taken from the R evue Mdicine Tropicale to illustrate the value of statistical testing as well as an interp re t ation of the pro b ability value p associated with test results. KEY WORDS Statistics - Data interp retation.

ans un art i cle paru dans un prcdent nu m ro de la revue Mdecine Tropicale (Fargier et Coll - Med Trop 1999 ; 59 : 151-156), les auteurs ont compar, sur un chantillon de 84 personnes, lefficacit de lartmther et de la quinine dans le traitement du paludisme grave Plasmodium falciparum. Le critre de jugement de lefficacit tait le temps moyen de disparition de la parasitmie. Ce dernier tait de 35 heure s avec lartmther et de 42 heures avec la quinine. La diffrence tait significative (p = 0,0004). Les auteurs ont par ailleurs tudi le temps de normalisation de la conscience. Il tait de 31,2 heures sous artmther et de 30 heures sous quinine. Cette diffrence tait non significative (p = 0,6). Pourquoi les auteurs ont-ils utilis un test statistique ? Que signifie la valeur de p ? En nous appuyant sur les rsultats de ltude de Fargier et al. nous prsentons de faon trs synthtique le principe gnral des tests statistiques ainsi quune interp r t ation de la valeur de la probabilit p associe aux conclusions de ces tests.

heures. Si lon avait ralis ltude sur un autre chantillon issu de la mme population de malades, le temps de disparition de la parasitmie aurait probablement t diffrent. Lcart entre le temps de disparition de la parasitmie observ sur un chantillon et sa vraie valeur dans la population est li aux fluctuations dchantillonnage. En raison de ces fluctuations, il est impossible de connatre la vraie valeur du temps de disparition de la parasitmie sous artmther ou sous quinine. On ne peut donc rpondre avec certitude la question : lartmther est-il plus efficace que la quinine ? Nanmoins, la rponse cette question peut tre apporte par lutilisation dun test statistique avec un risque derreur connu.

LARTEMETHER EST-IL PLUS EFFICACE QUE LA QUININE ?


Fargier et Coll ont utilis ici le test t de Student. Il existe de nombreux tests statistiques ayant chacun leurs indications et leurs contre - i n d i c ations. Le choix du test est guid par la nat u re des donnes comparer (proportions, moyennes, etc.) et la ncessit de respecter ses conditions dutilisation. Cependant, quel que soit le test utilis, les tap e s et linterprtation des rsultats sont les mmes. Le principe gnral de tous les tests statistiques est un raisonnement par labsurde. En effet, pour dterminer sil existe une diffrence defficacit entre les deux traitements, on suppose quil ny a pas de diff rence (cette hypothse est appele hypothse nulle). On calcule alors la pro b abilit dobs e rver les rsultats obtenus sous cette hypothse. Si cette probabilit est infrieure un seuil fix au dpart (en gnral 5 pour 100) on rejettera lhypothse nulle.

POURQUOI UTILISER UN TEST STATISTIQUE ?


Un chantillon, mme tir au sort, nest pas le reflet exact de la population dont il est issu. Ici, le temps moyen de disparition de la parasitmie sous artmther tait de 35
Travail du Service de mdecine des collectivits (R.M., L.O. G. , Assistants des hpitaux des armes ; A.S.et J-P.B., Professeurs agrgs du SSA), Institut de Mdecine Tropicale du Service de Sant des Armes, Marseille, France C o rrespondance : R. MICHEL, Service de Mdecine des collectivits, Institut de Mdecine Tropicale du Service de Sant des Armes, Marseille, France Fax: +33 (0) 4 91 52 26 07 e-mail : medco.imtssa@wanadoo.fr Article sollicit.

Mdecine Tropicale 2002 62 5 561

R. Michel et Collaborateurs

La dmarche adopte dans les tests statistiques peut tre rsume en quatre tapes successives. Il sagit de (i) noncer lhypothse nulle, (ii) dterminer la vraisemblance de notre observation sous cette lhypothse, (iii) choisir un seuil de dcision et (iv) dfinir une rgle de dcision.

COMMENT INTERPRETER LES RESULTATS DUN TEST STATISTIQUE ? Interprter une diffrence significative p < 0,05
Rejeter H0 consiste dire que, si les deux traitements avaient la mme efficacit, la probabilit dobserver, sur un chantillon, une diffrence au moins gale celle observ est trop faible. Dans notre exemple, p = 0,0004. Cela signifie que si l a rtmther et la quinine avaient la mme efficacit, la probabilit dobserver, dans notre chantillon un cart de clairance dau moins 7 heures serait de 4 sur 10 000. Cette probabilit tant infrieure au seuil de signification a fix 5 pour 100, on rejette H0 et lon dit que la diffrence observe est statistiquement significative. Le degr de signification p est ici de 4 pour 10 000.

Enoncer lhypothse nulle


Pour dterminer si lartmther est plus efficace que la quinine dans le traitement du paludisme grave Plasmodium falciparum, on va poser comme hypothse quil nexiste pas de diff rence defficacit entre ces deux tra itements. Cette hypothse appele hypothse nulle est note H0 (lire H zro). L hypothse altern at ive est note H1 ( l i re H un). Les auteurs ont ralis un test unilat ral. Lhypothse alternative est : l a rtmther est plus efficace que la quinine dans le traitement du paludisme grave Plasmodium fa l c i p a rum. Lorsque lon veut tester lefficacit ou la tolra n c e dun nouveau mdicament, on veut savoir sil est meilleur que les traitements dj disponibles. Il est donc intre s s a n t dutiliser un test unilat ral. Il tait cependant possible de raliser un test bilat ral. L hypothse altern ative aurait t : lefficacit de lartmther dans le traitement du paludisme grave Plasmodium fa l c i p a rum est diff rente de celle de la q u i n i n e.

Comment interprter significative p 0,05 ?

une

diff rence

non

Dterminer la vraisemblance de notre observation sous lhypothse nulle


La vraisemblance de notre observation sous lhypothse nulle est mesure par la valeur de la probabilit p calcule partir du rsultat du test statistique et dont nous ne dtaillerons pas ici les calculs. La probabilit p est appele degr de signification. Elle indique la probabilit dobtenir dans lchantillon un cart dau moins 7 heures si lartmther (35 heures) et la quinine (42 heures) avaient la mme efficacit.

Choisir un seuil de dcision


Comme toute dcision fonde sur les observations dun chantillon, et quelque soit le test utilis, la conclusion dun test statistique comporte un risque derreur. Le risque a, encore appel seuil de dcision ou seuil de signification, est le risque de rejeter lhypothse H0 alors que celle-ci est vra i e. Cest ici le risque de concl u re tort que lartmther est plus efficace que la quinine. Dans le domaine biomdical, on fixe habituellement la valeur du risque a 5 pour 100 (a = 0,05) mais il ne sagit que dun risque derreur acceptable par convention qui peut tre modifi selon le type ou les objectifs de ltude.

Dfinir une rgle de dcision


Dans notre exemple le seuil de signifi c ation a a t fix 5 pour 100. Si la valeur de p est infri e u re 5 pour 100, on re j e t t e ra lhypothse nu l l e. En reva n ch e, si elle lui est supri e u re ou ga l e, on ne re j e t t e ra pas lhy p o t h s e nu l l e.

H0 ne peut tre rejete. Nous navons pas mis en vidence de diffrence significative au risque a. La diffrence o b s e rve sur les donnes des chantillons peut tre explique par les fluctuations dchantillonnage. Dans larticle de Fargier et Coll, le temps de normalisation de la conscience tait de 31,2 heures sous artmther et de 30 heures sous quinine. La valeur de p tait de 0,6. Cette diffrence tait donc non significative. Cela signifie que si, le temps de normalisation de la conscience tait le mme sous artmther et sous quinine, la probabilit dobtenir, du simple fait du hasard, un cart au moins aussi grand que celui observ dans lchantillon (31,2-30 = 1,2 heures) serait de 60 chances sur 100. Cette probabilit tant suprieure au seuil de signification a fix 5 pour 100, la diffrence observe dans lchantillon tait juge non significative. Attention, cela ne veut pas dire quil nexiste pas de diff rence en ralit mais seulement que lon na pas observ de diffrence ! La comparaison des donnes observes sur lch a ntillon comporte le risque de conclure tort que le temps de normalisation de la conscience est le mme sous artmther et sous quinine. Ce risque appel risque b correspond un manque de puissance du test, cest dire une incapacit montrer que H0 est fausse. La quantit (1 - b) mesure la capacit dun test mettre en vidence une diff rence lorsque celle-ci existe vra iment. Cette quantit est appele puissance du test. La puissance dun test peut tre compare celle dune loupe : si on peroit un signe, on peut affirmer son existence ; si on ne le peroit pas, on ne peut pas affirmer quil nexiste pas, peut tre serait-il perceptible avec une loupe plus puissante (D. Schwartz). La puissance tant en partie lie au nombre de sujets, elle peut tre amliore en augmentant les effectifs dun chantillon. Ltude a t mene sur 84 dossiers. Linclusion dun plus grand nombre de patients aurait permis daugmenter la puissance du test et peut tre de mettre en vidence une diffrence entre le temps de normalisation de la conscience sous artmther et sous quinine.

562 Mdecine Tropicale 2002 62 2

Les tests statistiques : intrt, principe et interprtations

Les fluctuations dchantillonnage rendent impossibl e la comparaison de donnes observes sur des chantillons sans lutilisation dun test stat i s t i q u e. Ces tests comportent un risque de concl u re tort quune diff rence nexiste pas. Ils comportent galement le risque de ne pas mettre en vidence une diffrence qui existe en raison dun manque de puissance. Cependant, la plupart des tudes tant ralises sur des ch a ntillons, les tests statistiques sont des outils incontourn ables ds lors que lon veut comparer des donnes observes I

QUELQUES LECTURES CONSEILLEES


1 - GOLDBERG M - Lpidmiologie sans peine. 2e d. Frison Roche ed, Paris, 1998. 2 - SCHWARTZ D - Mthodes statistiques lusage des mdecins et des biologistes. 4e d. Mdecine-Sciences Flammarion ed, Paris, 1996. 3 - BOUYER J - Mthodes statistiques. Mdecine biologi e. 2e d. Les ditions INSERM ed, 1997.

cet ouvrage se propose de rendre attractives et comprhensibles les disciplines de la statistique et de lpidmiologie pour les tudiants en sciences de la sant mais aussi pour les professionnels. Il met laccent sur la comprhension des principes fondamentaux grce auxquels il devient possible, partir de nombreux exemples et exercices, dutiliser les tests statistiques les plus appropris une recherche, de conduire une enqute pidmiologique. Le livre est divis en quatre parties. La premire partie tudie les outils servant dcrire les donnes. La deuxime aborde les mthodes destimation dun paramtre inconnu partir dun chantillon. La troisime partie concerne lemploi des tests statistiques. La quatrime partie est oriente vers les concepts statistiques utiliss en pidmiologie de terrain. Lambition de cet ouvrage est de fournir au lecteur une aide pratique et lui communiquer lenvie dapprofondir les notions de statistique et dpidmiologie quil aura entrevues.

Mdecine Tropicale 2002 62 5 563