Vous êtes sur la page 1sur 8

La Revue de mdecine interne 30 (2009) 242249

Mise au point

La statistique baysienne : une approche des statistiques adapte la clinique Bayesian statistic: An approach tted to clinic
N. Meyer a,b, , S. Vinzio c , B. Goichot c
Ple de sant publique, hospices civils, hpitaux universitaires de Strasbourg, 1, place de lHpital, 67091 Strasbourg, France b Laboratoire de biostatistique, facult de mdecine, 4, rue Kirschleger, 67085 Strasbourg, France c Service de mdecine interne, hpital de Hautepierre, hpitaux universitaires de Strasbourg, 1, rue Molire, 67098 Strasbourg, France Disponible sur Internet le 30 ao ut 2008
a

Rsum La statistique baysienne connat un succs croissant mais encore limit. Ce constat est surprenant car le thorme de Bayes sur lequel repose ce paradigme est trs utilis par les cliniciens. Il existe une connexion directe entre les tests diagnostiques, dusage quotidien, et la statistique baysienne. Ce lien est le thorme de Bayes qui permet de calculer les valeurs prdictives positive ou ngative dun test. Le principe de ce thorme est ici tendu des situations statistiques simples en guise dintroduction la statistique baysienne. La simplicit conceptuelle de la statistique baysienne devrait lui apporter dans lavenir une plus grande acceptation de la part du monde biomdical. 2008 Elsevier Masson SAS. Tous droits rservs. Abstract Bayesian statistic has known a growing success though quite limited. This is surprising since Bayes theorem on which this paradigm relies is frequently used by the clinicians. There is a direct link between the routine diagnostic test and the Bayesian statistic. This link is the Bayes theorem which allows one to compute positive and negative predictive values of a test. The principle of this theorem is extended to simple statistical situations as an introduction to Bayesian statistic. The conceptual simplicity of Bayesian statistic should make for a greater acceptance in the biomedical world. 2008 Elsevier Masson SAS. Tous droits rservs.
Mots cls : Thorme de Bayes ; Tests diagnostiques ; Intervalle de crdibilit ; Distribution a priori Keywords: Bayes theorem; Diagnostic tests; Credibility interval; Prior distribution

1. Position du problme La recherche biomdicale sappuie beaucoup sur la statistique qui permet notamment de comparer leffet de diffrents traitements partir dun chantillon de patients. La statistique est absolument ubiquitaire et actuellement aucun article mdical ne peut tre publi sans quil ne contienne des intervalles de conance, des carts-types ou des tests statistiques avec leur p. Tous ces rsultats sont obtenus avec diffrentes techniques faisant toutes parties de ce que lon appelle la statistique frquentiste. Ces mthodes frquentistes ont t dveloppes

Auteur correspondant. Adresse e-mail : nicolas.meyer@chru-strasbourg.fr (N. Meyer).

essentiellement par Pearson et Fisher au dbut du xxe sicle et laura scientique de ces deux personnes, ainsi quune relative facilit demploi de ces mthodes, ont largement contribu la position ultradominante des mthodes frquentistes dans la littrature mdicale. Il existe cependant des mthodes statistiques alternatives, englobes sous le vocable gnrique de statistique baysienne. Les mthodes baysiennes sont historiquement les premires puisquelles ont t introduites ds le xviiie sicle par Thomas Bayes puis par Pierre Simon de Laplace. Elles sont pourtant restes quasiment inutilises jusqu la n du xxe sicle. Bases sur le thorme de Bayes, elles constituent un cadre thorique permettant de raliser de linfrence statistique [1]. Encore appel thorme des probabilits inverses, le thorme de Bayes permet en effet, partir de donnes observes, de dterminer laquelle

0248-8663/$ see front matter 2008 Elsevier Masson SAS. Tous droits rservs. doi:10.1016/j.revmed.2008.07.004

N. Meyer et al. / La Revue de mdecine interne 30 (2009) 242249

243

parmi plusieurs hypothses concurrentes a le plus probablement gnr les donnes, ce qui dnit linfrence (ou induction) statistique. Ce principe inductif se gnralise dans le cadre de la statistique, dite baysienne. La statistique baysienne connat depuis une vingtaine dannes un regain dintrt, notamment grce lamlioration de certaines techniques de calcul et lapparition de logiciels spcialiss [2]. Si elle domine dans les publications spcialises de biostatistique et se rpand en pidmiologie, elle reste relativement condentielle dans le domaine clinique malgr quelques exemples rcents [38]. Ce constat peut surprendre car le thorme de Bayes est bien connu des cliniciens qui lutilisent, parfois sans le savoir il est vrai, dans le cadre des tests diagnostiques. Rappelons brivement quun test diagnostique est un outil permettant de dterminer si un patient est atteint ou non par une maladie. Le calcul de la valeur prdictive positive (VPP) du test permet, aprs observation du rsultat du test, de dterminer la probabilit que le sujet soit malade. Or, le calcul de la VPP est une application directe du thorme de Bayes [9]. Lobjectif de cette mise au point est dexpliciter le fonctionnement de la statistique baysienne partir de lquivalence existant entre les tests diagnostiques et le raisonnement baysien, puis de montrer son intrt dans le cadre de la recherche biomdicale en gnral. Aprs un rappel sur le test dhypothse nulle et les tests diagnostiques, nous illustrerons par un exemple lintrt des mthodes baysiennes par rapport la mthode frquentiste en terme dinterprtation. 2. La statistique frquentiste et le principe du test dhypothse nulle La statistique frquentiste utilise comme principal outil le test dhypothse nulle (THN). Les principes gnraux de son fonctionnement sont les suivants [10] : pour comparer deux traitements, un traitement de rfrence A et un nouveau traitement B, on utilise souvent comme critre de jugement la diffrence entre les taux de gurison de chaque traitement. On compare donc le taux de gurison TA du traitement A avec le taux de gurison TB du traitement B. On utilise pour cela classiquement un test du khi-carr (2 ) ; en gnral, le but afch de ltude est de montrer la supriorit de lun des deux traitements par rapport lautre. Pour cela, le test dhypothse nulle pose comme hypothse de dpart que les deux traitements ont le mme effet . Cela revient dire que TA = TB . Cela peut tre rexprim en disant que TA TB = 0. Cette hypothse est appele hypothse nulle car elle spcie que la diffrence entre les traitements est nulle ; il faut par ailleurs introduire une hypothse alternative qui est le complment logique de lhypothse nulle. Lhypothse alternative est donc la suivante : la diffrence entre les taux de gurison nest pas nulle (mais lampleur exacte de la diffrence na pas tre prcise). Lide fondamentale ici est que lhypothse nulle est soit vraie, soit fausse et que si elle est fausse, alors cest lhypothse alternative qui est vraie : soit il ny a pas de diffrence entre les deux traitements, soit il y en

a une. Le test dhypothse nulle est une procdure qui permet de dcider laquelle des deux hypothses doit tre retenue, en se basant sur des donnes observes, par exemple, au cours dun essai thrapeutique. En pratique, le but de lexprience est de montrer que cest lhypothse alternative qui est vraie et ainsi de montrer que le nouveau traitement est suprieur au traitement de rfrence. Lors de lessai, on constitue alatoirement deux groupes, le premier recevant le traitement A et le second recevant le traitement B. Mme si les deux taux de gurison sont thoriquement identiques, en pratique, sur un chantillon donn, ils ne le sont quasiment jamais car la diffrence observe est soumise aux uctuations alatoires inhrentes au tirage au sort. Cette diffrence observe est en gnral faible, proche de zro. Cependant, dans une petite proportion de cas, la valeur observe de la diffrence sera loigne de cette valeur nulle. En utilisant la loi de Gauss (loi normale), on peut calculer la probabilit que la diffrence observe dpasse un certain seuil. La loi de Gauss permet de dire que des diffrences faibles sont trs probables alors que des diffrences importantes sont peu probables. Si la diffrence observe dpasse le seuil choisi, la diffrence est grande et elle est considre comme rare sous lhypothse dgalit des traitements : une telle diffrence naurait pas d tre observe. Si elle a pourtant t observe, cest que lhypothse de dpart tait probablement fausse. Par consquent, on rejette lhypothse nulle et on accepte lhypothse alternative qui dit que les deux taux de gurison diffrent. En rsum, le raisonnement du test frquentiste est le suivant : on fait lhypothse que les deux traitements ne diffrent pas (hypothse nulle), ce qui revient dire que, en raison des effets du tirage au sort, une grande diffrence a peu de chance dapparatre ; on quantie la diffrence entre les deux traitements ; si la diffrence est grande et quelle a moins de 5 % de chance dtre observe, on admet que lhypothse nulle de dpart tait fausse et donc que les deux traitements diffrent. On dit que p < 5 % (ou p < 0,05) et que le test est signicatif au seuil de 5 %. Il faut insister sur linterprtation correcte de p < 0,05. Cela signie que si lhypothse dgalit des traitements est vraie, il y a moins de 5 % de chance dobserver par hasard une diffrence aussi importante que celle constate dans lessai. Mais le p ne dit absolument pas quelle est la probabilit que lhypothse dgalit des traitements soit vraie (ou fausse). 3. Le principe des tests diagnostiques Soit un test diagnostique T (un symptme, une mesure chographique, ou un dosage sanguin) visant tablir la prsence ou labsence dune maladie M [9]. Le test fournit un rsultat qualitatif, positif ou ngatif. Lors de la mise au point dun test diagnostique, on classe par ailleurs les sujets en malades et sains en utilisant une mthode de rfrence pour dterminer ce statut. En croisant les rsultats du test avec le statut de rfrence

244 Tableau 1 lments du test diagnostique : lecture verticale Malades Test positif Test ngatif Total VP FN M

N. Meyer et al. / La Revue de mdecine interne 30 (2009) 242249

Sains FP VN S

Total P N

VP = vrais positifs, FP = faux positifs, FN = Faux ngatifs, VN = vrais ngatifs, P = nombre de tests positifs, N = nombre de tests ngatifs, M = nombre de sujets malades, S = nombre de sujets sains.

malade/sain des sujets, on tablit un tableau permettant dvaluer les qualits diagnostiques de ce test (Tableau 1). Ce tableau permet de dterminer le nombre de sujets sains ou malades qui, daprs le test, seront correctement ou incorrectement classs en malade ou sain par un test positif ou ngatif. En prenant les notations proposes dans le Tableau 1, on dnit les vrais positifs (VP) qui sont les sujets malades ayant un rsultat de test positif, les faux positifs (FP) qui sont les sujets sains ayant un rsultat de test positif, les vrais ngatifs (VN) qui sont les sujets sains qui ont un rsultat de test ngatif et les faux ngatifs (FN) qui sont des sujets malades ayant un rsultat de test ngatif. ce stade, cest linvestigateur qui xe les nombres M de sujets malades et S de sujets sains. partir de ces lments, on calcule : VP VP + FN VN la spcicit (Sp) = VN + FP la sensibilit (Se) = La Se est aussi la probabilit davoir un test positif lorsque lon est malade, que lon note Pr(P|M). De mme, la Sp est la probabilit davoir un test ngatif lorsque lon est sain, soit Pr(N|S). La Se et la Sp sont des caractristiques intrinsques du test, indpendantes de la prvalence de la maladie dans la population tudie. Aprs cette phase dlaboration du test, son utilisation en pratique quotidienne vise dterminer la prsence ou labsence de la maladie chez un sujet donn. Le tableau crois prcdemment dcrit doit alors tre utilis dans lautre sens, cest--dire en lui appliquant une lecture horizontale, ce qui ncessite de modier un peu le Tableau 1 pour obtenir le Tableau 2. partir du rsultat du test diagnostique, on cherche donc dterminer le statut malade/sain du sujet. Avant davoir appliqu le test au patient, le mdecin ne sait pas sil prsente ou non la maladie. Il sait seulement que la probabilit quil prsente la maladie nest pas nulle
Tableau 2 lments du test diagnostique : lecture horizontale Malades Test positif P Test ngatif N Total Pr(P|M) Prv(M) = a Pr(N|M) Prv(M) Prv(M) Sains Pr(P|S) Prv(S) = b Pr(N|S) Prv(S) Prv(S) Total P N

mme si souvent elle est trs faible. On peut estimer la probabilit que le patient ait la maladie avant le test par la prvalence de la maladie dans la population gnrale, note ici Prv(M) (voir Tableau 2). Cette prvalence constitue une connaissance a priori, cest--dire existant avant la ralisation du test diagnostique et en labsence dautre information clinique sur le patient, cest la meilleure estimation que lon puisse avoir du risque pour le sujet dtre malade. Dans le Tableau 2, par rapport au Tableau 1, la dernire ligne doit donc tre modie et les totaux en colonne des sujets malades et sains ayant servi concevoir le test doivent tre remplacs par les estimations de leurs prvalences respectives, Pr(M) et Pr(S), dans la population dont est issu le patient considr (population gnrale, population hospitalire, consultants en ville, etc.). Aprs ralisation du test, en supposant que celui-ci soit positif, le mdecin ne sait toujours pas si le sujet est porteur de la maladie mais il sait nanmoins que le sujet se trouve dans la premire ligne du tableau, celle des rsultats positifs. Il reste donc pour le mdecin dterminer si le sujet est dans la premire ou la seconde case de cette ligne. La proportion de sujets malades qui a un test positif est le produit de la prvalence de la maladie Prv(M) par la sensibilit du test (Se = Pr(P|M)). De mme, la proportion de sujets sains ayant un test positif est gal au produit de la prvalence des sujets indemnes de la maladie Prv(S) par la probabilit davoir un test positif lorsque lon nest pas malade, cest--dire Pr(P|S), qui vaut 1Sp. Pour connatre la probabilit dtre malade lorsque lon a un test positif (Pr(M|P)), on rapporte la proportion de sujets malades ayant un test positif au nombre total de sujets ayant un rsultat positif. Ce rapport correspond la valeur prdictive positive (VPP) et il sobtient via le thorme de Bayes de la manire suivante [9] : Pr (M |P ) = Pr (P |M ) Pr v(M) Pr (P |M ) Prv(M) + (1 Pr ( N| S)) Prv(S)

Dans cette quation, on trouve les lments suivants : Pr(M|P) est la probabilit davoir la maladie lorsque le test est positif. Cest aussi la VPP ; Pr(P|M) est la probabilit davoir un rsultat positif lorsque lon est malade. Cest la sensibilit du test ; Pr(N|S) est la probabilit davoir un rsultat ngatif lorsque lon nest pas malade. Cest la spcicit du test ; Prv(M) est la probabilit a priori davoir la maladie : cest la prvalence de la maladie ; Prv(S) est la probabilit a priori de ne pas tre malade cest le complment 1 de la prvalence. En reprenant les notations du Tableau 2, la VPP vaut donc : a/(a + b). En rsum, aprs application du test diagnostique, le mdecin attribue au sujet une nouvelle probabilit dtre atteint de la maladie M, Pr(M|P) qui se lit probabilit davoir la maladie sachant que le test est positif . Cette VPP est la probabilit a posteriori de la maladie, cest--dire la probabilit que le sujet soit malade, connaissant le rsultat du test diagnostique et donc aprs incorporation de linformation obtenue (le test est positif).

Prv(M) = prvalence de sujets malades dans la population, Prv(S) = prvalence de sujets sains dans la population, Pr(P|M) = probabilit davoir un test positif lorsque lon est malade, Pr(P|S) = probabilit davoir un test positif lorsque lon est sain, Pr(N|M) = probabilit davoir un test ngatif lorsque lon est malade, Pr(N|S) = Probabilit davoir un test ngatif lorsque lon est sain.

N. Meyer et al. / La Revue de mdecine interne 30 (2009) 242249 Tableau 3 Illustration chez une femme ge : prvalence : 1/500 000 Malade Test positif P Test ngatif N Total 0,97 0,03 1/500 000 Sains 0,02 0,98 499 999/500 000 Total P N

245

4. Intervalle de conance baysien dune proportion Mais ces exemples concernent des maladies et non pas des proportions ou des taux de gurison. Comment utiliser le thorme de Bayes pour raliser des analyses statistiques comme, par exemple, le calcul de lintervalle de conance dune proportion ? Si, par exemple, on observe huit rmissions parmi 19 patients traits par une molcule X, quel est lintervalle de conance de la proportion 8/19 = 42 % par la mthode baysienne ? Lorsque lon calcule lintervalle de conance dune proportion, on ne fait rien dautre que dterminer lensemble des valeurs qui sont compatibles avec les donnes observes. Cela revient se demander si toutes les valeurs de 0 100 % sont compatibles ou non avec la proportion observe de 8/19. Il sagit, par exemple, de dterminer si une valeur de 37 % peut raisonnablement tre compatible avec les proportions observes. La VPP de la valeur 37 % rpond cette question puisquelle constitue la probabilit a posteriori que la valeur de 37 % soit la meilleure estimation du taux de rmission observ. En utilisant le mme principe que pour lexemple de lhyperthermie, il faut construire un tableau de deux lignes et 101 colonnes (toutes les valeurs de 0 100 % par tranche de 1 %) et calculer la VPP de toutes les valeurs de pourcentage. En prenant lensemble des valeurs de pourcentage ayant les VPP les plus hautes et totalisant 95 % de la somme des VPP, on aura construit un intervalle de conance 95 % de la proportion, en englobant dans lintervalle de conance les valeurs de pourcentages les plus probables. Une estimation plus ne peut bien sr tre obtenue en utilisant des tranches de 0,1 % au prix dune augmentation des calculs mais le principe reste videmment le mme. Il existe par ailleurs des formules donnant directement les bornes de lintervalle de conance mais leur utilisation sort du cadre de cet article. Comme pour un test diagnostique, ce calcul suppose la connaissance a priori de la probabilit de chaque proportion. Nous reviendrons en dtail plus loin sur cet aspect du problme. Pour linstant, une solution simple consiste dire que chaque proportion a une probabilit a priori de 1/101. De plus il est tout fait possible de choisir des probabilits a priori trs ingales pour mettre du poids sur certaines valeurs comme nous allons le voir ci-dessous. 5. Comparaison de deux proportions Pour comparer deux proportions le raisonnement est tout fait similaire celui prsent ci-dessus. Nous allons lillustrer avec une tude qui visait tudier leffet dune boisson probiotique commerciale contenant du Lactobacillus sur la prvention des diarrhes Clostridium difcile au dcours dun traitement antibiotique [11]. Le critre de jugement tait la proportion de patients dveloppant une diarrhe C. difcile. Le nombre de patients dveloppant une diarrhe tait de sept sur 57 (12 %) dans le groupe probiotique et de 19 sur 56 (34 %) dans le groupe placebo, soit une diffrence de 22 %. Un test de Fisher exact donne un p = 0,007 et un test du 2 donne un p = 0,006. Lanalyse frquentiste rejette donc lgalit des traitements et on admet que le probiotique et le placebo ont des taux de succs diffrents.

Chez cette patiente, la VPP vaut : 0, 97 1/500 000 VPP = = 0, 00097. 0, 97 1/500 000 + (1 0, 98) 499 999/500 000

La VPP combine donc linformation a priori (la prvalence de la maladie) et le rsultat du test (le test est positif). Lobtention du rsultat du test permet donc dtablir la probabilit dune hypothse (tre malade) partir de lestimation initiale quest la prvalence. Plus prcisment, le test transforme une probabilit a priori en une probabilit a posteriori. La prvalence est une connaissance a priori et la VPP est une connaissance a posteriori. La prvalence a t corrige en une VPP qui mesure la probabilit que le sujet soit porteur de la maladie connaissant le rsultat positif du test. On a en fait ralis une mise jour de linformation sur la situation du patient grce au thorme de Bayes. Des exemples sont donns dans les Tableaux 3 et 4, concernant le diagnostic dune srologie positive pour le VIH chez une femme de 75 ans sans antcdents et chez un toxicomane de 27 ans. Ces exemples illustrent le rle parfois important que jouent les connaissances a priori (la prvalence de la maladie dans la population concerne). Le plus souvent, un test diagnostique compare deux entits seulement : prsence ou absence de la maladie. Mais il est tout fait possible dimaginer des situations diagnostiques ou lon est amen comparer trois possibilits (pas de tumeur, tumeur bnigne, tumeur maligne). Le principe du thorme de Bayes peut parfaitement sappliquer et on peut en principe comparer autant dhypothses diagnostiques que lon veut. On pourrait trs bien imaginer devant un patient fbrile utiliser le raisonnement baysien pour dterminer laquelle parmi toutes les pathologies provoquant une hyperthermie est la plus probable. Le tableau contiendrait alors deux lignes et quelques dizaines de colonnes. Chaque diagnostic serait assorti dune valeur prdictive positive donnant la probabilit a posteriori de chacun de ces diagnostics. Sur la base de ces VPP, on pourrait regrouper les pathologies par grande famille : maladies infectieuses, maladies de systme, etc., en additionnant les valeurs prdictives de chaque pathologie rapportes une famille diagnostique. On obtient alors la VPP globalement pour les pathologies infectieuses, puis la VPP pour les maladies de systmes, etc. La VPP la plus leve indique le diagnostic ou le groupe de diagnostic le plus probable.
Tableau 4 Illustration chez un toxicomane, prvalence = 1/10 Malade Test positif P Test ngatif N Total 0,97 0,03 1/10 Sains 0,02 0,98 9/10
0,970,1 0,970,1+(10,98)0,9

Total P N

Chez ce patient, la VPP vaut : VPP =

= 0, 982.

246

N. Meyer et al. / La Revue de mdecine interne 30 (2009) 242249

Une analyse baysienne donne des rsultats nettement diffrents [12]. Lanalyse se ralise de la fac on suivante. Lorsque lon compare deux proportions, chaque proportion variant de 0 100 %, les diffrences de proportions peuvent varier de 100 +100 %. Ces diffrences extrmes sont videmment en gnral trs peu probables et lon sattend dans le cas tudi observer une diffrence de lordre de 0 20 % entre les proportions de patients prsentant une diarrhe avec lun ou lautre des traitements. La rpartition des probabilits a priori des diffrences entre les deux proportions va donc reter ce rsultat attendu. tant donn le contexte, labsence de diffrence est tout fait crdible et il est possible de poser a priori que la probabilit que le probiotique et le placebo aient un effet identique est de lordre de 50 %. Les 50 % de probabilits a priori restant seront rpartis sur lensemble des diffrences de 100 +100 %, en dfavorisant les carts les plus importants. Pour se reprsenter cette rpartition de la mme manire que dans lexemple de lintervalle de conance, il faut concevoir un tableau carr de 101 lignes et dautant de colonnes. Pour chacune des cases de ce tableau, il faudra calculer la VPP correspondant chaque combinaison de proportions de succs des deux traitements tudis. La diagonale du tableau contient les cases pour lesquelles les taux de succs sont les mmes pour les deux traitements : elle contient donc la VPP de labsence de diffrence. Les cases hors diagonales contiennent la VPP pour la supriorit dun traitement par rapport lautre. Admettons pour linstant quil y ait a priori une chance sur deux pour que les deux traitements aient la mme efcacit. Le calcul montre alors que la probabilit a posteriori de cette absence de diffrence est de 0,110, ce qui est relativement important, en tout cas, plus que ne le laisserait penser la valeur du p . La probabilit que le traitement par probiotique soit suprieur au placebo est de 0,887 et la probabilit que le probiotique soit infrieur au placebo est de 0,003. On peut donc exclure lide que le nombre de patients diarrhiques sous probiotique est plus grand quavec le placebo (probabilit trs faible) mais on ne peut pas encore totalement afrmer que le probiotique est plus efcace que le placebo pour prvenir les diarrhes, car il y a malgr tout 11 % de chance que cela ne soit pas le cas. Exprim avec le langage des tests diagnostiques, la VPP de labsence de diffrence est de 11 %, ce qui nest pas ngligeable. Comment justier le choix dune probabilit a priori de 50 % pour labsence de diffrence entre les deux traitements tudis ? En fait, malgr son titre, ltude nest pas vraiment en double insu, le placebo ntant pas vraiment un placebo. Ensuite, le maintien de linsu pour certains patients ayant un traitement antibiotique ntait pas correctement assur. Enn, on peut raisonnablement douter de lefcacit gnrale dun produit quil faut considrer comme un alicament. Ces lments invitent la prudence, dou un a priori assez fort sur labsence deffet, mais dautres valeurs peuvent se justier si le contexte est diffrent. Supposons maintenant que grce des informations obtenues sur des tudes antrieures, la probabilit a priori que probiotique = placebo soit de 0,25. Alors la probabilit a posteriori que probiotique = placebo est de 0,04, ce qui est alors lgrement infrieur la valeur du seuil de dcision des tests frquentistes.

Encore un dernier exemple. Si lon est presque sr que probiotique = placebo, avec une probabilit a priori de 0,95 pour cette galit, la probabilit a posteriori est encore de 0,70, ce qui est en faveur de lgalit des traitements. Lhypothse nulle de dpart est affaiblie mais elle reste encore la meilleure hypothse. Rappelons quun classique test du 2 conclut une diffrence signicative. Le test baysien est ici plus en faveur de labsence de diffrence entre les deux groupes. Une premire conclusion importante de cet exemple est que lintroduction de probabilit a priori permet de juger nement de la diffrence entre deux traitements. On constate par exemple que, compte tenu des donnes, pour admettre que les deux traitements diffrent, il faudrait dj tre relativement convaincu de cette diffrence avant lexprience : pour que la probabilit a posteriori que probiotique = placebo soit infrieure 5 %, il faut dj que la probabilit a priori de cette galit soit infrieure ou gale 25 %. Dans cet exemple, les donnes ne permettent donc pas de renverser radicalement lhypothse dgalit des traitements. Une analyse frquentiste au contraire conclut que cette diffrence est certaine ou presque, au risque = 5 % de se tromper. Lanalyse baysienne voque plutt un rsultat faussement positif. Une seconde conclusion est que pour des valeurs de la probabilit a priori allant de 0,50 0,95, les conclusions pratiques de la comparaison ne sont pas modies : le probiotique nest pas clairement suprieur au placebo. Cela montre aussi que les seules donnes ne sufsent pas forcment pour conclure et que des connaissances a priori peuvent moduler un rsultat. Lutilisation dinformations extrieures via la distribution a priori permet de moduler les conclusions obtenues lors dun essai thrapeutique. Si plusieurs tudes antrieures avaient conclu la supriorit du probiotique sur le placebo, on aurait pu introduire ces conclusions dans lanalyse (dans la distribution a priori) et les combiner avec les donnes observes dans notre essai. Ce procd permet une accumulation des donnes, caractristique propre la science, et cest nalement lensemble des observations obtenues sur lensemble des tudes ralises qui aurait particip la conclusion sur les mrites relatifs du probiotique et du placebo. Deux tudes frquentistes peuvent avoir des conclusions contraires, ce qui pose des problmes dinterprtation alors quune analyse baysienne combine ces deux tudes pour avoir une seule conclusion. Un exemple dtude o lincorporation dtudes antrieures modie raison les conclusions dun essai thrapeutique est donn par Brophy et Joseph [3]. Il ne faudrait pas dduire de cet exemple que les mthodes baysiennes permettent systmatiquement de dnir avec une quasi-certitude le meilleur traitement. Nanmoins, elles fournissent souvent une information plus nuance sur les traitements compars que les mthodes classiques. 6. Gnralisation Le principe dcrit ici stend bien entendu dautres paramtres statistiques tels que des coefcients de corrlation ou des odds ratio ou tout autre modle. Si le calcul est souvent plus complexe pour ces paramtres, le concept reste identique. On combine une information a priori (quand elle existe) avec

N. Meyer et al. / La Revue de mdecine interne 30 (2009) 242249

247

les donnes pour dterminer la cause la plus probable des diffrences observes. Les situations traites peuvent tre extrmement complexes. De plus, la thorie baysienne permet de calculer directement des lments tels que la probabilit quun odds ratio ou un risque relatif soit suprieur 1, ce que ne permet pas facilement la thorie frquentiste. Pour comparer deux moyennes, lanalyse donnera la probabilit que la diffrence entre les deux moyennes soit comprise entre deux valeurs L1 et L2 qui seraient particulirement intressantes pour le clinicien, L1 tant, par exemple, un gain minimum cliniquement utile et L2 un maximum dni par une certaine toxicit. L non plus, il ny a pas dquivalent frquentiste direct, malgr les apparences. 7. Discussion Le contraste entre la statistique baysienne et la statistique frquentiste est important. Sur de nombreux points, leurs paradigmes diffrent ou sopposent [1,13]. Nous avons vu quun lment crucial du raisonnement baysien est le choix de la rpartition a priori des valeurs, cest-dire la probabilit de chaque hypothse ou proportion avant lobservation des donnes. Alors, se pose naturellement la question du choix de la loi a priori. Dans le cadre dun test diagnostique, il est assez naturel de choisir la prvalence des pathologies ou des tats sains/malades dans la population concerne. Mais comment tablir la rpartition a priori dune proportion ? Ce problme est plus simple quil ny parat. Si un investigateur souhaite estimer la proportion de sujets en rmission deux ans lors de la prise dune nouvelle chimiothrapie drive dune molcule ancienne, il sait lavance que le taux de rmission ne sera pas de 0 % ni de 100 %. De mme, ce taux ne sera pas de 1 % ni de 99 %, etc. Selon la molcule et son mcanisme daction prcis, il peut raisonnablement estimer que le taux de rmission sera situ entre 30 et 70 % avec des valeurs trs probables entre 40 et 50 %. Cette rpartition a priori des taux de rmission est donc issue dune connaissance antrieure dans le domaine et ce principe peut le plus souvent tre appliqu. Pour la plupart des situations, il est assez facile de dlimiter grossirement les rsultats possibles dun traitement. Si une chimiothrapie montrait au cours dun essai thrapeutique un taux de rmission deux ans de 95 % en tant signicativement suprieur au taux de la molcule de rfrence, ce serait une rvolution, et lon aurait du mal y croire. Le frquentiste dirait : le test est signicatif, donc le rsultat existe, choquant le bon sens clinique. Le baysien, par lutilisation de la loi a priori dirait que ce rsultat est trs peu probable et serait plus prudent tout en tant en accord avec le bon sens clinique. Pour que cette chimiothrapie fasse ses preuves, il faudrait la tester sur un trs grand nombre de sujets apportant une grande quantit dinformation pour contrebalancer les connaissances cliniques prexistantes. A contrario, un taux de rmission deux ans de 50 % naurait rien de surprenant et de faibles effectifs sufrait conrmer cette hypothse. Les situations dignorance totale sont en fait assez rares. Dans ces cas, toutes les proportions possibles ont la mme probabilit a priori. Le calcul montre que les rsultats obtenus de

cette fac on fournissent numriquement les mmes rsultats que les mthodes classiques, ce qui montre indirectement que ces mthodes classiques ne tiennent pas compte de linformation a priori mme quand elle est disponible. Le domaine de la dnition correcte dune distribution a priori est actuellement la source de nombreux articles et lon en trouvera un bon aperc u chez OHagan [14,15]. La loi a priori permet aussi de confronter diffrents points de vue. Dans un domaine spcique, plusieurs experts peuvent avoir des avis divergents sur une mme question. Lanalyse baysienne permet trs facilement de confronter ces opinions en ralisant les calculs avec chacune des lois a priori dnies par les experts. Si les conclusions sont les mmes ou sont trs proches, quelle que soit la distribution a priori alors, les divergences seffacent devant les donnes et la conclusion est robuste. Si au contraire, lanalyse montre des rsultats trs diffrents, cela suggre quil faut enrichir les connaissances en augmentant le nombre dobservations pour pouvoir trancher. L encore, une approche frquentiste ne permet pas de confronter aussi simplement lavis de diffrents experts. De plus, si les donnes sont sufsamment nombreuses, le rsultat sera stable quelle que soit la distribution a priori utilise. Tout cela montre que la loi a priori ne joue pas un rle exclusif et quil nest pas possible de lui faire dire nimporte quoi, les donnes devant toujours avoir le dernier mot lorsquelles sont disponibles. En revanche, lorsque les sujets dexprience et donc les donnes sont rares (examen trs coteux, maladies orphelines, animaux transgniques nexistant quen trs petit nombre), les mthodes baysiennes permettent de moduler les conclusions dune exprience et denrichir la rexion du chercheur en jouant sur cette loi a priori. Mais, l aussi, il ne faudrait pas conclure de ces quelques lignes que les mthodes baysiennes permettent systmatiquement dobtenir un rsultat, mais elles permettent au moins denrichir la connaissance par une rexion plus ne sur les rsultats. Dans certaines situations mdicales, des tudes pidmiologiques ou des scores cliniques comme le score de Wells pour lembolie pulmonaire permettent davoir une estimation de la distribution a priori des probabilits [16]. Si cette estimation est trop grossire (le score de Wells par exemple ne donne que trois catgories de probabilit : faible, moyenne et forte), il est tout fait possible de faire varier la valeur de cette probabilit a priori sur une certaine plage de valeur et den valuer limpact sur la probabilit a posteriori. Cette mthode, nomme analyse de sensibilit, permet de vrier la robustesse des conclusions dune analyse baysienne. Cela est particulirement utile dans le cadre dun essai thrapeutique o cette analyse de sensibilit permet de vrier la stabilit des rsultats en fonction des hypothses de dpart [17,18]. Un exemple en a t donn avec ltude sur le probiotique. Parmi les avantages de la statistique baysienne, soulignons aussi le fait que lon puisse travailler de fac on exacte sur des chantillons de trs petite taille, voire mme rduit un individu [1]. Par ailleurs, les problmes danalyses squentielles ou intermdiaires disparaissent totalement : les analyses multiples sur des donnes saccumulant progressivement au cours dun essai thrapeutique nobligent pas des corrections des seuils de

248

N. Meyer et al. / La Revue de mdecine interne 30 (2009) 242249

signicativit contrairement la thorie frquentiste. Enn, les essais de supriorit et les essais dquivalence sanalysent avec les mmes outils contrairement aux mthodes frquentistes qui utilisent des tests diffrents pour ces deux situations. En raison de ces avantages, la thorie baysienne est de plus en plus utilise dans le cadre des essais contrls [19] et des comptes rendus plus techniques sur le sujet pourront tre trouvs dans la bibliographie [17,2023]. La Food and Drug Administration a dailleurs entam une rexion visant autoriser la mise sur le march de dispositifs mdicaux valids dans un cadre uniquement baysien [24]. Lutilisation des mthodes baysiennes est actuellement encore limite par le manque de logiciels. Il faut cependant citer Winbugs, disponible gratuitement [2]. Une des causes possibles de la raret de ces logiciels est une certaine difcult automatiser les analyses baysiennes. Mais les plus grands freins ladoption de la statistique baysienne sont sans doute, dune part, la force de lhabitude, et dautre part, la difcult faire accepter une conception diffrente de la statistique. Comme corollaire, une modication de lenseignement de la statistique semble ncessaire dans le domaine mdical o le raisonnement baysien est dj connu mais sous-exploit. Ce changement conceptuel devrait pourtant pouvoir se faire assez facilement dans la mesure o tous les outils statistiques habituels de la statistique frquentiste, comme par exemple les analyses multivaries, les modles de Cox pour les tudes de survie ou la comparaison de moyennes, se retrouvent dans les mthodes baysiennes, avec lavantage pour celles-ci de pouvoir sadapter plus facilement une vaste gamme de problmes. Le lecteur de la littrature mdicale sera donc en terrain connu avec le bnce supplmentaire que les interprtations quil pourra faire des rsultats des tudes seront plus cohrentes et plus riches quavant, sous une forme plus apte le satisfaire que les traditionnels p [1]. Les mthodes baysiennes permettent par ailleurs dincorporer des connaissances issues dtudes antrieures ou encore lavis dexpert, ce qui est trs difcile raliser dans un cadre frquentiste [1,3,17,18]. Diffrents exemples dapplications des mthodes baysiennes pourront tre trouvs dans la littrature, tant dans le cadre dessais randomiss [19], que de mta-analyses [25], dtude dintervention en mdecine gnrale [26] ou encore en pidmiologie [27,28]. Un bon exemple dapplication de la thorie baysienne peut tre trouv dans Roberts [4] o une synthse entre donnes qualitatives et donnes quantitatives est ralise. Dautres applications dans des domaines aussi varis que lanesthsie ou la microbiologie montrent une utilisation de plus en plus large de ces mthodes [57]. Un numro spcial de la revue Clinical trial a dailleurs t consacr aux mthodes baysiennes [29]. Un changement est dsormais perceptible dans la littrature mdicale et cette tendance, attendue entre autres par Lilford et Braunholtz [30], devrait se conrmer dans les annes venir. 8. Conclusion Nous avons montr la simplicit dinterprtation de la statistique baysienne en trac ant un parallle entre celle-ci et une procdure traditionnellement utilise en mdecine, celle des

tests diagnostiques. Ce lien permet dinciter une plus large utilisation dun paradigme dune grande richesse scientique et utilis par un nombre croissant dauteurs. Son application dans le cadre de la recherche biomdicale devrait pouvoir enrichir la rexion des investigateurs. Conits dintrts Aucun. Rfrences
[1] Lee P. Bayesian statistics: an introduction. London: Arnold Pub; 2004. [2] Gilks WR, Thomas A, Spiegelhalter DJ. A language and program for complex Bayesian modelling. Statistician 1994;43:16978. [3] Brophy JM, Joseph L. Placing trials in context using Bayesian analysis. GUSTO revisited by Reverend Bayes. JAMA 1995;273:8715. [4] Roberts KA, Dixon-Woods M, Fizpatrick R, Abrams KR, Jones DR. Factors affecting uptake of childhood immunisation: a Bayesian synthesis of qualitative and quantitative evidence. Lancet 2002;360: 15969. [5] Pouillot R, Albert I, Cornu M, Denis JB. Estimation of uncertainty and variability in bacterial growth using Bayesian inference. Application to Listeria monocytogenes. Int J Food Microbiol 2003;81:87104. [6] Dexter F, Ledolter J. Bayesian prediction bounds and comparisons of operating room times even for procedures with few or no historic data. Anesthesiology 2005;103:125967. [7] Bas nez MG, Marshall C, Carabin H, Gyorkos T, Joseph L. Bayesian statistics for parasitologist. Trends Parasitol 2004;20:8591. [8] Vayssire C, David E, Meyer N, Haberstich R, Sebahoun V, Roth E, et al. A French randomized controlled trial of ST-segment analysis in a population with abnormal cardiotocograms during labor. Am J Obstet Gynecol 2007;197, 299.e1-299.e6. [9] Grenier B. valuation de la dcision mdicale. In: Coll. valuation et statistique. 2e dition Paris: Masson; 1996. [10] Riou B, Landais P. Principes des tests dhypothse en statistique : , et P. Ann Fr Anesth Reanim 1998;17:116880. [11] Hickson M, DSouza AL, Muthu N. Use of probiotic Lactobacillus preparation to prevent diarrhoea associated with antibiotics: randomised double blind placebo controlled trial. BMJ 2007;335:80. Epub 2007. [12] Albert J. Bayesian computation using Minitab. Belmont CA: Duxbury Press; 1996. [13] Cohen J. The earth is round (p < .05). Am Psychol 1994;49:9971003. [14] OHagan A. Eliciting expert beliefs in substantial practical applications. Statistician 1998;47:2135 (with discussion, pp 5568). [15] OHagan A, Buck CE, Daneshkhah A, Eiser JE, Garthwaite PH, Jenkinson, et al. Uncertain judgements. Eliciting experts probabilities. Chichester, UK: Wiley & Sons; 2006. Statistics in practice. [16] Wells PS, Anderson DR, Rodger M, Ginsberg JS, Kearon C, Gent M, et al. Derivation of a simple clinical model to categorize patients probability of pulmonary embolism: increasing the models utility with the SimpliRED D-dimer. Thromb Haemost 2000;83:41620. [17] Spiegelhalter DJ, Freedman LS, Parmar MKB. Bayesian approaches to randomized trials. J R Stat Soc Ser A Stat Soc 1994;157:357416. [18] Spiegelhalter DJ. Incorporating bayesian ideas into health-care evaluation. Stat Sci 2004;19:15474. [19] Milling T, Holden C, Melniker L, Briggs WM, Birkhahn R, Gaeta T. Randomized controlled trial of single-operator vs. two-operator ultrasound guidance for internal jugular central venous cannulation. Acad Emerg Med 2006;13:2457. [20] Berry DA. Bayesian statistics and the efciency and ethics of clinical trials. Stat Sci 2004;19:17587. [21] Vail A, Hornbuckle J, Spiegelhalter DJ, Thornton JG. Prospective application of bayesian monitoring and analysis in an open randomized clinical trial. Stat Med 2001;20:377787.

N. Meyer et al. / La Revue de mdecine interne 30 (2009) 242249 [22] Parmar MKB, Grifths GO, SpiegelhalterDJ, Souhami RL, Altman DG, van der Scheuren E, et al. Monitoring of large randomized clinical trials: a new approach with bayesian methods. Lancet 2001;358:37581. [23] Cronin KA, Freedman LS, Lieberman R, Weiss HL, Beenken SW, Kelloff GH. Bayesian monitoring of phase II trials in cancer chemoprevention. J Clin Epidemiol 1999;52:70511. [24] FDA. Guidance for the Use of Bayesian Statistics in Medical Device Clinical Trials - Draft Guidance for Industry and FDA Staff. http://www.fda.gov/cdrh/osb/guidance/1601.html. Accs on-line le 18 janvier 2008. [25] Jansen JP. Self-monitoring of glucose in type 2 diabetes mellitus: a Bayesian meta-analysis of direct and indirect comparisons. Curr Med Res Opin 2006;22:67181.

249

[26] Rahme E, Choquette D, Beaulieu M, Bessette L, Joseph L, Toubouti Y, et al. Impact of a general practitioner educational intervention on osteoarthritis treatment in an elderly population. Am J Med 2005;118:126270. [27] Eilstein D, Uhry Z, Cherie-Challine L, Isnard H. Mortalit par cancer du poumon chez les femmes franc aises. Analyse de tendance et projection laide dun modle ge-cohorte baysien, de 1975 2014. Rev Epidemiol Sante Publique 2005;53:16781. [28] Dunson DB. Commentary: practical advantages of bayesian analysis of epidemiologic data. Am J Epidemiol 2001;153:12226. [29] Goodman NS. Introduction to bayesian methods I: measuring the strength of evidence. Clin Trials 2005;2:28290. [30] Lilford RJ, Braunholtz D. The statistical basis of public policy: a paradigm shift is overdue. BMJ 1996;313:6037.

Vous aimerez peut-être aussi