Vous êtes sur la page 1sur 10

Article pour Regards sur la BIOCHIMIE Herv Seitz

LES STATISTIQUES EN BIOLOGIE EXPERIMENTALE : POURQUOI ? COMMENT ? (PREMIERE PARTIE)


Au cours de ses tudes puis tout au long de sa carrire, un biologiste molculaire ou un biochimiste est amen apprendre de nouvelles techniques exprimentales, de nouvelles mthodes, et il bnficie souvent de l'expertise de collgues expriments, qui lui transmettent leurs connaissances. Il est rare, cependant, qu'il reoive les conseils d'un statisticien expert, et notre biologiste est souvent dsempar (voire, incrdule) quand on lui rclame une analyse statistique de ses rsultats. S'il veut faire preuve de bonne volont, il essaye d'apprendre de lui-mme comment le faire, par ses lectures sur Internet ou dans des ouvrages spcialiss, et il est alors confront un jargon peu explicite, et des concepts obscurs, peu accessibles. Au mieux, on lui sert des recettes toutes faites, auxquelles il est cens se plier sans comprendre, ce qui n'est ni satisfaisant intellectuellement, ni efficace long terme. L'objectif de ces deux petits articles (le premier dans ce numro, le deuxime dans le prochain numro de Regard sur la biochimie) est, au contraire, d'expliquer un public de biologistes, quoi peuvent lui servir les statistiques, en quoi elles sont ncessaires, et comment les faire de manire convenable. Seuls les cas les plus simples seront traits ici, le but est surtout de donner au lecteur les notions essentielles pour rsoudre lui-mme les problmes les plus faciles, et pour savoir quoi chercher dans les cas les plus difficiles. quoi servent les statistiques ? Le problme central, dans toutes les sciences exprimentales, vient de l'irreproducibilit des mesures. Quand l'exprimentateur ralise deux fois la mme mesure, sur des chantillons identiques, le rsultat numrique (affich par l'appareil de mesure) n'est jamais identique entre les deux mesures les deux nombres ne seront jamais parfaitement gaux, avec tous leurs chiffres aprs la virgule. Ce manque de reproducibilit a deux origines : d'une part, les mesures ne sont jamais ralises de manire parfaitement identique (deux pipetages successifs n'auront jamais exactement le mme volume, mme si la pipette est rgle sur la mme valeur ; deux incubations ne seront jamais aussi longues, la seconde prs ; ...) ; d'autre part, les chantillons mesurs ne sont eux-mmes jamais parfaitement identiques (deux souris sauvages ne sont pas identiques gntiquement : ce ne sont pas des clones l'une de l'autre ; elles n'auront de toute faon pas eu exactement le mme rgime alimentaire, les mmes infections bactriennes, etc. ; deux cultures de bactries n'auront pas pouss exactement dans les mmes conditions d'oxygnation et de temprature, en fonction de leur emplacement dans l'incubateur ; etc.). Ces phnomnes sont connus de tous ; et ils ont une consquence invitable : si je compare deux chantillons (mettons, un sauvage et un mutant), je vais certainement obtenir des mesures diffrentes (nous avons vu plus haut que deux mesures sur des chantillons a priori identiques ne donnaient jamais rigoureusement le mme rsultat, avec tous les chiffres aprs la virgule gaux ; donc a fortiori, deux chantillons sciemment diffrents donneront galement des mesures diffrentes). Toute la question est alors de savoir si la diffrence mesure est due au phnomne tudi (ici : si elle est due la mutation qui distingue mon sauvage de mon mutant), ou si elle est due au fait que j'ai ralis deux mesures (et que, chaque fois que je fais deux mesures, les rsultats sont forcment, au moins un peu, diffrents). Il est de la responsabilit de l'exprimentateur de s'assurer que les deux mesures ont t faites dans des conditions les plus similaires possibles (il vaut mieux que les chantillons sauvage et mutant aient t dposs sur le mme gel d'lectrophorse, plutt que sur deux gels diffrents ; il vaut mieux pipeter des volumes raisonnables : on ne pipette pas 0,5 L avec une pipette de 200 L ; etc.), mais mme quand toutes ces prcautions (ncessaires !) sont prises, les deux mesures donneront invitablement des rsultats (au moins un peu) diffrents, et il restera dterminer si 1

Article pour Regards sur la BIOCHIMIE Herv Seitz

cette diffrence est due au phnomne tudi, ou l'irreproducibilit invitable des mesures exprimentales. C'est prcisment a que vont nous servir les statistiques : estimer la variabilit qu'il y aura dans un groupe de mesures du sauvage, la variabilit dans un groupe de mesures du mutant, et les comparer la diffrence observe entre les deux groupes. Si les sauvages entre eux (et les mutants entre eux) sont beaucoup plus semblables que ne sont semblables les sauvages aux mutants, alors la diffrence observe sera principalement due au phnomne tudi (ici : la mutation). Sinon, il sera impossible de conclure : l'ventuel effet de la mutation sera obscurci par la trop grande variabilit des mesures, l'exprimentateur ne saura pas dire si la mutation a effectivement un effet sur la mesure. On le voit, pour que les tests statistiques puissent nous donner ce genre d'information, il faudra leur fournir plusieurs rplicats de la mesure du sauvage, et plusieurs rplicats de la mesure du mutant. Plus les rplicats seront nombreux, plus le test sera prcis (il aura pu estimer plus prcisment la variabilit dans chaque groupe, et la diffrence entre les groupes). Une sorte de tradition tenace veut que les biologistes ralisent leurs expriences en trois rplicats : il n'y a aucune justification thorique pour ce nombre, et si l'exprimentateur peut en faire davantage, il y a tout intrt ! Nous verrons d'ailleurs (dans le prochain numro de Regard sur la biochimie) qu'un certain test statistique ne peut pas dceler de diffrence significative (au seuil de 0,05 sur la p-value) si on ne lui fournit que trois rplicats du sauvage et trois rplicats du mutant. Il n'est bien sr pas toujours possible de faire des dizaines de rplicats de chaque mesure (chaque rplicat prend du temps, et consomme des ractifs), mais lorsque c'est possible, l'exprimentateur se donne ainsi les moyens de dtecter des diffrences beaucoup plus subtiles qu'avec seulement trois rplicats ; son analyse sera donc plus prcise. Il faut aussi insister sur un autre point : les rplicats doivent tre indpendants (c'est dire que chacun doit tre une exprience entire). Imaginons que l'exprience consiste en une quantification de l'abondance d'un ARNm dans le foie de la Souris par qRT-PCR : l'exprimentateur pourrait tre tent de ne faire qu'une seule dissection de souris, de n'extraire les ARN que de ce foie, et de raliser ensuite plusieurs RT-PCR sur cet unique chantillon d'ARN. Ces rplicats ne seront pas indpendants : ils ne se distinguent que par la dernire tape (la RT-PCR) ; comparer ces diffrents rplicats ne le renseignera que sur la reproducibilit de cette dernire tape, et ne lui donnera aucune indication sur la reproducibilit de son extraction d'ARN de foie, aucune indication sur la variabilit qu'il peut y avoir entre deux souris (or quand il comparera ensuite le foie sauvage au foie mutant, il comparera ncessairement deux souris diffrentes). De manire capturer toutes les sources d'irreproducibilit possibles, il est indispensable que les rplicats diffrent entre eux autant que diffrent les deux groupes de mesure (sauvage et mutant) : ils doivent rsulter de dissections diffrentes, d'extractions d'ARN diffrentes, et de RT-PCR diffrentes. Qu'est-ce que le t-test ? Nous avons vu que la question essentielle consiste estimer la confiance que l'exprimentateur peut accorder une diffrence qu'il mesurera, invitablement, entre les chantillons sauvages et les chantillons mutants. C'est l'objet du test statistique appel t-test : il faut fournir ce test les deux sries de valeurs (la srie de rplicats du sauvage, et la srie de rplicats du mutant), et il calcule une valeur appele p-value. La plupart de nos collgues savent que cette p-value mesure la confiance qu'on peut accorder la diffrence mesure, et plus elle est petite, plus la diffrence sera significative (c'est dire qu'elle aura un sens, du point de vue de l'exprimentateur ; dans notre exemple : une p-value basse signifiera que la diffrence observe est essentiellement due la mutation qui distingue le sauvage du mutant, plus qu' l'irreproducibilit intrinsque de la mesure). Il serait toutefois utile de connatre prcisment la dfinition de cette p-value. La voici : la p-value du t-test, c'est la probabilit que les deux populations chantillonnes aient la mme moyenne.

Article pour Regards sur la BIOCHIMIE Herv Seitz

Il est trs facile de mal comprendre cette dfinition ! On pourrait croire que la p-value est la probabilit que ma srie de rplicats du sauvage, et ma srie de rplicats du mutant, ont la mme moyenne. Ce serait un problme trivial ! Puisque les mesures sont faites, il est facile de calculer la moyenne des rplicats du sauvage, et la moyenne des rplicats du mutant. Il est donc facile de les comparer ; si elles sont gales, alors la probabilit qu'elles soient gales vaudrait 1, et si elles sont diffrentes, la probabilit qu'elles soient gales vaudrait 0 (il ne pourrait donc pas y avoir de p-value intermdiaire entre 0 et 1). Et comme (on l'a vu plus haut) deux mesures diffrentes donnent toujours, invitablement, des rsultats (au moins un peu) diffrents, alors on peut tre sr, avant mme d'avoir fait l'exprience, que ces moyennes seront diffrentes donc la p-value vaudrait toujours 0 (elle ne serait donc pas informative). On s'en doute, ce n'tait pas la dfinition de la p-value ; la diffrence tient un mot qui semble un peu incongru au milieu de la dfinition : le mot chantillonnes. Voici comment interprter cette dfinition : l'exprimentateur, qui sait qu'il doit faire plusieurs rplicats de sa mesure, peut faire 10 rplicats (de son Western blot, de sa qPCR, ). Mais qu'est-ce qui l'empche d'en faire 10 de plus ? Ou 20 de plus ? Ou mme, une infinit de rplicats ? Naturellement, pour toutes sortes de raisons pratiques, il ne sera pas possible de faire une infinit de rplicats (chaque rplicat prend un certain temps ; chaque rplicat du Western blot consomme un peu d'anticorps, et il n'y en a pas une quantit infinie sur Terre ; ), mais on peut imaginer que, dans un monde idal, il serait possible de faire une infinit de rplicats. Il existe donc, quelque part dans un univers idal, une liste de toutes les mesures de tous ces rplicats ; une liste d'effectif infini, qui donnerait tous les rsultats possibles de la mesure, pendant toute la vie de l'univers, et mme encore plus Et on peut interprter d'une nouvelle manire l'exprience de mon biologiste, qui fait 10 rplicats de son exprience : faire 10 rplicats de l'exprience, a revient piocher au hasard 10 valeurs, parmi cette infinit de valeurs possibles issues d'une infinit de rplicats Eh bien c'est cette population idale, d'effectif infini, dans laquelle pioche l'exprimentateur quand il fait son exprience, c'est cette population, donc, qu'on appelle la population chantillonne. Elle est chantillonne, parce que l'exprimentateur y chantillonne ses 10 (ou 20, ou 30, ) rplicats quand il fait son exprience. On le voit, la dfinition de la p-value prend alors une toute autre signification : la p-value, c'est la probabilit que ces deux populations idales, d'effectif infini (celle dont sont chantillonns les rplicats sauvages, et celle dont sont chantillonns les rplicats mutants), aient la mme moyenne. Voyez la puissance du t-test ! Il nous permet de comparer des populations infinies de rplicats, quelque chose qui sera, videmment, toujours inaccessible l'exprience ; il nous permet de raisonner sur une exprience parfaite (celle qui aurait une infinit de rplicats, aussi bien pour le sauvage, que pour le mutant), sans avoir la raliser. On comprend prsent pourquoi, plus la p-value est basse, plus la diffrence est significative : quand on lui fournit une liste de rplicats du sauvage et du mutant, le t-test va estimer quoi ressemblent les deux populations idales dont ces deux sries sont chantillonnes, et il va estimer la probabilit que leurs moyennes soient gales. S'il est trs peu probable que les moyennes soient gales (p-value trs petite devant 1), il faudra en conclure qu'une exprience parfaite (avec une infinit de rplicats dans chaque srie) dtecterait certainement une diffrence entre les moyennes des deux sries en d'autres termes : quand le nombre de rplicats est infini (c'est encore le meilleur moyen de gommer les sources techniques d'irreproducibilit de la mesure, puisque ces fluctuations atteindront de la mme manire chacun des deux groupes), il restera une diffrence entre le groupe des sauvages et le groupe des mutants. La figure 1 illustre le processus : considrons deux sries de valeurs (la srie n1, et la srie n2). Ces deux sries sont centres sur des valeurs moyennes voisines de 15 (panneau du haut), et les populations idales dont elles sont chantillonnes ont donc vraisemblablement, chacune, une moyenne voisine de 15 (les populations idales, chantillonnes, sont reprsentes en bleu sur le 3

Article pour Regards sur la BIOCHIMIE Herv Seitz

panneau du milieu). Dans cet exemple prcis, la p-value calcule par le t-test vaut peu prs 0,74. Si maintenant l'un des deux jeux de donnes (le jeu n2) est dcal de deux units vers la droite (panneau du bas, droite), la probabilit que les populations idales aient la mme moyenne est beaucoup plus faible (6,9.10-8). Il est important de comprendre qu'aucune relation mathmatique ne permet de calculer la p-value partir de la diffrence entre les moyennes des deux sries de donnes : la p-value dpend galement d'autres paramtres : La forme des distributions des deux sries de valeurs : si les distributions sont trs serres (dans chaque srie, toutes les valeurs sont trs voisines les unes des autres, et l'histogramme montre un pic haut et troit), alors le t-test dira avec beaucoup plus de certitude que les populations idales ont des moyennes diffrentes (il aura pu estimer avec davantage de confiance que les deux populations idales taient cartes l'une de l'autre, parce qu'elles seront, chacune, mieux rsolues). Rciproquement, si les deux sries de valeurs sont trs tales, le t-test aura du mal dire que les moyennes des populations idales sont diffrentes : la p-value sera plus grande. Le nombre de rplicats dans chaque srie de valeurs : plus les rplicats sont nombreux, plus le t-test pourra estimer avec prcision la population idale, d'effectif infini donc plus facilement il pourra dceler une diffrence, mme minime, dans leurs moyennes. C'est la raison pour laquelle, dans le panneau en bas droite de la figure 1, la p-value est si basse (avec seulement 3 ou 4 rplicats, une diffrence de ~10% entre les moyennes des deux sries de valeurs, sur des sries de valeurs assez tales comme ici, le t-test calculerait certainement une p-value beaucoup plus grande). Ici, le grand nombre de rplicats (200 dans la srie n1, 100 dans la srie n2) permet au t-test d'estimer avec prcision les populations idales, et donc, d'tre d'autant plus affirmatif sur la diffrence entre leurs moyennes. Ces considrations permettent de relativiser l'importance de la p-value : une p-value peut tre trs basse, mme quand la diffrence entre les deux sries de valeurs est faible (si les distributions sont suffisamment fines, et si le nombre de rplicats est suffisamment grand). Il est d'ailleurs possible de faire baisser la p-value autant qu'on veut, simplement en multipliant le nombre de rplicats (le nombre de rplicats requis pour faire baisser la p-value en-dessous d'un seuil quelconque dpendra de la forme des deux distributions). Il ne faut donc pas considrer que la p-value mesure l'amplitude de la diffrence (l'amplitude, elle, se mesure en calculant le rapport ou la diffrence entre les moyennes, ou mdianes, ou autres estimateurs, des deux sries de valeurs) : la p-value se contente de mesurer la confiance qu'on peut accorder cette amplitude de la diffrence. En rsum, chacune de ces deux grandeurs (l'amplitude de la diffrence, et : la p-value) permet de mesurer une caractristique de la diffrence entre les jeux de donnes ; chacune des deux est ncessaire pour la caractriser, et aucune n'est suffisante seule. (le deuxime article, publi dans le prochain numro de Regard sur la biochimie, dcrira les diffrentes options du t-test, et ses conditions d'application).

Lgende de la figure : Figure 1 : Soient deux jeux de donnes : le jeu n1 (constitu de 200 rplicats, centrs sur une valeur voisine de 15 ; panneau en haut gauche) et le jeu n2 (constitu de 100 rplicats, centrs sur une valeur voisine de 15 galement ; panneau en haut droite). Ces histogrammes reprsentent les nombres d'observations qui tombent dans des intervalles de largeur 1 unit (par exemple, 18 valeurs du jeu de donnes n1 tombaient entre 12,5 et 13,5, donc la barre centre sur 13 a une hauteur de 18). Ici, les deux sries de valeurs ont t

Article pour Regards sur la BIOCHIMIE Herv Seitz


gnres par ordinateur, elles ont t volontairement chantillonnes partir de populations idales d'effectifs infinis et de moyenne 15, reprsentes en bleu sur le panneau du milieu. Le t-test va estimer la probabilit que les populations idales (qui lui sont inconnues), dont sont issues les deux sries, ont la mme moyenne : cette probabilit vaut 0,74, ce qui indique que, d'aprs le t-test, il est trs probable que ces deux sries soient chantillonnes partir de populations infinies qui ont la mme moyenne (ce qui est effectivement le cas). Si l'une des deux sries est dcale de deux units vers la droite (panneau en bas droite ; la srie n2 est maintenant centre sur une valeur voisine de 17), le t-test estime trs peu probable que les populations infinies, chantillonnes, aient la mme moyenne (probabilit de 6,9.10-8).

Article pour Regards sur la BIOCHIMIE Herv Seitz

LES STATISTIQUES EN BIOLOGIE EXPERIMENTALE : POURQUOI ? COMMENT ? (DEUXIEME PARTIE)


Dans le dernier numro de Regard sur la biochimie, nous avons vu quel tait l'intrt du t-test en biologie exprimentale. Il existe plusieurs variantes de ce test, qu'il faut savoir choisir en fonction de la situation ; il faut aussi savoir que le t-test n'est pas applicable dans toutes les circonstances il convient, alors, de savoir s'en rendre compte, et de connatre les alternatives privilgier. C'est l'objet de ce deuxime et dernier article. Les variantes du t-test : Lorsqu'il cherche utiliser le t-test, quel que soit le programme informatique utilis (R, Excel, ), l'exprimentateur est amen choisir parmi diffrentes options du test. Voici comment choisir les plus appropries : variances gales ou variances diffrentes ? La variance mesure la dispersion des donnes de chaque srie de valeurs (sur la figure 1, que nous avons dj vue dans l'article prcdent, la variance du jeu de donnes n1 tait plus grande que celle du jeu de donnes n2 : les donnes taient plus tales de part et d'autre de leur moyenne). Dans la version initiale du t-test (crite au dbut du XXme sicle ; elle est appele Student's t-test), il fallait que les variances des deux jeux de donnes soient gales pour que le test soit applicable (en ralit, elles ne sont jamais parfaitement gales, comme toujours : les deux nombres ne seront jamais gaux, avec tous leurs chiffres aprs la virgule ; il faut donc qu'elle soit similaires le terme consacr est : homognes). Si elles sont trs diffrentes, il ne faut pas utiliser le t-test sous sa version originale, mais une version ultrieure (appele Welch's t-test), qui tolre les htrognits de variances. Par contre, si elles sont similaires (homognes), il est prfrable d'utiliser la version initiale du t-test (t-test variances gales ou t-test variances homognes ou Student's t-test), qui est plus prcise que le Welch's t-test. donnes apparies ou non ? On utilise le t-test donnes apparies lorsqu'il existe un lien logique vident entre chaque rplicat d'une srie de valeurs, et un rplicat unique de l'autre srie de valeurs, et qui est susceptible d'affecter le rsultat de la mesure. Ce lien logique peut tre : ces deux mesures ont t ralises sur le mme objet (par exemple : si l'exprience consiste peser des patients avant et aprs un traitement amaigrissant, il existe un lien logique vident entre chaque rplicat du premier jeu de donnes, et un rplicat du deuxime : la mesure a t faite sur le mme individu). Apparier les donnes donne au test plus de prcision : dans notre exemple, elle permet au test de s'affranchir de l'htrognit des poids des diffrents patients (plutt que de comparer, en bloc, les deux sries de valeurs, le test comparera le poids de chaque patient avant traitement, son poids aprs traitement). Il est donc prfrable d'apparier les donnes chaque fois qu'elles peuvent l'tre : en liminant l'htrognit entre les rplicats de la mesure, on donne au test les moyens de dtecter des diffrences plus faibles. one-tailed ou two-tailed ? Tout ce que nous avons vu jusqu'ici concernait le two-tailed t-test, qui cherche dterminer si deux jeux de donnes sont significativement diffrents. Le one-tailed ttest teste si l'un des deux jeux de donnes est suprieur l'autre (il teste donc un unique sens de variation). Il ne faut utiliser cette variante du test que lorsqu'on peut exclure a priori l'un des deux sens de variation, lorsqu'il existe une raison physique imprieuse d'exclure l'un des deux sens de variation (par exemple : si l'exprience consiste mesurer une collection de morceaux de bois, en couper un bout, puis les re-mesurer : il est indiscutable que les longueurs mesures dans la deuxime srie doivent tre infrieures celles mesures dans la premire srie ; chaque fois qu'un morceau de bois semblera s'tre allong, on saura avec certitude qu'il s'agit d'une erreur de mesure). Comme on peut s'en douter, ce genre de situation est trs rare dans notre mtier (il est rare de connatre l'avance le sens de variation, avant mme de faire l'exprience ; de toute ma carrire, je n'ai jamais eu utiliser le one-tailed t-test). Outre qu'il est d'un usage trs restreint, le one-tailed t6

Article pour Regards sur la BIOCHIMIE Herv Seitz

test est dangereux : il divise les p-values par deux, et peut donc faire apparatre comme significatives des diffrences qui ne le sont pas. Utiliser le one-tailed t-test dans un cas illgitime constitue donc une fraude scientifique : il faut donc bien s'assurer qu'il existe une raison physique indiscutable d'exclure a priori un sens de variation, avant d'utiliser le one-tailed t-test (et j'invite le lecteur me dcrire sa situation, s'il pense tre dans un cas d'utilisation du one-tailed t-test : je serais curieux de connatre un exemple d'utilisation en biologie exprimentale !). Quand utiliser le t-test ? Nous avons vu toute l'utilit du t-test en biologie ; malheureusement, ce test n'est pas utilisable dans toutes les circonstances, et avant de faire le calcul, il faut vrifier que le t-test est applicable. La principale limite du t-test tient la nature de la distribution des donnes : pour que le t-test soit utilisable, il faut que chacun des deux jeux de donnes suive une loi normale (galement appele loi gaussienne, c'est la distribution en cloche que suivent les donnes idales, reprsentes par les courbes bleues dans le panneau du milieu de la figure 1). La loi normale est dcrite par une quation mathmatique bien prcise (toute courbe en cloche ne suit pas une loi normale !) ; bien entendu, aucun jeu de donnes issu du monde rel ne suit parfaitement la loi normale (voyez comme les histogrammes des jeux de donnes n1 et 2 s'loignent de la courbe bleue, sur le panneau du milieu de la figure 1). On n'exige donc pas que les jeux de donnes suivent rigoureusement une loi normale juste, qu'ils ne s'en loignent pas exagrment. Il existe des tests statistiques qui permettent de contrler qu'un jeu de donnes suit une loi normale (le test de Shapiro-Wilk, ainsi que le test de Kolmogorov-Smirnov, un peu moins prcis). On fournit ces tests un jeu de donnes, et il calcule une p-value, qui est la probabilit que ce jeu de donnes soit chantillonn partir d'une population idale, de taille infinie, qui suit une loi normale (il faut donc effectuer ce test sur chacun des deux jeux de donnes, et n'utiliser ensuite le t-test que si chacune de ces deux p-values tait grande en gnral, on estime qu'elle doivent tre suprieures 0,05 ; cependant, elles tendent tre facilement suprieures 0,05 ds que le nombre de rplicats est petit : on aura d'autant plus confiance dans le rsultat de ces tests, que le nombre de rplicats est grand). Que faire si au moins l'un des deux jeux de donnes s'loigne trop de la loi normale (p-value < 0,05 dans le test de Shapiro-Wilk ou le test de Kolmogorov-Smirnov) ? Deux solutions s'offrent l'exprimentateur : Utiliser un test plus robuste aux dviations la normalit. Ce test s'appelle le test de Wilcoxon (ou : test de Mann-Whitney). Il s'utilise comme le t-test (il faut lui fournir les deux sries de rplicats, et il calcule la probabilit que les sries de donnes sont issues de populations d'effectif infini de mme moyenne), mais il est applicable quand les jeux de donnes ne suivent pas une loi normale. Cette robustesse a un cot : le test de Wilcoxon est beaucoup moins puissant que le t-test (pour deux mmes jeux de donnes, il dtectera moins facilement les diffrences significatives) ; cette diffrence de puissance est particulirement gnante quand les jeux de donnes contiennent peu de rplicats (notamment, la p-value du test de Wilcoxon ne peut jamais descendre en-dessous de 0,1 quand chaque srie contient trois rplicats). Utiliser une transformation mathmatique. Lorsqu'un jeu de donnes ne suit pas une loi normale, il est frquent que le logarithme des donnes suive une loi normale (le logarithme, qui est une fonction croissante dont la croissance est trs lente, tend craser les diffrences, donc rapprocher les valeurs de leur moyenne les mesures aberrantes, souvent responsables des dviations la normalit, ont alors moins d'influence sur la forme gnrale de la distribution). On applique alors le t-test sur le logarithme des donnes, plutt que sur les donnes elles-mmes (et si les logarithmes sont significativement diffrents, alors les valeurs non transformes le sont ncessairement ; simplement, grce au logarithme, on aura pu estimer plus prcisment la p-value de cette diffrence). D'autres transformations mathmatiques peuvent avoir la mme vertu (la racine carre, l'arcsinus, ), et leur usage s'apparente parfois une cuisine un peu anarchique, dans laquelle 7

Article pour Regards sur la BIOCHIMIE Herv Seitz

l'utilisateur cherche une transformation qui tordra ses jeux de donnes dans le bon sens Il est donc prfrable d'utiliser une transformation qui ait un sens physique (le logarithme d'une concentration en ractif, par exemple, a un sens physique : il sert calculer les pH et les pKa ; il est moins logique de calculer le logarithme d'une grandeur qui ne serait pas multiplicative, mais additive). La dmarche suivre est rsume en figure 2. Il faut savoir que la plupart des tests statistiques cits dans cette figure (tests de Shapiro-Wilk, de Kolmogorov-Smirnov, de Levene, de Wilcoxon) ne sont pas disponibles dans le programme Excel. Des logiciels libres (R, tlchargeable sur http://www.r-project.org/ ; PAST, tlchargeable sur http://folk.uio.no/ohammer/past/) proposent tous ces tests. Il faut aussi mentionner une autre limite du t-test, qui, si elle est vidente en premier abord, est souvent nglige : ce test permet de mesurer la confiance dans les diffrences mesures entre deux jeux de donnes, rien de plus ; il ne permet pas, par exemple, de comparer deux distributions de donnes. Imaginons que l'exprience consiste comparer la rpartition de cellules dans les diffrentes phases du cycle cellulaire (mitose, phase G1, phase S, phase G2). On dispose de deux sries de comptage, dans deux conditions exprimentales (par exemple, un sauvage et un mutant). Comme toujours, on ne trouvera pas rigoureusement la mme distribution entre les diffrentes phases du cycle, dans les deux conditions et on aimerait savoir si cette diffrence est significative. L'exprimentateur pourrait tre tent d'utiliser le t-test pour comparer, un par un, les effectifs dans chacune des phases du cycle cellulaire dans les deux conditions. Deux problmes s'annoncent : Comme on l'a vu, le t-test rclame plusieurs rplicats de chaque mesure. Ici, la mesure consiste en un comptage de cellules (probablement plusieurs centaines) : d'une certaine manire, l'exprience a dj t ralise un grand nombre de fois (dans chaque catgorie ici : dans chaque phase du cycle cellulaire l'effectif compt est le rsultat de l'analyse de centaines de cellules), et il semble curieux de devoir faire plusieurs rplicats d'une exprience qui contenait dj plusieurs centaines de comptages. En admettant que ce problme soit rgl (l'exprimentateur a effectivement fait plusieurs comptages indpendants, de plusieurs centaines de cellules chacun), le t-test pourra donner des rsultats aberrants : il pourra, par exemple, montrer que le nombre de cellules en phase G1 est significativement diffrent entre les deux conditions, sans dtecter de diffrence significative pour les trois autres phases du cycle (ce qui est possible, si la diffrence qui compense celle de la phase G1 se rpartit relativement uniformment entre les trois autres phases). Comment, alors, interprter ce rsultat : la distribution des cellules au cours du cycle cellulaire est-elle affecte par les conditions testes ? Ce deuxime problme potentiel illustre la nature de l'erreur qui a t commise : ici, il ne s'agissait pas de comparer, catgorie aprs catgorie, les effectifs dans les deux conditions. Il s'agissait de comparer les deux distributions, dans leur ensemble. Ce type de problme est inaccessible au t-test ; il faut utiliser un autre test : soit le test du 2 de Pearson (si les effectifs sont suffisants ; on considre en gnral qu'il faut que chaque effectif, dans chaque catgorie, soit suprieur 5) ; soit le test exact de Fisher (qui n'a pas cette limitation, mais qui est un peu plus long en temps de calcul ce problme n'en est plus un depuis que les ordinateurs sont devenus monstrueusement rapides). Il faut fournir ces tests les sries de comptage, dans chaque condition exprimentale, et la p-value calcule est la probabilit que ces deux sries de comptage drivent de populations idales, de taille infinie, qui auraient la mme distribution. Il est particulirement important de retenir que ces deux tests ne doivent tre appliqus qu' des nombres d'observations, des effectifs, qui n'auront pas t normaliss (on n'applique pas, par 8

Article pour Regards sur la BIOCHIMIE Herv Seitz

exemple, ces tests sur des pourcentages, dont la somme aura t arbitrairement amene 100 en multipliant tous les effectifs par un facteur de normalisation). En effet, ces deux tests tiennent compte des effectifs pour mesurer la confiance apporter dans les diffrences mesures (ils considrent que 500 est trs diffrent de 450, alors que 50 est peu diffrent de 45) : cette sensibilit aux effectifs, qui est une qualit utile, est perdue si on augmente ou diminue arbitrairement les donnes en les multipliant par un facteur de normalisation. Conclusion Les rflexions et les illustrations prsentes ici n'ont pas la prtention de couvrir tous les usages possibles des statistiques pour les biologistes ; elles visent principalement expliquer des concepts qui sont beaucoup plus gnraux, et dnoncer quelques erreurs frquentes dans les publications de biologie exprimentale. Elles devraient aider le lecteur comprendre les lectures qui lui seront ncessaires pour traiter des problmes plus complexes que ceux qui ont t cits ici.
Lgende des figures : Figure 1 : Soient deux jeux de donnes : le jeu n1 (constitu de 200 rplicats, centrs sur une valeur voisine de 15 ; panneau en haut gauche) et le jeu n2 (constitu de 100 rplicats, centrs sur une valeur voisine de 15 galement ; panneau en haut droite). Ces histogrammes reprsentent les nombres d'observations qui tombent dans des intervalles de largeur 1 unit (par exemple, 18 valeurs du jeu de donnes n1 tombaient entre 12,5 et 13,5, donc la barre centre sur 13 a une hauteur de 18). Ici, les deux sries de valeurs ont t gnres par ordinateur, elles ont t volontairement chantillonnes partir de populations idales d'effectifs infinis et de moyenne 15, reprsentes en bleu sur le panneau du milieu. Le t-test va estimer la probabilit que les populations idales (qui lui sont inconnues), dont sont issues les deux sries, ont la mme moyenne : cette probabilit vaut 0,74, ce qui indique que, d'aprs le t-test, il est trs probable que ces deux sries soient chantillonnes partir de populations infinies qui ont la mme moyenne (ce qui est effectivement le cas). Si l'une des deux sries est dcale de deux units vers la droite (panneau en bas droite ; la srie n2 est maintenant centre sur une valeur voisine de 17), le t-test estime trs peu probable que les populations infinies, chantillonnes, aient la mme moyenne (probabilit de 6,9.10 -8).

Article pour Regards sur la BIOCHIMIE Herv Seitz


Figure 2 : Cette figure rsume la dmarche suivre pour comparer deux jeux de donnes. Noter que plusieurs tests sont disponibles pour la plupart des questions (la normalit peut se tester avec les tests de Shapiro-Wilk, et de Kolmogorov-Smirnov ; les deux donnent gnralement le mme rsultat, mais en cas de dsaccord, privilgier le test de Shapiro-Wilk, plus prcis ; l'homognit des variances peut se tester avec d'autres tests que le test de Levene le test de Levene est rput plus prcis).

10