2018/2019
UC 53
Communication et réglementation dans la
profession vétérinaire (CoRVet)
Bases en Biostatistique
I. Introduction....................................................................................................................... 8
A. Comment lire ce document ............................................................................................. 8
B. Quel intérêt d’enseigner les stat’ dans un cursus vétérinaire ? ..................................... 8
1. Compétences générales visées ................................................................................ 8
2. Développer l’esprit critique chez les étudiants au cours du cursus à l’EnvA .......... 8
3. Biostatistique & épidémiologie : des pré-requis indispensables à l’analyse critique
d’articles ............................................................................................................................. 9
II. Définitions et présentation des concepts ....................................................................... 10
A. La notion d’ « étude » ................................................................................................... 10
B. Échantillon ..................................................................................................................... 10
C. Population cible ............................................................................................................. 10
D. Population source.......................................................................................................... 11
E. La fluctuation d’échantillonnage ................................................................................... 11
F. L’inférence statistique ................................................................................................... 12
III. Statistique descriptive ..................................................................................................... 13
A. Définition d’ « indicateur »............................................................................................ 13
B. Objectif .......................................................................................................................... 13
C. Notations ....................................................................................................................... 13
D. Normalité d’une distribution d’une variable quantitative ............................................ 13
E. Indicateurs usuels de statistique descriptive ................................................................ 14
1. Le taux de prévalence ............................................................................................ 14
2. La moyenne ............................................................................................................ 14
3. La variance et « standard deviation » (SD) d’un caractère quantitatif.................. 14
4. La médiane et les quartiles .................................................................................... 14
F. Qualité d’une estimation............................................................................................... 16
1. Problématique ....................................................................................................... 16
2. Précision ................................................................................................................. 16
3. Exactitude............................................................................................................... 17
4. En résumé .............................................................................................................. 18
G. Inférence statistique à partir d’une estimation ............................................................ 18
Les parties de ce document doivent se lire dans l’ordre, elles sont tout sauf indépendantes.
Je fais en effet très souvent référence dans une partie à ce que j’ai écrit dans une partie
précédente. Et surtout, la partie V ne peut pas être lue avant la partie IV !
A. La notion d’ « étude »
Dans tout ce document, je vais utiliser le terme « étude ». Ce terme, générique, peut faire
référence à une étude clinique, un essai clinique1, une étude (ou « enquête »)
épidémiologique, dont les objectifs peuvent être très variés. Le point commun parmi ces
études ou enquêtes est le fait qu’elles aient pour objectif de faire porter leurs résultats issus
d’un échantillon sur une population d’individus.
B. Échantillon
L’échantillon est le groupe d’« individus » sur lesquels sont effectuées les analyses
statistiques. Dans le domaine de la bovine, il faut bien faire attention si l’échantillon est
constitué d’élevages (auquel cas, l’ « individu » est l’élevage, et les données recueillies le
sont à l’échelle de l’élevage en entier ; citons par exemple la taille de l’élevage, l’hygiène de
l’élevage, le type de stabulation, le type de l’élevage allaitant/laitier/mixte, …) ou bien
constitué de vaches (auquel cas, l’ « individu » est la vache, et les données recueillies le sont
à l’échelle de la vache ; citons par exemple la note d’état corporel, la parité, les antécédents
de mammites, …). La « taille de l’échantillon » est le nombre d’individus que compte
l’échantillon.
C. Population cible
La population cible est la population que l’on vise, quand on met en place une étude ; c’est
la population à laquelle on voudrait pouvoir étendre les résultats. Il est fondamental de
correctement définir la population cible quand on met en place une étude, car elle va
permettre de choisir la population source (cf. ci-dessous) de telle façon à ce que cette
dernière soit la plus proche possible de la population cible. Il est par ailleurs tout aussi
important de savoir quelle est la population cible quand vous lisez un article scientifique car
vous saurez ainsi les individus sur lesquels on peut a priori appliquer les résultats de l’étude,
et ceux sur lesquels on ne le peut a priori pas.
Dans la très grande majorité des cas, la population cible est mentionnée au moment où
l’objectif principal de l’étude est mentionné.
1
Un essai clinique est une étude médicale ayant très souvent pour objectif de vérifier l'efficacité ou la
tolérance d'une molécule, d'un traitement ou d'une méthode diagnostique.
La population source est constituée des individus d’où sont extraits ceux qui ont fait partie
de l’échantillon. Dit autrement, et plus pragmatiquement, la population source est
l’ensemble des individus susceptibles de faire partie de l’échantillon. Ce mot « susceptible »
est fondamental. Pour définir la population source, il faut imaginer tous les individus qui
auraient pu faire partie de l’échantillon si le processus d’échantillonnage avait été réalisé
une infinité de fois ! C’est uniquement la lecture du protocole d’une étude qui vous permet
de définir la population source de cette étude. Une autre façon de définir de façon
pragmatique la population source est (là encore) d’imaginer tous les individus qui ne
pourraient jamais faire partie de l’échantillon compte tenu du protocole de l’étude, et la
population source est alors constituée de tous les autres individus.
Par ailleurs, le verbe « échantillonner » signifie « créer un échantillon à partir de la
population source ».
E. La fluctuation d’échantillonnage
2
Certains vont probablement penser que j’abuse de l’écriture en italique ! Oui, c’est vrai, je ne vais pas la
réserver aux seuls termes latins. Il ne s’agit pas d’ « abus » ! Simplement, dans le domaine de la biostatistique
et l’épidémiologie (comme dans beaucoup d’autres domaines – tous ?...), les mots sont très importants, et je
les souligne en italique (plutôt qu’en les soulignant proprement dit).
3
J’aime l’effet de surprise, je ne vais donc pas tout dévoiler dès maintenant, quand même !...
A. Définition d’ « indicateur »
Dans tout ce polycopié, ainsi que dans tous les exercices d’enseignement du module de
Bases en Biostatistique, le terme « indicateur » fera référence à la liste des indicateurs
usuels présente ci-dessous. Il existe de nombreux autres « indicateurs » statistiques, mais
dont je ne parlerai pas.
B. Objectif
L’un des objectifs de la statistique descriptive est de fournir une estimation d’un indicateur
calculée dans un échantillon qui soit la plus proche possible de la valeur réelle de cet
indicateur dans la population cible, valeur qui est par définition inconnue.
C. Notations
De façon générale, dans ce document, les caractères grecs vont toujours faire référence à
des indicateurs dans la population cible. Je vais noter « θ » la valeur d’un indicateur
quelconque (que ce soit une moyenne, une médiane, un pourcentage, …). Plus
spécifiquement, « μ » sera la moyenne d’un caractère quantitatif, et « π » le pourcentage
d’un caractère binaire. Les caractères grecs avec un chapeau au-dessus vont faire référence
à la valeur estimée de l’indicateur dans l’échantillon : 𝜇̂ pour l’estimation d’une moyenne et
𝜋̂ pour l’estimation d’un pourcentage.
Pour vérifier qu’une variable quantitative suit une loi normale, une des nombreuses
méthodes est de dresser un histogramme. Un site Internet très simple d’utilisation permet
de dresser un histogramme : http://www.socscistatistics.com/descriptive/histograms/
(attention, si vous avez des valeurs avec un chiffre après la virgule, le symbole décimal doit
être le point, et non la virgule, au moment où vous copiez-collez vos valeurs sur le site).
Comment sait-on si une distribution suit une loi normale ou pas ? Déjà, la normalité
mathématique parfaite n’existe (quasiment) pas dans la nature. Par conséquent, cette
appréciation est subjective. La distribution peut être considérée comme normale si elle suit
une forme de cloche, c’est-à-dire :
1) Etre relativement symétrique,
2) Avoir peu de valeurs extrêmes et la majorité des valeurs autour de la moyenne,
3) N’avoir qu’une seule « grosse bosse ».
1. Le taux de prévalence
Le taux de prévalence (d’une maladie) est le pourcentage d’individus atteints d’une
« maladie » (au sens général du terme).
2. La moyenne
Tout le monde sait ce qu’est une moyenne !... En revanche, petite info comme ça en passant,
on ne peut interpréter correctement une moyenne que si la distribution de la variable
quantitative dont on souhaite calculer la moyenne suit (à peu près) une loi normale.
4
En français : « écart-type dans l’échantillon ». En raison d’une confusion trop importante entre « écart-type
dans l’échantillon » et « écart-type d’une estimation », j’ai choisi d’utiliser la terminologie anglaise moins
source de confusion (et c’est celle que je vais vous demander d’utiliser).
Individu Valeur
1 0
2 1
3 1
4 1
5 1
6 1
7 1
8 1
9 2
10 2
11 2
12 2
5
Je vous laisse éventuellement méditer sur ce point !... (Si vous n’avez pas d’autres sources de méditation, bien
entendu.)
1. Problématique
Supposons que vous souhaitiez connaître le pourcentage de chiens adultes en France qui
présentent des problèmes neurolocomoteurs. Vous allez mettre en place votre étude, c’est-
à-dire demander à vos amis qui ont des chiens s’ils ont observé récemment des problèmes
neurolocomoteurs (déjà, au moment où vous leur dites cela, certains vous regardent un peu
méchamment, comme si vous aviez insulté leur chien !). Supposons que parmi 18 chiens de
votre proche ou lointain entourage, 4 ont semble-t-il présenté récemment des problèmes
neurolocomoteurs, ce qui conduit à un pourcentage estimé de 4/18=22%. La question est
désormais la suivante : votre estimation est-elle suffisamment de qualité pour permettre de
faire de l’inférence à l’ensemble de la population des chiens adultes de France (c’est-à-dire,
étendre ce résultat à la population cible) ? Pour y répondre, il faut s’assurer que cette
estimation soit précise et exacte ! Et c’est ce que je vous propose de voir désormais.
2. Précision
Une estimation 𝜃̂ est dite précise si (attention, ça va être théorique), en imaginant6 que l’on
échantillonne n fois et que l’on calcule n fois 𝜃̂ (cf. figure 1), on avait ces n valeurs de 𝜃̂
proches les unes des autres.
Si ̂ ̂2 , …, 𝜃
𝜃1 , 𝜃 ̂𝑛 étaient proches les unes des
autres, on pourrait dire que la façon d’estimer
(ou autrement dit, « l’estimation de ») est
précise.
Dire que ces valeurs 𝜃̂𝑖 sont très proches les unes des autres, c’est aussi dire qu’elles sont très
peu « dispersées », ou sont très peu « variables », les unes par rapport aux autres. A
contrario, plus les valeurs 𝜃̂𝑖 sont variables les unes par rapport aux autres, plus on peut se
dire intuitivement que chacune de ces estimations est imprécise (car d’une estimation à
l’autre, on obtient des valeurs très différentes).
6
Vous n’avez pas fini de devoir « imaginer » des choses, en lisant ce document. Accrochez-vous si vous n’avez
pas pour habitude de faire fortement travailler votre imagination !
3. Exactitude
Une estimation 𝜃̂ est dite exacte si elle n’est pas biaisée. Qu’est-ce qu’un « biais
d’estimation » ? Théoriquement, c’est l’écart entre la moyenne de toutes les estimations 𝜃̂𝑖
que l’on aurait calculées à partir d’une infinité de tirages au sort d’échantillons et la vraie
valeur inconnue (cf. figure 2). Vous trouverez ci-dessous deux situations bien différentes.
La première, celle où la façon d’estimer est précise, mais biaisée car les estimations 𝜃̂𝑖 ,
bien que proches les unes des autres, sont systématiquement inférieures à la vraie valeur
(figure 2). La seconde situation présente une façon imprécise d’estimer car les 𝜃̂𝑖 sont très
dispersées, mais de façon cependant exacte car les 𝜃̂𝑖 sont autour de la vraie valeur de , ce
qui fait que la moyenne de toutes ces 𝜃̂𝑖 est égale à la vraie valeur (figure 3).
7
En français : « écart-type de l’estimation »
8
Le conditionnel est très important ! Car en pratique, on ne calcule bien évidemment pas toutes ces
moyennes !
Une autre définition d’un biais d’estimation est la suivante : le biais d’estimation est l’écart
systématique entre la valeur estimée 𝜃̂ et la valeur réelle . « Systématique » dans le sens où
si l’on refaisait l’échantillonnage une infinité de fois, on aurait un écart entre la valeur
estimée et la valeur réelle systématiquement du même ordre (non nul) de grandeur. (La
fluctuation d’échantillonnage va faire varier cet écart d’un échantillon théorique à l’autre.)
Tout ça encore n’est que de la théorie. Car en pratique, non seulement on ne connait pas la
vraie valeur de , mais en plus, on n’estime qu’une seule valeur de , c’est 𝜃̂. Le biais ne peut
donc pas se quantifier. Il peut en revanche s’apprécier, se discuter9.
L’origine des biais d’estimation n’est pas décrite dans ce document, car n’étant pas au
programme du module de Bases en biostatistique de 1ère année. Cela dit, sachez qu’il existe
deux biais d’estimation en épidémiologie descriptive : le biais d’échantillonnage et le biais de
mesure.
4. En résumé
Une estimation est de bonne qualité si elle est précise et si elle est exacte (c’est-à-dire
exempt de biais d’estimation). Dans la mesure où l’on arrive davantage à quantifier
l’imprécision que l’inexactitude (car les biais ne sont pas quantifiables), il vaut à la limite
mieux estimer un indicateur de façon imprécise qu’inexacte !...
Faire de l’inférence statistique à partir d’une estimation d’un indicateur, c’est en quelque
sorte la mettre en rapport avec la valeur réelle inconnue de l’indicateur dans la population
cible que l’on a estimé dans l’échantillon (figure 4).
Soit 𝜃̂ la valeur de l’estimation d’un indicateur dans un échantillon. On fait de l’inférence
statistique en disant : « sous l’hypothèse d’absence de biais d’estimation, il y a de grandes
chances pour que la valeur réelle de l’indicateur dans la population cible soit proche de
𝜃̂ ». Vous pouvez voir dans la figure ci-dessous le cercle plus ou moins « vertueux » du
9
D’ailleurs, c’est l’une des immenses et non moins intéressantes tâches de l’épidémiologiste : discuter (et
prendre en compte quand c’est possible) la présence de biais et l’impact qu’ont ces biais sur la capacité à faire
de l’inférence statistique (et causale).
Cela dit, même s’il n’y a aucun biais, il ne faut pas oublier que la fluctuation
d’échantillonnage (la manifestation du hasard) peut conduire à une estimation 𝜃̂ très
éloignée de la valeur réelle dans la population cible, sans bien entendu que l’on s’en rende
compte, puisque est inconnue. C’est normal, acceptable, et il faut vivre avec10.
Je peux cependant vous rassurer en écrivant ceci : sous réserve d’absence de biais
d’estimation, plus l’estimation est précise, plus a de chances d’être proche de la valeur
estimée 𝜃̂.
1. Théorie et interprétation
Cette théorie ne va pas aller très loin. L’idée ici n’est pas de vous apprendre les statistiques
pour que vous deveniez des biostatisticien(ne)s. J’ai donc pris le parti de bien davantage
vous apprendre à interpréter les choses qu’à vous apprendre les démonstrations
mathématiques / statistiques pour obtenir différentes formules.
Un intervalle de confiance d’une estimation 𝜃̂ est un intervalle dans lequel on peut être
confiant dans le fait d’affirmer que la valeur réelle dans la population cible se trouve dans
cet intervalle. Cette « confiance » doit être quantifiée. Dans la très grande majorité des cas,
on fixe ce degré de confiance à 95%. Ainsi, un intervalle de confiance à 95% de 𝜃̂ est
l’intervalle dans lequel il y a 95% de chances que la valeur réelle dans la population cible
10
De la même façon que dans la vie, on a appris à vivre avec cette incertitude, heureusement présente – sinon
la vie serait atrocement prévisible et par conséquent tellement ennuyeuse, non ?!
Si n > 30 et si la variable quantitative dont on calcule la moyenne suit (à peu près) une loi
normale, alors la formule de l’intervalle de confiance à 95% d’une moyenne estimée 𝜇̂ est : 𝜇̂
+/- 1,96 x 𝑆𝐸𝜇̂
Si n < 30 (situation hors programme), je vous suggère d’aller sur un autre site Internet13 où
tout est bien expliqué !
11
L’interprétation rigoureuse (mais hors programme) d’un intervalle de confiance est un peu plus compliquée
que cela : il y a 95% de chances pour que l’intervalle de confiance à 95% comprenne la valeur réelle .
12
http://epitools.ausvet.com.au/content.php?page=CIProportion&SampleSize=20&Positive=5&Conf=0.95&Digits
=3
13
http://www.dummies.com/how-to/content/how-to-calculate-a-confidence-interval-for-a-popu0.html
Par conséquent, si l’estimation de 12% n’est pas biaisée, il y a 95% de chances pour que le
taux de prévalence réel d’hyperkaliémie dans la population des chiens domestiques de
toutes races atteints de pancréatite en France soit compris entre 3% et 21%.
Prenons un deuxième exemple sur la même thématique. Supposons que l’on veuille estimer
la moyenne du taux de potassium chez des chiens domestiques de toutes races atteints de
pancréatite en France. Supposons que le taux de potassium suive une loi normale. Dans le
même échantillon de 49 chiens que précédemment, on estime la moyenne du taux de
potassium à 4,5 mmol/l, avec une SD de 1,8 mmol/l. Calculons maintenant l’intervalle de
confiance à 95% de cette estimation de 4,5 mmol/l. Il faut tout d’abord vérifier que l’on
puisse effectuer ce calcul : n > 30 et l’on a supposé que le taux de potassium suivait une loi
normale. Donc on peut utiliser la formule de l’intervalle de confiance à 95% fournie ci-
1,8
dessus : 4,5 +/- 1,96 x = 4,5 +/- 0,50 = [4,0 ; 5,0]
√49
Par conséquent, si l’estimation de la moyenne de 4,5 mmol/l n’est pas biaisée, il y a 95% de
chances pour que la moyenne réelle du taux de potassium dans la population des chiens
domestiques de toutes races atteints de pancréatite en France soit comprise entre 4,0 et 5,0
mmol/l.
14
Excès de potassium dans le plasma sanguin : chez le chien, si le taux de potassium (kaliémie) est > 5,8
mmol/l.
Figure 5 - Tirage de billes rouges d'un sac de billes avec proportion connue
Question : quelle est la probabilité que j’avais de tirer 4 billes rouges parmi 4 billes tirées au
sort du sac de billes ? Réponse : 0,70 x 0,70 x 0,70 x 0,70 = 0,704 = 0,24 = 24%.
Figure 6 - Tirage de billes rouges d'un sac de billes avec proportion inconnue
Quelle est la probabilité que j’avais de tirer 4 billes rouges parmi 4 billes tirées au sort du sac
de billes ? Réponse ici17.
15
Traduction en un langage plus chaste : « la probabilité que les événements A et B se produisent ».
16
Pierre n’est pas son vrai prénom, il a souhaité garder l’anonymat et m’a demandé de se faire appeler Pierre.
17
On ne peut pas savoir, car on ne connaît pas la proportion de billes rouges dans le sac !
18
De plus, et ne me demandez pas pourquoi, il n’est pas possible d’ouvrir ou de déchirer le sac de billes – cela
restera ad vitam eternam un mystère...
19
Non non, réfléchissez un peu, ne vous ruez pas comme ça sur la note de bas de page. Il est peut-être (très)
tard, mais prenez votre temps. Ce temps que vous allez passer, là, c’est du temps de gagné pour la suite …
20
C’est l’hypothèse H90%. Pourquoi ? Car c’est sous cette hypothèse que l’on avait le plus de chances d’observer
ce que l’on a effectivement observé ! C’est cette hypothèse qui est la plus compatible avec notre observation
de 4 billes rouges parmi 4.
21
Non, on ne le pense pas. Car si H30% avait été vraie, il n’y aurait eu que 0,8% de chances d’observer ce que
l’on a effectivement observé (4 billes rouges parmi 4) ! A moins d’avoir eu un coup de chance terrible, ce que
l’on va toujours exclure dans le raisonnement stat’, H30% n’a donc quasiment aucune chance d’être vraie. On va
donc affirmer qu’elle est fausse !
22
Si H90% avait été vraie, ce que l’on a observé aurait été fréquemment observable (66% de chances de
l’observer). Donc notre observation est compatible avec l’hypothèse H90%. Cela ne veut pas dire qu’il y a de
grandes chances (d’ailleurs, on ne peut pas du tout quantifier ces chances-là) pour que l’hypothèse H90% soit
vraie, mais on peut en revanche dire « qu’il est possible » que l’hypothèse H90% soit vraie. On accepte donc
cette hypothèse (à défaut de la rejeter), parce que l’on n’a pas la preuve du contraire, comme ça avait été le
cas avec H30%.
1. Remarques préalables
Première remarque préalable, car sinon vous ne pourriez pas saisir la subtilité de ce
jeu (cette remarque ne concerne cependant que ceux qui n’ont jamais joué au Badminton) :
un volant de Badminton est extrêmement sensible aux perturbations météorologiques.
Essayez en extérieur de lancer deux fois un volant de Badminton avec la même force de
lancer et la même direction, et vous verrez qu’il ne va pas du tout atterrir au même endroit !
Deuxième remarque (qui est un rappel de connaissances a priori acquises au lycée) : si l’on
connait la vitesse V0 et l’angle A0 d’un lancer de projectile, on peut déterminer la distance
Datterrissage à laquelle il va atterrir en résolvant l’équation suivante (en faisant abstraction des
frottements de l’air, bien entendu), après avoir exclu la solution de l’équation Datterrissage = 0 :
2
1 (𝐷𝑎𝑡𝑡𝑒𝑟𝑟𝑖𝑠𝑠𝑎𝑔𝑒 )
0 = − . 𝑔. 2 + 𝐷𝑎𝑡𝑡𝑒𝑟𝑟𝑖𝑠𝑠𝑎𝑔𝑒 . 𝑡𝑎𝑛(𝐴0
)
2 (𝑉0 )2 . (𝑐𝑜𝑠(𝐴0 ))
Troisième remarque, je vais faire l’hypothèse que la « vitesse de lancer » et la « force de
lancer » sont totalement proportionnelles. Ainsi, je vais écrire « vitesse de lancer » quand je
parlerai des résultats de l’expérience, et de « force de lancer » pour interpréter plus
facilement les résultats.
Quatrième remarque. Ce n’est pas parce que je présente les choses sous forme de jeux qu’il
faut lire cette partie-là en dilettante. Si vous ne jouez pas le jeu, à essayer notamment de
répondre aux questions que je vous pose, vous aurez des risques de ne pas comprendre la
partie suivante, qui là, n’est plus du tout rigolote. Vous voilà avertis. Retour au jeu, avec le
sourire 23…
23
Je ne voulais pas plomber l’ambiance, désolé.
24
Même remarque que celle que j’avais faite pour Pierre et sa volonté d’anonymat.
25
Le débat sur la façon dont je choisis mes amis est, vous me le concèderez, hors de propos dans un document
dédié à la biostatistique.
Jean ne comprend pas bien pourquoi en lançant le volant avec la même force la 2ème fois, le
volant a atterri 15 cm plus près… Vous souriez (oui, Jean n’est pas non plus un foudre de
guerre intellectuellement parlant26) et vous lui dites qu’il a effectivement pu le lancer avec la
stricte même force, mais que par malchance, il y a eu un léger coup de vent qui a un peu
freiné le volant… En supposant que l’on ait le droit de calculer la moyenne de ces deux
distances, on la calcule et on obtient : 4,91 m.
Rassuré par votre explication, Jean vous dit fièrement « vous avez vu comme je l’ai lancé
fort ? Je l’ai lancé à 80 km/h ! ». Je le regarde en souriant (c’est mon ami), je vous regarde et
vous demande « alors, qu’en pensez-vous ? Vous le croyez ?27 » J’entends murmurer dans
les gradins… Je sens de votre part des doutes… La question est en effet : « est-il possible de
lancer le volant à 4,91 m (en moyenne) avec une vitesse initiale de 80 km/h et avec un angle
de 60° ? » Difficile de répondre comme ça… Je vais donc vous simplifiez la tâche. Si l’on
résout l’équation ci-dessus, on obtient une distance théorique d’environ 50 m. Ahhh, là,
maintenant, vous pouvez mieux répondre à la question ! Vous pouvez vous dire qu’il y a très
peu de chances pour que Jean ait lancé le volant à 80 km/h ! Pourquoi ? Car sous l’hypothèse
que le volant ait été lancé à 80 km/h avec un angle de 60°, le volant aurait dû théoriquement
tomber autour de 50 m ; il y aurait donc eu très très peu de chances de le voir atterrir aux
environs de 4,9 m ! Cette hypothèse (lancer de volant à 80 km/h) a de très fortes chances
d’être fausse, car si elle avait été vraie, le volant n’aurait quasiment eu aucune chance
d’arriver 4,9 m plus loin ! Vous ne croyez donc pas Jean.
Jean se rend compte qu’il a été un peu trop prétentieux. Il vous dit, un peu en rougissant,
« non non, ok, j’avoue, je n’ai pas lancé le volant aussi fort que ça, je l’ai lancé à … 30
km/h ». Là encore, vous ne pouvez pas savoir s’il peut ou non avoir raison, pour la même
raison que tout à l’heure. Je vous donne maintenant l’information : théoriquement, l’objet
aurait atterri à environ 7 m. Alors là, vous êtes plus sceptique que tout à l’heure, quand je
vous avais annoncé 50 m. Car cette fois-ci, il est tout à fait possible qu’un coup de vent ait
suffisamment freiné le volant de telle façon à ce qu’il atterrisse un peu avant 7 m – en
l’occurrence à 4,83 et 4,98 m. Donc, vous ne pouvez plus rejeter son affirmation « j’ai lancé
le volant à 30 km/h » avec autant que de véhémence que tout à l’heure ! Vous n’avez
désormais plus d’élément de preuve que Jean est encore en train de vous raconter des
bêtises. Vous allez donc, par défaut, accepter ce qu’il vous dit, autrement dit accepter
26
Cf. la précédente note de bas de page
27
Autant vous n’avez pas vu la vitesse de lancer du haut des gradins, autant vous avez pu voir qu’il avait lancé
le volant, les deux fois, à 60° – il n’est quand même pas si nul, mon ami Jean…
28
Ca y est, on passe de l’autre côté du miroir… (Je ne veux en effet pas que Jacques entende toute la
conversation que nous allons avoir, vous et moi.)
(Cf. ici : https://fr.wikipedia.org/wiki/De_l'autre_c%C3%B4t%C3%A9_du_miroir)
29
Je vous invite à relire cette question, pour être sûr(e) que vous l’avez bien saisie.
30
Après avoir relu une seconde fois ma question, j’imagine votre réponse ainsi : « non, pas pile ! Il peut y avoir
des coups de vent qui peuvent modifier un peu la trajectoire du volant, bien que lancé avec la même force et
avec le même angle. » Et là je vous réponds : « excellente réponse ! Mais …….. »
31
Là, je vous imagine songeur/euse… Vous vous souvenez alors de la différence entre les deux lancers de Jean,
tout à l’heure… Une différence de 15 cm, alors qu’il avait lancé le volant avec la même force… il y avait eu
effectivement un peu de vent… Vous réfléchissez un peu, puis vous me répondez « +/- 30 cm », car vous vous
dites « quand même, il va bien falloir une différence d’au moins 30 cm pour vraiment penser que la différence
ne va pas être due qu’au vent seul ! ».
32
4,91 m - 30 cm ; 4,91 m + 30 cm.
33
Je repasse alors de l’autre côté du miroir, et m’adresse à nouveau à Jacques, qui n’a absolument rien suivi de
notre conversation, puisqu’étant de l’autre côté du miroir…
34
Pour davantage d’explications sur ces conditions d’expériences qui peuvent vous paraître totalement
inapplicables, cf. ici : https://fr.wikipedia.org/wiki/Chat_de_Schr%C3%B6dinger. Dans la mesure où, en plus, j’ai
rajouté la notion de miroir, cela fait donc deux fois deux espaces-temps… C’est bon ? Vous suivez ?
Figure 8 - Lancers de Jacques dans l'espace-temps n°1 Figure 9 - Lancers de Jacques dans l'espace-temps n°2
La distance moyenne des deux lancers est égale à 5,26 m. Jacques La distance moyenne des deux lancers est égale à 5,16 m. Jacques
vous lance un regard de fierté absolue (5,26 > 4,91). Cette moyenne vous lance un regard de fierté absolue (5,16 > 4,91). Cette moyenne
est à l’extérieure de la zone de tolérance qui était de [4,61 – 5,21]. Et est comprise dans la zone de tolérance qui était de [4,61 – 5,21]. Et
vous aviez anticipé le fait que si la moyenne que vous alliez observer vous aviez considéré que pour fortement croire que les deux
allait être à l’extérieur de la zone de tolérance, alors vous vous moyennes soient réellement différentes, il aurait fallu que la
accorderiez le fait de fermement croire que la force de lancer de moyenne de lancer de Jacques soit à l’extérieur de la zone de
Jacques serait vraiment différente de celle de Jean. C’est ce qu’il vient tolérance. Là, vous observez que la moyenne des deux lancers de
de se passer. La réaction de Jacques vous ennuie par sa prétention, Jacques est incluse dans cette zone de tolérance… Ce que vous venez
mais il a réussi son coup. Il vous a apporté des éléments de preuves d’observer est compatible avec le fait que Jacques lance le volant avec
forts que sa force de lancer est différente de celle de Jean. Cela ne la même force que Jean (c’est-à-dire compatible avec le fait que cette
veut pas dire que Jacques lance le volant avec une force différente (le différence observée ne provienne que des conditions météo), parce
vent a pu tout à fait être de la partie de jeu), cela veut dire qu’il y a que l’observation ne vous apporte pas la preuve que les forces de
cependant de fortes raisons de le penser. lancer sont différentes. Cela ne veut pas dire que Jacques lance le
volant avec la même force, mais cela veut dire que cette possibilité
est tout à fait envisageable, au regard de ce qu’il vient de se produire.
Vous allez donc devoir accepter le fait que Jacques lance le volant
avec la même force que Jean, à défaut d’avoir des preuves suffisantes
qu’il le lance avec une force différente.
35
Je ne juge pas cette valeur, soyons bien clairs là-dessus.
36
Autrement dit, sortez doucement de ce rêve – car oui, vous étiez en train de rêver… Le réveil risque d’être un
tout petit peu douloureux, car nous allons maintenant arrêter de jouer, et passer aux choses sérieuses…
C’est un outil standardisé, objectif, qui permet de prendre la décision de dire si oui ou non,
les populations étudiées sont très vraisemblablement différentes sur l’indicateur étudié.
Quand est-ce que l’on doit utiliser, comme outil, un test statistique ? Réponse : quand on
souhaite montrer, avec conviction, que deux (ou plus) populations diffèrent sur un
indicateur donné (une moyenne, un pourcentage, etc.). J’insiste sur l’assertion
complémentaire : quand on ne souhaite pas montrer, avec conviction, que deux (ou plus)
populations diffèrent sur un indicateur donné, on n’utilise pas de test statistique. Par
exemple, utiliser un test statistique (comme nombre de personnes le font) pour montrer que
dans l’échantillon, une hypothèse est (ou n’est pas) vérifiée, n’est pas justifié. Certaines
personnes ont l’impression que plus elles font de tests statistiques dans leur étude, et plus
leur étude est pertinente : c’est tout simplement faux.
Nous avons vu dans la partie III que, sous l’hypothèse d’absence de biais d’estimation, une
estimation dans un échantillon, a « de grandes chances d’être proche de la valeur de
l’indicateur dans la population cible ». Vous êtes donc sensibilisé(e) au fait que ce que l’on
peut observer dans un échantillon peut être loin de la réalité, simplement par le fait du
hasard. J’étends maintenant cette notion-là à deux échantillons. Et l’occurrence, la
différence que l’on peut observer entre deux indicateurs estimés dans deux échantillons
issus de deux populations que l’on souhaite comparer (donc tous les deux soumis à de la
fluctuation d’échantillonnage) peut être très éloignée de la réelle différence sur cet
indicateur entre ces deux populations – d’où la « double » fluctuation d’échantillonnage :
une par échantillon.
Supposons qu’un indicateur (la moyenne de la production laitière chez la vache par exemple)
dans la population A vaille θA et que cet indicateur dans la population B vaille θB. Soit Δ = θA
– θB. Imaginons maintenant que l’on tire au sort n couples d’échantillons de vaches que l’on
extrait des deux populations A et B (figure 10).
À partir de ces n couples d’échantillons, il faut imaginer que l’on va calculer n différences
observées entre les deux indicateurs estimés dans chacun des échantillons (dobs 1, dobs 2, …,
dobs n ; figure 10). Ces différences observées sont toutes différentes (à cause de la double
fluctuation d’échantillonnage), mais elles ont quand même de grandes chances d’être
proches de la vraie différence Δ, puisque chacun des couples d’échantillons est tiré au sort
des populations A et B qui, elles, différent de Δ sur l’indicateur. Toutes ces différences
théoriquement observées sont distribuées de la façon présentée sur la figure 11 (chaque
tiret vertical représente une dobs parmi les n).
Maintenant, cessons d’être 200% théorique, et redescendons un peu sur Terre. En pratique,
on ne tire au sort bien évidemment jamais n couples d’échantillons ! On n’en tire qu’un seul
(de couple). On n’observe donc en pratique qu’une seule différence observée. Je vais donc
définir l’ensemble ci-dessus dont la distribution ressemblait (à juste titre) à une loi de Gauss :
il s’agit de l’ensemble des différences observables sous l’hypothèse qu’en vrai, la réelle
différence sur entre la population A (A) et la population B (B) est égale à Δ (Δ = A - B).
Faisons l’hypothèse qu’en vrai, il existe une réelle différence Δ, entre A et B, égale à 5.
Vous avez sur la figure 12 l’ensemble des différences observables sous cette hypothèse.
Faisons maintenant l’hypothèse qu’en vrai, il n’existe aucune réelle différence entre A et B,
c’est-à-dire que Δ=0. Vous avez sur la figure 13 l’ensemble des différences observables sous
cette nouvelle hypothèse.
La problématique est la suivante. Vous ne savez bien évidemment pas du tout si, en vrai, il
existe ou non une réelle différence entre les deux indicateurs A et B dans chacune des deux
populations A et B, et vous voulez absolument le savoir ! Supposons que vous observiez à
partir de vos deux échantillons (issus des deux populations A et B) une différence égale à 3,5.
Puisqu’observer « 3,5 » peut tout à fait être observable sous l’hypothèse qu’il existe une
réelle différence (figure 12) tout comme sous l’hypothèse qu’il n’existe pas de réelle
différence (figure 13), votre seule observation de « 3,5 » ne vous permet donc pas de savoir
s’il existe ou non une réelle différence, puisque cette observation était observable sous les
deux hypothèses !
La question que l’on se pose donc est la suivante : la différence de « 3,5 » que j’observe me
laisse-t-elle fortement penser au fait qu’il existe une réelle différence dans la population, ou
bien me laisse-t-elle penser au fait qu’il n’existe pas de réelle différence ?
Rappelons la démarche qui vous avait permis de croire (ou pas) que Jacques avait très
certainement lancé le volant à une vitesse différente de Jean, sachant que le vent avait été
de la partie, mais sans savoir dans quelle mesure.
Vous aviez fixé une zone de tolérance qui était telle que si la moyenne des distances des
deux lancers de Jacques avait été à l’extérieur de cette zone, vous auriez fortement cru au
fait que Jacques avait lancé le volant avec une force différente. Par quel raisonnement ? Je le
rappelle. Vous vous étiez dit38 : « si Jacques lance le volant avec la même force que Jean, les
moyennes ne seront cependant pas été identiques, car le vent va toute façon faire varier les
distances. Donc nous allons fixer une zone à l’intérieur de laquelle la moyenne de Jacques
peut être considérée comme égale à celle de Jean en théorie mais différente en pratique à
cause du vent. Si en revanche la moyenne de Jacques est à l’extérieur de la zone de
tolérance, alors on ne pourra plus croire que ce n’est que le vent qui aura conduit à une
différence de moyennes aussi importante, et l’on croira alors que la force de lancer de
Jacques est vraiment différente de celle de Jean. »
Et bien voilà, il est là, le principe de tous les tests statistiques ! Il faut fixer une zone de
tolérance, qui est telle que lorsque l’on observe une différence à l’extérieur de cette zone,
on peut fortement penser que cette différence observée provient d’une réelle différence. Et
lorsque l’on observe une différence à l’intérieur de cette zone, sans pouvoir affirmer qu’il n’y
a pas de différence réelle, on peut du moins accepter cette hypothèse (comme on avait
accepté le fait que Jacques avait lancé le volant avec la même force que Jean, dans l’espace-
temps n°2). Que signifie cette zone de tolérance ? Je le répète, c’est la zone qui est telle que
l’on peut observer des différences incluses dans cette zone sans pour autant penser qu’il
existe une différence réelle, car on sait que le vent (oups, pardon, le hasard) en étant de la
partie, a fait varier les observations par rapport à ce qui aurait dû être théoriquement
observé !
F. Les tests statistiques sont des tests d’hypothèse assortis de risques d’erreur
37
C’est quand même la classe…
38
Ok, je vous avais un peu aidés…
39
L’autre cas de figure où l’on souhaite montrer avec force l’égalité de deux indicateurs entre deux populations
fait référence aux « essais cliniques d’équivalence » ou aux « essais cliniques de non infériorité » (hors
programme).
40
Rappelez-vous ce que je vous avais dit dès le début de ce document : considérez que « vitesse de lancer » est
égal à « force de lancer ».
Figure 14 - Ensemble des distributions observables sous l'hypothèse d'absence de réelle différence
Par conséquent (et l’on revient dans le monde pratique), cela signifie que si vous observez
une différence dobs dont la valeur est comprise entre -d1 et +d1, cela veut dire que ce que
vous avez observé fait partie d’un ensemble42 fréquemment observable lorsque H0 est vraie.
Ainsi, en observant dobs entre –d1 et +d1, votre observation est compatible avec le fait que H0
soit vraie – mais cela ne veut bien entendu pas dire que H0 est vraie (ça, on n’en sait
absolument rien).
41
Si cette phrase est pour vous incompréhensible, revenez aux figures 10 et 11
42
L’ensemble hachuré sur la Figure 14
Dans le cas de la figure 15, si l’on tirait au sort 100 couples d’échantillons issus des deux
populations A et B comparées qui ne diffèrent pas sur θ (Δ=0), et si l’on calculait dans
chacun de ces 100 couples la différence entre les deux indicateurs estimés, α différences sur
les 100 calculées seraient, en valeur absolue, supérieures à +dα/244.
En pratique, α est quasiment toujours fixé à 5% (cf. figure 16). Ainsi, si vous observez une
différence dobs supérieure, en valeur absolue, à +d2,5%, vous allez pouvoir affirmer que H0 est
fausse, car ce que vous avez observé fait partie des événements rarement observables sous
H0. Si maintenant vous observez une différence dobs inférieure, en valeur absolue, à +d2,5%
vous allez devoir accepter que H0 est vraie, à défaut de pouvoir la rejeter, car ce que vous
avez observé fait partie des événements non rarement observables sous H0 ; votre
observation est compatible avec H0. Et là, vous retrouvez toute la démarche que nous avions
suivie pour savoir si Jacques avait raison lorsqu’il affirmait qu’il lançait le volant plus fort que
Jean (figure 8 et figure 9).
43
Un conseil, si vous venez de décrocher, relisez le jeu du sac de billes, et notamment concernant H30%…
44
Au cas où vous vous poseriez la question de savoir s’il faut relire cette phrase, la réponse est sans aucun
doute « oui » : elle va vous permettre de comprendre la suite…
45
Oui oui, le même α dont j’ai parlé juste au-dessus !...
46
Par conséquent par le seul fait du hasard, puisque H 0 est vraie (en effet, si H0 est vraie, la seule raison
d’observer une différence est que le hasard se soit manifesté).
47 ère
Ce que je vais écrire maintenant n’est pas au programme de 1 année. Quand vous, vous rejetez H0, vous ne
commettez pas une erreur de α=5%. Car vous ne savez pas si vous rejetez à tort H0 (vous ne savez pas si en vrai,
H0 est vraie ou fausse). Vous savez simplement que si H 0 avait été vraie, vous auriez fait ce que vous êtes en
train de faire (rejeter H0) dans 5% des cas.
Figure 17 - Ensemble des distributions observables sous l'hypothèse de présence d'une réelle différence
Maintenant, question : est-il possible, alors que HΔ est vraie, que la différence que l’on
observe nous fasse dire que H0 est vraie (donc dire que HΔ est fausse) ? Autrement dit, est-il
possible que la différence observée nous fasse dire à tort que H0 est vraie ?
Avant de répondre à cette question, petit rappel. Quand est-ce qu’une différence observée
nous fait dire que H0 est vraie ? Réponse, lorsque la différence observée fait partie d’un
ensemble de différences fréquemment observables lorsque H0 est vraie. Quand est-ce que la
différence observée fait partie de cet ensemble ? Lorsqu’elle est comprise entre -d2,5% et
+d2,5%. Donc, je repose la question autrement : est-il possible d’observer une différence
comprise entre -d2,5% et +d2,5% lorsque HΔ est vraie ? Oui ! Et c’est l’ensemble en trait plein
rouge sur la figure 18.
48
Sous-entendu, Jacques et Jean lance le volant avec une force différente.
Est-ce que cela arrive souvent de dire que H0 est vraie, alors qu’en vrai, elle est fausse ?49
Réponse : c’est l’aire hachurée sous le trait rouge de la figure 18 (cf. figure 19). Donc, dans le
cas de la figure 19, oui, c’est un phénomène fréquent, car l’aire hachurée est bien supérieure
à 50%. Interprétons cette aire hachurée. Si en vrai, il existe une réelle différence Δ entre les
deux indicateurs réels dans les populations A et B, il sera malgré tout fréquent de dire qu’il
n’existe pas de réelle différence (puisque l’on dira que H0 est vraie). Cette erreur dans la
conclusion fait référence à l’erreur de 2ème espèce, notée β. Et en l’occurrence, β est l’aire
hachurée sous le trait rouge sur la figure 19 : c’est la probabilité d’accepter à tort H0.
Je voudrais maintenant faire deux remarques. Premièrement, les valeurs de -d2,5% et +d2,5%
ne dépendent pas de la valeur de la différence réelle Δ50 : en effet, rappelez-vous, tout le
raisonnement que vous aviez tenu au moment où je vous avais demandé de fournir la zone
de tolérance pour le lancer de volant ne se basait absolument pas sur l’hypothèse selon
laquelle Jacques et Jean avaient des forces de lancer différentes, n’est-ce pas ?! Au
contraire, le raisonnement se basait uniquement sur l’hypothèse selon laquelle ils avaient
tous les deux la même force de lancer. Deuxièmement, l’aire hachurée (β, donc) dépend de
la valeur de Δ : plus Δ augmente (en valeur absolue), plus cette aire diminue (cf. figure 19 &
figure 20 ; la place du « 0 », de -d2,5%, et +d2,5% n’ont bien entendu pas changé entre les deux
figures).
49
Non non, ce n’est pas une blague, cette question ! Je suis on ne peut plus sérieux.
50
on verra plus tard comment calculer ces valeurs de -d2,5% et +d2,5%.
Par conséquent, lorsque l’on accepte H0, on commet potentiellement une erreur. Cette
erreur dépend de la valeur de la différence réelle Δ, qui est inconnue. Par conséquent,
l’erreur β est in-con-nue. Le corollaire, excessivement important pour un vétérinaire (tout
comme pour un médecin en médecine humaine) qui souhaite se mettre à jour dans ses
connaissances en lisant des articles scientifiques, est le suivant : lorsque l’on accepte H0, il
est interdit d’être convaincu(e) que H0 est vraie. Il est interdit de penser que l’on a réussi à
prouver que les deux indicateurs θA et θB sont égaux en vrai. Ainsi, écrire ou dire « H0 a été
acceptée, donc les populations A et B sont similaires, ou comparables » est FAUX. C’est
pourtant une erreur qui est malheureusement très fréquemment commise dans les articles
scientifiques médicaux (y compris malheureusement vétérinaires)…
Vous comprenez par conséquent pourquoi les tests statistiques ne sont faits que pour
rejeter H0, pas pour l’accepter !51 Car lorsque l’on rejette H0, on a le droit d’en être
convaincu, alors que l’on ne peut pas l’être lorsque l’on accepte H0. À vous de poser H0 en
fonction de ce que vous souhaitez montrer ! Vous posez H0 : θA = θB quand vous voulez
montrer avec conviction que θA est différent de θB, et vous posez H0 : θA – θB = Δ ≠ 0 quand
vous voulez montrer avec conviction que θA = θB. C’est tout bête52.
A partir de maintenant, H0 sera tout le temps : θA = θB (c’est-à-dire, Δ = 0).
51
Cf. ce que je disais en fin de partie V.F.1
52
Cela dit, montrer avec conviction que θA = θB fait appel à une démarche statistique et clinique différente de
celle énoncée dans tout ce document, une démarche qui fait référence à celle utilisée dans les essais cliniques
d’équivalence ou de non infériorité (cf. partie V.F.1).
Le degré de signification est l’aire hachurée sous la courbe de la figure 2153. En math’, cela
donne : p = Pr(observer une |différence| ≥ |dobs|, sous H0). En français, c’est beaucoup plus
compliqué, mais beaucoup plus important à comprendre (car dans la vie de tous les jours, on
communique en français, pas en math’ !) : p est la probabilité d’observer une différence en
valeur absolue au moins égale à celle que l’on vient d’observer sous l’hypothèse qu’en vrai, il
n’y a aucune différence réelle entre les indicateurs comparés. Autrement dit, si en vrai il n’y
avait aucune différence réelle, il y aurait eu p % de chances d’observer une différence en
valeur absolue au moins égale à celle que l’on a observée. J’ai exceptionnellement souligné
la première partie de cette phrase, car c’est son omission dans la tête de nombreux
chercheurs qui génère les erreurs d’interprétation du degré de signification et donc
l’interprétation des résultats d’un test statistique ; cette partie soulignée est aussi celle qui
conduit à une relative inutilité du degré de signification (d’où la raison pour laquelle
certaines revues scientifiques ont banni des articles ce degré de signification54). Pourquoi ?
Parce qu’elle montre que le degré de signification est une probabilité conditionnelle,
conditionnelle au fait que H0 soit vraie. Or, comme on ne sait pas si, en vrai, H0 est vraie ou
non, la valeur du degré de signification n’a pas d’interprétation pratique.
53
Vous ne vous souvenez plus de ce que représente la courbe de Gauss de cette figure ? Revoyez la Figure 10
et la Figure 13 (et le texte qui va avec, éventuellement…).
54
https://www.sciencenews.org/blog/context/p-value-ban-small-step-journal-giant-leap-science
55
Goodman S. A dirty dozen: twelve p-value misconceptions. Semin Hematol. 2008;45:135-140. Vous pouvez le
retrouver ici : http://eve.vet-alfort.fr/course/view.php?id=353, section 3
56
Ce calcul de probabilité demande de très sérieuses connaissances sur les lois physiques qui gouvernent
l'évolution atmosphérique : principalement les lois de la mécanique des fluides, complétées par celles qui
régissent les changements d'état de l'eau (condensation, évaporation, formation des précipitations), la
turbulence, le rayonnement ou encore les nombreuses interactions avec la surface terrestre et même l'espace.
Donc, … bon courage.
57
« Malheureusement », car c’est ce lien qui génère les nombreuses erreurs d’interprétation du p.
Dans la figure 22.a, vous pouvez voir que si vous observez une différence dobs pile égale à la
valeur d2,5%, la valeur du degré de signification sera pile égale à α=5%. (Regardez à nouveau
la figure 15, la figure 16, et la figure 21, au besoin.) Si vous observez une différence dobs
strictement inférieure, en valeur absolue, à +d2,5%, la valeur du degré de signification sera
strictement supérieure à α=5% (figure 22.b). Si vous observez une différence dobs strictement
supérieure, en valeur absolue, à +d2,5%, la valeur du degré de signification sera strictement
inférieure à α=5% (figure 22.c).
Par conséquent, confronter la différence observée à d2,5% (comme je viens de vous
l’apprendre pendant pas mal de pages dans ce document) pour savoir si l’on accepte ou
rejette H0 est mathématiquement équivalent à confronter la valeur du degré de signification
à la valeur de α=5%. Si p ≤ α, on rejette H0 au risque d’erreur α, et l’on dit que la différence
observée est significative. Si p > α, on accepte H0 au risque d’erreur β inconnu, et l’on dit que
la différence observée n’est pas significative.
Et là, je vous vois venir… Vous obtenez un p=0,0001, donc vous pourriez vous dire « je vais
fixer α=1%, p < 1%, donc je rejette H0 au risque d’erreur α=1% ! ». Bien essayé. Mais ce
raisonnement est faux. Relisez encore la fin de la partie IV.B.3. (…) C’est comme si vous aviez
fixé votre zone de tolérance après avoir observé les deux distances de lancers de Jacques,
pour juger si Jacques lance ou non le volant avec une force différente de celle de Jean !
Dernière chose très importante, qui a justifié ce qui est écrit en page de couverture de ce
document : ce n’est pas parce qu’une différence n’est pas significative (p > 0,05) que l’on a
prouvé voire même le droit de penser que les deux groupes comparés sont « comparables »,
« similaires », ou « équivalents ». La raison est décrite en toute fin de partie V.F.4.
A. Introduction
Pour être valides, la majorité des tests statistiques nécessitent que les individus soient
indépendants les uns vis-à-vis des autres. Certains tests statistiques prennent justement en
compte cette non indépendance. Il est donc important de déceler les situations où les
individus sont indépendants, et celles où ils ne le sont pas.
Avant de définir ce terme d’ « indépendance », je dois introduire celui d’ « individu ». Un
« individu », dans une étude, est l’unité statistique sur laquelle sont calculés les indicateurs
statistiques (moyenne, médiane, pourcentage, …). L’individu peut être par exemple, le
prélèvement sanguin, l’animal, l’élevage, ou le propriétaire d’un animal. En règle générale,
dans un fichier de données, les « individus » sont placés en ligne, et il y a donc autant de
lignes que d’ « individus ». Et en colonne figurent les caractéristiques qui sont mesurées chez
les « individus ».
B. Définition d’ « indépendance »
Lorsque le phénomène de non indépendance est pressenti (plusieurs animaux d’un même
élevage, plusieurs animaux d’une même portée, plusieurs prélèvements sanguins d’un
même animal, …), il faut réfléchir au cas par cas s’il y a effectivement non indépendance sur
le caractère dont on calcule l’indicateur. Classiquement, lorsqu’il y a au moins deux
prélèvements sanguins d’un même animal, et si les statistiques portent sur les marqueurs
biologiques quantifiés à partir de ces prélèvements, il n’y a clairement pas indépendance des
individus (ici, l’individu est le prélèvement sanguin). Une autre situation classique est celle
qui va être décrite plus précisément dans la partie XI : un animal est vu deux fois, une fois
avant intervention (traitement, opération, …) et une fois après intervention, et l’on veut
savoir s’il existe une évolution entre ces deux moments. On mesure un caractère deux fois
sur un même animal, donc ces mesures (individus) ne sont pas indépendantes.
Il y a principalement deux choses à faire lorsque vous vous trouvez confronté(e) à une
situation de non indépendance (par exemple, quand vous serez amené(e) à analyser des
données dans le cadre de votre thèse vétérinaire).
Première chose, avouer que vous êtes dans une situation de non indépendance, que les
méthodes stat’ que vous avez utilisées ne sont donc probablement pas adaptées, donc les
résultats issus des tests statistiques sont à prendre avec précaution, et donc il faudrait
confirmer vos résultats en prenant en compte cette non indépendance. Deuxième chose,
vous utilisez les méthodes stat’ prenant en compte la non indépendance58.
58
Evident, non ? Oui, mais dans certaines situations, les méthodes stat’ sont trop compliquées ou demandent
trop de compétences en stat’, et alors, on se rabat sur la première chose à faire.
Le test de Student s’utilise lorsque l’on souhaite savoir si deux populations diffèrent sur la
moyenne d’un caractère quantitatif. Le test de Student utilise les lois de Student. Cependant,
dès que les tailles des deux échantillons dépassent 30, on peut approcher la loi de Student
par la loi normale centrée réduite, ce qui simplifie les calculs à la main59. Dans tous les
calculs qui vont suivre, les effectifs dans chacun des deux échantillons seront supposés > 30.
B. Notations
Soit {DIFF} l’ensemble de toutes les différences observables entre deux moyennes calculées
chacune à partir de deux échantillons, issus respectivement des populations A et B que l’on
souhaite comparer. Cet ensemble suit une loi de Gauss, centrée sur la vraie différence Δ = μA
- μB (avec μA et μB respectivement les moyennes dans les populations A et B) 60. Ainsi,
lorsqu’en vrai, il n’existe aucune différence de moyennes entre les deux populations A et B
(c’est-à-dire, μA = μB), la distribution de {DIFF} est centrée sur 0, avec un écart-type s{DIFF} (cf.
figure 23).
Figure 23 - Ensemble des différences observables entre deux moyennes sous l'hypothèse d'absence de réelle
différence
59
Mais lorsque les calculs sont faits par des logiciels, cette approximation n’est pas faite. Ce sont réellement les
lois de Student qui sont utilisées !...
60
Revoyez les figures 10 & 11, si besoin…
Trois conditions doivent être vérifiées avant d’effectuer le test de Student pour séries non
appariées.
1) Les individus issus des populations comparées doivent être considérés comme
indépendants.
2) Les variances dans les deux échantillons (SDA2 et SDB2) ne doivent pas être trop
différentes. En pratique dans le programme de 1ère année, on les considèrera comme « pas
1 𝑆𝐷 2
trop différentes » si 3 < 𝑆𝐷𝐴2 < 3.
𝐵
3) La variable quantitative dont on calcule la moyenne doit suivre une loi normale dans la
population dont est issu l’échantillon. En pratique, on vérifiera cette normalité dans
l’échantillon (cf. partie III.D).
1. Démarche de calcul
Première chose, définissons H0 pour le test de Student pour séries non appariées.
En stat’ / math’, H0, c’est : μA = μB.
Ok, sauf que « ça », ça ne parle à personne ! En français, H0, c’est : « la moyenne réelle de
l’indicateur dans la population A (μA) est égale à la moyenne réelle de l’indicateur dans la
population B (μB) ».
Je vous rappelle le principe même de tout test statistique : on peut rejeter H0 avec conviction
(car au risque d’erreur α connu, valant seulement 5%) si la différence que l’on observe fait
partie d’un ensemble de différences rarement observables lorsque H0 est vraie. Comment
est défini cet ensemble ? Par les valeurs de -d2,5% et +d2,5%. La figure 24 présente deux cas de
figure où H0 peut être rejetée avec conviction : (a) la différence observée dobs est > +d2,5%, (b)
la différence observée dobs est < -d2,5%. Quand |dobs| est < +d2,5%, on ne peut qu’accepter H0,
au risque d’erreur β inconnu.
La question est désormais : « comment calculer cette valeur – si fatidique – de d2,5% ? ». Pour
répondre à cette question, nous allons utiliser le fait que la taille des deux échantillons soit
supérieure à 30, et donc nous allons pouvoir approcher la loi de Student par la loi normale
centrée réduite. Soit d’2,5% la valeur telle que l’aire sous la loi normale centrée réduite à
droite de d’2,5% soit égale à 2,5%. Dans la mesure où la distribution est centrée sur 0, l’aire à
gauche de -d’2,5% est aussi égale à 2,5% (figure 25, pan de droite). La relation mathématique
entre d2,5% et d’2,5% est toute simple (vous l’avez apprise avant de venir à l’EnvA), et se trouve
aussi sur la figure 25.
Figure 25 - Détermination de d2,5% dans le test de Student pour séries non appariées
Donc, d2,5% = d’2,5% x s{DIFF}. Or, que vaut la valeur d’2,5% qui est telle qu’il y ait une aire sous la
loi normale centrée réduite à droite de d’2,5% égale à 2,5% ? Réponse sur la figure 26 : 1,96.
2
(𝑛𝐴 −1).𝑆𝐷𝐴 2
2 1 1 2 +(𝑛𝐵 −1).𝑆𝐷𝐵
Par ailleurs, 𝑠{𝐷𝐼𝐹𝐹} = √𝑠𝑡𝑜𝑡 . (𝑛 + 𝑛 ) avec 𝑠𝑡𝑜𝑡 =
𝐴 𝐵 𝑛𝐴 +𝑛𝐵 −2
Par conséquent, d2,5% = 1,96 x s{DIFF} dont la formule est donnée ci-dessus61.
Je vous rappelle62 que l’on rejette H0 lorsque la différence que l’on observe (dobs) fait partie
d’un ensemble de différences rarement observables lorsque H0 est vraie. C’est-à-dire lorsque
|dobs| > +d2,5%. Dans le cas contraire, on ne peut qu’accepter H0. Pour savoir si l’on peut
rejeter (avec conviction) H0 ou l’accepter (sans en être convaincu), il faut tout simplement
confronter la différence des deux moyennes que vous observez (dobs = mA - mB) à d2,5% que
vous venez de calculer.
61
Cette formule n’est pas à connaître par cœur : un formulaire vous sera donné lors de l’examen, et comprend
entre autres cette formule.
62
Je me permets de le faire un nombre assez important de fois, car je juge qu’il est fondamental de connaître la
base du raisonnement d’un test statistique (rejeter ou accepter H 0) pour être capable de l’interpréter
correctement.
63
De façon très générale (mais vous aurez l’occasion de revoir cela dans tous les articles que vous lirez dans la
suite de votre cursus), les résultats d’une étude doivent être cités au passé. Le présent est réservé à la
généralisation, à l’inférence, aux choses admises depuis un certain temps et validées par la grande majorité des
scientifiques/cliniciens.
Je vous laisse relire la définition du degré de signification (partie V.G.2), cela peut être utile
pour comprendre ce qui suit. (…) Vous devez donc calculer l’aire hachurée sur la figure 27 ci-
dessous.
Figure 27 - Représentation graphique du degré de signification avec le test de Student pour séries non
appariées
Comment ? En passant, là encore, par la loi normale centrée réduite ! Tout est indiqué sur la
figure 28… Une fois que vous avez calculé d’obs à partir de dobs et de s{DIFF}, vous lisez l’aire sur
la loi normale centrée réduite à gauche et à droite respectivement de -d’obs et de +d’obs dans
une table de la loi normale centrée réduite, en n’oubliant pas de multiplier par deux l’aire
lue dans la table... !
Figure 28 - Aide au calcul du degré de signification dans le test de Student pour séries non appariées
64
Oui, car elle fait référence à, à la limite, la seule et unique chose en stat’ qu’un(e) véto doit savoir en sortant
d’une école vétérinaire pour qu’il ne commette pas de mauvaises interprétations en lisant un article, lorsque p
> 0,05 (d’où la citation en page de couverture de ce document).
3. Conséquences
Première conséquence. Un degré de signification peut être inférieur ou égal à 0,05 (la
différence entre les deux indicateurs comparés sera donc significative) non pas forcément
parce que la différence observée est numériquement importante, mais parce que la taille
des échantillons est importante. Ainsi, une différence statistiquement significative n’est pas
synonyme d’une différence cliniquement pertinente.
Deuxième conséquence. Un degré de signification peut être supérieur à 0,05 (la différence
entre les deux indicateurs comparés sera donc non significative) non pas forcément parce
que la différence observée est numériquement faible, mais parce que la taille des
échantillons est faible. Ainsi, une différence statistiquement non significative n’est pas
synonyme d’une différence non cliniquement pertinente.
Le test du Chi2 s’utilise lorsque l’on souhaite savoir si deux (ou plus de deux) populations
diffèrent sur le pourcentage d’un caractère binaire (ou qualitatif). Dans cette partie VIII, nous
nous limiterons au cas de figure où il n’y a que 2 populations à comparer, et où le caractère
est binaire. Les autres cas de figure sont décrits dans la partie IX.
B. Notations
Je vais supposer que le caractère binaire est la présence d’une maladie M. Voici comment se
répartissent les effectifs observés dans chacune des quatre cases du tableau (cf. tableau 1).
Tableau 1
Présence de la maladie
Malade (M) Non malade (NM) Total
A OAM (pAM %) OANM nA
Échantillon
B OBM (pBM %) OBNM nB
Total nM (pM %) nNM nT
Par exemple, OAM est le nombre d’individus malades observé dans l’échantillon A, OBNM le
nombre d’individus non malades observé dans l’échantillon B. Il y a en tout nA individus dans
l’échantillon A et en tout nM individus malades dans l’ensemble de deux échantillons. Les
pourcentages observés d’individus malades parmi les individus des échantillons A et B sont
respectivement pAM % et pBM %, et le pourcentage d’individus malades dans l’ensemble des
deux échantillons A et B réunis est pM %.
1. Problématique
Avant de vous ruer sur le test statistique ou de vous ruer sur le degré de signification du test
du Chi2 lorsque vous lisez un article, vous devez savoir quels sont les pourcentages qui sont
comparés. En effet, écrire « l’effet d’un traitement (versus placebo) est significatif sur le taux
de guérison (p=0,02) », semble beaucoup apporter à la science (vétérinaire). Sauf que si l’on
nous dit que le pourcentage de guérison chez les animaux traités est de 35% et chez les
animaux non traités de 29% (guérison spontanée), tous deux significativement différents l’un
de l’autre, alors là vous vous demandez, à juste titre, si la différence de taux de guérison
vaut le coup de traiter l’animal, sachant que le traitement a probablement des effets
indésirables !...
Dans le tableau présenté sur la Figure 29, ce que j’ai entouré en pointillés verts est la façon
correcte de présenter les pourcentages. Et ce que j’ai entouré en trait plein en rouge est une
65
Puisque la somme fait 100%, et que rien (ou quasiment) n’est pile réparti à 50/50 dans la nature, même pas
le sexe des animaux domestiques ou sauvages (Nager RG, Monaghan P, Griffiths R, Houston DC, Dawson R.
Experimental demonstration that offspring sex ratio varies with maternal condition. Proc Natl Acad Sci U S A.
1999;96:570-573 ; Cameron EZ, Linklater WL. Extreme sex ratio variation in relation to change in condition
around conception. Biol Lett. 2007;3:395-397)
66
Peu importe qui sont les auteurs de l’article, là n’est pas la question.
1. Démarche de calcul
Le test du Chi2 ne compare pas, numériquement, les pourcentages de malades dans les deux
échantillons (pAM et pBM), contrairement au test de Student qui compare numériquement les
moyennes mA et mB. Le test du Chi2 compare des effectifs. Il compare notamment des
effectifs observés à des effectifs … attendus (sous H0).
Avant d’aller plus loin, un petit rappel (probabiliste). Deux événements A et B sont purement
indépendants si et seulement si 𝑃(𝐴|𝐵) = 𝑃(𝐴|𝐵̅ ) = 𝑃(𝐴)
Par exemple, prenons deux événements purement indépendants : A = « avoir les yeux
bleus » et B = « aimer le chocolat »67. L’égalité probabiliste ci-dessus devient, en français :
« En France, la proportion d’individus aux yeux bleus parmi ceux qui aiment le chocolat est
égale à la proportion d’individus aux yeux bleus parmi ceux qui n’aiment pas le chocolat ; ces
deux proportions sont égales et donc égales à la proportion d’individus aux yeux bleus en
France. » (En effet, s’il y a 24% d’individus aux yeux bleus parmi ceux qui aiment le chocolat,
et si la couleur des yeux est indépendante du goût pour le chocolat, alors il y a forcément
aussi 24% d’individus aux yeux bleus parmi ceux qui n’aiment pas le chocolat. Et si en France,
il y a 24% d’individus aux yeux bleus parmi ceux qui aiment le chocolat et 24% d’individus
aux yeux bleus parmi ceux qui n’aiment pas le chocolat, c’est qu’il y a forcément, en France,
24% d’individus aux yeux bleus !)
L’hypothèse nulle H0 du test du Chi2 est la suivante : πA = πB, avec πA la proportion réelle
d’individus « malades » dans la population A (et idem pour πB).
Le principe de calcul du test du Chi2 consiste à calculer les effectifs attendus sous H0, c’est-à-
dire « les effectifs que l’on aurait dû observer dans l’échantillon, si dans l’échantillon, H0
avait été observée ». Si, dans l’échantillon, H0 avait été observée, on aurait observé une
parfaite indépendance entre la présence de maladie et le fait d’appartenir au groupe A ou B
67
Si vous pensez qu’il existe une association entre ces deux événements, essayez d’imaginer qu’elle n’existe
pas (normalement, vous ne devriez pas avoir trop de mal à le faire…).
Présence de la maladie
Malade (M) Non malade (NM) Total
A EAM (pM %) EANM nA
Échantillon
B EBM (pM %) EBNM nB
Total nM (pM %) nNM nT
Pour observer pM % d’individus malades dans l’échantillon A de taille n A, il doit y avoir EAM =
nA x pM individus malades. Pour observer pM % d’individus malades dans l’échantillon B de
taille nB, il doit y avoir EBM = nB x pM individus malades. Les deux autres effectifs attendus
sous H0 (EANM et EBNM) s’obtiennent pas simple soustraction (nA - EAM et nB - EBM,
respectivement).
Une fois que ces quatre effectifs attendus sous H0 sont calculés, la démarche consiste à
calculer la différence entre les effectifs observés et les effectifs attendus sous H 0. La formule
est la suivante :
(𝑂𝐴𝑀 − 𝐸𝐴𝑀 )2 (𝑂𝐵𝑀 − 𝐸𝐵𝑀 )2 (𝑂𝐴𝑁𝑀 − 𝐸𝐴𝑁𝑀 )2 (𝑂𝐵𝑁𝑀 − 𝐸𝐵𝑁𝑀 )2
𝑑𝑜𝑏𝑠 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓𝑠 = + + +
𝐸𝐴𝑀 𝐸𝐵𝑀 𝐸𝐴𝑁𝑀 𝐸𝐵𝑁𝑀
(Dans la formule ci-dessus, je vous demande de mettre au moins un chiffre après la virgule
pour les effectifs attendus quand vous ferez les calculs. Sinon, les erreurs d’arrondis seront
trop importantes.)
Plus cette différence entre effectifs observés et effectifs attendus sous H0 est importante,
plus ce que l’on a observé est éloigné de H0, et plus on va donc avoir tendance à rejetter H0.
Si en vrai, H0 est vraie, alors l’ensemble des différences observables entre effectifs observés
et effectifs attendus sous H0 suit une loi du Chi2 à 1 degré de liberté (ddl). Cette loi est
représentée sur la figure 30.
68
Si ce n’est pas clair, relisez (plusieurs fois ?) ce que j’ai écrit sur la couleur des yeux et le fait d’aimer le
chocolat plus haut !...
Lorsque H0 est vraie, il arrive dans 5% des cas d’observer une différence entre effectifs
observés et effectifs attendus sous H0 au moins égale à 3,8469. Cette valeur de 3,84 est la
valeur au-delà de laquelle on va considérer que ce que l’on observe comme différence entre
effectifs observés et effectifs attendus sous H0 fait partie des événements rarement
observables lorsque H0 est vraie ; elle est donc la valeur à laquelle il faudra confronter la
valeur de dobs effectifs calculée pour accepter ou rejeter H0.
69 2
Cette valeur se retrouve dans la table d’une loi du Chi à 1 degré de liberté.
Comme pour le test de Student, je vous laisse relire la définition du degré de signification
(partie V.G.2), ainsi que ce j’ai écrit autour de la figure 30. Vous devez donc calculer l’aire
hachurée sur la figure 31 ci-dessous, à l’aide de la table de la loi du Chi2 à 1 ddl. Cette aire est
le degré de signification.
2
Figure 31 - Degré de signification avec une loi du Chi
Contrairement au test de Student pour séries non appariées, il n’y a pas besoin de multiplier
l’aire sous la loi par deux.
A. Présentation générale
Tous les tests statistiques dont je vais parler dans cette partie considèrent que les individus
sont indépendants (cf. partie VI). Ce qui guide le choix d’un test statistique est le type des
deux variables70 dont on cherche à savoir si elles sont associées. Le site Internet BiostatGV
vous fournit un beau tableau des différents tests statistiques, avec en plus la possibilité de
les réaliser en ligne ! Voici le lien : http://marne.u707.jussieu.fr/biostatgv/?module=tests
La Figure 32 ci-dessous présente les tests statistiques usuels lorsque les individus sont
indépendants.
Je vais être très succinct, dans ce qui suit. L’objectif est de vous apprendre à choisir le test
statistique adapté en fonction de la question de recherche d’une étude, et des hypothèses
de distributions qui sont faites (distributions normales / non normales) lorsqu’il s’agit de
variables quantitatives. Je ne vous demanderai pas de faire les tests statistiques de cette
partie « à la main ». Nous les réaliserons à l’aide du site Internet BiostatGV. Enfin, des infos
supplémentaires sur les différents tests peuvent se retrouver dans tout livre de stat’71.
70
Il existe quatre types de variables (numériques) : binaire, qualitative nominale (l’ordre des chiffres affectés
aux classes n’a pas de sens particulier, comme par exemple la race d’un vache codée en « 1 », « 2 », « 3 », ou
« 4 »), qualitative ordinale (l’ordre des chiffres affectés aux classes a un sens, comme par exemple la fréquence
de vomissements d’un chien codée en « 1 » pour « < 1 fois par mois », « 2 » pour « entre 1 fois par mois et 1
fois par semaine », ou « 3 » pour « ≥ 1 fois par semaine »), et quantitative.
71
Je recommande en particulier celui de T. Ancelle, intitulé « Statistique Epidémiologie », cf.
http://www.unitheque.com/Livre/maloine/Sciences_fondamentales/Statistique_epidemiologie-38398.html,
normalement disponible à la bibliothèque de l’EnvA.
Présence de mammites
Oui Non Total
Race A 5 29 34
Race B 20 54 74
Race C 7 49 56
Total 32 132 164
Il y a de nombreuses façons de mal citer les pourcentages qui vont être comparés puis testés
(cf. discussion partie VIII.C). Je vous propose une bonne façon de citer les pourcentages qui
vont ensuite être testés dans le cas du tableau 3 : le pourcentage de vaches avec mammites
parmi les vaches de race A (5/34=15%), celui parmi les vaches de race B (27%), et celui parmi
les vaches de race C (13%). S’il y avait parfaite indépendance entre la race des vaches et la
présence de mammites, ces trois pourcentages auraient dû être égaux. Et s’ils avaient été
égaux, ils auraient été tous les trois égaux au pourcentage global de vaches avec mammites
parmi l’ensemble des vaches de l’échantillon (soit 32/164=20%)72.
Ainsi, l’hypothèse nulle H0 de ce test est la suivante : πA = πB = πC (en prenant l’exemple de
trois groupes, bien entendu). Fournir cette hypothèse est tout sauf anodin. Si vous rejetez
H0, vous rejetez le fait qu’en vrai, les trois pourcentages soient égaux.
72
Si vous ne comprenez pas pourquoi, relisez la partie VIII.E.1.
73
Si la variable a 3 classes (si elle en a plus, je vous laisse mettre les lettres « D », « E », …).
4. Commentaires
Attention, lorsqu’une des deux variables est qualitative ordinale, le test du Chi 2 ne teste pas
de tendance ! Si vous observez que plus la variable qualitative (ordinale) augmente et plus le
pourcentage d’individus malades augmente, et si par ailleurs le degré de signification du test
du Chi2 est inférieur ou égal à 0,05, vous n’avez pas le droit de dire qu’il existe une
augmentation significative de la présence de la maladie lorsque la variable qualitative
augmente !74 Autre chose, revenons à nos vaches et à nos mammites. Vous observez que la
race B est beaucoup plus fréquemment atteinte par les mammites (27%) que les deux autres
races (15% et 13%, respectivement pour les races A et C). Vous n’avez cependant pas le droit
de dire que la race B est significativement plus fréquemment atteinte que les deux autres
races. Relisez ce qui précède ci-dessus une nouvelle fois, quand j’ai parlé de H0 et du rejet de
H0 avec ce test du Chi2… Le test du Chi2 est un test global, testant l’égalité des pourcentages
versus « au moins un différent des autres ».
Ce test doit être utilisé quand le test du Chi2 n’est pas applicable parce qu’au moins un des
effectifs attendus est inférieur à 5. L’utilisation et l’interprétation reste identique à celle d’un
test du Chi2 : H0, pourcentages à comparer, conclusion à l’issue du test. Seul le calcul du
degré de signification est différent, car il utilise la loi binomiale, plutôt que la loi du Chi2.
Ainsi, pour tester l’association entre deux variables binaires, ou entre une variable binaire et
une variable qualitative, je vous suggère les deux étapes suivantes :
1) Calculer les effectifs attendus ;
2) Si tous les effectifs attendus sont ≥ 5 effectuez le test du Chi2. Si au moins un des
effectifs attendus est < 5, effectuez le test de Fisher (en utilisant par exemple le site Internet
BiostatGV).
74
H0 est l’égalité des pourcentages ; rejeter H0, c’est rejeter l’égalité. Et le contraire d’ « égalité », ce n’est pas
« augmentation » (ou « diminution »), mais c’est « différent ».
L’ANOVA, comme son nom (en anglais) ne l’indique par vraiment, permet de tester trois
moyennes ou plus. L’ANOVA permet donc de tester l’association entre une variable
qualitative et une variable quantitative75. C’est en quelque sorte une généralisation du test
de Student qui, lui, ne permet de tester que deux moyennes. L’ANOVA doit être l’une des
méthodes les plus décrites dans les « choses » (cours, livres, pdf en ligne, forum de stat’, …)
de statistique, donc je ne vais que très peu en parler ici. Je vais en revanche vous parler de
choses à ne pas oublier, quand vous faites une ANOVA ou lisez les résultats d’une ANOVA
dans un article.
Le principe de l’ANOVA est de comparer la variance inter-groupe (le groupe étant l’une des
classes de la variable qualitative) à la variance intra-groupe (cf. figure 33).
L’hypothèse nulle lors d’une ANOVA est l’égalité de toutes les moyennes dans la population,
et l’hypothèse alternative est donc « il existe au moins une moyenne réellement différente
des autres ». Ainsi, ce n’est pas parce qu’une ANOVA fournit un degré de signification < 0,05
que vous avez montré qu’une moyenne en particulier était significativement différente des
autres (cf. discussion sur le test du Chi2 croisant une variable binaire à une variable
qualitative). Le test de l’ANOVA teste l’ensemble des moyennes.
Les conditions de validité de l’ANOVA sont : indépendance des individus et normalité de la
distribution de la variable quantitative dans la population (comme pour le test de Student).
La conclusion à l’issue d’un test de l’ANOVA est similaire à celle du test du Chi 2 testant
l’association entre une variable binaire et une variable qualitative.
Le test statistique de Mann-Whitney fait partie des tests statistiques dits « non
paramétriques », c’est-à-dire qu’ils ne sont pas basés sur des hypothèses de distribution de
probabilités76.
75
Si par hasard vous vous posez la question de savoir quel est le test statistique qui permet de tester
l’association entre une variable binaire et une variable quantitative, la réponse fait l’objet de la partie VII en
entier… ! (On va donc dire que vous ne vous êtes pas posé la question, n’est-ce pas ?!)
76
Cf. https://en.wikipedia.org/wiki/Nonparametric_statistics
77
Cf. https://en.wikipedia.org/wiki/Kruskal%E2%80%93Wallis_one-way_analysis_of_variance
A. Remarque préliminaire
Toutes les illustrations de cette partie font référence à la comparaison de moyennes, avec le
test de Student pour séries non appariées. Mais bien entendu, tout le raisonnement que je
vais appliquer pourrait s’appliquer à n’importe quel test statistique.
La puissance statistique d’une étude est « la capacité d’une étude à obtenir une différence
dobs significative entre deux indicateurs quand il existe une différence réelle ( ≠ 0) entre ces
deux indicateurs ».
Énoncée de façon plus statistique, la puissance statistique d’une étude est « la probabilité
qu’a cette étude de rejeter H0 en supposant qu’en vrai, H0 est fausse ». La figure 35 illustre
cette probabilité avec l’aire hachurée (en faisant l’hypothèse qu’il existe une réelle
différence Δ ≠ 0).
L’aire hachurée sur la figure 35 que pointent les deux flèches est bien la probabilité de
rejeter H0 (puisque cette aire représente la proportion de l’ensemble des différences
observables qui conduisent au rejet de H0, car plus grandes en valeur absolue à +d2,5%)
lorsque H0 est fausse (puisque cette distribution est centrée sur Δ ≠ 0). Remarquez que l’aire
à gauche de -d2,5% existe, mais est toute petite sur cette figure…
Maintenant, comparez la figure 35 à la figure 19 ! (…) En effet, la puissance statistique vaut
1-β. Cela dit, tout comme β était inconnue, la puissance statistique d’une étude est inconnue
(parce que la valeur de Δ est inconnue).
Regardez à nouveau la figure 35. (…) Qu’est-ce qui fait que l’aire hachurée (la puissance
statistique) augmente ? Première chose : Δ (la différence réelle entre les deux moyennes μA
et μB dans les populations A et B). Lorsque Δ augmente, la puissance statistique augmente
(figure 36).
Maintenant, imaginez que Δ reste fixée, qu’est-ce qui peut faire que la puissance stat’
augmente (retour sur la figure 35 ) ? (…) Réponse, si -d2,5% et +d2,5% se rapprochent de 0
(figure 37).
2 (
(𝑛𝐴 −1).𝑆𝐷𝐴 2
2 1 1 2 + 𝑛𝐵 −1).𝑆𝐷𝐵
Or, d2,5% = 1,96 x s{DIFF} avec 𝑠{𝐷𝐼𝐹𝐹} = √𝑠𝑡𝑜𝑡 . (𝑛 + 𝑛 ) 𝑒𝑡 𝑠𝑡𝑜𝑡 =
𝐴 𝐵 𝑛𝐴 +𝑛𝐵 −2
Regardez l’impact des effectifs (nA et nB) sur d2,5%. Vous remarquez en effet que d2,5%
diminue (donc -d2,5% et + d2,5% se rapprochent de 0) lorsque nA et/ou nB augmente(nt).
Regardez maintenant l’impact de SDA2 et SDB2. Vous remarquez que d2,5% diminue lorsque
SDA2 et/ou SDB2 diminue(nt). Et rappelez-vous, SDA et SDB quantifient la variabilité du
caractère quantitatif mesuré dans chacun des échantillons A et B.
Il arrive parfois (malheureusement pour les investigateurs d’une étude) qu’une étude ait
manqué de puissance statistique. Qu’est-ce que cela signifie ? Cela signifie qu’une étude n’a
pas réussi à montrer statistiquement une différence réelle. Quand est-ce qu’une étude ne
« réussit pas à montrer statistiquement (…) » ? Quand la différence testée n’est pas
significative. Et quand est-ce que cela arrive ? Quand le degré de signification p est > 0,0579.
En pratique, on invoque le manque de puissance statistique quand on a failli montrer
statistiquement une différence que l’on pense réelle. Le seuil communément admis pour
« failli montrer statistiquement » est la valeur de « 0,10 » pour le degré de signification p. Et
ce qui fait penser qu’il existe une réelle différence, c’est le fait d’observer une différence (ou
un effet) qui soit cliniquement importante. Ainsi, on invoque le manque de puissance
statistique si les deux critères ci-dessous sont tous les deux vérifiés :
Le degré de signification p ]0,05 ; 0,10] ;
Juger que la différence observée entre les deux groupes comparée est cliniquement
importante.
78
Ceci n’est pas totalement vrai en clinique thérapeutique. En comparant un groupe traité à un groupe
placebo, on augmente la différence réelle entre deux pourcentages de guérisons (par exemple), l’un calculé
dans le groupe traité, et l’autre dans le groupe placebo, en augmentant la dose de traitement – mais le risque
est qu’en augmentant cette dose, on augmente les risques d’effets indésirables…
79
Relisez la partie V.G.4 si vous ne vous souvenez plus pourquoi…
A. Introduction
Les « séries appariées » sont des cas particuliers où les « individus » ne sont pas
indépendants. Le cas le plus fréquent (et celui dont je vais parler) est décrit sur la figure 38. Il
s’agit de la situation où les animaux vont subir une intervention (un traitement, une
opération, …) et l’on souhaite savoir si cette intervention a un impact sur un caractère. Le
caractère peut être binaire ou quantitatif80. Il est évalué à t0 (CAR0), l’animal subit
l’intervention, et à un instant t1, l’animal est ré-évalué (CAR1).
Dans le cadre du module de Bases en biostatistique, seul le test de Student pour séries
appariées est au programme. Les autres ne le sont pas. Ils sont néanmoins présents dans ce
polycopié au cas où vous en auriez besoin pour des analyses statistiques futures
(notamment pour votre thèse vétérinaire).
Ce test doit être utilisé lorsque le caractère est quantitatif. Je ne vais pas entrer dans les
détails de ce test. Déjà, si vous savez que vous devez utiliser ce test dans la situation que j’ai
décrite ci-dessus, ce sera très bien (et cela vous permettra de repérer dans les articles ceux
qui ont utilisé un vulgaire test de Student pour séries non appariées alors qu’ils n’auraient
80
Le cas de figure où le critère serait qualitatif n’est pas traité dans ce document.
Le test de Student pour séries appariées ne peut pas s’utiliser si la distribution des
différences sur les N animaux ne suit pas une loi normale. De plus, les chiens, eux, doivent
être considérés comme indépendants !
Ce test doit être utilisé lorsque le test de Student pour séries appariées ne peut pas s’utiliser
à cause d’une non normalité de la distribution des différences. Ce test permet de tester si la
médiane du caractère quantitatif à t0 est ou non significativement différente de la médiane
du caractère quantitatif à t1.
Ce test doit être utilisé lorsque le caractère évalué à t 0 et à t1 est binaire. L’exemple présenté
dans le tableau ci-dessous est celui où le caractère évalué est la présence de symptômes. Les
données doivent être présentées telles qu’indiqué dans le tableau 4.
Tableau 4
Symptômes à t0
Oui Non Total
Symptômes Oui a b a+b
à t1 Non c d c+d
Total a+c b+d a+b+c+d
Par exemple, c = « le nombre d’animaux qui présentaient des symptômes à t 0 et qui n’en
présentaient pas à t1 ». Si N animaux sont évalués deux fois (à t0 et à t1), alors a+b+c+d = N.
𝑎+𝑐
Pour savoir si le pourcentage d’animaux symptomatiques à t0 (𝑎+𝑏+𝑐+𝑑) est
𝑎+𝑏
significativement différent du pourcentage d’animaux symptomatiques à t 1 ( ), il
𝑎+𝑏+𝑐+𝑑
faut utiliser le test de McNemar. Sans entrer dans les détails, ce test teste l’hypothèse nulle
selon laquelle il n’y a pas de différence du nombre de paires discordantes entre t 0 (c) et t1
(b)81. (D’ailleurs, vous voyez bien que si b=c, alors les deux pourcentages que j’ai cités plus
haut seront égaux.) La figure 40 ci-dessous vous présente un exemple avec des données
chiffrées telles que vous pourriez les recueillir pour une étude, et les placer dans le tableau
de la bonne façon pour effectuer le test statistique82.
81
Cf. https://en.wikipedia.org/wiki/McNemar's_test
82
Veuillez noter cependant que pour faire le test de McNemar sur de si faibles effectifs, une correction dite de
« continuité » est nécessaire.
83
Après avoir effectué le test statistique sur le site de BiotstatGV
(http://marne.u707.jussieu.fr/biostatgv/?module=tests), p=0,37 > 0,05 donc les deux pourcentages cités ne
sont pas significativement différents.
A. Introduction
Cela va sans dire, mais c’est mieux en le disant : cette partie est tentante, puisque l’on
pourrait se dire « je n’ai qu’à lire cette partie pour travailler mon examen ». Mais
évidemment que cela ne doit pas se passer comme ça. Je vous demande de comprendre (et
c’est ce que j’évaluerai lors des examens), et non pas d’apprendre par cœur les choses !
La notion de « population cible » est fondamentale, puisque c’est sur cette population que
l’on va faire de l’inférence, c’est-à-dire que c’est sur cette population que l’on va étendre les
résultats de l’échantillon.
La notion de fluctuation d’échantillonnage peut être résumée de la façon suivante : deux
échantillons parfaitement tirés au sort d’une même population (source) ne donneront pas
les mêmes résultats. Le hasard intervient toujours, et donc va toujours brouiller les pistes.
C. Statistique descriptive
Un « indicateur » provient d’un calcul mathématique, il donne une information résumant les
données d’individus. Quelques exemples d’indicateurs : moyenne, médiane, pourcentage
(taux de prévalence).
Pour un caractère quantitatif, la SD quantifie la variabilité du caractère quantitatif mesuré
sur les individus. Elle ne doit surtout pas être confondue avec la SE d’une estimation, qui
quantifie la précision avec laquelle cette estimation a été calculée.
L’intervalle de confiance à 95% d’une estimation d’un indicateur calculée dans un échantillon
indique que, sous réserve que l’estimation ne soit pas biaisée, il y a 95% de chances pour
que la valeur réelle de l’indicateur dans la population cible soit comprise dans l’intervalle de
confiance calculé.
L’hypothèse nulle H0 du test de Student pour séries non appariées est la suivante : la valeur
(inconnue) de la moyenne dans la population cible A (A) est égale à la valeur (inconnue) de
la moyenne dans la population cible B (B).
La démarche est ensuite la suivante :
1) Calculer dobs = mA – mB (différence des deux moyennes calculées dans les échantillons A et
B).
2) Calculer d2,5% ainsi :
d2,5% = 1,96 x s{DIFF}
2
(𝑛𝐴 −1).𝑆𝐷𝐴 2
2 1 12 +(𝑛𝐵 −1).𝑆𝐷𝐵
Avec 𝑠{𝐷𝐼𝐹𝐹} = √𝑠𝑡𝑜𝑡 . (𝑛 + 𝑛 ) et 𝑠𝑡𝑜𝑡 = (ces deux formules ne sont
𝐴 𝐵 𝑛𝐴 +𝑛𝐵 −2
pas à apprendre, elles se trouvent dans le formulaire qui sera fourni le jour de l’examen)
***
– That’s all, folks! –
XIII. REMERCIEMENTS
Je tiens à remercier toutes celles et ceux qui m’ont transmis leurs remarques afin de rendre
document plus facile à lire et à comprendre, et tout particulièrement Chloé Defives (promo
2019) et Nicolas Van Caenegem (promo 2018) pour leurs corrections, suggestions, et
commentaires très pertinents.