Académique Documents
Professionnel Documents
Culture Documents
Théorie Des Tests Statistiques: A. La Notion D' Étude
Théorie Des Tests Statistiques: A. La Notion D' Étude
Par ailleurs, les biostatistiques permettent ainsi d’être capable de porter un regard critique sur une
étude clinique avant d’appliquer un traitement à un animal malade ou avant de donner des conseils
de prévention à un propriétaire. Enfin, l’étude des biostatistiques permet d’acquérir des bases en
épidémiologie clinique. Les articles scientifiques vétérinaires font souvent appel aux outils issus de
l’épidémiologie.
* épidémiologie : science médicale permettant de comprendre les mécanismes de survenue d’un
mauvais état de santé d’un être vivant. On distingue l’épidémiologie descriptive (décrire et d’anticiper
l’apparition d’un mauvais état de santé) et l’épidémiologie analytique (rechercher les facteurs de risque
d’un mauvais état de santé afin, entre autres, de faire de la prévention efficace).
Le point commun parmi ces études ou enquêtes est le fait qu’elles soient constituées d’un
échantillon, et qu’elles aient pour objectif de faire porter leurs résultats issus de l’échantillon vers une
population d’individus.
B. ÉCHANTILLON
* échantillon : groupe d’ « individus » sur lesquels sont effectuées les analyses statistiques.
⚠ pour les animaux de production, l’échantillon peut être constitué :
- d’élevages
- d’animaux
1
UC 0213 – Théorie des tests statistiques (Cours)
C. POPULATION CIBLE
* population cible : population que l’on vise quand on met en place l’étude ; c’est la population à
laquelle on voudrait pouvoir étendre les résultats.
Il est fondamental de correctement définir la population cible quand on met en place une étude,
car elle va permettre de choisir la population source de telle façon à ce que cette dernière soit la plus
proche possible de la population cible. Savoir quelle est la population cible quand vous lisez un article
scientifique car vous, en tant que vétérinaire, saurez ainsi les individus sur lesquels vous pourrez a
priori appliquer les résultats de l’étude, et ceux sur lesquels vous ne le pourrez a priori pas.
Dans la très grande majorité des communications scientifiques, la population cible est mentionnée
dans l’objectif principal de l’étude.
D. POPULATION SOURCE
* population source : ensemble des individus susceptibles de faire partie de l’échantillon. Elle est
constituée des individus d’où sont extraits ceux qui ont fait partie de l’échantillon.
C’est uniquement la lecture du protocole d’une étude qui vous permet de définir la population
source d’une étude.
La conséquence majeure de la fluctuation d’échantillonnage est le fait que si l’on tirait au sort deux
échantillons issus de la même population source, les résultats dans chacun de ces deux échantillons
(par exemple, les deux moyennes ou les deux pourcentages calculés) ne seraient jamais identiques.
La fluctuation d’échantillonnage est inéluctable. Il faut toujours la prendre en compte lorsque l’on
lit les résultats d’une étude mais on ne sait jamais à quel point le hasard est intervenu dans les résultats
observés. Cependant, sous certaines hypothèses, le résultat qui aura été observé dans l’échantillon
aura des chances d’être proche de celui dans la population cible.
F. L’INFÉRENCE
* inférer : étendre les résultats observés dans l’échantillon à la population cible.
2
UC 0213 – Théorie des tests statistiques (Cours)
G. LE « CARACTÈRE » ET LA VARIABLE
* caractère : caractéristique intrinsèque ou extrinsèque d’un individu de l’échantillon.
* variable : nom donnée à un caractère collecté dans une étude lorsqu’on l’inscrit dans le fichier de
données.
* estimation : résultat d’un calcul d’un « indicateur » à partir des données d’un échantillon (on parlera
de l’estimation d’une moyenne (µ̂) ou d’un pourcentage (𝜋̂) à partir des données d’un échantillon).
La statistique descriptive fournit une estimation d’un indicateur (calculée dans un échantillon) qui
soit la plus proche possible de la valeur réelle de cet indicateur dans la population cible (qui est
forcément inconnue).
3
UC 0213 – Théorie des tests statistiques (Cours)
La variabilité d’un caractère quantitatif, fixée par la nature, ne dépend pas de la taille de
l’échantillon.
4
UC 0213 – Théorie des tests statistiques (Cours)
« Vmed la valeur de la médiane calculée dans un échantillon est telle que 50% des individus de
l’échantillon ont une valeur inférieure ou égale à Vmed (et donc 50% des individus de l’échantillon ont
une valeur supérieure à Vmed). »
« Q1 est la valeur pour laquelle 25% des individus de l’échantillon présentent une valeur du
caractère quantitatif étudié inférieure ou égale à la valeur de ce 1er quartile présentée par les auteurs »
« Q3 est la valeur pour laquelle 75% des individus de l’échantillon présentent une valeur du
caractère quantitatif étudié inférieure ou égale à la valeur de ce 3ème quartile présentée par les
auteurs »
« Dans l’échantillon, 50% des individus de l’échantillon ont une valeur du caractère quantitatif
comprise entre Q1 et Q3. »
5. L’ÉTENDUE
L’étendue (« Range » en anglais) ne peut être fournie que si le caractère est quantitatif. Elle
composée de deux valeurs : la valeur minimale et la valeur maximale de ce caractère observées dans
l’échantillon. L’étendue peut être fournie que le caractère suive ou non une distribution normale.
En pratique, on ne prélève qu’un seul échantillon de la population (source) donc pour quantifier la
précision on calcule la Standard Error (SE) (= écart type de l’estimation ) de cette estimation : + valeur
SE ↘ = + l’estimation est précise.
- SE d’une moyenne (𝑺𝑬𝒎 ) : 𝐒𝐃 (n = taille de l’échantillon)
𝑺𝑬𝒎 =
√𝒏
5
UC 0213 – Théorie des tests statistiques (Cours)
3. EN RÉSUMÉ
6
UC 0213 – Théorie des tests statistiques (Cours)
Même s’il n’y a aucun biais d’estimation, il ne faut pas oublier que , a fluctuation d’échantillonnage
(la manifestation du hasard) peut conduire à une estimation 𝜃̂ très éloignée de la valeur réelle dans
la population cible, sans que l’on s’en rende compte, puisque est inconnue. Cependant, sous réserve
d’absence de biais d’estimation, plus l’estimation est précise, plus a de chances d’être proche de la
valeur estimée 𝜃̂.
On fixe ce degré de confiance à 95%. Ainsi, un intervalle de confiance à 95% de 𝜃̂ est l’intervalle
dans lequel il y a 95% de chances que la valeur réelle dans la population cible s’y trouve.
« Si 𝜃̂ n’est pas biaisée par du biais d’estimation, il y a 95% de chances pour que la valeur réelle
dans la population cible soit comprise entre ICinf et ICsup »
̂ − 𝟏, 𝟗𝟔 × 𝑺𝑬𝜽̂
𝑰𝑪𝒊𝒏𝒇 = 𝜽 ̂ + 𝟏, 𝟗𝟔 × 𝑺𝑬𝜽̂
𝑰𝑪𝒔𝒖𝒑 = 𝜽
7
UC 0213 – Théorie des tests statistiques (Cours)
5. APPLICATION DE LA MÉTHODE
a. Estimer un pourcentage 𝝅 ̂
• Définir la population cible (les millions de chiens domestiques de toutes races atteints de
pancréatite en France) et le caractère dont on souhaite estimer le pourcentage (pourcentage
de prévalence d’hyperkaliémie).
• Constituer un échantillon de taille définie (49 chiens) parmi lesquels un certain nombre
d’individus présentent le caractère étudié (6 chiens atteints d’hyperkaliémie) et les autres ne
présentent pas ce caractère.
• Calculer le pourcentage de prévalence 𝝅 ̂ (6/49 soit 12%)
• Vérifier que l’on puisse effectuer le calcul de l’intervalle de confiance à 95% de cette estimation
𝜋̂ (𝑛 × 𝜋̂ > 5 et 𝑛 × (1 − 𝜋̂) > 5. Ici, avec n=49 et 𝜋̂ = 0,12 cela donne 49 × 0,12 = 6 et
49 × (1 − 0,12) = 43. Ces deux nombres sont > 5)
• Calculer l’intervalle de confiance à 95% de cette estimation 𝜋̂ (0,12 ± 1,96 ×
0,12×(1−0,12)
√ = [0,03 ; 0,21])
49
• Conclure : “si l’estimation de 12% n’est pas biaisée, il y a 95% de chances pour que le
pourcentage de prévalence réel d’hyperkaliémie parmi la population des chiens domestiques
de toutes races atteints de pancréatite en France soit compris entre 3% et 21%”
8
UC 0213 – Théorie des tests statistiques (Cours)
1. PRÉSENTATION THÉORIQUE
Supposons que, dans la population étudiée, un indicateur θ vaille θA dans le groupe A, et vaille θB
dans le groupe B. Soit Δ = θA – θB. Cette différence Δ est la différence réelle sur l’indicateur entre les
deux groupes A et B au sein de la population. Cette différence réelle Δ sera toujours inconnue (car les
valeurs θA et θB sont inconnues). Si l’on tire au sort n échantillons d’individus à partir de la même
population, chacun constitué des deux groupes A et B et que l’on calcule la différence observée entre
les deux indicateurs estimés (dobs 1, dobs 2, …, dobs n) pour chacune de ces n différences observées. Ces
n différences observées dobs sont toutes différentes entre elles (à cause de la fluctuation
d’échantillonnage), mais elles ont quand même des chances d’être proches de la vraie différence Δ,
puisque chacun des n échantillons est tiré au sort de la population au sein de laquelle les deux groupes
A et B diffèrent de Δ sur l’indicateur. Du fait de la fluctuation d’échantillonnage, la valeur observée de
la différence entre θ̂A et θ̂B (qui vaut dobs) dans un échantillon ne sera jamais égale à celle de la
différence réelle entre θA et θB (qui vaut Δ).
9
UC 0213 – Théorie des tests statistiques (Cours)
2. PRÉSENTATION PRATIQUE
En pratique, on ne tire au sort jamais n échantillons mais seulement un. On n’observe donc en
pratique qu’une seule différence observée. Par conséquent, la distribution ci-dessus ne représente
plus l’ensemble des différences observées, mais plutôt l’ensemble des différences que l’on aurait
observées si l’on avait tiré au sort n échantillons à partir de la population étudiée. Ainsi, ces différences
sont désormais des différences observables dans un échantillon lorsque la différence réelle est égale
à Δ.
De plus, on ne connaîtra jamais la valeur de Δ : on met en place une étude pour savoir si cette valeur
de Δ est égale à 0 ou bien si elle est différente de 0, uniquement à partir de l’unique différence
observée dans l’unique échantillon qui émanera de l’étude mise en place. Pour tenter de savoir si Δ
est différente de 0 ou pas à partir de la seule différence observée dobs dans l’échantillon on émet des
hypothèses.
On fait maintenant l’hypothèse qu’en vrai, il n’existe aucune réelle différence entre θA et θB, c’est-
à-dire que Δ = 0. On représente ci-dessous l’ensemble des différences observables sous cette nouvelle
hypothèse.
La distribution des différences
observables est centrée sur 0.
L’ordonnée de la figure correspond à
la fréquence de ces différences
observables (les différences éloignées
de 0 seront rarement observables, et
celles proches de 0 seront
fréquemment observables).
10
UC 0213 – Théorie des tests statistiques (Cours)
On ne sait pas s’il existe ou non une réelle différence entre les deux indicateurs A et B entre les
deux groupes A et B de la population. Si l’on suppose que l’on observe au sein de l’échantillon de
l’étude une différence égale à 3,5. Puisqu’observer « 3,5 » peut tout à fait être observable sous
l’hypothèse qu’il existe une réelle différence tout comme sous l’hypothèse qu’il n’existe pas de réelle
différence, la seule observation de « 3,5 » ne permet donc a priori pas de savoir s’il existe ou non une
réelle différence, puisque cette observation était observable dans les deux situations ( = 5 ou = 0).
Pour répondre à cette problématique, on utilise un test statistique qui va permettre d’évaluer à quel
point le hasard s’est immiscé dans l’étude et influe sur la valeur observée dans l’échantillon.
B. L’HYPOTHÈSE NULLE
* Hypothèse nulle (H0) : hypothèse que l’on souhaite rejeter avec force, pour affirmer son alternative
avec force.
⚠ L’hypothèse nulle H0 porte sur la population cible !
Si l’on souhaite montrer avec force que, dans la population, la valeur d’un indicateur dans un groupe
A est différente à celle dans un groupe B, l’hypothèse nulle H0 devra être :
« Dans la population cible, la valeur réelle de l’indicateur parmi les individus du groupe A (A) est égale
à celle parmi les individus du groupe B (B) » / « Dans la population cible, il n’y a strictement aucune
différence réelle sur la valeur de l’indicateur entre les individus du groupe A (A) et les individus du
groupe B (B) »
Si l’on souhaite montrer avec force que, dans la population, la valeur d’un indicateur dans un groupe
A est égale à celle dans un groupe B (+ rare mais c’est le cas dans les études cliniques d’équivalence),
l’hypothèse nulle H0 devra être :
« Dans la population cible, la valeur réelle de l’indicateur parmi les individus du groupe A (A) est
différente de celle parmi les individus du groupe B (B) ».
11
UC 0213 – Théorie des tests statistiques (Cours)
rejetée. Si ce n’est pas le cas, H0 ne pourra pas être rejetée. Dans ce cas, on dira que H 0 est acceptée
(acceptation par défaut, pas avec force) parce qu’elle n’a pas réussi à être rejetée.
D. LE DEGRÉ DE SIGNIFICATION
1. DÉFINITION DU DEGRÉ DE SIGNIFICATION
Le degré de signification (« p-value » en anglais aussi noté « p ») est la probabilité d’observer une
différence en valeur absolue au moins égale à celle que l’on vient d’observer (dobs) sous l’hypothèse
qu’en vrai, il n’existe aucune différence réelle sur la valeur de l’indicateur étudié entre les deux groupes
étudiés A et B dans la population cible. Autrement dit, si en vrai il n’y avait aucune différence réelle au
niveau de la population entre les deux groupes A et B ( = 0 ), il y aurait eu p % de chances d’observer
une différence en valeur absolue au moins égale à celle que l’on a observée.
Plus le degré de signification est faible, plus la différence qui a été observée fait partie des
événements rares sous H0, et par conséquent, moins on croira que H0 est vraie.
12
UC 0213 – Théorie des tests statistiques (Cours)
Le risque d’erreur de 1ère espèce α est fixé à la valeur du seuil pour le degré de signification de 0,05.
⚠ α ne quantifie pas la probabilité de se tromper en rejetant H0
(Ce qui correspondrait alors à la probabilité que H0 soit vrai lorsqu’on la rejette)
2. DÉFINITION DU RISQUE D’ERREUR DE 2ème ESPÈCE (β)
* Risque d’erreur de 2ème espèce (β) : probabilité d’accepter H0 quand H0 est fausse et que la différence
réelle vaut (donc ≠ 0)
La situation correspondant à « H0 est vraie » est unique mais celle correspondant à « H0 est fausse
et que la différence réelle vaut ( ≠ 0) » est multiple. Le risque d’erreur de 2ère espèce (β) dépend
donc de la valeur de , la différence réelle entre les deux indicateurs, dans la population cible. Or,
est inconnue donc la valeur du risque d’erreur de 2ème espèce β est inconnue donc la probabilité de
se tromper quand on accepte H0 est inconnue (et elle est potentiellement très grande).
Par conséquent, lorsque l’on accepte H0, il n’est pas possible de dire ou de penser que H0 est vraie.
Il est interdit de penser que l’on a montré que les deux indicateurs θA et θB sont égaux en vrai : absence
de preuve n’est pas preuve d’absence.
⚠ β ne quantifie pas l’erreur que l’on commet lorsque l’on accepte H0
13