Académique Documents
Professionnel Documents
Culture Documents
Nombre d'événements
observé (%)
Échantillon 1
50 patients 7 (14%)
p=10%
Échantillon 2
50 patients 5 (10%)
p=10%
Échantillon 3
50 patients 5 (10%)
p=10%
Échantillon 4
50 patients 3 (6%)
p=10%
Figure 1 – Parmi 4 groupes de patients ayant la même probabilité p (appelée aussi risque) de
faire l'événement, les pourcentages d’événements observés varient d'un groupe à l'autre Ces
différences sont dues au hasard et sont appelées fluctuations aléatoires d’échantillonnage.
1
dans l’autre groupe, le hasard conduit à une valeur observée surestimant la vraie valeur. Par
cette double action du hasard en sens contraire, apparaît une différence entre les deux
pourcentages observés alors qu’en réalité ils auraient du être identiques puisque les patients
des deux groupes ont tous le même risque.
Le but pratique de la comparaison est de conclure, à partir de l’observation, sur l’existence
(ou non) d’une vraie différence entre les deux groupes. Comme la réalité est inconnue,
l’observation d’une différence apparente va faire conclure, à tort, à l’existence d’une
différence vraie entre ces deux groupes. Dans l’essai thérapeutique, la constatation d’une
différence suggère l’existence d’un effet non nul du traitement.
Ainsi les fluctuations aléatoires sont susceptibles de conduire à des conclusions erronées à
partir de l’observation. L’observation fait conclure à l’existence d’une différence qui, en
réalité, n’existe pas. Il s’agit d’une erreur statistique car elle est induite par les fluctuations
aléatoires. Elle est appelée erreur statistique de première espèce, ou erreur alpha.
Groupe contrôle
7%
prob = 10%
À l’opposé, les fluctuations aléatoires peuvent aussi faire disparaître une différence qui existe
pourtant. Lors de la comparaison d’un paramètre d’intérêt entre deux groupes pour lesquels il
existe une réelle différence, le hasard peut conduire à ce que les observations se rapprochent
les unes des autres, annulant ainsi la différence. L’observation conduit à conclure, à tort, à
l’absence de différence, conclusion là aussi erronée du fait des fluctuations aléatoires. Cette
erreur est appelée erreur statistique de deuxième espèce ou erreur bêta.
2
Groupe traité
8%
Réel effet du traitement prob = 5% Conclusion
diminuant de moitié la Pas de différence Il n ’existe pas de
probabilité des apparente différence, donc pas
événements Groupe contrôle d ’effet du traitement
8%
prob = 10%
3 Le test statistique
Il découle de ce que nous venons de voir concernant l’erreur statistique alpha que devant une
différence observée il existe deux possibilités : 1) cette différence est uniquement due au
hasard et en réalité elle n’existe pas ; 2) cette différence observée est la conséquence directe
d’une réelle différence entre les deux groupes.
Les comparaisons sont effectuées pour chercher à faire des conclusions à partir des
observations. Dans l’essai thérapeutique, on cherche à conclure ou non à l’efficacité du
traitement utilisé en comparant les résultats obtenus dans chaque groupe. De plus ces
conclusions vont être à la base de décision, dont les conséquences sont parfois très larges. A
partir des conclusions d’un essai thérapeutique, on prendra ou non la décision de
recommander l’utilisation d’un traitement.
S’il n’existait aucun moyen de faire la part des choses entre ces deux possibilités, aucune
conclusion et décision ne seraient possibles en pratique. Un risque d’erreur inconnu serait
constamment présent, laissant planer un doute sur toute conclusion. La solution à ce dilemme
est apportée par le test d’hypothèse.
Le test statistique est un moyen qui permet de rechercher s’il existe une réelle
différence entre 2 groupes
Devant une différence observée, le test statistique permet de calculer la probabilité que l’on
aurait d’observer ce résultat si en réalité il n’y avait pas de différence entre les deux groupes.
Cette probabilité est appelée p. Avec un peu moins de rigueur, il est possible de dire qu’elle
correspond à la probabilité que la différence observée soit due au hasard en l’absence d’effet
du traitement. Elle permet ainsi une quantification du risque de faire une erreur de première
espèce si l’on décidait de conclure à l’existence d’une différence entre les deux groupes.
En pratique, on avancera effectivement cette conclusion que si le risque que l’on a de se
tromper est suffisamment petit. Classiquement, il a été convenu que le risque acceptable
d’erreur alpha est de 5%. Ainsi, devant une différence observée, on conclura à l’existence
d’une réelle différence seulement si le risque de se tromper pris en faisant cette conclusion est
inférieur à 5%, c’est-à-dire, si la valeur de p donnée par le test est inférieure au seuil de 5%.
Le test statistique est donc un moyen de contrôler le risque d’erreur alpha. Il ne prend pas
directement en compte le risque d’erreur bêta.
Le risque alpha est le risque numérique (probabilité) de commettre une erreur statistique alpha. Le risque
bêta est celui de commettre une erreur bêta.
4 La signification statistique
3
Lorsque p≤5%, la différence est dite « statistiquement significative ». C'est-à-dire qu'elle est
suffisamment importante par rapport aux fluctuations aléatoires pour que sa probabilité d’être
observée en l'absence de réelle différence soit inférieure au seuil préalablement choisi de 5%
(seuil de la signification statistique).
Quand p>5%, la différence n’est pas « statistiquement significative ». En simplifiant, « elle
n’est pas suffisamment importante par rapport aux fluctuations aléatoires pour pouvoir
raisonnablement exclure qu’elle soit un artefact dû au hasard ». Une différence non
significative n’est pas synonyme d’absence d’effet. La comparaison est peut-être
insuffisamment puissante pour mettre en évidence la différence qui existe. L’absence de
preuve n’est pas la preuve de l’absence. Le problème du risque bêta et de la puissance
statistique sera envisagé dans une autre rubrique.
Différence observée
Différence observée
non nulle
non nulle
7% versus 12%
7% versus 12%
oui non
P< 5%
Un résultat statistiquement significatif signifie seulement que le risque d’erreur alpha est
faible, il ne signifie pas qu’il n’y a aucun risque d’erreur et que la conclusion que l’on fait est
une certitude. Avec un seuil de 5%, avec un résultat significatif il reste encore 5% de risque
de se tromper.
4
En toute rigueur, il n’est pas possible non plus de dire que la valeur de p représente la
probabilité que les résultats de l'essai soient dus à la chance. En fait, la valeur de p est la
probabilité d’observer un résultat sous l'hypothèse que seule la chance (les fluctuations
aléatoires d'échantillonnage) explique ce résultat. Il ne s'agit pas de la probabilité que la
chance donne ce résultat, puisque la chance donne ce résultat avec une probabilité de 1 (par
définition du risque α et du p on se place dans la situation où en réalité il n’y a pas de
différence).
Ce n’est pas non plus la probabilité de l’absence de différence. La valeur de p est la
probabilité d’observer un résultat en l’absence de différence, ce n’est pas la probabilité qu’il
n’y ait pas de différence compte tenu du résultat observé. Il est donc inexact de dire que le
degré de signification p mesure la probabilité d’absence de différence.
5
Il est difficile de définir des normes pour le choix du seuil de la signification statistique. Il
s’agit d’un choix de valeur. L’important est de se souvenir de la signification de ce choix et
du fait que la valeur habituelle de 5% est arbitraire et qu’elle n’est pas immuable. Le choix
d’une autre valeur plus restrictive est tout à fait possible.
Alors que l’hypothèse nulle est unique, l’hypothèse alternative correspond à une infinité de
situations P1-P0 = Δ où Δ peut prendre n’importe quelle valeur. Le risque ne peut donc être
déterminé que pour une certaine valeur de , correspondant à une hypothèse H1 particulière.
Le départage des hypothèses se fait à l’aide d’une valeur, noté p, déterminée à partir des
données observées. La valeur p est la probabilité d’observer des résultats au moins aussi en
1
Probabilité que le premier essai soit signification et que le second le soit aussi
6
désaccord avec l’hypothèse nulle que ceux qui ont été effectivement notés. Ainsi p chiffre le
degré de désaccord existant entre l’observation et l’hypothèse nulle.
À partir de la valeur de p calculée, le choix final de l’hypothèse se base sur la règle suivante :
Si p ≤ α, H0 est rejetée et H1 est acceptée.
Si p > α, aucune conclusion n’est faite (en particulier H0 n’est pas accepté car il n’est
pas possible de contrôler le risque d’erreur bêta).
Si dans l’ensemble de résultats que l’on passe par le filtre du test statistique, il y a p% de
résultats issus d’un traitement ayant l’efficacité attendue et 1-p% de résultats obtenus avec un
traitement sans effet, a l’issu de la filtration nous aurons 1 p % de faux positifs et
p 1 % de vrais positifs.
En termes de probabilité, après avoir obtenu un résultat qui passe le filtre (c’est à dire
statistiquement significatif), la probabilité que le traitement ai l’efficacité attendue est égale à
1 p , p étant dans ce cas la probabilité a priori que le traitement soit efficace.
1 p 1 p
Ce raisonnement est identique à celui que l’on peut faire en faisant le parallèle entre tests
statistiques et tests diagnostiques (cf. infra).
10 Bibliographie
1. Browner WS, Newman TB. Are all significant P values created equal? The analogy
between diagnostic tests and clinical research. JAMA 1987;257:2459-63.
2. Pfeffer MA, McMurray J, Leizorovicz A, for the Valiant investigators. Valsartan in acute
myocardial infarction trial (Valiant): rationale and design. Am Heart J 2000;140:727-
34.
3. Press SJ. Bayesian statistics: principles, models and applications. New-York: John Wiley
& Sons, 1989.
7
4. Sterne JAC, Davey Smith G. Sifting the evidence—what's wrong with significance tests?
BMJ 2001;322:226-31.