Académique Documents
Professionnel Documents
Culture Documents
Approche fréquentiste
2022-2023
B. BIHIN
Nous ne pouvons nous fier à notre intuition pour analyser des données car :
1) Nous voyons du signal dans du bruit.
2) Nous avons du mal à concevoir que la variabilité est liée à la taille de l’échantillon.
3) Nous avons des mauvaises intuitions concernant les probabilités.
4) Nous avons du mal à combiner les probabilités.
5) Nous laissons nos croyances déterminer la manière dont nous analysons des données.
6) Nous ne prenons pas en compte la régression vers la moyenne.
Régression vers la moyenne :
Lorsqu’une mesure est soumise à une variabilité aléatoire, si l’on effectue plusieurs mesures chez
un même individu, les mesures d’un individu extrême au test 1 auront tendance à se rapprocher de
la moyenne au test 2.
à Nous avons besoin de méthodes rigoureuses pour analyser et interpréter des données.
Dès qu’une nouvelle donnée est venue contredire sa conclusion, elle a spontanément remis en question
cette nouvelle donnée plutôt que la validité de sa conclusion. La tendance à extrapoler d’un échantillon à
toute une population est ancrée en nous.
Les coïncidences étonnantes sont toujours remarquées a posteriori et jamais annoncées à l’avance.
Une variation aléatoire peut avoir un plus grand effet sur les moyennes dans des petits groupes que dans
des groupes plus nombreux.
On dit qu’un résultat est statistiquement significatif lorsqu’il se produit par hasard dans moins de 5% des
cas.
Les gens ont une idée préconçue à propos de la conclusion ; ils ont tendance à interpréter les données en
faveur de cette conclusion.
Les conclusions statistiques s’expriment en termes de probabilités ; elles signifient ne jamais dire qu’on est
certain.
v Régression vers la moyenne : plus la valeur d’une variable est extrême lors de sa première mesure, plus
il est probable qu’elle soit plus proche de la moyenne lors de sa deuxième mesure.
1
• (Une évaluation subjective, dépendant du crédit que chacun accorde à une hypothèse.) = approche
bayésienne.
2
IV. CALCULS PLUS FACILES EN PASSANT AUX NOMBRES ENTIERS
Changer la formulation en passant à des nombres entiers permet de faciliter les calculs de probabilités.
V. ERREURS FREQUENTES
Les probabilités sont toujours liées à un ensemble d’hypothèses.
Si A est vrai, quelle est la chance que B survienne ? Cela s’appelle une probabilité conditionnelle, parce
qu’il s’agit de la probabilité qu’un certain évènement B survienne conditionnellement à ce qu’un autre
évènement A survienne aussi.
Il est impossible de comprendre ce que le taux de réussite signifie sans savoir exactement comment les
numérateur et dénominateur ont été définis.
Il est facile d’intervertir malencontreusement un énoncé de probabilité. La
probabilité n’a pas de vocabulaire.
VI. JARGON
Les cotes et probabilités sont deux façons d’exprimer exactement la même chose. Toute probabilité peut
être exprimée par une cote et inversement. v Cote : probabilité que l’évènement se produise divisée
par la probabilité qu’il ne se produise pas. Une cote peut être tout nombre positif ou nul, mais pas
négatif.
v Probabilité : elle doit être un nombre compris entre 0 et 1 quand elle est exprimée sous la forme d’une
fraction, ou comprise entre 0 et 100 lorsqu’elle est exprimée en %.
Une probabilité de 0,5 correspond à une cote de 1. Quand la probabilité passe de 0,5 à 1, la cote augmente
de 1 à l’infini.
On part du cas général, la population ou le modèle et on fait des prédictions sur ce qui arrivera dans
beaucoup d’échantillons de données. Les calculs de probabilités vont du général au particulier.
Les calculs statistiques vont dans le sens opposé ; on part avec un ensemble de données, l’échantillon, et
on en tire des déductions sur la totalité de la population ou du modèle.
Probabilité et vraisemblance sont assez synonymes. Vraisemblance a une signification technique différente
de probabilité.
ð Toutes les probas peuvent être exprimées soit en fractions soit en pourcentages. ð Toutes les
fractions ne sont pas des probas ; une fraction n’est une proba que s’il n’y a que 2 résultats
possibles.
ð Les valeurs des probas sont toujours comprises entre 0 et 1 (100%).
3
Chapitre 3 : de l’échantillon à la population
1. Contrôle qualité
Caractéristiques de la population = paramètres = caractéristique d’un modèle statistique On
pose un modèle pour trouver µ (moyenne) et σ (écart-type).
Si l’espérance E correspond à ce que l’on veut, en l’occurrence la moyenne, alors il n’y a pas de
biais.
Comment savoir si le modèle posé est juste, si on tourne bien autour de µ?
• Simulations : dans un cas où on connait la population, on sait ce que vaut µ puis on compare.
• Bien tirer au hasard dans la population ; prendre un échantillon aléatoire et indépendant.
Si l’échantillon n’est pas pris de manière aléatoire et indépendante, E = µ+ δà estimation
biaisée. Il s’agit d’une variation aléatoire + une variation systématique. Si l’on est très
proche de µ, ce n’est pas un biais, mais de la variabilité.
2. Sondage pré-électoral
On prend un échantillon aléatoire et indépendant. Il faut cependant s’assurer d’avoir des réponses
honnêtes. Il faut aussi s’assurer que les réponses soient stables.
Comment s’assurer qu’il n’y ait pas de biais ?
1. S’assurer que nos hypothèses soient respectées.
2. Comme on a les résultats à la fin du sondage, on peut comparer la valeur visée et la valeur
vraie. Sinon, si le résultat est biaisé, on obtiendra π+ δ, un biais.
3. Essai clinique
On évalue l’efficacité de traitements chez des patients.
On n’a plus une population définie car il s’agit par exemple d’un ensemble de patients actuels, mais on
veut connaitre le résultats aussi pour les futurs patients. Cette population n’existe donc pas réellement,
elle est hypothétique.
4
L’échantillon ne sera pas véritablement aléatoire et indépendant. Il faut aussi une réponse adéquate. Au
niveau de la stabilité, c’est compliqué dans le monde médical : les virus évoluent, ainsi que l’immunité ; il
n’y a donc pas vraiment de stabilité.
On résume l’échantillon avec une statistique, on essaye de dire qqchose du paramètre (=inférer) et on
essaye de viser juste. Il se peut qu’il y ait un biais, car on ne possède jamais la réponse à la fin de l’essai.
On n’est donc jamais sur de viser juste.
Il faut alors évaluer la marge d’erreur.
Messages clés :
Nous ne pouvons pas nous baser sur notre intuition pour interpréter des données.
La probabilité peut avoir deux sens différents en statistique : une fréquence relative à long terme ou un
degré de croyance.
Chaque probabilité est basée sur une série d’hypothèses.
La probabilité va du général vers le particulier, tandis que la statistique part du particulier pour tirer des
conclusions plus générales.
On parle de biais lorsque le design expérimental est incorrect, conduit en moyenne à une surestimation
ou une sous-estimation.
v Population cible (d’intérêt): ensemble hypothétique d’individus à propos duquel on souhaite tirer une
conclusion générale.
v Population échantillonnée: ensemble d’individus susceptibles de faire partie de l’échantillon.
v Échantillon: une partie d’un ensemble ou d’une population, qui peut être sélectionnée aléatoirement
ou non, et qui est utilisée pour dire quelque chose à propos des caractéristiques de l’ensemble ou de
la population d’origine.
ð Si l’échantillonnage est aléatoire, alors l’échantillon aura, en moyenne, les caractéristiques de
la population dont il provient. Les échantillons provenant d’une même population sont tous
différents.
v Échantillonnage aléatoire : prélèvement d’un échantillon au sein d’une population dont le résultat ne
peut être prédit, dont les mécanismes sont incompris, qui est indépendant d’autres évènements.
v Description : synthèse, numérique, d’une série d’observations faites au niveau d’un échantillon v
Une statistique : est une valeur résumée, calculée à partir des observations d’un échantillon. v La
statistique : est la science de la collecte, de l’analyse et de l’interprétation des statistiques. v La
biostatistique :est l’application de la statistique à l’analyse de données biologiques et médicales. v
Un paramètre: mesure qui décrit certaines caractéristiques d’une population. v L’inférence
statistique : est l’utilisation d’observations issues d’un échantillon pour tirer des conclusions à propos
des paramètres d’une population.
v Estimation :
v Biais : écart entre le paramètre estimé au sein de la population échantillonnée (π’) et le paramètre visé
dans la population cible (π).
5
I. DE L’ECHANTILLON A LA POPULATION
On extrapole souvent les conclusions de l’échantillon à la population.
1. Contrôle de qualité
2. Sondages politiques
3. Études cliniques
4. Expérimentations en laboratoires
Dans les contrôles de qualité ou les sondages politiques et de marketing, la population est beaucoup plus
grande que l’échantillon, mais est surtout finie et connue.
En recherche biomédicale, on suppose que la population est infinie ou du moins très large
comparativement à l’échantillon.
Il y a plusieurs raisons pour lesquelles une valeur calculée à partir d’un échantillon pourrait ne pas être
valable pour la population entière :
• Erreur d’échantillonnage : moyenne/pente de régression/proportion calculée plus élevée ou plus
basse que la population entière.
• Biais de sélection : collecte des informations non aléatoire.
• D’autres formes de biais : méthodologie expérimentale imparfaite…
6
Chapitre 4 : intervalle de confiance d’une proportion
v Intervalle de confiance (IC) : intervalle de valeur qui est construit à partir des valeurs d’un échantillon
de manière à contenir la paramètre de la population avec un certain niveau de confiance. Le niveau de
confiance (noté 1-α) est habituellement fixé à 95% (on parle alors d’intervalles de confiance à 95%, IC95),
ce qui signifie que, en moyenne, sur 100 IC, 95 contiennent le paramètre visé et 5 ne le contiennent pas.
Ce niveau de confiance est garanti pour autant que certaines hypothèses soient respectées : les individus
sont sélectionnés de manière aléatoire et indépendante dans la population cible et la valeur mesurée
est correcte.
Comment vérifier que l’IC95 contient bien le paramètre visé dans 95% des cas ? Utilisation d’une
simulation (dans laquelle on connait le paramètre visé et l’on effectue de nombreux tirages aléatoires)
pour vérifier les propriétés de l’IC95.
7
1. Échantillon aléatoire
L’échantillon de données analysées a été extrait d’une population beaucoup plus grande. L’échantillon
doit être sélectionné de manière aléatoire.
2. Observations indépendantes
L’intervalle de confiance n’est valable que lorsque tous les sujets proviennent d’une même population et
que chacun a été sélectionné indépendamment des autres.
3. Données correctes
L’intervalle de confiance est correct uniquement si le nombre de sujets a été comptabilisé correctement
dans chaque catégorie.
V. JARGON
Les deux extrémités de l’IC sont appelées limites de confiance. L’IC est un intervalle, alors que chaque
limite est un nombre.
8
• La marge d’erreur est la direction dans laquelle s’étend l’IC dans chaque sens. La longueur de
l’intervalle vaut 2x la marge d’erreur.
• L’intervalle de confiance est symétrique par rapport à p’, mais n’est pas symétrique par rapport à
la proportion observée p.
Lorsque la proportion est proche de 50% : la marge d’erreur de l’IC est approximativement égale à √1/n.
9
Résolutions sous différentes approches
Intervalle de crédibilité = intervalle de confiance lors d’une approche bayésienne
1. Approche fréquentiste classique o Hypothèses : tirages
aléatoires et indépendants o Calcul IC95
o ) doit se situer entre x et y o Le joueur réussit entre x et y
lancers
2. Approche bayésienne avec a priori non informatif o A priori
on pense que ) peut être n’importe où entre 0 et 1 o
Hypothèses : tirages aléatoires et indépendants o Calcul IC95
o ) doit se situer entre x et y o Le joueur réussit entre x et y
lancers
10
IX. ERREURS FREQUENTES
1. Utiliser 100 comme dénominateur quand la valeur est donnée en %.
2. Calculer les IC binomiaux à partir de variations en % d’une variable continue (les méthodes de ce
chapitres s’appliquent à des variables dichotomiques).
3. Calculer un IC sur des données qui ressemblent à une proportion, mais qui n’en sont pas.
4. Interpréter un intervalle crédible sans connaitre quelle probabilité a priori était supposée : les
intervalles crédibles dépendent à la fois des données et de l’hypothèse sur les probabilités a priori.
ð Entre une IC à 90% et à 95%, celui à 95% est le plus large. ð Il est possible mais inutile de
générer une IC à 100%.
ð L’amplitude/largeur d’un IC est à peu près proportionnelle à √! $%&’’()( .%"$&’’/"
’ +é-
. Si on multiplie la
TE par 4, l’amplitude de l’IC est divisée par 2.
ð On ne peut calculer un IC sans connaitre la taille de l’échantillon, car l’amplitude dépend de la
taille de l’échantillon.
ð L’IC n’est pas symétrique autour de la proportion, car étant donnée qu’une proportion est
comprise entre 0 et 1, l’IC est déséquilibré quand la proportion est loin de 0,5 ou que la TE est
petite. ð On ne sait jamais quand la valeur sera hors de l’IC tant qu’on ne connait pas la valeur
de la population.
Le dénominateur n’étant pas la somme des « participants », le résultat n’est pas une proportion ; on parlera
de taux (TA). Le taux est le ratio nombre/personne x jour.
Les dénombrements ressemblent à des proportions mais n’en sont pas car le dénominateur ne correspond
pas à un total d’événements + non-événements.
Dans la littérature médicale, ce type de données est surtout utilisé pour dénombrer un nombre
d’événements par personnes-années.
11
I. LA DISTRIBUTION DE POISSON
La distribution de Poisson est une distribution aléatoire. Elle prédit la fréquence avec laquelle n’importe
quel nombre particulier d’évènements ou d’objets sera observé.
La distribution de Poisson est asymétrique : c’est dû au fait que le nombre d’unités observé ne peut être
inférieur à 0 et n’a pas de borne supérieure.
Pour connaitre un IC à 95%, il faut connaitre le nombre exact de décès observés dans l’étude.
IV. COMMENT EST CALCULE L’IC POUR UNE VARIABLE SUIVANT UNE LOI DE POISSON
Ce dont on a besoin, c’est le nombre (C) observé dans un échantillon :
• Si on a plusieurs échantillons, il faut additionner les nombres observés dans chaque échantillon
pour calculer le nombre total. Il faudra ensuite diviser les bornes de l’intervalle par le nombre
d’échantillons qui ont servi à calculer C.
ð La distribution binomiale décrit comment sont répartis deux résultats possibles. La distribution
de Poisson décrit le nombre possible d’objets que l’on peut trouver dans un volume donné ou le
nombre de réalisations d’un évènement pendant un certain intervalle de temps.
ð Il est possible de calculer un IC lorsque le résultat du dénombrement vaut 0 ; l’IC va de 0,0 à 3,69.
12
Chapitre 5 : intervalle de confiance des données de survie
Lorsque l’on n’a pas accès à la fin de l’information, la donnée est censurée. Ici, comme pour l’allumette,
on connait le début mais la fin. On ne peut donc pas tirer de conclusion de cet information. Les
données de survie sont censurées : calculer, représenter ou comparer les données de survie nécessite
des méthodes particulières.
Si on applique une méthode intuitive, on aboutit à un graphique qui pose problème. Donc on utilise la
méthode suivante :
Méthode de Kaplan-Meyer
1. Ramener tout le monde à 0 (T0 = date de diagnostic, par exemple).
2. Créer des intervalles (on peut regrouper 3 intervalles identiques) à chaque temps auquel un
événement est observé.
3. A chaque intervalle :
a. Compter les personnes à risque (nj)
b. Calculer la survie totale (= produit des survies par intervalle)
4. (Placer les valeurs sur un graphique)
5. (Identifier la survie médiane ou la survie à différents temps)
La population à risque diminue de 1 à chaque fois qu’un individu subit une migraine, soit à chaque fois que
l’évènement se produit 1x.
Pour le groupe B, comme les trois potentiels à risque ont chacun eu une migraine, alors le graphique, donc
la survie tombe à 0 à la fin.
Fonction de répartition = 1 – survie
Les données de survie peuvent également ressembler à des proportions (% de personnes en vie à un
certain temps) mais n’en sont pas. Pour aboutir à un % à un certain temps, il convient d’appliquer la
méthode de Kaplan-Meier qui tient compte des données censurées.
Pour ces trois types de données (binaire, dénombrement, censurée), il existe des statistiques et des
graphiques pour décrire l’échantillon et des intervalles (ou bandes) de confiance pour se faire une idée
de la population.
13
Les évènements qui ne peuvent se produire qu’une seule fois sont souvent représentés sous forme d’un
graphique du pourcentage de survivants en fonction du temps = courbe de survie.
I. DONNEES DE SURVIE
Ces courbes de survie peuvent s’appliquer au temps écoulé jusqu’à n’importe quel point final ou
évènement bien défini. L’évènement est souvent la mort mais peut aussi être autre chose ; on parle alors
de temps de défaillance.
Il faut que l’évènement ne se produise qu’une fois au cours du temps.
Les méthodes suivantes ne s’appliquent que lorsqu’on connait le temps de survie de chaque sujet.
Pour calculer la proportion de patients qui ont survécu depuis le jour 0 jusqu’à un jour donné k, on fait
(proportion patients qui survivent le jour 1) x (proportion patients qui survivent le jour 2) x (proportion
patients qui survivent le jour k). Cette méthode prend automatiquement en compte les données
censurées. Cette méthode est aussi appelée méthode du produit limite.
Le temps zéro est le moment auquel chaque patient est entré dans l’étude. Au temps 0, par définition,
tous les patients sont en vie et donc la survie est de 100%.
Sur le graphique, c’est x = 0. Lorsqu’un patient décède, la proportion de patients survivants décroit. Si
l’étude était suffisamment longue, la proportion pourrait tomber à 0.
14
A chaque instant, l’IC est asymétrique. Cela provient de ce que le pourcentage de survivants ne peut pas
descendre sous 0 ni dépasser 100. Cette asymétrie est particulièrement observable lorsque le nombre de
survivants est loin de 50% et que la taille de l’échantillon est petite. L’intervalle est symétrique quand le
nombre de survivants est égal à 50% et presque symétrique lorsque la taille de l’échantillon est énorme.
Ce temps médian n’est pas défini lorsque plus de la moitié des sujets sont toujours en vie à la fin de l’étude.
Si la courbe de survie est horizontale au niveau de 50% de survivants, il faut prendre la moyenne entre la
1e et la dernière valeur du temps correspondant à 50% de survivants.
Le temps moyen de survie n’est pas souvent calculé car il requiert de connaitre le moment de chaque
décès. Il ne peut donc être calculé si certaines observations sont censurées ou si certains sujets sont
encore en vie à la fin de l’étude. Par contre, le temps médian peut être calculé même si certaines
observations sont censurées et si l’étude s’achève avant que tous les sujets ne soient décédés.
Pour obtenir le pourcentage de survivants à 5 ans, il faut tracer une droite verticale en l’abscisse x = 5 et
repérer la valeur d’y correspondante sur la courbe de survie.
6. La censure n’est pas liée à la survie : l’analyse de survie est valide seulement lorsque les raisons
de censure ne sont pas liées à la survie. La meilleure stratégie est d’analyser les données des
deux manières. Si les conclusions sont similaires, alors les résultats sont simples à interpréter. Si
les conclusions diffèrent sensiblement, alors les résultats de l’étude sont ambigus.
7. La survie moyenne ne change pas au cours de l’étude : l’analyse n’a de sens que si l’on suppose
que les derniers sujets sont échantillonnés dans la même population que celle dont ont été
extraits les premiers patients. Il est également important que le traitement ne change pas au
cours de l’étude.
15
ð Si la bande de confiance est trop large, on doit récolter plus de données pour la rétrécir. Si on fait
!"#$%&# (& ")*!+,&-% -% !./0
TE x 4, on fait
1
.
ð Mode :
1. Compter l’occurrence de chaque valeur
2. Mode = valeur la plus fréquente
ð Médiane :
1. Ranger les n valeurs par ordre croissant
2. Si n impair : médiane = valeur située à la position (n+1)/2
3. Si n pair : médiane = moyenne des deux valeurs situées aux positions n/2 et (n+2)/2
v Précision : la précision est grande quand les différentes estimations d’une même quantité sont proches
de la moyenne des estimations..
Remarques :
1. Peu importe si l’estimation moyenne est loin de la réalité, on peut être précis mais à côté de la
plaque.
2. Les barres représentent l’écart-type qui mesure à quel point des valeurs s’écartent de la moyenne.
v Biais : le biais est l’écart entre la vraie valeur et la valeur estimée en moyenne sur une infinité
d’estimation.
Si on demandait à une infinité de personnes d’estimer l’âge de quelqu’un, le biais serait la décalage
entre la vraie valeur et la moyenne des estimations.
16
On ne calcule pas une moyenne d’une variable discrète ordinale.
Mesures de dispersion
Percentiles (CF fonction de répartition) Résumé en 5 chiffres :
1. (P0, P25, P50, P75 et P100)
2. IQR : écart interquartile
I. DONNEES CONTINUES
Les données continues sont plus fréquentes que les données d’autres types.
La médiane est la valeur du milieu. Il faut ordonner les valeurs de la plus petite à la plus grande afin
d’identifier celle du milieu. Au cas où le nombre de valeurs est pair, la médiane est égale à la moyenne
des deux valeurs centrales. Elle n’est pas influencée par les valeurs aberrantes et peut même être plus
utile avec des distributions asymétriques.
17
La moyenne géométrique s’obtient en prenant d’abord le logarithme de toutes les valeurs, puis en
calculant la moyenne arithmétique de ces logarithmes et enfin en prenant l’antilogarithme de cette
moyenne. La moyenne géométrique ne peut pas être calculée si certaines valeurs sont nulles ou
négatives.
La moyenne harmonique est obtenue en prenant l’inverse de chaque valeur et en calculant ensuite la
moyenne arithmétique de ces inverses. La moyenne harmonique est l’inverse de cette moyenne. Il n’est
pas possible de calculer cette moyenne dans le cas où certaines valeurs sont nulles et elle n’a pas de sens
si certaines valeurs sont négatives.
La moyenne tronquée est la moyenne de la plus grande partie des valeurs obtenues en ignorant les valeurs
extrêmes.
Le mode est la valeur la plus fréquente dans l’ensemble de données. Il n’est pas très utile dans le cas de
variables continues, qui sont souvent uniques car mesurées avec une extrême précision. Le mode peut
être utile dans le cas de variables qui ne peuvent prendre que des valeurs entières. Il faut remarquer que
le mode ne représente pas toujours le centre de la distribution.
Une boite à moustache donne une bonne idée de la distribution des données sans reprendre chaque
valeur. Elle fonctionne à merveille quand on a trop de données pour qu’un nuage de points soit clair. Une
ligne horizontale indique la médiane de chaque groupe. Les boites s’étendent du 1e au 3e quartile et
18
incluent donc la moitié des valeurs. Un quart des valeurs se situe au-dessus du bord supérieur de la boite
et un quart des valeurs en dessous du bord inférieur. Les valeurs inférieures au 5e centile et supérieures
au 95e centile sont indiquées individuellement par des points.
Les données peuvent aussi être représentées en diagramme en violon. Les médiane et les quartiles sont
indiqués par des traits noirs. Le violon est plus gros là où sont la plupart des valeurs et plus mince là où il
y en a moins.
Il faut faire attention au terme histogramme ; il est habituellement défini comme un graphique en
colonnes représentant une distribution de fréquence. Cependant, le terme histogramme est parfois
utilisé de façon plus générale pour désigner tout diagramme en colonnes, même ceux qui ne
représentent pas une distribution de fréquence.
Afin d’éviter d’avoir à choisir un nombre de classe, il faut représenter la distribution de fréquence
cumulée, pour laquelle la valeur de Y correspond au nombre de valeurs inférieures à X. La distribution
cumulée commence à Y = 0 et se termine à Y = n, le nombre total de valeurs de l’ensemble de données.
Il est assez fréquent d’ajuster des données, et il est donc essentiel de se demander si ces ajustements sont
corrects ou, au contraire, s’ils ne pourraient pas introduire des erreurs.
Quiconque interprète les données fournies doit comprendre l’influence de ces ajustements sur l’effet
global observé et estimer dans quelle mesure ces ajustements pourraient être biaisés par le souhait du
chercheur d’avoir des résultats qui vont dans un certain sens.
Lorsqu’on représente graphiquement des données qui évoluent au cours du temps, il est tentant de
supprimer une grande partie de la variabilité de manière à rendre plus visible la tendance globale. Cela
se fait en traçant une moyenne glissante, moyenne mobile ou données lissées. On remplace par
exemple chaque point d’une représentation graphique par la moyenne entre ce point et les trois voisins
les plus proches de part et d’autre. Plus le nombre de points inclus dans le lissage est grand, plus la
courbe sera lisse. Des données lissées ne devraient jamais être utilisées dans les calculs statistiques ; le
lissage fait perdre de l’information.
Il est nécessaire de calculer le rapport pour exprimer la variable de façon qu’elle puisse être
interprétable et comparée. Le numérateur est généralement ce qui nous intéresse et que nous nous
efforçons de mesurer. Le dénominateur semble un détail. Mais la validité du rapport dépend
naturellement de la validité à la fois du numérateur et du dénominateur.
19
Certains scientifiques normalisent les données pour qu’elles se situent entre 0 et 100%. Si 0 et 100% ne
sont pas clairement définis ou semblent n’être définis qu’approximativement, alors les valeurs
normalisées ne seront pas d’une grande utilité.
ð La moyenne et la médiane peuvent être nulles ou négatives. ð La médiane peut être égale à la
plus petite valeur, si plus de la moitié des valeurs sont identiques et que les autres valeurs sont
toutes plus grandes.
ð Si la distribution des valeurs est symétrique, la médiane et la moyenne sont égales. Si la
distribution est penchée vers la droite avec une majorité de grandes valeurs, alors la moyenne
sera probablement supérieure à la médiane (et inversement).
ð Moyenne et moyenne arithmétique sont synonymes. ð Moyenne est médiane sont exprimées
dans les mêmes unités que les données. ð Moyenne et médiane peuvent être calculées s’il n’y a
qu’une donnée, même si cela a peu d’intérêt.
ð La moyenne peut être calculée même si les données sont négatives.
ð Les moyennes géométriques et harmoniques ne peuvent être calculées si les données sont
négatives.
ð Le 50e centile est la médiane.
I. VARIABLES CONTINUES
v Variables continues : variables qui peuvent prendre n’importe quelle valeur (y compris fractionnaire).
Variables d’intervalle
v Variable d’intervalle : par exemple, une différence de 1°C a la même signification tout au long de
l’échelle, quelle que soit la valeur de départ.
Parce que le point 0 est arbitraire, il serait tout à fait insensé de calculer des rapports de température.
L’utilisation de points au lieu de bâtons ne porte pas à raisonner en termes de rapport.
Variables de rapport
Avec une variable de rapport, le 0 n’est pas arbitraire. Une taille 0, par exemple, est égal à pas de taille.
Ici, cela a un sens de calculer le rapport des valeurs de deux variables de rapport.
La température en Kelvin est une variable de rapport, parce que 0,0 degré Kelvin signifie réellement pas
de température.
Comme pour les variables d’intervalle, on peut calculer la différence entre deux de leurs valeurs.
Contrairement aux variables d’intervalle, on peut faire le rapport entre les valeurs de deux variables de
rapport.
20
Variables nominales et binomiales
v Variables nominales/catégorielles : variables qui ne peuvent prendre qu’un certain nombre de valeurs
discrètes.
v Variables binomiales : variables avec deux possibilités de réponse.
1. La couleur : les différentes couleurs sont considérées comme des catégories et donc la couleur
est une variable binomiale. Cependant, les couleurs monochromes peuvent être quantifiées par
leur longueur d’onde et donc être considérées comme une variable de rapport. Sinon, on
pourrait aussi ordonner les longueurs d’onde et considérer la couleur comme une variable
ordinale.
2. Le nombre de cellules effectivement observées dans un certain volume :comme ce nombre doit
être un entier, c’est une variable discrète. Mais elle a presque toutes les propriétés d’une
variable de rapport, puisque cela a du sens de calculer des rapports.
3. Les concentrations effectives : une concentration ne peut valoir 0 mais le rapport de deux
valeurs peut être très utile. C’est donc une sorte de variable de rapport, mais pas tout à fait.
4. Les pourcentages : les résultats obtenus pour une variable de rapport ou d’intervalle sont
souvent transformés afin d’être exprimés en pourcentages. Un résultat discret avec un ensemble
de catégories mutuellement exclusives peut aussi être exprimé sous forme de pourcentage.
ð Calculer le coefficient de variation d’une variable continue n’a de sens que sur une variable de
rapport, car les unités sont les mêmes.
ð Calculer le rapport de deux variables continues qui ne sont pas variables de rapport n’a pas de
sens, car un changement d’unités va changer la valeur du rapport.
21
II. COMMENT CALCULER UN ECART-TYPE ?
Il faut tout d’abord prendre la moyenne ou la médiane des valeurs absolues des distances (pour chaque
valeur, à quelle distance elle se trouve de la moyenne). L’écart absolu médian (EAM) est une des
manières de quantifier la variabilité. La façon la plus courante de quantifier la dispersion reste
l’écarttype.
L’écart-type calculé de cette manière est dite le meilleur estimateur possible de l’écart-type d la
population générale que l’on puisse tirer d’un échantillon. C’est le meilleur dans le sens où c’est celui qui
conduit aux inférences précises quand il est utilisé pour déterminer des intervalles de confiance ou des P-
valeurs.
Il n’est cependant pas l’estimateur le plus précis de l’écart-type de la population. Au contraire, c’est un
estimateur biaisé. En moyenne, l’écart-type calculé ne sera pas égal à l’écart-type de la population,
surtout si les échantillons sont petits.
C’est dû au fait que la variance de l’échantillon calculée avec n-1 au dénominateur est un estimateur non
biaisé de la variance de la population et que toute théorie des intervalles de confiance et du reste de la
statistique repose sur la variance.
22
L’écart-type quantifie la dispersion dans une population. Si nous tirons de plus grands échantillons, nous
pourrons quantifier plus précisément la dispersion, mais récolter plus de données ne change pas la
dispersion des valeurs.
Coefficient de variation
v Coefficient de variation : c’est l’écart-type divisé par la moyenne. Si le CV est égal à 0,25, on peut en
déduire que l’écart-type vaut 25% de la moyenne.
C’est un quotient sans unité. Il est souvent exprimé sous forme de pourcentage.
Le CV est utile pour comparer la dispersion de variables mesurées dans des unités différentes.
Variance
v Variance : elle est égale au carré de l’écart-type et est donc exprimée dans les mêmes unités que la
variable, mais au carré.
Écart interquartile
Le 1e quartile est la valeur en dessous de laquelle se trouvent 25% des données. En soustrayant le 1e
quartile du 3e quartile, on obtient l’écart interquartile. Il est également exprimé dans ces mêmes unités.
Attention à la confusion :
• Médiane des données ≠ médiane des valeurs absolues des écarts
• Écart absolu médian ≠ écart absolu moyen
La moitié des valeurs se trouvent à moins de 1 EAM de la médiane. Un intervalle symétrique qui s’étend
de 1 EAM dans chaque direction autour de la médiane inclura environ la moitié des valeurs. L’écart
interquartile couvre aussi la moitié des valeurs. La différence, c’est que l’écart interquartile est un
intervalle qui peut être asymétrique autour de la médiane. Comme l’écart interquartile, mais au
contraire de l’écart-type, l’EAM est résistant en présence de valeurs aberrantes.
ð L’écart-type n’est jamais négatif, mais sera nul en présence de valeurs identiques. ð L’écart-type
s’exprime dans les mêmes unités que les données et ne peut être calculé à partir d’une seule
valeur, mais bien de 2 valeurs.
ð L’écart-type est différent de l’erreur standard de la moyenne. ð L’écart-type peut être calculé
même si les données ne proviennent pas d’une distribution gaussienne.
23
ð Cela n’a pas de sens de demander qui de l’écart-type ou du Cv est le plus grand, puisqu’ils n’ont
pas les mêmes unités. Idem pour la variance.
ð Tous les programmes calculent l’écart-type de la même manière, à la seule différence du
dénominateur ; n ou n-1.
ð Tous les programmes ne calculent pas le même écart interquartile (8 formules). Les réponses
diffèrent d’autant plus que la taille de l’échantillon est petite.
ð La meilleure manière de présenter l’écart-type dans un article est « 115 ± 10 mmHg » avec une
note de bas de page définissant la deuxième valeur comme étant l’écart-type.
24
a) Age du donneur à la distribution des valeurs individuelles n’est pas normale.
b) Sexe
c) Niveau d’hémoglobine à la distribution des valeurs individuelles s’approche d’une distribution
normale.
d) Volume globulaire moyen à la distribution s’approche d’une distribution normale.
e) Niveau de ferritine à la distribution s’approche d’une distribution normale après transformation
logarithmique.
Implication du TCL
Quand une variable peut être vue comme la somme des variables indépendantes et de poids
comparables, alors on peut s’attendre à ce qu’elle s’approche d’une distribution normale. Quelles que
soient les distributions des variables individuelles.
Résumé
1. La somme (le produit) d’effets aléatoires indépendants et de même poids tend vers une distribution
normale (log-normale).
2. En biologie, beaucoup de variables ont une distribution normale (ou log-normale) car elles sont
influencées par de multiples facteurs indépendants qui agissent de manière additive (multiplicative).
3. De nombreuses statistiques (qui sont la somme de plusieurs variables aléatoires) se distribuent
normalement.
4. La distribution normale (log-normale) se caractérise par sa moyenne µ (la moyenne des log) et son
écart-type σ (écart-type des log). Environ 2/3 des observations sont attendues entre µ ± 1σ et 95%
entre µ ± 2σ.
5. La normalité statistique ne doit pas être confondue avec la normalité clinique.
25
Il est rare que presque tous les facteurs aléatoires agissent dans la même direction et rejettent ainsi la
valeur loin de la moyenne. Donc, beaucoup de valeurs se trouvent près de la moyenne, quelques-unes
un peu plus loin et très peu très loin de la moyenne.
Lorsqu’on représente la distribution de fréquence des données, le résultat est une distribution
symétrique, en forme de cloche, qui, idéalisée, est la distribution de Gauss.
La dispersion des valeurs suivra environ une distribution de Gauss s’il y a beaucoup de sources de
variation, pour autant que ces différentes contribution à la variation puissent s’additionner pour
aboutir au résultat final, et que la taille de l’échantillon soit grande. Plus on a de sources de variation,
plus le résultat s’approchera d’une distribution de Gauss.
La variabilité d’une valeur clinique est causée par de nombreux facteurs génétiques et
environnementaux.
Lorsque la dispersion des valeurs est le résultat de nombreuses causes indépendantes, la distribution
suivra une distribution de Gauss en forme de cloche.
La moyenne est le centre de la distribution. La courbe de Gauss est haute au voisinage de la moyenne. La
distribution est symétrique, et la moyenne et la médiane sont identiques.
L’écart-type mesure l’étalement ou la largeur de la distribution.
La surface sous la courbe représente la population toute entière.
A peu près 2/3 (68,3%) des valeurs d’une population gaussienne se trouvent dans les limites de 2 (1,96)
écarts-types autour de la moyenne.
51?/:.<@9A/,,/
z= éB1.2<2A0/
= nombre d’écarts-type par rapport à la moyenne.
26
IV. LA DISTRIBUTION NORMALE NE DEFINIT PAS DES LIMITES NORMALES
Une distribution gaussienne est aussi appelée distribution normale.
z Pourcentage de la distribution
normale centrée réduite entre -z et +z
0,67 50,00%
0,97 66,66%
1,00 68,27%
1,65 90,00%
1,96 95,00%
2,00 95,45%
2,58 99,00%
3,00 99,73%
Définir les limites normales d’une mesure clinique n’est pas simple et exige une réflexion sur le plan
clinique. Des règles statistiques simples basées sur la moyenne, l’écart-type et la distribution gaussiennes
sont rarement utiles, sauf comme point de départ avant de définir des limites plus pertinentes.
ð Karl Gauss était un mathématicien qui a utilisé cette distribution pour analyser des données
astronomiques. Bien que son nom est associé à la distribution, d’autres l’avaient utilisée avant
lui. ð Distribution gaussienne = distribution normale.
ð Toutes les distributions gaussiennes sont en forme de cloche, mais toutes les cloches ne sont
pas des distributions gaussiennes.
ð Une distribution gaussienne est formée seulement lorsque chaque source de variation est
indépendante, s’ajoute aux autres et qu’aucune source ne domine les autres.
La distribution devient gaussienne lorsqu’elle est représentée sur une échelle logarithmique ou lorsque les
données sont transformées en leurs logarithmes.
27
II. LOGARITHMES ?
Le logarithme du produit de deux nombre est égal à la somme de leurs logarithmes. Ces logarithmes
transforment donc une dispersion multiplicative (log-normale) en une dispersion additive (gaussienne).
Les logarithmes des valeurs suivent donc une distribution gaussienne quand les données brutes sont
extraites d’une distribution log-normale.
Si les données sont tirées d’une distribution log-normale, il faut alors les convertir en leurs logarithmes.
En se souvenant que les logarithmes transforment les produits en sommes, l’écart-type géométrique doit
multiplier ou diviser la moyenne géométrique.
L’intervalle est symétrique lorsqu’il est représenté dans une échelle logarithmique, et asymétrique
(penché vers la droite) lorsqu’il est représenté dans une échelle linéaire.
Il n’a pas d’unité. Il est parfois question de facteur écart-type géométrique parce que l’écart-type
géométrique multiplie ou divise la moyenne géométrique.
Il a été défini par Kirkwood et n’est pas très utilisé. Limpert et Stabel proposent d’écrire « moyenne
géométrique*/écart-type géométrique », ceci par analogie à « moyenne ± écart-type ».
V. ERREURS FREQUENTES
1. Manquer de cohérence entre l’usage des log en base 10 et base e. Il est essentiel d’utiliser la même
base.
2. Prendre le log des données qui contiennent des 0 ou des valeurs négatives.
3. Ne pas reconnaitre une distribution log-normale et de ce fait éliminer certaines valeurs élevées
jugées aberrantes.
ð Les valeurs d’une distribution log-normale sont toujours positives, car le logarithme de 0 et des
valeurs négatives n’est pas défini.
ð La moyenne géométrique ne peut être calculée s’il y a des valeurs nulles ou négatives.
ð Pour calculer la moyenne géométrique, on peut utiliser des log en base 10 ou en base e, du
moment qu’on reste cohérent en utilisant toujours la même base.
ð Les distributions log-normales sont fréquentes, notamment pour la puissance d’un médicament.
C’est la raison pour laquelle cela a du sens de comparer des groupes en utilisant des rapports
plutôt que des différences.
ð Il faut utiliser un axe log et une échelle log pour représenter les données d’une distribution log-
normale.
28
ð Les distributions log-normales sont toujours penchées vers la droite, signe de valeurs plus
grandes.
ð Si on analyse des données issues d’une DLN comme si elles avaient été échantillonnées à partir
d’une DG, il est probable que les résultats soient erronés. Les intervalles de confiance des
différences seront beaucoup plus larges qu’ils le devraient, de sorte que les P-valeurs seront plus
élevés.
ð La moyenne géométrique s’exprime dans les mêmes unités que les données analysées. La
moyenne et la moyenne géométrique s’expriment donc dans les mêmes unités.
ð La moyenne géométrique est toujours inférieure à la moyenne (exception triviale : si toutes les
valeurs sont identiques, les deux moyennes sont égales).
ð L’écart-type géométrique n’a pas d’unités. C’est un facteur par lequel est multipliée ou divisée
la moyenne géométrique.
ð L’écart-type ordinaire s’exprime dans les mêmes unités que les données, or l’écart-type
géométrique n’a pas d’unités. Cela n’a donc pas de sens de les comparer.
ð L’écart-type géométrique est la même chose que le facteur écart-type géométrique.
29
Il est possible de construire :
• Des intervalles à différents niveaux de confiance
• Des IC unilatéraux
• Des intervalles sur l’écart-type
• Des intervalles sur une moyenne géométrique : prendre le log de chaque valeur, calculer la
moyenne et l’écart-type sur l’échelle des log, calculer l’IC sur l’échelle des log, prendre l’anti-log de cet
IC et l’exprimer dans les unités initiales.
IC d’une proportion
1. Avec la formule de Wald modifiée (p, p’, W et IC)
2. Pa rééchantillonnage
3. A l’aide de la distribution binomiale
30
e) La distribution de la variable dans la population est gaussienne, au moins approximativement.
Les données proviennent d’une population où la variable suit une distribution gaussienne. Cette
hypothèses est importante quand l’échantillon est petit, mais moins lorsque l’échantillon est
grand.
2∗ .4
W=
√,
31
ESM = or, W, la marge d’erreur de l’IC = $√ "
Au niveau du rééchantillonnage, pour sélectionner des valeurs de manière aléatoire, on peut se baser sur
des caractéristiques qui varient d’un individu à l’autre et qui n’ont aucun lien avec les valeurs de
l’échantillon.
• SD (descriptif) : informe sur la dispersion des observations. 2/3 des observations entre
Mx - SD et Mx + Sd.
• ESM (inférence) : informe sur la précision avec laquelle la moyenne de la population est connue.
ESM =
• CI (inférence) : informe sur la zone dans laquelle on s’attend à trouver le paramètre de la
population : limites = Mx ± t*. ESM
• Range (descriptif) : informe sur la dispersion des observations (ne prend en compte que le min
et le max).
• Quartiles (descriptif) : informe sur la dispersion des observations.
Des données très différentes peuvent aboutir à une même moyenne et un même écart-type.
En théorie des probabilités, on part d’une population connue et on calcule ensuite les probabilités
d’obtenir différents échantillons possibles. En analyse statistique, on fait l’inverse ; on démarre avec des
données et on teste ensuite la vraisemblance que les données aient été échantillonnées dans diverses
populations.
32
I. INTERVALLE DE CONFIANCE D’UNE MOYENNE VIA LA DISTRIBUTION t
La distribution t, qu’est-ce que c’est ?
Une population suit une distribution gaussienne. La moyenne de cette population est désignée par µ.
Supposons que l’on connaisse aussi l’écart-type de cette population, σ. On choisit n valeurs et on en calcule
la moyenne, qui sera désignée par m. on calcule également l’écart-type, s. cet échantillon a été choisi au
hasard et donc m et s ne correspondront pas aux valeur de µ et σ dans la population. On répète ce
processus des milliers de fois et pour chaque échantillon aléatoire, on calcule le rapport t suivant
1− 3
4= 6
La valeur de µ est connue et constante, de même que n (population hypothétique). Pour chaque
échantillon, on calcule m et s et ensuite t par la formule ci-dessus.
Comme pour chaque échantillon aléatoire, la moyenne sera, avec une probabilité égale, soit plus grande
soit plus petite que la moyenne de la population, le rapport. Sera, avec une probabilité égale, soit positive
soit négative. La plupart du temps, il sera proche de 0 mais pourra aussi en être très éloigné. Cela dépend
de la taille n de l’échantillon, de l’écart-type s et du hasard.
En réalité, la distribution t dépend de la taille de l’échantillon. Pour de petits échantillons, la courbe serait
plus étalée. Pour de très grands échantillons, la courbe deviendrait indiscernable de la distribution
gaussienne.
La valeur critique de t
L’aire sous la courbe représente tous les échantillons possibles. Si le rapport t a une valeur comprise entre
-5 et 5 pour 95% des échantillons, alors la valeur de t* sera définie comme étant égale à 5. La valeur de t*
dépend de la taille de l’échantillon et du degré de confiance souhaité. Sa valeur ne dépend pas des données
réellement analysées.
Le retournement
Ce qui n’est pas connu, c’est donc la moyenne de la population. Voilà pourquoi on souhaite construire un
IC.
μ = m ± t*.
On calcule donc la moyenne une fois avec le signe + et une fois avec le signe -. Les nombres obtenus sont
les limites de l’IC à 95%.
33
II. INTERVALLE DE CONFIANCE D’UNE MOYENNE VIA REECHANTILLONAGE
v Rééchantillonnage : approche alternative en statistiques qui ne suppose pas que la distribution soit
gaussienne ou autre.
La première étape consiste à générer de nombreux pseudo-échantillons via le rééchantillonnage. Ensuite,
on répète toute la procédure beaucoup de fois pour créer 500 pseudo-échantillons. Les valeurs de
l’ensemble de données apparaissent à maintes reprises et aucune nouvelle valeur n’apparaitra jamais.
Malgré cela, tous les échantillons ne sont pas identiques ; certains valeurs sont répétées, et d’autres sont
absentes.
Pour chacun des 500 nouveaux échantillons, n calcule la moyenne. Après cela, on détermine les centiles
2,5 et 97,5 de cette liste de moyennes. Comme la différence entre 97,5 et 2,5 est égale à 95, on peut dire
que 95% des moyennes des pseudo-échantillons se trouvent entre ces centiles.
L’inversion
Pour tirer des conclusions statistiques, il faut inverser la logique pour passer de la distribution des
moyennes de plusieurs échantillons à l’intervalle de confiance de la moyenne de la population. Le domaine
des valeurs qui contient 95% des moyennes des échantillons constitués par rééchantillonnage est l’IC à
95% de la moyenne de la population.
Cet IC calculé par rééchantillonnage est presque identique à celui calculé par la méthode normale. Mais le
rééchantillonnage n’exige pas l’hypothèse que la distribution soit gaussienne. La seule hypothèse sur
laquelle se base cette méthode est que les observations de l’échantillon soient indépendantes et
représentatives de la population.
Cette méthode est aussi appelée bootstrapping ou computer-intensive méthode. Cette méthode par
rééchantillonnage a l’avantage d’être polyvalente. Elle s’applique aux IC de la médiane, à l’écart
interquartile ou à presque tous les autres paramètres. Elle est largement utilisée dans l’analyse des
données génomiques.
La limite inférieure (I) est déterminée par une approche indirecte. Des formules faisant intervenir des
probabilités permettent de répondre à la question : si la proportion dans la population est égale à I, quelle
est la probabilité qu’une proportion observée dans un échantillon de taille 100 soit égale à 0,33 ou plus ?
pour calculer un IC à 95%, chaque extrémité de la population doit être égale à 2,5% ; nous souhaitons donc
trouver la valeur de I telle que la réponse à la question ci-dessus soit 2,5%.
34
La limite supérieure (S) de détermine par une approche similaire. Si la proportion dans la population est
égale à S, quelle est la probabilité qu’une proportion observée dans un échantillon de taille 100 soit égale
à 0,33 ou moins ? comme nous voulons que la réponse soit 2,5%, nous pouvons résoudre l’équation qui
permet de trouver S.
L’utilisation de la distribution binomiale pour résoudre les équations en I et en S n’est pas immédiate.
ð Il n’est pas correct de dire qu’il y a 95% de chance que la moyenne de la population se trouve dans
l’IC calculé. La moyenne de la population est une valeur fixe. Il ne convient donc pas de demander
quelle chance la moyenne de la population a de prendre une quelconque valeur. En revanche,
comme l’IC calculé dépend de l’échantillon de données, il varie d’un échantillon à l’autre dans un
échantillonnage aléatoire. Il est correct de dire qu’il y a 95% de chance qu’un IC à 95% contienne
la moyenne de la population.
ð L’intervalle de prédiction à 95% répond à la question. C’est l’étendue de valeurs qui, à 95% de
certitude, contient 95% des valeurs de la population toute entière. Les intervalles de prédiction
ne sont pas très souvent utilisés. Ils sont beaucoup plus larges que les IC.
L’ESM quantifie la précision avec laquelle on connait la moyenne de la population. L’ESM calculée à partir
d’un échantillon est la meilleure estimation de ce que l’écart-type des moyennes serait si on collectait
effectivement beaucoup d’échantillons.
35
Objectif : montrer la variation entre les valeurs
L’écart-type permet d’apprécier la dispersion de sorte qu’il s’agit bien d’une manière de représenter
graphiquement la variabilité. Cependant, étant donné que l’écart-type est une valeur unique, il s’agit d’une
façon assez limitée. Un graphique représentant la moyenne, accompagnée de barres d’erreurs égales à
l’écart-type est moins informatif. Cela n’a donc pas d’avantage de représenter la moyenne avec des barres
d’erreurs plutôt qu’un diagramme de dispersion, une boite à moustaches ou autres.
Un choix possible est de représenter la moyenne ainsi que les valeurs les plus basses et les valeurs les plus
élevées, ou bien de tabuler moyenne ± écart-type.
L’écart-type quantifie la dispersion des données. Que l’augmentation de la taille de l’échantillon fasse
croitre ou décroitre la dispersion d’un échantillon dépend du tirage au sort des valeurs. L’écart-type risque
donc tout autant d’augmenter que de diminuer.
Cependant, quelle que soit la taille de l’échantillon, sa variance est le meilleur estimateur de la variance de
la population. Cette valeur est dite non-biaisée, indépendamment de n.
36
En revanche, quand n est petit, l’écart-type de l’échantillon tend à sous-estimer légèrement l’écart-type
de la population.
L’augmentation attendue de l’écart-type de l’échantillon consécutive à l’augmentation de la taille de
l’échantillon est minuscule en comparaison de la baisse attendue de l’ESM.
ð L’écart-type quantifie la dispersion, de combien les valeurs diffèrent les unes des autres.
ð L’ESM quantifie la précision avec laquelle la moyenne réelle de la population est connue. Cette
valeur dépend à la fois de la taille de l’échantillon et de l’écart-type.
ð L’écart-type et l’ESM sont exprimés dans les mêmes unités. L’ESM est toujours plus petit que
l’écart-type.
ð ESM signifie « erreur standard de la moyenne », c’est l’abréviation optimale. ES signifie « erreur
standard ». Il est possible de calculer l’erreur standard de plusieurs valeurs calculées.
ð On peut appliquer la règle approximative que l’IC à 95% d’une moyenne est égal à la moyenne ± 2
ESM quand les échantillons sont de grande taille. Calculer un IC requiert un facteur de la
distribution t, noté t*. lorsque les échantillons sont grands, t* a une valeur proche de 2. C’est de
là que vient cette règle. Quand la taille de l’échantillon est petite, cet IC sera trop étroit car le
facteur correct est plus grand que 2.
ð Les graphiques représentent souvent une barre d’erreur qui s’étend de 1 ESM de part et d’autre
de la moyenne. Cet intervalle n’a pas d’interprétation simple. Quand les échantillons sont grands,
cet intervalle donne un niveau de confiance à 68%. Mais ce niveau de confiance dépend de la taille
de l’échantillon. On peut dire que cet intervalle d’1 ESM autour de la moyenne correspond
approximativement à un niveau de confiance de 60%.
ð Les barres d’erreurs représentant l’ESM sont courantes parce qu’elles sont toujours plus petites
que l’écart-type et parce qu’elles constituent une façon immédiate de savoir le degré de précision
avec lequel la moyenne est connue.
37
ð Quand il n’y a que 2 valeurs, autrement dit que n = 2, il n’y a pas beaucoup d’intérêt à montrer les
barres d’erreurs. Il ne faut montrer que les deux valeurs. Mais si nous engageons des barres
d’erreurs, il faut savoir qu’elles seront identiques : l’IC à 50%, l’étendue et la moyenne ± l’ESM. La
moyenne ± l’écart-type va s’étendre au-delà de l’étendue.
Interprétation de la p-valeur
Parfois, les résultats sont étranges et rares. Dans ce cas, ou c’est une coïncidence, ou le lancement de la
pièce était faussé. Ce que l’on en tirera comme conclusion dépend du contexte. Il existe 3 possibilités :
• On est sûr qu’il n’y a pas de tricherie. C’est le hasard, et la p-valeur ne changera rien à la conclusion.
• L’expérience fait partie d’un tour de magie ; on en conclut que l’expérience n’était pas honnête.
• Il arrive parfois des coïncidences.
38
Exemple 3 : la situation simplifiée est que les patients transférés vers un autre hôpital ont le même risque
de mort ou d’aggravation des maladies cardiaques que ceux qui restent dans l’hôpital d’admission, de
façon que l’observation de la différence du risque de mort ou de maladie cardiaque est une coïncidence.
La situation simplifiée est appelée hypothèse nulle. Les P-valeurs sont calculées à partir des résultats
hypothétiques que nous observerions si l’hypothèse nulle était vraie.
Dans la plupart des cas, l’hypothèse nulle qui que la différence entre les moyennes de populations est
nulle, que la corrélation est nulle ou que la pente est nulle. Cependant, l’hypothèse nulle peut porter sur
toutes sortes de différences ou d’associations.
39
Le problème avec les p-valeurs unilatérales
Si les données nous surprennent et si l’effet du traitement va dans le sens contraire de notre prédiction,
alors la p-valeur unilatérale sera plus grande que 0,5. Dans ce cas, nous devrions prévoir d’utiliser une
pvaleur bilatérale.
Dans le doute, il vaut mieux utiliser une p-valeur bilatérale pour les motifs suivants :
• La relation entre les p-valeurs et les IC est plus directe avec les p-valeurs bilatérales.
• Certains tests comparent trois groupes ou davantage, et dans ce cas, le concept d’unilatéral ou de
bilatéral n’a pas de sens.
• L’effet concret du choix d’une p-valeur unilatérale est de montrer que l’évidence est meilleure car
la p-valeur est plus faible. Mais cela n’est pas dû aux données collectées durant l’expérimentation,
mais plutôt au choix de l’expérimentateur.
• Certains relecteurs ou éditeurs peuvent critiquer toute utilisation de la p-valeur unilatérale, même
si elle est bien justifiée.
Lorsqu’on rédige un article, il faut commencer par s’assurer que les résultats sont expliqués clairement.
Ensuite, il faut calculer les ICs pour quantifier la précision de l’importance de l’effet. Il ne faut ajouter les
p-valeurs que quand nous avons une bonne raison de penser que cela rendra notre article plus facilement
compréhensible.
41
Chapitre 16 : signification statistique et test d’hypothèse
v Seuil de signification : seuil à partir duquel un résultat sera déclaré statistiquement significatif.
Il est noté α et est habituellement fixé à 0,05.
• Si la p-valeur est inférieure à α , on conclut que la différence est statistiquement significative et on
décide de rejeter l’hypothèse nulle.
• Si la p-valeur est supérieure à α, on considère que la différence n’est pas statistiquement
significative et on décide de ne pas rejeter l’hypothèse nulle.
42
Lorsqu’une p-valeur est entre 0,05 et 0,1, certains peuvent être tentés de passer à une p-valeur unilatérale.
Mais ce choix doit être fait avant de collecter les données.
Erreur de type I
Lorsqu’il n’y a réellement aucune différence entre les populations, l’échantillonnage aléatoire peut
conduire à des données au sein desquelles il y aura une différence suffisamment grande et qui est
statistiquement significative. Celle-ci se produit quand on décide de rejeter l’hypothèse nulle alors qu’en
réalité, elle est vraie. C’est un faux positif.
Erreur de type II
Lorsqu’il existe réellement une différence entre les populations, l’échantillonnage aléatoire peut produire
une différence suffisamment petite et qui n’est pas statistiquement significative. Celle-ci se produit
lorsqu’on décide de ne pas rejeter l’hypothèse nulle alors qu’en réalité, elle est fausse. C’est un faux
négatif.
à Ce sont des concepts théoriques ; on ne peut pas savoir si l’on a commis l’une d’elles.
Le compromis
Un résultat est considéré comme statistiquement significatif lorsque la p-valeur est inférieure à un seuil de
signification α fixé à l’avance. Il est habituellement fixé à 0,05. En choisissant ce seuil de signification, nous
faisons un compromis.
• Si on choisit une valeur très basse pour α, nous ferons peu d’erreurs de type I. Cela signifie que si
l’hypothèse nulle est vraie, il n’y aura qu’une très petite chance qu’un résultat soit déclaré
statistiquement significatif à tort. Mais il y aura une chance beaucoup plus grande de ne pas
trouver un résultat statistiquement significatif, même si l’hypothèse nulle était fausse.
à En bref, réduire la valeur de diminuera le risque d’erreur de type I mais augmentera le risque
d’erreur de type II.
43
• Si on choisit de prendre une valeur très élevée pour , nous ferons beaucoup d’erreurs de type I. Si
l’hypothèse nulle est vraie, il y a de grandes chances de trouver par erreur une différence
statistiquement significative. Mais il y aura très peu de chance de rater une différence réelle. àEn
bref, augmenter la valeur de augmentera le risque d’erreur de type I mais diminuera le risque
d’erreur de type II.
La seule manière de diminuer à la fois l’erreur de type I et l’erreur de type II est de constituer de plus
grands échantillons.
Exemple : l’hypothèse nulle est qu’un courriel est bon (pas un spam). Une erreur de type I se produit
lorsqu’un courriel acceptable est envoyé par erreur dans la boite de spams. Une erreur de type II se
produit lorsqu’un spam arrive dans la boite de réception.
1. P < 0,05
Dans beaucoup de domaines scientifiques, de façon stricte et constante, le seuil est fixé à 0,05. Ce seuil
provient de Ronald Fischer.
2. P < 0,005
La puissance sera réduite à moins que la taille de l’échantillon ne soit augmentée. Une taille augmentée
d’environ 70% maintient la puissance tout en changeant les seuils de signification de 0,05 à 0,005.
3. P < 0,0000003
Atteindre le seuil des cinq sigma veut dire que ces résultats se produiraient par hasard aussi rarement
qu’une valeur échantillonnée dans une population gaussienne s’écarterait de 5 écarts-types de la
moyenne.
La p-valeur unilatérale est inférieure à 0,0000003.
La norme de signification statistique dans la plupart des domaines est que le p bilatéral soi inférieur à 0,05.
Environ 5% de la distribution gaussienne s’écarte de plus de 2 écarts-types de la moyenne. Donc la
définition habituelle de la signification statistique peut être appelée seuil de deux sigma.
Le message clé est le suivant : un même seuil de signification n’est pas nécessaire pour tous les usages.
44
VIII. ERREURS FREQUENTES : TEST D’HYPOTHESE
1. Croire que le test d’hypothèse est une partie essentielle de toutes les analyses statistiques Dans
beaucoup de situations scientifiques, il n’est pas nécessaire – et peut être même contre-productif – de
déclarer clairement qu’un résultat est statistiquement significatif ou pas. Les p-valeurs et les IC peuvent
nous aider à évaluer et présenter une évidence scientifique sans jamais utiliser cette expression. Cette
façon d’exagérer l’importance de la signification statistique est souvent qualifiée d’observation des
étoiles.
2. Croire que si un résultat est statistiquement significatif, l’effet doit être important
La conclusion que quelque chose est statistiquement significatif s’applique à la force de l’évidence, pas à
la taille de l’effet.
Un résultat statistiquement significatif ne signifie pas :
• Que la différence observée est suffisamment grande pour être importante
• Que les résultats sont suffisamment intrigants pour mériter des recherches supplémentaires
• Que le résultat est scientifiquement ou cliniquement significatif
ð Il est possible de rapporter des résultats scientifiques sans le terme « significatif ». il suffit de
rapporter les données avec les IC et peut-être les p-valeurs. Les décisions à propos de la
signification statistique ne sont pas souvent utiles.
ð « Test d’hypothèse » est un concept relatif à la prise de décision. Ils ont tout leur intérêt lorsqu’il
est nécessaire de prendre une décision claire sur base d’une analyse statistique.
ð Le but des statistiques est de quantifier l’évidence scientifique et l’incertitude. ð Il y a une
aversion naturelle envers l’ambiguïté. La conclusion tranchée est, pour beaucoup, plus
satisfaisante que les autres.
45
ð C’est Ronald Fischer qui a désigné le seuil P < 0,05. ð P-valeur et α ne sont pas la même chose.
Une p-valeur est calculée à partir des données. Le seuil de signification α est fixé et fait partie du
protocole expérimental établi avant de collecter toute donnée. Une différence est appelée
statistiquement significative si la p-valeur calculée à partir des données est plus petite que la valeur
de α fixée à l’avance.
ð α est la probabilité de rejeter l’hypothèse nulle seulement si l’hypothèse nulle est vraie. Dans
certains protocoles, l’hypothèse nulle est souvent vraie. Dans d’autres, elle est presque toujours
certainement fausse. Si l’hypothèse nulle est vraie, α est la probabilité qu’un tirage aléatoire
fournisse des données qui nous amèneront à rejeter l’hypothèse nulle et commettre ainsi une
erreur de type I.
ð Si l’on effectue beaucoup de tests statistiques, il n’est pas vrai que la conclusion « statistiquement
significatif » ne sera pas correcte dans 5% des cas. Cela serait vrai uniquement si l’hypothèse nulle
est réellement vraie dans chaque expérimentation. Cela dépend du contexte scientifique.
ð On peut calculer une p-valeur unilatérale seulement lorsqu’on l’a décidé à l’avance et précisé dans
le protocole expérimental. ð Les erreurs de type I rejettent une hypothèse nulle vraie. Les erreurs
de type II acceptent une hypothèse nulle fausse.
ð La p-valeur vaut 0,0501. Il n’est pas correct d’arrondir la valeur à 0,0500. Toute l’idée du test est
de prendre un critère strict entre le rejet ou l’acceptation de l’hypothèse nulle. Ici, la p-valeur est
> α et donc on ne peut pas rejeter l’hypothèse nulle et appeler le résultat statistiquement
significatif.
ð La p-valeur vaut 0,050000. Obtenir une p-valeur égale à 0,05 est rare et ne se produira pas souvent.
C’est simplement un problème de définition. Mais la plupart vont rejeter l’hypothèse nulle quand
une p-valeur est exactement égale à α.
P-valeur : probabilité d’avoir un résultat au moins aussi extrême que celui observé quand l’hypothèse
nulle est vraie.
Si la p-valeur est faible, c’est que l’hypothèse nulle se trouve dans l’extrême. Donc une hypothèse nulle
extrême signifie une hypothèse initiale normal, et donc une donnée statistiquement significative.
Les statistiques sont d’autant plus dispersées que l’échantillon est petit. En prenant 4x plus d’individus,
on divise l’erreur standard par 2. L’IC sera donc 2x plus étroit.
Des résultats statistiquement significatifs peuvent facilement arriver avec une taille d’échantillon
dynamique.
46
Lorsque l’IC inclut l’hypothèse nulle, la zone des résultats statistiquement non significatifs doit inclure
le résultat de l’échantillon.
Lorsqu’un IC n’inclut pas l’hypothèse nulle, la zone des résultats statistiquement non significatifs
n’inclut pas forcément le résultat de l’échantillon.
Les IC95 et le seuil de signification de 5% n’ont rien de spécial. Cela fonctionne aussi dans le cas suivant
: si l’IC à 99% ne contient pas l’hypothèse nulle, alors la p-valeur doit être inférieure à 0,01.
Le « résultat » est la différence entre la moyenne de l’échantillon et une moyenne hypothétique de
population. La règle fonctionne pour beaucoup d’autres types de données :
• Si l’IC de la différence entre deux moyennes n’inclut pas le zéro (hypothèse nulle), alors le résultat
doit être statistiquement significatif (p < 0,05).
• Si l’IC du rapport de deux proportions n’inclut pas 1 (l’hypothèse nulle), alors le résultat doit être
statistiquement significatif (p < 0,05).
• Si on compare un ensemble de pourcentages à la valeur hypothétique 100 et que l’IC95 de la
moyenne des pourcentages n’inclut pas 100, alors la différence doit être statistiquement
significative (p < 0,05).
II. 4 EXEMPLES AVEC DES IC, DES P-VALEURS ET DES CONCLUSIONS CONCERNANT LA SIGNIFICATION
STATISTIQUE
Exemple 1
Les résultats sont mieux résumés en calculant le rapport des deux proportions et l’IC correspondant.
Exemple 2
Le test statistique est aussi appelé test t pour échantillons indépendants.
L’étendue de l’IC dépend de la taille des échantillons, de la variabilité des deux échantillons et du degré de
confiance désiré.
La p-valeur dépend de la différence entre les moyennes, de l’écart-type de chaque groupe et de la taille
des échantillons.
Exemple 3
Risque relatif de 1 : pas d’association.
Exemple 4
L’IC inclut le zéro, donc nous pouvons dire, avec un niveau de confiance à 95%, qu’il n’y a pas d’évidence
que le contrôle strict était bénéfique. Quand un test inclut le zéro, on dit qu’il n’y a pas de différence.
ð Si l’IC95 inclut la valeur qui définit l’hypothèse nulle, nous pouvons conclure que la p-valeur est
supérieure à 0,05. Si l’IC95 n’atteint pas la valeur qui définit l’hypothèse nulle, nous pouvons
conclure que la p-valeur est inférieure à 0,05. Donc, si l’IC95 atteint tout juste la valeur qui définit
l’hypothèse nulle, alors la p-valeur doit être égale à 0,05.
47
ð Si l’IC95 est centré sur la valeur qui définit l’hypothèse nulle, on peut conclure que le résultat
observé est égal à la valeur qui définit l’hypothèse nulle. Dans ce cas, la p-valeur bilatérale doit
être égale à 1.
ð L’IC99 inclut la valeur qui définit l’hypothèse nulle, mais la p-valeur dans le rapport est inférieure
à 0,05. Comment est-ce possible ? si l’IC99 inclut la valeur qui définit l’hypothèse nulle, nous
pouvons conclure que la p-valeur est supérieure à 0,01. Mais comme la p-valeur dans le rapport
est inférieure à 0,05, nous pouvons conclure que la p-valeur doit se trouver entre 0,01 et 0,05.
ð L’IC99 inclut la valeur qui définit l’hypothèse nulle, mais la p-valeur mentionnée est inférieure à
0,01. Comment est-ce possible ? Cela est incohérent.
ð Dans beaucoup de cas, connaitre la p-valeur et la conclusion au sujet de la signification statistique
n’apporte réellement rien de plus à la compréhension des données. Au contraire. Des conclusions
au sujet de la signification statistique aboutissent souvent à diminuer la réflexion attentive sur la
taille de l’effet.
Mot de la fin : quand une p-valeur est petite, il faut envisager toutes les possibilités.
La probabilité de faux positifs, aussi appelée taux de fausses découverte (TFD) est la réponse aux questions
suivantes :
• Si un résultat est statistiquement significatif, quelle est la probabilité que l’hypothèse nulle soit
réellement vraie ?
• Parmi toutes les expérimentations qui obtiennent une conclusion statistiquement significative,
quelle est la fraction de faux positifs (erreurs de type I) ?
Le TFD, quand la p-valeur est tout juste plus petite que 0,05
Un résultat est qualifié de « découverte » quand la p-valeur est inférieure à 0,05. Les conclusions basées
sur des p-valeurs vraiment petites sont moins susceptibles d’être des faux positifs que des conclusions
basées sur un p = 0,049. Les valeurs du TFD sont beaucoup plus grandes que lorsque nous définissons une
découverte comme étant celle pour laquelle toutes les p-valeurs sont plus petites que 0,05.
49
La probabilité a priori est de 50%. Si, dans ce cas, nous observons une p-valeur à peine plus petite que 0,05,
le TFD est de 27%. Si la probabilité a priori est de seulement 10%, alors le TFD est de 78%. Ces TFD sont
bien plus grands que les 5% attendus par beaucoup de gens.
Une p-valeur à peine plus petite que 0,05 fournit une bien faible évidence contre l’hypothèse nulle.
50
2. Croire que si une différence est « statistiquement significative », elle doit avoir un impact
physiologiquement ou cliniquement important.
3. Se poser la question de le probabilité d’une erreur de type I sans aucune autre précision.
4. Penser que le TFD est égal au seuil de signification.
5. Ne pas se rendre compte que le TFD dépend du contexte scientifique.
6. Penser qu’une p-valeur tout juste inférieure à 0,05 fournit une nette évidence contre l’hypothèse
nulle.
7. Se focaliser sur une seule p-valeur.
SNS signifie seulement que la p-valeur calculée est supérieure à une seuil prédéfini. Donc, une différence
aussi grande que celle observée ne serait pas rare, à cause de l’échantillonnage aléatoire, si l’hypothèse
nulle était vraie.
II. « NON SIGNIFICATIVEMENT DIFFERENT » NE SIGNIFIE PAS « PAS DE DIFFERENCE » Une p-valeur
élevée signifie qu’une différence aussi grande que celle observée serait un résultat d’échantillonnage
aléatoire qui se produirait fréquemment. Mais cela ne signifie pas nécessairement que l’hypothèse nulle
d’absence de différence est vraie ou que la différence observée est sans aucun doute le résultat de
l’échantillonnage aléatoire.
Une p-valeur élevée ne prouve pas l’hypothèse nulle. Décider de ne pas rejeter l’hypothèse nulle, ce n’est
pas la même chose que de croire que l’hypothèse que l’hypothèse nulle est sûrement vraie.
Exemple 2
Les statistiques ne peuvent aider à trancher entre plusieurs tentatives d’interprétations. Le choix dépend
de la façon dont nous interprétons un risque relatif.
Il faut prendre en considération l’ensemble des évènements lorsqu’on évalue les résultats.
ð Même si la p-valeur est > 0,05, on ne peut pas conclure que nous avons réfuté l’hypothèse nulle.
ð La probabilité d’une erreur de type II dépend du seuil de signification que nous avons choisi, de la
taille de l’échantillon et de la taille de l’effet réel.
ð Pour diviser par 4 l’étendue d’un IC, il faut augmenter la taille de l’échantillon d’un facteur 16.
ð Une étude peut être cohérente à la fois avec l’existence d’un effet et sa non-existence. Les
résultats brouillés sont non concluants.
La puissance répond à la question suivante : si l’effet réel est de taille spécifiée et l’expérience répétée de
nombreuses fois, quelle proportion des résultats sera statistiquement significative ?
Le concept de puissance peut être utile au moment de décider de la taille de l’échantillon à utiliser et quand
on interprète des résultats qui ne sont pas statistiquement significatifs.
52
I. QU’EST-CE QUE LA PUISSANCE ?
Si l’hypothèse nulle est fausse et que le traitement a réellement un impact sur le résultat, les données
peuvent conduire à la conclusion que l’effet n’est pas statistiquement significatif.
La puissance dépend de 4 variables :
• La taille de l’échantillon
• L’ampleur de la dispersion (si on compare des valeurs d’une variable continue) ou la proportion
initiale (si on compare des proportions)
• La taille de l’effet que l’on suppose exister
• La seuil de signification choisi
La puissance est la fraction des expériences que l’on peut s’attendre à voir aboutir à un résultat
statistiquement significatif. Elle s’exprime plutôt en % qu’en fraction.
En supposant que l’hypothèse nulle n’est pas vraie, la puissance est donc la fraction des expériences qui
mèneront à une conclusion statistiquement significative. Elle est égale à C/C+D.
Le TFD et la puissance statistique répondent à des questions différentes. De ce fait, ils ne sont pas égaux.
Puissance élevée : échantillon de grande taille, effet important recherché et données peu dispersées. Il y
a de fortes chances qu’on aurait obtenu un résultat statistiquement significatif.
Puissance faible : échantillon de petite taille, petit effet recherché et données très dispersées. Il y a de
fortes chances d’obtenir un résultat statistiquement non significatif.
53
IV. LA PUISSANCE DE DEUX EXEMPLES ETUDIES
Si réellement il n’y a pas de différence entre les moyennes des populations, il y a 5% de chances d’obtenir
un résultat SS. S’il y a une différence entre les moyennes des populations, la puissance de l’étude dépend
de la taille de cette différence. Au cas où la différence est très petite, la puissance est faible. Au cas où la
différence est grande, la puissance s’approche de 100%.
L’allure générale des courbes est universelle. Ce qui varie d’une étude à l’autre c’est l’endroit où la courbe
est horizontale.
2. Croire qu’il est utile de calculer la puissance observée (puissance post hoc)
Le résultat de ce calcul est appelé la puissance observée, et la procédure est une analyse a posteriori de
la puissance ou analyse rétrospective de la puissance.
Si l’étude arrive à la conclusion que la différence n’est pas SS, alors sa puissance est très basse.
La puissance observée peut être calculée aussi bien à partir de la p-valeur observée que de la valeur du
seuil α choisi.
ð Si P vaut 0,05 dans une certaine expérience, c’est notre meilleure estimation de ce qu’elle vaudra
dans des expériences répétées. La moitié des p-valeurs sera supérieure, et l’autre moitié
inférieure. Comme seulement cette dernière moitié conduira à la conclusion que le résultat est
statistiquement significatif, la puissance vaut 50%.
ð Les données requises par un programme qui calcule la puissance sont α, l’écart-type, la taille de
l’échantillon prévu et la mesure de la différence que nous souhaitons détecter.
ð Toutes les études auront une faible puissance pour détecter de petits effets et une grande
puissance pour détecter des effets énormes. Il est impossible de calculer la puissance sans spécifier
la taille de l’effet que nous cherchons.
ð La plupart des calculs de taille d’échantillon sont effectués pour une puissance de 80%. Cette
valeur n’a rien de spécial sinon l’habitude.
ð Habituellement, on peut faire tous les calculs de taille et de puissance avec des équations
classiques. Dans certains cas, il est toutefois nécessaire de lancer des simulations par ordinateur
pour calculer la puissance d’un projet expérimental particulier.
54
ð Les analyses de puissance fixent habituellement α=0,05 et β=0,20. Ces valeurs traditionnelles ont
pour conséquence que nous acceptons que l’erreur de type I a 4x plus de chances de se produire
que l’erreur de type II (car 0,20/0,05 = 4). Ce rapport est-il justifié ? Non, puisque les coûts relatifs
des erreurs de type I et II dépendent du contexte scientifique, il en va de même pour les choix de
α et β.
Le but est de savoir si les effets d’un nouveau traitement sont équivalents (ou non inférieurs) à ceux d’un
traitement classique.
Deux formulations de médicaments sont équivalentes lorsque l’intervalle de confiance à 90% du rapport
de leur concentration plasmatique maximale est tout entier compris entre 0,80 et 1,25. Cette définition
est basée sur la connaissance clinique de l’action du médicament. Dans d’autres circonstances,
l’équivalence pourrait être définie autrement.
La zone d’équivalence est symétrique autour de 100%. Il est tout à fait arbitraire de calculer le rapport des
concentrations, soit en divisant la concentration maximale de la nouvelle formulation par celle de la
formulation classique, soit en divisant la concentration maximale de la formulation classique par celle de
la nouvelle formulation. L’inverse de 80% est alors 125%. Pratiquement, cette zone d’équivalence est donc
symétrique. Elle est également symétrique sur un axe muni d’une échelle logarithmique. Les zones
d’équivalence peuvent être définies de diverses façons et peuvent ne pas être symétriques même sans
faire appel aux « inverses ».
55
IV. APPLIQUER LA DEMARCHE HABITUELLE DES TESTS D’HYPOTHESE POUR TESTER
L’EQUIVALENCE
Il est possible d’appliquer les principes du test d’hypothèse pour tester l’équivalence, mais c’est compliqué.
La démarche consiste à poser deux hypothèses nulles distinctes et à définir la signification statistique à
partir de deux tests unilatéraux. Les résultats indiqueront que les deux médicaments sont équivalents
lorsque les conditions reprises ci-dessous sont toutes deux remplies :
• La valeur moyenne du rapport est plus grande que 0,80 (limite inférieure) et cette différence
positive est SS, avec une p-valeur unilatérale inférieure à 0,05. L’hypothèse nulle unilatérale pour
ce test est que le rapport moyen est inférieur à 0,80.
• La valeur moyenne du rapport est plus petite que 1,25 (limite supérieure) et cette différence
négative est SS, avec une p-valeur unilatérale inférieure à 0,05. L’hypothèse nulle unilatérale pour
ce test est que le rapport est supérieur à 1,25.
2. Tester l’équivalence sans être certain que le traitement classique est efficace
Nous devons être certains à 100% que le traitement classique est efficace. La conclusion qu’un traitement
est équivalent (ou non inférieur) au traitement classique n’est utile que si nous sommes absolument
certains que le traitement classique est réellement plus efficace qu’un placebo.
ð La p-valeur d’un test statistique standard et donc la conclusion qu’un effet est SS est basée
entièrement sur l’analyse de données. Une conclusion sur l’équivalence doit tenir compte du
contexte. Ce qui est équivalent pour une variable dans une situation données n’est pas équivalent
pour une autre variable dans un autre contexte. C’est pour cela que la conclusion d’une différence
statistiquement non significative n’est pas suffisante pour prouver l’équivalence.
ð Il est possible qu’une différence soit SS mais que les données montrent l’équivalence. La
conclusion que la différence est SS signifie simplement que les données nous ont convaincu que la
vraie différence n’est pas nulle. Elles ne nous disent pas que la différence est suffisamment grande
pour s’en soucier. Il est possible que l’intervalle de confiance englobe des valeurs que nous
considérons comme équivalentes.
56
ð Les tests d’équivalence utilisent des intervalles de confiance à 90%, mais les conclusions sont une
confiance à 95%.
ð Malgré ce qu’il en semble à première vue, la double négation n’est pas du tout embarrassante. En
testant la non infériorité, nous posons la question de savoir si un médicament n’est pas moins bon
qu’un médicament classique. Nous conclurons que le médicament A n’est pas moins bon que le
médicament B quand les deux médicaments sont équivalents ou que le médicament A est meilleur.
Chaque élément du tableau est le nombre effectif de patients qui ont reçu tel traitement et ont eu tel
résultat. Ce tableau est appelé tableau de contingence. Il montre comment le résultat est lié au traitement.
Il donne toujours le nombre exact de personnes (ou toute autre unité de l’expérience) avec un certain
traitement et un certain résultat. Les tableaux de pourcentages ou de taux normalisés ne sont pas des
tableaux de contingence.
Intervalle de confiance
Les intervalles de confiance montrent clairement le résultat.
Risque attribuable
Il calcule la différence entre les deux proportions (exprimé en %). Cette différence est appelée risque
attribuable. Ces calculs utilisent donc la différence entre les taux d’incidence (soustraction), et pas la
différence relative (division).
57
Risque relatif
Le risque relatif est le rapport de deux proportions.
Il ne faut pas confondre tous les pourcentages ; le médicament abaisse le risque absolu de 7,1% ( la
différence entre les taux de récidive de chacun) et réduit le risque relatif de 81% (100% - rapports des
risques avec le traitement efficace au numérateur).
Le terme risque convient particulièrement bien dans un exemple précis parce qu’il porte sur la récidive
d’une maladie. Dans d’autres situations, un évènement alternatif peut ne pas être pire que l’autre et le
risque est alors appelé la probabilité relative, ou rapport relatif.
P-valeur
La p-valeur dépend de la taille des échantillons et de l’écart entre le risque relatif et 1. Selon la majorité, le
test exact de Fisher est le meilleur. Comme avec de grands échantillons le test de Fisher est
mathématiquement lourd à réaliser, c’est le test Khi-carré qui le remplace. Pour de grands échantillons,
les deux tests donnent des p-valeurs presque identiques.
II. HYPOTHESES
1. Échantillons aléatoires ou représentatifs
Les patients de l’exemple du livre n’ont certainement pas été sélectionnés aléatoirement, mais il est
raisonnable de penser qu’ils sont représentatifs des personnes adultes terminant une thérapie après une
thromboembolie veineuse.
2. Observations indépendantes
3. Pas de différence entre les deux groupes à l’exception du traitement
58
((34%#5é%7",,%8-&%)-
;E = Σ
",,%8-&%
La relation entre X2 et la p-valeur dépend du nombre de catégories. Le nombre de degrés de liberté est ici
le nombre de catégories – 1. Connaissant X2 et le nombre de degrés de liberté, la p-valeur peut être
calculée par un programme.
Le test est basé sur certains approximations qui sont raisonnablement bonnes lorsque toutes les valeurs
attendues sont grandes. Si une des valeurs attendues est inférieure à 5, les résultats sont suspects. Cette
limite est moins importante s’il y a beaucoup de catégories et importe surtout lorsqu’il y a seulement
deux catégories (auquel cas les valeurs attendues devraient être au moins égales à 10).
Test binomial
Le test précédent est une approximation. Lorsqu’il n’y a que deux catégories, le test binomial calcule la p-
valeur exacte, sans aucune approximation ni souci sur la taille de l’échantillon. Pour l’appliquer, il faut
utiliser le nombre total d’observations, le nombre d’un des deux résultats observés et le nombre attendu
(sous l’hypothèse nulle) d’avoir ce résultat.
3. Analyser les données observées et attendues avec un programme destiné à analyser une table de
contingence
ð S’il y a plus de trois groupes/résultats possibles, il ne sera pas possible de calculer un risque précis
ou un risque relatif, mais il sera possible de calculer une p-valeur. Le test de Fisher est limité aux
tables avec deux lignes et deux colonnes, mais le test khi-carré peut analyser une table de
contingence de n’importe quelle dimension. Certains programmes offrent des tests exacts même
pour cette situation.
ð S’il y a trois/davantage lignes/colonnes, l’ordre dans lequel elles sont placées n’a pas
d’importance. Le test khi-carré usuel ne prend pas en considération l’ordre des lignes et des
colonnes. Si la table a deux colonnes et trois lignes, pour lesquelles l’ordre est significatif, le test
khi-carré pour tendance répond à la question : y a-t-il une tendance significative entre les nombres
des lignes et la distribution des résultats observés ?
ð Correction de Yates : le programme pour analyser des tables de contingence pourrait nous
proposer cette correction. Il y a en effet deux façons de calculer le khi-carré. La correction de Yates
a pour effet d’augmenter la p-valeur pour compenser le biais du test khi-carré habituel, mais elle
est excessive.
ð On dispose d’analyses particulières pour des données appariées où chaque sujet est mesuré avant
et après une intervention ; c’est le test de McNemar.
ð Il est naturellement préférable d’exprimer les résultats de diverses façons. Si nous devions
synthétiser les résultats par une seule valeur, le NNT est souvent la meilleure.
59
ð Un NNT de 14 signifie que pendant la durée de l’étude, nous devons traiter 14 patients pour
empêcher une thromboembolie.
ð Si personne dans le groupe témoin n’a donné un résultat, le risque relatif sera nul. Cependant, le
risque relatif ne peut pas être nul.
ð La valeur maximale possible du risque relatif dépend du risque dans le groupe témoin. Par
exemple, si le risque dans le groupe témoin est de 25%, le risque relatif ne peut pas être plus grand
que 4 car cela rendrait le risque dans le groupe traité plus grand que 100% (risque maximum
possible).
8. Les groupes de traitements ont été définis avant le début de la collecte des données Il faut
que les groupes soient définis avant que ne commence la collecte des données.
Comparer la survie de répondeurs avec des non-répondeurs n’est pas valide pour deux raison :
a) Un patient ne peut pas être défini comme « répondeur », à moins qu’il ne survive assez longtemps
pour qu’on puisse mesurer la taille de la tumeur. En d’autres mots, la survie a influencé le choix
du groupe dans lequel le patient a été versé. C’est pourquoi on ne peut rien apprendre en
comparant la survie dans les deux groupes.
b) La maladie peut être hétérogène. Les patients répondeurs peuvent avoir une forme de maladie
différente de celle des non-répondeurs.
Il font donc se médier des études qui utilisent des données collectées durant la phase expérimentale pour
former les groupes de patients ou pour ajuster les données.
9. Les groupes sont définis de façon invariable au cours de la récolte des données
Il est essentiel que les classes de diagnostic soient définies de façon stable. Changer la méthode de
diagnostic augmente de façon paradoxale la survie moyenne des deux groupes. Cela est appelé le
phénomène de Will Rogers.
P-valeur
Lorsqu’on compare deux courbes de survie, l’hypothèse nulle est que les courbes de survie dans les
populations sont identiques et que toute différence observée est le résultat de l’erreur aléatoire
d’échantillonnage.
Il est préférable de laisser le calcul de la p-valeur aux logiciels. La méthode du logrank, aussi appelée
méthode de Mantel-Cox (et pratiquement identique à la méthode de Mantel-Haenszel) est la plus
fréquemment utilisée.
Une autre méthode pour calculer la p-valeur est connue sous le nom de méthode de Gehan-
BreslowWilcoxon. Alors que le test du logrank attribue des pondérations égales à toutes les valeurs du
temps, cette méthode donne plus de poids aux décès qui se produisent au début du suivi. Il ne requiert
pas un rapport de risques constant, mais bien que dans un des groupes, le risque soit constamment plus
élevé que dans l’autre.
61
III. POURQUOI NE PAS SIMPLEMENT COMPARER LA MOYENNE OU LA MEDIANNE DU TEMPS DE
SURVIE OU LA SURVIE A 5 ANS ?
Pourquoi il est rarement utile de comparer le temps moyen jusqu’au décès Voici
3 raisons :
• Si quelqu’un est encore en vie au moment où nous récoltons nos données, il n’est pas possible de
calculer le temps moyen jusqu’au décès.
• Si les données d’un sujet quelconque sont censurées, il n’est pas possible de calculer le temps
moyen jusqu’au décès.
• Même si tous les sujets étaient décédés, le temps moyen jusqu’au décès ne pourrait toujours pas
avoir de sens. Il est probable que la distribution de ces valeurs ne soit pas gaussienne. Dans ce cas,
résumer les données par la moyenne pourrait ne pas donner d’information. De plus, des résultats
comme l’IC95 de la moyenne ne seront pas utilisables si la distribution est loin d’être gaussienne.
Survie à 5 ans
Deux courbes peuvent avoir le même taux de survie à 5 ans mais beaucoup diverger après 5 ans.
ð Le test du logrank et celui de Mantel-Haenszel sont presque identiques. Ils sont différents
uniquement dans la manière de traiter les cas de décès multiples survenus exactement au même
moment. Les résultats seront très semblables.
ð Le test de Gehan-Breslow-Wilcoxon est quant à lui différent. Cette méthode donne plus de poids
aux décès précoces, ce qui est très raisonnable. Mais les résultats peuvent être trompeurs
lorsqu’une partie importantes des patients sont censurés tôt dans le temps. En revanche, le test
du logrank donne le même poids à tous les moments. Ce test de GBW n’exige pas un rapport de
risques constant, mais exige qu’un groupe ait constamment un rapport de risque plus grand que
l’autre groupe. Naturellement, nous devrions choisir le test comme partie intégrante de notre plan
expérimental.
62
ð Lorsque deux courbes de survie se croisent, un groupe a un plus grand risque dans les premières
périodes et l’autre groupe a un plus grand risque dans les périodes ultérieures. Si les deux courbes
sont basées sur de nombreuses données et que le point de croisement est proche du milieu de
l’intervalle de temps, alors les données violent les hypothèses du test de logrank et de GBW. Nous
aurons besoin de méthodes particulières qui sont en dehors de l’objectif du cours. De plus, le
rapport de risque n’aurait pas de sens, car il serait la moyenne des mauvaises nouvelles du début
et des bonnes nouvelles de la fin. Quand les courbes de survie se croisent plus tard dans le temps,
cela peut être dû au hasard et n’avoir pas de signification particulière. Vers la fin, mois de patients
sont suivis et les deux courbes peuvent se croiser par pur effet du hasard.
Le test t pour échantillons indépendants compare les moyennes dans deux groupes en supposant que les
données ont été échantillonnées dans une population gaussienne.
P-valeur
Si l’hypothèse nulle était vraie, quelle serait la chance d’observer, par hasard, une différence aussi grande
ou plus grande que celle observée dans cette expérience ?
La p-valeur dépend de trois nombres :
• Différence entre les moyennes : toutes autres choses étant égales, la p-valeur sera d’autant plus
petite que les moyennes sont éloignées l’une de l’autre.
• Les écarts-types : toutes autres choses étant égales, la p-valeur sera d’autant plus petite que les
données sont très regroupées.
• La taille d’échantillon : toutes autres choses étant égales, la p-valeur sera plus petite quand les
tailles d’échantillon sont plus grandes.
R2
Pour un R2 de 0,45, un peu moins de la moitié de la variation (45%) de l’ensemble des valeurs est due à la
différence entre les moyennes des groupes (but) et un peu plus de la moitié, à la variabilité au sein des
groupes.
63
Rapport t
Le rapport t tient compte de la différence entre les deux moyennes, des écarts-types et de la taille de
chaque groupe. Il n’a pas d’unité et ne donne pas beaucoup d’information.
Vérifier l’hypothèse
Rapport F : carré du rapport de l’écart-type n°1/l’écart-type n°2.
Le calcul de la p-valeur dépend des degrés de liberté du numérateur et du dénominateur du rapport F,
appelés Dln et Dld. Chaque degré de liberté est égal à la taille de l’échantillon -1.
Il ne faut pas confondre cette p-valeur, qui teste l’hypothèse nulle que les deux populations ont le même
écart-type, et la p-valeur qui teste l’hypothèse nulle que les deux populations ont la même moyenne.
64
Barres d’erreurs de l’écart-type
Le graphique de gauche (p.299) est typique et présente uniquement une barre vers le haut.
Les deux barres d’erreur se chevauchent. On ne peut pas en tirer grand-chose car le test tient aussi compte
de la taille de l’échantillon. Si les échantillons étaient plus grands, avec les mêmes moyennes et les mêmes
écarts-types, la p-valeur serait beaucoup plus petite. Si les échantillons étaient plus petits, avec les mêmes
moyennes et les mêmes écarts-types, la p-valeur serait beaucoup plus grande.
Lorsque la différence entre deux moyennes est SS (P < 0,05), les deux barres d’erreur de l’écart-type
peuvent se chevaucher ou non. Il ne permet donc pas de conclure si la différence entre les moyennes est
SS.
Les barres d’erreur avec l’ESM sont toujours plus courtes que les barres d’erreur avec l’écart-type.
Regarder si les barres d’erreur se chevauchent permet de comparer la différence entre les moyennes tout
en tenant compte de la précision de ces moyennes. Cela dit, les règles sont difficiles à retenir et à appliquer.
Voici une règle empirique qui peut être utilisée lorsque les deux tailles d’échantillon sont égales ou
pratiquement égales. o Si deux barres d’erreur de l’ESM se chevauchent, la p-valeur est plus grande que
0,05 et la différence n’est pas SS. La règle inverse ne s’applique pas.
o Si deux barres d’erreur de l’ESM ne se chevauchent pas, la p-valeur peut être plus petite ou
plus grande que 0,05.
Barres d’erreur de l’IC
Dans le cas du chevauchement des barres d’erreur de l’IC95, ce serait une erreur de conclure que la pvaleur
est supérieure à 0,05. Lorsque deux IC95 se chevauchent, la p-valeur peut être plus grande que 0,05 et
peut aussi être plus petite que 0,05.
Intervalle de confiance
L’IC pour la différence entre les deux moyennes de population est centré sur la différence des moyennes
des deux échantillons. L’IC s’étend dans chaque direction d’une distance obtenue en multipliant l’ES de la
différence par une valeur critique de la distribution t.
65
Rapport t
Pour déterminer la p-valeur, on calcule le rapport t en divisant la différence entre les moyennes des deux
échantillons par l’ES de cette différence. Le numérateur et le dénominateur ont les mêmes unités, de sorte
que le rapport t n’a pas d’unité.
P-valeur
La p-valeur est calculée à partir du rapport t et du nombre de degrés de liberté qui est égal au nombre total
de valeurs (dans les deux groupes) -2.
2. Si notre expérience inclut trois groupes de traitement ou plus, utiliser le test t pour échantillons
indépendants pour comparer deux groupes à la fois.
3. Si l’expérience inclut trois groupes traitement ou plus, comparer la plus grande moyenne avec
la plus petite moyenne à l’aide du test t pour échantillons indépendants.
4. Si la p-valeur est supérieure à 0,05, essayer d’autres tests pour voir s’ils conduisent à des
pvaleurs plus petites.
5. Si la p-valeur est petite, conclure que les deux distributions ne se chevauchent pas beaucoup.
66
ð Lors d’un test t pour échantillons indépendants d’inégales variances, la p-valeur pourra être plus
grande ou plus petite. Cela peut aller dans les deux sens selon l’ensemble de données.
ð Lorsque nous ne savons pas si les variances sont égales, nous devrions privilégier l’utilisation
systématique du test de Welch (selon Ruston, Delacre, Lakens et Leys).
III. INTERPRÉTATION DES RÉSULTATS D’UN TEST T POUR ÉCHANTILLONS APPARIÉS Sur le
graphique (p.308), chacune des lignes relie les mesures des données appariées.
Intervalle de confiance
Un test t pour échantillons appariés porte sur la différence entre les mesures des deux sujets appariés ou
entre une mesure effectuée avant et après une intervention expérimentale.
Quand l’IC n’inclut pas le zéro, on peut être sûr à 95% que les données sont supérieures/inférieures aux
autres données, mais qu’elles ne sont pas égales.
67
• Taille de l’échantillon : toutes autres choses étant égales par ailleurs, un échantillon incluant plus
de paires va générer des IC plus étroits et un échantillon incluant moins de paires va générer des
IC plus larges.
• Degré de confiance : si l’on souhaite un niveau de confiance plus élevé, l’intervalle sera plus large.
Si on accepte un niveau de confiance moins élevé, l’intervalle sera plus étroit.
P-valeur
La somme des deux probabilités unilatérales est égale à la p-valeur bilatérale.
La p-valeur dépend de trois choses :
• Différence moyenne : toutes autres choses étant égales, la p-valeur sera plus petite lorsque la
moyenne des différences est très éloignée de zéro.
• Variabilité : si les différences observées sont très fortement dispersées, certaines paires
présentant une grande différence, et certaines paire une petite différence, alors la p-valeur sera
plus élevée. Si les données sont très regroupées, la p-valeur sera plus basse.
• Taille de l’échantillon : toutes autres choses étant égales, la p-valeur sera plus petite si
l’échantillon inclut un plus grand nombre de paires.
Hypothèses
Le test t pour échantillons appariés est basé sur une série d’hypothèses bien connues :
• Les valeurs appariées sont échantillonnées aléatoirement dans une population de paires (ou en
sont au moins représentative).
• Dans cette population, les différences entre les valeurs appariées suivent une distribution
gaussienne.
• Chaque paire est sélectionnée indépendamment des autres.
68
Les résultats d’un test t de rapport de paires
Il faut d’abord prendre le log (en base 10) de toutes les données, et ensuite réaliser le test sur de nouvelles
données. On calcule ensuite la moyenne des différences entre log, puis on transforme ce nombre dans son
échelle originale.
Il faut prendre l’antilog de ces valeurs pour trouver l’IC95 du rapport. Cet intervalle n’inclut pas 1 (un
rapport de 1 signifie pas de changement). Donc il est très peu vraisemblable que l’accroissement de
l’activité dû au traitement soit une coïncidence.
v Test t de rapport de paires : test t pour échantillons appariés sur des données transformées en
logarithmes.
5. Utiliser la valeur absolue des différences au lieu des différences telles quelles. Le test doit accepter
les valeurs négatives.
6. Décider que les observations sont appariées après avoir pris connaissance des données.
ð L’appariement doit faire partie du protocole expérimental mis au point AVANT que les données ne
soient récoltées. La décision sur l’appariement est une question de protocole expérimental et
devrait être prise longtemps avant l’analyse des données.
ð Le sens de la soustraction n’a pas beaucoup d’importance, tant que nous restons cohérents. Si les
calculs sont faits dans l’autre sens, les différences auraient eu le signe opposé et le rapport aurait
également un signe opposé. La p-valeur aurait été la même. Il est très important, cependant, que
la soustraction soit faite dans le même ordre pour chaque paire. Il est aussi essentiel que dans le
programme qui effectue les calculs, le signe des différences ne soit pas perdu.
ð Un test t pour échantillons appariés ne peut être calculé si l’on ne connait que la moyenne et
l’écart-type, ainsi que le nombre de paires. Ces données résumées ne nous apprennent rien sur
l’appariement.
69
ð Tout ce qu’il faut pour calculer un test t pour échantillons appariés, c’est la moyenne des
différences, le nombre de paires et l’écart-type ou l’ESM des différences. Nous n’avons pas besoin
de données brutes.
ð Les populations ne doivent pas obligatoirement être gaussiennes. Le test t pour échantillons
appariés s’applique seulement à l’ensemble des différences des paires, différences supposées
suivre une distribution gaussienne. Ceci ne signifie pas que les deux ensembles individuels de
valeurs doivent forcément être gaussiens.
Si l’on effectue un test de normalité sur les données d’un test t pour échantillons appariés, il est
raisonnable de ne tester que l’ensemble des différences (une valeur par paire). Cela n’a pas de
sens de tester séparément les deux ensembles de données.
ð Avec l’exemple de Darwin, un test t pour échantillons indépendants donne une p-valeur plus petite
que le test t pour échantillons appariés. Mais lorsque l’appariement est fort (càd lorsque
l’ensemble des différences est plus regroupé que chacun des ensembles de données), le test pour
échantillons appariés donnera généralement une p-valeur plus petite.
Chapitre 32 : corrélation
La corrélation entre deux variables continues peut être quantifiée par le coefficient de corrélation r. Ce
chapitre est consacré à la corrélation de Pearson.
Corrélation
La direction et l’importance de la corrélation linéaire peuvent être quantifiées par un coefficient de
corrélation, r. Sa valeur peut aller de -1 à 1.
• Quand le coefficient de corrélation vaut 0, c’est que les deux variables ne varient pas du tout
ensemble.
• Quand le coefficient de corrélation est positif, les deux variables ont tendance à croître ou à
décroitre ensemble.
• Quand le coefficient de corrélation est négatif, les deux variables sont inversement associées,
c’est-à-dire que lorsqu’une variable a tendance à diminuer, l’autre a tendance à augmenter.
• Quand le coefficient de corrélation vaut 1 ou -1, les deux variables varient de façon complètement
semblable, autrement dit, les points observées forment une ligne droite.
70
r2
le carré du coefficient de corrélation est une valeur plus facile à interpréter que r. Comme r est toujours
compris entre -1 et 1, r2 est toujours compris entre 0 et 1.
Il s’agit de la fraction de la variance partagée entre les deux variables. Connaitre A permet d’expliquer 59%
de la variance de B. Donc, il reste 41% de la variance à expliquer par d’autres facteurs ou par des erreurs
de mesure. On dit aussi que 59% de la variabilité de A sont associés à la variabilité de B.
P-valeur
La p-valeur s’interprète de la même façon que dans les chapitres précédents. Ici, l’hypothèse nulle est le
fait qu’il n’y ait pas de corrélation entre A et B.
II. HYPOTHESES
Nous pouvons calculer le coefficient de corrélation de n’importe quel ensemble de données et il peut
utilement décrire les données.
1. Échantillon aléatoire
Les sujets sont sélectionnés aléatoirement.
2. Échantillon de paires
A chaque sujet doivent correspondre à la fois des valeurs de X et de Y.
3. Échantillonnage à partir d’une seule population
Toutes les observations ont été sélectionnées aléatoirement à partir d’une même population.
4. Observations indépendantes
La relation entre tous les sujets doit être la même. Tout facteur aléatoire affecte seulement un sujet et pas
les autres.
5. Les valeurs de X ne sont pas utilisées pour calculer les valeurs de Y Les valeurs
de X et Y sont mesurées séparément.
6. Les valeurs de X n’ont pas été expérimentalement contrôlées
L’intervalle de confiance de r ne peut pas être interprété si l’expérimentateur a contrôlé la valeur de X.
7. Les deux variables suivent une distribution gaussienne
Les valeurs de X et Y doivent chacune avoir été échantillonnées dans une population au moins
approximativement gaussienne.
8. La covariation est totalement linéaire
Des relations curvilignes sont fréquentes mais ne peuvent pas être appréciées avec un coefficient de
corrélation.
9. Pas de valeurs aberrantes
Le calcul du coefficient de corrélation peut être fortement influencé par une valeur extrême. Il ne faut donc
pas systématiquement enlever les valeurs aberrantes comme de mauvaises observations qui perturbent
l’analyse. Il est possible qu’elles soient les observations les plus intéressantes de l’étude.
Coefficient de détermination
Le coefficient de détermination désigne le r2. Il est aussi appelé r carré.
71
IV. COMMENT CELA FONCTIONNE-T-IL : CALCUL DU COEFFICIENT DE CORRELATION
Le calcul du coefficient de corrélation est effectué par des logiciels ; il n’y a donc pas de raison de l’effectuer
à la main.
1) Calculer la moyenne de toutes les valeurs de X et aussi celle de toutes les valeurs de Y. Ces deux
moyennes sont les coordonnées du « centre de gravité » des données.
2) Comparer la position de chaque point par rapport au centre. Pour cela, il faut calculer la différence
entre chaque valeur de X et la moyenne des X. cette différence sera positive pour les points situés
à droite du centre et négative pour les points situés à gauche. De même, il faut calculer la
différence entre chaque valeur de Y et la moyenne des Y. cette différence sera positive pour les
situés plus haut que le centre et négative pour les points situés plus bas.
3) Standardiser ces distances en X en les divisant par l’écart-type de toutes les valeurs de X. De même,
il faut diviser les distances en Y par l’écart-type de toutes les valeurs de Y. diviser une distance par
l’écart-type élimine les unités, de sorte que ces rapports sont des fractions sans unité.
4) Effectuer le produit de ces deux distances standardisées pour chaque point. Le produit sera positif
pour les points situés au NE (produit de deux nombres positifs) ou au SO (produit de deux nombres
négatifs) du centre. Il sera négatif pour les points situés au NO ou SE (produit de deux nombres de
signe opposé).
5) Additionner tous les produits calculés en 4).
6) Tenir compte de la taille de l’échantillon en divisant cette somme par n-1, où n est le nombre de
paires (X, Y).
V. ERREURS FREQUENTES
1. Croire que la corrélation démontre un lien de causalité
La p-valeur nous indique dans quelle mesure la coïncidence serait rare.
La corrélation ne démontre pas nécessairement une simple relation de cause à effet. Deux variables
peuvent être corrélées parce qu’elles sont toutes les deux influencées par une même troisième.
2. Se concentrer sur la p-valeur au lieu du coefficient de corrélation
Pour une distribution très asymétrique, les auteurs ont pris le logarithme des nombres. Réaction tout à fait
sensée lorsque les valeurs suivent approximativement une distribution log-normale.
Avec de grands échantillons, les données peuvent révéler de petits effets et malgré tout avoir des p-valeurs
très faibles. Mais la grandeur des p-valeurs ne dit pas dans quelle mesure l’effet est important. r et r2
mesurent l’importance de l’effet.
Est-ce qu’une valeur de r2 de 2 à 3% est suffisamment grande pour être considérée comme intéressant et
justifier de poursuivre l’étude ? c’est une question scientifique, pas une question statistique.
3. Interpréter le coefficient de corrélation sans d’abord jeter un coup d’œil à la représentation
graphique
Le coefficient de corrélation peut être identique ainsi que les p-valeurs, alors que les données sont
vraiment différentes.
4. Calculer un coefficient de corrélation entre deux variables dont l’une est obtenue à partir de
l’autre
Lorsque deux variables A et B sont complètement indépendantes (corrélation nulle), le coefficient de
corrélation entre A et A – B vaut environ 0,7.
72
5. Confondre corrélation et régression linéaire
La corrélation et la régression linéaire sont liées, mais distinctes.
ð Il n’est pas nécessaire de déterminer quelle variable sera X, et quelle variable sera Y. X et Y sont
complètement symétriques dans les calculs de corrélation. Ce n’est pas le cas dans la régression
linéaire. Une analyse de données par une régression linéaire demande choisir soigneusement
quelle variable est X et quelle variable est Y.
ð X et Y ne doivent pas être mesurées dans les mêmes unités, mais elles peuvent l’être. ð r est un
nombre sans unité.
ð r peut être négatif ; il est négatif quand une variable a tendance à diminuer pendant que l’autre
augmente. Si r est positif, une variable a tendance à croitre quand l’autre croit.
ð Si toutes les valeurs de X ou de Y sont les mêmes, cela n’a pas de sens de calculer la corrélation.
ð La corrélation quantifie la relation mais n’ajuste pas une droite aux données.
ð Si toutes les données sont converties dans de nouvelles unités, r ne changera pas. Multiplier par
un facteur pour changer les unités n’affecte pas le coefficient de corrélation.
ð Si toutes les valeurs de X et de Y ont été transformées en logarithmes, le coefficient r changera.
Une conversion aux log ou toute autre transformation qui change les valeurs relatives des données
va modifier la valeur de r. Le coefficient de corrélation non paramétrique de Spearman, qui ne
dépend que de l’ordre des valeurs, ne change pas. ð Si on permute X et Y, r ne change pas. Les
rôles de X et Y sont complètement symétriques dans le calcul et l’interprétation du coefficient de
corrélation. ð Si on double le nombre de points sans que r ne change, l’IC est moins large grâce
au plus grand nombre de points. La p-valeur sera elle plus faible.
ð Le coefficient de corrélation ne peut pas être utilisé pour quantifier dans quelle mesure deux
méthodes de dosage concordent. C’est une faute fréquente. Si l’on veut comparer deux méthodes
d’analyse différentes, des méthodes spéciales sont nécessaires. Il faut voir le diagramme de
BlandAltman.
ð Il n’y a pas de distinction entre r et r2. Cependant, le coefficient de corrélation r est toujours écrit
avec une minuscule.
ð Il n’y a pas de règle concernant des « corrélations fortes/faibles. Une corrélation qui peut sembler
élevée à des scientifiques d’un certain domaine peut paraitre basse aux scientifiques d’un autre
domaine.
ð La valeur de r est comprise entre -1 et 1 et ne peut pas être exprimée en pourcents comme il ne
s’agit pas d’une fraction.
73
Ce modèle n’est pas complet, parce qu’il ne tient pas compte de la variation aléatoire. Les chercheurs ont
utilisé l’hypothèse habituelle que la variabilité aléatoire autour des prédictions du modèle suit une
distribution gaussienne.
Notre objectif est de trouver, à partir de l’échantillon de données, les valeurs de l’ordonnée à l’origine et
de la pente qui sont les plus susceptibles d’être correctes et d’en quantifier l’imprécision avec des IC. Il est
utile de visualiser le modèle graphiquement. Grosso modo, la régression linéaire peut être vue comme une
méthode qui permet de déterminer la droite qui passe au plus près des points. Plus précisément, la
régression linéaire détermine la droite qui prédit le mieux Y à partir de X. Elle prend en compte seulement
les distances verticales entre les points et la droite, et plutôt que de minimiser ces distances, elle minimise
la somme de leurs carrées.
L’ordonnée à l’origine
Une droite est définie à la fois par sa pente et son ordonnée à l’origine, à savoir la valeur de Y lorsque X est
égal à 0.
Le modèle linéaire ne peut pas être correct lorsqu’on l’utilise pour extrapoler en dehors du domaine de
variation de données.
Bien que la bande de confiance soit incurvée, il s’agit d’une bande de confiance pour la régression linéaire
et elle ne prend en compte que les droites d’ajustement.
74
r2
La valeur de r2 signifie que 59% de toute la variance de Y peut être expliquée par le modèle de régression
linéaire. Cette valeur pour la régression linéaire va de 0 (pas de relation entre X et Y) à 1 (Y en fonction
de X est une droite parfaite).
P-valeur
En régression linéaire, l’hypothèse nulle est qu’il n’y a pas réellement de relation linéaire entre Y et X. si
l’hypothèse nulle était vraie, la meilleure droite d’ajustement dans la population générale serait
horizontale (pente nulle). Si l’IC n’inclut pas le 0, alors la p-valeur doit être inférieure à 0,05.
L’hypothèse nulle pour la corrélation est qu’il n’y a pas de corrélation entre X et Y. L’hypothèse nulle pour
la régression linéaire est que la droite est horizontale. Comme ces deux hypothèses nulles sont
essentiellement équivalentes, les p-valeurs rapportées par la corrélation et la régression linéaire sont
identiques.
v CORRÉLATION
La corrélation quantifie le degré avec lequel deux variables sont liées mais n’ajuste pas de droite aux
données. Le coefficient de corrélation indique dans quelle mesure (et dans quelle direction) une variable
a tendance à varier lorsque l’autre varie également.
L’IC du coefficient de corrélation ne peut être interprété qu’à condition que, à la fois X et Y sont mesurés
et que, de plus les deux sont supposés suivre des distributions gaussiennes. On ne peut pas interpréter l’IC
du coefficient de corrélation si les expérimentateurs ont manipulé X.
75
Avec la corrélation, on ne doit pas réfléchir à ce qui est cause ou effet. On quantifie simplement la manière
dont deux variables sont liées l’une à l’autre. Appeler une variable plutôt X et l’autre plutôt Y n’a pas
d’importance. Si on inversait la définition, tous les résultats seraient identiques.
v RÉGRESSION LINÉAIRE
Avec la régression, il faut réfléchir à ce qui est cause et ce qui est effet. Elle permet de déterminer la
meilleure droite qui prédit Y à partir de X, et cette droite n’est pas la même que celle qui prédit X à partir
de Y. Les résultats de la régression linéaire seraient différents si les définitions de X et Y étaient interverties.
à Avec la plupart des ensembles de données, il est raisonnable de calculer soit la régression linéaire, soit
la corrélation, mais pas les deux. Le r2 est le même, qu’il soit obtenu par un programme de corrélation ou
un programme de régression linéaire.
Paramètres
Le but d’une régression linéaire est de déterminer les valeurs de la pente et de l’ordonnée à l’origine de la
droite la plus proche des données. Ils sont appelés « paramètres ».
Résidus
Les distances verticales entre les points et la droite de régression sont appelés résidus. Un résidu est l’écart
entre la valeur observée de Y et la valeur de Y prédite par le modèle de régression.
Moindres carrés
La régression linéaire détermine la pente et l’ordonnée à l’origine d’une droite telle que la somme des
carrés des distances verticales des points à la droite soit rendue minimale. Cette méthode de régression
linéaire est aussi appelée droite des moindres carrés.
Linéaire
Il est possible que la relation entre X et Y soit curviligne mais que le modèle mathématique soit considéré
comme linéaire.
76
3. Effectuer un ajustement sur des données quand X et Y sont étroitement liés Si
les valeurs de X et Y sont reliées, les résultats seront erronés.
Représenter graphiquement la variation d’une variable en fonction de la valeur initiale de cette variable
est vraiment trompeur. Attribuer une corrélation significative à une intervention expérimentale sur base
d’un tel graphique est appelé régression fallacieuse. Un tel graphique ne devrait pas être analysé par
régression linéaire.
4. Ne pas réfléchir à quelles variables correspondent effectivement à X et Y
Les calculs de régression linéaire ne sont pas symétriques par rapport à X et Y. permuter les étiquettes de
X et Y produira une droite de régression différente.
Appelons X celle qui était sous contrôle expérimental, ou la cause, ou celle qui nous sert à prédire.
5. Considérer les résultats numériques de la régression sans visualiser un graphique
Les valeurs de pente et ordonnée à l’origine peuvent être identiques avec des données pourtant bien
différentes.
6. Utiliser la régression linéaire standard non pondérée lorsque la dispersion augmente quand Y
augmente
Il arrive fréquemment que la variabilité soit proportionnelle à Y. il faut pour cela utiliser un programme de
régression non-linéaire.
7. Extrapoler au-delà des données
Il n’y a pas de raison de penser que la relation linéaire se poursuive en dehors du domaine de variation des
données. Des prédictions nettement en dehors de cet intervalle seront vraisemblablement totalement
fausses.
Les prédictions d’une régression linéaire bien au-delà des données peuvent être fortement erronées.
8. Interprétation excessive d’une petite p-valeur
Se focaliser sur la p-valeur peut conduire à une mauvaise compréhension des résultats.
9. Utiliser une régression linéaire lorsque l’échantillon est composé de toutes les données
observables
Il n’y a dans ce cas-là aucun échantillonnage aléatoire. Les résultats de la régression linéaire n’ajoutent rien
à la compréhension et pourraient même induire en erreur.
Toute prédiction exige de se baser sur un modèle et il n’y a vraiment pas de raison de penser que
l’accroissement d’année en année continuera à être linéaire.
Les données ne sont pas tirées d’une population plus grande ; elles sont la population en entier. Toutes les
informations sont dès lors présentes et ne justifient pas le besoin d’une régression. 10. Joindre les données
de deux groupes dans une régression On suppose que les données sont indépendantes.
Appliquer une régression linéaire sur deux groupes réunis peut créer faussement une forte relation
linéaire, ou cacher une tendance.
ð Les valeurs de X et Y ne doivent pas forcément avoir les mêmes unités, mais elles peuvent.
ð Le but principal de la régression linéaire est de prédire Y à partir de X. Si toutes les valeurs de X
sont les mêmes, elles ne contribuent pas à prédire Y. Si toutes les valeurs de Y sont les mêmes, il
n’y a rien à prédire.
ð Un régression linéaire peut être utilisée lorsque les valeurs de X sont en réalité des catégories. Si
nous comparons deux groupes, nous pouvons appeler les groupes X=1 et X=0 et appliquer une
régression linéaire. Cela revient à effectuer un test t pour échantillons indépendants. S’il y a plus
de deux groupes, la régression n’a de sens que lorsque les groupes sont ordonnés et équidistants.
On peut alors les désigner par des nombres de façon sensée. S’il est nécessaire d’utiliser une
variable catégorielle avec plus de deux valeurs possibles, il faudra s’informer sur les variables
indicatrices sur la régression multiple.
77
ð L’ES de la pente n’est pas la même chose que l’ESM. L’ES est une façon d’exprimer la précision
d’une valeur calculée. Elles peuvent être calculées pour à peu près tous les paramètres.
ð La variable Y^ sont les valeurs de Y prédites par le modèle. ð La régression linéaire ajuste un
modèle qui prédit le mieux Y à partir de X. Si l’on permute les définitions de X et Y, la droite de
régression sera différente, à moins que les points données ne soient parfaitement alignés.
Cependant, permuter X et Y ne changera pas la valeur de r2.
ð R2 sera nul s’il n’y a aucune tendance entre X et Y, de sorte que la meilleure droite d’ajustement
est parfaitement horizontale. R2 ne peut pas être négatif en régression linéaire classique mais il le
peut avec une régression non linéaire.
ð La régression linéaire n’exige pas plus d’une valeur de Y pour chaque valeur de X. Mais il est
avantageux de d’utiliser plusieurs variables de Y pour chaque valeur de X pour trois raisons :
o Avec plus de points donnés, la pente et l’ordonnée à l’origine seront déterminées avec
plus de précision.
o Des calculs supplémentaires peuvent tester la non linéarité. Ils consistent à comparer la
variation parmi les répétitions des distances des points à la droite de régression. Si les
points sont « trop loin » de la droite, alors nous pouvons conclure qu’une droite ne décrit
pas vraiment la relation entre X et Y.
o Nous pouvons tester l’hypothèse que la dispersion de Y est la même pour toutes les
valeurs de X.
ð Pour comparer les résultats obtenus en analysant des mêmes données par régression linéaire et
par corrélation, on doit élever au carré le coefficient de corrélation r. On obtient ainsi la valeur de
r2 de la régression linéaire. La p-valeur qui teste l’hypothèse nulle que le coefficient de corrélation
de la population est nul s’accorde avec la p-valeur qui duit teste l’hypothèse nulle que la pente de
la population est nulle. ð En régression linéaire, r2 et R2 sont utilisés. Cependant, en régression
non linéaire et multiple, c’est R2 qui est utilisé.
ð R2 peut être exprimé en %. Comme c’est une fraction, cela a du sens de l’exprimer en pourcent
mais ce n’est pas fréquent. Notons au passage que r n’est pas une fraction et ne peut donc pas
être exprimé en pourcents.
ð La régression linéaire ne dépend pas de l’hypothèse que les valeurs de X et Y sont échantillonnées
dans une population gaussienne. Les résultats d’une régression linéaire sont basés sur l’hypothèse
que les résidus (écarts verticaux entre les points donnés et ceux situés sur la droite de régression)
sont distribués selon la loi de Gauss, mais pas les valeurs de X ou Y.
78