Vous êtes sur la page 1sur 79

BIOSTATISTIQUE I

Approche fréquentiste

2022-2023

B. BIHIN

Lola CHINA – B1 Médecine


Chapitre 1 : statistiques et probabilités ne sont pas intuitives

Nous ne pouvons nous fier à notre intuition pour analyser des données car :
1) Nous voyons du signal dans du bruit.
2) Nous avons du mal à concevoir que la variabilité est liée à la taille de l’échantillon.
3) Nous avons des mauvaises intuitions concernant les probabilités.
4) Nous avons du mal à combiner les probabilités.
5) Nous laissons nos croyances déterminer la manière dont nous analysons des données.
6) Nous ne prenons pas en compte la régression vers la moyenne.
Régression vers la moyenne :
Lorsqu’une mesure est soumise à une variabilité aléatoire, si l’on effectue plusieurs mesures chez
un même individu, les mesures d’un individu extrême au test 1 auront tendance à se rapprocher de
la moyenne au test 2.
à Nous avons besoin de méthodes rigoureuses pour analyser et interpréter des données.

Dès qu’une nouvelle donnée est venue contredire sa conclusion, elle a spontanément remis en question
cette nouvelle donnée plutôt que la validité de sa conclusion. La tendance à extrapoler d’un échantillon à
toute une population est ancrée en nous.
Les coïncidences étonnantes sont toujours remarquées a posteriori et jamais annoncées à l’avance.

Une variation aléatoire peut avoir un plus grand effet sur les moyennes dans des petits groupes que dans
des groupes plus nombreux.

On dit qu’un résultat est statistiquement significatif lorsqu’il se produit par hasard dans moins de 5% des
cas.

Les gens ont une idée préconçue à propos de la conclusion ; ils ont tendance à interpréter les données en
faveur de cette conclusion.

Les conclusions statistiques s’expriment en termes de probabilités ; elles signifient ne jamais dire qu’on est
certain.

v Régression vers la moyenne : plus la valeur d’une variable est extrême lors de sa première mesure, plus
il est probable qu’elle soit plus proche de la moyenne lors de sa deuxième mesure.

Chapitre 2 : la complexité de la probabilité

En statistiques, la probabilité se définit comme suit :


- Fréquence relative à long-terme
- Degré de croyance

Une probabilité peut être basée sur:


• Un modèle (série d’hypothèses de laquelle on déduit une valeur) = approche fréquentiste.
• Des données, des faits = approche fréquentiste.

1
• (Une évaluation subjective, dépendant du crédit que chacun accorde à une hypothèse.) = approche
bayésienne.

Erreurs courantes en lien avec la probabilité :


1. Ignorer les hypothèses sous-jacentes à la probabilité (pas de jumeaux, pas de bébé asexué…)
2. Inverser des probabilités conditionnelles : P(A|B) ≠ P(B|A)
P(A|B) = sensibilité du test = Se (dépend des caractéristiques du test) = a
P(B|A) = valeur prédictive positive = VPP (dépend des conditions)
3. Penser que la probabilité possède une mémoire.

Probabilité vs cote, statistique vs probabilité


Probabilité : P = na/(na + nb)
Cote (odd) : O = na/nb, compris entre 0 et ¥

I. LES BASES DE LA PROBABILITE


Les probabilités vont de 0 à 1 (ou 100%) et servent à mesurer une prédiction au sujet d’un évènement futur
ou la certitude d’une croyance.
• Une probabilité nulle signifie que soit l’évènement ne se produit pas, soit quelqu’un est
absolument sûr que l’énoncé est faux.
• Une probabilité de 1 (ou 100%) signifie qu’un évènement va arriver avec certitude ou que
quelqu’un est certain que l’évènement est correct.
• Une probabilité de 0,5 signifie qu’il y a autant de chances que l’évènement se produise que
l’inverse, ou qu’il y a autant de personnes qui croient que l’énoncé est correct que de personnes
qui croient l’inverse.

• Probabilité de fréquence à long terme : probabilité « en dehors de la tête ».


• Probabilité « à l’intérieur de la tête » : probabilité en tant que force des croyances subjectives qui
peut donc varier selon les personnes et même varier entre les différentes évaluations chez une
même personne.

II. PROBABILITE EN TANT QUE FREQUENCE A LONG TERME


1) A partir d’un modèle
v Un modèle : description d’un mécanisme. Les prédictions peuvent reposer sur n’importe quel modèle,
même si celui-ci ne reflète pas la réalité.
2) A partir de données

III. PROBABILITE EN TANT QUE FORCE DE CROYANCES


1) Probabilités subjectives
2) Probabilités pour mesurer l’ignorance
3) Prédictions quantitatives d’évènements ponctuels

2
IV. CALCULS PLUS FACILES EN PASSANT AUX NOMBRES ENTIERS
Changer la formulation en passant à des nombres entiers permet de faciliter les calculs de probabilités.

V. ERREURS FREQUENTES
Les probabilités sont toujours liées à un ensemble d’hypothèses.
Si A est vrai, quelle est la chance que B survienne ? Cela s’appelle une probabilité conditionnelle, parce
qu’il s’agit de la probabilité qu’un certain évènement B survienne conditionnellement à ce qu’un autre
évènement A survienne aussi.

Il est impossible de comprendre ce que le taux de réussite signifie sans savoir exactement comment les
numérateur et dénominateur ont été définis.
Il est facile d’intervertir malencontreusement un énoncé de probabilité. La
probabilité n’a pas de vocabulaire.

VI. JARGON
Les cotes et probabilités sont deux façons d’exprimer exactement la même chose. Toute probabilité peut
être exprimée par une cote et inversement. v Cote : probabilité que l’évènement se produise divisée
par la probabilité qu’il ne se produise pas. Une cote peut être tout nombre positif ou nul, mais pas
négatif.
v Probabilité : elle doit être un nombre compris entre 0 et 1 quand elle est exprimée sous la forme d’une
fraction, ou comprise entre 0 et 100 lorsqu’elle est exprimée en %.
Une probabilité de 0,5 correspond à une cote de 1. Quand la probabilité passe de 0,5 à 1, la cote augmente
de 1 à l’infini.

On part du cas général, la population ou le modèle et on fait des prédictions sur ce qui arrivera dans
beaucoup d’échantillons de données. Les calculs de probabilités vont du général au particulier.
Les calculs statistiques vont dans le sens opposé ; on part avec un ensemble de données, l’échantillon, et
on en tire des déductions sur la totalité de la population ou du modèle.
Probabilité et vraisemblance sont assez synonymes. Vraisemblance a une signification technique différente
de probabilité.

VII. PROBABILITE EN STATISTIQUE


Les probabilités « là-bas » font partie des statistiques fréquentielles.
Il existe aussi les statistiques bayésiennes, dans lesquelles des croyances antérieures sont quantifiées et
partiellement utilisées dans les calculs. Ces probabilités antérieures peuvent être subjectives, objectives
ou peu informatives. Les intervalles de confiance bayésiens sont appelés intervalles crédibles.

ð Toutes les probas peuvent être exprimées soit en fractions soit en pourcentages. ð Toutes les
fractions ne sont pas des probas ; une fraction n’est une proba que s’il n’y a que 2 résultats
possibles.
ð Les valeurs des probas sont toujours comprises entre 0 et 1 (100%).

3
Chapitre 3 : de l’échantillon à la population

1. Contrôle qualité
Caractéristiques de la population = paramètres = caractéristique d’un modèle statistique On
pose un modèle pour trouver µ (moyenne) et σ (écart-type).
Si l’espérance E correspond à ce que l’on veut, en l’occurrence la moyenne, alors il n’y a pas de
biais.
Comment savoir si le modèle posé est juste, si on tourne bien autour de µ?
• Simulations : dans un cas où on connait la population, on sait ce que vaut µ puis on compare.
• Bien tirer au hasard dans la population ; prendre un échantillon aléatoire et indépendant.
Si l’échantillon n’est pas pris de manière aléatoire et indépendante, E = µ+ δà estimation
biaisée. Il s’agit d’une variation aléatoire + une variation systématique. Si l’on est très
proche de µ, ce n’est pas un biais, mais de la variabilité.

2. Sondage pré-électoral
On prend un échantillon aléatoire et indépendant. Il faut cependant s’assurer d’avoir des réponses
honnêtes. Il faut aussi s’assurer que les réponses soient stables.
Comment s’assurer qu’il n’y ait pas de biais ?
1. S’assurer que nos hypothèses soient respectées.
2. Comme on a les résultats à la fin du sondage, on peut comparer la valeur visée et la valeur
vraie. Sinon, si le résultat est biaisé, on obtiendra π+ δ, un biais.

3. Essai clinique
On évalue l’efficacité de traitements chez des patients.
On n’a plus une population définie car il s’agit par exemple d’un ensemble de patients actuels, mais on
veut connaitre le résultats aussi pour les futurs patients. Cette population n’existe donc pas réellement,
elle est hypothétique.

4
L’échantillon ne sera pas véritablement aléatoire et indépendant. Il faut aussi une réponse adéquate. Au
niveau de la stabilité, c’est compliqué dans le monde médical : les virus évoluent, ainsi que l’immunité ; il
n’y a donc pas vraiment de stabilité.
On résume l’échantillon avec une statistique, on essaye de dire qqchose du paramètre (=inférer) et on
essaye de viser juste. Il se peut qu’il y ait un biais, car on ne possède jamais la réponse à la fin de l’essai.
On n’est donc jamais sur de viser juste.
Il faut alors évaluer la marge d’erreur.

Messages clés :
Nous ne pouvons pas nous baser sur notre intuition pour interpréter des données.
La probabilité peut avoir deux sens différents en statistique : une fréquence relative à long terme ou un
degré de croyance.
Chaque probabilité est basée sur une série d’hypothèses.
La probabilité va du général vers le particulier, tandis que la statistique part du particulier pour tirer des
conclusions plus générales.
On parle de biais lorsque le design expérimental est incorrect, conduit en moyenne à une surestimation
ou une sous-estimation.

Schéma global de l’approche statistique (définitions)

v Population cible (d’intérêt): ensemble hypothétique d’individus à propos duquel on souhaite tirer une
conclusion générale.
v Population échantillonnée: ensemble d’individus susceptibles de faire partie de l’échantillon.
v Échantillon: une partie d’un ensemble ou d’une population, qui peut être sélectionnée aléatoirement
ou non, et qui est utilisée pour dire quelque chose à propos des caractéristiques de l’ensemble ou de
la population d’origine.
ð Si l’échantillonnage est aléatoire, alors l’échantillon aura, en moyenne, les caractéristiques de
la population dont il provient. Les échantillons provenant d’une même population sont tous
différents.

ð On ne parle d’échantillon représentatif que si on connaît certaines caractéristiques de la


population d’intérêt et que l’on cherche à en déterminer d’autres.

v Échantillonnage aléatoire : prélèvement d’un échantillon au sein d’une population dont le résultat ne
peut être prédit, dont les mécanismes sont incompris, qui est indépendant d’autres évènements.
v Description : synthèse, numérique, d’une série d’observations faites au niveau d’un échantillon v
Une statistique : est une valeur résumée, calculée à partir des observations d’un échantillon. v La
statistique : est la science de la collecte, de l’analyse et de l’interprétation des statistiques. v La
biostatistique :est l’application de la statistique à l’analyse de données biologiques et médicales. v
Un paramètre: mesure qui décrit certaines caractéristiques d’une population. v L’inférence
statistique : est l’utilisation d’observations issues d’un échantillon pour tirer des conclusions à propos
des paramètres d’une population.
v Estimation :
v Biais : écart entre le paramètre estimé au sein de la population échantillonnée (π’) et le paramètre visé
dans la population cible (π).

à Voir « Introduction – quelques définitions »

5
I. DE L’ECHANTILLON A LA POPULATION
On extrapole souvent les conclusions de l’échantillon à la population.
1. Contrôle de qualité
2. Sondages politiques
3. Études cliniques
4. Expérimentations en laboratoires
Dans les contrôles de qualité ou les sondages politiques et de marketing, la population est beaucoup plus
grande que l’échantillon, mais est surtout finie et connue.
En recherche biomédicale, on suppose que la population est infinie ou du moins très large
comparativement à l’échantillon.

II. ERREURS D’ECHANTILLONNAGE ET BIAIS


Les données retenues pour être analysées sont aléatoirement extraites d’une population plus large. Par
conséquent, les valeurs obtenues à partir d’un échantillon sont considérées comme des estimations des
valeurs de la population réelle.

Il y a plusieurs raisons pour lesquelles une valeur calculée à partir d’un échantillon pourrait ne pas être
valable pour la population entière :
• Erreur d’échantillonnage : moyenne/pente de régression/proportion calculée plus élevée ou plus
basse que la population entière.
• Biais de sélection : collecte des informations non aléatoire.
• D’autres formes de biais : méthodologie expérimentale imparfaite…

III. MODELES ET PARAMETRES


v Modèle : description mathématique d’une vision simplifiée du monde. Un modèle consiste en une
description générale assortie de paramètres (moyenne, écart-type) qui prennent des valeurs
particulières.
Un des objectifs de la statistique est de déterminer, par l’analyse de données, les valeurs des paramètres
du modèle qui s’ajustera le mieux aux données. Un autre but est de comparer des modèles afin
d’identifier celui qui explique le mieux les données.

IV. MULTIPLES NIVEAUX D’ECHANTILLONNAGE


Il existe un échantillonnage hiérarchisé ou à multiples niveaux.

V. LORSQUE ECHANTILLON COINCIDE AVEC POPULATION


1. Il n’y a aucun intérêt à tirer une conclusion générale.
2. Souvent, on a envie d’aller au-delà des données traitées. Dans tous les cas, les données du moment
peuvent être en quelque sorte considérées comme un échantillon d’une population plus large de
données récoltées plus tard.
3. Se préoccuper surtout du modèle de probabilité sous-jacent qui génère des données.

6
Chapitre 4 : intervalle de confiance d’une proportion

On essaie d’estimer un paramètre au niveau de la population.


L’intervalle de confiance doit contenir, dans x% des cas, la valeur correct.

v Intervalle de confiance (IC) : intervalle de valeur qui est construit à partir des valeurs d’un échantillon
de manière à contenir la paramètre de la population avec un certain niveau de confiance. Le niveau de
confiance (noté 1-α) est habituellement fixé à 95% (on parle alors d’intervalles de confiance à 95%, IC95),
ce qui signifie que, en moyenne, sur 100 IC, 95 contiennent le paramètre visé et 5 ne le contiennent pas.
Ce niveau de confiance est garanti pour autant que certaines hypothèses soient respectées : les individus
sont sélectionnés de manière aléatoire et indépendante dans la population cible et la valeur mesurée
est correcte.

IC pour données binaires :


Plus on augmente la taille de l’échantillon, plus la marge d’erreur de l’IC sera faible ; si on augmente n, on
diminue la marge d’erreur. La marge d’erreur est la plus grande au moment où on a une proportion aux
alentours de 50%.

Comment vérifier que l’IC95 contient bien le paramètre visé dans 95% des cas ? Utilisation d’une
simulation (dans laquelle on connait le paramètre visé et l’on effectue de nombreux tirages aléatoires)
pour vérifier les propriétés de l’IC95.

I. DONNEES EN FORME DE PROPORTIONS


Certaines variables sont qualitatives, et d’autres sont quantitatives. Les
résultats se présentent sous la forme de proportion.

v Variables binomiales : variables qualitatives qui ne peuvent avoir que 2 valeurs.

II. DISTRIBUTION BINOMIALE : DE LA POPULATION A L’ECHANTILLON


La distribution binomiale fournit la probabilité d’observer un résultat particulier quand sa proportion dans
la population est connue.
Il existe aussi la distribution binomiale cumulative.
La distribution binomiale n’est que rarement utile en statistique car elle va dans le mauvais sens. Elle part
d’une probabilité connue relative à une population.

III. HYPOTHESE : INTERVALLE DE CONFIANCE D’UNE PROPORTION


L’idée d’un intervalle de confiance est de tirer une conclusion générale à partir de données spécifiques.
Les hypothèses sont vérifiées.
v Intervalle de confiance à 95% : intervalle tel que nous soyons certains à 95% qu’il contienne la vraie
valeur de la population.
Il est calculé selon la méthode de Wald simplifiée.

7
1. Échantillon aléatoire
L’échantillon de données analysées a été extrait d’une population beaucoup plus grande. L’échantillon
doit être sélectionné de manière aléatoire.

2. Observations indépendantes
L’intervalle de confiance n’est valable que lorsque tous les sujets proviennent d’une même population et
que chacun a été sélectionné indépendamment des autres.

3. Données correctes
L’intervalle de confiance est correct uniquement si le nombre de sujets a été comptabilisé correctement
dans chaque catégorie.

IV. CONFIANCE A 95%


L’intervalle de confiance à 95% calculé à partir d’un échantillon inclut la valeur vraie de la population.
Pour montrer cela, il faut effectuer une simulation en sachant exactement de quelle population les
données sont extraites.
Si l’on répète l’expérience plusieurs fois, l’intervalle de confiance à 95% contiendra la valeur vraie de la
population 95 fois sur 100.
Comme la valeur de la population n’est pas sujette à une variation aléatoire, il est incorrect de poser la
question de la chance.
Les intervalles de confiance à 95% sont les plus fréquents, mais on en rencontre d’autres.
Les intervalles de confiance à 90% sont plus étroits que les intervalles de confiance à 95%.

V. JARGON
Les deux extrémités de l’IC sont appelées limites de confiance. L’IC est un intervalle, alors que chaque
limite est un nombre.

v Estimation ponctuelle de la proportion vraie dans la population : proportion calculée dans


l’échantillon. L’IC est lui une estimation par intervalle.
v Estimation = résultat d’un calcul bien défini, et non un calcul approximatif.

Un IC à 95% correspond à un niveau de confiance (intervalle d’incertitude) de 95%. Le terme niveau de


confiance est utilisé pour décrire la quantité de confiance désirée, aussi appelée couverture de
probabilité.

VI. CALCULER L’IC D’UNE PROPORTION


• Méthode de Clopper et Pearson
• Méthode standard de Wald
• Méthode de Wald modifiée

8
• La marge d’erreur est la direction dans laquelle s’étend l’IC dans chaque sens. La longueur de
l’intervalle vaut 2x la marge d’erreur.
• L’intervalle de confiance est symétrique par rapport à p’, mais n’est pas symétrique par rapport à
la proportion observée p.
Lorsque la proportion est proche de 50% : la marge d’erreur de l’IC est approximativement égale à √1/n.

1. Proportions proches de 50%


La marge d’erreur est de 3%, une valeur souvent citée dans les journaux comme marge d’erreur d’un
sondage.
2. Proportions éloignées de 50%
Quand la proportion est loin de 50%, les IC sont plus étroits que lorsqu’elle est proche de 50%. On
applique une règle de base : si la proportion est de 80%, l’amplitude de l’IC sera environ 80% de celle
qu’il aurait eue dans le cas d’une proportion de 50%. 3. Le numérateur vaut 0
Il suffit de faire une règle de 3 : si on observe 0 évènement au cours de n essais, l’ICà 95% s’étend de 0 à
3/n.

• Proportion proche de 50% : marge d’erreur la plus grande.


• Proportion de 0% (ou 100%) : IC = [0-X] et X = 3/n : marge d’erreur la plus petite.

VII. PROPORTION DE 0% OU 100%


Une proportion ne peut pas être négative.
L’approche alternative est de calculer la limite de confiance supérieure de telle manière qu’il y ait 5% de
chance qu’elle ne soit pas assez élevée pour inclure la valeur vraie de la population.
Si le numérateur et le dénominateur sont égaux, la proportion vaut 100% dans l’échantillon, ce qui est
aussi la limite supérieure de l’IC.

VIII. INTERVALLES CREDIBLES BAYESIENS


Il faut tout d’abord préciser notre estimation des probabilités pour le pourcentage de la population. Les
méthodes bayésiennes ont deux sources : la distribution a priori du pourcentage et le pourcentage
réellement observé.
v Intervalle de crédibilité : intervalle bayésien.

9
Résolutions sous différentes approches
Intervalle de crédibilité = intervalle de confiance lors d’une approche bayésienne
1. Approche fréquentiste classique o Hypothèses : tirages
aléatoires et indépendants o Calcul IC95
o ) doit se situer entre x et y o Le joueur réussit entre x et y
lancers
2. Approche bayésienne avec a priori non informatif o A priori
on pense que ) peut être n’importe où entre 0 et 1 o
Hypothèses : tirages aléatoires et indépendants o Calcul IC95
o ) doit se situer entre x et y o Le joueur réussit entre x et y
lancers

3. Approche bayésienne avec a priori informatif o A priori on


pense que ) devrait être entre x et y o Hypothèses : tirages
aléatoires et indépendants o Calcul IC95 o ) doit être entre
a et b
o Le joueur réussit entre a et b lancers

4. Approche sceptique à l’hypothèse ne tient pas forcément la


route, donc le tout est remis en cause (si on a que les
données des matchs, on ne peut pas s’assurer qu’elles soient
identiques lors des entrainements donc le résultat ne sera
peut-être pas bon.
o Je ne crois pas que l’échantillon soit représentatif car les
conditions dans lesquelles la mesure est prise ne sont pas les
mêmes que celles qui nous intéressent et les observations ne
sont pas indépendantes. On ne pourrait pas savoir où est )
dans ces conditions.

Comparaison des 4 approches :

10
IX. ERREURS FREQUENTES
1. Utiliser 100 comme dénominateur quand la valeur est donnée en %.
2. Calculer les IC binomiaux à partir de variations en % d’une variable continue (les méthodes de ce
chapitres s’appliquent à des variables dichotomiques).
3. Calculer un IC sur des données qui ressemblent à une proportion, mais qui n’en sont pas.
4. Interpréter un intervalle crédible sans connaitre quelle probabilité a priori était supposée : les
intervalles crédibles dépendent à la fois des données et de l’hypothèse sur les probabilités a priori.

ð Entre une IC à 90% et à 95%, celui à 95% est le plus large. ð Il est possible mais inutile de
générer une IC à 100%.
ð L’amplitude/largeur d’un IC est à peu près proportionnelle à √! $%&’’()( .%"$&’’/"
’ +é-
. Si on multiplie la
TE par 4, l’amplitude de l’IC est divisée par 2.
ð On ne peut calculer un IC sans connaitre la taille de l’échantillon, car l’amplitude dépend de la
taille de l’échantillon.
ð L’IC n’est pas symétrique autour de la proportion, car étant donnée qu’une proportion est
comprise entre 0 et 1, l’IC est déséquilibré quand la proportion est loin de 0,5 ou que la TE est
petite. ð On ne sait jamais quand la valeur sera hors de l’IC tant qu’on ne connait pas la valeur
de la population.

Chapitre 6 : intervalle de confiance des données de dénombrement (Poisson)

Le dénominateur n’étant pas la somme des « participants », le résultat n’est pas une proportion ; on parlera
de taux (TA). Le taux est le ratio nombre/personne x jour.

Les dénombrements ressemblent à des proportions mais n’en sont pas car le dénominateur ne correspond
pas à un total d’événements + non-événements.
Dans la littérature médicale, ce type de données est surtout utilisé pour dénombrer un nombre
d’événements par personnes-années.

11
I. LA DISTRIBUTION DE POISSON
La distribution de Poisson est une distribution aléatoire. Elle prédit la fréquence avec laquelle n’importe
quel nombre particulier d’évènements ou d’objets sera observé.
La distribution de Poisson est asymétrique : c’est dû au fait que le nombre d’unités observé ne peut être
inférieur à 0 et n’a pas de borne supérieure.

II. HYPOTHESES : DISTRIBUTION DE POISSON a) Sur


le nombre d’évènements
1. L’évènement est clairement défini.
2. Chaque évènement se produit aléatoirement et indépendamment des autres évènements.
3. Le taux moyen ne change pas au cours du temps.
4. La réalisation d’un évènement n’est comptée qu’une fois.
b) Sur le nombre d’objets
1. Les objets sont dispersés aléatoirement.
2. Chaque objet n’est compté qu’une seule fois.
3. Les objets sont bien définis, sans ambiguïté sur ce qui est compté.

III. IC ASSOCIES A LA DISTRIBUTION DE POISSON


La distribution de Poisson peut être utilisée pour calculer un IC. Ce qu’il faut savoir, c’est le nombre
d’objets réellement comptés dans un volume ou le nombre d’évènements qui se sont produits durant un
intervalle de temps.

Pour connaitre un IC à 95%, il faut connaitre le nombre exact de décès observés dans l’étude.

IV. COMMENT EST CALCULE L’IC POUR UNE VARIABLE SUIVANT UNE LOI DE POISSON
Ce dont on a besoin, c’est le nombre (C) observé dans un échantillon :
• Si on a plusieurs échantillons, il faut additionner les nombres observés dans chaque échantillon
pour calculer le nombre total. Il faudra ensuite diviser les bornes de l’intervalle par le nombre
d’échantillons qui ont servi à calculer C.

Lorsque C est grand (≥ 25), on peut calculer l’IC de la façon suivante :


C – 1,96 x √" jusqu’à C + 1,96 x √"

V. AVANTAGE D’UTILISER DE PLUS LONGS INTERVALLES DE TEMPS


Le fait d’effectuer le comptage sur une période de temps plus longue donne donc une estimation plus
précise du nombre moyen par intervalle puisque l’intervalle de confiance est plus étroit.

ð La distribution binomiale décrit comment sont répartis deux résultats possibles. La distribution
de Poisson décrit le nombre possible d’objets que l’on peut trouver dans un volume donné ou le
nombre de réalisations d’un évènement pendant un certain intervalle de temps.
ð Il est possible de calculer un IC lorsque le résultat du dénombrement vaut 0 ; l’IC va de 0,0 à 3,69.

12
Chapitre 5 : intervalle de confiance des données de survie

Lorsque l’on n’a pas accès à la fin de l’information, la donnée est censurée. Ici, comme pour l’allumette,
on connait le début mais la fin. On ne peut donc pas tirer de conclusion de cet information. Les
données de survie sont censurées : calculer, représenter ou comparer les données de survie nécessite
des méthodes particulières.
Si on applique une méthode intuitive, on aboutit à un graphique qui pose problème. Donc on utilise la
méthode suivante :

Méthode de Kaplan-Meyer
1. Ramener tout le monde à 0 (T0 = date de diagnostic, par exemple).
2. Créer des intervalles (on peut regrouper 3 intervalles identiques) à chaque temps auquel un
événement est observé.
3. A chaque intervalle :
a. Compter les personnes à risque (nj)
b. Calculer la survie totale (= produit des survies par intervalle)
4. (Placer les valeurs sur un graphique)
5. (Identifier la survie médiane ou la survie à différents temps)

1. Nj : nombre de personnes max qui sont à risque de faire une migraine.


2. Dj : nombre de personnes qui ont fait une migraine.
3. Qj : proportion qui n’a pas fait l’événement (survie dans l’intervalle)
4. St : produit des survies par intervalle par la survie globale d’avant (survie globale) 5.
(Survie globale)n = (survie globale)n-1 . (survie intervalle)n

La population à risque diminue de 1 à chaque fois qu’un individu subit une migraine, soit à chaque fois que
l’évènement se produit 1x.
Pour le groupe B, comme les trois potentiels à risque ont chacun eu une migraine, alors le graphique, donc
la survie tombe à 0 à la fin.
Fonction de répartition = 1 – survie

Les données de survie peuvent également ressembler à des proportions (% de personnes en vie à un
certain temps) mais n’en sont pas. Pour aboutir à un % à un certain temps, il convient d’appliquer la
méthode de Kaplan-Meier qui tient compte des données censurées.
Pour ces trois types de données (binaire, dénombrement, censurée), il existe des statistiques et des
graphiques pour décrire l’échantillon et des intervalles (ou bandes) de confiance pour se faire une idée
de la population.

13
Les évènements qui ne peuvent se produire qu’une seule fois sont souvent représentés sous forme d’un
graphique du pourcentage de survivants en fonction du temps = courbe de survie.

I. DONNEES DE SURVIE
Ces courbes de survie peuvent s’appliquer au temps écoulé jusqu’à n’importe quel point final ou
évènement bien défini. L’évènement est souvent la mort mais peut aussi être autre chose ; on parle alors
de temps de défaillance.
Il faut que l’évènement ne se produise qu’une fois au cours du temps.
Les méthodes suivantes ne s’appliquent que lorsqu’on connait le temps de survie de chaque sujet.

II. DONNES DE VIE CENSUREES


Il existe des données censurées : certains sujets sortent de l’étude pour x ou y raison, et on ne peut alors
garder leur suivi car il ne sera pas complet. Ces observations censurées ne devraient pas être éliminées
de l’analyse, mais elles doivent juste être traitées convenablement.
Certains considèrent qu’il s’agit d’un décès, peu importe la cause. D’autres présentent les données sous
deux formes : d’abord en utilisant tous les sujets, analyse des destinés au traitement, puis en censurant
les sujets qui n’ont pas suivi entièrement le protocole, appelés analyse en accord avec le protocole. Les
codes 1 et 0 respectivement pour le décès et la censure.

III. CALCUL DU POURCENTAGE DE SURVIVANTS EN FONCTION DU TEMPS


Il y a deux méthodes pour créer une table de survie :
• Méthode actuarielle : l’axe des abscisses est divisé en intervalles réguliers, et la survie est
calculée sur chaque intervalle. Cette méthode est utilisée quand le moment réel de la mort n’est
pas connu ou quand la taille de l’échantillon est énorme.
• Méthode de Kaplan-Meier : le temps de survie est recalculé lors du décès de chaque patient.
Le terme analyse des tables de mortalité est utilisé pour les deux méthodes. La
méthode Kaplan-Meier suit une logique élémentaire.

Pour calculer la proportion de patients survivants un jour donné, on fait


,-./ 0123/,24 /, 53/ /, 63, 7/ 89:.,é/
,-./ 0123/,24 /, 53/ /, 7é-:2 7/ 89:.,é/
, en excluant tout sujet censuré. On obtient ainsi la proportion de ceux
qui étaient toujours en vie au début du jour suivant.

Pour calculer la proportion de patients qui ont survécu depuis le jour 0 jusqu’à un jour donné k, on fait
(proportion patients qui survivent le jour 1) x (proportion patients qui survivent le jour 2) x (proportion
patients qui survivent le jour k). Cette méthode prend automatiquement en compte les données
censurées. Cette méthode est aussi appelée méthode du produit limite.

Le temps zéro est le moment auquel chaque patient est entré dans l’étude. Au temps 0, par définition,
tous les patients sont en vie et donc la survie est de 100%.
Sur le graphique, c’est x = 0. Lorsqu’un patient décède, la proportion de patients survivants décroit. Si
l’étude était suffisamment longue, la proportion pourrait tomber à 0.

IV. GRAPHIQUE DES COURBES DE SURVIE AVEC BANDES DE CONFIANCE


Les IC à 95% peuvent être reliés pour former des bandes de confiance à 95%. Sous certaines hypothèses,
on peut être sûr à 95% que la proportion vraie de survivants dans la population, à n’importe quel
moment, se trouvera dans la bande de confiance.

14
A chaque instant, l’IC est asymétrique. Cela provient de ce que le pourcentage de survivants ne peut pas
descendre sous 0 ni dépasser 100. Cette asymétrie est particulièrement observable lorsque le nombre de
survivants est loin de 50% et que la taille de l’échantillon est petite. L’intervalle est symétrique quand le
nombre de survivants est égal à 50% et presque symétrique lorsque la taille de l’échantillon est énorme.

V. SYNTHESE DES COURBES DE SURVIE


Il peut être utile de résumer toute une courbe de survie par une seule valeur, le temps médian de survie.
La médiane étant la valeur centrale d’un ensemble de nombres, le temps médian de survie est celui à
partir duquel la moitié des sujets sont décédés. Pour le déterminer sur une courbe, il suffit de mener une
horizontale au niveau de 50% de survivants jusqu’à l’endroit où elle coupe la courbe de survie.

Ce temps médian n’est pas défini lorsque plus de la moitié des sujets sont toujours en vie à la fin de l’étude.
Si la courbe de survie est horizontale au niveau de 50% de survivants, il faut prendre la moyenne entre la
1e et la dernière valeur du temps correspondant à 50% de survivants.

Le temps moyen de survie n’est pas souvent calculé car il requiert de connaitre le moment de chaque
décès. Il ne peut donc être calculé si certaines observations sont censurées ou si certains sujets sont
encore en vie à la fin de l’étude. Par contre, le temps médian peut être calculé même si certaines
observations sont censurées et si l’étude s’achève avant que tous les sujets ne soient décédés.

Pour obtenir le pourcentage de survivants à 5 ans, il faut tracer une droite verticale en l’abscisse x = 5 et
repérer la valeur d’y correspondante sur la courbe de survie.

VI. HYPOTHESES : ANALYSE DE SURVIE


1. Échantillon aléatoire ou représentatif
2. Sujets indépendants
3. Constance dans les critères d’exclusion : il est important que les critères ne changent pas pendant
la période d’enrôlement.
4. Constance dans la définition de l’évènement final
5. Moment de départ clairement défini : le moment de départ devrait être une date objective.

6. La censure n’est pas liée à la survie : l’analyse de survie est valide seulement lorsque les raisons
de censure ne sont pas liées à la survie. La meilleure stratégie est d’analyser les données des
deux manières. Si les conclusions sont similaires, alors les résultats sont simples à interpréter. Si
les conclusions diffèrent sensiblement, alors les résultats de l’étude sont ambigus.
7. La survie moyenne ne change pas au cours de l’étude : l’analyse n’a de sens que si l’on suppose
que les derniers sujets sont échantillonnés dans la même population que celle dont ont été
extraits les premiers patients. Il est également important que le traitement ne change pas au
cours de l’étude.

ð Le pourcentage de survivants est représenté par une courbe en escaliers.


ð Les sujets peuvent entrer dans l’étude à différents moments. L’axe des abscisses ne correspond
pas à des dates de calendrier.
ð L’IC n’est pas dessiné au temps 0 car il y a 100% de survivants.

15
ð Si la bande de confiance est trop large, on doit récolter plus de données pour la rétrécir. Si on fait
!"#$%&# (& ")*!+,&-% -% !./0
TE x 4, on fait
1
.

ð Les données peuvent être représentées sous forme de pourcentage de décès.

Chapitre 7 : représentation graphique de données continues

Mesures de tendance centrale


Moyenne arithmétique
Moyenne harmonique
Moyenne géométrique

ð Mode :
1. Compter l’occurrence de chaque valeur
2. Mode = valeur la plus fréquente

ð Médiane :
1. Ranger les n valeurs par ordre croissant
2. Si n impair : médiane = valeur située à la position (n+1)/2
3. Si n pair : médiane = moyenne des deux valeurs situées aux positions n/2 et (n+2)/2

ð Moyenne tronquée (trimmed mean) :


1. Ranger les n valeurs par ordre croissant
2. Retirer les (1%, 5%, 10%) des valeurs les plus extrêmes
3. Calculer la moyenne arithmétique sur les valeurs restantes

v Précision : la précision est grande quand les différentes estimations d’une même quantité sont proches
de la moyenne des estimations..
Remarques :
1. Peu importe si l’estimation moyenne est loin de la réalité, on peut être précis mais à côté de la
plaque.
2. Les barres représentent l’écart-type qui mesure à quel point des valeurs s’écartent de la moyenne.

v Biais : le biais est l’écart entre la vraie valeur et la valeur estimée en moyenne sur une infinité
d’estimation.
Si on demandait à une infinité de personnes d’estimer l’âge de quelqu’un, le biais serait la décalage
entre la vraie valeur et la moyenne des estimations.

à Exactitude = absence de biais

Différents types de variables


Variable : expression qui peut prendre plusieurs valeurs différentes.
Variable aléatoire : variable dont la prochaine valeur ne peut être prédite.

16
On ne calcule pas une moyenne d’une variable discrète ordinale.

Mesures de dispersion
Percentiles (CF fonction de répartition) Résumé en 5 chiffres :
1. (P0, P25, P50, P75 et P100)
2. IQR : écart interquartile

Déviation absolue médiane :


1. Calculer la médiane d’une série
2. Mesurer, pour chaque valeur, les écarts à la médiane
3. Prendre la médiane de ces écarts à la médiane

à Déviation standard à Coefficient de variation à Variance

I. DONNEES CONTINUES
Les données continues sont plus fréquentes que les données d’autres types.

II. LA MOYENNE ET LA MEDIANE


Calculer une moyenne arithmétique (= moyenne) est simple : il suffit d’additionner toutes les valeurs et
de diviser la somme obtenue par le nombre de valeurs. Si les données sont contaminées par une valeur
aberrante, la moyenne ne sera pas très représentative.

La médiane est la valeur du milieu. Il faut ordonner les valeurs de la plus petite à la plus grande afin
d’identifier celle du milieu. Au cas où le nombre de valeurs est pair, la médiane est égale à la moyenne
des deux valeurs centrales. Elle n’est pas influencée par les valeurs aberrantes et peut même être plus
utile avec des distributions asymétriques.

17
La moyenne géométrique s’obtient en prenant d’abord le logarithme de toutes les valeurs, puis en
calculant la moyenne arithmétique de ces logarithmes et enfin en prenant l’antilogarithme de cette
moyenne. La moyenne géométrique ne peut pas être calculée si certaines valeurs sont nulles ou
négatives.

La moyenne harmonique est obtenue en prenant l’inverse de chaque valeur et en calculant ensuite la
moyenne arithmétique de ces inverses. La moyenne harmonique est l’inverse de cette moyenne. Il n’est
pas possible de calculer cette moyenne dans le cas où certaines valeurs sont nulles et elle n’a pas de sens
si certaines valeurs sont négatives.

La moyenne tronquée est la moyenne de la plus grande partie des valeurs obtenues en ignorant les valeurs
extrêmes.

Le mode est la valeur la plus fréquente dans l’ensemble de données. Il n’est pas très utile dans le cas de
variables continues, qui sont souvent uniques car mesurées avec une extrême précision. Le mode peut
être utile dans le cas de variables qui ne peuvent prendre que des valeurs entières. Il faut remarquer que
le mode ne représente pas toujours le centre de la distribution.

III. JARGON : TERMES UTILISES POUR EXPLIQUER LA VARIABILITE


1. Variabilité biologique : les humains diffèrent les uns des autres et ces différences sont
importantes.
2. Précision : précis = répétable, reproductible. Une méthode est précise lorsque plusieurs mesures
donnent un résultat très semblable. Erreur expérimentale : variation observée dans une suite de
mesures répétées.
3. Biais : cela fait référence à tout ce qui conduit à des erreur systématiques. Les données biaisées
ne sont pas exactes.
4. Précision : un résultat est précis lorsqu’il est proche du chiffre correct. Un ensemble de mesures
peut être tout à fait précis sans être exact, à cause d’une méthodologie imparfaite ou d’appareils
mal calibrés.
5. Erreur : ce terme est en relation avec toute source de variabilité, comme un synonyme de
dispersion ou variabilité.

IV. LES CENTILES ET LES QUARTILES


La médiane est le 50e centile. Le 50e centile est la valeur du milieu. La moitié des valeurs sont plus grandes
que (ou égales à) la médiane, et la moitié sont inférieures (ou égales).
Les 25e et 75e centiles sont appelés quartiles. L’écart interquartile est la distance entre le 1e et le 3e
quartile. La moitié des valeurs se trouvent dans l’intervalle ainsi déterminé.

V. REPRESENTATION GRAPHIQUE DES DONNEES POUR EN MONTRER LA DISPERSION


Le diagramme en nuages de points montre exactement comment sont réparties les données. On peut
voir la valeur la plus basse, la plus élevée et la distribution. Une ligne horizontale est habituellement
tracée au niveau de la moyenne ou de la médiane et parfois des barres d’erreur. Avec un grand nombre
de valeurs, les diagrammes en points deviennent difficiles à utiliser.

Une boite à moustache donne une bonne idée de la distribution des données sans reprendre chaque
valeur. Elle fonctionne à merveille quand on a trop de données pour qu’un nuage de points soit clair. Une
ligne horizontale indique la médiane de chaque groupe. Les boites s’étendent du 1e au 3e quartile et

18
incluent donc la moitié des valeurs. Un quart des valeurs se situe au-dessus du bord supérieur de la boite
et un quart des valeurs en dessous du bord inférieur. Les valeurs inférieures au 5e centile et supérieures
au 95e centile sont indiquées individuellement par des points.

Les données peuvent aussi être représentées en diagramme en violon. Les médiane et les quartiles sont
indiqués par des traits noirs. Le violon est plus gros là où sont la plupart des valeurs et plus mince là où il
y en a moins.

VI. REPRESENTER GRAPHIQUEMENT LES DISTRIBUTIONS


Une distribution de fréquence permet de voir la distribution d’un grand nombre de valeurs. On subdivise
l’étendue des valeurs prises par la variable observée en intervalles plus petits et on représente
graphiquement l’effectif de chaque classe. Si on additionne les hauteurs de tous les rectangles, on
retrouve le nombre total de valeurs. La somme des hauteurs de tous les rectangles sera égale à 1 ou
100%. Le point délicat de ce genre de graphique est de choisir le nombre de classes.

Il faut faire attention au terme histogramme ; il est habituellement défini comme un graphique en
colonnes représentant une distribution de fréquence. Cependant, le terme histogramme est parfois
utilisé de façon plus générale pour désigner tout diagramme en colonnes, même ceux qui ne
représentent pas une distribution de fréquence.

Afin d’éviter d’avoir à choisir un nombre de classe, il faut représenter la distribution de fréquence
cumulée, pour laquelle la valeur de Y correspond au nombre de valeurs inférieures à X. La distribution
cumulée commence à Y = 0 et se termine à Y = n, le nombre total de valeurs de l’ensemble de données.

VII. ATTENTION A LA MANIPULATION DES DONNEES


Attention ! Éliminer les valeurs aberrantes peut aussi nous empêcher de voir des résultats importants.

Il est assez fréquent d’ajuster des données, et il est donc essentiel de se demander si ces ajustements sont
corrects ou, au contraire, s’ils ne pourraient pas introduire des erreurs.
Quiconque interprète les données fournies doit comprendre l’influence de ces ajustements sur l’effet
global observé et estimer dans quelle mesure ces ajustements pourraient être biaisés par le souhait du
chercheur d’avoir des résultats qui vont dans un certain sens.

Lorsqu’on représente graphiquement des données qui évoluent au cours du temps, il est tentant de
supprimer une grande partie de la variabilité de manière à rendre plus visible la tendance globale. Cela
se fait en traçant une moyenne glissante, moyenne mobile ou données lissées. On remplace par
exemple chaque point d’une représentation graphique par la moyenne entre ce point et les trois voisins
les plus proches de part et d’autre. Plus le nombre de points inclus dans le lissage est grand, plus la
courbe sera lisse. Des données lissées ne devraient jamais être utilisées dans les calculs statistiques ; le
lissage fait perdre de l’information.

Il est nécessaire de calculer le rapport pour exprimer la variable de façon qu’elle puisse être
interprétable et comparée. Le numérateur est généralement ce qui nous intéresse et que nous nous
efforçons de mesurer. Le dénominateur semble un détail. Mais la validité du rapport dépend
naturellement de la validité à la fois du numérateur et du dénominateur.

19
Certains scientifiques normalisent les données pour qu’elles se situent entre 0 et 100%. Si 0 et 100% ne
sont pas clairement définis ou semblent n’être définis qu’approximativement, alors les valeurs
normalisées ne seront pas d’une grande utilité.
ð La moyenne et la médiane peuvent être nulles ou négatives. ð La médiane peut être égale à la
plus petite valeur, si plus de la moitié des valeurs sont identiques et que les autres valeurs sont
toutes plus grandes.
ð Si la distribution des valeurs est symétrique, la médiane et la moyenne sont égales. Si la
distribution est penchée vers la droite avec une majorité de grandes valeurs, alors la moyenne
sera probablement supérieure à la médiane (et inversement).
ð Moyenne et moyenne arithmétique sont synonymes. ð Moyenne est médiane sont exprimées
dans les mêmes unités que les données. ð Moyenne et médiane peuvent être calculées s’il n’y a
qu’une donnée, même si cela a peu d’intérêt.
ð La moyenne peut être calculée même si les données sont négatives.
ð Les moyennes géométriques et harmoniques ne peuvent être calculées si les données sont
négatives.
ð Le 50e centile est la médiane.

Chapitre 8 : types de variables

I. VARIABLES CONTINUES
v Variables continues : variables qui peuvent prendre n’importe quelle valeur (y compris fractionnaire).

Variables d’intervalle
v Variable d’intervalle : par exemple, une différence de 1°C a la même signification tout au long de
l’échelle, quelle que soit la valeur de départ.
Parce que le point 0 est arbitraire, il serait tout à fait insensé de calculer des rapports de température.
L’utilisation de points au lieu de bâtons ne porte pas à raisonner en termes de rapport.

Variables de rapport
Avec une variable de rapport, le 0 n’est pas arbitraire. Une taille 0, par exemple, est égal à pas de taille.
Ici, cela a un sens de calculer le rapport des valeurs de deux variables de rapport.
La température en Kelvin est une variable de rapport, parce que 0,0 degré Kelvin signifie réellement pas
de température.
Comme pour les variables d’intervalle, on peut calculer la différence entre deux de leurs valeurs.
Contrairement aux variables d’intervalle, on peut faire le rapport entre les valeurs de deux variables de
rapport.

II. VARIABLES DISCRETES


Variables ordinales
Une variable ordinale exprime un rang. L’ordre a de l’importance, mais pas la valeur exacte.
Cela n’a pas de sens de calculer la différence entre deux valeurs. Les valeurs expriment simplement un
ordre.

20
Variables nominales et binomiales
v Variables nominales/catégorielles : variables qui ne peuvent prendre qu’un certain nombre de valeurs
discrètes.
v Variables binomiales : variables avec deux possibilités de réponse.

CALCULS POSSIBLES VARIABLES VARIABLES VARIABLES VARIABLES DE


NOMINALES ORDINALES D’INTERVALLE RAPPORT
Distribution de OUI OUI OUI OUI
fréquences
Médiane et centiles NON OUI OUI OUI
Addition et soustraction NON NON OUI OUI
Rapport NON NON NON OUI
Moyenne, écart-type, NON NON OUI OUI
erreur standard de la
moyenne
Coefficient de variation NON NON NON OUI

III. PAS AUSSI DIFFERENTES QU’IL N’Y PARAIT


Il faut noter que les catégories de variables sont loin d’être aussi distinctes qu’il n’y parait :

1. La couleur : les différentes couleurs sont considérées comme des catégories et donc la couleur
est une variable binomiale. Cependant, les couleurs monochromes peuvent être quantifiées par
leur longueur d’onde et donc être considérées comme une variable de rapport. Sinon, on
pourrait aussi ordonner les longueurs d’onde et considérer la couleur comme une variable
ordinale.
2. Le nombre de cellules effectivement observées dans un certain volume :comme ce nombre doit
être un entier, c’est une variable discrète. Mais elle a presque toutes les propriétés d’une
variable de rapport, puisque cela a du sens de calculer des rapports.
3. Les concentrations effectives : une concentration ne peut valoir 0 mais le rapport de deux
valeurs peut être très utile. C’est donc une sorte de variable de rapport, mais pas tout à fait.
4. Les pourcentages : les résultats obtenus pour une variable de rapport ou d’intervalle sont
souvent transformés afin d’être exprimés en pourcentages. Un résultat discret avec un ensemble
de catégories mutuellement exclusives peut aussi être exprimé sous forme de pourcentage.

ð Calculer le coefficient de variation d’une variable continue n’a de sens que sur une variable de
rapport, car les unités sont les mêmes.
ð Calculer le rapport de deux variables continues qui ne sont pas variables de rapport n’a pas de
sens, car un changement d’unités va changer la valeur du rapport.

Chapitre 9 : quantification de la dispersion

I. L’INTEPRETATION D’UN ECART-TYPE


La dispersion des valeurs peut être quantifiée par l’écart-type, qui s’exprime dans les mêmes unités que
les données. Dans une population, à peu près 2/3 des observations se trouvent habituellement dans un
intervalle de deux écarts-types centrés en la moyenne.

21
II. COMMENT CALCULER UN ECART-TYPE ?
Il faut tout d’abord prendre la moyenne ou la médiane des valeurs absolues des distances (pour chaque
valeur, à quelle distance elle se trouve de la moyenne). L’écart absolu médian (EAM) est une des
manières de quantifier la variabilité. La façon la plus courante de quantifier la dispersion reste
l’écarttype.

1. On calcule la moyenne (arithmétique).


2. On calcule la distance ou écart entre chaque valeur et la moyenne.
3. On élève au carré chacune de ces distances.
4. On les additionne.
5. On divise cette somme par n-1, n étant la taille de l’échantillon. Cette valeur est appelée la
variance.
6. Enfin, on prend la racine carrée de la variance. Le résultat est l’écart-type.

III. POURQUOI N-1 ?


Selon les valeurs extraites aléatoirement pour composer l’échantillon, l’écart-type calculé va être soit
plus grand, soit plus petit que le véritable écart-type de la population. La seule chose que l’on puisse
faire est d’utiliser une formule qui donnera à la longue un résultat moyen correct.
Les données seront plus proches de la moyenne de l’échantillon que de la vraie moyenne, celle de la
population. La somme des carrées des écarts sera donc probablement un peu plus petite que ce qu’elle
aurait été si on avait calculé la différence entre chaque valeur et la moyenne vraie de la population.
Comme le numérateur est un peu trop petit, le dénominateur doit être diminué aussi.
De toutes les valeurs, il y en a seulement n-1 qui peuvent varier librement. C’est pourquoi on calcule la
moyenne des carrés des écarts en divisant par n-1 et l’on dit qu’il y a n-1 degré de liberté.

L’écart-type calculé de cette manière est dite le meilleur estimateur possible de l’écart-type d la
population générale que l’on puisse tirer d’un échantillon. C’est le meilleur dans le sens où c’est celui qui
conduit aux inférences précises quand il est utilisé pour déterminer des intervalles de confiance ou des P-
valeurs.
Il n’est cependant pas l’estimateur le plus précis de l’écart-type de la population. Au contraire, c’est un
estimateur biaisé. En moyenne, l’écart-type calculé ne sera pas égal à l’écart-type de la population,
surtout si les échantillons sont petits.
C’est dû au fait que la variance de l’échantillon calculée avec n-1 au dénominateur est un estimateur non
biaisé de la variance de la population et que toute théorie des intervalles de confiance et du reste de la
statistique repose sur la variance.

IV. SITUATIONS OÙ N PEUT SEMBLER AMBIGU (voir livre)


1. Reproduire les mesures dans des expériences répétées : cette erreur est appelée
pseudorépétition. On devrait donc calculer l’écart-type des moyennes en utilisant n=3.
2. Yeux oreilles et coudes : la plus simple est de faire la moyenne des résultats de chaque œil de
manière à avoir un seul résultat pour chaque personne et d’ensuite calculer la moyenne et
l’écart-type avec n=10.
3. Expérimentation représentative
4. Essais sur un sujet : malgré une expérience réalisée sur une seule personne, soit n =1, la valeur de
n utilisée dans les analyses statistiques n’est pas 1, mais est plutôt le nombre de valeurs
récoltées.

22
L’écart-type quantifie la dispersion dans une population. Si nous tirons de plus grands échantillons, nous
pourrons quantifier plus précisément la dispersion, mais récolter plus de données ne change pas la
dispersion des valeurs.

V. D’AUTRES FACONS DE MESURER ET VISUALISER LA DISPERSION


L’écart-type n’est pas le seul moyen de quantifier la dispersion.

Coefficient de variation
v Coefficient de variation : c’est l’écart-type divisé par la moyenne. Si le CV est égal à 0,25, on peut en
déduire que l’écart-type vaut 25% de la moyenne.
C’est un quotient sans unité. Il est souvent exprimé sous forme de pourcentage.
Le CV est utile pour comparer la dispersion de variables mesurées dans des unités différentes.

Variance
v Variance : elle est égale au carré de l’écart-type et est donc exprimée dans les mêmes unités que la
variable, mais au carré.

Écart interquartile
Le 1e quartile est la valeur en dessous de laquelle se trouvent 25% des données. En soustrayant le 1e
quartile du 3e quartile, on obtient l’écart interquartile. Il est également exprimé dans ces mêmes unités.

à Synthèse en 5 nombres : la distribution d’un ensemble de nombres peut se résumer à 5 valeurs : le


minimum, le 1e quartile, la médiane, le 3e quartile et le maximum.

Écart absolu médian


Une manière simple de quantifier la variation est d’utiliser l’écart absolu médian (EAM). La moitié des
valeurs sont à une distance de la médiane inférieure à l’EAM et l’autre moitié à une distance supérieure.
Il faut d’abord calculer la médiane de toutes les valeurs, c’est-à-dire le centile 50 ou 2e quartile, ensuite
l’écart entre chaque valeur et la médiane pris en valeur absolue. Enfin, il suffit de prendre la médiane de
ces écarts. Le résultat est l’EAM.
Certains prennent la moyenne des écarts et appellent cela l’écart absolu moyen, aussi abrégé EAM.

Attention à la confusion :
• Médiane des données ≠ médiane des valeurs absolues des écarts
• Écart absolu médian ≠ écart absolu moyen

La moitié des valeurs se trouvent à moins de 1 EAM de la médiane. Un intervalle symétrique qui s’étend
de 1 EAM dans chaque direction autour de la médiane inclura environ la moitié des valeurs. L’écart
interquartile couvre aussi la moitié des valeurs. La différence, c’est que l’écart interquartile est un
intervalle qui peut être asymétrique autour de la médiane. Comme l’écart interquartile, mais au
contraire de l’écart-type, l’EAM est résistant en présence de valeurs aberrantes.

ð L’écart-type n’est jamais négatif, mais sera nul en présence de valeurs identiques. ð L’écart-type
s’exprime dans les mêmes unités que les données et ne peut être calculé à partir d’une seule
valeur, mais bien de 2 valeurs.
ð L’écart-type est différent de l’erreur standard de la moyenne. ð L’écart-type peut être calculé
même si les données ne proviennent pas d’une distribution gaussienne.
23
ð Cela n’a pas de sens de demander qui de l’écart-type ou du Cv est le plus grand, puisqu’ils n’ont
pas les mêmes unités. Idem pour la variance.
ð Tous les programmes calculent l’écart-type de la même manière, à la seule différence du
dénominateur ; n ou n-1.
ð Tous les programmes ne calculent pas le même écart interquartile (8 formules). Les réponses
diffèrent d’autant plus que la taille de l’échantillon est petite.
ð La meilleure manière de présenter l’écart-type dans un article est « 115 ± 10 mmHg » avec une
note de bas de page définissant la deuxième valeur comme étant l’écart-type.

Chapitre 10 : la distribution de Gauss

Un seul centre = unimodale.


La distribution normale est unimodale et symétrique autour de ce centre.
Deux paramètres sont importants :
1. Le centre de la distribution = la moyenne µ
2. L’écart-type σ
;< =
à N (µ;σ) Et z = >

24
a) Age du donneur à la distribution des valeurs individuelles n’est pas normale.
b) Sexe
c) Niveau d’hémoglobine à la distribution des valeurs individuelles s’approche d’une distribution
normale.
d) Volume globulaire moyen à la distribution s’approche d’une distribution normale.
e) Niveau de ferritine à la distribution s’approche d’une distribution normale après transformation
logarithmique.

Théorème central moyen


Si X1, X2, X3…Xn sont des variables aléatoires indépendantes et identiquement distribuées, de moyenne
µ et de variance σ carré ;
Et si Mx = (X1 + X2 + … + Xn)/n ;
Alors Mx à v.a. N (µ ; σ carré/n)

Implication du TCL
Quand une variable peut être vue comme la somme des variables indépendantes et de poids
comparables, alors on peut s’attendre à ce qu’elle s’approche d’une distribution normale. Quelles que
soient les distributions des variables individuelles.

Distribution normale et limites normales


Il est très facile de calculer, à partir d’un échantillon suffisamment large, des limites de référence
basées sur des critères statistiques. Par exemple, la valeur en dessous de laquelle on s’attend à ne
retrouver qu’environ 2,5% de la population est Mx-2xS, dans le cas d’une distribution normale. Ce
qui est moins évident, et pourtant beaucoup plus important, est de savoir à partir de quel seuil la
valeur doit être considérée comme pathologique.

Résumé
1. La somme (le produit) d’effets aléatoires indépendants et de même poids tend vers une distribution
normale (log-normale).
2. En biologie, beaucoup de variables ont une distribution normale (ou log-normale) car elles sont
influencées par de multiples facteurs indépendants qui agissent de manière additive (multiplicative).
3. De nombreuses statistiques (qui sont la somme de plusieurs variables aléatoires) se distribuent
normalement.
4. La distribution normale (log-normale) se caractérise par sa moyenne µ (la moyenne des log) et son
écart-type σ (écart-type des log). Environ 2/3 des observations sont attendues entre µ ± 1σ et 95%
entre µ ± 2σ.
5. La normalité statistique ne doit pas être confondue avec la normalité clinique.

I. LA NATURE DE LA DISTRIBUTION DE GAUSS


La distribution de Gauss en forme de cloche, aussi appelée distribution normale, est à la base d’une
grande partie de la statistique. Elle survient lorsque de nombreux facteurs aléatoires génèrent une
certaine variabilité. Ces facteurs aléatoires ont tendance à se contrebalancer l’un l’autre. Les effets
s’annulent habituellement l’un l’autre, de sorte que beaucoup de valeurs se retrouvent près du centre
(moyenne). Parfois, plusieurs facteurs aléatoires auront tendance à agir dans la même direction,
écartant ainsi cette valeur de la moyenne.

25
Il est rare que presque tous les facteurs aléatoires agissent dans la même direction et rejettent ainsi la
valeur loin de la moyenne. Donc, beaucoup de valeurs se trouvent près de la moyenne, quelques-unes
un peu plus loin et très peu très loin de la moyenne.
Lorsqu’on représente la distribution de fréquence des données, le résultat est une distribution
symétrique, en forme de cloche, qui, idéalisée, est la distribution de Gauss.

La dispersion des valeurs suivra environ une distribution de Gauss s’il y a beaucoup de sources de
variation, pour autant que ces différentes contribution à la variation puissent s’additionner pour
aboutir au résultat final, et que la taille de l’échantillon soit grande. Plus on a de sources de variation,
plus le résultat s’approchera d’une distribution de Gauss.

La variabilité d’une valeur clinique est causée par de nombreux facteurs génétiques et
environnementaux.

Lorsque la dispersion des valeurs est le résultat de nombreuses causes indépendantes, la distribution
suivra une distribution de Gauss en forme de cloche.

II. ECART-TYPE ET DISTRIBUTION GAUSSIENNE


• Sur l’axe horizontal : valeurs observées
• Sur l’axe vertical : fréquences relatives

La moyenne est le centre de la distribution. La courbe de Gauss est haute au voisinage de la moyenne. La
distribution est symétrique, et la moyenne et la médiane sont identiques.
L’écart-type mesure l’étalement ou la largeur de la distribution.
La surface sous la courbe représente la population toute entière.

A peu près 2/3 (68,3%) des valeurs d’une population gaussienne se trouvent dans les limites de 2 (1,96)
écarts-types autour de la moyenne.

III. DISTRIBUTION NORMALE CENTREE REDUITE


v Distribution normale centrée réduite : lorsque la moyenne vaut 0 et l’écart-type 1.
Toutes les distributions gaussiennes peuvent être converties en une distribution normale centrée réduite.
Pour ce faire, il faut :
1. Soustraire la moyenne de chaque valeur
2. Diviser la différence par l’écart-type

51?/:.<@9A/,,/
z= éB1.2<2A0/
= nombre d’écarts-type par rapport à la moyenne.

Lorsque z = 1, on est à un écart-type au-dessus de la moyenne.


Lorsque z = -2, on est à deux écarts-types en-dessous de la moyenne.

26
IV. LA DISTRIBUTION NORMALE NE DEFINIT PAS DES LIMITES NORMALES
Une distribution gaussienne est aussi appelée distribution normale.

z Pourcentage de la distribution
normale centrée réduite entre -z et +z
0,67 50,00%
0,97 66,66%
1,00 68,27%
1,65 90,00%
1,96 95,00%
2,00 95,45%
2,58 99,00%
3,00 99,73%

Définir les limites normales d’une mesure clinique n’est pas simple et exige une réflexion sur le plan
clinique. Des règles statistiques simples basées sur la moyenne, l’écart-type et la distribution gaussiennes
sont rarement utiles, sauf comme point de départ avant de définir des limites plus pertinentes.

V. POURQUOI LA DISTRIBUTION NORMALE OCCUPE-T-ELLE UNE PLACE AUSSI CENTRALE EN


STATISTIQUE ?
Elle joue une rôle centrale à cause d’une relation mathématique connue sous le nom de théorème
central limite. Celui-ci dit : si la taille des échantillons est suffisamment grande, la distribution des
moyennes sera approximativement gaussienne, bien que la distribution de la population ne soit pas
gaussienne.

ð Karl Gauss était un mathématicien qui a utilisé cette distribution pour analyser des données
astronomiques. Bien que son nom est associé à la distribution, d’autres l’avaient utilisée avant
lui. ð Distribution gaussienne = distribution normale.
ð Toutes les distributions gaussiennes sont en forme de cloche, mais toutes les cloches ne sont
pas des distributions gaussiennes.
ð Une distribution gaussienne est formée seulement lorsque chaque source de variation est
indépendante, s’ajoute aux autres et qu’aucune source ne domine les autres.

Chapitre 11 : la distribution log-normale et la moyenne géométrique

I. L’ORIGINE DE LA DISTRIBUTION LOG-NORMALE


v Distribution log-normale : certains facteurs agissent de façon multiplicative plutôt qu’additive. Cela
revient au même de doubler une valeur ou de la réduire de moitié. L’effet n’étant pas symétrique, la
dispersion des valeurs ne l’est pas non plus.
Une valeur est loin de toutes les autres et semble presque être une erreur ; il s’agira souvent d’une
distribution log-normale.

La distribution devient gaussienne lorsqu’elle est représentée sur une échelle logarithmique ou lorsque les
données sont transformées en leurs logarithmes.
27
II. LOGARITHMES ?
Le logarithme du produit de deux nombre est égal à la somme de leurs logarithmes. Ces logarithmes
transforment donc une dispersion multiplicative (log-normale) en une dispersion additive (gaussienne).
Les logarithmes des valeurs suivent donc une distribution gaussienne quand les données brutes sont
extraites d’une distribution log-normale.
Si les données sont tirées d’une distribution log-normale, il faut alors les convertir en leurs logarithmes.

III. MOYENNE GEOMETRIQUE


Environ la moitié des valeurs sont plus élevés, et la moitié plus basses.
Pour calculer une moyenne géométrique, il faut :
1. Prendre les logarithmes des valeurs.
2. Calculer la moyenne des logarithmes.
3. Transformer cette moyenne dans les unités originales des nombres donnés.

IV. ECART-TYPE GEOMETRIQUE


Pour calculer l’écart-type géométrique, il faut :
1. Calculer l’écart-type des logarithmes.
2. Mettre ce nombre en exposant 10.

En se souvenant que les logarithmes transforment les produits en sommes, l’écart-type géométrique doit
multiplier ou diviser la moyenne géométrique.
L’intervalle est symétrique lorsqu’il est représenté dans une échelle logarithmique, et asymétrique
(penché vers la droite) lorsqu’il est représenté dans une échelle linéaire.

Il n’a pas d’unité. Il est parfois question de facteur écart-type géométrique parce que l’écart-type
géométrique multiplie ou divise la moyenne géométrique.
Il a été défini par Kirkwood et n’est pas très utilisé. Limpert et Stabel proposent d’écrire « moyenne
géométrique*/écart-type géométrique », ceci par analogie à « moyenne ± écart-type ».

V. ERREURS FREQUENTES
1. Manquer de cohérence entre l’usage des log en base 10 et base e. Il est essentiel d’utiliser la même
base.
2. Prendre le log des données qui contiennent des 0 ou des valeurs négatives.
3. Ne pas reconnaitre une distribution log-normale et de ce fait éliminer certaines valeurs élevées
jugées aberrantes.

ð Les valeurs d’une distribution log-normale sont toujours positives, car le logarithme de 0 et des
valeurs négatives n’est pas défini.
ð La moyenne géométrique ne peut être calculée s’il y a des valeurs nulles ou négatives.
ð Pour calculer la moyenne géométrique, on peut utiliser des log en base 10 ou en base e, du
moment qu’on reste cohérent en utilisant toujours la même base.
ð Les distributions log-normales sont fréquentes, notamment pour la puissance d’un médicament.
C’est la raison pour laquelle cela a du sens de comparer des groupes en utilisant des rapports
plutôt que des différences.
ð Il faut utiliser un axe log et une échelle log pour représenter les données d’une distribution log-
normale.

28
ð Les distributions log-normales sont toujours penchées vers la droite, signe de valeurs plus
grandes.
ð Si on analyse des données issues d’une DLN comme si elles avaient été échantillonnées à partir
d’une DG, il est probable que les résultats soient erronés. Les intervalles de confiance des
différences seront beaucoup plus larges qu’ils le devraient, de sorte que les P-valeurs seront plus
élevés.
ð La moyenne géométrique s’exprime dans les mêmes unités que les données analysées. La
moyenne et la moyenne géométrique s’expriment donc dans les mêmes unités.
ð La moyenne géométrique est toujours inférieure à la moyenne (exception triviale : si toutes les
valeurs sont identiques, les deux moyennes sont égales).
ð L’écart-type géométrique n’a pas d’unités. C’est un facteur par lequel est multipliée ou divisée
la moyenne géométrique.
ð L’écart-type ordinaire s’exprime dans les mêmes unités que les données, or l’écart-type
géométrique n’a pas d’unités. Cela n’a donc pas de sens de les comparer.
ð L’écart-type géométrique est la même chose que le facteur écart-type géométrique.

Chapitre 12 : intervalle de confiance d’une moyenne

Calcul de l’IC sur la moyenne à partir de la distribution t

Hypothèses pour l’IC sur la moyenne


1. Approche basée sur la distribution de t :
a. Tirage aléatoire (ou échantillon représentatif)
b. Individus indépendants
c. Distribution approximativement normale dans la population
2. Approche par rééchantillonnage
a. Tirage aléatoire (ou échantillon représentatif)
b. Individus indépendants

29
Il est possible de construire :
• Des intervalles à différents niveaux de confiance
• Des IC unilatéraux
• Des intervalles sur l’écart-type
• Des intervalles sur une moyenne géométrique : prendre le log de chaque valeur, calculer la
moyenne et l’écart-type sur l’échelle des log, calculer l’IC sur l’échelle des log, prendre l’anti-log de cet
IC et l’exprimer dans les unités initiales.

IC d’une proportion
1. Avec la formule de Wald modifiée (p, p’, W et IC)
2. Pa rééchantillonnage
3. A l’aide de la distribution binomiale

I. INTERPRETATION D’UN INTERAVLLE DE CONFIANCE D’UNE MOYENNE


Il n’y a pas d’incertitude sur la moyenne de l’échantillon. L’intervalle de confiance est toujours centré sur
la moyenne.
L’intervalle de confiance s’écrit « de…à… » ou […,…]. Le trait d’union est à éviter car il pourrait prêter à
confusion lors de valeurs négatives. La forme « …±… » est rarement utilisée.

II. DE QUELLES VALEURS DEPEND L’INTERVALLE DE CONFIANCE D’UNE MOYENNE ?


1. La moyenne de l’échantillon.
2. L’écart-type. Si les données sont fortement dispersées, alors la moyenne sera plus éloignée de la
moyenne de la population. En conséquence, la largeur de l’IC est proportionnelle à l’écart-type.
3. La taille de l’échantillon. Pour de petits échantillons, la moyenne sera plus éloignée de la moyenne
de la population et donc l’IC sera plus large. La largeur de l’IC est inversement proportionnelle à la
racine carrée de la taille de l’échantillon.
4. Le degré de confiance. Si on souhaite un degré de confiance plus élevé, on aboutira à une IC plus
large.

III. HYPOTHESES : INTERVALLE DE CONFIANCE D’UNE MOYENNE


a) Échantillon aléatoire. Dans les études cliniques, il n’est pas possible de sélectionner aléatoirement
des patients de la population toute entière de patients similaires. Les patients sélectionnées le
sont plutôt parce qu’ils se trouvaient dans le bon centre au bon moment. Ce type d’échantillon est
appelé « échantillon de convenance ». On doit supposer que l’échantillon de convenance
représente la population de façon adéquate et que les résultats sont similaires à ceux qui auraient
été obtenus en utilisant un véritable échantillon aléatoire.
b) Observations indépendantes ; tous les sujets ont été tirés de la même population et chacun a été
choisi indépendamment des autres.
c) Données correctes ; chaque mesure est correctement effectuée.
d) Évaluation d’un évènement auquel on s’intéresse réellement. Il se peut que ce soit à un
évènement différent que l’on s’intéresse réellement. Cela vaut donc la peine de réfléchir à la
distinction entre ce qui est mesuré et ce que l’on veut réellement savoir.

30
e) La distribution de la variable dans la population est gaussienne, au moins approximativement.
Les données proviennent d’une population où la variable suit une distribution gaussienne. Cette
hypothèses est importante quand l’échantillon est petit, mais moins lorsque l’échantillon est
grand.

à Que faire si les hypothèses sont violées?


Si une des hypothèses est violée, l’IC sera probablement trop optimiste (trop étroit). Le véritable IC est
vraisemblablement plus large que l’IC calculé.

IV. COMMENT CALCULER L’INTERVALLE DE CONFIANCE D’UNE MOYENNE


L’IC est centré sur la moyenne de l’échantillon (m). pour calculer son amplitude, il faut tenir compte de
l’écart-type (s), de la taille de l’échantillon (n) et du degré de confiance souhaité.
On a besoin du tableau pour déterminer la valeur de la constante basée sur la taille de l’échantillon et le
degré de confiance souhaité. Cette valeur est appelée « constante issue de la distribution t », notée t*. La
marge d’erreur (W) est la moitié de la largeur de l’IC est :

2∗ .4
W=
√,

L’IC s’étend de m-W à m+W.


Lors du calcul de cet IC, le nombre de degrés de liberté (dl) vaut n-1. Plus généralement, le nombre de dl
est égal à n diminué du nombre de paramètres à estimer.

V. DAVANTAGE SUR LES INTERVALLES DE CONFIANCE


A) INTERVALLES DE CONFIANCE UNILATERAUX
Généralement, les intervalles sont définis par deux bornes, mais il est possible de créer des intervalles de
confiance unilatéraux.
Prenons l’exemple d’un IC à 90% bilatéral, il reste une possibilité de 5% d’erreur à chaque extrémité. Pour
un intervalle unilatéral, on peut dire que l’intervalle qui va de - (ou de x à +∞) est à 95% susceptible
de contenir la valeur de la population.

B) INTERVALLE DE CONFIANCE D’UN ECART-TYPE


Il est possible de déterminer un IC pour presque n’importe quel paramètre statistique relatif à un
échantillon de données. On peut donc calculer un IC à 95% d’un écart-type ; on peut être sûr à 95% que
l’intervalle calculé contient l’écart-type de la population.

C) INTERVALLE DE CONFIANCE D’UNE MOYENNE GEOMETRIQUE


L’IC de la moyenne géométrique s’obtient en calculant l’IC de la moyenne des logarithmes, puis
l’antilogarithme de chacune des limites de confiance. L’IC de la moyenne géométrique n’est pas
symétrique autour de la moyenne géométrique.

D) INTERVALLE DE CONFIANCE ET ERREUR STANDARD DE LA MOYENNE (ESM)


Le chapitre 14 définira l’erreur type de la moyenne comme étant le quotient de l’écart-type par la racine
carrée de la taille de l’échantillon.

31
ESM = or, W, la marge d’erreur de l’IC = $√ "

d’où, en combinant ces formules ; W = t*. ESM

ð Les IC à 99% sont plus larges que les IC à 80%.


ð Un IC ne permet pas d’apprécier la dispersion. Il dit avec quelle précision nous avons déterminé la
moyenne de la population, mais il ne dit rien sur la dispersion des données.
ð La règle empirique disant qu’un IC à 95% est déterminé par la moyenne ± deux écarts-types ne
peut jamais être utilisée. Dans une distribution gaussienne, on s’attend à trouver environ 95% des
valeurs dans cet intervalle délimité par la moyenne ± deux écarts-types. Mais le sens d’un IC est
de définir la précision avec laquelle nous connaissons la moyenne. Et pour cela, il faut tenir compte
de la taille de l’échantillon.
ð Nous pouvons utiliser la règle empirique disant qu’un IC à 95% est égal à la moyenne ± deux ESM
quand n est grand.
ð En moyenne, le premier IC à 95% ne contiendra les moyennes expérimentales des autres
expérimentations qu’à 83%.
ð Avec la méthode classique, l’IC s’étend toujours de manière égale au-dessus et en dessous de la
moyenne.
ð L’intervalle de confiance est une étendue de valeurs. Les deux valeurs extrêmes de cette étendue
s’appellent les limites de confiance.

Chapitre 13 : la théorie des intervalles de confiance

Au niveau du rééchantillonnage, pour sélectionner des valeurs de manière aléatoire, on peut se baser sur
des caractéristiques qui varient d’un individu à l’autre et qui n’ont aucun lien avec les valeurs de
l’échantillon.

• SD (descriptif) : informe sur la dispersion des observations. 2/3 des observations entre
Mx - SD et Mx + Sd.
• ESM (inférence) : informe sur la précision avec laquelle la moyenne de la population est connue.
ESM =
• CI (inférence) : informe sur la zone dans laquelle on s’attend à trouver le paramètre de la
population : limites = Mx ± t*. ESM
• Range (descriptif) : informe sur la dispersion des observations (ne prend en compte que le min
et le max).
• Quartiles (descriptif) : informe sur la dispersion des observations.

Des données très différentes peuvent aboutir à une même moyenne et un même écart-type.
En théorie des probabilités, on part d’une population connue et on calcule ensuite les probabilités
d’obtenir différents échantillons possibles. En analyse statistique, on fait l’inverse ; on démarre avec des
données et on teste ensuite la vraisemblance que les données aient été échantillonnées dans diverses
populations.

32
I. INTERVALLE DE CONFIANCE D’UNE MOYENNE VIA LA DISTRIBUTION t
La distribution t, qu’est-ce que c’est ?
Une population suit une distribution gaussienne. La moyenne de cette population est désignée par µ.
Supposons que l’on connaisse aussi l’écart-type de cette population, σ. On choisit n valeurs et on en calcule
la moyenne, qui sera désignée par m. on calcule également l’écart-type, s. cet échantillon a été choisi au
hasard et donc m et s ne correspondront pas aux valeur de µ et σ dans la population. On répète ce
processus des milliers de fois et pour chaque échantillon aléatoire, on calcule le rapport t suivant

1− 3
4= 6

La valeur de µ est connue et constante, de même que n (population hypothétique). Pour chaque
échantillon, on calcule m et s et ensuite t par la formule ci-dessus.
Comme pour chaque échantillon aléatoire, la moyenne sera, avec une probabilité égale, soit plus grande
soit plus petite que la moyenne de la population, le rapport. Sera, avec une probabilité égale, soit positive
soit négative. La plupart du temps, il sera proche de 0 mais pourra aussi en être très éloigné. Cela dépend
de la taille n de l’échantillon, de l’écart-type s et du hasard.
En réalité, la distribution t dépend de la taille de l’échantillon. Pour de petits échantillons, la courbe serait
plus étalée. Pour de très grands échantillons, la courbe deviendrait indiscernable de la distribution
gaussienne.

La valeur critique de t
L’aire sous la courbe représente tous les échantillons possibles. Si le rapport t a une valeur comprise entre
-5 et 5 pour 95% des échantillons, alors la valeur de t* sera définie comme étant égale à 5. La valeur de t*
dépend de la taille de l’échantillon et du degré de confiance souhaité. Sa valeur ne dépend pas des données
réellement analysées.

Le retournement
Ce qui n’est pas connu, c’est donc la moyenne de la population. Voilà pourquoi on souhaite construire un
IC.
μ = m ± t*.

On calcule donc la moyenne une fois avec le signe + et une fois avec le signe -. Les nombres obtenus sont
les limites de l’IC à 95%.

Comment cela fonctionne


La distribution t est définie en supposant que la population est gaussienne et en étudiant la variation entre
les moyennes d’un grand nombre d’échantillons.

33
II. INTERVALLE DE CONFIANCE D’UNE MOYENNE VIA REECHANTILLONAGE
v Rééchantillonnage : approche alternative en statistiques qui ne suppose pas que la distribution soit
gaussienne ou autre.
La première étape consiste à générer de nombreux pseudo-échantillons via le rééchantillonnage. Ensuite,
on répète toute la procédure beaucoup de fois pour créer 500 pseudo-échantillons. Les valeurs de
l’ensemble de données apparaissent à maintes reprises et aucune nouvelle valeur n’apparaitra jamais.
Malgré cela, tous les échantillons ne sont pas identiques ; certains valeurs sont répétées, et d’autres sont
absentes.
Pour chacun des 500 nouveaux échantillons, n calcule la moyenne. Après cela, on détermine les centiles
2,5 et 97,5 de cette liste de moyennes. Comme la différence entre 97,5 et 2,5 est égale à 95, on peut dire
que 95% des moyennes des pseudo-échantillons se trouvent entre ces centiles.

L’inversion
Pour tirer des conclusions statistiques, il faut inverser la logique pour passer de la distribution des
moyennes de plusieurs échantillons à l’intervalle de confiance de la moyenne de la population. Le domaine
des valeurs qui contient 95% des moyennes des échantillons constitués par rééchantillonnage est l’IC à
95% de la moyenne de la population.
Cet IC calculé par rééchantillonnage est presque identique à celui calculé par la méthode normale. Mais le
rééchantillonnage n’exige pas l’hypothèse que la distribution soit gaussienne. La seule hypothèse sur
laquelle se base cette méthode est que les observations de l’échantillon soient indépendantes et
représentatives de la population.
Cette méthode est aussi appelée bootstrapping ou computer-intensive méthode. Cette méthode par
rééchantillonnage a l’avantage d’être polyvalente. Elle s’applique aux IC de la médiane, à l’écart
interquartile ou à presque tous les autres paramètres. Elle est largement utilisée dans l’analyse des
données génomiques.

III. INTERVALLE DE CONFIANCE D’UNE PROPORTION VIA REECHANTILLONNAGE


Avec des données continues, l’approche par rééchantillonnage est plus souple que l’approche par la
distribution t parce qu’elle ne se base pas sur l’hypothèses d’une distribution gaussienne (ou autre). Avec
des données binomiales, l’approche par rééchantillonnage n’a pas vraiment d’avantage, mis à part le fait
qu’elle est un peu plus facile à comprendre que l’approche basée sur la distribution binomiale.

IV. INTERVALLE DE CONFIANCE D’UNE PROPORTION VIA LA DISTRIBUTION BINOMIALE


Il s’agit de trouver les limites inférieure (I) et supérieure (S) de l’IC à 95%. Il y a plusieurs méthodes pour
calculer I et S et elles ne donnent pas toutes le même résultat.

La limite inférieure (I) est déterminée par une approche indirecte. Des formules faisant intervenir des
probabilités permettent de répondre à la question : si la proportion dans la population est égale à I, quelle
est la probabilité qu’une proportion observée dans un échantillon de taille 100 soit égale à 0,33 ou plus ?
pour calculer un IC à 95%, chaque extrémité de la population doit être égale à 2,5% ; nous souhaitons donc
trouver la valeur de I telle que la réponse à la question ci-dessus soit 2,5%.

34
La limite supérieure (S) de détermine par une approche similaire. Si la proportion dans la population est
égale à S, quelle est la probabilité qu’une proportion observée dans un échantillon de taille 100 soit égale
à 0,33 ou moins ? comme nous voulons que la réponse soit 2,5%, nous pouvons résoudre l’équation qui
permet de trouver S.

L’utilisation de la distribution binomiale pour résoudre les équations en I et en S n’est pas immédiate.

ð Il n’est pas correct de dire qu’il y a 95% de chance que la moyenne de la population se trouve dans
l’IC calculé. La moyenne de la population est une valeur fixe. Il ne convient donc pas de demander
quelle chance la moyenne de la population a de prendre une quelconque valeur. En revanche,
comme l’IC calculé dépend de l’échantillon de données, il varie d’un échantillon à l’autre dans un
échantillonnage aléatoire. Il est correct de dire qu’il y a 95% de chance qu’un IC à 95% contienne
la moyenne de la population.
ð L’intervalle de prédiction à 95% répond à la question. C’est l’étendue de valeurs qui, à 95% de
certitude, contient 95% des valeurs de la population toute entière. Les intervalles de prédiction
ne sont pas très souvent utilisés. Ils sont beaucoup plus larges que les IC.

Chapitre 14 : barres d’erreurs

I. ECART-YTPE VS ERREUR STANDARD DE LA MOYENNE


v L’erreur standard de la moyenne (ESM) : nombre obtenu en divisant l’écart-type par la racine carrée
de la taille n de l’échantillon.
L’ESM est souvent appelé erreur standard, mais cela n’est pas très précis car on peut calculer des ES pour
des valeurs autres que la moyenne.
ESM ne quantifie par directement la dispersion ou variabilité au sein des valeurs dans la population.
L’ESM peut être petite même si l’écart-type est grand, à condition que la taille de l’échantillon soit grande.
Pour de très grands échantillons, l’ESM est toujours très petite.

L’ESM quantifie la précision avec laquelle on connait la moyenne de la population. L’ESM calculée à partir
d’un échantillon est la meilleure estimation de ce que l’écart-type des moyennes serait si on collectait
effectivement beaucoup d’échantillons.

W = t* . s à W = t*. ESM et S = ESM . √8

La largeur de l’IC de la moyenne est proportionnelle à l’ESM.


C’est un calcul exact, pas une approximation.

II. QUEL TYPE DE BARRE D’ERREUR FAUT-IL METTRE DANS UN GRAPHIQUE ? v


Barre d’erreur : représente la variation ou l’incertitude.
Si l’ensemble des données contient plus qu’une centaine de valeurs, le diagramme de dispersion devient
confus. Les alternatives possibles sont alors la boite à moustaches ou une distribution de fréquence
(histogramme) ou une distribution de fréquences cumulées.

35
Objectif : montrer la variation entre les valeurs
L’écart-type permet d’apprécier la dispersion de sorte qu’il s’agit bien d’une manière de représenter
graphiquement la variabilité. Cependant, étant donné que l’écart-type est une valeur unique, il s’agit d’une
façon assez limitée. Un graphique représentant la moyenne, accompagnée de barres d’erreurs égales à
l’écart-type est moins informatif. Cela n’a donc pas d’avantage de représenter la moyenne avec des barres
d’erreurs plutôt qu’un diagramme de dispersion, une boite à moustaches ou autres.
Un choix possible est de représenter la moyenne ainsi que les valeurs les plus basses et les valeurs les plus
élevées, ou bien de tabuler moyenne ± écart-type.

Objectif : montrer avec quelle précision a été déterminée la moyenne


Pour comparer des moyennes avec un test t, l’objectif du graphique peut être de présenter la précision
avec laquelle les données ont permis de définir la moyenne plutôt que de montrer la variabilité des valeurs.
La meilleure approche est de représenter l’IC à 95% de la moyenne.
Représenter graphiquement la moyenne avec l’ESM comme barres d’erreurs est une méthode
fréquemment utilisée pour indiquer dans quelle mesure on connait la moyenne avec précision. Le seul
avantage des barres d’erreur avec les ESM est qu’elles sont plus courtes, mais il est plus difficile
d’interpréter ces barres d’erreurs avec des ESM que d’interpréter un IC.

Objectif : organiser une propagande convaincante


• Si le but est de mettre en évidence de petites différences sans importance dans les données, il faut
prendre les ESM comme barres d’erreurs et espérer que les lecteurs imaginent que ce sont les
écarts-types qui sont représentés.
• Si le but est de cacher les grandes différences, il faut prendre les écarts-types comme barres
d’erreurs et espérer que les lecteurs imaginent que ce sont les ESM qui sont représentées.

III. LE STYLE DES BARRES D’ERREURS


Quand nous créons des graphiques avec des barres d’erreurs, il faut indiquer clairement comment
elles ont été déterminées. Les barres d’erreurs peuvent être tracées avec ou sans poignées et dans
une direction seulement ou dans les deux. Quand les barres d’erreurs avec poignées sont comme en
C (voir livre), on parle de détonateur.

IV. COMMENT L’ECART-TYPE ET L’ESM SONT-ILS LIES A LA TAILLE DE L’ECHANTILLON ?


Après augmentation de la taille de l’échantillon, on s’attend à ce que l’ESM diminue. Pour rappel, l’ESM
quantifie avec quelle précision la moyenne de la population a été déterminée. Les grands échantillons
donnent de plus petits ESM parce que la moyenne d’un grand échantillon a plus de chances d’être proche
de la vraie moyenne de la population que la moyenne d’un échantillon. On ne peut évidemment pas en
être certain ; c’est une règle générale, mais c’est aussi une question de chance.

L’écart-type quantifie la dispersion des données. Que l’augmentation de la taille de l’échantillon fasse
croitre ou décroitre la dispersion d’un échantillon dépend du tirage au sort des valeurs. L’écart-type risque
donc tout autant d’augmenter que de diminuer.
Cependant, quelle que soit la taille de l’échantillon, sa variance est le meilleur estimateur de la variance de
la population. Cette valeur est dite non-biaisée, indépendamment de n.

36
En revanche, quand n est petit, l’écart-type de l’échantillon tend à sous-estimer légèrement l’écart-type
de la population.
L’augmentation attendue de l’écart-type de l’échantillon consécutive à l’augmentation de la taille de
l’échantillon est minuscule en comparaison de la baisse attendue de l’ESM.

V. LES BARRES D’ERREURS DE L’ECART GEOMETRIQUE


Les barres d’erreurs de l’écart-type géométrique sont asymétriques quand l’axe des ordonnées est muni
d’une échelle linéaire, mais symétriques quand celui est muni d’une échelle logarithmique.

VI. ERREURS FREQUENTES : BARRES D’ERREURS


1. Représenter la moyenne et la barre d’erreur au lieu de représenter une distribution de fréquence.
Examiner un graphique qui montrerait la moyenne 115 et l’écart-type 157 ne nous aiderait pas à
comprendre les données. Mettre en évidence la médiane jointe à l’intervalle de l’écart
interquartile serait plus informatif que la moyenne avec l’écart-type ou l’ESM.
2. Supposer que toutes les distributions sont gaussiennes. Résumer des données par leur moyenne
et leur écart-type peut être utiles, mais aussi trompeur. Il est facile de montrer les données réelles
sous la forme d’un nuage de points jusqu’à 100 ou même quelques centaines de nombres. S’il y
en a davantage, il faut opter pour un graphique en boites à moustache ou en violon ou encore un
histogramme de fréquence. Il ne faut JAMAIS choisir la moyenne avec sa barre d’erreur sans avoir
exploré d’abord toutes les autres manières de représenter les données.
3. Tracer une moyenne et sa barre d’erreur sans définir comment les barres d’erreurs ont été
obtenues. Il est essentiel de préciser clairement ce que sont les barres d’erreurs, écart-type, EMS,
IC, étendue ou autre.

ð L’écart-type quantifie la dispersion, de combien les valeurs diffèrent les unes des autres.
ð L’ESM quantifie la précision avec laquelle la moyenne réelle de la population est connue. Cette
valeur dépend à la fois de la taille de l’échantillon et de l’écart-type.
ð L’écart-type et l’ESM sont exprimés dans les mêmes unités. L’ESM est toujours plus petit que
l’écart-type.
ð ESM signifie « erreur standard de la moyenne », c’est l’abréviation optimale. ES signifie « erreur
standard ». Il est possible de calculer l’erreur standard de plusieurs valeurs calculées.
ð On peut appliquer la règle approximative que l’IC à 95% d’une moyenne est égal à la moyenne ± 2
ESM quand les échantillons sont de grande taille. Calculer un IC requiert un facteur de la
distribution t, noté t*. lorsque les échantillons sont grands, t* a une valeur proche de 2. C’est de
là que vient cette règle. Quand la taille de l’échantillon est petite, cet IC sera trop étroit car le
facteur correct est plus grand que 2.
ð Les graphiques représentent souvent une barre d’erreur qui s’étend de 1 ESM de part et d’autre
de la moyenne. Cet intervalle n’a pas d’interprétation simple. Quand les échantillons sont grands,
cet intervalle donne un niveau de confiance à 68%. Mais ce niveau de confiance dépend de la taille
de l’échantillon. On peut dire que cet intervalle d’1 ESM autour de la moyenne correspond
approximativement à un niveau de confiance de 60%.
ð Les barres d’erreurs représentant l’ESM sont courantes parce qu’elles sont toujours plus petites
que l’écart-type et parce qu’elles constituent une façon immédiate de savoir le degré de précision
avec lequel la moyenne est connue.

37
ð Quand il n’y a que 2 valeurs, autrement dit que n = 2, il n’y a pas beaucoup d’intérêt à montrer les
barres d’erreurs. Il ne faut montrer que les deux valeurs. Mais si nous engageons des barres
d’erreurs, il faut savoir qu’elles seront identiques : l’IC à 50%, l’étendue et la moyenne ± l’ESM. La
moyenne ± l’écart-type va s’étendre au-delà de l’étendue.

Chapitre 15 : P-valeurs et signification statistique

I. INTRODUCTION AUX P-VALEURS


Les p-valeurs sont représentées soit comme un nombre, soit comme une inégalité statistique. Elles sont
également utilisées pour tirer des conclusions sur la signification statistique.

Exemple 1 : lancer d’une pièce de monnaie


Une pièce est non truquée lorsque chaque lancer a une probabilité de 50% de tomber de chaque côté, et
que le résultat est enregistré correctement.
Pour répondre à la question « quelle est la probabilité que lorsque la pièce est lancée 20X, nous observions
soit 16x face ou plus, soit 4x face ou moins ? », il faut additionner les probabilité d’observer 0, 1, 2, 3, 4,
16, 17, 18, 19 ou 20 faces en 20 lancers.

Cette p-valeur est exprimée le plus souvent en fraction et non en %..

Interprétation de la p-valeur
Parfois, les résultats sont étranges et rares. Dans ce cas, ou c’est une coïncidence, ou le lancement de la
pièce était faussé. Ce que l’on en tirera comme conclusion dépend du contexte. Il existe 3 possibilités :
• On est sûr qu’il n’y a pas de tricherie. C’est le hasard, et la p-valeur ne changera rien à la conclusion.
• L’expérience fait partie d’un tour de magie ; on en conclut que l’expérience n’était pas honnête.
• Il arrive parfois des coïncidences.

Exemple 2 : antibiotiques sur une plaie chirurgicale


Pour évaluer la question, nous devons d’abord nous demander ce qu’il serait arrivé si le risque d’infections
chez les patients qui reçoivent un onguent antibiotique est le même que le risque chez ceux qui reçoivent
un onguent inactif. Si le risque d’infection est identique dans les deux groupes et si l’expérience a été faite
correctement, quelle est la probabilité que l’échantillonnage aléatoire provoque une différence dans les
taux d’incidence égale ou supérieure à la différence observée réellement dans cette étude ?

II. JARGON : L’HYPOTHESE NULLE


La définition de la p-valeur exige de calculer quels seraient les résultats dans une situation simplifiée.
Exemple 1 : la situation simplifiée est que la pièce est non truquée de façon que l’écart observé par rapport
à un résultat de 50/50 est aléatoire.
Exemple 2 : la situation simplifiée est que l’antibiotique utilisé n’empêche pas réellement l’infection dans
la situation expérimentale, de façon que la différence entre les taux d’infection soit due à l’échantillonnage
aléatoire des sujets.

38
Exemple 3 : la situation simplifiée est que les patients transférés vers un autre hôpital ont le même risque
de mort ou d’aggravation des maladies cardiaques que ceux qui restent dans l’hôpital d’admission, de
façon que l’observation de la différence du risque de mort ou de maladie cardiaque est une coïncidence.
La situation simplifiée est appelée hypothèse nulle. Les P-valeurs sont calculées à partir des résultats
hypothétiques que nous observerions si l’hypothèse nulle était vraie.

Dans la plupart des cas, l’hypothèse nulle qui que la différence entre les moyennes de populations est
nulle, que la corrélation est nulle ou que la pente est nulle. Cependant, l’hypothèse nulle peut porter sur
toutes sortes de différences ou d’associations.

III. POURQUOI LES P-VALEURS SONT-ELLES SI DEROUTANTES


Les p-valeurs sont déroutantes pour plusieurs raisons :

• L’hypothèse testée (nulle) est habituellement à l’opposé de l’hypothèse que l’expérimentateur


attend ou espère être vraie.
• Dans de nombreuses situations, on sait, avant même de récolter la moindre donnée, que
l’hypothèse nulle est presque certainement fausse. L’hypothèse nulle dit que, dans les populations
étudiées, il n’y a pas de différence entre les moyennes, que la corrélation est nulle ou que le
rapport entre les risques ou les probabilités est de 1. on planifie rarement des expériences ou des
études où il est pensable que l’hypothèse nulle soit vraie.
• Les cliniciens et scientifiques trouvent étrange de calculer la probabilité d’obtenir des résultats qui
n’ont pas vraiment été obtenus.
• La logique des p-valeurs va dans un sens qui semble inversé. En menant notre étude, nous nous
posons des questions au sujet de la population dont les données proviennent. La définition de la
p-valeur commence avec des suppositions provisoires sur la population et pose des questions au
sujet des échantillons possibles de données.

IV. P-VALEUR UNILATERALE OU BILATERALE


• « Quelle est la probabilité d’obtenir soit 16x ou plus, soit 4x ou moins ? » : cette p-valeur est
bilatérale car elle concerne les deux extrêmes : beaucoup et peu.
• « Quelle est la probabilité d’obtenir 16x ou plus ? » : cette p-valeur est unilatérale, elle vaut la
moitié de la p-valeur bilatérale.
Pour définir une p-valeur unilatérale, il faut prédire dans quel sens pencheront les données avant de les
recueillir.
La somme des deux p-valeurs unilatérales est égale à 1.

Avantage d’une p-valeur unilatérale


Le choix d’une p-valeur unilatérale aboutit à une hypothèse plus précise et réduit ainsi la taille de
l’échantillon nécessaire. Une étude planifiée pour utiliser une p-valeur unilatérale exige environ 20% de
sujets en moins que la même étude planifiée pour utiliser une p-valeur bilatérale. Cela réduit le coût et le
risque et c’est un motif pour préférer les p-valeurs unilatérales.

Quand une p-valeur unilatérale est-elle appropriée ?


L’utilisation d’une p-valeur nécessite une planification.
On ne devrait utiliser une p-valeur unilatérale que lorsque nous avons prédit quel groupe aurait la plus
grande moyenne avant de récolter les données et que nous avons la prédiction.

39
Le problème avec les p-valeurs unilatérales
Si les données nous surprennent et si l’effet du traitement va dans le sens contraire de notre prédiction,
alors la p-valeur unilatérale sera plus grande que 0,5. Dans ce cas, nous devrions prévoir d’utiliser une
pvaleur bilatérale.
Dans le doute, il vaut mieux utiliser une p-valeur bilatérale pour les motifs suivants :
• La relation entre les p-valeurs et les IC est plus directe avec les p-valeurs bilatérales.
• Certains tests comparent trois groupes ou davantage, et dans ce cas, le concept d’unilatéral ou de
bilatéral n’a pas de sens.
• L’effet concret du choix d’une p-valeur unilatérale est de montrer que l’évidence est meilleure car
la p-valeur est plus faible. Mais cela n’est pas dû aux données collectées durant l’expérimentation,
mais plutôt au choix de l’expérimentateur.
• Certains relecteurs ou éditeurs peuvent critiquer toute utilisation de la p-valeur unilatérale, même
si elle est bien justifiée.

V. LES P-VALEURS NE SONT PAS TRES REPRODUCTIBLES


Les p-valeurs de simulations répétées varient de plus de trois ordres de grandeur dans de nombreuses
situations.

VI. IL Y A AUTRE CHOSE EN STATISTIQUE QUE LES P-VALEURS


Beaucoup de scientifiques mentionnent la p-valeur et ignorent les IC ; c’est une erreur.
Les p-valeurs sont calculées en assemblant deux valeurs différentes : la grandeur de l’effet et la précision
de l’effet. Par contre, un IC montre les deux valeurs séparément. La place du centre de l’IC indique la
grandeur de l’effet observé. L’étendue de l’IC donne une indication sur la précision.
L’IC donne une réponse aux deux d’une façon compréhensible. Au contraire, la p-valeur donne une réponse
à une seule question qui est moins intéressante.

Lorsqu’on rédige un article, il faut commencer par s’assurer que les résultats sont expliqués clairement.
Ensuite, il faut calculer les ICs pour quantifier la précision de l’importance de l’effet. Il ne faut ajouter les
p-valeurs que quand nous avons une bonne raison de penser que cela rendra notre article plus facilement
compréhensible.

VII. ERREURS FREQUENTES


1. La p-valeur n’est pas la probabilité que le résultat soit dû à une erreur d’échantillonnage. La
pvaleur est calculée en imaginant les résultats observés si l’hypothèse nulle était vraie. Elle est
donc calculée à partir des résultats que nous aurions si les différences observées étaient
uniquement dues au choix aléatoire des sujets, et donc à une erreur d’échantillonnage.
2. La p-valeur n’est pas la probabilité que l’hypothèse nulle soit vraie. Elle est calculée à partir des
résultats que nous verrions si l’hypothèse nulle était vraie.
3. La probabilité que l’hypothèse alternative soit vraie n’est pas 1 – la p-valeur. Ce que l’on peut
dire, c’est que « si l’hypothèse nulle était vraie, alors 97% des expériences produiraient une
différence plus petite que celle que nous avons observée, et 3% une différence aussi grande, ou
davantage, que celle que nous avons observée ». Le calcul de la p-valeur est basé sur la supposition
que l’hypothèse nulle est vraie. La p-valeur ne peut pas nous dire si cette supposition est correcte.
Elle nous indique combien rarement nous observerons une différence aussi grande, ou davantage,
que celle que nous avons observée si l’hypothèse nulle était vraie.
4. La probabilité que le résultat se maintiendra lorsque l’expérience est répétée n’est pas 1 –
pvaleur. La p-valeur ne mesure pas par elle-même la reproductibilité.
40
5. Une p-valeur importante ne prouve pas que l’hypothèse nulle est vraie. Une p-valeur importante
signifie que si l’hypothèse nulle était vraie, il ne serait pas surprenant d’observer l’effet du
traitement rencontré dans une expérience donnée. Mais cela ne prouve pas que l’hypothèse nulle
est vraie. Cela dit simplement que les données sont cohérentes avec l’hypothèse nulle.
6. « P = 0,05 » n’est pas la même chose que « P < 0,05 ».
7. Une p-valeur ne doit pas toujours être écrite comme une inégalité. Il est même préférable de la
donner comme un nombre.
8. La p-valeur teste davantage que l’hypothèse nulle. L’idée de la p-valeur est de tester la capacité
de l’hypothèse nulle d’expliquer les données. Elle teste toutes les hypothèses concernant les
données, et pas seulement l’hypothèse nulle.

ð Les p-valeurs ne sont jamais négatives ; elles sont comprises entre 0 et 1.


ð Une p-valeur peut être très petite mais jamais égale à 0. Si une p-valeur y est inférieure, c’est
qu’elle est inférieure à 0,0001. Une p-valeur est seulement égale à 1 dans les rares cas où l’effet
du traitement dans l’échantillon est exactement égal à celui défini par l’hypothèse nulle. Quand
la p-valeur vaut 1, cela signifie qu’elle est supérieure à 0,9999.
ð La p-valeur unilatérale n’est pas toujours égale à la moitié de la p-valeur bilatérale. Certaines
distributions sont asymétriques. Par exemple, une p-valeur unilatérale d’un test exact de Fisher
n’est généralement pas égale à la moitié. Avec certains données, les p-valeurs unilatérales et
bilatérales peuvent être égales, mais cela est très rare. Même si la distribution est symétrique,
la p-valeur unilatérale n’est égale à la moitié de la bilatérale que si nous avons prédit
correctement le sens de la différences. Si en réalité, l’effet est allé dans l’autre sens, alors, en
recalculant cette valeur, elle sera supérieure à 0,5 et supérieure à la bilatérale.
ð Une p-valeur bilatérale peut être supérieure à 0.5 Cela arrive lorsque le sens de l’effet du
traitement est opposé à la prédiction.
ð Une p-valeur est toujours associée à une hypothèse nulle. S’il n’y a pas d’hypothèse nulle, alors
il n’y a pas de p-valeur.
ð Les p-valeurs ne nécessitent pas toujours une conclusion. Elles peuvent être interprétées pour
elles-mêmes. Dans certaines situations, il est raisonnable d’aller plus loin et de mentionner si les
résultats sont statistiquement significatifs. Cela reste une option.
ð La plupart des programmes donnent la p-valeur unilatérale en supposant que nous avons
correctement prédit le sens de l’effet. Si notre prédiction était erronée, la p-valeur unilatérale
correcte est égale à 1 – p-valeur donnée.
ð En présentant beaucoup de très faibles p-valeurs, certains chercheurs utilisent l’opposé du log
de la p-valeur pour éviter la difficulté de traiter des valeurs très faibles. Si une p-valeur vaut 0,01,
son log sera de -2 et donc l’opposé est 2. Le graphique où sont représentées ces valeurs s’appelle
Manhattan plot.
ð L’hypothèse nulle est rarement vraie. ð Il n’est pas possible de calculer un IC pour une p-valeur.
Les IC sont calculés pour des paramètres comme des moyennes ou des pentes. L’objectif est de
donner un intervalle vraisemblable des valeurs qui incluent la vraie valeur de la population. La
p-valeur n’est pas une estimation d’une valeur de la population. Elle est calculée à partir d’un
échantillon donné. Comme demander quelle est la p-valeur globale pour la population n’a pas
de sens.
ð Si l’hypothèse nulle est réellement vraie et que nous faisons beaucoup d’expériences, il ne faut
pas s’attendre à une majorité de grandes p-valeurs. Si l’hypothèse nulle est vraie, la p-valeur a
la même probabilité de prendre n’importe quelle valeur. On en trouvera autant <0,1 que >0,9.

41
Chapitre 16 : signification statistique et test d’hypothèse

I. TEST D’HYPOTHESE STATISTIQUE


Les tests d’hypothèse statistique automatisent la prise de décision. Il faut d’abord définir pour la p-valeur
un seuil à partir duquel un résultat sera déclaré statistiquement significatif.

v Seuil de signification : seuil à partir duquel un résultat sera déclaré statistiquement significatif.
Il est noté α et est habituellement fixé à 0,05.
• Si la p-valeur est inférieure à α , on conclut que la différence est statistiquement significative et on
décide de rejeter l’hypothèse nulle.
• Si la p-valeur est supérieure à α, on considère que la différence n’est pas statistiquement
significative et on décide de ne pas rejeter l’hypothèse nulle.

II. ANALOGIE : INNOCENT JUSQU’À PREUVE DU CONTRAIRE


Un scientifique part de la supposition que l’hypothèse nulle « pas de différence » est vraie. Il base sa
décision sur la signification statistique uniquement à partir de données provenant d’une expérimentation,
sans tenir compte de ce que d’autres expérimentations ont conclu.
En réalisant un test statistique, un scientifique arrive à la conclusion que les résultats sont statistiquement
significatifs lorsque la p-valeur est suffisamment petite, de sorte que l’hypothèse nulle devient peu
vraisemblable. Si ce n’est pas le cas, un scientifique conclut que les résultats ne sont pas statistiquement
significatifs.
Un scientifique arrive à la conclusion que les résultats ne sont pas statistiquement significatifs chaque fois
que les données sont compatibles avec l’hypothèse nulle. Le scientifique ne doit pas être convaincu que
l’hypothèse nulle est vraie.
Un test statistique ne permet jamais de conclure que l’hypothèse nulle est vraie, il permet seulement de
conclure qu’il n’y a pas assez de preuves pour la rejeter. Chaque test statistique conduit à une conclusion
très tranchée : statistiquement significatif ou statistiquement non significatif.
Un scientifique qui suit strictement la logique des tests d’hypothèse ne peut pas conclure « attendons
d’avoir plus de données pour décider ».

Le scientifique comme journaliste


Si nous n’avons pas besoin de prendre une décision claire basée sur une p-valeur, vous n’avez pas besoin
d’utiliser l’expression statistiquement significatif ou d’utiliser le vocabulaire des tests d’hypothèse.

III. HAUTEMENT SIGNIFICATIF OU TOUT JUSTE SIGNIFICATIF


Un résultat est donc soit statistiquement significatif, soit non significatif. Seules ces deux conclusions sont
possibles. Certains utilisent cependant les termes « très significatif » ou « hautement significatif » lorsque
les p-valeurs sont très faibles. Par ailleurs, des chercheurs utilisent les étoile (comme le guide Michelin)
pour graduer ces termes. Ces chercheurs peuvent utiliser des grades et donc des seuils différents.

Signification statistique limite


Lorsqu’une p-valeur est juste légèrement supérieure à alpha, certains scientifiques évitent la phrase « pas
significativement différent » et préfèrent présenter le résultat comme « marginalement significatif ».
Certains utilisent aussi « pas exactement significatif », « à la limite de la signification »…
Il est souvent préférable de simplement rapporter la p-valeur observée sans se préoccuper du fait qu’elle
soit au-dessus ou en dessous d’un quelconque seuil arbitraire.

42
Lorsqu’une p-valeur est entre 0,05 et 0,1, certains peuvent être tentés de passer à une p-valeur unilatérale.
Mais ce choix doit être fait avant de collecter les données.

IV. JARGON : ERREURS DE TYPE I ET II


Un test d’hypothèse consiste à prendre une décision basée sur les résultats d’une comparaison. Lorsqu’on
prend cette décision, on peut commettre deux types d’erreurs :

Erreur de type I
Lorsqu’il n’y a réellement aucune différence entre les populations, l’échantillonnage aléatoire peut
conduire à des données au sein desquelles il y aura une différence suffisamment grande et qui est
statistiquement significative. Celle-ci se produit quand on décide de rejeter l’hypothèse nulle alors qu’en
réalité, elle est vraie. C’est un faux positif.

Erreur de type II
Lorsqu’il existe réellement une différence entre les populations, l’échantillonnage aléatoire peut produire
une différence suffisamment petite et qui n’est pas statistiquement significative. Celle-ci se produit
lorsqu’on décide de ne pas rejeter l’hypothèse nulle alors qu’en réalité, elle est fausse. C’est un faux
négatif.

Erreur de type S (III)


Une erreur encore pire se produit lorsqu’on prend le sens de l’effet à l’envers. Cette erreur est appelée
erreur de type S, car le sens de la différence est inversé. Hsu l’appelle erreur de type III.

à Ce sont des concepts théoriques ; on ne peut pas savoir si l’on a commis l’une d’elles.

V. COMPROMIS DANS LE CHOIX D’UN SEUIL DE SIGNIFICATION


La p-valeur et alpha ne sont pas identiques :
• Le seuil de signification α est choisi par l’expérimentateur avant de recueillir les données et fait
partie du protocole expérimental. Lorsque l’hypothèse nulle est vraie, α est la probabilité de
rejeter l’hypothèse nulle.
• Une p-valeur est calculée à partir des données. Nous rejetons l’hypothèse nulle quand la p-valeur
d’une expérimentation donnée est inférieure au seuil de signification α fixé à l’avance.

Le compromis
Un résultat est considéré comme statistiquement significatif lorsque la p-valeur est inférieure à un seuil de
signification α fixé à l’avance. Il est habituellement fixé à 0,05. En choisissant ce seuil de signification, nous
faisons un compromis.
• Si on choisit une valeur très basse pour α, nous ferons peu d’erreurs de type I. Cela signifie que si
l’hypothèse nulle est vraie, il n’y aura qu’une très petite chance qu’un résultat soit déclaré
statistiquement significatif à tort. Mais il y aura une chance beaucoup plus grande de ne pas
trouver un résultat statistiquement significatif, même si l’hypothèse nulle était fausse.
à En bref, réduire la valeur de diminuera le risque d’erreur de type I mais augmentera le risque
d’erreur de type II.

43
• Si on choisit de prendre une valeur très élevée pour , nous ferons beaucoup d’erreurs de type I. Si
l’hypothèse nulle est vraie, il y a de grandes chances de trouver par erreur une différence
statistiquement significative. Mais il y aura très peu de chance de rater une différence réelle. àEn
bref, augmenter la valeur de augmentera le risque d’erreur de type I mais diminuera le risque
d’erreur de type II.

La seule manière de diminuer à la fois l’erreur de type I et l’erreur de type II est de constituer de plus
grands échantillons.

Exemple : l’hypothèse nulle est qu’un courriel est bon (pas un spam). Une erreur de type I se produit
lorsqu’un courriel acceptable est envoyé par erreur dans la boite de spams. Une erreur de type II se
produit lorsqu’un spam arrive dans la boite de réception.

VI. QUEL SEUIL DE SIGNIFICATION DEVRIONS-NOUS CHOISIR ?

1. P < 0,05
Dans beaucoup de domaines scientifiques, de façon stricte et constante, le seuil est fixé à 0,05. Ce seuil
provient de Ronald Fischer.

2. P < 0,005
La puissance sera réduite à moins que la taille de l’échantillon ne soit augmentée. Une taille augmentée
d’environ 70% maintient la puissance tout en changeant les seuils de signification de 0,05 à 0,005.

3. P < 0,0000003
Atteindre le seuil des cinq sigma veut dire que ces résultats se produiraient par hasard aussi rarement
qu’une valeur échantillonnée dans une population gaussienne s’écarterait de 5 écarts-types de la
moyenne.
La p-valeur unilatérale est inférieure à 0,0000003.
La norme de signification statistique dans la plupart des domaines est que le p bilatéral soi inférieur à 0,05.
Environ 5% de la distribution gaussienne s’écarte de plus de 2 écarts-types de la moyenne. Donc la
définition habituelle de la signification statistique peut être appelée seuil de deux sigma.

Le message clé est le suivant : un même seuil de signification n’est pas nécessaire pour tous les usages.

VII. SIGNIFICATION STATISTIQUE VS SIGNIFICATION SCIENTIFIQUE


Conclure qu’un résultat est statistiquement significatif ne signifie pas que la différence est suffisamment
grande pour s’y intéresser ou suffisamment intrigante pour mériter des recherches complémentaires.

« Statistiquement significatif » si on se réfère à une hypothèse statistique


« Scientifiquement/cliniquement significatif » si on se réfère à la taille d’une différence ou d’une
association.
Si on examine l’impact de données, il faut bannir le mot significatif et employer des mots tels que «
conséquent, riche en évènements, remarquable… ».

44
VIII. ERREURS FREQUENTES : TEST D’HYPOTHESE

1. Croire que le test d’hypothèse est une partie essentielle de toutes les analyses statistiques Dans
beaucoup de situations scientifiques, il n’est pas nécessaire – et peut être même contre-productif – de
déclarer clairement qu’un résultat est statistiquement significatif ou pas. Les p-valeurs et les IC peuvent
nous aider à évaluer et présenter une évidence scientifique sans jamais utiliser cette expression. Cette
façon d’exagérer l’importance de la signification statistique est souvent qualifiée d’observation des
étoiles.

2. Croire que si un résultat est statistiquement significatif, l’effet doit être important
La conclusion que quelque chose est statistiquement significatif s’applique à la force de l’évidence, pas à
la taille de l’effet.
Un résultat statistiquement significatif ne signifie pas :
• Que la différence observée est suffisamment grande pour être importante
• Que les résultats sont suffisamment intrigants pour mériter des recherches supplémentaires
• Que le résultat est scientifiquement ou cliniquement significatif

3. Ne pas se rendre compte de la fragilité de la signification statistique


Comme la conclusion d’une enquête aurait pu aussi facilement aller en sens inverse, ils l’ont appelée «
fragile ».

4. P-piratage pour obtenir une signification statistique


Certains sont tentés de faire de gros efforts pour que leur p-valeur devienne suffisamment petite et puisse
ainsi être déclarée significative. Gotzsche a utilisé une approche pour quantifier ce risque ; si les résultats
sont présentés honnêtement, le nombre de p-valeurs entre 0,04 et 0,05 serait semblable au nombre de
pvaleurs entre 0,05 et 0,06.
Il est aussi probable que beaucoup de chercheurs trichent un peu de cette manière :
• Distorsion
• Taille d’échantillon dynamique
• Saucissonnage
• Présentation sélective de résultats de plusieurs études
• Jeu avec les valeurs extrêmes

v P-piratage : tentatives des chercheurs à abaisser la p-valeur en essayant diverses analyses ou en


analysant des sous-ensembles de données.

ð Il est possible de rapporter des résultats scientifiques sans le terme « significatif ». il suffit de
rapporter les données avec les IC et peut-être les p-valeurs. Les décisions à propos de la
signification statistique ne sont pas souvent utiles.
ð « Test d’hypothèse » est un concept relatif à la prise de décision. Ils ont tout leur intérêt lorsqu’il
est nécessaire de prendre une décision claire sur base d’une analyse statistique.
ð Le but des statistiques est de quantifier l’évidence scientifique et l’incertitude. ð Il y a une
aversion naturelle envers l’ambiguïté. La conclusion tranchée est, pour beaucoup, plus
satisfaisante que les autres.

45
ð C’est Ronald Fischer qui a désigné le seuil P < 0,05. ð P-valeur et α ne sont pas la même chose.
Une p-valeur est calculée à partir des données. Le seuil de signification α est fixé et fait partie du
protocole expérimental établi avant de collecter toute donnée. Une différence est appelée
statistiquement significative si la p-valeur calculée à partir des données est plus petite que la valeur
de α fixée à l’avance.
ð α est la probabilité de rejeter l’hypothèse nulle seulement si l’hypothèse nulle est vraie. Dans
certains protocoles, l’hypothèse nulle est souvent vraie. Dans d’autres, elle est presque toujours
certainement fausse. Si l’hypothèse nulle est vraie, α est la probabilité qu’un tirage aléatoire
fournisse des données qui nous amèneront à rejeter l’hypothèse nulle et commettre ainsi une
erreur de type I.
ð Si l’on effectue beaucoup de tests statistiques, il n’est pas vrai que la conclusion « statistiquement
significatif » ne sera pas correcte dans 5% des cas. Cela serait vrai uniquement si l’hypothèse nulle
est réellement vraie dans chaque expérimentation. Cela dépend du contexte scientifique.
ð On peut calculer une p-valeur unilatérale seulement lorsqu’on l’a décidé à l’avance et précisé dans
le protocole expérimental. ð Les erreurs de type I rejettent une hypothèse nulle vraie. Les erreurs
de type II acceptent une hypothèse nulle fausse.
ð La p-valeur vaut 0,0501. Il n’est pas correct d’arrondir la valeur à 0,0500. Toute l’idée du test est
de prendre un critère strict entre le rejet ou l’acceptation de l’hypothèse nulle. Ici, la p-valeur est
> α et donc on ne peut pas rejeter l’hypothèse nulle et appeler le résultat statistiquement
significatif.
ð La p-valeur vaut 0,050000. Obtenir une p-valeur égale à 0,05 est rare et ne se produira pas souvent.
C’est simplement un problème de définition. Mais la plupart vont rejeter l’hypothèse nulle quand
une p-valeur est exactement égale à α.

Chapitre 17 : comparer des groupes avec des IC et des p-valeurs

P-valeur : probabilité d’avoir un résultat au moins aussi extrême que celui observé quand l’hypothèse
nulle est vraie.
Si la p-valeur est faible, c’est que l’hypothèse nulle se trouve dans l’extrême. Donc une hypothèse nulle
extrême signifie une hypothèse initiale normal, et donc une donnée statistiquement significative.

Les statistiques sont d’autant plus dispersées que l’échantillon est petit. En prenant 4x plus d’individus,
on divise l’erreur standard par 2. L’IC sera donc 2x plus étroit.
Des résultats statistiquement significatifs peuvent facilement arriver avec une taille d’échantillon
dynamique.

I. IC ET TEST D’HYPOTHESE SONT ETROITEMENT LIES


IC et test d’hypothèse sont basés sur la même théorie statistique et les mêmes hypothèses, de sorte
qu’ils sont étroitement liés
L’approche par test d’hypothèse calcule un intervalle dont on peut être sûr à 95% qu’il inclurait les
résultats expérimentaux si l’hypothèse nulle était vraie. Tout résultat compris dans cet intervalle est
considéré comme statistiquement non significatif et tout résultat en dehors de cet intervalle, comme
statistiquement significatif.

46
Lorsque l’IC inclut l’hypothèse nulle, la zone des résultats statistiquement non significatifs doit inclure
le résultat de l’échantillon.
Lorsqu’un IC n’inclut pas l’hypothèse nulle, la zone des résultats statistiquement non significatifs
n’inclut pas forcément le résultat de l’échantillon.

Une règle qui lie IC et signification statistique


• Si un IC95 ne contient pas la valeur de l’hypothèse nulle, alors le résultat doit être statistiquement
significatif avec p < 0,05.
• Si un IC95 contient la valeur de l’hypothèse nulle, alors le résultat ne doit pas être statistiquement
significatif (p > 0,05).

Les IC95 et le seuil de signification de 5% n’ont rien de spécial. Cela fonctionne aussi dans le cas suivant
: si l’IC à 99% ne contient pas l’hypothèse nulle, alors la p-valeur doit être inférieure à 0,01.
Le « résultat » est la différence entre la moyenne de l’échantillon et une moyenne hypothétique de
population. La règle fonctionne pour beaucoup d’autres types de données :
• Si l’IC de la différence entre deux moyennes n’inclut pas le zéro (hypothèse nulle), alors le résultat
doit être statistiquement significatif (p < 0,05).
• Si l’IC du rapport de deux proportions n’inclut pas 1 (l’hypothèse nulle), alors le résultat doit être
statistiquement significatif (p < 0,05).
• Si on compare un ensemble de pourcentages à la valeur hypothétique 100 et que l’IC95 de la
moyenne des pourcentages n’inclut pas 100, alors la différence doit être statistiquement
significative (p < 0,05).

II. 4 EXEMPLES AVEC DES IC, DES P-VALEURS ET DES CONCLUSIONS CONCERNANT LA SIGNIFICATION
STATISTIQUE
Exemple 1
Les résultats sont mieux résumés en calculant le rapport des deux proportions et l’IC correspondant.

Exemple 2
Le test statistique est aussi appelé test t pour échantillons indépendants.
L’étendue de l’IC dépend de la taille des échantillons, de la variabilité des deux échantillons et du degré de
confiance désiré.
La p-valeur dépend de la différence entre les moyennes, de l’écart-type de chaque groupe et de la taille
des échantillons.

Exemple 3
Risque relatif de 1 : pas d’association.

Exemple 4
L’IC inclut le zéro, donc nous pouvons dire, avec un niveau de confiance à 95%, qu’il n’y a pas d’évidence
que le contrôle strict était bénéfique. Quand un test inclut le zéro, on dit qu’il n’y a pas de différence.

ð Si l’IC95 inclut la valeur qui définit l’hypothèse nulle, nous pouvons conclure que la p-valeur est
supérieure à 0,05. Si l’IC95 n’atteint pas la valeur qui définit l’hypothèse nulle, nous pouvons
conclure que la p-valeur est inférieure à 0,05. Donc, si l’IC95 atteint tout juste la valeur qui définit
l’hypothèse nulle, alors la p-valeur doit être égale à 0,05.

47
ð Si l’IC95 est centré sur la valeur qui définit l’hypothèse nulle, on peut conclure que le résultat
observé est égal à la valeur qui définit l’hypothèse nulle. Dans ce cas, la p-valeur bilatérale doit
être égale à 1.
ð L’IC99 inclut la valeur qui définit l’hypothèse nulle, mais la p-valeur dans le rapport est inférieure
à 0,05. Comment est-ce possible ? si l’IC99 inclut la valeur qui définit l’hypothèse nulle, nous
pouvons conclure que la p-valeur est supérieure à 0,01. Mais comme la p-valeur dans le rapport
est inférieure à 0,05, nous pouvons conclure que la p-valeur doit se trouver entre 0,01 et 0,05.
ð L’IC99 inclut la valeur qui définit l’hypothèse nulle, mais la p-valeur mentionnée est inférieure à
0,01. Comment est-ce possible ? Cela est incohérent.
ð Dans beaucoup de cas, connaitre la p-valeur et la conclusion au sujet de la signification statistique
n’apporte réellement rien de plus à la compréhension des données. Au contraire. Des conclusions
au sujet de la signification statistique aboutissent souvent à diminuer la réflexion attentive sur la
taille de l’effet.

Chapitre 18 : l’interprétation d’un résultat statistiquement significatif

I. 7 FACONS D’EXPLIQUER LES RESULTATS « STATISTIQUEMENT SIGNIFICATIFS


1. Effet considérable 2. Effet minime
Une faible p-valeur avec un effet faible peut survenir lors d’une combinaison d’une taille d’échantillon
grande jointe à une faible variabilité. Ou encore, si les mesures du groupe traité sont légèrement plus
hautes que leur vraie moyenne et si les mesures du groupe témoin sont légèrement plus basses que leur
vraie moyenne.
3. Le résultat est un faux positif (erreur de type I, fausse découverte)
Erreur de type I = faux positif = fausse découverte
Quand on choisit le seuil habituel de signification 0,05, beaucoup s’attendent à une erreur de type I dans
5% des cas. Ce qui est faux.
4. Erreur de type S
La conclusion est inversée. Une erreur de type S parce que le signe du réel effet global est opposé à ce qu’il
nous a été donné d’observer dans une seule expérience. On les appelle aussi erreurs de type III.
5. Le plan expérimental est médiocre
6. Les résultats ne peuvent pas être interprétés à cause de comparaisons multiples ad hoc
7. Les résultats ne peuvent pas être interprétés à cause d’une taille d’échantillon dynamique Les p-
valeurs de peuvent être interprétées à leur valeur nominale que quand la taille de l’échantillon, le dispositif
expérimental et toutes les données et analyses ont été décidées à l’avance. Sinon, c’est du ppiratage.

Mot de la fin : quand une p-valeur est petite, il faut envisager toutes les possibilités.

II. A QUELLE FREQUENCE LES ERREURS DE TYPE I ARRIVENT-ELLES ?


Les erreurs de types I, ou fausses découvertes, sont des faux positifs. On commet une erreur de type I si
l’hypothèse nulle est vraie en réalité et que la faible valeur de p est simplement due au caractère aléatoire
des tirages.

Le seuil de signification répond aux deux questions équivalentes suivantes :


• Si l’hypothèse nulle est vraie, quelle est la probabilité qu’une expérience particulière récolte des
données qui engendrent une p-valeur assez basse pour rejeter l’hypothèse nulle ?
48
• Parmi toutes les expériences que nous pourrions mener quand l’hypothèse nulle est réellement
vraie, quelle proportion nous mènera à une conclusion que les résultats sont statistiquement
significatifs ?

La probabilité de faux positifs, aussi appelée taux de fausses découverte (TFD) est la réponse aux questions
suivantes :
• Si un résultat est statistiquement significatif, quelle est la probabilité que l’hypothèse nulle soit
réellement vraie ?
• Parmi toutes les expérimentations qui obtiennent une conclusion statistiquement significative,
quelle est la fraction de faux positifs (erreurs de type I) ?

Le TFD ne concerne que les analyses qui rejettent l’hypothèse nulle.


Le seuil de signification ne concerne que les analyses pour lesquelles l’hypothèse nulle est vraie.
Comme les valeurs désignées par B et C ont peu de chances d’être égales, le TFD n’est pas égal au seuil de
signification. C’est normal puisque ces deux grandeurs répondent à des questions différentes.

III. LA PROBABILITE A PRIORI INFLUENCE LE TFD (UN PEU DE BAYES)


La valeur du TFD dépend, en partie, du choix du seuil de signification et de la puissance. Mais il dépend
aussi du contexte de l’expérience.

Exemple 1 : probabilité a priori = 0%


La probabilité a priori qu’il y ait une véritable différence entre les populations est nulle. Si une des
comparaisons aboutit à une p-valeur petite, nous savons que nous avons commis une erreur de type I. Si
une variable clinique importante est fort différente dans les deux groupes choisis au hasard avant tout
traitement ou intervention, il sera impossible d’interpréter les résultats de l’étude.
Cela a donc du sens de comparer les groupes échantillonnés avant traitement et de se demander si les
différences sur des variables pertinentes avant traitement sont assez grandes pour avoir de l’importance.

Exemple 2 : probabilité a priori = 1%


Même quand nous obtenons une p-valeur inférieure à 0,05, il y a une forte chance que les résultats soient
des faux positifs. Cela ne vaut pas la peine de faire ce genre d’expérience à moins de prendre une valeur
beaucoup plus stricte pour α (0,1% au lieu de 5%).

Exemple 5 : probabilité a priori = 100%


Un faux positif (erreur de type I) est impossible, parce que nous testons à répétition un médicament dont
l’effet est connu. Le TFD est égal à 0%.

Le TFD, quand la p-valeur est tout juste plus petite que 0,05
Un résultat est qualifié de « découverte » quand la p-valeur est inférieure à 0,05. Les conclusions basées
sur des p-valeurs vraiment petites sont moins susceptibles d’être des faux positifs que des conclusions
basées sur un p = 0,049. Les valeurs du TFD sont beaucoup plus grandes que lorsque nous définissons une
découverte comme étant celle pour laquelle toutes les p-valeurs sont plus petites que 0,05.

49
La probabilité a priori est de 50%. Si, dans ce cas, nous observons une p-valeur à peine plus petite que 0,05,
le TFD est de 27%. Si la probabilité a priori est de seulement 10%, alors le TFD est de 78%. Ces TFD sont
bien plus grands que les 5% attendus par beaucoup de gens.
Une p-valeur à peine plus petite que 0,05 fournit une bien faible évidence contre l’hypothèse nulle.

Le TFD est encore plus grand quand la puissance est basse


Si nous avons un contexte scientifique avec une faible probabilité a priori et un dispositif expérimental
avec une faible puissance, la plupart des résultats « statistiquement significatifs » seront des faux positifs.

Que faire si on ne peut pas utiliser la probabilité a priori ?


1. Calculer la p-valeur pour une expérimentation ou une étude déterminée.
2. Fixer la puissance de ce dispositif expérimental. On choisit par exemple 80%.
3. Choisir la valeur TFD la plus élevée que nous accepterions. Par exemple 5%.
4. Calculer la probabilité a priori nécessaire pour avoir le TFD souhaité avec la p-valeur et la puissance
réelles.

IV. ANALYSE BAYESIENNE


L’idée majeure de l’analyse bayésienne est d’analyser les données en tenant compte des probabilités a
priori. L’utilisation de cette inférence bayésienne n’est pas sujette à controverse lorsque les probabilités a
priori sont connues avec précision. La probabilité a priori peut n’être qu’une simple impression subjective.
Ces impressions peuvent être exprimées par des nombres, qui sont ensuite traités comme des probabilités
a priori. Naturellement, le résultat des calculs (les TFD) ne sont pas plus précis que ne le sont les
estimations des probabilités a priori.
Une analyse bayésienne complète tiendrait compte de plusieurs tailles d’effets possibles et pas seulement
de deux possibilités.

V. APPLICATION INFORMELLE DE L’APPROCHE BAYESIENNE


L’interprétation d’un résultat statistiquement significatif dépend de ce que nous connaissons avant de
collecter les données – c’est-à-dire la probabilité a priori.
Voici 3 scénarios d’interprétation d’un résultat statistiquement significatif tenant compte de la probabilité
a priori (voir livre p.174).

VI. RELATION ENTRE LA TAILLE DE L’ECHANTILLON ET LES P-VALEURS


Une p-valeur mesure la probabilité d’observer une différence ou association aussi grande (ou plus grande)
que celle réellement observée si l’hypothèse nulle était vraie. La relation entre la p-valeur et la taille de
l’effet observé dépend de la taille de l’échantillon. La proportion dans le groupe traité a été choisie de
façon que les p-valeurs dans chaque groupe soient environ les mêmes.
Avec des échantillons de grande taille, même des effets minuscules produisent de petites p-valeurs. En
revanche, avec des tailles réduites, il faut un grand effet pour produire une petite p-valeur.

Il est donc essentiel de regarder au-delà de la p-valeur.

VII. ERREURS FREQUENTES


1. Croire qu’un résultat « statistiquement significatif » prouve que l’effet est réel.

50
2. Croire que si une différence est « statistiquement significative », elle doit avoir un impact
physiologiquement ou cliniquement important.
3. Se poser la question de le probabilité d’une erreur de type I sans aucune autre précision.
4. Penser que le TFD est égal au seuil de signification.
5. Ne pas se rendre compte que le TFD dépend du contexte scientifique.
6. Penser qu’une p-valeur tout juste inférieure à 0,05 fournit une nette évidence contre l’hypothèse
nulle.
7. Se focaliser sur une seule p-valeur.

ð Il ne suffit pas de déterminer si un résultat est ou n’est pas SS (statistiquement significatif) ; il


faut réfléchir plus loin.
ð On arrive à la conclusion qu’un effet est SS lorsque la p-valeur est inférieure à 0,05. Avec des
grands échantillons, cela peut arriver même quand l’effet est minime et insignifiant. La faible
pvaleur nous dit que l’effet ne se présenterait pas souvent pas hasard, mais ne dit pas si l’effet
est suffisamment grand pour s’en préoccuper.
ð Quand un effet est-il suffisamment grand pour s’en préoccuper pour qu’il soit pour qu’il soit
scientifiquement significatif ? Cela dépend de ce que nous mesurons et de la raison pour laquelle
nous le mesurons. Seule une personne compétente dans ce domaine peut y répondre.
ð Le contexte de l’expérimentation (probabilité a priori) joue un rôle pour décider si un résultat
est SS seulement si nous tenons compte de la probabilité a priori en décidant la valeur de alpha.
Une fois alpha choisi, décider d’appeler le résultat SS dépend uniquement de la p-valeur et non
du contexte de l’expérimentation.
ð La probabilité de faux positif et le risque de faux positif sont la même chose. Le taux de fausse
découverte est très semblable, mais est généralement utilisé dans le contexte de comparaisons
multiples et non pour interpréter une seule p-valeur.
ð Le contexte de l’expérimentation joue un rôle dans le calcul du TFD. ð Le choix d’une valeur
alpha influence la valeur calculée du TFD. ð On ne peut pas être sûr qu’un effet est réel ; cela
dépend de la situation, de la probabilité a priori.
ð Le complément de la probabilité de faux positif est la valeur qui répond à la question : si un
résultat est SS, quelle est la probabilité que ce soit un vrai positif ? On appelle ce complément la
probabilité a posteriori, ou valeur prédictive positive. Elle est l’opposé de la probabilité a priori
et indique une probabilité calculée après avoir recueilli des informations. Elle est égale à 1 –
probabilité de faux positif (fraction), ou 100 – probabilité de faux positif (%).

Chapitre 19 : l’interprétation d’un résultat statistiquement non significatif

SNS signifie seulement que la p-valeur calculée est supérieure à une seuil prédéfini. Donc, une différence
aussi grande que celle observée ne serait pas rare, à cause de l’échantillonnage aléatoire, si l’hypothèse
nulle était vraie.

I. 5 FACONS D’EXPLIQUER DES RESULTATS « STATISTIQUEMENT SIGNIFICATIFS »


1. Pas d’effet sur l’objet étudié
2. Effet minime
3. Erreur de type II
Quelle est la probabilité de faire cette erreur de type II ? cela dépend de la taille réelle ou supposée de la
différence, de la taille de l’échantillon et de la variabilité expérimentale.
51
4. Le dispositif expérimental était défectueux
5. Les résultats ne peuvent pas être interprétés à cause d’une taille d’échantillon « dynamique »

II. « NON SIGNIFICATIVEMENT DIFFERENT » NE SIGNIFIE PAS « PAS DE DIFFERENCE » Une p-valeur
élevée signifie qu’une différence aussi grande que celle observée serait un résultat d’échantillonnage
aléatoire qui se produirait fréquemment. Mais cela ne signifie pas nécessairement que l’hypothèse nulle
d’absence de différence est vraie ou que la différence observée est sans aucun doute le résultat de
l’échantillonnage aléatoire.
Une p-valeur élevée ne prouve pas l’hypothèse nulle. Décider de ne pas rejeter l’hypothèse nulle, ce n’est
pas la même chose que de croire que l’hypothèse que l’hypothèse nulle est sûrement vraie.

Exemple 2
Les statistiques ne peuvent aider à trancher entre plusieurs tentatives d’interprétations. Le choix dépend
de la façon dont nous interprétons un risque relatif.
Il faut prendre en considération l’ensemble des évènements lorsqu’on évalue les résultats.

III. COMMENT OBTENIR DES IC PLUS ETROITS


Il est important d’interpréter l’IC dans le contexte scientifique de l’expérience. Des personnes différentes
auront des opinions différentes et interpréteront un résultat non significatif différemment.
Il serait possible de rétrécir les IC en améliorant la méthodologie et de cette manière réduire l’écart-type.
Mais dans la plupart des cas, c’est en augmentant la taille de l’échantillon qu’on peut réduire la largeur de
l’IC lorsqu’on répète une étude. En multipliant la taille de l’échantillon par un facteur 4, on s’attend à
réduire d’un facteur 2 la largeur de l’IC. Plus généralement, la largeur d’un IC est inversement
proportionnelle à la racine carrée de la taille de l’échantillon.

IV. QUE SE PASSE-T-IL SI LA P-VALEUR EST VRAIMENT ELEVEE ?


L’écart avec le modèle théorique n’est pas statistiquement significatif.

ð Même si la p-valeur est > 0,05, on ne peut pas conclure que nous avons réfuté l’hypothèse nulle.
ð La probabilité d’une erreur de type II dépend du seuil de signification que nous avons choisi, de la
taille de l’échantillon et de la taille de l’effet réel.
ð Pour diviser par 4 l’étendue d’un IC, il faut augmenter la taille de l’échantillon d’un facteur 16.
ð Une étude peut être cohérente à la fois avec l’existence d’un effet et sa non-existence. Les
résultats brouillés sont non concluants.

Chapitre 20 : la puissance statistique

La puissance répond à la question suivante : si l’effet réel est de taille spécifiée et l’expérience répétée de
nombreuses fois, quelle proportion des résultats sera statistiquement significative ?
Le concept de puissance peut être utile au moment de décider de la taille de l’échantillon à utiliser et quand
on interprète des résultats qui ne sont pas statistiquement significatifs.

52
I. QU’EST-CE QUE LA PUISSANCE ?
Si l’hypothèse nulle est fausse et que le traitement a réellement un impact sur le résultat, les données
peuvent conduire à la conclusion que l’effet n’est pas statistiquement significatif.
La puissance dépend de 4 variables :
• La taille de l’échantillon
• L’ampleur de la dispersion (si on compare des valeurs d’une variable continue) ou la proportion
initiale (si on compare des proportions)
• La taille de l’effet que l’on suppose exister
• La seuil de signification choisi

La puissance est la fraction des expériences que l’on peut s’attendre à voir aboutir à un résultat
statistiquement significatif. Elle s’exprime plutôt en % qu’en fraction.
En supposant que l’hypothèse nulle n’est pas vraie, la puissance est donc la fraction des expériences qui
mèneront à une conclusion statistiquement significative. Elle est égale à C/C+D.

Décision : rejet de l’HN Décision : non rejet de l’HN TOTAL

L’hypothèse nulle est vraie A B A+B

L’hypothèse nulle est fausse C D C+D

II. DISTINGUER LA PUISSANCE DE β ET DU TFD


β est par définition égal au complément de la puissance de 1, càd 1 – puissance. Notons la similitude :
• Si l’hypothèse nulle est vraie, α est la probabilité de prendre la mauvaise décision (rejeter l’HN). α
vaut A/A+B.
• Si l’hypothèse nulle est fausse, β est la probabilité de prendre la mauvaise décision (ne pas rejeter
l’HN). β vaut D/C+D.

Le TFD et la puissance statistique répondent à des questions différentes. De ce fait, ils ne sont pas égaux.

III. UNE ANALOGIE POUR COMPRENDRE LA PUISSANCE STATISTIQUE


Pour estimer la probabilité, il faut connaitre 3 choses :
• Une expérience avec un échantillon de grande taille a plus de puissance de détecter un effet
qu’avec un échantillon de plus petite taille.
• Une expérience a plus de puissance pour détecter un grand effet qu’un petit effet.
• Une expérience a plus de puissance lorsque les données sont très resserrées (petite variation) que
lorsque les données sont plus éclatées.

Puissance élevée : échantillon de grande taille, effet important recherché et données peu dispersées. Il y
a de fortes chances qu’on aurait obtenu un résultat statistiquement significatif.
Puissance faible : échantillon de petite taille, petit effet recherché et données très dispersées. Il y a de
fortes chances d’obtenir un résultat statistiquement non significatif.

53
IV. LA PUISSANCE DE DEUX EXEMPLES ETUDIES
Si réellement il n’y a pas de différence entre les moyennes des populations, il y a 5% de chances d’obtenir
un résultat SS. S’il y a une différence entre les moyennes des populations, la puissance de l’étude dépend
de la taille de cette différence. Au cas où la différence est très petite, la puissance est faible. Au cas où la
différence est grande, la puissance s’approche de 100%.

Si le risque relatif est réellement de 1 (pas d’effet), il y a 5% de chances d’obtenir un résultat


statistiquement significatif. La courbe correspond donc à une puissance de 5% pour un risque relatif de 1.
Les puissances seront grandes lorsque l’effet sera important (risque plus faible).

L’allure générale des courbes est universelle. Ce qui varie d’une étude à l’autre c’est l’endroit où la courbe
est horizontale.

V. QUAND EST-IL RAISONNABLE DE CALCULER LA PUISSANCE ?


Deux situations justifient de calculer la puissance statistique :
• Quand il faut décider du nombre de sujets.
• Quand il faut évaluer ou critiquer des études achevées.

VI. ERREURS FREQUENTES


1. Croire qu’un plan d’étude n’a qu’une seule puissance
La puissance peut être calculée pour chaque taille d’effet. Il y a donc une étendue de valeurs de la
puissance. L’effet mesuré peut être une différence de deux moyennes, un risque relatif…

2. Croire qu’il est utile de calculer la puissance observée (puissance post hoc)
Le résultat de ce calcul est appelé la puissance observée, et la procédure est une analyse a posteriori de
la puissance ou analyse rétrospective de la puissance.
Si l’étude arrive à la conclusion que la différence n’est pas SS, alors sa puissance est très basse.
La puissance observée peut être calculée aussi bien à partir de la p-valeur observée que de la valeur du
seuil α choisi.

Lorsque p est égal à 0,05, la puissance vaut 50%.

ð Si P vaut 0,05 dans une certaine expérience, c’est notre meilleure estimation de ce qu’elle vaudra
dans des expériences répétées. La moitié des p-valeurs sera supérieure, et l’autre moitié
inférieure. Comme seulement cette dernière moitié conduira à la conclusion que le résultat est
statistiquement significatif, la puissance vaut 50%.
ð Les données requises par un programme qui calcule la puissance sont α, l’écart-type, la taille de
l’échantillon prévu et la mesure de la différence que nous souhaitons détecter.
ð Toutes les études auront une faible puissance pour détecter de petits effets et une grande
puissance pour détecter des effets énormes. Il est impossible de calculer la puissance sans spécifier
la taille de l’effet que nous cherchons.
ð La plupart des calculs de taille d’échantillon sont effectués pour une puissance de 80%. Cette
valeur n’a rien de spécial sinon l’habitude.
ð Habituellement, on peut faire tous les calculs de taille et de puissance avec des équations
classiques. Dans certains cas, il est toutefois nécessaire de lancer des simulations par ordinateur
pour calculer la puissance d’un projet expérimental particulier.

54
ð Les analyses de puissance fixent habituellement α=0,05 et β=0,20. Ces valeurs traditionnelles ont
pour conséquence que nous acceptons que l’erreur de type I a 4x plus de chances de se produire
que l’erreur de type II (car 0,20/0,05 = 4). Ce rapport est-il justifié ? Non, puisque les coûts relatifs
des erreurs de type I et II dépendent du contexte scientifique, il en va de même pour les choix de
α et β.

Chapitre 21 : test d’équivalence ou de non infériorité

Le but est de savoir si les effets d’un nouveau traitement sont équivalents (ou non inférieurs) à ceux d’un
traitement classique.

I. L’EQUIVALENCE DOIT ÊTRE DEFINIE SCIENTIFIQUEMENT, PAS STATISTIQUEMENT


Cela n’a pas de sens de se demander si les deux vont donner exactement le même résultat. A propos de
l’équivalence, la question est de savoir si les résultats sont suffisamment proches pour être cliniquement
ou scientifiquement non différenciables.
Suffisamment proche doit être défini par un intervalle d’effets de traitements considérés comme
scientifiquement ou cliniquement insignifiants.
Cet intervalle est appelé zone d’équivalence, marge d’équivalence ou région d’équivalence utilisable.

Deux formulations de médicaments sont équivalentes lorsque l’intervalle de confiance à 90% du rapport
de leur concentration plasmatique maximale est tout entier compris entre 0,80 et 1,25. Cette définition
est basée sur la connaissance clinique de l’action du médicament. Dans d’autres circonstances,
l’équivalence pourrait être définie autrement.

La zone d’équivalence est symétrique autour de 100%. Il est tout à fait arbitraire de calculer le rapport des
concentrations, soit en divisant la concentration maximale de la nouvelle formulation par celle de la
formulation classique, soit en divisant la concentration maximale de la formulation classique par celle de
la nouvelle formulation. L’inverse de 80% est alors 125%. Pratiquement, cette zone d’équivalence est donc
symétrique. Elle est également symétrique sur un axe muni d’une échelle logarithmique. Les zones
d’équivalence peuvent être définies de diverses façons et peuvent ne pas être symétriques même sans
faire appel aux « inverses ».

II. SI LA MOYENNE EST A L’INTERIEUR DE LA ZONE D’EQUIVALENCE


Le fait que la valeur moyenne soit dans la zone n’est pas une preuve d’équivalence. Il faut que ce soit
l’intervalle tout entier qui se trouve dans la zone.
Si l’intervalle se trouve partiellement en dehors de la zone, alors on ne peut pas tirer de conclusion à partir
de ces données.

III. SI LA MOYENNE EST EN DEHORS DE LA ZONE D’EQUIVALENCE


Si l’intervalle se trouve partiellement dans la zone, alors on ne peut pas tirer de conclusion à partir de ces
données.
SI l’intervalle se trouve complètement en dehors de la zone, alors le médicament n’est pas équivalent au
traitement classique.

55
IV. APPLIQUER LA DEMARCHE HABITUELLE DES TESTS D’HYPOTHESE POUR TESTER
L’EQUIVALENCE
Il est possible d’appliquer les principes du test d’hypothèse pour tester l’équivalence, mais c’est compliqué.
La démarche consiste à poser deux hypothèses nulles distinctes et à définir la signification statistique à
partir de deux tests unilatéraux. Les résultats indiqueront que les deux médicaments sont équivalents
lorsque les conditions reprises ci-dessous sont toutes deux remplies :
• La valeur moyenne du rapport est plus grande que 0,80 (limite inférieure) et cette différence
positive est SS, avec une p-valeur unilatérale inférieure à 0,05. L’hypothèse nulle unilatérale pour
ce test est que le rapport moyen est inférieur à 0,80.
• La valeur moyenne du rapport est plus petite que 1,25 (limite supérieure) et cette différence
négative est SS, avec une p-valeur unilatérale inférieure à 0,05. L’hypothèse nulle unilatérale pour
ce test est que le rapport est supérieur à 1,25.

V. TEST DE NON INFERIORITE


Les essais de non infériorité essaient de montrer qu’un nouveau traitement n’est pas moins bon que le
traitement classique. Pour montrer cette non infériorité, l’intervalle de confiance doit se situer à droite de
la limite inférieure de la zone d’équivalence.

Hypothèse nulle Hypothèse alternative (CCL si p-valeur


est petite)
Test de différence Pas de différence entre des traitements Différence non nulle
Test d’équivalence Différence suffisamment grande pour Soit pas de différence, soit une
avoir de l’importance différence trop petite pour être
importante
Test de non infériorité Le traitement expérimenté est pire que Le traitement expérimenté est soit
le traitement classique équivalent au traitement classique, soit
meilleur mais il n’est pas moins bon

VI. ERREURS FREQUENTES


1. Utiliser l’approche du test d’hypothèse pour tester l’équivalence
On pourrait penser que la p-valeur devrait donner de l’information, mais cette approche est inefficace.

2. Tester l’équivalence sans être certain que le traitement classique est efficace
Nous devons être certains à 100% que le traitement classique est efficace. La conclusion qu’un traitement
est équivalent (ou non inférieur) au traitement classique n’est utile que si nous sommes absolument
certains que le traitement classique est réellement plus efficace qu’un placebo.

ð La p-valeur d’un test statistique standard et donc la conclusion qu’un effet est SS est basée
entièrement sur l’analyse de données. Une conclusion sur l’équivalence doit tenir compte du
contexte. Ce qui est équivalent pour une variable dans une situation données n’est pas équivalent
pour une autre variable dans un autre contexte. C’est pour cela que la conclusion d’une différence
statistiquement non significative n’est pas suffisante pour prouver l’équivalence.
ð Il est possible qu’une différence soit SS mais que les données montrent l’équivalence. La
conclusion que la différence est SS signifie simplement que les données nous ont convaincu que la
vraie différence n’est pas nulle. Elles ne nous disent pas que la différence est suffisamment grande
pour s’en soucier. Il est possible que l’intervalle de confiance englobe des valeurs que nous
considérons comme équivalentes.
56
ð Les tests d’équivalence utilisent des intervalles de confiance à 90%, mais les conclusions sont une
confiance à 95%.
ð Malgré ce qu’il en semble à première vue, la double négation n’est pas du tout embarrassante. En
testant la non infériorité, nous posons la question de savoir si un médicament n’est pas moins bon
qu’un médicament classique. Nous conclurons que le médicament A n’est pas moins bon que le
médicament B quand les deux médicaments sont équivalents ou que le médicament A est meilleur.

Chapitre 27 : comparaison de proportions

I. EXEMPLE DE L’APIXABAN POUR LE TRAITEMENT DE LA THROMBOEMBOLIE


Étude prospective randomisée et en double aveugle :
• Randomisée : la désignation des sujets qui reçoivent un médicament ou un placebo a été faite
aléatoirement.
• Double aveugle : ni le patient ni le chercheur e savaient qui recevait le médicament ou le placebo.
• Prospective : les sujets sont suivis au fil du temps. Cela s’oppose aux études rétrospectives, qui
remontent dans le temps.

Chaque élément du tableau est le nombre effectif de patients qui ont reçu tel traitement et ont eu tel
résultat. Ce tableau est appelé tableau de contingence. Il montre comment le résultat est lié au traitement.
Il donne toujours le nombre exact de personnes (ou toute autre unité de l’expérience) avec un certain
traitement et un certain résultat. Les tableaux de pourcentages ou de taux normalisés ne sont pas des
tableaux de contingence.

Intervalle de confiance
Les intervalles de confiance montrent clairement le résultat.

Risque attribuable
Il calcule la différence entre les deux proportions (exprimé en %). Cette différence est appelée risque
attribuable. Ces calculs utilisent donc la différence entre les taux d’incidence (soustraction), et pas la
différence relative (division).

Nombre nécessaire à traiter


Il s’agit de rapporter l’inverse de la différence et d’appeler cet inverse le nombre nécessaire à traiter (NNT).
Cette valeur indique combien de patients il faudrait traiter avec une certaine forme de médicaments pour
réduire de 1 le nombre attendu de cas pour un évènement donné.
L’intervalle de confiance du NNT est obtenu en prenant l’inverse de chaque extrémité de l’IC du risque
attribuable.
Il y a deux avantages à rapporter les résultats sous forme de NNT :
1. Il dispense de réfléchir sur de petites fractions.
2. Il place les résultats dans un contexte cliniquement pertinent.
Exprimer les résultats sous forme de NNT facilite la réflexion sur le compromis de la pertinence de traiter
13 patients qui n’en tireront pas avantage pour en aider 1 à tirer avantage.
Lorsque le traitement ou l’exposition cause des dommages, le terme NNT ne convient pas et cette valeur
est renommée nombre nécessaire à nuire.

57
Risque relatif
Le risque relatif est le rapport de deux proportions.
Il ne faut pas confondre tous les pourcentages ; le médicament abaisse le risque absolu de 7,1% ( la
différence entre les taux de récidive de chacun) et réduit le risque relatif de 81% (100% - rapports des
risques avec le traitement efficace au numérateur).
Le terme risque convient particulièrement bien dans un exemple précis parce qu’il porte sur la récidive
d’une maladie. Dans d’autres situations, un évènement alternatif peut ne pas être pire que l’autre et le
risque est alors appelé la probabilité relative, ou rapport relatif.

P-valeur
La p-valeur dépend de la taille des échantillons et de l’écart entre le risque relatif et 1. Selon la majorité, le
test exact de Fisher est le meilleur. Comme avec de grands échantillons le test de Fisher est
mathématiquement lourd à réaliser, c’est le test Khi-carré qui le remplace. Pour de grands échantillons,
les deux tests donnent des p-valeurs presque identiques.

II. HYPOTHESES
1. Échantillons aléatoires ou représentatifs
Les patients de l’exemple du livre n’ont certainement pas été sélectionnés aléatoirement, mais il est
raisonnable de penser qu’ils sont représentatifs des personnes adultes terminant une thérapie après une
thromboembolie veineuse.

2. Observations indépendantes
3. Pas de différence entre les deux groupes à l’exception du traitement

III. COMPARER DES PROPORTIONS OBSERVEES ET ATTENDUES


Le test du khi-carré permet de comparer des données réelles avec les prédictions du modèle de Mendel.
La différence entre les distributions observées et attendues est-elle supérieure à ce qui est dû au hasard ?
le test qui répond à cette question s’appelle le test du khi-carré.
Il calcule une p-valeur qui répond à la question suivante : « si la théorie qui a produit la distribution est
correcte, quelle est la probabilité qu’un échantillonnage aléatoire produise un écart par rapport à cette
distribution qui soit aussi grand, ou davantage, que celui observé dans l’expérience ? ».
Avec une p-valeur élevée, il n’y a aucun motif pour douter que les données suivent la distribution attendue.
Une grande p-valeur ne prouve pas que la théorie est correcte, mais seulement que les écarts par rapport
à cette théorie sont petits et cohérents avec des variations aléatoires.

Comment fonctionne le test χ2 d’ajustement ?


Il est primordial d’encoder les valeurs observées, qui sont les nombres de sujets dans chaque catégorie. Il
ne faut pas utiliser de pourcentages ou d’autres valeurs normalisées. Les valeurs attendues sont le nombre
de sujets que nous nous attendons à voir dans chaque catégorie. Ces valeurs ne doivent pas
nécessairement être des entiers. Chaque valeur attendue est le nombre moyen que nous attendrions dans
cette catégorie si l’expérience était répétée plusieurs fois. Dans chaque expérience, la valeur observée doit
être un entier. Mais la valeur attendue, moyenne de plusieurs expériences, ne sera sans doute pas un
nombre entier. La somme de toutes les valeurs observées doit être égale à la somme de toutes les valeurs
attendues.
Ce test quantifie donc la différence entre les distributions observées et attendues. Pour chaque catégorie,
il prend la différence entre la valeur observée et la valeur attendue, il l’élève au carré et il divise par la
valeur attendue. Puis, il additionne les résultats.

58
((34%#5é%7",,%8-&%)-
;E = Σ
",,%8-&%

La relation entre X2 et la p-valeur dépend du nombre de catégories. Le nombre de degrés de liberté est ici
le nombre de catégories – 1. Connaissant X2 et le nombre de degrés de liberté, la p-valeur peut être
calculée par un programme.
Le test est basé sur certains approximations qui sont raisonnablement bonnes lorsque toutes les valeurs
attendues sont grandes. Si une des valeurs attendues est inférieure à 5, les résultats sont suspects. Cette
limite est moins importante s’il y a beaucoup de catégories et importe surtout lorsqu’il y a seulement
deux catégories (auquel cas les valeurs attendues devraient être au moins égales à 10).

Test binomial
Le test précédent est une approximation. Lorsqu’il n’y a que deux catégories, le test binomial calcule la p-
valeur exacte, sans aucune approximation ni souci sur la taille de l’échantillon. Pour l’appliquer, il faut
utiliser le nombre total d’observations, le nombre d’un des deux résultats observés et le nombre attendu
(sous l’hypothèse nulle) d’avoir ce résultat.

IV. ERREURS FREQUENTES


1. Confondre les deux utilisations de khi-carré
Il permet de comparer deux proportions, ou de comparer une distribution observée avec une distribution
attendue par la théorie.

2. Ne pas introduire les chiffres réels dans la table de contingence


Il est primordial d’encoder les chiffres réels du comptage des observations.

3. Analyser les données observées et attendues avec un programme destiné à analyser une table de
contingence
ð S’il y a plus de trois groupes/résultats possibles, il ne sera pas possible de calculer un risque précis
ou un risque relatif, mais il sera possible de calculer une p-valeur. Le test de Fisher est limité aux
tables avec deux lignes et deux colonnes, mais le test khi-carré peut analyser une table de
contingence de n’importe quelle dimension. Certains programmes offrent des tests exacts même
pour cette situation.
ð S’il y a trois/davantage lignes/colonnes, l’ordre dans lequel elles sont placées n’a pas
d’importance. Le test khi-carré usuel ne prend pas en considération l’ordre des lignes et des
colonnes. Si la table a deux colonnes et trois lignes, pour lesquelles l’ordre est significatif, le test
khi-carré pour tendance répond à la question : y a-t-il une tendance significative entre les nombres
des lignes et la distribution des résultats observés ?
ð Correction de Yates : le programme pour analyser des tables de contingence pourrait nous
proposer cette correction. Il y a en effet deux façons de calculer le khi-carré. La correction de Yates
a pour effet d’augmenter la p-valeur pour compenser le biais du test khi-carré habituel, mais elle
est excessive.
ð On dispose d’analyses particulières pour des données appariées où chaque sujet est mesuré avant
et après une intervention ; c’est le test de McNemar.
ð Il est naturellement préférable d’exprimer les résultats de diverses façons. Si nous devions
synthétiser les résultats par une seule valeur, le NNT est souvent la meilleure.

59
ð Un NNT de 14 signifie que pendant la durée de l’étude, nous devons traiter 14 patients pour
empêcher une thromboembolie.
ð Si personne dans le groupe témoin n’a donné un résultat, le risque relatif sera nul. Cependant, le
risque relatif ne peut pas être nul.
ð La valeur maximale possible du risque relatif dépend du risque dans le groupe témoin. Par
exemple, si le risque dans le groupe témoin est de 25%, le risque relatif ne peut pas être plus grand
que 4 car cela rendrait le risque dans le groupe traité plus grand que 100% (risque maximum
possible).

Chapitre 29 : comparaison de courbes de survie

I. HYPOTHESES LORSQU’ON COMPARE DES COURBES DE SURVIE


Cette liste reprend les hypothèses qui doivent être satisfaites pour pouvoir interpréter les analyses de
survie.
1. Échantillon aléatoire (ou représentatif)
2. Sujets indépendants
3. Critères d’inclusion stables
4. Définition stable de l’issue
5. Définition claire du point de départ
6. Le moment de censure n’est pas relié à la survie
7. La survie moyenne ne change pas durant l’étude

On ajoute également les hypothèses suivantes :

8. Les groupes de traitements ont été définis avant le début de la collecte des données Il faut
que les groupes soient définis avant que ne commence la collecte des données.
Comparer la survie de répondeurs avec des non-répondeurs n’est pas valide pour deux raison :
a) Un patient ne peut pas être défini comme « répondeur », à moins qu’il ne survive assez longtemps
pour qu’on puisse mesurer la taille de la tumeur. En d’autres mots, la survie a influencé le choix
du groupe dans lequel le patient a été versé. C’est pourquoi on ne peut rien apprendre en
comparant la survie dans les deux groupes.
b) La maladie peut être hétérogène. Les patients répondeurs peuvent avoir une forme de maladie
différente de celle des non-répondeurs.
Il font donc se médier des études qui utilisent des données collectées durant la phase expérimentale pour
former les groupes de patients ou pour ajuster les données.

9. Les groupes sont définis de façon invariable au cours de la récolte des données
Il est essentiel que les classes de diagnostic soient définies de façon stable. Changer la méthode de
diagnostic augmente de façon paradoxale la survie moyenne des deux groupes. Cela est appelé le
phénomène de Will Rogers.

10. Risques proportionnels


Le risque est défini comme la pente de la courbe de survie, une mesure de la rapidité avec laquelle les
sujets décèdent. Le rapport des risques compare deux traitements. Si le rapport des risques vaut 2, alors
le taux de décès dans un groupe est le double de celui de l’autre groupe.
60
L’hypothèse des risques proportionnels signifie que le rapport des risques est constant au cours du temps
et que toute variation est due aux fluctuations de l’échantillonnage. Une telle hypothèse serait vérifiée si,
à chaque moment, le taux de décès dans un groupe était environ égal à la moitié du taux de décès dans
l’autre groupe. Elle ne serait pas vérifiée si le taux de décès dans un groupe était beaucoup plus élevé que
dans l’autre groupe au début du suivi, mais plus bas à la fin.
Si deux courbes de survie se croisent, l’hypothèse de proportionnalité des risques instantanés n’est
vraisemblablement pas satisfaite.
L’hypothèse des risques proportionnels doit être raisonnable pour permettre d’interpréter le rapport de
risque (et son IC) et l’IC du rapport des temps médians de survie.

II. COMPARAISON DE DEUX COURBES DE SURVIE


Rapport de risque
Les deux courbes de survie peuvent être synthétisées par le rapport de risque qui est fondamentalement
le même que le risque relatif (voir livre p.288).
Si les deux courbes de survie sont identiques, le rapport de risque est égal à 1.

Rapport des temps médians de survie


Le temps médian de survie est défini comme le délai dans lequel la moitié des sujets seront décédés. La
ligne horizontale est placée à 50%. Son intersection avec chaque courbe de survie se produit au temps
médian de survie.
Il est possible de calculer un IC95 pour ce rapport des temps médians de survie. Ce calcul est basé sur
l’hypothèse de proportionnalité des risques mais aussi sur une hypothèse supplémentaire : que le risque
de décès soit le même au début et à la fin de l’étude. En d’autres mots, la courbe de survie a la même
allure qu’une courbe exponentielle décroissante.

P-valeur
Lorsqu’on compare deux courbes de survie, l’hypothèse nulle est que les courbes de survie dans les
populations sont identiques et que toute différence observée est le résultat de l’erreur aléatoire
d’échantillonnage.
Il est préférable de laisser le calcul de la p-valeur aux logiciels. La méthode du logrank, aussi appelée
méthode de Mantel-Cox (et pratiquement identique à la méthode de Mantel-Haenszel) est la plus
fréquemment utilisée.
Une autre méthode pour calculer la p-valeur est connue sous le nom de méthode de Gehan-
BreslowWilcoxon. Alors que le test du logrank attribue des pondérations égales à toutes les valeurs du
temps, cette méthode donne plus de poids aux décès qui se produisent au début du suivi. Il ne requiert
pas un rapport de risques constant, mais bien que dans un des groupes, le risque soit constamment plus
élevé que dans l’autre.

61
III. POURQUOI NE PAS SIMPLEMENT COMPARER LA MOYENNE OU LA MEDIANNE DU TEMPS DE
SURVIE OU LA SURVIE A 5 ANS ?
Pourquoi il est rarement utile de comparer le temps moyen jusqu’au décès Voici
3 raisons :
• Si quelqu’un est encore en vie au moment où nous récoltons nos données, il n’est pas possible de
calculer le temps moyen jusqu’au décès.
• Si les données d’un sujet quelconque sont censurées, il n’est pas possible de calculer le temps
moyen jusqu’au décès.
• Même si tous les sujets étaient décédés, le temps moyen jusqu’au décès ne pourrait toujours pas
avoir de sens. Il est probable que la distribution de ces valeurs ne soit pas gaussienne. Dans ce cas,
résumer les données par la moyenne pourrait ne pas donner d’information. De plus, des résultats
comme l’IC95 de la moyenne ne seront pas utilisables si la distribution est loin d’être gaussienne.

Le temps médian jusqu’au décès


Se concentrer sur un seul nombre peut induire en erreur.

Survie à 5 ans
Deux courbes peuvent avoir le même taux de survie à 5 ans mais beaucoup diverger après 5 ans.

IV. INTENTION DE TRAITER


En faisant notre comparaison, nous pourrions rencontrer des pièges. Certains patients ne reçoivent pas
réellement le traitement qui leur avait été attribué au hasard. D’autres arrêtent de suivre le protocole. Il
semble alors raisonnable d’exclure de l’analyse toutes les données des personnes qui n’ont pas eu tout le
traitement prévu. Cette approche est appelée analyse par protocole, car on analyse uniquement la survie
des sujets qui ont reçu le traitement complet selon le protocole de l’étude.
L’approche à privilégier est appelée intention de traiter. Abrégée en IDT, elle est aussi appelée analysé
comme randomisé. Avec l’IDT, les données sont analysées sur base du traitement aléatoire assigné, même
si :
• Il apparait plus tard que le patient ne correspondait pas exactement aux critères pour faire partie
de l’étude.
• Le traitement n’a pas été donné.
• La patient a arrêté le traitement, quelle qu’en soit la raison.

Le IDT s’applique donc à n’importe quelle analyse de données cliniques.

ð Le test du logrank et celui de Mantel-Haenszel sont presque identiques. Ils sont différents
uniquement dans la manière de traiter les cas de décès multiples survenus exactement au même
moment. Les résultats seront très semblables.
ð Le test de Gehan-Breslow-Wilcoxon est quant à lui différent. Cette méthode donne plus de poids
aux décès précoces, ce qui est très raisonnable. Mais les résultats peuvent être trompeurs
lorsqu’une partie importantes des patients sont censurés tôt dans le temps. En revanche, le test
du logrank donne le même poids à tous les moments. Ce test de GBW n’exige pas un rapport de
risques constant, mais exige qu’un groupe ait constamment un rapport de risque plus grand que
l’autre groupe. Naturellement, nous devrions choisir le test comme partie intégrante de notre plan
expérimental.

62
ð Lorsque deux courbes de survie se croisent, un groupe a un plus grand risque dans les premières
périodes et l’autre groupe a un plus grand risque dans les périodes ultérieures. Si les deux courbes
sont basées sur de nombreuses données et que le point de croisement est proche du milieu de
l’intervalle de temps, alors les données violent les hypothèses du test de logrank et de GBW. Nous
aurons besoin de méthodes particulières qui sont en dehors de l’objectif du cours. De plus, le
rapport de risque n’aurait pas de sens, car il serait la moyenne des mauvaises nouvelles du début
et des bonnes nouvelles de la fin. Quand les courbes de survie se croisent plus tard dans le temps,
cela peut être dû au hasard et n’avoir pas de signification particulière. Vers la fin, mois de patients
sont suivis et les deux courbes peuvent se croiser par pur effet du hasard.

Chapitre 30 : comparaison de deux moyennes : test t pour échantillons indépendants

Le test t pour échantillons indépendants compare les moyennes dans deux groupes en supposant que les
données ont été échantillonnées dans une population gaussienne.

I. INTERPRÉTATION DES RÉSULTATS D’UN TEST T POUR ÉCHANTILLONS INDÉPENDANTS


Un test t pour échantillons indépendants répond aux questions suivantes : les données diffèrent-elles ? la
différence observée est-elle juste due au hasard ?

Intervalle de confiance entre les moyennes


Un test t compare deux moyennes. Lorsqu’un intervalle n’inclut pas le 0, nous pouvons être certains à 95%
que la réponse est inférieure/supérieure à l’autre réponse.
L’étendue de l’IC dépend de trois nombres :
• Variabilité : si les données sont très dispersées, l’IC sera plus étendu. Si les données sont très
regroupées, l’IC sera plus étroit.
• Taille de l’échantillon : toutes autres choses étant égales, de plus grands échantillons aboutiront
à des IC moins étendus, et de plus petits échantillons à des IC plus larges.
• Niveau de confiance : si nous souhaitons plus de confiance, l’IC sera plus large. Si nous souhaitons
moins de confiance, l’IC sera plus étroit.

P-valeur
Si l’hypothèse nulle était vraie, quelle serait la chance d’observer, par hasard, une différence aussi grande
ou plus grande que celle observée dans cette expérience ?
La p-valeur dépend de trois nombres :
• Différence entre les moyennes : toutes autres choses étant égales, la p-valeur sera d’autant plus
petite que les moyennes sont éloignées l’une de l’autre.
• Les écarts-types : toutes autres choses étant égales, la p-valeur sera d’autant plus petite que les
données sont très regroupées.
• La taille d’échantillon : toutes autres choses étant égales, la p-valeur sera plus petite quand les
tailles d’échantillon sont plus grandes.

R2
Pour un R2 de 0,45, un peu moins de la moitié de la variation (45%) de l’ensemble des valeurs est due à la
différence entre les moyennes des groupes (but) et un peu plus de la moitié, à la variabilité au sein des
groupes.

63
Rapport t
Le rapport t tient compte de la différence entre les deux moyennes, des écarts-types et de la taille de
chaque groupe. Il n’a pas d’unité et ne donne pas beaucoup d’information.

II. HYPOTHÈSE : TEST T POUR ÉCHANTILLONS INDÉPENANTS


Le test t est basé sur une série familière d’hypothèses :
• Échantillons aléatoires (ou représentatifs)
• Observations indépendantes
• Données fiables
• Les populations répondent à une distribution gaussienne, au moins approximativement
• Les écarts-types des deux populations sont égaux, même si leurs moyennes sont différentes

III. L’HYPOTHÈSE D’ÉGALITÉ DES VARIANCES


Le test t dépend de l’hypothèse que les deux ensembles de données ont été échantillonnés dans des
populations qui ont des écarts-types identiques et donc des variances identiques. Cette hypothèse
s’appelle l’homoscédasticité.

Vérifier l’hypothèse
Rapport F : carré du rapport de l’écart-type n°1/l’écart-type n°2.
Le calcul de la p-valeur dépend des degrés de liberté du numérateur et du dénominateur du rapport F,
appelés Dln et Dld. Chaque degré de liberté est égal à la taille de l’échantillon -1.
Il ne faut pas confondre cette p-valeur, qui teste l’hypothèse nulle que les deux populations ont le même
écart-type, et la p-valeur qui teste l’hypothèse nulle que les deux populations ont la même moyenne.

Et si l’hypothèse est violée ?


Si la p-valeur du test F est petite, c’est que l’hypothèse de l’égalité des variances n’est pas satisfaite. Il y a
huit réponses possibles.
1. Ignorer le résultat du test F.
2. Mettre l’accent sur le résultat et conclure que les populations sont différentes.
3. Transformer les données pour tenter d’égaliser les variances et ensuite appliquer le test t aux
données transformées.
4. À la place du test t habituel, utiliser un test t modifié pour lequel les variances ne doivent pas être
égales.
5. Utiliser le résultat du test de comparaison des variances pour décider d’utiliser le test t usuel pour
échantillons indépendants ou le test t modifié qui autorise la non-égalité des variances.
6. Analyser les données en utilisant la régression linéaire et pondérer par l’inverse de la variabilité de
chaque groupe.
7. Utiliser le résultat du test qui compare les variances pour décider d’utiliser le test t ou le test
nonparamétrique de Mann-Whitney.
8. Utiliser notre expérience d’autres études de même type pour décider comment analyser au mieux
cet ensemble particulier de données

IV. CHEVAUCHEMENT DES BARRES D’ERREURS ET TEST T


Plus souvent, on trouve les données représentées sous forme d’un diagramme en barre présentant la
moyenne et des barres d’erreurs. Ces barres peuvent correspondre à l’écart-type ou l’ESM. Nous
n’apprenons pas grand-chose en nous demandant si deux barres d’erreurs se chevauchent ou non.

64
Barres d’erreurs de l’écart-type
Le graphique de gauche (p.299) est typique et présente uniquement une barre vers le haut.
Les deux barres d’erreur se chevauchent. On ne peut pas en tirer grand-chose car le test tient aussi compte
de la taille de l’échantillon. Si les échantillons étaient plus grands, avec les mêmes moyennes et les mêmes
écarts-types, la p-valeur serait beaucoup plus petite. Si les échantillons étaient plus petits, avec les mêmes
moyennes et les mêmes écarts-types, la p-valeur serait beaucoup plus grande.
Lorsque la différence entre deux moyennes est SS (P < 0,05), les deux barres d’erreur de l’écart-type
peuvent se chevaucher ou non. Il ne permet donc pas de conclure si la différence entre les moyennes est
SS.

Barres d’erreurs de l’ESM


Règles empiriques (comparaison de deux moyennes avec un test t pour échantillons indépendants, tailles
d’échantillons égales ou pratiquement égales)

TYPE DE BARRES D’ERREUR CONCLUSION SI ELLES SE CONCLUSION SI ELLES NE SE


CHEVAUCHENT CHEVAUCHENT PAS
ÉCART-TYPE Pas de ccl Pas de ccl
ESM P > 0,05 Pas de ccl
IC95 Pas de ccl P < 0,05

Les barres d’erreur avec l’ESM sont toujours plus courtes que les barres d’erreur avec l’écart-type.
Regarder si les barres d’erreur se chevauchent permet de comparer la différence entre les moyennes tout
en tenant compte de la précision de ces moyennes. Cela dit, les règles sont difficiles à retenir et à appliquer.
Voici une règle empirique qui peut être utilisée lorsque les deux tailles d’échantillon sont égales ou
pratiquement égales. o Si deux barres d’erreur de l’ESM se chevauchent, la p-valeur est plus grande que
0,05 et la différence n’est pas SS. La règle inverse ne s’applique pas.
o Si deux barres d’erreur de l’ESM ne se chevauchent pas, la p-valeur peut être plus petite ou
plus grande que 0,05.
Barres d’erreur de l’IC
Dans le cas du chevauchement des barres d’erreur de l’IC95, ce serait une erreur de conclure que la pvaleur
est supérieure à 0,05. Lorsque deux IC95 se chevauchent, la p-valeur peut être plus grande que 0,05 et
peut aussi être plus petite que 0,05.

V. COMMENT CELA FONCTIONNE : LE TEST T POUR ÉCHANTILLONS INDÉPENDANTS


L’IC d’une moyenne est calculé à partir de l’ESM. De même, l’IC de la différence entre les deux moyennes
se calcule à partir de l’ES de cette différence, qui elle-même se calcule en combinant les deux ESM et les
deux tailles d’échantillons. L’ES de la différence entre les deux moyennes sera toujours plus grande que
chaque ESM mais plus petite que leur somme.

Intervalle de confiance
L’IC pour la différence entre les deux moyennes de population est centré sur la différence des moyennes
des deux échantillons. L’IC s’étend dans chaque direction d’une distance obtenue en multipliant l’ES de la
différence par une valeur critique de la distribution t.

65
Rapport t
Pour déterminer la p-valeur, on calcule le rapport t en divisant la différence entre les moyennes des deux
échantillons par l’ES de cette différence. Le numérateur et le dénominateur ont les mêmes unités, de sorte
que le rapport t n’a pas d’unité.

P-valeur
La p-valeur est calculée à partir du rapport t et du nombre de degrés de liberté qui est égal au nombre total
de valeurs (dans les deux groupes) -2.

VI. ERREURS FREQUENTES : TEST T POUR ECHANTILLONS INDEPENDANTS


1. Si le résultat est presque SS, récolter plus de données pour augmenter la taille de l’échantillon
et ensuite recalculer le test t.
La taille de l’échantillon doit être déterminée à l’avance.

2. Si notre expérience inclut trois groupes de traitement ou plus, utiliser le test t pour échantillons
indépendants pour comparer deux groupes à la fois.
3. Si l’expérience inclut trois groupes traitement ou plus, comparer la plus grande moyenne avec
la plus petite moyenne à l’aide du test t pour échantillons indépendants.
4. Si la p-valeur est supérieure à 0,05, essayer d’autres tests pour voir s’ils conduisent à des
pvaleurs plus petites.
5. Si la p-valeur est petite, conclure que les deux distributions ne se chevauchent pas beaucoup.

ð Un test t peut être calculé à partir de la moyenne, de l’écart-type et de la taille d’échantillon de


chaque groupe. Nous n’avons pas besoin des données brutes pour calculer le test t. Il suffit de
connaitre les trois données ci-dessus.
ð Comme l’intitulé le suggère, ce test est utilisé quand les observations des deux groupes ne sont
pas appariées. Il est également appelé test de Student. Il ne devrait pas être utilisé lorsque nous
comparons deux mesures chez un même sujet, ou si chaque mesure dans un groupe est associée
à une mesure équivalente dans un autre groupe. Ce type de données est analysé par le test t
pour échantillons appariés.
ð Le test t est calculé en utilisant le rapport t, lui-même calculé à partir de la différence entre les
moyennes des deux groupes, la taille des échantillons et les écarts-types. Quelques textes
parlent de l’utilisation du test Z, basé sur le rapport Z qui exige la connaissance préalable de
l’écart-type de la populations dont sont issues les données. Cet écart-type de la population ne
peut pas être calculé à partir des données observées mais doit être connu exactement à partir
d’autres données. Il est rarement utilisé.
ð Le fait que deux groupes aient ou non le même nombre d’observations n’a pas d’importance.
Cependant, le test t est plus robuste par rapport à une distribution non gaussienne quand les
tailles des échantillons sont égales ou presque égales.
ð Le signe (positif ou négatif) de t dépend de quel groupe a la plus grande moyenne et de l’ordre
dans lequel les groupes sont introduits dans le logiciel statistique. Comme l’ordre dans lequel on
introduit les groupes dans un programme est arbitraire, le signe du rapport t n’a pas d’intérêt.
L’IC et la p-valeur seront les mêmes dans les deux cas.
ð Le rapport t est calculé à partir des données et sert à déterminer la p-valeur. La valeur critique
de la distribution t, notée t* dans ce livre, est calculée à partir de la taille de l’échantillon et du
seuil de confiance souhaité, et sert au calcul de l’IC. La valeur de t* ne dépend pas des données.

66
ð Lors d’un test t pour échantillons indépendants d’inégales variances, la p-valeur pourra être plus
grande ou plus petite. Cela peut aller dans les deux sens selon l’ensemble de données.
ð Lorsque nous ne savons pas si les variances sont égales, nous devrions privilégier l’utilisation
systématique du test de Welch (selon Ruston, Delacre, Lakens et Leys).

Chapitre 31 : comparaison de deux groupes appariés


Le test t pour échantillons appariés compare deux groupes assortis ou appariés lorsque la variable
observée est continue, alors que le test de McNemar compare deux groupes appariés lorsque la variable
observée est dichotomique.

I. QUAND UTILISER DES TESTS SPÉCIAUX POUR DONNÉES APPARIÉES


Les analyses pour échantillons appariés conviennent pour les types de protocoles suivants :
• Une variable est mesurée chez chaque sujet avant et après une intervention.
• Les sujets sont recrutés par paires et associés selon des variables telles que l’âge, le code postal
ou le diagnostic. Un sujet de chaque paire est soumis à l’intervention tandis que le second reçoit
un autre traitement.
• Des jumeaux ou membres de fratries sont recrutés par paires. Chacun reçoit un traitement
différent.
• Chaque expérience de laboratoire traite en parallèle une préparation « témoin » et une
préparation « intervention ».
• Une partie du corps est traitée avec un traitement témoin et la partie correspondante de l’autre
côté du corps est traitée avec un traitement expérimental.

II. EXEMPLE DE TEST T POUR ÉCHANTILLONS APPARIÉS


Ronald Fisher est un des pionniers de la statistique.
L’utilisation du graphique avant/après est fréquente lorsque la même mesure est effectuée chez chaque
sujet avant et après une intervention expérimentale.
Le diagramme en barres est souvent utilisé mais présente moins d’informations que le graphique
avant/après. Il n’indique rien à propos de l’appariement et ne donne qu’indirectement une idée de la
variation. Lorsque c’est possible, il vaut mieux éviter les diagrammes en barres et représenter plutôt les
données réelles.

III. INTERPRÉTATION DES RÉSULTATS D’UN TEST T POUR ÉCHANTILLONS APPARIÉS Sur le
graphique (p.308), chacune des lignes relie les mesures des données appariées.

Intervalle de confiance
Un test t pour échantillons appariés porte sur la différence entre les mesures des deux sujets appariés ou
entre une mesure effectuée avant et après une intervention expérimentale.
Quand l’IC n’inclut pas le zéro, on peut être sûr à 95% que les données sont supérieures/inférieures aux
autres données, mais qu’elles ne sont pas égales.

L’amplitude de l’IC dépend de trois valeurs :


• Variabilité : si les grandes différences sont fort dispersées, certaines paires présentant une grande
différence et d’autres une petite différence, alors l’IC sera plus large. Si les données sont très
concentrées, l’IC sera plus étroit.

67
• Taille de l’échantillon : toutes autres choses étant égales par ailleurs, un échantillon incluant plus
de paires va générer des IC plus étroits et un échantillon incluant moins de paires va générer des
IC plus larges.
• Degré de confiance : si l’on souhaite un niveau de confiance plus élevé, l’intervalle sera plus large.
Si on accepte un niveau de confiance moins élevé, l’intervalle sera plus étroit.

P-valeur
La somme des deux probabilités unilatérales est égale à la p-valeur bilatérale.
La p-valeur dépend de trois choses :
• Différence moyenne : toutes autres choses étant égales, la p-valeur sera plus petite lorsque la
moyenne des différences est très éloignée de zéro.
• Variabilité : si les différences observées sont très fortement dispersées, certaines paires
présentant une grande différence, et certaines paire une petite différence, alors la p-valeur sera
plus élevée. Si les données sont très regroupées, la p-valeur sera plus basse.
• Taille de l’échantillon : toutes autres choses étant égales, la p-valeur sera plus petite si
l’échantillon inclut un plus grand nombre de paires.

Dans quelle mesure l’appariement a-t-il été efficace ?


Habituellement, si nous mettons au point une expérience incluant des échantillons appariés, nous
observerons une forte corrélation positive.

Hypothèses
Le test t pour échantillons appariés est basé sur une série d’hypothèses bien connues :
• Les valeurs appariées sont échantillonnées aléatoirement dans une population de paires (ou en
sont au moins représentative).
• Dans cette population, les différences entre les valeurs appariées suivent une distribution
gaussienne.
• Chaque paire est sélectionnée indépendamment des autres.

Comment fonctionne un test t pour échantillons appariés


Pour chaque ensemble de mesures, le test t pour échantillons appariés calcule la différence entre chaque
paire. Seul cet ensemble de différences est utilisé pour calculer l’IC et la p-valeur.
L’IC de la différence moyenne est calculé exactement comme expliqué au chapitre 12.
Le rapport t est calculé en divisant la différence moyenne par l’ESM des différences. Le rapport est sans
unité.
La p-valeur est calculée à partir du rapport t et du nombre de degrés de liberté, qui est égal au nombre de
paires -1.

IV. TEST T DE RAPPORT DE PAIRES


Quand l’IC inclut 0, nous ne pouvons pas être certains (à 95%) que le traitement a un effet sur l’activité.

Différences relatives VS différences absolues


Il existe un modèle expérimental multiplicatif et un modèle additif utilisé par le test t pour échantillons
appariés.
Sur une échelle logarithmique, la multiplication devient une addition.

68
Les résultats d’un test t de rapport de paires
Il faut d’abord prendre le log (en base 10) de toutes les données, et ensuite réaliser le test sur de nouvelles
données. On calcule ensuite la moyenne des différences entre log, puis on transforme ce nombre dans son
échelle originale.
Il faut prendre l’antilog de ces valeurs pour trouver l’IC95 du rapport. Cet intervalle n’inclut pas 1 (un
rapport de 1 signifie pas de changement). Donc il est très peu vraisemblable que l’accroissement de
l’activité dû au traitement soit une coïncidence.
v Test t de rapport de paires : test t pour échantillons appariés sur des données transformées en
logarithmes.

V. TEST DE MCNEMAR POUR UNE ETUDE CAS-TEMOINS APPARIEE


Le test de McNemar analyse des données appariées dans le cas où la variable étudiée est binomiale (deux
résultats possibles). Il fournit l’IC95 du rapport des cotes et une p-valeur à partir des deux nombres de
paires discordantes.
Le rapport des cotes est le nombre de paires pour lesquelles le cas a été exposé au facteur de risque mais
pas le témoin, divisé par le nombre de paires pour lesquelles le témoin a été exposé au facteur de risque
mais pas le cas.
Si l’on suppose que la maladie est suffisamment rare, le rapport des cotes peut être interprété comme un
risque relatif.

VI. ERREURS FRÉQUENTES : TEST T POUR ECHANTILLONS APPARIES


1. Si le résultat est presque SS, récolter des données supplémentaires pour augmenter la taille de
l’échantillon et recalculer le test.
2. S’il y a trois groupes de traitement, ou davantage, dans notre expérience, comparer deux groupes
à la fois avec le test t pour échantillons appariés.
3. S’il y a trois groupes de traitement, ou davantage, dans notre expérience, comparer la plus grande
moyenne avec la plus petite avec un seul test t pour échantillons appariés.
4. Utiliser le test t pour échantillons appariés lorsque les rapports, et non les différences, sont une
mesure plus adéquate des effets du traitement.

5. Utiliser la valeur absolue des différences au lieu des différences telles quelles. Le test doit accepter
les valeurs négatives.

6. Décider que les observations sont appariées après avoir pris connaissance des données.

ð L’appariement doit faire partie du protocole expérimental mis au point AVANT que les données ne
soient récoltées. La décision sur l’appariement est une question de protocole expérimental et
devrait être prise longtemps avant l’analyse des données.
ð Le sens de la soustraction n’a pas beaucoup d’importance, tant que nous restons cohérents. Si les
calculs sont faits dans l’autre sens, les différences auraient eu le signe opposé et le rapport aurait
également un signe opposé. La p-valeur aurait été la même. Il est très important, cependant, que
la soustraction soit faite dans le même ordre pour chaque paire. Il est aussi essentiel que dans le
programme qui effectue les calculs, le signe des différences ne soit pas perdu.
ð Un test t pour échantillons appariés ne peut être calculé si l’on ne connait que la moyenne et
l’écart-type, ainsi que le nombre de paires. Ces données résumées ne nous apprennent rien sur
l’appariement.

69
ð Tout ce qu’il faut pour calculer un test t pour échantillons appariés, c’est la moyenne des
différences, le nombre de paires et l’écart-type ou l’ESM des différences. Nous n’avons pas besoin
de données brutes.
ð Les populations ne doivent pas obligatoirement être gaussiennes. Le test t pour échantillons
appariés s’applique seulement à l’ensemble des différences des paires, différences supposées
suivre une distribution gaussienne. Ceci ne signifie pas que les deux ensembles individuels de
valeurs doivent forcément être gaussiens.
Si l’on effectue un test de normalité sur les données d’un test t pour échantillons appariés, il est
raisonnable de ne tester que l’ensemble des différences (une valeur par paire). Cela n’a pas de
sens de tester séparément les deux ensembles de données.
ð Avec l’exemple de Darwin, un test t pour échantillons indépendants donne une p-valeur plus petite
que le test t pour échantillons appariés. Mais lorsque l’appariement est fort (càd lorsque
l’ensemble des différences est plus regroupé que chacun des ensembles de données), le test pour
échantillons appariés donnera généralement une p-valeur plus petite.

Chapitre 32 : corrélation
La corrélation entre deux variables continues peut être quantifiée par le coefficient de corrélation r. Ce
chapitre est consacré à la corrélation de Pearson.

I. INTRODUCTION AU COEFFICIENT DE CORRELATION


Le coefficient de variation est obtenu en divisant l’écart-type par la moyenne.
Le graphique montre une relation claire entre les deux variables, ces variables varient ensemble. Les
statisticiens disent qu’il y a beaucoup de covariation ou de corrélation.

Corrélation
La direction et l’importance de la corrélation linéaire peuvent être quantifiées par un coefficient de
corrélation, r. Sa valeur peut aller de -1 à 1.
• Quand le coefficient de corrélation vaut 0, c’est que les deux variables ne varient pas du tout
ensemble.
• Quand le coefficient de corrélation est positif, les deux variables ont tendance à croître ou à
décroitre ensemble.
• Quand le coefficient de corrélation est négatif, les deux variables sont inversement associées,
c’est-à-dire que lorsqu’une variable a tendance à diminuer, l’autre a tendance à augmenter.
• Quand le coefficient de corrélation vaut 1 ou -1, les deux variables varient de façon complètement
semblable, autrement dit, les points observées forment une ligne droite.

Coefficient de corrélation et son intervalle de confiance


Cela a presque toujours du sens d’accompagner un résultat statistique d’un IC. Nous remarquons
l’asymétrie de cet IC. Comme le coefficient de corrélation ne peut jamais être supérieur à 1, ni inférieur à
-1, l’IC est habituellement asymétrique. L’asymétrie est d’autant plus marquée que r est éloigné de 0 et
que la taille de l’échantillon est petite.

70
r2
le carré du coefficient de corrélation est une valeur plus facile à interpréter que r. Comme r est toujours
compris entre -1 et 1, r2 est toujours compris entre 0 et 1.
Il s’agit de la fraction de la variance partagée entre les deux variables. Connaitre A permet d’expliquer 59%
de la variance de B. Donc, il reste 41% de la variance à expliquer par d’autres facteurs ou par des erreurs
de mesure. On dit aussi que 59% de la variabilité de A sont associés à la variabilité de B.
P-valeur
La p-valeur s’interprète de la même façon que dans les chapitres précédents. Ici, l’hypothèse nulle est le
fait qu’il n’y ait pas de corrélation entre A et B.

II. HYPOTHESES
Nous pouvons calculer le coefficient de corrélation de n’importe quel ensemble de données et il peut
utilement décrire les données.

1. Échantillon aléatoire
Les sujets sont sélectionnés aléatoirement.

2. Échantillon de paires
A chaque sujet doivent correspondre à la fois des valeurs de X et de Y.
3. Échantillonnage à partir d’une seule population
Toutes les observations ont été sélectionnées aléatoirement à partir d’une même population.
4. Observations indépendantes
La relation entre tous les sujets doit être la même. Tout facteur aléatoire affecte seulement un sujet et pas
les autres.
5. Les valeurs de X ne sont pas utilisées pour calculer les valeurs de Y Les valeurs
de X et Y sont mesurées séparément.
6. Les valeurs de X n’ont pas été expérimentalement contrôlées
L’intervalle de confiance de r ne peut pas être interprété si l’expérimentateur a contrôlé la valeur de X.
7. Les deux variables suivent une distribution gaussienne
Les valeurs de X et Y doivent chacune avoir été échantillonnées dans une population au moins
approximativement gaussienne.
8. La covariation est totalement linéaire
Des relations curvilignes sont fréquentes mais ne peuvent pas être appréciées avec un coefficient de
corrélation.
9. Pas de valeurs aberrantes
Le calcul du coefficient de corrélation peut être fortement influencé par une valeur extrême. Il ne faut donc
pas systématiquement enlever les valeurs aberrantes comme de mauvaises observations qui perturbent
l’analyse. Il est possible qu’elles soient les observations les plus intéressantes de l’étude.

III. JARGON : CORRELATION Corrélation


Telle qu’elle est utilisée dans les textes et logiciels statistiques, la corrélation quantifie l’association entre
deux variables continues. Ce terme est souvent utilisé de façon beaucoup plus générale pour décrire
l’association entre deux variables quelles qu’elles soient, mais le terme corrélation n’est pas strictement
correct si une variable (ou les deux) n’est pas une variable continue.

Coefficient de détermination
Le coefficient de détermination désigne le r2. Il est aussi appelé r carré.
71
IV. COMMENT CELA FONCTIONNE-T-IL : CALCUL DU COEFFICIENT DE CORRELATION
Le calcul du coefficient de corrélation est effectué par des logiciels ; il n’y a donc pas de raison de l’effectuer
à la main.
1) Calculer la moyenne de toutes les valeurs de X et aussi celle de toutes les valeurs de Y. Ces deux
moyennes sont les coordonnées du « centre de gravité » des données.
2) Comparer la position de chaque point par rapport au centre. Pour cela, il faut calculer la différence
entre chaque valeur de X et la moyenne des X. cette différence sera positive pour les points situés
à droite du centre et négative pour les points situés à gauche. De même, il faut calculer la
différence entre chaque valeur de Y et la moyenne des Y. cette différence sera positive pour les
situés plus haut que le centre et négative pour les points situés plus bas.
3) Standardiser ces distances en X en les divisant par l’écart-type de toutes les valeurs de X. De même,
il faut diviser les distances en Y par l’écart-type de toutes les valeurs de Y. diviser une distance par
l’écart-type élimine les unités, de sorte que ces rapports sont des fractions sans unité.
4) Effectuer le produit de ces deux distances standardisées pour chaque point. Le produit sera positif
pour les points situés au NE (produit de deux nombres positifs) ou au SO (produit de deux nombres
négatifs) du centre. Il sera négatif pour les points situés au NO ou SE (produit de deux nombres de
signe opposé).
5) Additionner tous les produits calculés en 4).
6) Tenir compte de la taille de l’échantillon en divisant cette somme par n-1, où n est le nombre de
paires (X, Y).

Si X et Y ne sont pas corrélés, alors le coefficient de corrélation sera proche de 0.


Si X et Y sont corrélés, alors le coefficient de corrélation sera très éloigné de 0.
(coefficient non paramétrique de Spearman)

V. ERREURS FREQUENTES
1. Croire que la corrélation démontre un lien de causalité
La p-valeur nous indique dans quelle mesure la coïncidence serait rare.
La corrélation ne démontre pas nécessairement une simple relation de cause à effet. Deux variables
peuvent être corrélées parce qu’elles sont toutes les deux influencées par une même troisième.
2. Se concentrer sur la p-valeur au lieu du coefficient de corrélation
Pour une distribution très asymétrique, les auteurs ont pris le logarithme des nombres. Réaction tout à fait
sensée lorsque les valeurs suivent approximativement une distribution log-normale.
Avec de grands échantillons, les données peuvent révéler de petits effets et malgré tout avoir des p-valeurs
très faibles. Mais la grandeur des p-valeurs ne dit pas dans quelle mesure l’effet est important. r et r2
mesurent l’importance de l’effet.
Est-ce qu’une valeur de r2 de 2 à 3% est suffisamment grande pour être considérée comme intéressant et
justifier de poursuivre l’étude ? c’est une question scientifique, pas une question statistique.
3. Interpréter le coefficient de corrélation sans d’abord jeter un coup d’œil à la représentation
graphique
Le coefficient de corrélation peut être identique ainsi que les p-valeurs, alors que les données sont
vraiment différentes.
4. Calculer un coefficient de corrélation entre deux variables dont l’une est obtenue à partir de
l’autre
Lorsque deux variables A et B sont complètement indépendantes (corrélation nulle), le coefficient de
corrélation entre A et A – B vaut environ 0,7.

72
5. Confondre corrélation et régression linéaire
La corrélation et la régression linéaire sont liées, mais distinctes.

ð Il n’est pas nécessaire de déterminer quelle variable sera X, et quelle variable sera Y. X et Y sont
complètement symétriques dans les calculs de corrélation. Ce n’est pas le cas dans la régression
linéaire. Une analyse de données par une régression linéaire demande choisir soigneusement
quelle variable est X et quelle variable est Y.
ð X et Y ne doivent pas être mesurées dans les mêmes unités, mais elles peuvent l’être. ð r est un
nombre sans unité.
ð r peut être négatif ; il est négatif quand une variable a tendance à diminuer pendant que l’autre
augmente. Si r est positif, une variable a tendance à croitre quand l’autre croit.
ð Si toutes les valeurs de X ou de Y sont les mêmes, cela n’a pas de sens de calculer la corrélation.
ð La corrélation quantifie la relation mais n’ajuste pas une droite aux données.
ð Si toutes les données sont converties dans de nouvelles unités, r ne changera pas. Multiplier par
un facteur pour changer les unités n’affecte pas le coefficient de corrélation.
ð Si toutes les valeurs de X et de Y ont été transformées en logarithmes, le coefficient r changera.
Une conversion aux log ou toute autre transformation qui change les valeurs relatives des données
va modifier la valeur de r. Le coefficient de corrélation non paramétrique de Spearman, qui ne
dépend que de l’ordre des valeurs, ne change pas. ð Si on permute X et Y, r ne change pas. Les
rôles de X et Y sont complètement symétriques dans le calcul et l’interprétation du coefficient de
corrélation. ð Si on double le nombre de points sans que r ne change, l’IC est moins large grâce
au plus grand nombre de points. La p-valeur sera elle plus faible.
ð Le coefficient de corrélation ne peut pas être utilisé pour quantifier dans quelle mesure deux
méthodes de dosage concordent. C’est une faute fréquente. Si l’on veut comparer deux méthodes
d’analyse différentes, des méthodes spéciales sont nécessaires. Il faut voir le diagramme de
BlandAltman.
ð Il n’y a pas de distinction entre r et r2. Cependant, le coefficient de corrélation r est toujours écrit
avec une minuscule.
ð Il n’y a pas de règle concernant des « corrélations fortes/faibles. Une corrélation qui peut sembler
élevée à des scientifiques d’un certain domaine peut paraitre basse aux scientifiques d’un autre
domaine.
ð La valeur de r est comprise entre -1 et 1 et ne peut pas être exprimée en pourcents comme il ne
s’agit pas d’une fraction.

Chapitre 33 : régression linéaire simple


La régression linéaire peut être vue comme « la meilleure droite » passant à travers un nuage de points.
Elle ajuste un modèle simple aux données afin de déterminer les valeurs les plus vraisemblables des
paramètres qui déterminent ce modèle.

I. LES OBJECTIFS DE LA REGRESSION LINEAIRE


Modèle simple : a serait une fonction linéaire de b. lorsque b augmente, il en est de même de a. Notons
Y, X, b l’ordonnée à l’origine et m la pente. Voici son expression classique :
Y = mX + b

73
Ce modèle n’est pas complet, parce qu’il ne tient pas compte de la variation aléatoire. Les chercheurs ont
utilisé l’hypothèse habituelle que la variabilité aléatoire autour des prédictions du modèle suit une
distribution gaussienne.
Notre objectif est de trouver, à partir de l’échantillon de données, les valeurs de l’ordonnée à l’origine et
de la pente qui sont les plus susceptibles d’être correctes et d’en quantifier l’imprécision avec des IC. Il est
utile de visualiser le modèle graphiquement. Grosso modo, la régression linéaire peut être vue comme une
méthode qui permet de déterminer la droite qui passe au plus près des points. Plus précisément, la
régression linéaire détermine la droite qui prédit le mieux Y à partir de X. Elle prend en compte seulement
les distances verticales entre les points et la droite, et plutôt que de minimiser ces distances, elle minimise
la somme de leurs carrées.

II. LES RESULTATS DE LA REGRESSION LINEAIRE La pente


Pour une pente de 3 : lorsque X augmente de 1, on s’attend à ce qu’en moyenne, Y augmente de 4.
L’IC est une partie essentielle de l’analyse. Quand il n’inclut pas le 0, c’est une solide indication qu’il est
peu probable que la relation observée soit une coïncidence due à l’échantillonnage aléatoire. Il serait plus
étroit si la taille de l’échantillon était plus grande.
Les IC sont plus faciles à interpréter que les erreurs standards, mais les deux sont liés. Si nous avons l’ES
de la pente et voulons connaitre son IC, on peut le calculer ainsi :
1) Chercher la valeur critique de la distribution t. Le nombre de degrés de liberté est égal au nombre
de de points donnés – 2.
2) Multiplier la valeur obtenue en 1) par l’ES de la pente rapportée.
3) Additionner et soustraire la valeur calculer en 2) de la valeur de la pente de la meilleure droite
d’ajustement, de manière à obtenir l’intervalle de confiance.

L’ordonnée à l’origine
Une droite est définie à la fois par sa pente et son ordonnée à l’origine, à savoir la valeur de Y lorsque X est
égal à 0.
Le modèle linéaire ne peut pas être correct lorsqu’on l’utilise pour extrapoler en dehors du domaine de
variation de données.
Bien que la bande de confiance soit incurvée, il s’agit d’une bande de confiance pour la régression linéaire
et elle ne prend en compte que les droites d’ajustement.

Les résultats graphiques


La zone ombrée représente la bande de confiance à 95% de la droite de régression, qui combine les IC de
la pente et de l’ordonnée à l’origine. La meilleure droite d’ajustement déterminée pour cet échantillon
particulier n’est vraisemblablement pas réellement la meilleure droite d’ajustement pour la population
entière. Si les hypothèses sont satisfaites, on peut être certain à 95% que la droite de régression pour la
population générale se trouve quelque part à l’intérieur de la bande de confiance ombrée.
Les limites de la bande sont incurvées mais elles ne permettent pas d’envisager une relation curviligne
entre X et Y. la courbure est simplement un moyen d’inclure des droites possibles.
La bande de confiance à 95% recouvre une zone dont on peut être confiant à 95% qu’elle inclut la réelle
meilleure droite d’ajustement.
Si l’échantillon avait été beaucoup plus grand, la meilleure droite d’ajustement aurait été déterminée plus
précisément, la bande de confiance aurait été plus étroite et une plus grande fraction des observations
aurait été à l’intérieur de la bande de confiance.
Notons la similitude avec l’IC pour une moyenne qui n’inclut pas 95% des valeurs.

74
r2
La valeur de r2 signifie que 59% de toute la variance de Y peut être expliquée par le modèle de régression
linéaire. Cette valeur pour la régression linéaire va de 0 (pas de relation entre X et Y) à 1 (Y en fonction
de X est une droite parfaite).

P-valeur
En régression linéaire, l’hypothèse nulle est qu’il n’y a pas réellement de relation linéaire entre Y et X. si
l’hypothèse nulle était vraie, la meilleure droite d’ajustement dans la population générale serait
horizontale (pente nulle). Si l’IC n’inclut pas le 0, alors la p-valeur doit être inférieure à 0,05.
L’hypothèse nulle pour la corrélation est qu’il n’y a pas de corrélation entre X et Y. L’hypothèse nulle pour
la régression linéaire est que la droite est horizontale. Comme ces deux hypothèses nulles sont
essentiellement équivalentes, les p-valeurs rapportées par la corrélation et la régression linéaire sont
identiques.

III. HYPOTHESE : REGRESSION LINEAIRE


1. Le modèle est correct
Toutes les relations ne sont pas linéaires. Dans beaucoup d’expériences, la relation entre X et Y est courbe,
ce qui rend la régression linéaire simple inappropriée. L’équation de la régression linéaire définit une droite
qui s’étend à l’infini dans chaque direction. L’équation prédit une valeur de Y. Il est cependant peu
raisonnable de penser qu’un modèle puisse être étendu jusqu’à l’infini. Il faut donc supposer que la
relation entre X et Y est linéaire seulement sur ce domaine. Le modèle est uniquement utile à l’intérieur
du domaine.
La régression linéaire concerne seulement les relations linéaires.
2. La dispersion des données autour de la droite est gaussienne La
dispersion des données autour du modèle est gaussienne.
3. La variabilité est la même partout
La régression linéaire suppose que la dispersion des points autour de la droite de meilleur ajustement ait
le même écart-type tout au long de la droite. L’hypothèse que l’écart-type est le même partout s’appelle
homoscédasticité. Une régression linéaire peut être calculée en dehors de cette hypothèse en pondérant
différemment les points, plus de poids aux points de faible variabilité et moins de poids aux points de forte
variabilité.
4. Les observations sont indépendantes 5. Les valeurs de X et Y ne sont pas étroitement liées
Cela ne sera pas correct si la valeur de Y sert à calculer la valeur de X.
6. Les valeurs de X sont connues précisément
La régression suppose que les valeurs de X sont connues avec précision et que toute la variation est en Y.

IV. COMPARAISON DE LA REGRESSION LINEAIRE ET DE LA CORRELATION


Les analyses par corrélation et par régression linéaire sont similaires, mais cependant distinctes.

v CORRÉLATION
La corrélation quantifie le degré avec lequel deux variables sont liées mais n’ajuste pas de droite aux
données. Le coefficient de corrélation indique dans quelle mesure (et dans quelle direction) une variable
a tendance à varier lorsque l’autre varie également.
L’IC du coefficient de corrélation ne peut être interprété qu’à condition que, à la fois X et Y sont mesurés
et que, de plus les deux sont supposés suivre des distributions gaussiennes. On ne peut pas interpréter l’IC
du coefficient de corrélation si les expérimentateurs ont manipulé X.

75
Avec la corrélation, on ne doit pas réfléchir à ce qui est cause ou effet. On quantifie simplement la manière
dont deux variables sont liées l’une à l’autre. Appeler une variable plutôt X et l’autre plutôt Y n’a pas
d’importance. Si on inversait la définition, tous les résultats seraient identiques.
v RÉGRESSION LINÉAIRE
Avec la régression, il faut réfléchir à ce qui est cause et ce qui est effet. Elle permet de déterminer la
meilleure droite qui prédit Y à partir de X, et cette droite n’est pas la même que celle qui prédit X à partir
de Y. Les résultats de la régression linéaire seraient différents si les définitions de X et Y étaient interverties.

à Avec la plupart des ensembles de données, il est raisonnable de calculer soit la régression linéaire, soit
la corrélation, mais pas les deux. Le r2 est le même, qu’il soit obtenu par un programme de corrélation ou
un programme de régression linéaire.

V. JARGON : REGRESSION LINEAIRE Modèle


Le terme régression se rapporte à une méthode utilisée pour ajuster un modèle à des données. Un modèle
est une expression algébrique qui décrit la relation entre des variables.

Paramètres
Le but d’une régression linéaire est de déterminer les valeurs de la pente et de l’ordonnée à l’origine de la
droite la plus proche des données. Ils sont appelés « paramètres ».

Résidus
Les distances verticales entre les points et la droite de régression sont appelés résidus. Un résidu est l’écart
entre la valeur observée de Y et la valeur de Y prédite par le modèle de régression.

Moindres carrés
La régression linéaire détermine la pente et l’ordonnée à l’origine d’une droite telle que la somme des
carrés des distances verticales des points à la droite soit rendue minimale. Cette méthode de régression
linéaire est aussi appelée droite des moindres carrés.

Linéaire
Il est possible que la relation entre X et Y soit curviligne mais que le modèle mathématique soit considéré
comme linéaire.

Régression linéaire simple VS multiple


Le terme simple se rapporte au fait qu’il n’y a qu’une variable X. Multiple
vient du fait qu’il y a deux ou plusieurs variables X.

VI. ERREURS FREQUENTES


1. Conclure qu’il n’y a pas de relation entre X et Y lorsque r2 est faible
Une faible valeur de r2 signifie qu’il n’y a pratiquement pas de relation linéaire entre X et Y. mais toutes
les relations ne sont pas linéaires. R2 peut valoir 0,01 mais X et Y être clairement reliés (juste pas
linéairement).
2. Ajuster des moyennes mobiles ou des données lisses
Chaque présentée peut, par exemple, être la moyenne du nombre d’ouragans de l’année considérée plus
ceux des huit années précédentes (moyenne mobile). L’idée du lissage est de réduire le bruit de manière
à faire apparaitre les données sous-jacentes. Mais cette tendance est entièrement un artéfact de lissage.

76
3. Effectuer un ajustement sur des données quand X et Y sont étroitement liés Si
les valeurs de X et Y sont reliées, les résultats seront erronés.
Représenter graphiquement la variation d’une variable en fonction de la valeur initiale de cette variable
est vraiment trompeur. Attribuer une corrélation significative à une intervention expérimentale sur base
d’un tel graphique est appelé régression fallacieuse. Un tel graphique ne devrait pas être analysé par
régression linéaire.
4. Ne pas réfléchir à quelles variables correspondent effectivement à X et Y
Les calculs de régression linéaire ne sont pas symétriques par rapport à X et Y. permuter les étiquettes de
X et Y produira une droite de régression différente.
Appelons X celle qui était sous contrôle expérimental, ou la cause, ou celle qui nous sert à prédire.
5. Considérer les résultats numériques de la régression sans visualiser un graphique
Les valeurs de pente et ordonnée à l’origine peuvent être identiques avec des données pourtant bien
différentes.
6. Utiliser la régression linéaire standard non pondérée lorsque la dispersion augmente quand Y
augmente
Il arrive fréquemment que la variabilité soit proportionnelle à Y. il faut pour cela utiliser un programme de
régression non-linéaire.
7. Extrapoler au-delà des données
Il n’y a pas de raison de penser que la relation linéaire se poursuive en dehors du domaine de variation des
données. Des prédictions nettement en dehors de cet intervalle seront vraisemblablement totalement
fausses.
Les prédictions d’une régression linéaire bien au-delà des données peuvent être fortement erronées.
8. Interprétation excessive d’une petite p-valeur
Se focaliser sur la p-valeur peut conduire à une mauvaise compréhension des résultats.
9. Utiliser une régression linéaire lorsque l’échantillon est composé de toutes les données
observables
Il n’y a dans ce cas-là aucun échantillonnage aléatoire. Les résultats de la régression linéaire n’ajoutent rien
à la compréhension et pourraient même induire en erreur.
Toute prédiction exige de se baser sur un modèle et il n’y a vraiment pas de raison de penser que
l’accroissement d’année en année continuera à être linéaire.
Les données ne sont pas tirées d’une population plus grande ; elles sont la population en entier. Toutes les
informations sont dès lors présentes et ne justifient pas le besoin d’une régression. 10. Joindre les données
de deux groupes dans une régression On suppose que les données sont indépendantes.
Appliquer une régression linéaire sur deux groupes réunis peut créer faussement une forte relation
linéaire, ou cacher une tendance.

ð Les valeurs de X et Y ne doivent pas forcément avoir les mêmes unités, mais elles peuvent.
ð Le but principal de la régression linéaire est de prédire Y à partir de X. Si toutes les valeurs de X
sont les mêmes, elles ne contribuent pas à prédire Y. Si toutes les valeurs de Y sont les mêmes, il
n’y a rien à prédire.
ð Un régression linéaire peut être utilisée lorsque les valeurs de X sont en réalité des catégories. Si
nous comparons deux groupes, nous pouvons appeler les groupes X=1 et X=0 et appliquer une
régression linéaire. Cela revient à effectuer un test t pour échantillons indépendants. S’il y a plus
de deux groupes, la régression n’a de sens que lorsque les groupes sont ordonnés et équidistants.
On peut alors les désigner par des nombres de façon sensée. S’il est nécessaire d’utiliser une
variable catégorielle avec plus de deux valeurs possibles, il faudra s’informer sur les variables
indicatrices sur la régression multiple.

77
ð L’ES de la pente n’est pas la même chose que l’ESM. L’ES est une façon d’exprimer la précision
d’une valeur calculée. Elles peuvent être calculées pour à peu près tous les paramètres.
ð La variable Y^ sont les valeurs de Y prédites par le modèle. ð La régression linéaire ajuste un
modèle qui prédit le mieux Y à partir de X. Si l’on permute les définitions de X et Y, la droite de
régression sera différente, à moins que les points données ne soient parfaitement alignés.
Cependant, permuter X et Y ne changera pas la valeur de r2.
ð R2 sera nul s’il n’y a aucune tendance entre X et Y, de sorte que la meilleure droite d’ajustement
est parfaitement horizontale. R2 ne peut pas être négatif en régression linéaire classique mais il le
peut avec une régression non linéaire.
ð La régression linéaire n’exige pas plus d’une valeur de Y pour chaque valeur de X. Mais il est
avantageux de d’utiliser plusieurs variables de Y pour chaque valeur de X pour trois raisons :
o Avec plus de points donnés, la pente et l’ordonnée à l’origine seront déterminées avec
plus de précision.
o Des calculs supplémentaires peuvent tester la non linéarité. Ils consistent à comparer la
variation parmi les répétitions des distances des points à la droite de régression. Si les
points sont « trop loin » de la droite, alors nous pouvons conclure qu’une droite ne décrit
pas vraiment la relation entre X et Y.
o Nous pouvons tester l’hypothèse que la dispersion de Y est la même pour toutes les
valeurs de X.
ð Pour comparer les résultats obtenus en analysant des mêmes données par régression linéaire et
par corrélation, on doit élever au carré le coefficient de corrélation r. On obtient ainsi la valeur de
r2 de la régression linéaire. La p-valeur qui teste l’hypothèse nulle que le coefficient de corrélation
de la population est nul s’accorde avec la p-valeur qui duit teste l’hypothèse nulle que la pente de
la population est nulle. ð En régression linéaire, r2 et R2 sont utilisés. Cependant, en régression
non linéaire et multiple, c’est R2 qui est utilisé.
ð R2 peut être exprimé en %. Comme c’est une fraction, cela a du sens de l’exprimer en pourcent
mais ce n’est pas fréquent. Notons au passage que r n’est pas une fraction et ne peut donc pas
être exprimé en pourcents.
ð La régression linéaire ne dépend pas de l’hypothèse que les valeurs de X et Y sont échantillonnées
dans une population gaussienne. Les résultats d’une régression linéaire sont basés sur l’hypothèse
que les résidus (écarts verticaux entre les points donnés et ceux situés sur la droite de régression)
sont distribués selon la loi de Gauss, mais pas les valeurs de X ou Y.

78

Vous aimerez peut-être aussi