Poly LCA 2021 2022

Faculté de médecine Sorbonne Université
Lecture critique d’articles

2021/2022
Dr Agnès Dechartres
Table des matières
1 ERE
PARTIE : NOTIONS COMMUNES AUX DIFFERENTS TYPES D’ARTICLE .......................... 5
1.1 STRUCTURE D’UN ARTICLE ........................................................................................................................ 6
1.2 LES DIFFERENTS TYPES D’ETUDE ............................................................................................................... 9
1.2.1 Les études comparatives.................................................................................................................. 9
1.2.2 Les études non-comparatives .......................................................................................................... 9
1.2.3 Autres mots-clés concernant le plan expérimental ........................................................................ 10
1.3 CONSTITUTION D’UN ECHANTILLON, NOTION DE POPULATION SOURCE, POPULATION CIBLE,
FLUCTUATIONS D’ECHANTILLONNAGE .............................................................................................................. 11
1.3.1 Echantillon, population source et population cible....................................................................... 11
1.3.2 Notion de fluctuations d’échantillonnage ..................................................................................... 12
1.3.3 Constitution de l’échantillon ......................................................................................................... 13
1.4 BIAIS ET NOTION DE VALIDITE INTERNE ................................................................................................... 13
1.4.1 Notion de biais .............................................................................................................................. 13
1.4.2 Les principaux biais ...................................................................................................................... 15
1.4.2.1 Biais de sélection ................................................................................................................................. 15
1.4.2.2 Biais de classement ............................................................................................................................. 15
1.4.2.3 Biais de confusion ............................................................................................................................... 17
1.4.3 Quels sont les réflexes à avoir ? .................................................................................................... 18
1.4.4 Définition de la validité interne..................................................................................................... 18
1.5 VALIDITE EXTERNE.................................................................................................................................. 19
1.6 NIVEAU DE PREUVE D’UNE ETUDE ........................................................................................................... 20
1.7 RAPPELS DE BIOSTATISTIQUES A CONNAITRE .......................................................................................... 21
1.7.1 Les différents types de variable ..................................................................................................... 21
1.7.2 Analyse descriptive ........................................................................................................................ 23
1.7.3 Analyse univariée .......................................................................................................................... 29
1.7.3.1 Tests statistiques .................................................................................................................................. 29
1.7.3.2 Mesure de l’association entre deux variables ...................................................................................... 33
1.7.4 Analyse multivariée ....................................................................................................................... 36
1.7.5 Cas particulier du test de tendance (trend test) ............................................................................ 39
1.7.6 Cas particulier du test d’interaction ............................................................................................. 40
2 EME PARTIE : SPECIFICITES DES DIFFERENTS TYPES D’ARTICLES ................................... 43
2.1 EVALUATION D’UN TRAITEMENT ............................................................................................................. 44
2.1.1 Formulation de l’objectif .............................................................................................................. 45
2.1.2 Type d’étude .................................................................................................................................. 45
2.1.3 Choix du comparateur (de l’intervention dans le groupe contrôle) .............................................. 46
2.1.4 Randomisation............................................................................................................................... 47
2.1.4.1 Génération de la séquence de randomisation ....................................................................................... 48
2.1.4.2 Clause d’ignorance .............................................................................................................................. 52
2.1.4.3 Vérification de la comparabilité initiale des groupes ........................................................................... 53
2.1.5 Maintien de la comparabilité des groupes pendant l’essai ........................................................... 54
2.1.5.1 Le double aveugle ............................................................................................................................... 55
2.1.5.2 L’analyse en intention de traiter .......................................................................................................... 57
2.1.6 Les critères de jugement ................................................................................................................ 61
2.1.6.1 Règles concernant le critère de jugement principal ............................................................................. 61
2.1.6.2 Pertinence clinique du critère de jugement .......................................................................................... 62
2.1.6.3 Evaluation objective ou subjective ? ................................................................................................... 63
2.1.6.4 Critère composite ................................................................................................................................ 64
2.1.7 Calcul d’effectif (ou calcul du nombre de sujets nécessaires) ...................................................... 65
2.1.8 Respect des règles éthiques et enregistrement des essais .............................................................. 66
2.1.8.1 Règles éthiques .................................................................................................................................... 66
2.1.8.2 Enregistrement des essais .................................................................................................................... 66
Faculté de médecine Sorbonne Université 2

Polycopié de LCA-2021/2022- A. Dechartres
2.1.9 Interprétation des résultats d’un essai .......................................................................................... 67
2.1.9.1 Interprétation des résultats pour le critère de jugement principal ........................................................ 67
2.1.9.2 Interprétation des résultats pour les critères secondaires ..................................................................... 68
2.1.9.3 Interprétation d’une analyse intermédiaire .......................................................................................... 69
2.1.9.4 Interprétation des analyses en sous-groupe.......................................................................................... 69
2.1.9.5 Interprétation d’une analyse de sensibilité ........................................................................................... 71
2.1.9.6 Interprétation des résultats de tolérance ............................................................................................... 72
2.1.10 Plans expérimentaux particuliers ............................................................................................. 72
2.1.10.1 Les essais en cross-over....................................................................................................................... 73
2.1.10.2 Les essais d’équivalence ou de non-infériorité .................................................................................... 74
2.1.11 Rappel des biais dans un essai contrôlé randomisé ................................................................. 77
2.1.12 Recommandations de reporting pour les essais contrôlés randomisés .................................... 78
2.2 EVALUATION ETIOLOGIQUE ..................................................................................................................... 79
2.2.2 Type d’étude .................................................................................................................................. 80
2.2.2.1 Principe des études de cohorte et cas-témoin ...................................................................................... 80
2.2.2.2 Choix entre étude de cohorte et étude cas témoin ................................................................................ 82
2.2.3 Particularités des études de cohorte ............................................................................................. 83
2.2.3.1 Choix de la population......................................................................................................................... 83
2.2.3.2 Recueil des facteurs de risque ............................................................................................................. 83
2.2.3.3 Recueil de la maladie (critère de jugement) ........................................................................................ 83
2.2.3.4 Suivi et problème des données manquantes dans les études de cohorte prospective ........................... 84
2.2.4 Particularités des études cas-témoin ............................................................................................. 84
2.2.4.1 Population d’étude ............................................................................................................................... 84
2.2.4.2 Recueil des facteurs de risque ............................................................................................................. 86
2.2.5 Biais de classement dans les études observationnelles (cohorte et cas témoin) ............................ 86
2.2.6 Prise en compte des facteurs de confusion potentiels ................................................................... 87
2.2.7 Interprétation des résultats ........................................................................................................... 90
2.2.7.1 Dans cet exemple : .............................................................................................................................. 90
2.2.8 Causalité ....................................................................................................................................... 91
2.2.1 Rappels des biais dans les études étiologiques ............................................................................. 93
2.2.2 Recommandations pour rapporter une étude étiologique ............................................................. 94
2.3 EVALUATION DE FACTEURS PRONOSTIQUES ............................................................................................ 95
2.3.2 Distinction facteur de risque/ facteur pronostique ........................................................................ 96
2.3.3 Type d’étude utilisé ....................................................................................................................... 97
2.3.4 Les biais dans les études pronostiques .......................................................................................... 98
2.4 EVALUATION D’UN TEST DIAGNOSTIQUE ................................................................................................. 99
2.4.1 Formulation de l’objectif ............................................................................................................ 100
2.4.2 Type d’étude ................................................................................................................................ 100
2.4.3 Population d’étude ...................................................................................................................... 100
2.4.4 Choix du test de référence ........................................................................................................... 100
2.4.5 Réalisation des tests (test à évaluer et test de référence) ............................................................ 101
2.4.6 Evaluation de la performance diagnostique d’un test ................................................................. 101
2.4.6.1 Mesure de la validité d’un test diagnostique...................................................................................... 101
2.4.6.2 Mesure de la fiabilité d’un test diagnostique ..................................................................................... 106
2.4.7 Rappels des différents biais pouvant affecter une étude d’évaluation diagnostique ................... 108
2.4.8 Recommandations pour rapporter un article diagnostique ......................................................... 108
2.5 EVALUATION D’UNE INTERVENTION DE DEPISTAGE ............................................................................... 109
2.5.1 Définition..................................................................................................................................... 109
2.5.3 Type d’étude ................................................................................................................................ 110
2.5.4 Points à évaluer........................................................................................................................... 110
2.5.5 Biais spécifiques aux études d’évaluation d’une procédure de dépistage ................................... 111

2.5.6 Critères justifiant la mise en place d’un dépistage organisé ...................................................... 111
2.6 REVUES SYSTEMATIQUES ET META-ANALYSES ...................................................................................... 112
2.6.2 Type d’étude ................................................................................................................................ 113
2.6.2.1 Revue systématique ........................................................................................................................... 113
2.6.2.2 Méta-analyse ..................................................................................................................................... 115
2.6.2.3 Précision concernant le type d’étude auquel on s’intéresse dans une revue systématique ................. 117
2.6.3 Principaux intérêts d’une revue systématique et méta-analyse ................................................... 117
2.6.4 Principales limites ....................................................................................................................... 118
2.6.5 Recommandations de reporting pour les revues systématiques et méta-analyses ....................... 118
3 REMERCIEMENTS ............................................................................................................................... 119

1 ère partie : Notions communes aux différents types
d’article
1.1 Structure d’un article

1.2 Les différents types d’étude
1.3 Constitution d’un échantillon, notion de population source,
population cible, fluctuations d’échantillonnages
1.4 Biais et notion de validité interne d’une étude
1.5 Validité externe d’une étude
1.6 Niveau de preuve d’une étude
1.7 Eléments de biostatistiques à connaître

1.1 Structure d’un article
Le tableau ci-dessous donne des orientations sur les différents éléments que l’on doit trouver
dans un article avec les réflexes que vous devez avoir. Attention, cependant, tous les articles ne
vont pas forcément respecter ce plan. Il faudra donc faire attention à bien lire l’article dans son
entier avant de répondre aux questions.
Structure et contenu du texte d’un article
Partie Eléments « deva Contenu Ce que vous devez en retirer, les

nt » être réflexes à avoir
rapportés
Contexte de l’étude Evaluation de la pertinence clinique :

l’idée à l’origine de l’étude est-elle
Revue de la littérature des études sur le originale ? Ou bien y a t-il des résultats
sujet discordants dans la littérature justifiant
la réalisation d’une nouvelle étude ?
Hypothèses
Justification de l’étude
Objectif Objectif principal de l’étude L’objectif est-il formulé de manière

Introduction
complète ? Quels sont les éléments du

PECO (P=population, E=élement
évalué, C=comparateur, O=outcome) ?
Type d’étude Plan expérimental de l’étude Les mots clés correspondant au type
(Study design) d’étude
(Justification du type d’étude par Le type d’étude est-il adapté à la

rapport à l’objectif principal) question posée ?
Population Mode de recrutement de la population Evaluation de la validité externe (les

caractéristiques de la population
correspondent- elles à celles de la
population en pratique courante ?)
Critères d’éligibilité
Evaluation de la validité interne (risque
Matériel et méthodes
de biais de sélection ?)
Randomisation Comment la randomisation a été faite Qualité de la randomisation Evaluation

(dans les essais) (méthode pour générer la séquence) et de la validité interne (risque de biais de
mise en œuvre (respect de l’assignation sélection ?)
secrète ou clause d’ignorance) ?

Eléments
Ce que vous devez en retirer, les
Partie « devant » être Contenu
réflexes à avoir
rapportés
Facteurs évalués :
Interventions Description des interventions à l’étude Evaluation de la validité externe
(essais) (traitement évalué, durée, dose), (pourra-t-on appliquer l’intervention
utilisation d’un placebo ou d’un double évaluée en pratique courante ?)
placebo (l’étude est-elle en aveugle ?)?
Evaluation de la validité interne
(risque de biais de performance
en l’absence d’aveugle)
Facteur Définition des facteurs d’exposition Evaluation de la validité interne
d’exposition (risque de biais de classement)
(étude
observationnelle)
Test évalué et test Description du test évalué et du test Réalisation systématique du test
de référence de référence de référence ?
(études
diagnostiques) Evaluation des résultats des tests
indépendamment l’un de l’autre ?
Critère de Description du critère de Est-il pertinent cliniquement ?
jugement jugement principal
principal Mesure du critère de jugement principal L’évaluation est-elle objective ou
(comment, par qui, en aveugle ou non) subjective ?
?
Si subjectif :
- Reproductibilité ?
(standardisation, évaluation en
double, ou centralisée)?
- Aveugle ? Evaluation de la
validité interne (biais de
classement)
Analyse Calcul d’effectif (surtout pour les essais)
statistique
Analyse :
- Analyse descriptive Les analyses statistiques sont- elles
- Analyse univariée appropriées ?
- Analyse multivariée (études
Matériel et méthodes
étiologiques et pronostiques)
Population d’analyse dans les essais L’analyse est-elle en intention de

intention de traiter, per protocol) traiter (pour un essai)?
Valeur du risque alpha (en général 5%),

tests unilatéraux ou bilatéraux ?

Eléments
Ce que vous devez en retirer, les
Partie « devant » être Contenu
réflexes à avoir
rapportés
Description de la Evaluation de la validité externe (les
population caractéristiques de la population
correspondent- elles à celles de la
population en pratique courante ?)
Résultats
Validité interne (vérification de la

comparabilité des groupes dans les essais
: qualité de la randomisation)
Résultats pour le Comparaison du critère de jugement Différence statistiquement
critère de principal entre les 2 groupes de significative ?
jugement traitement
principal Taille d’effet (différence
cliniquement pertinente ?)
Pour les essais
Evaluation de la Les évènements indésirables doivent Y a-t-il des problèmes de tolérance

tolérance être rapportés (nombre et (comparer les pourcentages entre les 2
description) par groupe en groupes car les tests statistiques ne sont
distinguant les évènements pas puissants pour mettre en évidence des
indésirables graves différences concernant les évènements
indésirables surtout ceux qui sont graves)
Analyse univariée Comparaison des Les résultats de l’analyse multivariée
Pour les études
caractéristiques des patients sont les résultats principaux car ils

observationnelles
selon le critère de jugement prennent en compte les facteurs de

principal confusion.
Analyse Identification des facteurs
multivariée indépendamment associés à la L’analyse univariée est une étape
survenue du critère de jugement préalable à la réalisation de l’analyse
principal multivariée
Résumé des En accord avec les résultats pour le
principaux critère de jugement principal ?
résultats
Place de l’étude Les résultats de l’étude sont- Evaluation de la cohérence externe
dans la littérature ils concordants avec les
autres études réalisées ?
Limites Les auteurs doivent Evaluation de la validité interne et
présenter les principales externe
limites de leur étude
Discussion
Conclusion Les auteurs concluent en La conclusion est-elle en accord avec

précisant les implications pour la les résultats du critère de jugement
pratique principal
Il existe pour chaque type d’étude (essais randomisé, étude observationnelle, étude
diagnostique), des recommandations pour rapporter de manière adéquate l’ensemble des
éléments importants. Ce sont ce qu’on appelle des ‘reporting guidelines’ tel que le CONSORT
Statement pour les essais contrôlés randomisés (le lien vers ces reporting guidelines est donné
à la fin de chaque section de la seconde partie de ce polycopié).

1.2 Les différents types d’étude
1.2.1 Les études comparatives
Pour l’épreuve de lecture critique d’article, on s’intéressera principalement aux études

comparatives. Ces études comparent deux ou plusieurs groupes (groupe avec/groupe sans
intervention, facteur d’exposition étudié ou maladie).
Etudes observationnelles versus études expérimentales ou interventionnelles
Dans une étude observationnelle, on ne modifie pas la prise en charge des patients, on se
contente d’observer ce qui se passe.
Dans une étude expérimentale (interventionnelle), on modifie la prise en charge en
introduisant une intervention par exemple (traitement, stratégie de dépistage,…) ou en
contrôlant le facteur d’exposition étudié. Pour l’ECNi, il s’agit des essais contrôlés randomisés.
 Les études cas témoin et les études de cohorte sont définies plus loin (dans la partie 2.2)
1.2.2 Les études non-comparatives
Les études non-comparatives sont plus rares. Elles sont descriptives et peuvent être
transversales ou longitudinales.

1.2.3 Autres mots-clés concernant le plan expérimental
Etudes descriptives versus études analytiques
- Une étude purement descriptive est une étude dans laquelle on se contente de décrire
sans chercher d’association. Ce sont par exemple des études de prévalence ou
d’incidence. Elles peuvent être transversales (estimation de la prévalence de la
dépression chez les patients traités pour un cancer par exemple) ou longitudinales
(estimation de l’incidence des infections post-opératoires chez les patients opérés par
exemple)
- Une étude analytique est une étude dans laquelle on va rechercher une association
entre un ou plusieurs facteurs et une maladie ou un évènement (ce sont des études
comparatives). Elles peuvent être de cohorte, cas témoin ou transversales. Cependant
les études transversales ne sont pas très recommandées pour évaluer des associations.
- Les études analytiques peuvent être à visée étiologique (association entre un facteur
de risque (par exemple tabagisme) et une maladie (par exemple infarctus du myocarde)
ou pronostique (association entre un facteur pronostique (par exemple envahissement
ganglionnaire) et un évènement (par exemple décès).
Etudes transversales versus études longitudinales
- Une étude transversale est une étude à un moment donné (comme une photographie),
on ne suit pas les patients dans le temps.
- Dans une étude longitudinale, on va suivre les patients dans le temps.
- Les études de cohorte et les essais contrôlés randomisés sont des études
longitudinales.
Etudes prospectives versus études rétrospectives
- Une étude prospective est une étude dans laquelle on décide de faire l’étude et on suit
des patients pour recueillir leurs données (le suivi se fait postérieurement à
l’enregistrement de l’exposition au facteur de risque (définition du glossaire)).
- Une étude rétrospective est une étude dans laquelle on va recueillir a posteriori des
informations sur l’exposition à des facteurs de risque ou des évènements qui se sont
déjà produits.
- Les essais contrôlés randomisés sont forcément des études prospectives.
- Les études de cohorte peuvent être prospectives ou rétrospectives (cf chapitre 2.2).

1.3 Constitution d’un échantillon, notion de population source,
population cible, fluctuations d’échantillonnage
1.3.1 Echantillon, population source et population cible
Il n’est généralement pas possible de réaliser une étude dans l’ensemble de la population et
donc d’obtenir la « vraie » valeur du paramètre qui nous intéresse. On va donc constituer un
échantillon qui doit être le plus représentatif possible de la population qui nous intéresse et
estimer la valeur du paramètre dans cet échantillon. On parle alors de paramètre « mesuré »,
« estimé » ou « observé ». Pour pouvoir extrapoler cette valeur estimée du paramètre à
l’ensemble de la population qui nous intéresse, l’échantillon doit être représentatif (avoir les
mêmes caractéristiques) de cette population.
 La population qui nous intéresse est définie comme la population cible. C’est la
population à laquelle on souhaite extrapoler les résultats de l’étude.
En pratique, il est souvent très difficile de constituer l’échantillon dans l’ensemble de la
population cible. L‘échantillon est donc tiré d’une population dite « source » (population
dans laquelle l’échantillon a été constitué).
Dans l’idéal, l’échantillon est représentatif de la population source qui correspond
parfaitement à la population cible.

Constitution d’un échantillon
Remarque : Idéalement, la population source devrait être la population cible, mais ce n’est pas
toujours le cas. Par exemple, l’identification de facteurs de risque de maladies est souvent
réalisée chez des patients hospitalisés. Les patients non hospitalisés font bien partie de la
population cible de l’étude mais ne feront pas partie de l’échantillon.
1.3.2 Notion de fluctuations d’échantillonnage
Si l’on constitue plusieurs échantillons (provenant de la même population source), l’estimation

des paramètres qui nous intéressent ne sera pas exactement la même d’un échantillon à l’autre
même si ceux-ci sont de même taille, du simple fait du hasard. C’est ce qu’on appelle la
fluctuation d’échantillonnage. La fluctuation d’échantillonnage est inévitable dès qu’on
constitue un échantillon. Plus la taille de l’échantillon augmente, plus la fluctuation
d’échantillonnage diminue et l’estimation des paramètres tend à se stabiliser.
Pour prendre en compte la fluctuation d’échantillonnage, plutôt que de donner une seule
valeur de l’estimation, on donne un intervalle dans laquelle la vraie valeur a de grandes
chances de se trouver. Cet intervalle est l’intervalle de confiance. Il est généralement à
95%. Si l’on faisait 100 études identiques et que l’on estimait 100 intervalles de confiance à
95% d’un paramètre, alors 95 de ces intervalles (en moyenne) contiendraient la vraie valeur du
paramètre (on peut également dire qu’il y a 95% de chances que la vraie valeur soit
contenue dans l’IC à 95%).
L’intervalle de confiance à 95% d’un paramètre est calculé à partir de la mesure du paramètre
et de la mesure de sa variabilité.

1.3.3 Constitution de l’échantillon
Concernant la constitution de l’échantillon, les éléments suivants doivent être renseignés :

- Le mode de recrutement des patients (exemple de modalités de recrutement)
o par publicité, sur la base du volontariat
o parmi les patients se présentant à une consultation, sélection systématique et
prospective de tous les patients consécutifs, ou d’un échantillon aléatoire, ou par
jour ou semaine alternée
o à partir d’un registre (par exemple les listes électorales) tirage aléatoire de
sujets)
- Les critères d’éligibilité : sont les critères permettant de caractériser la population que
l’on souhaite inclure.
o On distingue les critères d’inclusion (il faut que les patients les remplissent tous
pour entrer dans l’étude) et les critères de non inclusion parfois appelés, par
abus de langage, critères d’exclusion. Les critères d’exclusion devraient, en
fait, désigner les critères qui font que des sujets initialement inclus sont exclus
dans un deuxième temps.
o Il suffit d’un seul critère de non-inclusion pour que le patient ne puisse pas entrer
dans l’étude.
1.4 Biais et notion de validité interne

1.4.1 Notion de biais
Un biais est une erreur systématique dans l’estimation des résultats qui opère dans un sens
donné (par exemple surestimation de l’association ou de l’effet traitement).
Remarque : les biais peuvent être introduits lors de la conception de l’étude ou lors de son
déroulement.
Il faut distinguer le biais de l’erreur aléatoire due à la fluctuation d’échantillonnage qui

entraîne de l’imprécision autour du paramètre estimé. Plus l’échantillon est petit, plus
l’erreur aléatoire (la fluctuation d’échantillonnage) est importante. L’erreur aléatoire opère
dans tous les sens (surestimation ou sous-estimation).

Les grands types d’erreurs dans une étude
Erreur aléatoire=fluctuation
Type d'erreur Erreur systématique= biais
d’échantillonnage
L’erreur aléatoire est due à la Toute erreur ou défaut dans la

fluctuation d’échantillonnage qui est conception ou la mise en
Causes
d'autant plus importante que œuvre de l'étude peut être une
l'échantillon comporte peu de sujets source possible de biais.
Imprécision des estimations

(intervalle de confiance à 95% large)
Sur ou sous-estimation
et manque de puissance lié au petit
Conséquences systématique
échantillon (il est possible qu’on ne
Risque de conclusion erronée
puisse pas conclure à une différence
significative par manque de puissance)
Différences entre imprécision (erreur aléatoire) et biais
Chaque flèche représente le résultat obtenu sur un échantillon.
La première cible La seconde cible correspond à une La troisième cible

correspond à la situation évaluation peu précise mais non biaisée. correspond à une
idéale : l’évaluation est à Il s’agit probablement d’estimations évaluation précise
la fois précise et non faites dans un échantillon de petite taille mais biaisée. Les
biaisée (absence avec des fluctuations d’échantillonnage flèches sont centrées
d’erreurs aléatoire et (erreur aléatoire). Les flèches se sur un point qui n’est
systématique). répartissent un peu partout mais assez pas le point central.
loin du point central.

1.4.2 Les principaux biais
De très nombreux biais sont décrits dans la littérature. Le type de biais et la terminologie varient
selon le type d’étude. Nous verrons dans la partie 2, les biais propres à chaque type d’étude.
Mais, globalement les biais sont de 3 types principaux : les biais de sélection, les biais de
classement et les biais de confusion.
1.4.2.1 Biais de sélection

Un biais de sélection est un biais lié à la constitution de l’échantillon ou des groupes de
comparaison. Il peut être dû :
 A un échantillon non représentatif de la population cible pour des caractéristiques
liées à la maladie. Il peut résulter d’une sélection particulière des sujets aux différentes
étapes de sélection de l’échantillon analysé :
o Population source non représentative de la population cible pour des
caractéristiques liées à la maladie (problème de définition des critères
d’éligibilité)
o Echantillon inclus non représentatif de la population source pour des
caractéristiques liées à la maladie (problème de recrutement des sujets : étude
non proposée à tous les sujets éligibles, nombreux refus de participer, etc.)
 A un mauvais choix du groupe de référence comme cela peut être le cas dans les
études cas-témoin. Les témoins peuvent ne pas être représentatifs de la population de
non-malades.
Exemple :
Dans une étude cas-témoin évaluant l’association entre la consommation de café et le cancer
du pancréas, les témoins étaient des malades hospitalisés dans un service de gastro-entérologie
pour un problème de côlon irritable. Le choix du groupe témoin pose problème ici car la
consommation de café est déconseillée chez les patients ayant un syndrome du côlon irritable.
Le groupe de référence n’est pas représentatif de la population de non-malades car il s’agit de
patients hospitalisés et que leur consommation de café est différente de celle de l’ensemble des
non-malades.
1.4.2.2 Biais de classement

Synonymes : biais de mesure, biais d’information
Un biais de classement est un biais dans la mesure de l’élément soumis à évaluation ou du
critère de jugement. On ne classe pas correctement les sujets en « exposés/non exposés », ou
en « malades/non malades ».
En épidémiologie, on parle d’erreur différentielle lorsque les probabilités d'erreur de
classement sur la maladie sont différentes chez les exposés et chez les non-exposés (ou lorsque
les probabilités d'erreur de classement sur l’exposition sont différentes chez les malades et chez
les non-malades). Les erreurs différentielles peuvent conduire à une surestimation ou à une
sous-estimation de l’association (la valeur de l’odds-ratio ou du risque relatif peut être soit
augmentée soit diminuée).
Exemple de biais différentiel :

Biais de mémoire dans les études cas-témoin : les cas se souviennent davantage de
l’exposition que les témoins, cela va entrainer une surestimation de l’association (un OR plus
grand que ce qu’il devrait être).
On dit qu'une erreur de classement sur la maladie (ou sur le facteur de risque/exposition)
est non-différentielle lorsqu'elle survient indifféremment chez les exposés et chez les non-
exposés (ou chez les malades et chez les non-malades). Les erreurs non différentielles
conduisent à une sous-estimation de l’association exposition-maladie, autrement dit
rapprochent de 1 la valeur du risque relatif ou de l’odds-ratio.
D’une façon générale, il est préférable d’avoir des erreurs de classement non différentielles,
car elles tendent à sous-estimer l’association que l’on souhaite mettre en évidence.
 Comment limiter les biais de classement ?

Il convient d’y penser lors la planification de l’étude car après on ne pourra pas les
corriger.
- Éviter que les erreurs soient différentielles :

o Les procédures de suivi, de diagnostic, de recueil d’information doivent être
standardisées, objectives et identiques chez les exposés/non-exposés et
malades/non-malades.
o Utiliser une procédure d’aveugle à chaque fois que possible (enquêteurs en
aveugle des hypothèses de l’étude), former (contrôler) les enquêteurs
o Même délai entre exposition et interrogatoire pour les cas et les témoins
- Limiter les erreurs de mesure :
o Utiliser des définitions les plus précises (valides et reproductibles) possibles
pour l’exposition et la maladie

1.4.2.3 Biais de confusion
Un biais de confusion est lié à la présence d’un (ou plusieurs) facteur(s) de confusion non
contrôlé(s). Un facteur de confusion (confounding factor) est un facteur qui perturbe
l’association entre l’exposition au facteur étudié et la maladie.
Pour être un facteur de confusion, il faut que la variable soit liée à la fois au paramètre étudié
(maladie) et à l’exposition et ne soit pas un facteur intermédiaire.
 Le biais de confusion est propre aux études observationnelles (car dans les essais
contrôlés randomisés, la randomisation permet d’équilibrer les facteurs de confusion
connus et inconnus entre les 2 groupes).
Le facteur de confusion peut conduire à une surestimation ou une sous-estimation de
l’association (OR ou RR).
Contrairement aux autres biais (sélection et classement), il est possible de prendre en
compte le biais lié aux facteurs de confusion lors de l’analyse statistique. En effet, le biais
de confusion peut être en partie contrôlé par l’analyse statistique multivariée qui, en ajustant
sur les facteurs de confusion potentiels, permet de corriger l’estimation des OR ou RR. Cette
correction peut malheureusement n’être qu’imparfaite, on parle alors de confusion résiduelle.
La prise en compte des facteurs de confusion dans l’analyse nécessite au préalable que les
informations sur ces facteurs de confusion aient été renseignées.
D’autres moyens existent pour prendre en compte les facteurs de confusion lors de la
planification de l’étude
- L’appariement sur un ou deux facteurs de confusion souvent utilisé dans les études
cas témoin
- La stratification (l’analyse séparée chez les hommes et les femmes par exemple) ou la
restriction à une strate
 Ces méthodes sont expliquées dans la partie 2.2 sur les études étiologiques.

En résumé :
- Le biais de confusion est le seul biais qu’on peut prendre en compte au moment de
l’analyse.
- Il existe 3 manières de prendre en compte les facteurs de confusion :
o Ajustement (modèle multivarié) au moment de l’analyse
o Appariement dans les études cas témoin sur un ou plusieurs facteurs de
confusion connus (par exemple âge et sexe)
o Stratification ou restriction à un sous-groupe particulier
1.4.3 Quels sont les réflexes à avoir ?
Il faut savoir repérer et décrire un biais, c’est-à-dire :

- expliquer en quoi c’est un biais
- en donner le type (parmi : biais de sélection, biais de classement (ou d’information),
biais de confusion, plus quelques biais plus spécifiques de certains types d’article que
nous verrons par la suite),
- en donner le sens lorsque c’est possible (surestimation ou sous-estimation de
l’association)
- en évaluer l’intensité et l’impact potentiel sur le résultat
- déterminer s’il s’agit d’un biais différentiel ou non, c'est-à-dire s’il modifie le résultat
de la même façon pour tous les groupes.
1.4.4 Définition de la validité interne
La validité interne peut être définie comme la qualité méthodologique de l’étude c'est-à-dire
le contrôle des différents biais potentiels.
L’évaluation de la validité interne passe par la recherche des défauts méthodologiques de
l’étude et des biais potentiels.
Une étude avec une méthodologie adéquate, permettant de limiter le risque de biais pour les
principaux biais évoqués, aura une bonne validité interne.

1.5 Validité externe
La validité externe d’une étude peut se définir comme la transposabilité (applicabilité,
généralisabilité) des résultats à la pratique courante.
Son évaluation repose sur les éléments suivants :

- Caractéristiques des patients inclus dans l’étude : la population de patients inclus
dans l’étude correspond-elle à la population de patients à laquelle on appliquera les
résultats ? Autrement dit, la population incluse dans l’étude est-elle représentative
de la population cible ? Si les patients inclus dans l’essai sont plus jeunes et moins
sévères que la population de patients habituellement pris en charge, les résultats de
l’essai seront difficilement applicables à la pratique courante.
- Caractéristiques des centres : les résultats des études monocentriques sont moins
généralisables que les résultats des études multicentriques. Le niveau d’expertise
des centres est également à prendre en compte pour évaluer la transposabilité des
résultats. Par exemple, si un essai est réalisé dans un centre de référence universitaire
avec un volume d’activité important, les résultats ne seront pas forcément
généralisables à des centres pratiquant moins d’interventions ou avec un plateau
technique différent.
- Caractéristiques des pays : par exemple, les résultats des études réalisées en Chine
ne sont pas forcément généralisables en France.
- Caractéristiques des interventions dans les essais : est-il possible de reproduire les
interventions évaluées dans l’essai dans notre contexte de soins ? Les interventions
sont-elles suffisamment bien décrites pour être reproduites ?
L’effectif d’une étude intervient également dans l’évaluation de la validité externe. En effet,
une étude de petite taille aura une moins bonne validité externe qu’une étude de grande taille.
Attention toutefois, une étude de grande taille ne garantit pas une bonne validité externe car il
faut également évaluer la représentativité de la population (les caractéristiques des patients).

1.6 Niveau de preuve d’une étude
Le niveau de preuve d’une étude dépend de l’adéquation de l’étude à la question posée ainsi
que de l’existence de biais dans la planification ou la conduite de l’étude. La Haute autorité
de santé a établi une classification du niveau de preuve des études et une gradation des
recommandations (recommandations de bonne pratique) selon le niveau de preuve des études
sur lesquelles les recommandations s’appuient.
Niveaux de preuve scientifique de la littérature et grade des recommandations (adapté de la

Haute Autorité de Santé)
Niveau de
preuve
Grade des
scientifique Type d'étude
recommandations
fourni par la
littérature
- Essais comparatifs randomisés de forte

puissance GRADE A
Niveau 1 - Méta-analyses d'essais comparatifs randomisés
- Analyse de décision fondée sur des études bien Preuve scientifique
menées établie
- Essais comparatifs randomisés de faible
puissance
Niveau 2 GRADE B
- Études comparatives non randomisées bien
Présomption
menées
scientifique
- Études de cohorte
Niveau 3 - Études cas-témoin
- Études comparatives comportant des biais
importants GRADE C
Niveau 4 - Études rétrospectives

- Séries de cas Faible niveau de
- Études épidémiologiques descriptives preuve scientifique
(transversales, longitudinales)

1.7 Rappels de biostatistiques à connaître
Vous n’y couperez pas, il est indispensable de connaître les éléments de biostatistiques de base
pour évaluer de manière critique un article. En effet, il faut pouvoir interpréter les résultats et
vérifier que les analyses statistiques sont cohérentes avec l’objectif de l’étude. Les objectifs
pédagogiques sont :
- Vérifier que les analyses statistiques (en fonction de notions élémentaires) sont
cohérentes avec le projet de travail
- Analyser la présentation des résultats (présentation des tableaux et figures, vérification
de la présence des indices de dispersion)
- Critiquer l’analyse des résultats.
Globalement, l’analyse statistique suit toujours le même plan :

1) Analyse descriptive
2) Analyse univariée
3) Analyse multivariée
Les analyses réalisées dépendent du type de variable. Nous allons donc d’abord présenter
les différents types de variable puis nous décrirons chacune de ces 3 étapes selon le type de
variable.
1.7.1 Les différents types de variable
Une variable est un phénomène que l’on mesure. Une variable peut être selon le type d’étude
un facteur de risque, un facteur de confusion, un facteur pronostique, un critère de jugement.
Ces notions seront définies ultérieurement.
Les variables peuvent être de trois types différents :

1) Les variables quantitatives
- Une variable est dite quantitative quand cela a un sens de dire qu’un résultat
est plus grand ou plus petit qu’un autre (elle reflète une notion de grandeur).
Une variable peut être quantitative discrète (si elle ne peut prendre qu’un nombre
limité de valeurs comme la pression artérielle systolique) ou continue (si elle peut
prendre un nombre infini de valeurs comme la douleur sur une échelle visuelle
analogique continue).

2) Les variables qualitatives ou catégorielles
- Une variable qui ne reflète pas une notion de grandeur est une variable dite
qualitative. Il s’agit d’une variable en classes.
- Une variable est dite binaire quand elle ne peut prendre que 2 valeurs. Le
genre (masculin ou féminin) est un exemple de variable binaire.
3) Les variables censurées

- En médecine, on s’intéresse fréquemment au délai avant la survenue d’un
évènement, par exemple le décès. En effet, ce n’est pas la même chose de
décéder après un mois ou après un an de suivi. C’est le cas par exemple dans les
essais en cancérologie dans lesquels on veut montrer un bénéfice en termes de
durée de survie avec un nouveau traitement.
- La durée de survie est continue. Cependant, on aura une valeur pour les patients
décédés mais pas pour les patients survivants à la fin de l’étude. On sait
seulement que leur durée de survie dépasse leur durée de participation dans
l’étude. Afin d’analyser correctement ces patients, on doit définir une date de
point qui correspond à la fin de l’étude. Les patients qui ne sont pas décédés
(ou qui n’ont pas eu l’évènement) à la date de point sont censurés à cette
date. C’est pour cela que ces variables sont appelées variables censurées. Les
patients qui sont perdus de vue avant la date de point sont censurés à la
date de la dernière visite.
- Pour chaque patient, on va calculer sa durée de participation dans l’étude qui
va correspondre :
o Pour les patients décédés avant la date de point : délai entre la date
d’entrée dans l’étude et la date de décès
o Pour les patients toujours en vie à la date de point : délai entre la
date d’entrée dans l’étude et la date de point
o Pour les patients perdus de vue avant la date de point : délai entre
la date d’entrée dans l’étude et la date de la dernière visite
 Les évènements survenant après la date de point ne sont pas pris en compte.

Diagramme de suivi de 3 individus
En résumé pour les variables censurées :
- Elles permettent d’évaluer le délai avant la survenue d’un évènement
- Elles permettent de prendre en compte le fait que tous les patients n’ont pas
forcément la même durée de suivi
- Pour chaque patient, on aura son statut à la date de point (vivant ou mort/
évènement) pas d’évènement) et sa durée de participation
- Les analyses censurées sont également souvent appelées analyses de survie car
l’évènement étudié est souvent la mortalité mais elles peuvent concerner tout
évènement (par exemple, survenue d’un infarctus du myocarde ou d’une infection)
1.7.2 Analyse descriptive
La première étape de l’analyse statistique consiste à décrire l’ensemble des variables étudiées
dans l’échantillon.
Analyse descriptive des variables quantitatives

Toute variable quantitative doit être décrite avec un paramètre de position (ou paramètre
central) associé à un paramètre de dispersion qui permet de donner une estimation de la
dispersion (de la variabilité) de la mesure au sein de l’échantillon.
- Paramètres de position
o Moyenne
o Médiane (= 50e percentile) : valeur d’une variable quantitative qui permet de

séparer la population en 2 groupes de même effectif. Si par exemple l’âge
médian est de 37 ans, 50% de la population est âgée de 37 ans ou moins et
50% de plus de 37 ans.
Remarque : La médiane est moins sensible aux valeurs extrêmes que la moyenne (si quelques
personnes sont très âgées, la moyenne d’âge va beaucoup augmenter, mais pas la médiane).
Il est intéressant d’étudier la distribution de la variable dans l’échantillon et de distinguer les

variables qui ont une distribution dite « normale » de celles qui ont une distribution non
normale.
Pour tracer la distribution de la variable, on représente en abscisse les valeurs de la variable, et
en ordonnée, le nombre de patients.
Courbe de distribution normale d’une variable continue
Si la courbe a une forme de cloche

comme ci-contre, la variable a une
distribution normale. La moyenne est
alors un bon paramètre de position.
Si la courbe n’a pas cette forme de
cloche, il est préférable d’utiliser la
médiane.
- Paramètres de dispersion
o Ecart-type, variance (carré de l’écart-type) : représentent les « écarts à la
moyenne ». Plus la variance est élevée, plus le caractère est variable dans la
population. L’écart-type et la variance sont des paramètres de dispersion
classiquement associés à la moyenne.
o Intervalle interquartile : intervalle entre le 25e (1er Quartile) et le 75e percentile

(3ème Quartile). Accompagne la médiane : L’âge médian est de 37 ans (intervalle
interquartile : 28-48) » signifie que 25% de la population a moins de 28 ans,
25% entre 28 et 37 ans, 25% entre 37 et 48 ans et 25% plus de 48 ans.
Analyse descriptive des variables qualitatives

Elle repose sur le calcul du nombre de patients ayant la caractéristique et de la proportion
par rapport à l’ensemble de l’échantillon.
Par exemple, l’échantillon composé de 563 individus comportait 445 femmes (79%) et 118
(21%) hommes.

Les études descriptives peuvent avoir pour objet d’évaluer la prévalence ou l’incidence
d’une pathologie.
- Prévalence
La prévalence mesure la proportion de malades présents dans la population à un
moment donné.
La prévalence se calcule par la formule :
𝑀 𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑎𝑙𝑎𝑑𝑒𝑠
𝑃𝑟é𝑣𝑎𝑙𝑒𝑛𝑐𝑒 = =
𝑁 𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 𝑡𝑜𝑡𝑎𝑙𝑒 à 𝑢𝑛 𝑚𝑜𝑚𝑒𝑛𝑡 𝑑𝑜𝑛𝑛é
La prévalence intègre 2 dimensions différentes : la durée de la maladie (plus la maladie dure

longtemps, plus le nombre de malades est important) et la vitesse d’apparition de nouveaux
cas de la maladie dans la population. Plus celle-ci est grande, plus la prévalence augmente).
- Taux d’incidence
Le taux d’incidence quantifie le nombre de nouveaux cas de malades qui surviennent
dans la population pendant une période de temps donnée.
𝑚 𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑛𝑜𝑢𝑣𝑒𝑎𝑢𝑥 𝑐𝑎𝑠 𝑝𝑒𝑛𝑑𝑎𝑛𝑡 ∆𝑡
𝑇𝑎𝑢𝑥 𝑑 ′ 𝑖𝑛𝑐𝑖𝑑𝑒𝑛𝑐𝑒 = =
𝑃𝑇 𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑝𝑒𝑟𝑠𝑜𝑛𝑛𝑒𝑠𝑡𝑒𝑚𝑝𝑠 à 𝑟𝑖𝑠𝑞𝑢𝑒 𝑝𝑒𝑛𝑑𝑎𝑛𝑡 ∆𝑡
Avec PT : Nombre de Personnes-Temps à risque cumulé sur la période c'est-à-dire la
somme cumulée des durées pendant lesquelles les non-malades sont « à risque » de
devenir malade.
Le taux d’incidence nécessite de préciser sur quelle période de temps le compte est fait.
Le taux d’incidence mesure une vitesse moyenne d’apparition de nouveaux cas sur
l’ensemble des sujets de la population et de la durée totale de leur suivi.
Analyse descriptive des variables censurées

Dans une analyse portant sur des variables censurées, on s’intéresse au risque instantané de
décès ou plus généralement de survenue de l’évènement.
Le risque instantané d’un événement représente la probabilité de présenter cet événement
à un moment donné, sachant qu’il n’est pas survenu précédemment.
L’analyse descriptive des variables censurées repose sur la réalisation de courbes dites de
survie (bien que le critère qui nous intéresse ne soit pas toujours le décès, cela peut être une
infection, un infarctus du myocarde,…). Cette courbe est généralement tracée avec la méthode
de Kaplan-Meier.

La méthode de Kaplan-Meier permet de représenter, à chaque temps d’événement, le
pourcentage de sujets n’ayant pas encore présenté l’événement d’intérêt.
En abscisse, est représentée la durée de suivi.
En ordonnée, la probabilité (entre 0 et 1) de ne pas avoir présenté l’évènement ou la
proportion de patients (entre 0% et 100%) n’ayant pas encore présenté l’évènement.
La courbe commence à 1 (ou 100%) au temps 0, puisqu’au début de l’étude aucun patient n’a
présenté l’évènement. La courbe est décroissante, puisqu’au cours du temps certains patients
vont présenter l’évènement.
Exemple de courbe de Kaplan-Meier
Le suivi était de 24 mois dans cette étude.

Ici, l’évènement étudié est la conception (chez des femmes subfertiles). L’axe des ordonnées
représente donc la probabilité de ne pas concevoir au cours du temps.

On peut estimer la durée médiane de survenue de l’événement à partir d’une courbe de
Kaplan-Meier. C’est la durée de suivi pour laquelle 50% des sujets n’ont pas encore eu
l’événement.
La médiane de survie correspond au temps pour lequel la probabilité de survie est de 0.5
(ou bien pour lequel il y a 50% des patients qui sont décédés).
Estimation de la médiane de survie d’après une courbe de Kaplan-Meier
Dans cette étude, la durée médiane avant conception après une laparoscopie et une
hydrotubation chez des femmes ayant des problèmes de fertilité était de 6 mois.
Remarque :
Si moins de 50% des sujets ont présenté l’événement au cours du suivi, on ne peut
estimer la durée médiane de survenue de l’événement.

Une autre présentation des données de survie, équivalente à la courbe de Kaplan-Meier, consiste
à représenter la proportion de sujets ayant présenté l’événement au cours du temps (incidence
cumulée). La courbe est alors inversée : elle commence à 0 (personne n’a encore présenté
l’événement au temps 0) et la courbe est croissante au cours du temps.
On peut également estimer la médiane de survenue de l’évènement de la même manière.
Exemple de courbe d’incidence cumulée
Dans cet exemple, il n’est pas possible d’estimer la médiane de survenue d’une tachyarythmie
atriale car moins de la moitié de la population a présenté l’évènement.

1.7.3 Analyse univariée
L’analyse univariée est l’étude de l’association entre deux variables.

Ces deux variables peuvent être un facteur de risque et une maladie, un facteur pronostique et
un évènement, une intervention et un critère de jugement, …
On cherche à déterminer si l’association entre les 2 variables au niveau d’un échantillon est
due à une différence réelle dans la population ou peut être le simple fait du hasard.
Cette analyse peut se faire de deux manières différentes :

- Avec des tests statistiques (par exemple, test du Chi 2)
- Avec un modèle de régression à une seule variable
1.7.3.1 Tests statistiques
Rappels des hypothèses et des définitions

La réalisation d’un test statistique repose sur 2 hypothèses :
- L’hypothèse nulle (H0) : il n’y a pas de différence entre les 2 groupes
o Par exemple dans le cadre d’un essai clinique :
o Le traitement A a la même efficacité que le traitement B
- L’hypothèse alternative (H1): il y a une différence entre les 2 groupes
o Par exemple dans le cadre d’un essai clinique :
o Le traitement A et le traitement B ont des efficacités différentes
La réalisation d’un test statistique nécessite de fixer des risques d’erreur :

- Le premier risque d’erreur est considéré comme le plus grave. Il s’agit du risque de
conclure à une différence qui n’existe pas en réalité. C’est le risque alpha. Il est
généralement fixé à 5%.
- L’autre risque d’erreur est le risque beta défini par le risque de ne pas mettre en
évidence une différence qui existe (c’est le manque de puissance).

Rappels des paramètres d’un test statistique (à connaître)
Paramètre du test Définition Valeur
Probabilité de conclure à une
différence qui n’existe pas en réalité En général fixé à
Risque alpha (risque de
1ère espèce) Ou 5%
Probabilité d’accepter H1 si H0 est vraie
Probabilité de ne pas mettre en
évidence une différence qui existe en
réalité 1 - puissance
Risque beta (risque de 2nde
espèce) Ou
Probabilité de ne pas rejeter H0 quand
H1 est vraie
Probabilité de mettre en évidence une
différence qui existe en réalité En général
Puissance
Ou supérieure à 80%
Probabilité de rejeter H0 si H1 est vraie
Avec les hypothèses présentées ci-dessus, le test est dit bilatéral car la différence entre
traitement A et traitement B peut aller dans les 2 sens.
Dans certains articles, les auteurs font un test unilatéral : ils font l’hypothèse que la différence
ne peut aller que dans un sens, c'est-à-dire que l’un des 2 traitements est supérieur à l’autre.
 Il est recommandé de faire des tests bilatéraux. La réalisation d’un test unilatéral
impose une correction du risque alpha qui devrait être à 2.5% mais cela n’est pas
fréquemment fait en pratique par les auteurs.
Interprétation du résultat d’un test statistique

Le résultat du test statistique est le p ou degré de significativité (ou degré de signification).
Il s’agit de la probabilité que le hasard puisse expliquer à lui tout seul une différence au
moins aussi grande que celle observée. C’est donc une indication de la certitude avec
laquelle on peut conclure à une différence significative. Si le risque alpha est de 5% :

Exemple 1 :
“At the end of the 12-week treatment courses, 27% of patients treated with efalizumab (98/369)
achieved PASI-75 compared with 4% of patients who received placebo (8/187), p<0.001”
Dans cet exemple, p<0.05, il y a une association significative entre le traitement et le PASI-
75 qui est le critère de jugement principal de l’étude. p<0.001 signifie qu’il y a moins d’une
chance sur 1000 que le hasard puisse expliquer à lui tout seul une différence au moins
aussi grande que celle qu’on a observée (27% vs. 4%).
Exemple 2 :
“Overall, 32 of the 229 (14%) had complete clearance of all plantar warts at 12 weeks,
corresponding to 17/119 (14%) patients in the salicylic acid group and 15/110 (14%) patients
in the cryotherapy group, p=0.89”
Dans cet exemple, p >0.05, la probabilité de disparition de la verrue plantaire (le critère
de jugement principal) ne diffère pas significativement entre les 2 groupes de traitement
(acide salicylique et cryothérapie). On ne peut rien conclure d’autre. Notamment, on ne
peut pas conclure que les 2 traitements ont une efficacité équivalente en termes de
disparition de la verrue.

Remarque 1 : Les tests statistiques n’indiquent pas l’importance d’une différence. Ce
n’est pas parce que la différence est statistiquement significative qu’elle est cliniquement
pertinente. Si vous faites une étude incluant un grand nombre de sujets, vous aurez une forte
puissance statistique pour montrer des différences statistiquement significatives pour de faibles
différences (sans aucun sens clinique).
Remarque 2 : le p est une mesure a posteriori. Dans une étude si vous avez p=0.01 et qu’on
vous demande quel est le risque alpha, celui-ci reste de 5%. La probabilité de se tromper en
concluant à une différence qui n’existe pas reste de 5%.
Les tests statistiques à connaître

Le choix du test statistique dépend du type de variable que l’on veut évaluer.
- Pour comparer une variable qualitative (par exemple le sexe) entre 2 groupes :
o Test du Chi 2 (test paramétrique)
o Test exact de Fisher (test non paramétrique)
- Pour comparer une variable quantitative (par exemple l’âge) entre 2 groupes :
o Test t de Student si la variable quantitative a une distribution normale.
o Test de Wilcoxon si ce n’est pas le cas (exemple : dosage des leucocytes) (test
non paramétrique).
Remarque : Un test est dit paramétrique quand on fait des hypothèses sur la distribution des
variables (par exemple, pour un critère de jugement continu, on fait fréquemment l’hypothèse
d’une distribution normale). Un test est dit non-paramétrique quand on ne fait aucune hypothèse
sur la distribution des variables.
- Pour comparer une variable censurée (par exemple la survie) entre 2 groupes :
o Test du log rank qui permet de comparer les courbes de survie entre les 2
groupes

Exemple :
Un essai contrôlé randomisé a comparé l’incidence cumulée de tachyarrhythmie atriale
(critère de jugement principal) chez des patients traités par amiodarone (intervention) et par
placebo (contrôle).
Le test du log-rank montre un p<0.001. On peut conclure à une différence significative en

faveur de l’amiodarone.
Attention, le test du log-rank compare globalement les deux courbes. On ne peut pas
dire qu’il devient significatif quand les courbes se séparent.
1.7.3.2 Mesure de l’association entre deux variables
Mesure de l’association entre deux variables qualitatives

Les paramètres permettant d’évaluer l’association entre deux variables qualitatives
(typiquement la mesure de l’association entre un facteur de risque et une maladie ou entre un
facteur pronostique et un évènement tel que le décès) sont :
- Le risque relatif
- L’odds ratio
- Le hazard ratio

Lorsque l’on parle de mesure d’association entre une exposition et une maladie, il est souvent
utile de faire un « tableau 2x2 » comme suit :
E+ E- M+ : malades
M+ a b m1 M- : non malades
M- c d m0 E+ : exposés
n1 n0 E- : non exposés
Risque relatif Odds ratio
Le risque relatif (RR) est le rapport des L’odds ratio (OR) est une autre mesure
proportions de malades chez les exposés possible de l’intensité de l’association entre
(a/n1) et les non exposés (b/n0). deux facteurs qui est fréquemment utilisée car
on peut le calculer quel que soit le type
𝑎
𝑛 d’étude (contrairement au risque relatif). Il
𝑅𝑅 = 1 s’agit d’un rapport des rapports ou d’un
𝑏
𝑛0 rapport des cotes.
Par exemple, si le RR vaut 2,2 dans la 𝑎

𝑎𝑑
population, on peut dire que le risque de 𝑂𝑅 = 𝑐 =
𝑏 𝑏𝑐
maladie chez les exposés est 2,2 fois plus 𝑑
élevé que chez les non-exposés.
Il est moins facile à interpréter que l’odds
ratio.
L’odds ratio peut être obtenu avec un modèle

de régression logistique qui s’écrit de la
manière suivante :
𝑌 (𝑚𝑎𝑙𝑎𝑑𝑖𝑒) = (𝑎 × 𝑓𝑎𝑐𝑡𝑒𝑢𝑟 𝑑′ 𝑒𝑥𝑝𝑜𝑠𝑖𝑡𝑖𝑜𝑛)

+ 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒
Remarque : On ne peut pas calculer un Remarque : Lorsque la prévalence de la

risque relatif dans une étude cas témoin maladie est faible (maladie relativement rare)
dans la population (moins de 10% environ),
l’OR est proche du RR. On pourra interpréter
l’OR comme un RR c'est-à-dire dire ‘le
risque de cancer du poumon est 3.2 fois plus
élevé chez les tabagiques que chez les non-
tabagiques’ pour un OR=3.2.
Hazard ratio
Le hazard ratio (hazard = risque en Anglais) est l’équivalent du risque relatif pour des
variables censurées. Il correspond au rapport des risques instantanés de chaque groupe.
Le hazard ratio s’interprète comme un risque relatif.

Le hazard ratio peut être obtenu par un modèle de Cox (modèle pour données censurées)
Important : Risque relatif, odds ratio, hazard ratio doivent toujours être présentés avec
leur intervalle de confiance à 95%
En pratique, l’intervalle de confiance permet de :
 Donner une idée de la précision de l’estimation : plus l’intervalle est étroit, plus
l’estimation est précise ; à l’inverse, plus l’intervalle est large, moins l’estimation est
précise
 Déterminer si l’association est statistiquement significative. Si l’intervalle de
confiance d’un RR, OR, HR ne contient pas la valeur 1 alors on peut conclure
qu’il y a une association statistiquement significative.
Exemples :
 RR = 1,8 ; IC95% : 1,2 – 2,5  RR significativement différent de 1
 RR = 2,5 ; IC95% : 0,8 – 3,2  RR non significativement différent de 1
Remarque :
Il revient au même de faire un test statistique et regarder si p est inférieur à 0,05 et de regarder
si l’IC à 95% d’un RR, OR ou HR contient la valeur 1.
Mesure de l’association entre une variable qualitative et une variable quantitative

Il s’agit notamment de l’étude de l’association entre l’exposition à un facteur quantitatif
(comme l’âge) et une maladie. On estimera également des odds ratios et des hazards ratio avec
leur intervalle de confiance à 95%.
 Attention, ils doivent s’interpréter pour une augmentation d’une unité de la variable
quantitative.
Exemple :
Dans une étude évaluant l’association entre l’âge (exprimé en années) et la survenue d’un
AVC, l’Odds ratio est de 1.05 (IC 95% 1.01-1.10). Cela signifie que le risque de faire un
AVC augmente de 5% pour chaque année supplémentaire (si on suppose que la prévalence
de l’AVC est faible afin d’interpréter l’Odds ratio comme un risque relatif (et qu’il existe une
relation log-linéaire entre l’âge et la survenue d’un AVC)).
Mesure de l’association entre deux variables quantitatives

Pour mesurer l’association entre deux variables quantitatives, on calculera un coefficient de
corrélation entre ces deux variables qui peut varier entre -1 (les 2 variables sont totalement

corrélées et varient en sens contraire) et 1 (les 2 variables sont totalement corrélées et varient
dans le même sens). On teste si ce coefficient de corrélation est significativement différent de
0. Une corrélation de 0 correspond à une absence de dépendance mais cela ne signifie pas que
les variables sont indépendantes.
1.7.4 Analyse multivariée
L’analyse multivariée permet d’étudier l’association entre une ou plusieurs variables et

la maladie ou un évènement d’intérêt en prenant en compte (en ajustant sur) des facteurs
de confusion.
Les facteurs significatifs dans cette analyse sont dits facteurs indépendamment associés à
la maladie ou à l’évènement.
Cette analyse est l’analyse la plus importante pour les études observationnelles (cohorte ou
cas témoin) parce qu’elle permet de prendre en compte les facteurs de confusion.
En théorie, on n’a pas besoin de faire d’analyse multivariée dans les essais contrôlés randomisés
car, grâce à la randomisation, les deux groupes sont comparables pour tous les facteurs de
confusion connus ou inconnus.
L’analyse multivariée fait appel à des modèles de régression (multivariés car comprenant
plusieurs variables).
Le principe est de prédire la valeur d’une variable qui est le critère de jugement (par exemple
la maladie) en fonction d’autres variables (facteurs de risque potentiels et facteurs de
confusion). On les appelle respectivement la variable à expliquer et les variables explicatives.
Le modèle peut s’écrire comme suit :
𝑌 (𝑚𝑎𝑙𝑎𝑑𝑖𝑒) = [𝑎 × 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑒 1] + [𝑏 × 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑒 2] + ⋯
+ 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒
C’est-à-dire : 𝑌 = 𝑎𝑋1 + 𝑏𝑋2 + ⋯ + 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒
- Cas d’une variable à expliquer binaire (par exemple maladie : oui/non

o On utilise un modèle de régression logistique.
o Pour chaque variable explicative introduite dans le modèle, on obtiendra un
OR ajusté et son IC à 95%.
o Sens de l’interprétation : Si la variable à expliquer est un évènement négatif
(maladie, décès à 30 jours, infection,…) :
 Un OR significativement <1 indique un facteur protecteur
 Un OR significativement > 1 indique un facteur de risque
 Ceci est évidemment également valable pour l’analyse univariée.

Exemple : Dans cette étude cas témoin, on a recherché les facteurs de risque d’infection
urinaire récidivante résistante aux antibiotiques.
Le tableau ci-dessous présente les résultats de l’analyse multivariée c'est-à-dire les ORs
ajustés.
Pour chaque variable, on a une catégorie de référence comme indiqué dans le tableau. L’OR
dans la catégorie de référence vaut 1 par définition (valeur nulle).
Les variables qui sont indépendamment associées aux infections urinaires récidantes antibio-
résistantes sont (ce sont celles pour lesquelles l’IC à 95% n’incluent pas la valeur 1):
- L’ethnie (OR=0.21 (IC 95 0.07-0.63) pour l’ethnie caucasienne c'est-à-dire un rôle
protecteur car l’OR est <1)
- l’âge (OR=0.26 (IC 95 0.09-0.80) pour un âge de 2 à 6 ans c'est-à-dire un rôle
protecteur car l’OR est <1)
- le fait d’avoir reçu des antibiotiques (OR=7.60 (IC 95 1.60-35.17) c'est-à-dire facteur
de risque car l’OR est > 1)

- Cas d’une variable à expliquer censurée (par exemple délai avant décès ou
incidence cumulée d’infarctus du myocarde)
o On utilise un modèle de Cox.
o Pour chaque variable explicative introduite dans le modèle, on obtiendra un
HR ajusté et son IC à 95%.
o Sens de l’interprétation : Si la variable à expliquer est un évènement négatif
(décès, infarctus du myocarde,…) :
 Un HR significativement <1 indique un facteur protecteur
 Un HR significativement > 1 indique un facteur de risque
 Ceci est évidemment également valable pour l’analyse univariée.

1.7.5 Cas particulier du test de tendance (trend test)
Le test de tendance que l’on retrouve le plus souvent dans les études observationnelles permet
de tester s’il existe une tendance entre une exposition en catégories croissantes (variable
qualitative ordinale) et la survenue d’une maladie. Quand le test de tendance est significatif,
cela signifie que plus la consommation augmente, plus le risque de survenue de la maladie
augmente et c’est en faveur d’une relation de type dose effet, qui fait partie des critères de
Bradford Hill en faveur d’un lien causal.
Exemple
(source article : Cao et al., The BMJ, 2015)
Dans cet article, les auteurs évaluent l’association entre la consommation d’alcool qui est
définie en 6 catégories croissantes allant de 0 à plus de 45g/jour et le risque de cancer. Ils
effectuent deux modèles : un modèle ajusté sur l’âge et un modèle multivarié ajusté sur l’âge
ainsi que sur un certain nombre de facteurs de confusion. Pour chacun de ces modèles, on a
deux niveaux d’information (qu’il ne faut pas mélanger):
- Est-ce que telle catégorie de consommation d’alcool est associée à un risque accru
de cancer par rapport à la catégorie de référence (0g/j d’alcool, représenté par un
RR=1)? Pour analyser cela, il faut regarder l’intervalle de confiance à 95% de la
catégorie concernée. S’il n’inclut pas 1, cela signifie qu’il y a une association
significative entre cette catégorie et le risque de cancer par rapport à une
consommation nulle d’alcool (la catégorie de référence). Par exemple, selon le
modèle multivarié, il y avait une association significative entre le fait de consommer
de 30 à 44g/j d’alcool et le risque de cancer par rapport à l’absence de consommation
d’alcool car RR=2.21 (IC à 95% 1.12-1.32 n’incluant pas 1).
- Est-ce qu’il existe une tendance entre la consommation d’alcool et le risque de
cancer ? Pour répondre à cette question, c’est le p du test de tendance qu’il faut
regarder. Ici il était significatif avec un p<0.0001 ce qui signifie que, globalement,
plus la consommation d’alcool augmente plus le risque de cancer augmente. Ce
résultat est en faveur d’une relation de type dose effet entre la consommation d’alcool
et le risque de cancer.
 Attention, un test de tendance significatif ne signifie pas que les catégories diffèrent
entre elles ni que chaque catégorie est significativement associée à l’outcome.
 Enfin, attention à ne pas confondre le test de tendance avec le test d’interaction.
1.7.6 Cas particulier du test d’interaction
On retrouve principalement le test d’interaction quand on fait une analyse en sous-groupe, cela
peut être dans un essai randomisé mais également dans une étude observationnelle. Le test
d’interaction évalue si l’effet traitement dans un essai randomisé (ou l’association entre le
facteur d’exposition et l’outcome dans une étude observationnelle) diffère selon un tiers facteur.
Si le test d’interaction est significatif, cela signifie que l’effet traitement (ou l’association entre
l’exposition et l’outcome dans une étude observationnelle) varie (ou diffère) significativement
selon le tiers facteur autrement dit le tiers facteur a un effet modificateur sur l’effet traitement
ou l’association ou encore le tiers facteur est un facteur d’interaction dans la relation entre
l’exposition et l’outcome.
Exemple (source article : Emdin et al., The BMJ, 2015)
Dans cette étude observationnelle, les auteurs ont regardé l’association entre pression
artérielle systolique de 20 mmHg ou plus et risque de maladie artérielle périphérique.
- Le résultat global est représenté tout en bas de la figure (ligne overall) avec un
HR=1.63 et un IC à 95% ne comprenant pas la valeur 1 ce qui signifie qu’il y avait
une association significative entre une pression artérielle systolique élevée et la
survenue d’une maladie artérielle périphérique.
- Les auteurs présentent ici des analyses en sous-groupe selon l’âge, le sexe, le BMI et
le tabagisme. Le test d’interaction permet à chaque fois d’évaluer si l’association

entre pression artérielle systolique élevée et maladie artérielle périphérique diffère
selon le facteur étudié. La valeur du p du test d’interaction pour l’âge est inférieure à
0.001 donc significative. Cela signifie que l’association entre pression artérielle
systolique élevée et survenue d’une maladie artérielle périphérique variait
significativement selon l’âge. On peut également dire que l’âge était un facteur
d’interaction dans la relation entre pression artérielle systolique élevée et survenue
d’une maladie artérielle périphérique ou bien que l’âge avait un effet modificateur sur
cette association.
- En revanche pour le sexe, la valeur du p pour le test d’interaction est égale à 0.726,
donc non-significative. Cela signifie que l’association entre pression artérielle
systolique élevée et survenue d’une maladie artérielle périphérique ne variait pas
significativement selon le sexe autrement dit ne différait pas significativement entre
les hommes et les femmes ou encore que le sexe n’était pas un facteur d’interaction
dans la relation entre pression artérielle systolique élevée et survenue d’une maladie
artérielle périphérique dans cette étude.
On a également deux niveaux d’information dans cette figure :
- L’information concernant l’interprétation du test d’interaction (est ce que
l’association entre pression artérielle systolique élevée et survenue d’une maladie
artérielle périphérique diffère selon un tiers facteur) que nous venons de détailler
- L’information concernant l’association entre pression artérielle systolique élevée et
survenue d’une maladie artérielle périphérique dans un sous-groupe donné par
exemple chez les femmes et là, c’est l’IC à 95% pour les femmes qu’il faut regarder.
S’il n’inclut pas 1, cela signifie que l’association entre pression artérielle systolique
élevée et survenue d’une maladie artérielle périphérique était significative chez les
femmes.

Récapitulatif des différentes étapes de l’analyse statistique selon le type de variable
Critère de jugement censuré

Critère de jugement binaire Critère de jugement continu
Ex: mortalité, survenue
Ex: Mortalité à 30 jours Exemple: douleur, qualité de vie
d’infarctus du myocarde
Moyenne ET écart-type
Courbe de Kaplan-Meier
Etape 1 : analyse descriptive Fréquences et pourcentages Médiane ET minimum-
(médiane de survie)
maximum ou Q1-Q3
Test t de Student (paramètrique)

Test du Chi 2 (paramètrique)
Etape 2 : analyse univariée ou Test de Wilcoxon (non
Test du Log rank
bivariée Test exact de Fisher (non paramètrique)
Tests statistiques paramètrique)
Modèle de Cox univarié (HR
Mais aussi modèles statistiques Test de Mann Whitney (non
brut)
univariés (1 seule variable explicative) Régression logistique univariée paramètrique)
(OR brut) R
égression linéaire univariée
Etape 3 : analyse multivariée
Régression logistique Modèle de Cox multivarié
Modèles statistiques multivariés
multivariée  Permet d’obtenir un HR
(plusieurs variables explicatives) Régression linéaire multivariée
 Permet d’obtenir un OR ajusté ajusté
Permet l’ajustement sur un ou
plusieurs facteurs de confusion

2 ème partie : Spécificités des différents types d’articles
2.1 Evaluation d’un traitement

2.2 Evaluation étiologique (évaluation de facteurs de risque)
2.3 Evaluation de facteurs pronostiques
2.4 Evaluation d’un test diagnostique
2.5 Evaluation d’une intervention de dépistage
2.6 Revues systématiques et méta-analyses

2.1 Evaluation d’un traitement
Points clés :
La référence pour évaluer l’efficacité d’un traitement est l’essai contrôlé, randomisé, en
double aveugle (quand cela est possible), avec analyse en intention de traiter. C’est ce
schéma qui permet de limiter les biais et d’avoir une comparabilité des groupes pendant
la durée de l’étude
- Comparabilité initiale = randomisation
- Maintien de la comparabilité des groupes pendant l’étude et l’analyse
o Double aveugle
o Analyse en intention de traiter
Le critère de jugement principal doit être pertinent et il faut vérifier si son évaluation est
objective
Pour conclure, il faut que le résultat pour le critère principal soit significatif mais il faut
également se poser la question d’une différence cliniquement pertinente

2.1.1 Formulation de l’objectif
L’objectif doit être formulé de manière claire et complète. Pour cela, on peut utiliser le moyen
mnémotechnique PECO ou PICO :
- P=Population concernée
- E ou I=Intervention thérapeutique évaluée
- C=Intervention dans le groupe contrôle (le comparateur)
- O=outcome (critère de jugement principal)
Par exemple, évaluer l’efficacité sur la mortalité à 30 jours (O) d’un traitement par
hydrocortisone (E) par rapport à un placebo (C) chez des patients en choc septique (P).
La question posée doit être pertinente au vue de la littérature existante sur le sujet. Un essai
devrait être réalisé s’il s’agit d’un nouveau traitement dans la pathologie étudiée, d’un
traitement qui n’a pas démontré son efficacité ou d’un traitement pour lequel les résultats des
études antérieures sont discordants.
2.1.2 Type d’étude
L’essai contrôlé randomisé est la référence pour évaluer l’efficacité d’une intervention car il
permet de limiter les biais et apporte (en théorie) le niveau de preuve scientifique le plus
élevé.
Il s’agit en général d’un essai de phase 3 dont les résultats peuvent conduire à l’autorisation de
mise sur le marché.
Rappel des différentes phases d’un essai portant sur le médicament (tiré de l’abrégé Masson de
Santé Publique)
Le terme « contrôlé » signifie qu’il y a un groupe contrôle (recevant par exemple un placebo)
et que l’on contrôle la comparabilité des groupes tout au long de l’étude.

Le plus souvent, l’essai contrôlé randomisé est un essai à 2 bras parallèles ce qui signifie que
les patients reçoivent un des deux traitements à l’étude selon le résultat de la randomisation)
selon le schéma suivant :
Schéma de l’essai à 2 bras parallèles
Le plus souvent, également, il s’agit d’un essai dit de supériorité dont l’objectif est de montrer
que le nouveau traitement est supérieur à un placebo ou à un traitement de référence.
Afin de limiter au maximum le risque de biais, l’essai devrait être en double aveugle avec
analyse en intention de traiter comme nous allons le voir un peu plus loin.
Enfin l’essai peut être monocentrique s’il est réalisé dans un seul centre ou multicentrique
s’il est réalisé dans plusieurs centres. C’est une notion importante car elle influence la validité
externe de l’essai. Les résultats d’un essai monocentrique sont moins transposables à la
pratique qu’un essai multicentrique, la validité externe sera donc moindre dans un essai
monocentrique.
2.1.3 Choix du comparateur (de l’intervention dans le groupe

contrôle)
Le choix du comparateur est un élément important à évaluer. Ce choix dépend de la pathologie

étudiée.
S’il existe un traitement ayant fait la preuve de son efficacité dans cette pathologie, ce traitement
devrait être le comparateur. Si aucun traitement n’a fait la preuve de son efficacité dans la
pathologie étudiée, le groupe contrôle devrait recevoir un placebo.

Choix du comparateur
Remarque :
Malheureusement, même dans les pathologies pour lesquelles il existe des traitements ayant
montré leur efficacité, les essais sont fréquemment réalisés contre placebo.
Ces essais ont un intérêt limité car ils ne permettent pas de savoir si le nouveau traitement a un
intérêt par rapport aux traitements existants (on pourra juste conclure que le traitement fait
mieux que le placebo s’il existe une différence significative pour le critère de jugement
principal).
Ils ne permettent donc pas de répondre à la question la plus importante pour le médecin à
savoir : dans cette pathologie, quel est le meilleur traitement à donner à mon patient ?
Exemple : Un essai dans le psoriasis modéré à sévère a évalué un nouveau traitement,
l’efalizumab, par rapport à un placebo alors qu’il existe des traitements systémiques dans cette
pathologie comme le methotrexate.
2.1.4 Randomisation
La randomisation est le tirage au sort des patients permettant une répartition au hasard
(aléatoire) des patients dans deux ou plusieurs groupes.
La randomisation, si elle est bien faite, tend à obtenir des groupes comparables pour tous
les facteurs pronostiques connus et inconnus, afin que toute différence entre les 2 groupes ne
puisse être attribuée qu’au traitement reçu.
Attention, la randomisation concerne la comparabilité initiale des groupes et non la
comparabilité pendant la durée de l’étude.

La qualité de la randomisation est un élément clef pour évaluer la validité interne d’un essai
contrôlé randomisé. Elle repose sur 3 points :
1) La génération de la séquence de randomisation
2) L’assignation secrète (la clause d’ignorance)
3) La vérification de la comparabilité initiale des groupes
Si l’un de ces 3 éléments pose problème, il y a un risque de biais de sélection.
2.1.4.1 Génération de la séquence de randomisation

La méthode utilisée pour générer la liste de randomisation doit permettre une allocation
« totalement aléatoire ».
- Méthodes adéquates = « aléatoires »
o séquence informatique
o table de nombres aléatoires (random number table) (utilisée quand il n’y avait
pas d’ordinateur)
o tirage à pile ou face (coin toss) (en théorie mais pas vraiment faisable dans un
essai)
- Méthodes inadéquates = non aléatoires
o randomisation alternée (ABABAB…)
o randomisation basée sur une caractéristique du malade (initiale du prénom, date
de naissance, etc.)
o randomisation basée sur le jour d’inclusion (lundi=A, mardi=B,
mercredi=A,…)
o toute autre méthode comportant une attitude décisionnelle systématique

Randomisation équilibrée versus déséquilibrée
- Une randomisation est dite équilibrée quand l’objectif est de randomiser autant de
patients dans le groupe expérimental que contrôle. Le ratio d’allocation (ratio
groupe A/groupe B) est alors 1/1. Il s’agit de la situation la plus fréquente.
- Dans certains essais, le ratio est 2/1 c'est-à-dire qu’on souhaite randomiser 2 fois plus
de sujets traités par le nouveau médicament que de sujets traités par placebo. On parle
alors de randomisation déséquilibrée. L’argument fréquemment utilisé pour justifier
cette randomisation déséquilibrée est d’augmenter le nombre de sujets traités par le
traitement expérimental afin d’avoir davantage de données concernant la tolérance de
ce traitement. Une autre raison moins fréquemment avouée est que cela va améliorer le
recrutement dans l’essai car les patients ont plus de chances de recevoir le traitement
expérimental que le placebo.
Randomisation simple
- Lorsque la randomisation est basée sur une simple séquence de nombres, on parle de
randomisation simple.
Méthodes de randomisation utilisées en cas de faible effectif

- Quand l’effectif de l’essai est faible, une randomisation simple peut aboutir à des
déséquilibres liés au hasard (aux fluctuations d’échantillonnage). Par exemple, si je
randomise 10 patients, je peux me retrouver par hasard avec 8 patients dans un groupe
et 2 patients dans l’autre (comme quand on tire au sort à pile ou face), ce qui me poserait
problème pour interpréter les résultats de mon essai.
- Des techniques peuvent être utilisées pour éviter ces déséquilibres liés au hasard en cas
de faible effectif (fluctuations d’échantillonnage). Il s’agit de la randomisation par
blocs, de la randomisation stratifiée et de la randomisation par minimisation.
1) Randomisation par blocs

o La randomisation par blocs consiste à s’assurer, qu’à tout moment de l’essai,
à peu près le même nombre de patients soit alloué dans chaque groupe.
o Par exemple, dans un essai comportant deux bras, une randomisation par blocs
avec des blocs de taille 4 signifie que tous les 4 patients, 2 seront randomisés
dans le groupe expérimental (A) et 2 dans le groupe contrôle (B).

Exemple de randomisation par blocs de taille 4 1 A
2 A
- La randomisation par blocs consiste à s’assurer, qu’à tout 3 B
moment de l’essai, à peu près le même nombre de patients 4 B
soit alloué dans chaque groupe. 5 A
6 B
- Par exemple, dans un essai comportant deux bras, une 7 A
randomisation par blocs avec des blocs de taille 4 signifie 8 B
que tous les 4 patients, 2 seront randomisés dans le groupe 9 B
10 B
expérimental (A) et 2 dans le groupe contrôle (B).
11 A
 Ci-contre : exemple de randomisation par blocs de taille 4 12 A
13 B
14 A
15 B
16 A
Remarque :
La randomisation par blocs est une méthode de randomisation adéquate adaptée en cas de faible
effectif. Il faut cependant faire attention à ne pas communiquer la taille des blocs aux
investigateurs qui recrutent les patients ou alors à faire des blocs de taille aléatoire (qui
change pendant la durée de l’étude).
Autrement, l’investigateur, s’il connait la taille des blocs, pourrait déduire quel va être le groupe
dans lequel le patient suivant sera randomisé. Par exemple, si l’investigateur a randomisé les 2
premiers patients dans le groupe A, il peut en déduire que les 2 prochains patients seront
randomisés dans le groupe B s’il sait que la taille des blocs est de 4. Cela pourrait entraîner une
violation de la clause d’ignorance (voir plus loin).
2) Stratification de la randomisation (ou randomisation stratifiée)

o Cette méthode est utilisée en complément de la randomisation par blocs.
Elle est utilisée pour limiter des déséquilibres liés au hasard sur des
facteurs pronostiques importants.
o Le principe est de s’assurer qu’un nombre à peu près égal de patients ayant
certaines caractéristiques (par exemple une tumeur de stade avancé) soit
randomisé dans chaque groupe. La randomisation stratifiée consiste à faire
une liste de randomisation par strate.
o Par exemple, si la randomisation est stratifiée sur le stade de la maladie
(précoce et avancé), il y aura 2 strates (stade précoce et stade avancé) et donc
2 listes de randomisation : 1 liste pour les stades précoces et 1 liste pour les
stades avancés.

Exemple de randomisation par blocs stratifiée sur le stade de la maladie
 Si la randomisation est stratifiée sur le sexe et sur le stade de la maladie (précoce et

avancé), il y aura 4 strates et donc 4 listes de randomisation : 1 pour les femmes en stade
précoce, 1 pour les femmes en stade avancé, 1 pour les hommes en stade précoce, 1 pour
les hommes en stade avancé.
Remarque :
- Il est fréquent dans les essais multicentriques de stratifier sur le centre afin qu’il y
ait à peu près autant de patients randomisés dans le groupe A et dans le groupe B
au sein de chaque centre.
- On ne peut pas stratifier sur un trop grand nombre de facteurs car dans ce cas, on
pourrait se retrouver avec des strates vides (sans patient). Quand on a un faible
effectif et beaucoup de facteurs pronostiques importants à prendre en compte, on
fera plutôt une randomisation par minimisation (cf ci-dessous).
3) Randomisation par minimisation

o La minimisation est utilisée dans les essais incluant un nombre limité de
patients lorsqu’il existe un nombre important de facteurs pronostiques
importants.
o Cette technique est notamment utilisée dans les essais en cancérologie.
o Il s’agit d’une méthode impliquant un algorithme permettant de limiter les
déséquilibres sur les facteurs pronostiques importants. Lors de l’inclusion
d’un nouveau patient, l’investigateur enregistre les facteurs pronostiques du
patient sur un site internet sécurisé, l’algorithme détermine alors le groupe du
patient en fonction des caractéristiques des patients précédemment inclus afin
de limiter les déséquilibres entre les groupes.

2.1.4.2 Clause d’ignorance
Synonyme : non divulgation de l’allocation, masquage de l’allocation, allocation
concealment, assignation secrète
Chronologie de l’inclusion d’un patient dans l’essai pour respecter la clause d’ignorance
La clause d’ignorance est respectée lorsque l’investigateur qui recrute les patients dans un
essai contrôlé randomisé ne peut pas prévoir dans quel groupe le patient va être randomisé
au moment où il recrute le patient.
Le fait de pouvoir prévoir le groupe de randomisation du prochain patient risque d’influencer

la décision d’inclure le patient dans l’essai (par exemple, l’investigateur peut décider de ne pas
proposer au patient de participer à l’essai si le patient est sévère et qu’il sait que le prochain
patient de l’étude sera randomisé dans le groupe expérimental). Cela risque d’entrainer un biais
de sélection.
L’investigateur ne doit connaitre le résultat de la randomisation (le groupe du patient) qu’une

fois que celui-ci est entré dans l’essai.

- Méthodes adéquates pour respecter la clause d’ignorance:
o Randomisation centralisée (randomisation par téléphone, fax ou via un site
internet) : une fois que le patient est inclus dans l’essai, l’investigateur se
connecte à un site internet, appelle la centrale de randomisation ou envoie un
fax.
o Enveloppes numérotées séquentiellement contenant l’information sur le
groupe de randomisation opaques et scellées. Une fois que le patient est entré
dans l’essai, l’investigateur ouvre l’enveloppe ayant le plus petit numéro.
o Médicaments préparés par la pharmacie dans des containers identiques
(pour les essais médicamenteux). Une fois que le patient est entré dans l’essai,
l’investigateur contacte la pharmacie qui fournit le traitement alloué par
randomisation dans un container qui ne permet pas de savoir de quel traitement
il s’agit.
- Méthodes inadéquates car prévisibles:
o Randomisation alternée (ABABABAB)
o Randomisation selon une caractéristique du patient (par exemple l’année de
naissance : donner le traitement A aux sujets nés les années paires et le
traitement B aux sujets nés les années impaires) ou le jour de la semaine
o Enveloppes contenant l’information sur le groupe de randomisation non
opaques ou non scellées
 Ces méthodes ne respectent pas la clause d’ignorance.
2.1.4.3 Vérification de la comparabilité initiale des groupes

Le tableau 1 d’un essai contrôlé randomisé présente les caractéristiques initiales des patients
par groupe de randomisation. Il doit présenter toutes les caractéristiques importantes des
patients au regard de l’essai (l’âge, le sexe, la sévérité de la maladie, les antécédents, les
comorbidités éventuelles, les autres traitements pris par les patients…).
Il permet de vérifier que les caractéristiques initiales des patients sont relativement comparables
entre les 2 groupes. Cette évaluation se fait « à l’œil » (Eye Ball test) ce qui signifie sans
faire de tests statistiques.
Pour évaluer si les groupes sont comparables, il faut prendre en compte l’effectif de l’essai. En
cas de faible effectif, on peut s’attendre à quelques déséquilibres entre les groupes liés au hasard
(fluctuations d’échantillonnage). En revanche, si l’effectif est important, les déséquilibres entre
les groupes doivent être minimes. De plus, les déséquilibres liés aux fluctuations
d’échantillonnage doivent aller dans les 2 sens (favorisant tantôt le bras expérimental tantôt le
bras contrôle). Des déséquilibres favorisant toujours le même groupe doivent alerter et faire
évoquer un risque de biais de sélection.
Exemple de Tableau 1
Dans cet exemple, les groupes sont relativement comparables en termes de caractéristiques
initiales.
2.1.5 Maintien de la comparabilité des groupes pendant l’essai
Afin d’être sûr que la différence de résultats observée entre les 2 groupes n’est due qu’au
traitement reçu, il est nécessaire de maintenir la comparabilité des groupes (qui a été obtenue
avec la randomisation) pendant toute la durée de l’essai et ce jusqu’à l’analyse. Le double
aveugle et l’analyse en intention de traiter permettent de maintenir la comparabilité des
groupes pendant le suivi et l’analyse, respectivement et de limiter les biais.

Remarques :
- L’absence de différence importante entre les groupes randomisés est un indice de
qualité mais les groupes peuvent différer sur des caractéristiques non renseignées
dans l’essai.
- Une randomisation de bonne qualité peut ne pas aboutir à des groupes comparables,
par le simple fait du hasard (fluctuations d’échantillonnage), surtout en cas de petit
effectif.
- Quelle qu’en soit la raison (randomisation mal faite ou fluctuations
d’échantillonnage), si les groupes diffèrent, il faut déterminer si la différence est
suffisamment importante pour altérer les résultats. Si les groupes sont trop différents,
cela peut invalider les résultats de l’étude.
Le tableau 1 permet également de décrire la population à l’étude pour évaluer si la
population de l’essai est proche de celle que l’on traite en pratique (validité externe).
2.1.5.1 Le double aveugle

Qu’est-ce que le double aveugle ?
Le double aveugle est le fait que ni le patient ni le soignant ne savent quel traitement le
patient reçoit (le traitement expérimental ou le traitement du groupe contrôle).
Pourquoi c’est important

Le double aveugle permet de limiter :
- Un éventuel effet placebo. L’effet placebo est un effet positif de la prise d'un
médicament qui n'est pas lié aux propriétés physico-chimiques de la molécule, mais au
fait que l'on prend un traitement (effet psychologique)
- Des modifications de comportement du patient et du soignant. S’il connait le
traitement qu’il reçoit, le patient risque de modifier son comportement. Par exemple s’il
est randomisé dans le groupe contrôle, il pourra être déçu et quitter l’essai. A l’inverse
s’il est randomisé dans le groupe expérimental, il pourra redouter de présenter des effets
secondaires. De la même manière, le médecin qui suit le patient va modifier son
comportement (même de manière inconsciente) s’il sait quel traitement le patient a reçu.
- Le risque de biais de performance ou de suivi défini comme des différences
systématiques dans le suivi des patients et qui sont liées à des modifications de
comportement du patient et du soignant (par exemple, plus grande prescription de
corticoïdes dans le groupe contrôle pour « compenser »).

Comment obtenir le double aveugle ?
Pour qu’un essai soit en double aveugle, il faut que les patients du groupe contrôle reçoivent
soit un placebo ayant les mêmes caractéristiques (apparence, goût, forme) que le traitement
expérimental soit que le traitement actif (si le comparateur est un traitement actif) ait la même
apparence ce qui n’est pas toujours possible.
Dans le cas d’un essai où le comparateur est un traitement actif d’apparence différente ou
ayant un mode d’administration différent (par exemple quand on compare un nouveau
traitement sous la forme de comprimés au traitement habituel qui est sous la forme d’injections),
il faudra utiliser un double placebo. Tous les patients vont alors recevoir deux traitements :
- Soit le traitement expérimental et le placebo du traitement contrôle pour les patients
randomisés dans le groupe expérimental
- Soit le placebo du traitement expérimental et le traitement contrôle pour les patients
randomisés dans le groupe contrôle.
Schéma d’un essai randomisé comparant deux traitements actifs ayant des modes
d’administration différents (utilisation d’un double placebo)
Remarques :
- L’aveugle vis-à-vis du traitement reçu n’est pas toujours possible du fait de la nature
de l’intervention (par exemple en chirurgie).
- Le terme double aveugle est un terme que les méthodologistes n’aiment pas car il est
trop vague : cela implique que 2 protagonistes de l’essai sont en aveugle mais on ne
sait pas forcément lesquels (habituellement, il s’agit du patient et du médecin,
mais…on ne sait jamais). C’est pourquoi il est préférable de préciser qui est en
aveugle du traitement reçu dans l’essai :
o le patient ?
o le médecin qui suit le patient ?
o la personne qui évalue le critère de jugement qui peut être soit le patient (par
exemple pour la douleur) soit le médecin (par exemple infarctus du myocarde)
soit une personne extérieure.
2.1.5.2 L’analyse en intention de traiter
Qu’est-ce que l’analyse en intention de traiter ?
 Dans l’analyse en intention de traiter, tous les patients randomisés sont analysés et
ce, dans le groupe dans lequel ils ont été randomisés, quel que soit le traitement
effectivement reçu, qu’ils aient ou non terminé ou même commencé le traitement et quel
que soit leur suivi. On les analyse comme ils auraient dû être traités et non comme ils
ont été traités réellement.
Exemple :
Dans cet exemple, on cherche à comparer l’accouchement par césarienne par rapport à
l’accouchement par voie basse chez des femmes avec un bébé qui se présente par le siège.
On randomise 90 femmes dans chaque groupe.
Dans le groupe « voie basse », 10 femmes ont dû avoir une césarienne en urgence en raison
d’une souffrance fœtale. Selon le principe de l’analyse en intention de traiter, ces 10 femmes
doivent être analysées et ce dans le groupe « voie basse ».
L’analyse doit donc comparer le devenir des 90 femmes du groupe « voie basse » (80
ayant vraiment accouché par voie basse plus 10 ayant eu une césarienne) par rapport
aux 90 femmes du « groupe césarienne ». La souffrance fœtale peut être liée au fait que la
voie basse n’était pas adaptée. Exclure ces 10 patientes risquerait de surestimer le bénéfice
de la voie basse.

Pourquoi c’est important
- L’analyse en intention de traiter permet :
o De limiter le risque de biais d’attrition. Les patients perdus de vue ou qui ont
arrêté le traitement l’ont peut être fait en raison d’un manque d’efficacité ou
d’effets secondaires. Les exclure risque de surestimer l’effet du traitement.
o De maintenir la comparabilité des groupes randomisés au moment de
l’analyse. En effet, le tableau 1 porte sur l’ensemble des patients randomisés. Si
on exclut des patients au moment de l’analyse, on perd le bénéfice de la
randomisation.
- C’est la méthode d’analyse de référence des essais randomisés (de supériorité).
Comment évaluer si l’analyse est bien en intention de traiter ?

- Les auteurs rapportent souvent une analyse en intention de traiter dans les méthodes
mais quand on évalue le diagramme de flux ou les résultats, il est fréquent que des
patients aient été exclus de l’analyse.
- Il faudra donc vérifier que l’analyse est bien en intention de traiter: pour cela, il faudra
évaluer :
o le diagramme de flux : le nombre de patients analysés en bas du diagramme de
flux doit correspondre au nombre de patients randomisés
o es résultats : le dénominateur (au moins pour le critère de jugement principal)
doit correspondre au nombre de patients randomisés

Exemple :
Dans cet essai contrôlé randomisé, les auteurs rapportent dans les méthodes que l’analyse
est en intention de traiter. Cependant le diagramme de flux montre que des patients ont été
exclus de l’analyse.
Remarque :
Si le nombre de patients exclus est minime par rapport au nombre de patients randomisés, cela
n’aura probablement pas d’impact sur les résultats mais l’analyse n’est pas à proprement parler
en intention de traiter.
Stratégie de gestion des données manquantes

L’analyse en intention de traiter doit être systématiquement associée à une stratégie de gestion
des données manquantes.
Prenons l’exemple d’un essai contrôlé randomisé comparant un nouveau médicament à un
placebo et avec comme critère de jugement principal la survenue d’un infarctus du myocarde
dans l’année et avec 200 patients randomisés dans le bras expérimental et 200 dans le bras
placebo. Si 20 patients sont perdus de vue dans le bras expérimental et 30 dans le bras contrôle,
l’analyse en intention de traiter devra porter sur les 400 patients. Le problème, c’est que si on

analyse les données comme cela, sans rien faire de plus, cela revient à considérer qu’aucun des
perdus de vue n’a eu d’infarctus du myocarde dans l’année ce qui est peut être faux. Il faut donc
mettre en place une stratégie de gestion des données manquantes pour remplacer les données
de ces 20+ 30 perdus de vue.
Les stratégies de gestion des données manquantes recommandées sont :

- l’imputation multiple. Il s’agit d’une analyse statistique permettant de remplacer les
valeurs manquantes du critère de jugement en fonction des caractéristiques des patients
perdus de vue à l’aide de modèles de régression complexes.
- la méthode du pire scénario. Cette méthode revient à considérer les données
manquantes du bras expérimental comme des échecs (ou des non-réponses) et les
données manquantes du bras contrôle comme des succès (ou des réponses). Dans
notre exemple, cela reviendrait à considérer que les 20 perdus de vue du groupe
expérimental ont tous eu un infarctus du myocarde dans l’année alors qu’aucun des 30
perdus de vue du groupe contrôle n’aurait eu d’infarctus du myocarde. Cela est
également probablement faux mais si on arrive à montrer une différence avec cette
méthode, c’est qu’elle existe vraiment. Cette méthode est toutefois peu utilisée car trop
stricte.
Une autre méthode d’imputation des données manquantes est fréquemment utilisée mais
elle n’est pas recommandée. Il s’agit de la méthode LOCF (Last Observation Carried
Forward). Elle consiste à prendre la dernière valeur disponible pour le patient avant qu’il ne
sorte de l’essai. Par exemple, si un patient est venu en consultation à 6 mois mais n’est pas
revenu à 9 mois ni à un an, on prendra son résultat à 6 mois.
Analyse per protocole versus analyse en intention de traiter

L’autre méthode d’analyse est l’analyse per protocole, où seuls les patients compliants au
protocole c'est-à-dire ayant reçu le traitement ou le placebo pendant toute la durée de leur suivi
sont considérés.
Dans les essais contrôlés randomisés de supériorité, seule l’analyse en intention de traiter
est recommandée. L’analyse en ITT est plus conservatrice c'est-à-dire qu’elle a tendance à
diminuer les différences entre les 2 groupes. L’analyse per protocole donne des résultats plus
favorables car on exclut tous les patients qui n’ont pas respecté le protocole (on exclut ceux qui
ont arrêté le traitement car il ne leur paraissait pas efficace, ceux qui ont arrêté le traitement en
raison d’effets secondaires,…).

Remarques :
On parle également de population d’analyse en intention de traiter ou per protocole.
L’analyse en intention de traiter est une analyse plus proche de la « vraie vie » que
l’analyse per protocole, car en pratique clinique, le patient peut ne pas prendre le
traitement, prendre son traitement un jour sur deux, ne pas revenir en consultation,….
2.1.6 Les critères de jugement
2.1.6.1 Règles concernant le critère de jugement principal

S’il y a le plus souvent plusieurs critères de jugement dans les essais contrôlés randomisés, un
critère de jugement principal doit être identifiable.
Le critère de jugement principal devrait :
- Etre de préférence unique afin de conserver un risque alpha de 5% (autrement il faudra
ajuster le risque alpha)
- Correspondre à l’objectif principal de l’essai
- Etre pré-spécifié dès le protocole (c’est sur ce critère qu’on va faire le calcul d’effectif)
- Ne pas changer au cours de l’étude notamment au vu des résultats car sinon, cela
risque de biaiser les résultats de l’essai
- Etre pertinent cliniquement (cf ci-dessous)
La conclusion de l’essai doit porter sur ce critère de jugement principal.

Remarque : Pourquoi c’est mal de changer de critère de jugement principal en cours
d’étude (après avoir vu les résultats) ?
- Par exemple, des investigateurs font leur essai et se rendent compte au moment de
l’analyse que le critère de jugement principal qui avait été défini dans le protocole n’est
pas significatif. Or un critère de jugement secondaire également pertinent est
significatif. Ils décident d’intervertir les deux critères (le critère initialement secondaire
devient principal et vice versa) dans la publication.
- Cela risque de biaiser les résultats de l’étude pour la raison suivante : plus on fait de
tests statistiques, plus on augmente le risque alpha de conclure à une différence
statistiquement significative alors que la différence est en fait due au hasard. Si on
choisit parmi tous les critères de jugement secondaires testés (souvent un certain
nombre) celui qui est statistiquement significatif, cela va favoriser des résultats
statistiquement significatifs qui sont dus au hasard et surestimer l’effet du traitement

2.1.6.2 Pertinence clinique du critère de jugement
Les critères de jugement surtout le critère de jugement principal devraient être cliniquement
pertinents. Evaluer la pertinence dépend de la pathologie étudiée mais globalement, on peut
considérer que les critères suivants sont pertinents cliniquement :
- Mortalité
- Tout évènement clinique (infarctus du myocarde, infection, accident vasculaire
cérébral, …)
- Douleur
- Qualité de vie
- Incapacités ou handicaps (échelles fonctionnelles)
A l’inverse, certains critères sont dits « intermédiaires » ou « critères de substitution » ou

« surrogate » en anglais. Il peut s’agir de mesures cliniques (ex : mesure de la pression
artérielle), biologiques (ex : mesure de la clairance de la créatinine) ou radiologiques (mesure
de la densité minérale osseuse). Ces critères permettent une évaluation à court-terme avec une
durée de l’étude moins longue et un nombre de patients recrutés moins importants (donc un
coût moindre).
Exemple :
Pour évaluer l’efficacité d’une chimiothérapie contre le cancer de la prostate, on pourrait
s’intéresser :
- à la mortalité toutes causes confondues ou à la mortalité par cancer de la prostate
(critères pertinents)
- à la réduction de la taille de la tumeur ou à la baisse du taux sanguin de PSA (critères
intermédiaires)
Le problème est que les critères intermédiaires ne sont pas forcément corrélés avec la
mortalité ou les évènements cliniques tels que la survenue d’un infarctus du myocarde
(critères vraiment pertinents pour le patient nécessitant des études plus longues et plus
coûteuses) et peuvent donner une évaluation trompeuse de l’efficacité d’un traitement.

2.1.6.3 Evaluation objective ou subjective ?
L’évaluation du critère de jugement est dite objective si son évaluation est incontestable et ne
peut pas être sujette à des interprétations différentes selon la personne qui l’évalue.
- Critères dont l’évaluation est objective :
 Peu de critères de jugement ont une évaluation vraiment objective.
o Mortalité toutes causes confondues
o Examens biologiques sans interprétation (par exemple, mesure de la glycémie).
- Critères dont l’évaluation est subjective :
o Certains critères de jugement sont, à l’inverse, très subjectifs comme les critères
rapportés par le patient tels que la douleur, la qualité de vie, le niveau
d’incapacité qui sont utilisés pour évaluer des traitements symptomatiques. Dans
ce cas, il est très important que le patient soit en aveugle du traitement reçu afin
de limiter le risque de biais de classement et que le critère de jugement soit évalué
à l’aide d’une échelle validée (par exemple, pour la qualité de vie, échelle SF36).
o Les autres critères : évènements cliniques (par exemple, infarctus du myocarde),
critères radiologiques (par exemple, récidive tumorale évaluée par scanner),
mortalité cause-spécifique (par exemple, mortalité cardiovasculaire) sont des
critères dont l’évaluation peut être considérée comme subjective car soumise
à l’interprétation d’un individu.
Conséquences d’un critère de jugement dont l’évaluation est subjective :

- Risque de biais de classement en l’absence d’aveugle de l’évaluateur (l’évaluateur
peut être influencé s’il sait quel traitement le patient a reçu)
- Variabilité dans l’évaluation du critère de jugement
Que faut-il vérifier en cas de critère de jugement dont l’évaluation est subjective :
- L’évaluateur est-il en aveugle pour le limiter le risque de biais de classement ?
- Eléments permettant de limiter la variabilité entre les évaluateurs (améliorer la
reproductibilité)
o Définition standardisée du critère de jugement
o Utilisation d’échelles validées
o Evaluation en double (par deux personnes de manière indépendante avec
consensus)
o Voire évaluation centralisée par un comité indépendant (comité
d’adjudication)

2.1.6.4 Critère composite
Il s’agit d’un critère composé de plusieurs évènements. Ces critères sont souvent utilisés dans
les essais en cardiologie. Un critère composite peut être, par exemple, la survenue d’un infarctus
du myocarde, d’un AVC ou d’un décès. On considère que le patient a présenté le critère de
jugement s’il a eu au moins l’un de ces évènements. S’il a présenté plusieurs évènements du
critère, on retient la date du premier évènement.
- Gain de puissance en augmentant la probabilité de survenue de l’évènement
pour un même effectif
- ou réduction de l’effectif nécessaire pour une même puissance
Avantages
- Evaluation de la balance bénéfice-risque. Un critère composite permet

éventuellement de prendre en compte l’ensemble des évènements importants.
Par exemple, si on veut évaluer l’intérêt d’un traitement anti-thrombotique, il
peut être intéressant d’avoir un critère de jugement composite combinant des
évènements ischémiques (évaluant l’efficacité du traitement) et des
évènements hémorragiques (évaluant sa tolérance).
- Difficulté d’interprétation. Un critère de jugement composite doit être
interprété tel quel. Si le résultat pour le critère de jugement composite (par
exemple la survenue d’un infarctus du myocarde, d’un AVC ou d’un décès)
est statistiquement significatif, il n’est pas possible de conclure que le
traitement permet de diminuer les décès. La conclusion doit être : « le nouveau
traitement permet de diminuer de manière significative la survenue d’in
infarctus du myocarde, d’un AVC ou d’un décès ».
Inconvénients
- Vérifier que l’effet traitement est le même pour tous les évènements
cliniques du critère composite.
Chaque évènement clinique composant le critère composite doit être défini
comme critère secondaire. L’effet traitement est souvent plus important pour
les évènements les moins graves mais qui sont le plus souvent les plus
fréquents. Il y a aura alors une différence statistiquement significative pour le
critère composite et pas forcément pour les évènements les plus graves ce qui
pose problème quant à l’interprétation d’un bénéfice pour le patient. C’était le
cas dans l’exemple donné ci-dessous :

Exemple :
Interprétation des résultats d’un critère de jugement composite
Dans cet exemple, le critère de jugement composite est défini comme la survenue d’un décès,
d’une insuffisance rénale terminale ou d’un doublement de la créatinine.
Il y a une différence statistiquement significative pour le critère de jugement composite.
Quand on regarde les composantes du critère composite, il n’y a pas de différence
statistiquement significative pour la mortalité globale ni pour l’insuffisance rénale terminale
qui sont deux critères importants pour le patient.
La seule différence statistiquement significative observée est pour le critère « doublement de
la créatinine » qui du fait de sa plus grande fréquence entraine la significativité statistique du
critère composite. Mais ce critère est un critère intermédiaire qui n’est pas important pour le
patient. Cet essai pose donc un problème d’interprétation du bénéfice pour le patient.
2.1.7 Calcul d’effectif (ou calcul du nombre de sujets nécessaires)
L’estimation du nombre de sujets nécessaires pour l’étude doit être faite a priori (au moment
de l’élaboration du protocole). Il faut inclure suffisamment de sujets pour avoir une forte
probabilité de détecter une différence statistiquement significative.
Eléments nécessaires pour estimer le nombre de sujets à inclure:
- la puissance statistique souhaitée (devrait être > 80%)
- le niveau de l’erreur alpha (0,05 en général)
- Est-ce que le test est unilatéral ou bilatéral
- la valeur attendue du paramètre dans le groupe contrôle (au mieux, documentée par
la référence à des études antérieures) : proportion pour un critère binaire, écart-type pour
un critère continu
- la différence minimale entre les groupes jugée cliniquement pertinente: plus la
différence à montrer est faible, plus il faudra de sujets.
On peut également prendre en compte de possibles perdus de vue (même s’il est prévu de faire
l’analyse en intention de traiter, des perdus de vue risquent de diminuer la puissance de l’étude).
Ce n’est toutefois pas systématique.
2.1.8 Respect des règles éthiques et enregistrement des essais
2.1.8.1 Règles éthiques

Les essais contrôlés randomisés sont soumis à des règles très strictes sur le plan éthique. En
France, les recherches sur la personne humaine sont régies par la loi Jardé.
Pour tout essai contrôlé randomisé :
- Soumission du protocole à un comité d’éthique pour approbation pour pouvoir
débuter. En France, ce comité d’éthique est le comité de protection des personnes (le
CPP).
- Information claire et loyale des patients
- Signature par les patients d’un consentement libre, éclairé et révocable à tout moment.
Pour pouvoir conduire un essai, il faut également que la clause d’ambivalence soit respectée.
La clause d’ambivalence ou équipoise (equipoise en anglais) signifie qu’il existe une
incertitude sur l’efficacité de l’intervention évaluée. Si tel n’est pas le cas, ce n’est pas
éthique de conduire l’essai car cela expose les patients du groupe contrôle à une perte de
chance. Une autre définition présente dans le glossaire de LCA du CNCI est que tous les
patients doivent pouvoir recevoir l’un ou l’autre des traitements (ils ne doivent pas
présenter de contre-indication à l’un ou l’autre des traitements pour pouvoir être inclus
dans l’essai).
2.1.8.2 Enregistrement des essais

Tous les essais doivent être enregistrés avant le début de l’essai dans un registre public tel
que ClinicalTrials.gov.
Cela permet d’évaluer s’il y a eu des écarts au protocole c'est-à-dire des changements par
rapport à ce qui avait été prévu (par exemple, un changement de critère de jugement principal
qui pourrait biaiser les résultats de l’essai).
Vérifier que ce qui est rapporté dans l’article est conforme à ce qui a enregistré est un élément
important pour apprécier la validité des résultats d’un essai.

2.1.9 Interprétation des résultats d’un essai
2.1.9.1 Interprétation des résultats pour le critère de jugement

principal
- Est-ce que le résultat pour le critère de jugement principal est statistiquement
significatif ?
 Il faut évaluer le p, le degré de significativité du test.
o Si p<0.05, on peut conclure que la différence est statiquement significative
o Si p≥ 0.05, il n’y a pas de différence statistiquement significative et on ne
peut rien conclure d’autre.
Exemple :
“Overall, 32 of the 229 (14%) had complete clearance of all plantar warts at 12 weeks,
corresponding to 17/119 (14%) patients in the salicylic acid group and 15/110 (14%)
patients in the cryotherapy group, p=0.89
Conclusions Salicylic acid and the cryotherapy were equally effective for clearance of
plantar warts.”
Dans cet exemple, p est >0.05, il n’y a pas de différence statistiquement significative
entre les 2 traitements (acide salicylique et cryothérapie) en termes de disparition de la
verrue plantaire (le critère de jugement principal). Et on ne peut rien conclure d’autre.
La conclusion des auteurs dans le résumé (les 2 traitements ont une efficacité
équivalente en termes de disparition de la verrue) est donc erronée.
Remarques : Ne pas confondre p (degré de significativité et risque alpha)

- Risque alpha :
o Défini a priori (en général 5%)
o Probabilité de conclure à une différence qui n’existe pas (probabilité
d’avoir un faux positif)
- Degré de significativité
o Résultat a posteriori
o Probabilité que le hasard explique à lui seul une différence au moins aussi
grande (degré de confiance dans le résultat)
Exemple : Si p=0.01 et risque alpha défini à 5%, la probabilité de conclure à une différence
qui n’existe pas reste de 5%.

- Est-ce que la différence observée est cliniquement pertinente ? (quelle est la taille
d’effet ?)
Quand on interprète les résultats d’un essai, il faut garder à l’esprit qu’une différence
statistiquement significative ne traduit pas forcément une différence cliniquement
pertinente. En effet, plus l’essai aura inclus de patients, plus il aura de puissance pour mettre
en évidence de faibles différences qui ne sont pas forcément pertinentes.
Il faut donc évaluer si la différence observée est cliniquement pertinente. Pour cela, il faut
évaluer la taille d’effet (effect size) et en particulier la réduction absolue du risque (qui
correspond à la différence de risque entre les 2 groupes) ou le nombre de patients à traiter
pour éviter un évènement (qui correspond à l’inverse de la réduction absolue du risque).
Une réduction relative du risque peut donner une estimation trompeuse de la taille d’effet.
Par exemple, une réduction relative du risque de 50% peut correspondre à une réduction absolue
de risque de 1% ce qui est très faible et peu pertinent.
Exemple :
Dans un essai contrôlé randomisé, la mortalité à 3 mois est de 20/200 (10%) dans le bras
expérimental et de 30/200 (15%) dans le groupe contrôle.
Nous avons :
- Réduction absolue du risque : 15%-10%=5%
- Réduction relative du risque : (15%-10%)/15%=33%
- Nombre de patients à traiter pour éviter un évènement : 1/0.05=20 c'est-à-dire qu’il
faudra traiter 20 patients pour éviter un seul décès à 3 mois.
En pratique, il est souvent difficile d’apprécier si la différence est pertinente cliniquement. Cela
dépend de la pathologie et du critère de jugement. Une réduction absolue du risque de 5% est
très importante quand il s’agit de la mortalité globale mais moins importante quand il s’agit
d’autres critères comme la proportion de patients douloureux.
2.1.9.2 Interprétation des résultats pour les critères secondaires

Les résultats des critères de jugement secondaires doivent être interprétés
précautionneusement surtout si le résultat pour le critère de jugement principal n’est pas
statistiquement significatif. En effet, en général le nombre de critères de jugement secondaires
est assez important ce qui entraîne une inflation du risque alpha de conclure à une différence
qui n’existe pas.
Il n’est pas possible de conclure à l’efficacité d’un traitement sur la base du résultat d’un critère
de jugement secondaire surtout si le résultat pour le critère de jugement principal n’est pas
statistiquement significatif.
2.1.9.3 Interprétation d’une analyse intermédiaire
Qu’est ce qu’une analyse intermédiaire ?
- Une analyse intermédiaire est une analyse effectuée avant l'inclusion de tous les sujets
prévus. Elle est réalisée le plus souvent lorsque l'étude est longue et qu’il y a un risque
pour les patients.
- L’idée est que si le nouveau traitement, ou l’intervention, fonctionne vraiment bien (ou
vraiment mal), ce n’est peut-être pas la peine (voire contraire à l’éthique) d’attendre la
fin de l’étude pour présenter les résultats.
- Idéalement, ces analyses intermédiaires sont gérées par un comité indépendant : le Data
Safety Monitoring Board.
Règles concernant les analyses intermédiaires et l’arrêt prématuré d’un essai

- Les analyses intermédiaires doivent être prévues à l’avance dans le protocole.
- Les règles d’arrêt de l’étude doivent être définies dans le protocole. En effet, si on
répète l’analyse au fur et à mesure des inclusions, on risque de trouver à un moment
donné une différence statistiquement significative par le simple fait du hasard. Si on fait
un seul test statistique pour le critère de jugement principal en fin d’étude, le risque
alpha est de 5% mais si on fait des tests statistiques de manière répétée, le risque alpha
va augmenter et la probabilité de conclure à une différence qui n’existe pas également.
Si l’on arrête alors l’étude, on va conclure à l’existence d’une différence alors qu’elle
est possiblement due au hasard.
- La réalisation d’analyses intermédiaires nécessite un ajustement du risque alpha
(pour prendre en compte la multiplicité des tests statistiques).
- Il est licite d’arrêter l’essai après une analyse intermédiaire si et seulement si les
règles d’arrêt prédéfinies ont été atteintes.
2.1.9.4 Interprétation des analyses en sous-groupe

Qu’est ce qu’une analyse en sous-groupe ?
Il s’agit de l’analyse du critère de jugement principal dans des sous-groupes de patients
définis selon leurs caractéristiques (par exemple, l’âge, le sexe, le stade de la maladie). Ces
analyses permettent d’évaluer si l’effet traitement diffère selon certaines caractéristiques de
la population.

Règles concernant les analyses en sous-groupe
- Elles doivent être prédéfinies dès le protocole et en nombre limité
- Elles doivent être considérées comme des analyses exploratoires. La conclusion de
l’essai doit porter sur le résultat pour toute la population et non sur l’un des sous-groupes
et ce d’autant plus qu’il n’y a pas de différence statistiquement significative dans la
population globale.
- On ne devrait pas interpréter une analyse en sous-groupe si le critère de jugement
principal n’est pas significatif dans l’ensemble de la population.
Justification
Le fait de faire des analyses en sous-groupe entraine une inflation du risque alpha (plus on
fait de tests, plus le risque alpha augmente) et il est donc possible d’avoir un résultat
statistiquement significatif pour l’un des sous-groupes par le simple fait du hasard.
Présentation des résultats

Les résultats des analyses en sous-groupe sont fréquemment présentés sous la forme d’une
figure appelée Forest plot. Pour évaluer s’il existe une différence d’effet traitement selon le
sous-groupe, il faut faire un test d’interaction entre l’effet du traitement et le sous-groupe.
Ce test évalue si l’effet traitement varie selon la caractéristique considérée.

Exemple :
Interprétation des résultats d’une analyse en sous-groupe
Dans cet exemple, 3 analyses en sous-groupe ont été réalisées : en fonction de l’âge (moins
de 77 ans versus plus de 77 ans), en fonction du sexe (hommes et femmes) et en fonction de
l’index d’Hardman (index=0, index=1, index≥2).
Le résultat du test d’interaction est le p qui est représenté à droite. Dans cet exemple, seul le
test d’interaction pour le sexe est statistiquement significatif (p=0.019) c’est à dire qu’il y a
une différence d’effet traitement entre les hommes et les femmes. Toutefois, on ne peut rien
en conclure car il n’y a pas de différence statistiquement significative globalement (OR=0.94,
IC 95% 0.67-1.33).
2.1.9.5 Interprétation d’une analyse de sensibilité

Il est possible de prévoir des analyses de sensibilité qui consistent à refaire l’analyse en
changeant un paramètre pour vérifier si les résultats sont cohérents. Il s’agit d’analyses
secondaires portant le plus souvent sur le critère de jugement principal. Il s’agit fréquemment
de modifier les méthodes d’analyse statistique. Par exemple, on fait l’analyse principale du
critère de jugement principal en intention de traiter avec comme méthode de gestion des
données manquantes une imputation multiple. Une analyse de sensibilité pourrait être une
analyse du critère de jugement principal en intention de traiter mais avec une méthode différente
d’imputation des données manquantes par exemple une méthode du pire scénario. Ce sont des
analyses secondaires donc on ne peut conclure dessus mais le fait de retrouver des résultats
cohérents avec l’analyse principale en changeant les méthodes permet de conforter les résultats
de l’analyse principale et d’augmenter la confiance qu’on peut avoir dans ce résultat. A noter,
les analyses de sensibilité ne concernent pas uniquement les essais contrôlés randomisés, on
peut les retrouver dans tous les types d’étude (par exemple dans une étude observationnelle,
une analyse de sensibilité peut être faite avec un modèle statistique un peu différent).
2.1.9.6 Interprétation des résultats de tolérance
La tolérance d’un traitement est un élément essentiel à évaluer mais elle est fréquemment mal
rapportée dans les essais.
Présentation des résultats de tolérance (en théorie)

- Description de tous les évènements indésirables par groupe de traitement avec leur
fréquence de survenue.
- Description séparée de tous les évènements indésirables graves (décès, tout évènement
clinique ayant entraîné la prolongation d’une hospitalisation, anomalie congénitale, ou
incapacité).
Les analyses de tolérance manquent fréquemment de puissance car les évènements

indésirables sont rares (particulièrement les évènements indésirables graves) et le calcul
d’effectif n’est fréquemment pas fait sur des critères de tolérance. Le fait qu’il n’y ait pas de
différence statistiquement significative ne permet donc absolument pas de conclure à un
bon profil de tolérance du traitement évalué. Il faudra évaluer la différence de pourcentages
entre les 2 groupes.
2.1.10 Plans expérimentaux particuliers
Nous nous sommes placés jusqu’à présent dans la situation la plus fréquente c’est à dire un
essai contrôlé randomisé à 2 bras parallèles et de supériorité.
Il existe, en fait, d’autres types d’essai. Nous aborderons ici 2 autres types d’essai contrôlé
randomisé sur lesquels vous pouvez être interrogés: les essais en cross-over et les essais
d’équivalence ou de non infériorité.

2.1.10.1 Les essais en cross-over
Principe de l’essai en cross-over
Tous les patients vont recevoir les 2 traitements à l’étude. Les patients seront ainsi leur propre
contrôle.
Schéma d’un essai en cross-over
- La randomisation détermine l’ordre d’attribution des traitements. Les patients

sont donc randomisés en 2 groupes : soit traitement A puis traitement B soit traitement
B puis traitement A.
- L’essai comporte 2 périodes séparées par un wash out (lavage) qui permet
d’éliminer l’effet du traitement donné en 1ère période (effet rémanent ou carry-over
effect qui peut se définir comme la poursuite de l’effet du traitement après son arrêt et
qui dépend de la demi-vie de la molécule).
Intérêts de l’essai en cross-over

- Comparabilité des groupes parfaite puisque ce sont les mêmes patients
- Nombre de sujets à inclure bien moindre que dans un essai classique. L’effectif
est au moins divisé par 2 par rapport aux essais à 2 bras parallèles car ce sont les mêmes
patients qui reçoivent les deux traitements. Il existe également un gain de puissance
lié à l’analyse d’échantillons appariés.
 Cependant il faut respecter certaines conditions pour pouvoir réaliser ce type d’essai.

Conditions nécessaires
- Maladie chronique stable dans le temps : Si la maladie n’est pas stable, on ne pourra
pas être sûr que les résultats observés traduisent l’effet du traitement, ils pourraient
également traduire l’évolution de la maladie. Ce type d’essai est donc réservé aux
maladies telles que l’asthme, l’épilepsie ou encore la migraine.
- Les traitements à évaluer doivent être des traitements symptomatiques : ils
doivent agir de manière temporaire sur les symptômes et non de manière définitive.
L’essai en cross-over n’est ainsi pas adapté pour évaluer des interventions
chirurgicales.
- Le critère de jugement peut être répété : Cela peut être par exemple, la douleur.
L’essai en cross-over n’est pas adapté pour mesurer des critères de jugement tels que
la mortalité…
- Période de wash-out suffisante: Cette période est nécessaire pour supprimer les
effets du traitement donné en 1ère période (effet rémanent ou carry-over effect qui
peut se définir comme la poursuite de l’effet du traitement après son arrêt et qui dépend
de la demi-vie de la molécule).
Principes de l’analyse
- Il faut avant tout systématiquement tester la possibilité d’un effet carry-over en
évaluant s’il y a une interaction entre la période et l’effet du traitement. Si on met en
évidence une telle interaction, il y a un effet carry-over et on ne pourra pas analyser
correctement les résultats de l’essai en cross-over.
- L’analyse est une analyse sur échantillons appariés (ce sont les mêmes patients)
2.1.10.2 Les essais d’équivalence ou de non-infériorité

Dans quelle situation réalise-t-on un essai de non-infériorité ou d’équivalence ?
On réalise un essai de non-infériorité quand le nouveau traitement présente certains
avantages par rapport au traitement de référence. Ces avantages peuvent être :
- Un meilleur profil de tolérance : le nouveau traitement présente moins d’effets
secondaires
- Un coût moindre
- Un mode d’administration plus pratique. Par exemple, le nouveau traitement est un
traitement sous forme de comprimés alors que le traitement de référence est sous forme
d’injections.
 Dans ce cas, il suffit de vérifier que le nouveau traitement est au moins aussi
efficace que le traitement de référence.
Comme nous l’avons vu précédemment, avec l’essai « classique », l’absence de différence
statistiquement significative ne permet pas de déterminer que deux traitements sont équivalents.
Il existe donc deux types d’essai particuliers permettant de déterminer soit que deux traitements
sont équivalents (essai d’équivalence) soit que le nouveau traitement est non-inférieur au
traitement de référence (essai de non-infériorité).
Principe des essais de non-infériorité ou d’équivalence

En pratique, il est impossible de déterminer que deux traitements sont strictement équivalents
en termes d’efficacité. On montre donc qu’ils ne sont pas trop différents c'est-à-dire qu’on doit
définir une borne d’équivalence ou de non-infériorité. Si la différence absolue entre les 2
traitements (et son intervalle de confiance à 95%) est comprise dans cette borne, on pourra
conclure à l’équivalence ou à la non-infériorité selon le type d’étude choisi.
Interprétation des résultats d’un essai selon son plan expérimental
Dans ce schéma, Δ représente la borne d’équivalence ou de non infériorité. Dans le premier

cas, pour conclure à la supériorité du traitement A, il faut que l’IC à 95% de la différence soit
strictement supérieur à 0. Dans le second cas, pour conclure à l’équivalence entre A et B, il
faut que l’IC à 95% de la différence soit strictement inclus entre – Δ et + Δ (le traitement A
ne doit être ni trop inférieur à B ni trop supérieur). Dans le 3 ème cas de figure, pour conclure
à la non-infériorité de A par rapport à B, il faut que l’IC à 95% de la différence soit strictement
supérieur à – Δ (le traitement A peut être supérieur).

Choix de la borne
Le choix de la borne est très difficile. Il doit se faire en fonction de la spécialité et du type de
critère de jugement. La borne va conditionner le nombre de patients à inclure. Plus la borne
est petite, plus il faudra inclure de patients dans l’essai. D’un autre côté si la borne est trop
large, ce serait erroné de considérer que les deux traitements ont une efficacité comparable.
Attention à l’analyse !
Dans un essai d’équivalence ou de non-infériorité, il faut faire à la fois une analyse en
intention de traiter et une analyse per protocole et vérifier que les résultats sont cohérents
avec ces 2 analyses. En effet, comme nous l’avons vu précédemment, l’analyse en intention de
traiter a tendance à diminuer les différences entre les 2 groupes ce qui risque de faire conclure
plus facilement à l’équivalence ou à la non-infériorité alors que l’analyse per protocole a
tendance à augmenter la différence entre les groupes.

2.1.11 Rappel des biais dans un essai contrôlé randomisé
Rappel des principaux biais dans un essai contrôlé randomisé

Nom du biais A quoi ça correspond ? Comment limiter le risque de biais ?
Biais de sélection Sélection d’un échantillon non Sélection d’un échantillon représentatif
représentatif
Séquence de randomisation aléatoire et
Absence de comparabilité initiale respect de la clause d’ignorance
des groupes favorisant une des (assignation secrète)
interventions
Biais de Le patient et son médecin Double aveugle si possible (dépend du

performance peuvent être influencés s’ils type d’intervention)
savent quelle intervention le
patient reçoit
Biais de L’évaluateur peut être influencé Critère de jugement objectif (décès toutes
classement s’il sait quelle intervention le causes confondues, examen biologique)
patient a reçue
OU
Evaluation du critère de jugement en

aveugle du traitement reçu si critère de
jugement subjectif
Biais d’attrition Exclusion de patients de Analyse en intention de traiter

l’analyse
ET
Stratégie de gestion des données

manquantes

2.1.12 Recommandations de reporting pour les essais
contrôlés randomisés
CONSORT Statement
http://www.consort-statement.org/
Le Consort Statement fournit notamment un modèle de flow chart qui permet de suivre le flux
des patients au cours de l’essai.

2.2 Evaluation étiologique
Points-clés
- Les études étiologiques évaluent l’association entre l’exposition à un ou plusieurs
facteurs de risque et la survenue d’une maladie.
- Les études étiologiques sont des études observationnelles qui font appel à 2 grands-
types d’étude : les études cas-témoin et les études de cohorte.
Attention aux points suivants :
- Etudes cas-témoin :
o Sélection des cas
o Choix des témoins
o Recueil des facteurs de risque : risque de biais de mémoire
- Etudes de cohorte
o Suivi dans les études de cohorte prospective (risque de perdus de vue)
o Données manquantes dans les cohortes rétrospectives
Prise en compte des facteurs de confusion  Analyse multivariée
La causalité ne peut pas être affirmée par une seule étude observationnelle (une
différence statistiquement significative n’est pas synonyme de lien causal)
 Critères de Bradford Hill

L’objectif doit être formulé de manière claire et complète. Pour cela, on peut reprendre les
différents éléments du PECO :
- P= population concernée
- E= le ou les facteurs de risque étudié(s)
- C (souvent sous-entendu)= absence de facteur de risque
- O= maladie
Par exemple : évaluer si l’hypercholestolémie (E) est un facteur de risque de maladie
d’Alzheimer (O) chez les personnes de plus de 50 ans (P) (sous entendu par rapport à une
absence d’hypercholestérolémie (C)).
2.2.2.1 Principe des études de cohorte et cas-témoin
Etude de cohorte
- Dans les études de cohorte, on recrute des sujets indemnes de la maladie qui sont
exposés à un ou des facteurs de risque et on les suit dans le temps afin d’évaluer s’ils
deviennent malades.
- Une étude de cohorte peut être prospective ou rétrospective (on parle également de
cohorte historique). Cette notion fait habituellement référence à la temporalité du recueil
de données. Dans une cohorte rétrospective, la cohorte est reconstituée
rétrospectivement à partir de données déjà recueillies (par exemple dans les dossiers
médicaux). Ce schéma est intéressant pour les maladies ayant un long délai de latence,
comme les cancers ou la maladie d’Alzheimer. Cependant, il faut que la qualité des
données recueillies soit bonne sinon il y a aura un nombre important de données
manquantes.
Etudes cas témoin
- Dans les études cas-témoin, on recrute des malades et des témoins indemnes de la
maladie et on recherche dans le passé des sujets s’ils ont été exposés à certains facteurs
de risque. Une étude cas-témoin est rétrospective.

Différences entre études de cohorte prospective et rétrospective et études cas-témoin
Exemple de cohorte rétrospective:

Dans une étude évaluant l’association entre le type de ventilation (ventilation non invasive
ou ventilation mécanique) et la mortalité chez des patients hospitalisés en réanimation pour
une décompensation de BPCO, les auteurs ont cherché rétrospectivement dans les dossiers
tous les patients hospitalisés pour une décompensation de BPCO ayant nécessité une
ventilation non invasive ou mécanique. Ils ont recueilli leurs données et ont évalué ensuite
leur devenir (décès ou non).
Cas particulier
L’étude cas-témoin niché dans une cohorte : les cas et les témoins sont issus d’une cohorte
existante. Le principal avantage est que les données sont déjà disponibles et qu’elles ont été
recueillies de façon prospective. Il est cependant fréquent d’avoir besoin d’informations
complémentaires, non renseignées dans la cohorte initiale. On procède alors à un recueil
rétrospectif de ces données, en contactant les patients et/ou en retournant au dossier médical.

2.2.2.2 Choix entre étude de cohorte et étude cas témoin
Le choix entre cohorte et cas-témoin dépend de la question posée. Chaque type d’étude présente
des avantages et des inconvénients.
Avantages et inconvénients des études de cohorte et cas-témoin (à connaître)

COHORTE CAS-TEMOIN
Avantages - Adaptée aux expositions rares - Adaptée aux maladies rares
- Etude possible de plusieurs - Etude possible de plusieurs
maladies expositions
- Estimation possible de - Rapidité
l’incidence de la maladie - Adaptée aux maladies avec un
- Calcul du risque relatif long délai d’apparition depuis
l’exposition (délai de latence
- La temporalité entre exposition
important)
et maladie peut être étudiée
précisément - Parfois les seules réalisables
- Risque de biais de sélection
moindre
Inconvénients - Perdus de vue - Biais de classement (biais de
mémoire lié au recueil de
- Nécessite souvent un
données rétrospectif)
échantillon de grande taille
- Choix des témoins difficile
- Durée de l’étude longue
(biais de sélection potentiel)
- Souvent impossibilité d’étudier
- Peu adapté pour les expositions
plusieurs expositions
rares
- Peu adaptée aux maladies rares
- On ne peut estimer la prévalence
de la maladie*
- On ne peut pas estimer de RR
Mesure de RR OR
l’association OR (RR impossible)
*car c’est le chercheur qui décide du nombre de cas et de témoins à inclure.

2.2.3 Particularités des études de cohorte
2.2.3.1 Choix de la population

Il existe deux possibilités pour le choix de la population:
- Les cohortes en population : L’échantillon peut être plus ou moins représentatif de la
population cible. Pour avoir un échantillon représentatif, l’idéal est de procéder par
sondage à partir d’une population source correspondant à la population cible.
- Les cohortes exposés-non-exposés où l’on recrute en fait deux cohortes : une cohorte
d’individus exposés à un facteur de risque et une cohorte d’individus non-exposés au
facteur de risque. Ces deux cohortes vont être suivies dans le temps et doivent avoir un
suivi similaire. Ce type d’étude ne permet pas d’évaluer simultanément plusieurs
facteurs de risque. Ce type d’étude est à privilégier quand l’exposition est rare et
l’évènement relativement fréquent. Les cohortes exposés-non-exposés sont adaptées à
l’étude de facteurs de risque professionnels (par exemple, l’exposition à l’amiante).
2.2.3.2 Recueil des facteurs de risque

Dans une étude de cohorte prospective, le recueil des facteurs de risque se fait au moment de
l’entrée dans l’étude et éventuellement pendant le suivi. Si l’exposition au facteur de risque
n’est recueillie qu’au début, cela peut poser problème car celle-ci peut varier au cours du
temps (par exemple si le facteur de risque est la consommation de tabac).
Dans une étude de cohorte rétrospective, les données concernant l’exposition à des
facteurs de risque ont déjà été collectées (dans les dossiers médicaux ou dans des registres).
Dans ce cas, il est très important de vérifier la qualité du recueil des données. S’il y a des
données manquantes ou si un facteur de confusion important n’a pas été collecté, cela va
poser problème.
2.2.3.3 Recueil de la maladie (critère de jugement)

Le plus souvent, il s’agira d’un critère dont l’évaluation peut être subjective (cancer, infarctus
du myocarde,…).
Il y a donc un risque :
- De biais de classement (différentiel) si l’évaluation de la maladie n’est pas faite en
aveugle de l’exposition au facteur de risque
- De variabilité et d’erreur de mesure entre les évaluateurs (on parle d’erreur non
différentielle). Pour limiter cela et améliorer la reproductibilité, il faut standardiser la
définition de la maladie, former les évaluateurs, faire une évaluation en double voire
centralisée avec un comité indépendant.
2.2.3.4 Suivi et problème des données manquantes dans les études
de cohorte prospective
Quel que soit le type d’étude de cohorte, le suivi des sujets exposés doit être identique au
suivi des sujets non-exposés.
Dans les études de cohorte prospective, il faut définir une durée de suivi suffisante pour pouvoir
observer la maladie.
Cette durée peut être longue et pose le problème des perdus de vue c'est-à-dire des patients
pour lesquels il n’y a pas de données concernant leur suivi. Dans les analyses, il faudra vérifier
les caractéristiques des patients perdus de vue et la durée médiane de suivi rapportée, et
apprécier ainsi l’influence potentielle de la proportion de perdus de vue sur les critères de
jugement.
- Si les perdus de vue se répartissent également dans les groupes en nombre et

caractéristiques et ne concernent pas une catégorie particulière de patients, la seule
conséquence sera une perte de puissance. C’est rare car le plus souvent si on est perdu
de vue ce n’est pas pour rien… (rupture de soins et/ou mauvaise observance, etc.)
- S’il y a plus de perdus de vue dans un groupe que dans l’autre, ou si les sujets perdus de
vue ont des caractéristiques spécifiques, on risque, outre la perte de puissance, un biais
d’attrition.
- L’influence de la proportion de perdus de vue dépend de la fréquence de survenue
de l’événement étudié. Si le nombre de perdus de vue dépasse le nombre d’évènements,
cela pose problème.
2.2.4 Particularités des études cas-témoin
2.2.4.1 Population d’étude

La sélection des cas et des témoins doit être indépendante des facteurs de risque étudiés.
Le recrutement des cas et des témoins doit se faire sans connaître leurs éventuelles
expositions à des facteurs de risque

Sélection des cas
- Les cas doivent être représentatifs de la population de malades.

- Il faut distinguer les cas incidents et les cas prévalents.
o Les cas incidents sont inclus dans l’étude quand ils deviennent malades. Dans ce
cas de figure, on ne recrute que les nouveaux malades.
o Les cas prévalents sont déjà malades avant d’être inclus dans l’étude. Dans ce cas
de figure, on recrute tous les malades à un moment donné c'est-à-dire ceux qui
ont survécu jusque là. Cela peut conduire à un biais de sélection particulier : le
biais de survie sélective.
 Il faut donc privilégier le recrutement de cas incidents.
Choix des témoins
- Le choix des témoins doit être indépendant de l’exposition.

- Idéalement, le groupe de témoins doit être représentatif de l’ensemble des sujets non-
malades de la population source d’où est issu le groupe de malades étudiés.
- Il est difficile de choisir la population de témoins, il existe plusieurs possibilités :
témoins issus de la population, témoins hospitalisés, témoins familiaux. Chaque choix
présente des avantages et des inconvénients.
Avantages et inconvénients des différents types de témoins
Témoins hospitalisés Témoins population Témoins famille
Accès Facile Difficile et coûteux Facile
Motivation Forte ( malades ) Faible ( bonne santé) Forte
Taux de réponse Élevé Faible Elevé
Biais de sélection Important Limité Important
Exemple :
Le choix de témoins hospitalisés dans une étude cas-témoin peut être une source de biais
de sélection : si on veut étudier le lien entre tabagisme et risque d’infarctus du myocarde et
que pour cela on compare des patients hospitalisés en cardiologie avec des patients de
cancérologie, on risque de ne pas voir d’association car de nombreux patients de cancérologie
sont également fumeurs et à haut risque d’infarctus.

Remarque:
- Dans une étude cas témoin, il est fréquent d’avoir plusieurs témoins pour un
même cas.
- Cela permet d’augmenter la puissance de l’étude car les études cas témoin portent
plutôt sur des maladies rares (le nombre de cas est limité). Cette augmentation de
puissance est très modeste au-delà de 4 témoins.
2.2.4.2 Recueil des facteurs de risque

Le recueil des facteurs de risque est rétrospectif et soumis à un risque de biais de classement
particulier le biais de mémoire (recall bias). Ce biais est différentiel c'est-à-dire que les cas
vont avoir tendance à exagérer leur exposition à un facteur de risque et les témoins à la
minimiser.
Exemple :
Par exemple, si on étudie le lien entre l’exposition à un médicament A et le risque de fausse
couche spontanée (FCS), les femmes ayant fait une FCS se souviendront mieux avoir pris le
médicament A que les femmes n’ayant pas fait de FCS, car il s’agit d’un événement
traumatisant.
2.2.5 Biais de classement dans les études observationnelles

(cohorte et cas témoin)
Un biais de classement est un biais (une erreur) dans la mesure de l’élément soumis à
évaluation ou du critère de jugement. On ne classe pas correctement les sujets en
« exposés/non exposés », ou en « malades/non malades ».
En épidémiologie, on parle d’erreur différentielle lorsque les probabilités d'erreur de
classement sur la maladie sont différentes chez les exposés et chez les non-exposés (ou
lorsque les probabilités d'erreur de classement sur l’exposition sont différentes chez les malades
et chez les non-malades). Les erreurs différentielles peuvent conduire à une surestimation ou
à une sous-estimation de l’association (la valeur de l’odds-ratio ou du risque relatif peut être
soit augmentée soit diminuée).
Exemple de biais différentiel :

Biais de mémoire dans les études cas-témoin : les cas se souviennent davantage de
l’exposition que les témoins, cela va entrainer une surestimation de l’association (un OR plus
grand que ce qu’il devrait être).

On dit qu'une erreur de classement sur la maladie (ou sur le facteur de risque/exposition)
est non-différentielle lorsqu'elle survient indifféremment chez les exposés et chez les non-
exposés (respectivement chez les malades et chez les non-malades). On peut montrer que les
erreurs non différentielles conduisent à une sous-estimation de l’association exposition-
maladie, autrement dit rapprochent de 1 la valeur du risque relatif ou de l’odds-ratio.
2.2.6 Prise en compte des facteurs de confusion potentiels
Que ce soit dans les études de cohorte ou cas témoin, afin d’isoler le rôle intrinsèque du
facteur étudié sur la survenue de la maladie, il faut mesurer l’association qui existe entre ce
facteur et le critère de jugement, indépendamment des autres facteurs potentiellement
impliqués. Il faut donc prendre en compte les facteurs de confusion potentiels.
Rappel :
Un facteur de confusion (confounding factor) est un facteur qui perturbe l’association entre
l’exposition au facteur étudié et la maladie.
Pour être un facteur de

confusion, il faut que la variable
soit liée à la fois au paramètre
étudié (maladie) et à
l’exposition et ne soit pas un
facteur intermédiaire.
 Le facteur de confusion peut conduire à une surestimation ou une sous-estimation de

l’association (OR ou RR).
Il existe 3 méthodes pour prendre en compte des facteurs de confusion potentiels :

l’appariement, l’ajustement et la stratification.
1) L’appariement
- Se décide au moment de la planification de l’étude (prise en compte a priori du
facteur de confusion).
- Fréquent dans les études cas témoin
- Permet de prendre en compte un ou deux facteurs de confusion connus

- Le nombre de facteurs d’appariement est limité
- Ne permet pas d’étudier l’association entre ce ou ces facteurs et la maladie
Dans une étude cas-témoin, on veut apparier les cas et les témoins sur l’âge et le sexe. On va
d’abord recruter les cas. Puis, pour chaque cas, on va identifier un ou plusieurs témoins de
même sexe et ayant à peu près le même âge.
2) L’ajustement
- Méthode pour prendre en compte des facteurs de confusion au moment de
l’analyse (a posteriori)
- Permet d’étudier l’association entre les facteur de confusion et la maladie
- Se fait au moyen de modèles de régression multivariés généralement :
o Modèle de régression logistique dans les études cas témoin
o Modèle de régression logistique ou modèle de Cox dans les études de
cohorte
- Pour chaque facteur étudié ou de confusion introduit dans le modèle, on va obtenir
un OR (si régression logistique) ou un HR (si modèle de Cox) ajusté sur les autres
facteurs
 Ceux pour lesquels p<0.05 ou l’IC à 95% de l’OR ou de l’HR ne contient pas
la valeur 1 sont les facteurs indépendamment associés à la maladie.
3) La stratification
- Méthode moins utilisée
- Quand les autres facteurs de confusion diffèrent selon la variable de stratification
(souvent le sexe)
- Consiste à faire une analyse séparée selon la variable de stratification. Par
exemple, une étude de cohorte avec analyse stratifiée sur le sexe présentera les
résultats séparément chez les hommes et chez les femmes (on fera un modèle
multivarié chez les hommes et un modèle multivarié chez les femmes)
- Ne permet pas d’étudier l’association entre ce facteur et la maladie

Remarque:
Une même étude peut combiner ces différentes méthodes. Par exemple :
- étude cas témoin appariée sur l’âge et le sexe et ajustée sur la consommation de tabac,
la consommation d’alcool, les antécédents familiaux, l’hypercholestérolémie
- Etude de cohorte stratifiée sur le sexe et ajustée chez les hommes sur l’âge, la
consommation de tabac, la consommation d’alcool, les antécédents familiaux,
l’hypercholestérolémie et chez la femme, sur l’âge, la consommation de tabac, la
consommation d’alcool, les antécédents familiaux, l’hypercholestérolémie, l’âge à la
ménopause, la prise de traitement hormonal substitutif
- L’ajustement via un modèle de régression multivarié est (le plus souvent) une
constante des études de cohorte et cas témoin. Les autres méthodes (appariement et
stratification) sont complémentaires
Remarque:
Le biais de confusion est le seul biais qu’on peut prendre en compte lors de l’analyse
(par une analyse ajustée sur les facteurs de confusion)

2.2.7 Interprétation des résultats
Les résultats principaux de l’étude sont les résultats de l’analyse multivariée car ils
prennent en compte les facteurs de confusion.
Exemple :Interprétation du résultat d’une étude étiologique
2.2.7.1 Dans cet exemple :

Il n’y a pas d’association statistiquement significative entre le facteur 1 et la maladie. L’OR
est à 1.80 avec un IC à 95% de 0.90 à 3.60 qui contient la valeur 1 (p>0.05).
Il y a une association statistiquement significative entre le facteur 2 et la maladie car l’IC à

95% ne contient pas la valeur 1 (1.80-5.90) et il s’agit d’un facteur de risque car l’OR est >
1 (3.30). Si la prévalence de la maladie est faible, on peut dire que les individus exposés au
facteur 2 ont 3.3 fois plus de risque de développer la maladie que les individus non exposés.
Il y a une association statistiquement significative entre le facteur 3 et la maladie car l’IC à

95% ne contient pas la valeur 1 (0.20-0.60) et il s’agit d’un facteur protecteur car l’OR est <
1 (0.30).
Remarque:
P (le degré de significativité) et l’IC à 95% donnent exactement la même information sur la
significativité:
- Si p<0.05 et l’IC à 95% de l’OR ou de l’HR ne contient pas 1, il existe une association
significative
- Si p≥ 0.05 et l’IC à 95% de l’OR ou de l’HR contient 1, il n’y a pas d’association
significative
- Ce n’est pas possible d’avoir p<0.05 avec l’IC à 95% qui contient la valeur 1

2.2.8 Causalité
Il faut bien différencier association statistiquement significative et lien causal. Ce n’est pas
parce qu’on a montré une association statistiquement significative entre un facteur et un critère
de jugement qu’il y a un lien causal !
La seule manière d’affirmer un lien de causalité, c’est de comparer des groupes qui ne
diffèrent que par l’exposition ou non à l’élément soumis à évaluation, c’est-à-dire
comparables sur toutes les autres caractéristiques. Ainsi, toute différence observée entre les
groupes sera imputable à l’élément soumis à évaluation. Seul un essai contrôlé randomisé,
s’il est bien conduit, permet d’affirmer un lien causal car la randomisation permet
d’obtenir des groupes comparables pour tous les facteurs de confusion connus ou
inconnus.
Une seule étude observationnelle ne permet pas de conclure à un lien de causalité.

Certains éléments s’ils sont présents sont cependant en faveur d’un lien causal. Ces
éléments ont été décrits par Sir Bradford Hill.
 Critères de Bradford Hill (à connaître)
- Critères internes à l’étude
o Existence d’une association statistique entre l’exposition et la maladie
o Forte intensité de l’association
o Existence d’une relation de type “dose-effet” entre l’exposition et la maladie
o Spécificité de la relation entre l’exposition et la maladie (controversé)
o Minimisation des biais de sélection et de classement. Prise en compte correcte
de l’ensemble des facteurs de confusion connus.
o Absence d’ambiguïté temporelle (l’exposition doit précéder la maladie)
- Critères externes à l’étude
o Concordance avec les résultats d’autres études
o Plausibilité biologique (au mieux, explication physiopathologique)
o Concordance avec les expérimentations menées in vitro ou chez l’animal
o Gradients géographiques parallèles de l’exposition et de la maladie
o Diminution de l’incidence de la maladie lorsque l’exposition est supprimée ou
réduite

Remarque :
Le critère « spécificité de la relation» est de moins en moins pertinent car on sait aujourd’hui
qu’un effet résulte souvent de plusieurs causes intriquées (composantes causales) : facteurs
environnementaux, comportementaux, génétiques, etc.

2.2.1 Rappels des biais dans les études étiologiques
Principaux biais dans une étude étiologique
Nom du biais A quoi ça correspond ? Comment limiter le risque de biais ?

Biais de sélection Etudes de cohorte : Etudes de cohorte :
Sélection d’une population non représentative de la population Sélection d’une population représentative de la population
d’intérêt d’intérêt
Etudes cas-témoin : Etudes cas-témoin :

Mauvaise définition des cas Définition standardisée des cas
Sélection des témoins non indépendante de l’exposition Sélection des témoins indépendante de l’exposition
 Biais de survie Il s’agit d’une forme de biais de sélection qu’on retrouve dans Sélection de cas incidents
sélective les études cas témoins
Sélection de cas prévalents
Biais de classement Etudes de cohorte : Etudes de cohorte :
L’évaluateur peut être influencé s’il connaît le statut exposé/non Evaluation du critère de jugement en aveugle du statut
exposé du patient vis à vis du facteur de risque exposé ou non exposé
 Biais de mémoire Il s’agit d’une forme de biais de classement qu’on retrouve dans Les sujets sont en aveugle des hypothèses
les études cas témoins. E
valuation d’après des données recueillies de manière
Les cas ont tendance à majorer leur exposition à des facteurs de objective
risque et les témoins à les minimiser
Biais de confusion Liés à des facteurs de confusion dans la relation facteur de Analyse multivariée avec ajustement et éventuellement
risque-maladie appariement sur les facteurs de confusion
Biais d’attrition Etudes de cohorte prospective : Limiter au maximum les perdus de vue
liés aux perdus de vue et à leur exclusion de l’analyse Imputer les données manquantes
Remarque :
La définition des groupes de comparaison peut être source de biais différents selon les études.
Dans une étude cas témoins, le mauvais choix des cas ou des témoins peut être source de biais
de sélection. Dans une étude exposés/non-exposés (où l’on recrute séparément les sujets
exposés et non-exposés), le mauvais choix des exposés ou des non-exposés peut de la même
façon être source de biais de sélection. En revanche, dans le cas (fréquent) d’une étude de
cohorte dans laquelle on va mesurer l’exposition et définir ainsi les groupes de comparaison,
une erreur de mesure de l’exposition sera une source potentielle de biais de…classement !
2.2.2 Recommandations pour rapporter une étude étiologique
Checklist STROBE
https://www.strobe-statement.org/index.php?id=available-checklists

2.3 Evaluation de facteurs pronostiques
Points clés
- Dans ce type d’article, l’objectif est de montrer qu’un facteur est associé au
devenir des patients (guérison, décès, séquelles).
- Ce chapitre portera sur les particularités des études pronostiques. Il existe beaucoup
d’éléments communs avec les études étiologiques.
- Cependant, contrairement aux études étiologiques, on ne cherche pas à montrer un
lien causal.
- Le but est d’identifier des facteurs associés à un bon ou à un mauvais pronostic
afin de pouvoir informer le patient et d’orienter la prise en charge en fonction de
ce facteur (par exemple, rapprocher la surveillance ou les consultations de suivi si le
pronostic est mauvais).
- Les études pronostiques sont souvent des études de cohorte, avec des analyses de
survie. Elles sont sujettes aux perdus de vue si le suivi est long. Et bien sûr, il faut
prendre en compte les facteurs de confusion avec une analyse multivariée.

L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
- E= facteur pronostique évalué
- C (sous-entendu)= absence du facteur pronostique
- O= critère de jugement.
Par exemple, évaluer si un taux faible d’Albumine plasmatique (reflet d’un état de dénutrition)
est un facteur pronostique, prédictif de décès chez des patients ayant un cancer à un stade
avancé.
2.3.2 Distinction facteur de risque/ facteur pronostique
Différences entre facteur de risque et facteur pronostique

2.3.3 Type d’étude utilisé
Les études évaluant des facteurs pronostiques sont principalement des études de cohorte
prospective ou rétrospective.
Les notions précédemment vues dans les études de cohorte (dans la partie étiologie)
s’appliquent ici également.
Il faudra accorder une attention particulière aux points suivants :
- Biais de sélection : il faut être sûr que les patients que l’on va inclure dans l’étude ont
bien la pathologie d’intérêt et sont à un stade similaire de l’histoire de la maladie (par
exemple, patients ayant survécu à un infarctus du myocarde, patientes ayant un cancer
du sein nouvellement diagnostiqué).
- Evaluation du critère de jugement : Si le critère de jugement est le décès ou la survie,
il s’agit d’un critère de jugement dont l’évaluation est objective. C'est-à-dire que
l’évaluation est incontestable et ne peut pas être sujet à des interprétations différentes
selon la personne qui l’évalue. Dans ce cas, le risque de biais de classement est faible.
Si le critère de jugement est un critère dont l’évaluation peut être subjective (par
exemple la rechute tumorale ou la récidive d’événement cardiovasculaire), l’évaluation
du critère de jugement doit se faire en aveugle de l’exposition au facteur pronostique
afin de limiter le biais de classement. Afin de limiter la variabilité liée à l’évaluation
subjective d’un critère de jugement, son mode d’évaluation doit être défini a priori et
standardisé. Pour améliorer la reproductibilité, il est souhaitable de faire une
évaluation en double (par 2 personnes de manière indépendante) voire centralisée avec
un comité indépendant (appelé comité d’adjudication ou comité d’évènements
cliniques).
- Durée du suivi. Un facteur prédictif de la survie à 1 an n’est pas forcément prédictif
de la survie à 3 ans.
- Perdus de vue (biais d’attrition)
- Prise en compte des facteurs de confusion
- Interprétation des résultats : interprétation des résultats de l’analyse multivariée par
un modèle de régression logistique si le critère de jugement est une variable binaire (par
exemple décès à 3 mois) ou par un modèle de Cox si le critère de jugement est une
variable censurée (délai avant décès).

2.3.4 Les biais dans les études pronostiques
Principaux biais dans une étude pronostique

Nom du biais A quoi ça correspond ? Comment limiter le risque de
biais ?
Biais de sélection Sélection d’une population non Sélection d’une population

représentative de la population représentative de la population
d’intérêt d’intérêt
Biais de classement L’évaluateur peut être influencé Evaluation du critère de

s’il connaît le statut exposé non jugement en aveugle du statut
exposé du patient vis à vis du exposé ou non exposé
facteur pronostique
Biais de confusion Liés à des facteurs de confusion Analyse multivariée avec

dans la relation facteur ajustement et éventuellement
pronostique-maladie appariement sur les facteurs de
confusion
Biais d’attrition Liés aux perdus de vue et à leur Limiter au maximum les perdus
exclusion de l’analyse de vue
Imputer les données

manquantes

2.4 Evaluation d’un test diagnostique
Points clés
L’évaluation d’un test diagnostique comporte deux axes :
- Evaluation de la performance diagnostique (le test discrimine bien les malades et
les non-malades) et de sa reproductibilité.
- Evaluer si son utilisation améliore le devenir des patients en pratique courante  on
mène alors un essai randomisé comparant l’évolution clinique d’un groupe de patients
bénéficiant de l’outil diagnostique à l’évolution clinique d’un groupe contrôle)(cf
chapitre essai randomisé).

- E= test à évaluer
- C= test de référence (gold standard)
- O= critère de jugement c'est-à-dire ce qu’on cherche à diagnostiquer.
Par exemple, évaluer la performance diagnostique de la palpation manuelle (E) par rapport à
l’échographie (C) pour diagnostiquer des présentations non-céphaliques (O) chez des femmes
en fin de grossesse (P).
Les études diagnostiques peuvent faire appel à des études transversales ou de cohorte selon
qu’il faut que les individus soient suivis dans le temps.
2.4.3 Population d’étude
La population de l’étude doit être proche de la population à laquelle seront appliqués les
résultats de l’étude. En effet, le test peut être très performant dans un contexte mais beaucoup
moins dans un autre.
Si la population d’étude comporte des patients soit trop malades soit trop peu malades, il y a un
risque de biais de sélection appelé ici biais de spectre. Il est plus fréquent d’avoir une
évaluation des performances diagnostiques dans une population de patients plus sévères que
celle à laquelle les résultats seront extrapolés (par exemple, étude de la performance
diagnostique de la CRP pour différencier les infections bactériennes et virales chez les enfants
consultant aux urgences pédiatriques réalisée dans une population d’enfants hospitalisés pour
infection sévère).
De plus, les résultats seront difficilement transposables à la pratique clinique courante.
2.4.4 Choix du test de référence
Il s’agit d’un élément très important à évaluer. Le test de référence est le test qui va permettre
d’identifier véritablement les malades et les non-malades et d’évaluer la performance
diagnostique du test évalué (en Anglais, diagnostic accuracy). Il doit donc être incontestable
pour différencier les personnes malades des non-malades et préalablement validé. On
l’appelle également gold standard.
2.4.5 Réalisation des tests (test à évaluer et test de référence)
Les 2 tests (test à évaluer et test de référence) doivent être réalisés chez tous les patients
 La réalisation de l’examen de référence uniquement chez les patients avec un résultat
positif du test à évaluer surestime les performances diagnostiques du test. Il y a un risque
de biais de vérification (work up bias).
Les 2 tests doivent être réalisés de manière standardisée
Les 2 tests doivent être interprétés indépendamment l’un de l’autre (la personne qui évalue
le nouveau test doit être en aveugle des résultats de l’examen de référence)
 Sinon il y a un risque de biais de classement
2.4.6 Evaluation de la performance diagnostique d’un test
2.4.6.1 Mesure de la validité d’un test diagnostique

Un test diagnostique est valide s’il mesure bien ce qu’il est sensé mesuré (discrimine bien les
malades et les non-malades). Les principaux indicateurs de la validité d’un test sont la
sensibilité, la spécificité, les valeurs prédictives positives et négatives et les rapports de
vraisemblance positifs et négatifs. Leur définition doit être connue.
Il est fortement recommandé de refaire le tableau de contingence
Tableau de contingence type pour l'analyse des résultats d'une étude diagnostique
Test de référence positif Test de référence négatif
(malades) (non-malades)
Test évalué positif Vrais positifs (VP) Faux positifs (FP)
Test évalué négatif Faux négatifs (FN) Vrais négatifs (VN)

Définition des différents paramètres permettant d’évaluer la validité d’un test
Paramètre Définition Comment le calculer
Probabilité d’avoir un test positif quand 𝑉𝑃
Sensibilité (Se) 𝑃 (𝑇 + /𝑀+ ) = 𝑉𝑃+𝐹𝑁
on est malade
Probabilité d’avoir un test négatif 𝑉𝑁
Spécificité (Sp) 𝑃 (𝑇 − /𝑀− ) = 𝑉𝑁+𝐹𝑃
quand on n’est pas malade
Valeur prédictive Probabilité d’être malade si on a un test 𝑉𝑃
𝑃 (𝑀+ /𝑃+ ) = 𝑉𝑃+𝐹𝑃
positive positif
Valeur prédictive Probabilité de ne pas être malade si on 𝑉𝑁
𝑃 (𝑀− /𝑇 − ) = 𝑉𝑁+𝐹𝑁
négative a un test négatif
Rapport de Rapport entre les probabilités d’avoir
𝑃 (𝑇 + /𝑀+ ) 𝑆𝑒
vraisemblance un test positif chez les malades et chez 𝑅𝑉 + = = 1−𝑆𝑝
𝑃(𝑇 + /𝑀− )
positif les non-malades
Rapport de Rapport entre les probabilités d’avoir
𝑃 (𝑇 − /𝑀+ ) 1−𝑆𝑒
vraisemblance un test négatif chez les malades et chez 𝑅𝑉 − = =
𝑃(𝑇 − /𝑀− ) 𝑆𝑝
négatif les non-malades
Interprétation des résultats

- Un test très sensible va rarement rater un malade (peu de faux négatifs). Ce type de test
est à privilégier pour le dépistage car dans cette situation, on ne veut rater aucun malade.
- Un test très spécifique va rarement considérer comme positif un sujet qui n’est pas
malade (peu de faux positifs). Ce type de test est à privilégier dans une situation de
confirmation du diagnostic.
Indicateurs de validité indépendants de la prévalence de la maladie (à privilégier):
- Sensibilité
- Spécificité
- Rapport de vraisemblance positif (RVP)
- Rapport de vraisemblance négatif (RVN)

Interprétation d’un rapport de vraisemblance
- Un test positif est RVP fois plus fréquent chez les malades que chez les non-malades.
Par exemple, si le RVP =8 cela signifie qu’il y a 8 fois plus de chance d’avoir un test
positif lorsque la personne est malade que lorsqu’elle n’est pas malade.
- Un test négatif est 1/RVN plus fréquent chez les non-malades que chez les malades. Par
exemple, si le RVN est=0.25, cela signifie qu’il y a 4 fois plus de chance de présenter
un test négatif si la personne n’est pas malade que si la personne est malade.
Interprétation des rapports de vraisemblance positif et négatif

RVP RVN Propriété discriminante
>10 <0.1 importante
5-10 0.1-0.2 modérée
2-5 0.2-0.5 faible
1-2 0.5-1 Très faible
- Plus le RVP est élevé, plus on aura confiance dans le résultat d’un test positif pour
confirmer le diagnostic.
- Plus le RVN est faible, plus on aura confiance dans le résultat d’un test négatif pour
éliminer le diagnostic.
Indicateurs de validité dépendants de la prévalence de la maladie :
- Valeur prédictive positive (VPP)

- Valeur prédictive négative (VPN)
Remarque :
La VPP et la VPN dépendent de la prévalence de la maladie dans la population. Ce sont
des indicateurs imparfaits. Si dans une population, la fréquence de la maladie est élevée, la
probabilité que le patient soit malade sera élevée, quel que soit le résultat du test donc la VPP
sera élevée. A l’inverse, plus la maladie est rare, plus la VPP sera faible.

Cas d’un test donnant un résultat sur une échelle quantitative continue (par exemple
mesure de la CRP)
La distribution des valeurs du test dans un échantillon de sujets malades et non-malades peut
être représentée comme dans la figure ci-dessous.
Quel seuil choisir ?
Si on abaisse le seuil: Si on augmente le seuil:

- Amélioration de la sensibilité - Diminution de la sensibilité
- Diminution de la spécificité - Amélioration de la spécificité
Dépend de la situation : Examen de dépistage (on préfère privilégier la sensibilité) ou examen
de confirmation diagnostique (on préfère privilégier la spécificité).

Attention, cependant, pour un examen de dépistage, même si la sensibilité est importante, il est
souhaitable de trouver un compromis acceptable avec la spécificité quand le test de de
confirmation diagnostique est invasif et/ou qu’il présente des risques potentiels, quand la
maladie potentielle est particulièrement grave car cela peut générer une anxiété importante en
attendant les résultats du test de confirmation diagnostique.
Intérêt de la courbe ROC (Receiver Operating Curve)

- Elle représente la sensibilité en ordonnée et le taux de faux positifs (1 – spécificité)
en abscisse pour tous les seuils possibles du test.
- Cette courbe a pour intérêt de prendre en compte la sensibilité et la spécificité.
- L’estimation de l’aire sous la courbe ROC (AUC=area under the curve) est un bon
indicateur de la performance diagnostique du test. L’aire sous la courbe ROC varie
entre 0.5 et 1. Plus l’aire est proche de 1, plus le test est discriminant.
La comparaison des aires sous la courbes ROC de 2 tests diagnostiques est une bonne méthode
pour comparer leur performance, en s’affranchissant du choix d’un seuil.

Exemple : Comparaison du taux de CRP au Dans cet exemple, on voit très bien que la
taux de globules blancs pour le diagnostic CRP fait mieux que le taux de globules
d’appendicite aigüe chez l’enfant blancs dans le diagnostic d’appendicite aigüe
chez l’enfant.
2.4.6.2 Mesure de la fiabilité d’un test diagnostique

Définition :
- La fiabilité d’un test correspond à son caractère reproductible. Un test diagnostique
est fiable s’il donne le même résultat lorsqu’il est répété, par des opérateurs
différents, dans des conditions différentes. C’est particulièrement important lorsque
l’interprétation d’un test est subjective ou « opérateur-dépendante » (par exemple en
imagerie ou en anatomopathologie).
- Mesure de la concordance pour une variable binaire (par exemple malade, non
malade)
o Le Coefficient kappa évalue le pourcentage de concordance entre deux
évaluateurs prenant en compte la concordance due au hasard.
o Le coefficient kappa va de -1 (les 2 opérateurs sont en désaccord total) à 1
(les opérateurs sont en accord total). Il est habituellement admis que le
coefficient kappa est « bon » au-dessus de 0,80 et « correct » entre 0,60 et 0,80,
mais selon l’utilisation clinique du test, on pourra exiger une fiabilité plus ou
moins importante.

- Mesure de la concordance d’une échelle quantitative continue (par exemple score
diagnostique)
o Le coefficient de corrélation intraclasse évalue la concordance entre deux
variables quantitatives : accord inter-évaluateurs (concordance entre deux
évaluateurs), accord intra-évaluateur (concordance entre deux évaluations
pour un même évaluateur) ou bien concordance entre deux examens.
o On peut également réaliser dans ces situations un diagramme de Bland et
Altman
Chaque point représente un patient. L’axe des abscisses représente la moyenne des deux
mesures, l’axe des ordonnées la différence entre les deux mesures. Ce diagramme permet de
voir si l’une des deux mesures a tendance à donner des scores trop bas ou trop élevés, les
points devant normalement se répartir de part et d’autre de la ligne d’identité.

2.4.7 Rappels des différents biais pouvant affecter une étude
d’évaluation diagnostique
Rappel des principaux biais dans une étude diagnostique

Nom du biais A quoi ça correspond ? Que faut-il vérifier ?
Biais de spectre Il s’agit d’un biais de sélection La population de l’étude doit

être proche de la population à
Les patients étudiés ne reflètent
laquelle seront appliqués les
pas l’ensemble des patients
résultats de l’étude.
concernés
Biais de vérification Seuls les individus avec un test Tous les individus doivent avoir
(work-up bias) à l’étude positif ont le test de les 2 tests : le test à l’étude et le
référence test de référence
Surestime la performance
diagnostique du test
Biais de classement Le même évaluateur évalue le Les résultats du test à évaluer et

résultat des 2 tests. Il est du test de référence doivent être
influencé par le résultat de la interprétés indépendamment
première évaluation l’un de l’autre
2.4.8 Recommandations pour rapporter un article diagnostique
Checklist STARD
http://www.stard-statement.org/

2.5 Evaluation d’une intervention de dépistage
2.5.1 Définition
Une procédure de dépistage vise à identifier dans une population a priori en bonne santé des
sujets ayant une maladie inapparente ou à risque élevé de présenter une maladie, en vue
d’examens complémentaires, d’un suivi plus rapproché ou de mesures de prévention.
On distingue deux types de dépistage :
- Dépistage opportuniste ou individuel est un dépistage fait auprès d’un individu sur
proposition du médecin traitant, d’un spécialiste ou d’un médecin du travail de
faire un test susceptible de découvrir au stade asymptomatique une maladie curable.
- Dépistage collectif organisé (« systématique » ou « de masse ») est mis en place sur
décision de l’état. Il est pris en charge totalement.
Avantages et inconvénients d’une procédure de dépistage :

Avantages Inconvénients
- Diminution de la mortalité ou de la - Risque de faux négatifs (faux réconfort)
morbidité - Risque de faux positifs (stress)
- Traitements moins lourds, plus - Risques iatrogènes des tests diagnostiques et
efficaces des traitements après dépistage
- Réconfort des sujets négatifs - Allongement artificiel de la période de
maladie (marquage)
Un dépistage efficace permet une avance au diagnostic qui s’accompagne d’une guérison.
- E= procédure de dépistage évaluée
- C= absence de dépistage
- O= critère de jugement
Par exemple, évaluer l’efficacité d’un dépistage organisé par frottis cervico-vaginal (E) par
rapport à une absence de dépistage organisé (C) en termes de mortalité (O) chez les femmes de
25 à 65 ans (P).

L’essai contrôlé randomisé est la référence pour évaluer l’efficacité d’une procédure de
dépistage car il permet de limiter les biais et apporte (en théorie) le niveau de preuve
scientifique le plus élevé.
Schéma d’un essai contrôlé randomisé évaluant le bénéfice d’un dépistage organisé
2.5.4 Points à évaluer
Les notions précédemment vues dans les essais contrôlés randomisés s’appliquent ici
également. Il faudra accorder une attention particulière aux points suivants :
- Qualité de la randomisation
- Critère de jugement principal : pertinence clinique ? subjectivité ? mode d’évaluation ?
- Analyse en intention de dépister : c’est la même chose que l’analyse en intention de
traiter mais pour une procédure de dépistage c'est-à-dire l’analyse de tous les patients
randomisés dans le groupe dans lequel ils ont été randomisés quel que soit leur suivi,
leur compliance et l’intervention qu’ils ont effectivement reçue. L’analyse en intention
de dépister est le reflet de l’impact de la procédure de dépistage organisé dans la
vraie vie car on sait très bien que tous les individus qui reçoivent une invitation pour
un dépistage organisé ne vont pas forcément le faire et que certains individus
randomisés dans le groupe absence de dépistage auront la procédure de dépistage
dans le cadre d’un dépistage dit opportuniste via leurs médecins.
- Interprétation des résultats : Il faut évaluer si la différence est statistiquement
significative et si celle-ci est cliniquement pertinente. Pour cela, il faut considérer la
réduction absolue du risque et le nombre de sujets à dépister pour éviter un
évènement. Attention, il est normal que ce nombre soit plus élevé que dans un essai
thérapeutique classique car les sujets ne sont pas malades.

2.5.5 Biais spécifiques aux études d’évaluation d’une procédure de
dépistage
- Biais d’avance au diagnostic (lead time bias): la découverte précoce du cancer

augmente la durée de vie après diagnostic. Le dépistage est inefficace si les sujets n’ont
pas une durée de survie globale augmentée mais se savent malades pendant plus
longtemps.
- Biais de sélection des formes lentes (length time bias) : le dépistage trouve plus
souvent les tumeurs à croissance lente que les tumeurs les plus agressives.
- Surdiagnostic : certaines tumeurs évoluent plus lentement que ne surviennent les autres
maladies et ne se seraient jamais manifestées sans le dépistage (découvertes lors
d’autopsie)
2.5.6 Critères justifiant la mise en place d’un dépistage organisé
Pour faire l’objet d’un dépistage organisé, plusieurs critères doivent être réunis :
- La maladie doit être un problème de santé publique par sa fréquence, sa sévérité ou
son impact socio-économique.
- L’histoire naturelle de la maladie doit être bien connue
- La maladie doit pouvoir être détectée pendant sa phase de latence asymptomatique
- Il n’existe pas de facteurs de risque accessibles à la prévention primaire
- Il doit exister un test de dépistage (en phase précoce de la maladie) ayant une forte
sensibilité et une forte spécificité
- Le test de dépistage doit être simple à utiliser et avoir une bonne acceptabilité par
les patients et les professionnels
- Les fréquences de répétition du test doivent être connues
- La précocité du traitement doit être démontrée comme un facteur de bon pronostic
- Les moyens appropriés de diagnostic et de traitement sont disponibles
- Le coût du dépistage (y compris le diagnostic et le traitement) ne doit pas être
disproportionné par rapport au coût global des soins médicaux
- Le programme de dépistage doit avoir fait la preuve de son efficacité avec des essais
contrôlés randomisés
- Les moyens existent pour réaliser le programme de dépistage de façon continue et pour
faire face aux charges supplémentaires induites par la pratique du test.
- Les risques physiques et psychologiques du dépistage doivent être démontrés inférieurs
aux bénéfices obtenus
2.6 Revues systématiques et méta-analyses
Points clés
Quand on s’intéresse à une question de recherche, il arrive très fréquemment que plusieurs
études aient répondu à cette question avec parfois des discordances entre les études. Il
convient donc de faire une synthèse de ces études et si possible d’explorer les discordances.
- Revue systématique : processus rigoureux et reproductible visant à identifier

l’ensemble des études réalisées et à en évaluer leur qualité méthodologique.
- Méta-analyse : analyse statistique permettant de synthétiser pour un même critère

de jugement le résultat de plusieurs études. Il s’agit d’une moyenne pondérée des
résultats des études en fonction de leur précision. Une étude plus précise aura
plus de poids dans le résultat de la méta-analyse.
o Doit être précédée d’une revue systématique de bonne qualité (à
vérifier+++).
o Représentation graphique : forest plot
o Doit comporter une évaluation de l’hétérogénéité
Les revues systématiques et méta-analyses sont affectées par le biais de publication (les
études avec des résultats significatifs sont plus souvent publiées que les études avec des
résultats non-significatifs) et les autres biais de dissémination (présentation sélective des
critères de jugement, biais de délai de publication, biais de citation, biais de publication
multiple,…).

La formulation de l’objectif doit être claire et complète. Pour cela, on utilise également le
PECO adapté au type de question de recherche. Pour l’évaluation d’un traitement, se référer
au point 2.1.1 pour une question d’évaluation étiologique, au point 2.2.1…
Quand on s’intéresse à une question de recherche, il arrive très fréquemment que plusieurs
études aient répondu à cette même question de recherche avec parfois des discordances entre
les études. Il convient donc de faire une synthèse de ces études et si possible d’explorer ces
discordances.
Le type d’étude le plus adapté pour cela est la revue systématique avec méta-analyse. Ce type
d’étude apporte un niveau de preuve élevé car il repose sur une démarche rigoureuse et
reproductible mais attention il faudra bien vérifier cela quand vous en lisez une.
2.6.2.1 Revue systématique

C’est l’étape indispensable pour pouvoir faire une méta-analyse. Elle a pour objectif
d’identifier l’ensemble des études réalisées et à en évaluer leur qualité méthodologique.
Une bonne revue systématique doit comporter les éléments suivants :
1) Un enregistrement du protocole dans le registre des revues systématiques et

méta-analyses
La revue systématique et méta-analyse doit s’appuyer sur un protocole pré-établi (comme

pour toute étude) qui doit être enregistré avant le début de la revue dans le registre des revues
systématiques, PROSPERO (https://www.crd.york.ac.uk/prospero/).
2) Une recherche la plus exhaustive possible des études réalisées
La recherche est l’une des étapes les plus importantes mais les plus difficiles de la revue
systématique en raison du volume de la littérature biomédicale et du risque de biais de
publication (les études avec des résultats statistiquement significatifs sont plus souvent
publiées que les études avec des résultats non significatifs). Elle doit comporter les
éléments suivants :
- Une recherche électronique sur les principales bases de données biomédicales

(pour la recherche des études publiées)
o Au minimum : Medline ou PubMed (Forme gratuite de Medline), EMBASE et
la Cochrane library (la base la plus utile est CENTRAL).
La recherche doit être faite avec une équation de recherche adaptée à chaque base
de données. Cette équation de recherche doit être la plus sensible possible mais
elle doit être faisable. On combine des mots-clés (les termes Mesh dans
Medline avec des éléments de texte libre qu’on recherche dans le titre et le
résumé).
- Une recherche de la littérature grise (=les études non publiées)
o Registres d’essais cliniques dont ClinicalTrials.gov. Car tous les essais doivent
être enregistrés avant le début du recrutement et donc quels que soient leurs
résultats.
o Abstracts des principaux congrès du domaine car les études sont souvent
présentées en congrès avant la publication des résultats
o +/- Contact des experts du domaine
o +/- Sites des laboratoires pharmaceutiques et des agences comme la FDA et
l’EMA
- La vérification de la liste de références des études sélectionnées pour vérifier que la
recherche n’a pas manqué quelques études
Les études seront ensuite sélectionnées sur la base de critères d’éligibilité pré-établis. Les
raisons d’exclusion doivent être collectées et présentées avec un diagramme de flux.
3) Une évaluation du risque de biais (ou de la qualité méthodologique) des études

incluses
C’est une étape très importante car si les études sont biaisées, le résultat de la méta-
analyse risque de l’être également. Il faut utiliser un outil adapté au type d’études
incluses dans la revue systématique. S’il s’agit d’une revue systématique d’essais
contrôlés randomisés, l’outil recommandé pour évaluer le risque de biais des essais
randomisés est le risk of bias tool de la Cochrane. Cet outil comporte l’évaluation
d’éléments méthodologiques que vous connaissez bien : l’évaluation de la qualité de la
randomisation (méthode pour générer la séquence et assignation secrète), l’aveugle,
l’exclusion de patients de l’analyse,…
4) La sélection, l’évaluation du risque de biais et l’extraction des données doivent

être faites en double
Les étapes de sélection des études, d’évaluation du risque de biais et d’extraction des
données dans les études sont des étapes subjectives de la revue systématique c’est-à-dire
qu’il peut y avoir de la variabilité. Afin de limiter cette variabilité et d’améliorer la
reproductibilité de ces étapes, elles doivent être faites en double par deux personnes de
manière indépendante. On regarde ensuite s’il y a des désaccords entre les deux
personnes. Si c’est le cas, elles doivent essayer de se mettre d’accord avec éventuellement
l’aide d’une 3ème personne pour aboutir à un consensus.

2.6.2.2 Méta-analyse
Une méta-analyse est l’analyse statistique permettant de synthétiser pour un même

critère de jugement le résultat de plusieurs études. Une revue systématique peut donc
comporter plusieurs méta-analyses, une pour chaque critère de jugement. La méta-analyse est
une moyenne pondérée des résultats des études en fonction de la précision de ces résultats.
Une étude plus précise aura plus de poids dans le résultat de la méta-analyse. On rappelle
ici que la précision dépend à la fois du nombre de sujets inclus et du nombre d’évènements.
Les études incluant le plus de sujets et ayant beaucoup d’évènements sont les plus précises.
Pour réaliser une méta-analyse, il faut procéder en 3 étapes :
- Définir une mesure de l’association par exemple si on s’intéresse à un critère de

jugement binaire, on peut prendre un risque relatif (RR) ou un odds ratio (OR)
- Recalculer le résultat de chaque étude avec cette mesure d’association par exemple si
on choisit un RR, on va recalculer le résultat de chaque étude avec un RR
- Faire la méta-analyse à proprement parler
Représentation graphique de la méta-analyse : le forest plot
Les résultats d’une méta-analyse sont représentés graphiquement avec un forest plot dont
voici un exemple (source article : Saccone G, Berghella V, BMJ, 2016).
Il s’agit ici d’une méta-analyse comparant l’administration de corticoïdes en anténatal après

34 semaines de grossesse à la prise en charge habituelle sur le critère de jugement : syndrome
de détresse respiratoire sévère (qui correspond à une variable binaire).
Cette méta-analyse comporte 4 études. La mesure d’association utilisée est un risque relatif
(comme indiqué en haut de la figure).

Pour chacune de ces études, nous avons à gauche de la figure le nombre d’évènements (c’est-
à-dire le nombre de syndrome de détresse respiratoire sévère) et le nombre de patients
analysés dans chaque groupe. Ces données sont généralement extraites des articles rapportant
ces études et permettent de recalculer le risque relatif dans chaque étude et de faire la méta-
analyse. Le risque relatif est rapporté à droite avec son intervalle de confiance à 95%. A
droite, nous avons également le poids qui correspond dans le modèle le plus simple à l’inverse
de la variance de l’effet (donc ici du risque relatif) dans l’étude.
Dans la figure, le RR de chaque étude est représenté par un carré, la taille du carré dépend du
poids de l’étude dans la méta-analyse. Vous pouvez noter que l’étude Gyam_-Bannerman et al a le
poids le plus important (80.9%) et donc contribue le plus au résultat de la méta-analyse. C’est
normal car c’est l’étude qui inclut le plus grand nombre de patients et qui a le plus
d’évènements. Le trait horizontal représente l’intervalle de confiance à 95%.
Le résultat de la méta-analyse est représenté par le losange en bas de la figure qui correspond
à un RR combiné de 0.55 (IC à 95% : 0.33 à 0.91) donc significatif. Le p correspondant est
indiqué par test for overall effect à gauche de la figure, p=0.02 ici donc on peut dire ici que la
méta-analyse montre une réduction significative du risque de syndrome de détresse
respiratoire sévère chez le nouveau-né avec des corticoïdes anténataux par rapport au groupe
contrôle.
Evaluation de l’hétérogénéité
Toute méta-analyse doit comporter une évaluation de l’hétérogénéité qui peut se définir
par la variation de l’effet entre les études.
L’hétérogénéité reflète notamment des différences entre les études en termes de

caractéristiques de patients inclus, de traitement évalué (pas exactement la même dose ou la
même durée) ou encore de méthodologie (certains essais seront en double aveugle, d’autres
non).
Pour l’évaluer, il faut d’abord regarder l’aspect du forest plot. On peut dire qu’il y a
visuellement de l’hétérogénéité quand les intervalles de confiance à 95% ne se chevauchent
pas (c’est-à-dire quand on a des IC totalement disjoints). Ce n’est pas le cas dans cette méta-
analyse. Ici on voit que tous les intervalles de confiance à 95% se chevauchent donc il n’y a
pas d’impression visuelle d’hétérogénéité.
Deux indices statistiques permettent d’évaluer l’hétérogénéité (rapporté en bas à gauche dans
la ligne débutant par Test for heterogeneity:
- Le test d’hétérogénéité qui, s’il est statistiquement significatif, permet de rejeter

l’hypothèse d’homogénéité entre les études. Ici, il est non significatif avec p=0.57
donc on ne rejette pas l’hypothèse d’homogénéité.
- Le coefficient I2 qui représente la proportion de variation entre les études due à
l’hétérogénéité plutôt qu’à la chance. Le coefficient I2 varie entre 0 et 100 % ; plus il
est élevé, plus l’hétérogénéité est importante. Ici il est à 0% donc nul.
Au total dans cette méta-analyse, on n’a pas identifié d’hétérogénéité.
Attention à ne pas confondre le test for overall effect (qui représente le résultat de la méta-
analyse : y a-t-il une différence significative entre les deux groupes) et le test d’hétérogénéité
(y a-t-il une hétérogénéité significative de l’effet entre les études ?).
2.6.2.3 Précision concernant le type d’étude auquel on s’intéresse

dans une revue systématique
Selon l’objectif, une revue systématique peut s’intéresser à des essais contrôlés randomisés
uniquement (par exemple pour évaluer l’efficacité d’un traitement) ou des études
observationnelles uniquement (par exemple pour évaluer l’association entre un facteur de
risque et un critère de jugement) ou bien encore dans certains cas à la fois à des essais
randomisés et à des études observationnelles (par exemple pour évaluer la tolérance de
certains traitements). Dans ce dernier cas, il faut prévoir une méta-analyse séparée pour les
essais randomisés et une pour les études observationnelles ou au minimum une analyse en
sous-groupe représentant séparément ces deux types d’étude car ce sont des études de nature
trop différentes pour être mises ensemble sans distinction dans la même méta-analyse.
2.6.3 Principaux intérêts d’une revue systématique et méta-analyse
- Permet de synthétiser les connaissances, ce qui est de plus en plus en indispensable

compte tenu du volume exponentiel de la littérature biomédicale
- Permet d’apporter une réponse quand les résultats des études sont discordants et
d’explorer les causes de ces discordances (par l’exploration de l’hétérogénéité entre
les études)
- Etape indispensable avant de planifier de nouvelles études pour savoir si cela en vaut
la peine
Pour la méta-analyse:
- Amélioration de la précision de l’estimation de l’effet

- Augmentation de la puissance statistique pour mettre en évidence une différence
statistiquement significative

2.6.4 Principales limites
- Biais de publication (les études avec des résultats statistiquement significatifs

sont plus souvent publiées que les études avec des résultats non significatifs) et
autres biais de dissémination (présentation sélective des critères de jugement, biais de
délai de publication, biais de citation, biais de publication multiple,…)
- Il s’agit d’une étude qui peut être considérée comme rétrospective car les données
existent déjà. Les choix que font les auteurs concernant la stratégie de recherche, les
critères d’éligibilité, l’évaluation du risque de biais et l’analyse statistique
conditionnent les résultats. Cela souligne l’importance d’avoir un protocole prédéfini
et de l’enregistrer dans PROSPERO et de ne pas modifier les critères d’inclusion des
études ou encore l’analyse statistique au cours de l’étude, notamment au vu des
résultats sans quoi ceux-ci risquent d’être biaisés.
- Certaines étapes de la revue systématique sont très subjectives (la sélection des études,
l’évaluation du risque de biais, l’extraction des résultats pour effectuer la méta-
analyse). Il est donc important que ces étapes subjectives soient réalisées par deux
personnes de manière indépendante pour améliorer la reproductibilité.
2.6.5 Recommandations de reporting pour les revues

systématiques et méta-analyses
Il s’agit des recommandations PRISMA (http://www.prisma-statement.org/).

3 Remerciements
Je tiens à remercier tout particulièrement Lena Gajdos qui a réalisé la mise en page de cette
nouvelle version du polycopié.


Poly LCA 2021 2022

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Poly LCA 2021 2022

Transféré par

Droits d'auteur :

Formats disponibles

Faculté de médecine Sorbonne Université

Lecture critique d’articles

Faculté de médecine Sorbonne Université 2

Faculté de médecine Sorbonne Université 3

Faculté de médecine Sorbonne Université 4

1.1 Structure d’un article

Faculté de médecine Sorbonne Université 5

Structure et contenu du texte d’un article

Partie Eléments « deva Contenu Ce que vous devez en retirer, les

Contexte de l’étude Evaluation de la pertinence clinique :

Objectif Objectif principal de l’étude L’objectif est-il formulé de manière

complète ? Quels sont les éléments du

(Justification du type d’étude par Le type d’étude est-il adapté à la

Population Mode de recrutement de la population Evaluation de la validité externe (les

Randomisation Comment la randomisation a été faite Qualité de la randomisation Evaluation

Faculté de médecine Sorbonne Université 6

Population d’analyse dans les essais L’analyse est-elle en intention de

Valeur du risque alpha (en général 5%),

Faculté de médecine Sorbonne Université 7

Validité interne (vérification de la

Evaluation de la Les évènements indésirables doivent Y a-t-il des problèmes de tolérance

caractéristiques des patients sont les résultats principaux car ils

selon le critère de jugement prennent en compte les facteurs de

Conclusion Les auteurs concluent en La conclusion est-elle en accord avec

Faculté de médecine Sorbonne Université 8

Pour l’épreuve de lecture critique d’article, on s’intéressera principalement aux études

Etudes observationnelles versus études expérimentales ou interventionnelles

1.2.2 Les études non-comparatives

Faculté de médecine Sorbonne Université 9

Etudes descriptives versus études analytiques

Etudes transversales versus études longitudinales

Etudes prospectives versus études rétrospectives

Faculté de médecine Sorbonne Université 10

Faculté de médecine Sorbonne Université 11

1.3.2 Notion de fluctuations d’échantillonnage

Si l’on constitue plusieurs échantillons (provenant de la même population source), l’estimation

Faculté de médecine Sorbonne Université 12

Concernant la constitution de l’échantillon, les éléments suivants doivent être renseignés :

1.4 Biais et notion de validité interne

Il faut distinguer le biais de l’erreur aléatoire due à la fluctuation d’échantillonnage qui

Faculté de médecine Sorbonne Université 13

L’erreur aléatoire est due à la Toute erreur ou défaut dans la

Imprécision des estimations

Différences entre imprécision (erreur aléatoire) et biais

Chaque flèche représente le résultat obtenu sur un échantillon.

La première cible La seconde cible correspond à une La troisième cible

Faculté de médecine Sorbonne Université 14

1.4.2.1 Biais de sélection

1.4.2.2 Biais de classement

Exemple de biais différentiel :

 Comment limiter les biais de classement ?

- Éviter que les erreurs soient différentielles :

Faculté de médecine Sorbonne Université 16

Faculté de médecine Sorbonne Université 17

1.4.3 Quels sont les réflexes à avoir ?

Il faut savoir repérer et décrire un biais, c’est-à-dire :

1.4.4 Définition de la validité interne

Faculté de médecine Sorbonne Université 18

Son évaluation repose sur les éléments suivants :

Faculté de médecine Sorbonne Université 19

Niveaux de preuve scientifique de la littérature et grade des recommandations (adapté de la

- Essais comparatifs randomisés de forte

Niveau 4 - Études rétrospectives