Vous êtes sur la page 1sur 130

Faculté de médecine Sorbonne Université

UNIVERSITE PARIS VI

Lecture critique d’articles


2018/2019

Dr Agnès Dechartres

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Table des matières
1ère partie : Notions communes aux différents types d’article ............................. 6
1.1 Structure d’un article ............................................................................................ 7
1.2 Les différents types d’étude ................................................................................11
1.2.1 Les études comparatives ...................................................................................11
1.2.2 Les études non-comparatives ...........................................................................12
1.2.3 Autres mots-clés concernant le plan expérimental .........................................12
1.3 Constitution d’un échantillon, notion de population source, population cible,
fluctuations d’échantillonnage ......................................................................................14
1.3.1 Echantillon, population source et population cible .........................................14
1.3.2 Notion de fluctuations d’échantillonnage .........................................................15
1.3.3 Constitution de l’échantillon..............................................................................15
1.4 Biais et notion de validité interne .......................................................................17
1.4.1 Notion de biais ....................................................................................................17
1.4.2 Les principaux biais ...........................................................................................18
1.4.2.1 Biais de sélection ...........................................................................................18

1.4.2.2 Biais de classement .......................................................................................19

1.4.2.3 Biais de confusion ..........................................................................................21

1.4.3 Quels sont les réflexes à avoir ? .......................................................................23


1.4.4 Définition de la validité interne ..........................................................................23
1.5 Validité externe.....................................................................................................24
1.6 Niveau de preuve d’une étude .............................................................................25
1.7 Rappels de biostatistiques à connaître ..............................................................26
1.7.1 Les différents types de variable ........................................................................26
1.7.2 Analyse descriptive ............................................................................................30
1.7.3 Analyse univariée ...............................................................................................37
1.7.3.1 Tests statistiques ...........................................................................................37

1.7.3.2 Mesure de l’association entre deux variables .................................................42

1.7.4 Analyse multivariée ............................................................................................45


2ème partie : Spécificités des différents types d’articles...................................... 50
2.1 Evaluation d’un traitement .......................................................................................51
2.1.1 Formulation de l’objectif ....................................................................................52
2.1.2 Type d’étude .......................................................................................................52
2

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.3 Choix du comparateur (de l’intervention dans le groupe contrôle) ................53
2.1.4 Randomisation....................................................................................................55
2.1.4.1 Génération de la séquence de randomisation ................................................55

2.1.4.2 Clause d’ignorance ........................................................................................60

2.1.4.3 Vérification de la comparabilité initiale des groupes .......................................61

2.1.5 Maintien de la comparabilité des groupes pendant l’essai .............................63


2.1.5.1 Le double aveugle ..........................................................................................64

2.1.5.2 L’analyse en intention de traiter .....................................................................66

2.1.6 Les critères de jugement ...................................................................................70


2.1.6.1 Règles concernant le critère de jugement principal ........................................70

2.1.6.2 Pertinence clinique du critère de jugement .....................................................71

2.1.6.3 Evaluation objective ou subjective ?...............................................................73

2.1.6.4 Critère composite ...........................................................................................74

2.1.7 Calcul d’effectif (ou calcul du nombre de sujets nécessaires) .......................76


2.1.8 Respect des règles éthiques et enregistrement des essais ............................77
2.1.8.1 Règles éthiques .............................................................................................77

2.1.8.2 Enregistrement des essais .............................................................................77

2.1.9 Interprétation des résultats d’un essai .............................................................78


2.1.9.1 Interprétation des résultats pour le critère de jugement principal ....................78

2.1.9.2 Interprétation des résultats pour les critères secondaires ...............................80

2.1.9.3 Interprétation d’une analyse intermédiaire......................................................81

2.1.9.4 Interprétation des analyses en sous-groupe ...................................................82

2.1.9.5 Interprétation des résultats de tolérance ........................................................84

2.1.10 Plans expérimentaux particuliers ....................................................................84


2.1.10.1 Les essais en cross-over..............................................................................85

2.1.10.2 Les essais d’équivalence ou de non-infériorité .............................................87

2.1.11 Rappel des biais dans un essai contrôlé randomisé .....................................90


2.1.12 Recommandations de reporting pour les essais contrôlés randomisés ......91
2.2 Evaluation étiologique ..............................................................................................92
2.2.1 Formulation de l’objectif ....................................................................................93
3

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.2.2 Type d’étude .......................................................................................................93
2.2.2.1 Principe des études de cohorte et cas-témoin ................................................93

2.2.2.2 Choix entre étude de cohorte et étude cas témoin ........................................95

2.2.3 Particularités des études de cohorte ................................................................96


2.2.3.1 Choix de la population....................................................................................96

2.2.3.2 Recueil des facteurs de risque .......................................................................97

2.2.3.3 Recueil de la maladie (critère de jugement) ...................................................97

2.2.3.4 Suivi et problème des données manquantes dans les études de cohorte
prospective ................................................................................................................97

2.2.4 Particularités des études cas-témoin................................................................98


2.2.4.1 Population d’étude .........................................................................................98

2.2.4.2 Recueil des facteurs de risque .....................................................................100

2.2.5 Biais de classement dans les études observationnelles (cohorte et cas


témoin) .......................................................................................................................101
2.2.6 Prise en compte des facteurs de confusion potentiels .................................101
2.2.7 Interprétation des résultats .............................................................................104
2.2.8 Causalité ...........................................................................................................106
2.2.9 Rappels des biais dans les études étiologiques ............................................108
2.2.10 Recommandations pour rapporter une étude étiologique...........................110
2.3 Evaluation de facteurs pronostiques ....................................................................111
2.3.1 Formulation de l’objectif ..................................................................................112
2.3.2 Distinction facteur de risque/ facteur pronostique ........................................112
2.3.3 Type d’étude utilisé ..........................................................................................113
2.3.4 Les biais dans les études pronostiques .........................................................114
2.4 Evaluation d’un test diagnostique .........................................................................115
2.4.1 Formulation de l’objectif ..................................................................................116
2.4.2 Type d’étude .....................................................................................................116
2.4.3 Population d’étude ...........................................................................................116
2.4.4 Choix du test de référence ...............................................................................117
2.4.5 Réalisation des tests (test à évaluer et test de référence) .............................117
2.4.6 Evaluation de la performance diagnostique d’un test ...................................117
2.4.6.1 Mesure de la validité d’un test diagnostique .................................................117

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.4.6.2 Mesure de la fiabilité d’un test diagnostique .................................................124

2.4.7 Rappels des différents biais pouvant affecter une étude d’évaluation
diagnostique ..............................................................................................................126
2.4.8 Recommandations pour rapporter un article diagnostique ..........................126
2.5 Evaluation d’une intervention de dépistage..........................................................127
2.5.1 Définition ...........................................................................................................127
2.5.2 Formulation de l’objectif ..................................................................................128
2.5.3 Type d’étude .....................................................................................................128
2.5.4 Points à évaluer ................................................................................................129
2.5.5 Biais spécifiques aux études d’évaluation d’une procédure de dépistage ..129
2.5.6 Critères justifiant la mise en place d’un dépistage organisé ........................130

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
1ère partie : Notions communes aux différents types
d’article
1.1 Structure d’un article

1.2 Les différents types d’étude

1.3 Constitution d’un échantillon, notion de population


source, population cible, fluctuations d’échantillonnages

1.4 Biais et notion de validité interne d’une étude

1.5 Validité externe d’une étude

1.6 Niveau de preuve d’une étude

1.7 Eléments de biostatistiques à connaître

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
1.1 Structure d’un article

Le tableau ci-dessous donne des orientations sur les différents éléments que l’on doit trouver
dans un article avec les réflexes que vous devez avoir. Attention, cependant, tous les articles
ne vont pas forcément respecter ce plan. Il faudra donc faire attention à bien lire l’article dans
son entier avant de répondre aux questions.

Structure et contenu du texte d’un article

Partie Eléments Contenu Ce que vous devez en retirer,


« devant » être les réflexes à avoir
rapportés

Contexte de l’étude Evaluation de la pertinence


clinique : l’idée à l’origine de
Revue de la littérature des études sur le l’étude est-elle originale ? Ou
sujet bien y a t-il des résultats
discordants dans la littérature
Hypothèses
justifiant la réalisation d’une
nouvelle étude ?
Introduction
Justification de l’étude

Objectif Objectif principal de l’étude L’objectif est-il formulé de


manière complète ? Quels sont
les éléments du PECO
(P=population, E=élement
évalué, C=comparateur,
O=outcome) ?

Type d’étude Plan expérimental de l’étude Les mots clés correspondant au


(Study design) type d’étude

Le type d’étude est-il adapté à


(Justification du type d’étude par rapport à la question posée ?
l’objectif principal)

Population Mode de recrutement de la population Evaluation de la validité


externe (les caractéristiques de
Critères d’éligibilité la population correspondent-
Matériel et elles à celles de la population
méthodes en pratique courante ?)

Evaluation de la validité
interne (risque de biais de
sélection ?)

Randomisation Comment la randomisation a été faite Qualité de la randomisation


(dans les essais) (méthode pour générer la séquence) et Evaluation de la validité
mise en œuvre (respect de l’assignation interne (risque de biais de
secrète ou clause d’ignorance) ? sélection ?)

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Facteurs évalués :

Interventions Description des interventions à l’étude Evaluation de la validité


(essais) (traitement évalué, durée, dose), utilisation externe (pourra-t-on appliquer
d’un placebo ou d’un double l’intervention évaluée en
placebo (l’étude est-elle en aveugle ?)? pratique courante ?)

Evaluation de la validité
interne (risque de biais de
performance en l’absence
d’aveugle)

Facteur Evaluation de la validité


Définition des facteurs d’exposition
d’exposition interne (risque de biais de
(étude classement)
observationnelle)

Test évalué et test


Description du test évalué et du test de Réalisation systématique du
de référence
référence test de référence ?
(études
diagnostiques) Evaluation des résultats des
tests indépendamment l’un de
l’autre ?

Critère de Description du critère de jugement Est-il pertinent cliniquement ?


jugement principal
principal L’évaluation est-elle objective
Mesure du critère de jugement principal ou subjective ?
(comment, par qui, en aveugle ou non) ?
Si subjectif :

Reproductibilité ?
(standardisation, évaluation en
double, ou centralisée)?

Aveugle ? Evaluation de la
validité interne (biais de
classement)

Analyse Calcul d’effectif (surtout pour les essais)


statistique
Analyse descriptive Les analyses statistiques sont-
elles appropriées ?
Analyse univariée
L’analyse est-elle en intention
Analyse multivariée (études étiologiques de traiter (pour un essai)?
et pronostiques)

Population d’analyse dans les essais

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
(intention de traiter, per protocol)

Valeur du risque alpha (en général 5%),


tests unilatéraux ou bilatéraux ?

Résultats Description de la Evaluation de la validité


population externe (les caractéristiques de
la population correspondent-
elles à celles de la population
en pratique courante ?)

Validité interne (vérification de


la comparabilité des groupes
dans les essais : qualité de la
randomisation)

Résultats pour le Comparaison du critère de jugement Différence statistiquement


critère de principal entre les 2 groupes de traitement significative ?
jugement
principal Taille d’effet (différence
cliniquement pertinente ?)

Evaluation de la Les évènements indésirables doivent être Y a-t-il des problèmes de


Pour les essais tolérance rapportés (nombre et description) par tolérance (comparer les
groupe en distinguant les évènements pourcentages entre les 2
indésirables graves groupes car les tests statistiques
ne sont pas puissants pour
mettre en évidence des
différences concernant les
évènements indésirables
surtout ceux qui sont graves)

Analyse univariée Comparaison des caractéristiques des Les résultats de l’analyse


patients selon le critère de jugement multivariée sont les résultats
principal principaux car ils prennent en
Pour les études compte les facteurs de
observationnelles Analyse Identification des facteurs confusion. L’analyse univariée
multivariée indépendamment associés à la survenue du est une étape préalable à la
critère de jugement principal réalisation de l’analyse
multivariée

Discussion Résumé des En accord avec les résultats


principaux pour le critère de jugement
résultats principal ?

Place de l’étude Les résultats de l’étude sont-ils Evaluation de la cohérence


dans la littérature concordants avec les autres études externe
réalisées ?

Limites Les auteurs doivent présenter les Evaluation de la validité


principales limites de leur étude interne et externe

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Conclusion Les auteurs concluent en précisant les La conclusion est-elle en
implications pour la pratique accord avec les résultats du
critère de jugement principal

Il existe pour chaque type d’étude (essais randomisé, étude observationnelle, étude
diagnostique), des recommandations pour rapporter de manière adéquate l’ensemble des
éléments importants. Ce sont ce qu’on appelle des ‘reporting guidelines’ tel que le
CONSORT Statement pour les essais contrôlés randomisés (le lien vers ces reporting
guidelines est donné à la fin de chaque section de la seconde partie de ce polycopié).

10

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
1.2 Les différents types d’étude

1.2.1 Les études comparatives

Pour l’épreuve de lecture critique d’article, on s’intéressera principalement aux études


comparatives. Ces études comparent deux ou plusieurs groupes (groupe avec/groupe sans
intervention, facteur d’exposition étudié ou maladie).

o Etudes observationnelles versus études expérimentales ou interventionnelles

Dans une étude observationnelle, on ne modifie pas la prise en charge des patients, on se
contente d’observer ce qui se passe.

Dans une étude expérimentale (interventionnelle), on modifie la prise en charge en


introduisant une intervention par exemple (traitement, stratégie de dépistage,…) ou en
contrôlant le facteur d’exposition étudié. Pour l’ECNi, il s’agit des essais contrôlés
randomisés.

11

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Les études cas témoin et les études de cohorte sont définies plus loin (dans la partie 2.2)

1.2.2 Les études non-comparatives

Les études non-comparatives sont plus rares. Elles sont descriptives et peuvent être
transversales ou longitudinales.

1.2.3 Autres mots-clés concernant le plan expérimental

o Etudes descriptives versus études analytiques

Une étude purement descriptive est une étude dans laquelle on se contente de décrire sans
chercher d’association. Ce sont par exemple des études de prévalence ou d’incidence. Elles
peuvent être transversales (estimation de la prévalence de la dépression chez les patients
traités pour un cancer par exemple) ou longitudinales (estimation de l’incidence des
infections post-opératoires chez les patients opérés par exemple)

Une étude analytique est une étude dans laquelle on va rechercher une association entre un
ou plusieurs facteurs et une maladie ou un évènement (ce sont des études comparatives).
Elles peuvent être de cohorte, cas témoin ou transversales. Cependant les études
transversales ne sont pas très recommandées pour évaluer des associations.

Les études analytiques peuvent être à visée étiologique (association entre un facteur de
risque (par exemple tabagisme) et une maladie (par exemple infarctus du myocarde) ou
pronostique (association entre un facteur pronostique (par exemple envahissement
ganglionnaire) et un évènement (par exemple décès).

o Etudes transversales versus études longitudinales

Une étude transversale est une étude à un moment donné (comme une photographie), on ne
suit pas les patients dans le temps.

Dans une étude longitudinale, on va suivre les patients dans le temps.

Les études de cohorte et les essais contrôlés randomisés sont des études longitudinales.

12

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
o Etudes prospectives versus études rétrospectives

Une étude prospective est une étude dans laquelle on décide de faire l’étude et on suit des
patients pour recueillir leurs données (le suivi se fait postérieurement à l’enregistrement de
l’exposition au facteur de risque (définition du glossaire)).

Une étude rétrospective est une étude dans laquelle on va recueillir a posteriori des
informations sur l’exposition à des facteurs de risque ou des évènements qui se sont déjà
produits.

Les essais contrôlés randomisés sont forcément des études prospectives.

Les études de cohorte peuvent être prospectives ou rétrospectives (cf chapitre 2.2).

13

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
1.3 Constitution d’un échantillon, notion de population source,
population cible, fluctuations d’échantillonnage

1.3.1 Echantillon, population source et population cible

Il n’est généralement pas possible de réaliser une étude dans l’ensemble de la population et
donc d’obtenir la « vraie » valeur du paramètre qui nous intéresse. On va donc constituer un
échantillon qui doit être le plus représentatif possible de la population qui nous intéresse et
estimer la valeur du paramètre dans cet échantillon. On parle alors de paramètre « mesuré »,
« estimé » ou « observé ». Pour pouvoir extrapoler cette valeur estimée du paramètre à
l’ensemble de la population qui nous intéresse, l’échantillon doit être représentatif (avoir les
mêmes caractéristiques) de cette population.

La population qui nous intéresse est définie comme la population cible. C’est la population
à laquelle on souhaite extrapoler les résultats de l’étude.

En pratique, il est souvent très difficile de constituer l’échantillon dans l’ensemble de la


population cible. L‘échantillon est donc tiré d’une population dite « source » (population
dans laquelle l’échantillon a été constitué).

Dans l’idéal, l’échantillon est représentatif de la population source qui correspond


parfaitement à la population cible.

Constitution d’un échantillon

14

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Remarque : Idéalement, la population source devrait être la population cible, mais ce n’est
pas toujours le cas. Par exemple, l’identification de facteurs de risque de maladies est souvent
réalisée chez des patients hospitalisés. Les patients non hospitalisés font bien partie de la
population cible de l’étude mais ne feront pas partie de l’échantillon.

1.3.2 Notion de fluctuations d’échantillonnage

Si l’on constitue plusieurs échantillons (provenant de la même population source),


l’estimation des paramètres qui nous intéressent ne sera pas exactement la même d’un
échantillon à l’autre même si ceux-ci sont de même taille, du simple fait du hasard. C’est ce
qu’on appelle la fluctuation d’échantillonnage. La fluctuation d’échantillonnage est
inévitable dès qu’on constitue un échantillon. Plus la taille de l’échantillon augmente, plus
la fluctuation d’échantillonnage diminue et l’estimation des paramètres tend à se
stabiliser.

Pour prendre en compte la fluctuation d’échantillonnage, plutôt que de donner une


seule valeur de l’estimation, on donne un intervalle dans laquelle la vraie valeur a de
grandes chances de se trouver. Cet intervalle est l’intervalle de confiance. Il est
généralement à 95%. Si l’on faisait 100 études identiques et que l’on estimait 100 intervalles
de confiance à 95% d’un paramètre, alors 95 de ces intervalles (en moyenne) contiendraient la
vraie valeur du paramètre (on peut également dire qu’il y a 95% de chances que la vraie
valeur soit contenue dans l’IC à 95%).

L’intervalle de confiance à 95% d’un paramètre est calculé à partir de la mesure du paramètre
et de la mesure de sa variabilité.

1.3.3 Constitution de l’échantillon

Concernant la constitution de l’échantillon, les éléments suivants doivent être renseignés :

• Le mode de recrutement des patients

Exemples de modalités de recrutement :

• par publicité, sur la base du volontariat

15

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
• parmi les patients se présentant à une consultation, sélection systématique et
prospective de tous les patients consécutifs, ou d’un échantillon aléatoire, ou par jour
ou semaine alternée…

• à partir d’un registre (par exemple les listes électorales), tirage aléatoire de sujets

• Les critères d’éligibilité : sont les critères permettant de caractériser la


population que l’on souhaite inclure.

On distingue les critères d’inclusion (il faut que les patients les remplissent tous
pour entrer dans l’étude) et les critères de non inclusion parfois appelés, par abus de
langage, critères d’exclusion. Les critères d’exclusion devraient, en fait, désigner les
critères qui font que des sujets initialement inclus sont exclus dans un deuxième
temps.

Il suffit d’un seul critère de non-inclusion pour que le patient ne puisse pas entrer
dans l’étude.

16

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
1.4 Biais et notion de validité interne

1.4.1 Notion de biais

Un biais est une erreur systématique dans l’estimation des résultats qui opère dans un sens
donné (par exemple surestimation de l’association ou de l’effet traitement).

Remarque : les biais peuvent être introduits lors de la conception de l’étude ou lors de
son déroulement.

Il faut distinguer le biais de l’erreur aléatoire due à la fluctuation d’échantillonnage qui


entraîne de l’imprécision autour du paramètre estimé. Plus l’échantillon est petit, plus
l’erreur aléatoire (la fluctuation d’échantillonnage) est importante. L’erreur aléatoire
opère dans tous les sens (surestimation ou sous-estimation).

Les grands types d’erreurs dans une étude

Erreur aléatoire=fluctuation
Type d'erreur Erreur systématique= biais
d’échantillonnage

L’erreur aléatoire est due à la Toute erreur ou défaut dans la


fluctuation d’échantillonnage qui est conception ou la mise en œuvre
Causes
d'autant plus importante que de l'étude peut être une source
l'échantillon comporte peu de sujets possible de biais.

Imprécision des estimations


(intervalle de confiance à 95% large)
Sur ou sous-estimation
et manque de puissance lié au petit
Conséquences systématique
échantillon (il est possible qu’on ne
Risque de conclusion erronée
puisse pas conclure à une différence
significative par manque de puissance)

17

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Différences entre imprécision (erreur aléatoire) et biais

Chaque flèche représente le résultat obtenu sur un échantillon.

La première cible correspond à la situation idéale : l’évaluation est à la fois précise et non
biaisée (absence d’erreurs aléatoire et systématique).

La seconde cible correspond à une évaluation peu précise mais non biaisée. Il s’agit
probablement d’estimations faites dans un échantillon de petite taille avec des fluctuations
d’échantillonnage (erreur aléatoire). Les flèches se répartissent un peu partout mais assez loin
du point central.

La troisième cible correspond à une évaluation précise mais biaisée. Les flèches sont centrées
sur un point qui n’est pas le point central.

1.4.2 Les principaux biais

De très nombreux biais sont décrits dans la littérature. Le type de biais et la terminologie
varient selon le type d’étude. Nous verrons dans la partie 2, les biais propres à chaque type
d’étude. Mais, globalement les biais sont de 3 types principaux : les biais de sélection, les
biais de classement et les biais de confusion.

1.4.2.1 Biais de sélection

Un biais de sélection est un biais lié à la constitution de l’échantillon ou des


groupes de comparaison. Il peut être dû :

18

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
• A un échantillon non représentatif de la population cible pour des
caractéristiques liées à la maladie. Il peut résulter d’une sélection particulière des
sujets aux différentes étapes de sélection de l’échantillon analysé :

o Population source non représentative de la population cible pour des


caractéristiques liées à la maladie (problème de définition des critères
d’éligibilité)

o Echantillon inclus non représentatif de la population source pour des


caractéristiques liées à la maladie (problème de recrutement des sujets : étude
non proposée à tous les sujets éligibles, nombreux refus de participer, etc.)

• A un mauvais choix du groupe de référence comme cela peut être le cas dans les
études cas-témoin. Les témoins peuvent ne pas être représentatifs de la population de
non-malades.

Exemple :

Dans une étude cas-témoin évaluant l’association entre la consommation de café et le


cancer du pancréas, les témoins étaient des malades hospitalisés dans un service de
gastro-entérologie pour un problème de côlon irritable. Le choix du groupe témoin
pose problème ici car la consommation de café est déconseillée chez les patients
ayant un syndrome du côlon irritable. Le groupe de référence n’est pas représentatif
de la population de non-malades car il s’agit de patients hospitalisés et que leur
consommation de café est différente de celle de l’ensemble des non-malades.

1.4.2.2 Biais de classement

Synonymes : biais de mesure, biais d’information

Un biais de classement est un biais dans la mesure de l’élément soumis à évaluation ou


du critère de jugement. On ne classe pas correctement les sujets en « exposés/non exposés »,
ou en « malades/non malades ».

En épidémiologie, on parle d’erreur différentielle lorsque les probabilités d'erreur de


19

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
classement sur la maladie sont différentes chez les exposés et chez les non-exposés (ou
lorsque les probabilités d'erreur de classement sur l’exposition sont différentes chez les
malades et chez les non-malades). Les erreurs différentielles peuvent conduire à une
surestimation ou à une sous-estimation de l’association (la valeur de l’odds-ratio ou du risque
relatif peut être soit augmentée soit diminuée).

Exemple de biais différentiel :

Biais de mémoire dans les études cas-témoin : les cas se souviennent davantage de
l’exposition que les témoins, cela va entrainer une surestimation de l’association (un OR
plus grand que ce qu’il devrait être).

On dit qu'une erreur de classement sur la maladie (ou sur le facteur de risque/exposition)
est non-différentielle lorsqu'elle survient indifféremment chez les exposés et chez les non-
exposés (ou chez les malades et chez les non-malades). Les erreurs non différentielles
conduisent à une sous-estimation de l’association exposition-maladie, autrement dit
rapprochent de 1 la valeur du risque relatif ou de l’odds-ratio.

D’une façon générale, il est préférable d’avoir des erreurs de classement non
différentielles, car elles tendent à sous-estimer l’association que l’on souhaite mettre en
évidence.

20

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Comment limiter les biais de classement ?

Il convient d’y penser lors la planification de l’étude car après on ne pourra pas les corriger.

Éviter que les erreurs soient différentielles

- Les procédures de suivi, de diagnostic, de recueil d’information doivent être


standardisées, objectives et identiques chez les exposés/non-exposés et malades/non-
malades.

- Utiliser une procédure d’aveugle à chaque fois que possible (enquêteurs en aveugle
des hypothèses de l’étude), former (contrôler) les enquêteurs

- Même délai entre exposition et interrogatoire pour les cas et les témoins

Limiter les erreurs de mesure

- Utiliser des définitions les plus précises (valides et reproductibles) possibles pour
l’exposition et la maladie

1.4.2.3 Biais de confusion

Un biais de confusion est lié à la présence d’un (ou plusieurs) facteur(s) de confusion non
contrôlé(s). Un facteur de confusion (confounding factor) est un facteur qui perturbe
l’association entre l’exposition au facteur étudié et la maladie.

Pour être un facteur de confusion, il faut que la variable soit liée à la fois au paramètre
étudié (maladie) et à l’exposition et ne soit pas un facteur intermédiaire.

21

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Le biais de confusion est propre aux études observationnelles (car dans les essais
contrôlés randomisés, la randomisation permet d’équilibrer les facteurs de confusion
connus et inconnus entre les 2 groupes).

Le facteur de confusion peut conduire à une surestimation ou une sous-estimation de


l’association (OR ou RR).

Contrairement aux autres biais (sélection et classement), il est possible de prendre en


compte le biais lié aux facteurs de confusion lors de l’analyse statistique. En effet, le biais
de confusion peut être en partie contrôlé par l’analyse statistique multivariée qui, en ajustant
sur les facteurs de confusion potentiels, permet de corriger l’estimation des OR ou RR. Cette
correction peut malheureusement n’être qu’imparfaite, on parle alors de confusion résiduelle.
La prise en compte des facteurs de confusion dans l’analyse nécessite au préalable que les
informations sur ces facteurs de confusion aient été renseignées.

D’autres moyens existent pour prendre en compte les facteurs de confusion lors de la
planification de l’étude

o L’appariement sur un ou deux facteurs de confusion souvent utilisé dans les études
cas témoin

o La stratification (l’analyse séparée chez les hommes et les femmes par exemple) ou la
restriction à une strate

Ces méthodes sont expliquées dans la partie 2.2 sur les études étiologiques.

En résumé :

Le biais de confusion est le seul biais qu’on peut prendre en compte au moment de
l’analyse.

Il existe 3 manières de prendre en compte les facteurs de confusion :

- Ajustement (modèle multivarié) au moment de l’analyse

22

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
- Appariement dans les études cas témoin sur un ou plusieurs facteurs de confusion connus
(par exemple âge et sexe)

- Stratification ou restriction à un sous-groupe particulier

1.4.3 Quels sont les réflexes à avoir ?

Il faut savoir repérer et décrire un biais, c’est-à-dire :

• expliquer en quoi c’est un biais

• en donner le type (parmi : biais de sélection, biais de classement (ou d’information),


biais de confusion, plus quelques biais plus spécifiques de certains types d’article que
nous verrons par la suite),

• en donner le sens lorsque c’est possible (surestimation ou sous-estimation de


l’association)

• en évaluer l’intensité et l’impact potentiel sur le résultat

• déterminer s’il s’agit d’un biais différentiel ou non, c'est-à-dire s’il modifie le résultat
de la même façon pour tous les groupes.

1.4.4 Définition de la validité interne

La validité interne peut être définie comme la qualité méthodologique de l’étude c'est-à-dire
le contrôle des différents biais potentiels.

L’évaluation de la validité interne passe par la recherche des défauts méthodologiques


de l’étude et des biais potentiels.

Une étude avec une méthodologie adéquate, permettant de limiter le risque de biais pour les
principaux biais évoqués, aura une bonne validité interne.

23

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
1.5 Validité externe

La validité externe d’une étude peut se définir comme la transposabilité (applicabilité,


généralisabilité) des résultats à la pratique courante.

Son évaluation repose sur les éléments suivants :

• Caractéristiques des patients inclus dans l’étude : la population de patients inclus


dans l’étude correspond-elle à la population de patients à laquelle on appliquera les
résultats ? Autrement dit, la population incluse dans l’étude est-elle représentative
de la population cible ? Si les patients inclus dans l’essai sont plus jeunes et moins
sévères que la population de patients habituellement pris en charge, les résultats de
l’essai seront difficilement applicables à la pratique courante.

• Caractéristiques des centres : les résultats des études monocentriques sont moins
généralisables que les résultats des études multicentriques. Le niveau d’expertise
des centres est également à prendre en compte pour évaluer la transposabilité des
résultats. Par exemple, si un essai est réalisé dans un centre de référence universitaire
avec un volume d’activité important, les résultats ne seront pas forcément
généralisables à des centres pratiquant moins d’interventions ou avec un plateau
technique différent.

• Caractéristiques des pays : par exemple, les résultats des études réalisées en Chine
ne sont pas forcément généralisables en France.

• Caractéristiques des interventions dans les essais : est-il possible de reproduire les
interventions évaluées dans l’essai dans notre contexte de soins ? Les interventions
sont-elles suffisamment bien décrites pour être reproduites ?

24

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
1.6 Niveau de preuve d’une étude

Le niveau de preuve d’une étude dépend de l’adéquation de l’étude à la question posée


ainsi que de l’existence de biais dans la planification ou la conduite de l’étude. La Haute
autorité de santé a établi une classification du niveau de preuve des études et une gradation
des recommandations (recommandations de bonne pratique) selon le niveau de preuve des
études sur lesquelles les recommandations s’appuient.

Niveaux de preuve scientifique de la littérature et grade des recommandations (adapté de la


Haute Autorité de Santé)

Niveau de preuve Type d'étude Grade des recommandations


scientifique fourni
par la littérature

Niveau 1 - Essais comparatifs randomisés de forte puissance


- Méta-analyses d'essais comparatifs randomisés GRADE A
- Analyse de décision fondée sur des études bien
menées Preuve scientifique établie
Niveau 2 - Essais comparatifs randomisés de faible puissance
- Études comparatives non randomisées bien menées GRADE B
- Études de cohorte Présomption scientifique
Niveau 3 - Études cas-témoin
GRADE C
Niveau 4 - Études comparatives comportant des biais
importants
Faible niveau de preuve
- Études rétrospectives
scientifique
- Séries de cas
- Études épidémiologiques descriptives
(transversales, longitudinales)

25

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
1.7 Rappels de biostatistiques à connaître

Vous n’y couperez pas, il est indispensable de connaître les éléments de biostatistiques de
base pour évaluer de manière critique un article. En effet, il faut pouvoir interpréter les
résultats et vérifier que les analyses statistiques sont cohérentes avec l’objectif de l’étude. Les
objectifs pédagogiques sont :

- Vérifier que les analyses statistiques (en fonction de notions élémentaires) sont
cohérentes avec le projet de travail

- Analyser la présentation des résultats (présentation des tableaux et figures, vérification


de la présence des indices de dispersion)

- Critiquer l’analyse des résultats.

Globalement, l’analyse statistique suit toujours le même plan :

1) Analyse descriptive

2) Analyse univariée

3) Analyse multivariée

Les analyses réalisées dépendent du type de variable. Nous allons donc d’abord présenter

les différents types de variable puis nous décrirons chacune de ces 3 étapes selon le type de

variable.

1.7.1 Les différents types de variable

Une variable est un phénomène que l’on mesure. Une variable peut être selon le type d’étude
un facteur de risque, un facteur de confusion, un facteur pronostique, un critère de jugement.
Ces notions seront définies ultérieurement.

26

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Les variables peuvent être de trois types différents :

1) Les variables quantitatives

Une variable est dite quantitative quand cela a un sens de dire qu’un résultat est
plus grand ou plus petit qu’un autre (elle reflète une notion de grandeur). Une
variable peut être quantitative discrète (si elle ne peut prendre qu’un nombre limité de
valeurs comme la pression artérielle systolique) ou continue (si elle peut prendre un
nombre infini de valeurs comme la douleur sur une échelle visuelle analogique
continue).

2) Les variables qualitatives ou catégorielles

Une variable qui ne reflète pas une notion de grandeur est une variable dite
qualitative. Il s’agit d’une variable en classes.

Une variable est dite binaire quand elle ne peut prendre que 2 valeurs. Le genre
(masculin ou féminin) est un exemple de variable binaire.

3) Les variables censurées

En médecine, on s’intéresse fréquemment au délai avant la survenue d’un évènement, par


exemple le décès. En effet, ce n’est pas la même chose de décéder après un mois ou après
un an de suivi. C’est le cas par exemple dans les essais en cancérologie dans lesquels on
veut montrer un bénéfice en termes de durée de survie avec un nouveau traitement.

La durée de survie est continue. Cependant, on aura une valeur pour les patients décédés
mais pas pour les patients survivants à la fin de l’étude. On sait seulement que leur
durée de survie dépasse leur durée de participation dans l’étude. Afin d’analyser
correctement ces patients, on doit définir une date de point qui correspond à la fin de
l’étude. Les patients qui ne sont pas décédés (ou qui n’ont pas eu l’évènement) à la
date de point sont censurés à cette date. C’est pour cela que ces variables sont appelées
variables censurées. Les patients qui sont perdus de vue avant la date de point sont
censurés à la date de la dernière visite.
27

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Pour chaque patient, on va calculer sa durée de participation dans l’étude qui va
correspondre :

- Pour les patients décédés avant la date de point : délai entre la date d’entrée dans
l’étude et la date de décès

- Pour les patients toujours en vie à la date de point : délai entre la date d’entrée dans
l’étude et la date de point

- Pour les patients perdus de vue avant la date de point : délai entre la date d’entrée
dans l’étude et la date de la dernière visite

Les évènements survenant après la date de point ne sont pas pris en compte.

Diagramme de suivi de 3 individus

En résumé pour les variables censurées :

- Elles permettent d’évaluer le délai avant la survenue d’un évènement

- Elles permettent de prendre en compte le fait que tous les patients n’ont pas forcément
la même durée de suivi

- Pour chaque patient, on aura son statut à la date de point (vivant ou mort/ évènement
pas d’évènement) et sa durée de participation

28

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Les analyses censurées sont également souvent appelées analyses de survie car l’évènement
étudié est souvent la mortalité mais elles peuvent concerner tout évènement (par exemple,
survenue d’un infarctus du myocarde ou d’une infection)

29

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
1.7.2 Analyse descriptive

La première étape de l’analyse statistique consiste à décrire l’ensemble des variables étudiées
dans l’échantillon.

Analyse descriptive des variables quantitatives

Toute variable quantitative doit être décrite avec un paramètre de position (ou paramètre
central) associé à un paramètre de dispersion qui permet de donner une estimation de la
dispersion (de la variabilité) de la mesure au sein de l’échantillon.

Paramètres de position

o Moyenne

o Médiane (= 50e percentile) : valeur d’une variable quantitative qui permet de


séparer la population en 2 groupes de même effectif. Si par exemple l’âge
médian est de 37 ans, 50% de la population est âgée de 37 ans ou moins et
50% de plus de 37 ans.

Remarque : La médiane est moins sensible aux valeurs extrêmes que la moyenne (si
quelques personnes sont très âgées, la moyenne d’âge va beaucoup augmenter, mais pas la
médiane).

Il est intéressant d’étudier la distribution de la variable dans l’échantillon et de distinguer les


variables qui ont une distribution dite « normale » de celles qui ont une distribution non
normale.

Pour tracer la distribution de la variable, on représente en abscisse les valeurs de la variable,


et en ordonnée, le nombre de patients.

30

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Courbe de distribution normale d’une variable continue

Si la courbe a une forme de cloche comme ci-dessus, la variable a une distribution


normale. La moyenne est alors un bon paramètre de position.

Si la courbe n’a pas cette forme de cloche, il est préférable d’utiliser la médiane.

Paramètres de dispersion

o Ecart-type, variance (carré de l’écart-type) : représentent les « écarts à la


moyenne ». Plus la variance est élevée, plus le caractère est variable dans la
population. L’écart-type et la variance sont des paramètres de dispersion
classiquement associés à la moyenne.

o Intervalle interquartile : intervalle entre le 25e (1er Quartile) et le 75e percentile


(3ème Quartile). Accompagne la médiane : L’âge médian est de 37 ans (intervalle
interquartile : 28-48) » signifie que 25% de la population a moins de 28 ans, 25%
entre 28 et 37 ans, 25% entre 37 et 48 ans et 25% plus de 48 ans.

Analyse descriptive des variables qualitatives

Elle repose sur le calcul du nombre de patients ayant la caractéristique et de la proportion


par rapport à l’ensemble de l’échantillon.

Par exemple, l’échantillon composé de 563 individus comportait 445 femmes (79%) et 118
(21%) hommes.

31

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Les études descriptives peuvent avoir pour objet d’évaluer la prévalence ou l’incidence
d’une pathologie.

• Prévalence

La prévalence mesure la proportion de malades présents dans la population à un


moment donné.

La prévalence se calcule par la formule :

La prévalence intègre 2 dimensions différentes : la durée de la maladie (plus la maladie dure


longtemps, plus le nombre de malades est important) et la vitesse d’apparition de nouveaux
cas de la maladie dans la population. Plus celle-ci est grande, plus la prévalence augmente).

• Taux d’incidence

Le taux d’incidence quantifie le nombre de nouveaux cas de malades qui surviennent dans
la population pendant une période de temps donnée.

Avec PT : Nombre de Personnes-Temps à risque cumulé sur la période c'est-à-dire la somme


cumulée des durées pendant lesquelles les non-malades sont « à risque » de devenir malade.

Le taux d’incidence nécessite de préciser sur quelle période de temps le compte est fait.

Le taux d’incidence mesure une vitesse moyenne d’apparition de nouveaux cas sur
l’ensemble des sujets de la population et de la durée totale de leur suivi.

32

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Analyse descriptive des variables censurées

Dans une analyse portant sur des variables censurées, on s’intéresse au risque instantané de
décès ou plus généralement de survenue de l’évènement.

Le risque instantané d’un événement représente la probabilité de présenter cet événement


à un moment donné, sachant qu’il n’est pas survenu précédemment.

L’analyse descriptive des variables censurées repose sur la réalisation de courbes dites de
survie (bien que le critère qui nous intéresse ne soit pas toujours le décès, cela peut être une
infection, un infarctus du myocarde,…). Cette courbe est généralement tracée avec la méthode
de Kaplan-Meier.

La méthode de Kaplan-Meier permet de représenter, à chaque temps d’événement, le


pourcentage de sujets n’ayant pas encore présenté l’événement d’intérêt.

En abscisse, est représentée la durée de suivi.

En ordonnée, la probabilité (entre 0 et 1) de ne pas avoir présenté l’évènement ou la


proportion de patients (entre 0% et 100%) n’ayant pas encore présenté l’évènement.

La courbe commence à 1 (ou 100%) au temps 0, puisqu’au début de l’étude aucun patient n’a
présenté l’évènement. La courbe est décroissante, puisqu’au cours du temps certains patients
vont présenter l’évènement.

33

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Exemple de courbe de Kaplan-Meier

Le suivi était de 24 mois dans cette étude.

Ici, l’évènement est l’absence de conception (chez des femmes subfertiles). L’axe des
ordonnées représente donc la probabilité de ne pas concevoir au cours du temps.

On peut estimer la durée médiane de survenue de l’événement à partir d’une courbe de


Kaplan-Meier. C’est la durée de suivi pour laquelle 50% des sujets n’ont pas encore eu
l’événement.

La médiane de survie correspond au temps pour lequel la probabilité de survie est de 0.5
(ou bien pour lequel il y a 50% des patients qui sont décédés).

34

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Estimation de la médiane de survie d’après une courbe de Kaplan-Meier

Dans cette étude, la durée médiane avant conception après une laparoscopie et une
hydrotubation chez des femmes ayant des problèmes de fertilité était de 6 mois.

Remarque :

Si moins de 50% des sujets ont présenté l’événement au cours du suivi, on ne


peut estimer la durée médiane de survenue de l’événement.

Une autre présentation des données de survie, équivalente à la courbe de Kaplan-Meier,


consiste à représenter la proportion de sujets ayant présenté l’événement au cours du temps
(incidence cumulée). La courbe est alors inversée : elle commence à 0 (personne n’a encore
présenté l’événement au temps 0) et la courbe est croissante au cours du temps.

35

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
On peut également estimer la médiane de survenue de l’évènement de la même manière.

Exemple de courbe d’incidence cumulée

Dans cet exemple, il n’est pas possible d’estimer la médiane de survenue d’une
tachyarythmie atriale car moins de la moitié de la population a présenté l’évènement.

36

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
1.7.3 Analyse univariée

L’analyse univariée est l’étude de l’association entre deux variables.


Ces deux variables peuvent être un facteur de risque et une maladie, un facteur pronostique et
un évènement, une intervention et un critère de jugement, …

On cherche à déterminer si l’association entre les 2 variables au niveau d’un échantillon est
due à une différence réelle dans la population ou peut être le simple fait du hasard.

Cette analyse peut se faire de deux manières différentes :


- Avec des tests statistiques (par exemple, test du Chi 2)
- Avec un modèle de régression à une seule variable

1.7.3.1 Tests statistiques

Rappels des hypothèses et des définitions

La réalisation d’un test statistique repose sur 2 hypothèses :

L’hypothèse nulle (H0) : il n’y a pas de différence entre les 2 groupes

Par exemple dans le cadre d’un essai clinique :

Le traitement A a la même efficacité que le traitement B

L’hypothèse alternative (H1): il y a une différence entre les 2 groupes

Par exemple dans le cadre d’un essai clinique :

Le traitement A et le traitement B ont des efficacités différentes

La réalisation d’un test statistique nécessite de fixer des risques d’erreur :

Le premier risque d’erreur est considéré comme le plus grave. Il s’agit du risque de conclure
à une différence qui n’existe pas en réalité. C’est le risque alpha. Il est généralement fixé
à 5%.

37

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
L’autre risque d’erreur est le risque beta défini par le risque de ne pas mettre en évidence
une différence qui existe (c’est le manque de puissance).

Rappels des paramètres d’un test statistique (à connaître)

Paramètre du test Définition Valeur

Risque alpha (risque de Probabilité de conclure à une En général fixé à 5%


1ère espèce) différence qui n’existe pas en
réalité

Ou

Probabilité d’accepter H1 si H0 est


vraie

Risque beta (risque de 2nde Probabilité de ne pas mettre en 1 - puissance


espèce) évidence une différence qui
existe en réalité

Ou

Probabilité de ne pas rejeter H0


quand H1 est vraie

Puissance Probabilité de mettre en En général supérieure à


évidence une différence qui 80%
existe en réalité

Ou

Probabilité de rejeter H0 si H1 est


vraie

Avec les hypothèses présentées ci-dessus, le test est dit bilatéral car la différence entre
traitement A et traitement B peut aller dans les 2 sens.

Dans certains articles, les auteurs font un test unilatéral : ils font l’hypothèse que la différence
ne peut aller que dans un sens, c'est-à-dire que l’un des 2 traitements est supérieur à l’autre.
38

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Il est recommandé de faire des tests bilatéraux. La réalisation d’un test unilatéral impose
une correction du risque alpha qui devrait être à 2.5% mais cela n’est pas fréquemment
fait en pratique par les auteurs.

Interprétation du résultat d’un test statistique

Le résultat du test statistique est le p ou degré de significativité (ou degré de signification).


Il s’agit de la probabilité que le hasard puisse expliquer à lui tout seul une différence au
moins aussi grande que celle observée. C’est donc une indication de la certitude avec
laquelle on peut conclure à une différence significative. Si le risque alpha est de 5% :

Exemple 1 :

“At the end of the 12-week treatment courses, 27% of patients treated with efalizumab
(98/369) achieved PASI-75 compared with 4% of patients who received placebo (8/187),
p<0.001”

Dans cet exemple, p<0.05, il y a une association significative entre le traitement et le


PASI-75 qui est le critère de jugement principal de l’étude. p<0.001 signifie qu’il y a
moins d’une chance sur 1000 que le hasard puisse expliquer à lui tout seul une
différence au moins aussi grande que celle qu’on a observée (27% vs. 4%).

39

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Exemple 2 :

“Overall, 32 of the 229 (14%) had complete clearance of all plantar warts at 12 weeks,
corresponding to 17/119 (14%) patients in the salicylic acid group and 15/110 (14%)
patients in the cryotherapy group, p=0.89”

Dans cet exemple, p >0.05, la probabilité de disparition de la verrue plantaire (le critère
de jugement principal) ne diffère pas significativement entre les 2 groupes de
traitement (acide salicylique et cryothérapie). On ne peut rien conclure d’autre.
Notamment, on ne peut pas conclure que les 2 traitements ont une efficacité équivalente
en termes de disparition de la verrue.

Remarque 1 : Les tests statistiques n’indiquent pas l’importance d’une différence. Ce


n’est pas parce que la différence est statistiquement significative qu’elle est cliniquement
pertinente. Si vous faites une étude incluant un grand nombre de sujets, vous aurez une forte
puissance statistique pour montrer des différences statistiquement significatives pour de
faibles différences (sans aucun sens clinique).

Remarque 2 : le p est une mesure a posteriori. Dans une étude si vous avez p=0.01 et qu’on
vous demande quel est le risque alpha, celui-ci reste de 5%. La probabilité de se tromper en
concluant à une différence qui n’existe pas reste de 5%.

Les tests statistiques à connaître

Le choix du test statistique dépend du type de variable que l’on veut évaluer.

- Pour comparer une variable qualitative (par exemple le sexe) entre 2 groupes :

o Test du Chi 2 (test paramétrique)

o Test exact de Fisher (test non paramétrique)

- Pour comparer une variable quantitative (par exemple l’âge) entre 2 groupes :

o Test t de Student si la variable quantitative a une distribution normale.


40

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
o Test de Wilcoxon si ce n’est pas le cas (exemple : dosage des leucocytes) (test
non paramétrique).

Remarque : Un test est dit paramétrique quand on fait des hypothèses sur la distribution des
variables (par exemple, pour un critère de jugement continu, on fait fréquemment l’hypothèse
d’une distribution normale). Un test est dit non-paramétrique quand on ne fait aucune
hypothèse sur la distribution des variables.

- Pour comparer une variable censurée (par exemple la survie) entre 2 groupes :

o Test du log rank qui permet de comparer les courbes de survie entre les 2
groupes

Exemple :

Un essai contrôlé randomisé a comparé l’incidence cumulée de tachyarrhythmie atriale


(critère de jugement principal) chez des patients traités par amiodarone (intervention) et par
placebo (contrôle).

Le test du log-rank montre un p<0.001. On peut conclure à une différence significative en


41

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
faveur de l’amiodarone.

Attention, le test du log-rank compare globalement les deux courbes. On ne peut pas dire
qu’il devient significatif quand les courbes se séparent.

1.7.3.2 Mesure de l’association entre deux variables

Mesure de l’association entre deux variables qualitatives

Les paramètres permettant d’évaluer l’association entre deux variables qualitatives


(typiquement la mesure de l’association entre un facteur de risque et une maladie ou entre un
facteur pronostique et un évènement tel que le décès) sont :

- Le risque relatif

- L’odds ratio

- Le hazard ratio

Lorsque l’on parle de mesure d’association entre une exposition et une maladie, il est souvent
utile de faire un « tableau 2x2 » comme suit :

E+ E- M+ : malades

M+ a b m1 M- : non malades

M- c d m0 E+ : exposés

n1 n0 n E- : non exposés

Risque relatif

Le risque relatif (RR) est le rapport des proportions de malades chez les exposés (a/n1) et les
non exposés (b/n0).
42

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
=

Par exemple, si le RR vaut 2,2 dans la population, on peut dire que le risque de maladie chez
les exposés est 2,2 fois plus élevé que chez les non-exposés.

Remarque : On ne peut pas calculer un risque relatif dans une étude cas témoin

Odds Ratio

L’odds ratio (OR) est une autre mesure possible de l’intensité de l’association entre deux
facteurs qui est fréquemment utilisée car on peut le calculer quel que soit le type d’étude
(contrairement au risque relatif). Il s’agit d’un rapport des rapports ou d’un rapport des cotes.

= =

Il est moins facile à interpréter que le risque relatif.

Remarque : Lorsque la prévalence de la maladie est faible (maladie relativement rare)


dans la population (moins de 10% environ), l’OR est proche du RR. On pourra
interpréter l’OR comme un RR c'est-à-dire dire ‘le risque de cancer du poumon est 3.2
fois plus élevé chez les tabagiques que chez les non-tabagiques’ pour un OR=3.2.

L’odds ratio peut être obtenu avec un modèle de régression logistique qui s’écrit de la
manière suivante :

Y(maladie) = (a x facteur d’exposition) + constante

43

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Hazard ratio

Le hazard ratio (hazard = risque en Anglais) est l’équivalent du risque relatif pour des
variables censurées. Il correspond au rapport des risques instantanés de chaque groupe.

Le hazard ratio s’interprète comme un risque relatif.

Le hazard ratio peut être obtenu par un modèle de Cox (modèle pour données censurées)

Important : Risque relatif, odds ratio, hazard ratio doivent toujours être présentés avec
leur intervalle de confiance à 95%

En pratique, l’intervalle de confiance permet de :

• Donner une idée de la précision de l’estimation : plus l’intervalle est étroit, plus
l’estimation est précise ; à l’inverse, plus l’intervalle est large, moins l’estimation est
précise

• Déterminer si l’association est statistiquement significative. Si l’intervalle de


confiance d’un RR, OR, HR ne contient pas la valeur 1 alors on peut conclure
qu’il y a une association statistiquement significative.

Exemples :

• RR = 1,8 ; IC95% : 1,2 – 2,5 RR significativement différent de 1

• RR = 2,5 ; IC95% : 0,8 – 3,2 RR non significativement différent de 1

Remarque :

Il revient au même de faire un test statistique et regarder si p est inférieur à 0,05 et de regarder
si l’IC à 95% d’un RR, OR ou HR contient la valeur 1.

44

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Mesure de l’association entre une variable qualitative et une variable quantitative

Il s’agit notamment de l’étude de l’association entre l’exposition à un facteur quantitatif


(comme l’âge) et une maladie. On estimera également des odds ratios et des hazards ratio
avec leur intervalle de confiance à 95%.

Attention, ils doivent s’interpréter pour une augmentation d’une unité de la variable
quantitative.

Exemple :

Dans une étude évaluant l’association entre l’âge (exprimé en années) et la survenue d’un
AVC, l’Odds ratio est de 1.05 (IC 95% 1.01-1.10). Cela signifie que le risque de faire un
AVC augmente de 5% pour chaque année supplémentaire (si on suppose que la prévalence
de l’AVC est faible afin d’interpréter l’Odds ratio comme un risque relatif (et qu’il existe une
relation log-linéaire entre l’âge et la survenue d’un AVC)).

Mesure de l’association entre deux variables quantitatives

Pour mesurer l’association entre deux variables quantitatives, on calculera un coefficient de


corrélation entre ces deux variables qui peut varier entre -1 (les 2 variables sont totalement
corrélées et varient en sens contraire) et 1 (les 2 variables sont totalement corrélées et varient
dans le même sens). On teste si ce coefficient de corrélation est significativement différent de
0. Une corrélation de 0 correspond à une absence de dépendance mais cela ne signifie pas que
les variables sont indépendantes.

1.7.4 Analyse multivariée

L’analyse multivariée permet d’étudier l’association entre une ou plusieurs variables et


la maladie ou un évènement d’intérêt en prenant en compte (en ajustant sur) des
facteurs de confusion.
Les facteurs significatifs dans cette analyse sont dits facteurs indépendamment associés
à la maladie ou à l’évènement.
45

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Cette analyse est l’analyse la plus importante pour les études observationnelles (cohorte
ou cas témoin) parce qu’elle permet de prendre en compte les facteurs de confusion.

En théorie, on n’a pas besoin de faire d’analyse multivariée dans les essais contrôlés
randomisés car, grâce à la randomisation, les deux groupes sont comparables pour tous les
facteurs de confusion connus ou inconnus.

L’analyse multivariée fait appel à des modèles de régression (multivariés car comprenant
plusieurs variables).

Le principe est de prédire la valeur d’une variable qui est le critère de jugement (par exemple
la maladie) en fonction d’autres variables (facteurs de risque potentiels et facteurs de
confusion). On les appelle respectivement la variable à expliquer et les variables explicatives.
Le modèle peut s’écrire comme suit :

Y(variable à expliquer) = (a x variable explicative 1) + (b x variable explicative 2) +…+


constante

C’est à dire

Y= aX1 + bX2 + …+ constante

Les modèles de régression utilisés diffèrent selon le type de variable.

o Cas d’une variable à expliquer binaire (par exemple maladie : oui/non)

On utilise un modèle de régression logistique.

Pour chaque variable explicative introduite dans le modèle, on obtiendra un OR ajusté et


son IC à 95%.

Sens de l’interprétation

Si la variable à expliquer est un évènement négatif (maladie, décès à 30 jours,


infection,…) :

- Un OR significativement <1 indique un facteur protecteur


46

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
- Un OR significativement > 1 indique un facteur de risque

Ceci est évidemment également valable pour l’analyse univariée.

Exemple : Dans cette étude cas témoin, on a recherché les facteurs de risque d’infection
urinaire récidivante résistante aux antibiotiques.

Le tableau ci-dessous présente les résultats de l’analyse multivariée c'est-à-dire les ORs
ajustés.

Pour chaque variable, on a une catégorie de référence comme indiqué dans le tableau. L’OR
dans la catégorie de référence vaut 1 par définition (valeur nulle).

Les variables qui sont indépendamment associées aux infections urinaires récidantes antibio-
résistantes sont (ce sont celles pour lesquelles l’IC à 95% n’incluent pas la valeur 1):

47

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
- L’ethnie (OR=0.21 (IC 95 0.07-0.63) pour l’ethnie caucasienne c'est-à-dire un rôle
protecteur car l’OR est <1)

- l’âge (OR=0.26 (IC 95 0.09-0.80) pour un âge de 2 à 6 ans c'est-à-dire un rôle protecteur car
l’OR est <1)

- le fait d’avoir reçu des antibiotiques (OR=7.60 (IC 95 1.60-35.17) c'est-à-dire facteur de
risque car l’OR est > 1)

o Cas d’une variable à expliquer censurée (par exemple délai avant décès ou
incidence cumulée d’infarctus du myocarde)

On utilise un modèle de Cox.

Pour chaque variable explicative introduite dans le modèle, on obtiendra un HR ajusté et


son IC à 95%.

Sens de l’interprétation

Si la variable à expliquer est un évènement négatif (décès, infarctus du myocarde,…) :

- Un HR significativement <1 indique un facteur protecteur

- Un HR significativement > 1 indique un facteur de risque

Ceci est évidemment également valable pour l’analyse univariée.

48

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Récapitulatif des différentes étapes de l’analyse statistique selon le type de variable

Critère de jugement binaire Critère de jugement continu Critère de jugement censuré

Ex: Mortalité à 30 jours Exemple: douleur, qualité de vie Ex: mortalité, survenue d’infarctus
du myocarde

Etape 1 : analyse descriptive Fréquences et pourcentages Moyenne ET écart-type Courbe de Kaplan-Meier (médiane
de survie)
Médiane ET minimum-maximum ou
Q1-Q3

Etape 2 : analyse univariée ou bivariée Test du Chi 2 (paramètrique) Test t de Student (paramètrique) Test du Log rank

Tests statistiques Test exact de Fisher (non Test de Wilcoxon (non paramètrique) Modèle de Cox univarié (HR brut)
paramètrique)
Mais aussi modèles statistiques univariés Test de Mann Whitney (non
(1 seule variable explicative) Régression logistique univariée paramètrique)
(OR brut)
Régression linéaire univariée

Etape 3 : analyse multivariée Régression logistique multivariée Régression linéaire multivariée Modèle de Cox multivarié

Modèles statistiques multivariés (plusieurs Permet d’obtenir un OR ajusté Permet d’obtenir un HR ajusté
variables explicatives)

Permet l’ajustement sur un ou plusieurs


facteurs de confusion

49

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2ème partie : Spécificités des différents types d’articles

2.1 Evaluation d’un traitement


2.2 Evaluation étiologique (évaluation de facteurs de
risque)
2.3 Evaluation de facteurs pronostiques
2.4 Evaluation d’un test diagnostique
2.5 Evaluation d’une intervention de dépistage

50

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1 Evaluation d’un traitement

Points clés :

La référence pour évaluer l’efficacité d’un traitement est l’essai contrôlé, randomisé, en
double aveugle (quand cela est possible), avec analyse en intention de traiter. C’est ce
schéma qui permet de limiter les biais et d’avoir une comparabilité des groupes pendant
la durée de l’étude

- Comparabilité initiale = randomisation

- Maintien de la comparabilité des groupes pendant l’étude et l’analyse

o Double aveugle

o Analyse en intention de traiter

Le critère de jugement principal doit être pertinent et il faut vérifier si son évaluation est
objective

Pour conclure, il faut que le résultat pour le critère principal soit significatif mais il faut
également se poser la question d’une différence cliniquement pertinente

51

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.1 Formulation de l’objectif

L’objectif doit être formulé de manière claire et complète. Pour cela, on peut utiliser le moyen
mnémotechnique PECO ou PICO :

- P=Population concernée

- E ou I=Intervention thérapeutique évaluée

- C=Intervention dans le groupe contrôle (le comparateur)

- O=outcome (critère de jugement principal)

Par exemple, évaluer l’efficacité sur la mortalité à 30 jours (O) d’un traitement par
hydrocortisone (E) par rapport à un placebo (C) chez des patients en choc septique (P).

La question posée doit être pertinente au vue de la littérature existante sur le sujet. Un essai
devrait être réalisé s’il s’agit d’un nouveau traitement dans la pathologie étudiée, d’un
traitement qui n’a pas démontré son efficacité ou d’un traitement pour lequel les résultats des
études antérieures sont discordants.

2.1.2 Type d’étude

L’essai contrôlé randomisé est la référence pour évaluer l’efficacité d’une intervention car il
permet de limiter les biais et apporte (en théorie) le niveau de preuve scientifique le plus
élevé.

Il s’agit en général d’un essai de phase 3 dont les résultats peuvent conduire à l’autorisation
de mise sur le marché.

Rappel des différentes phases d’un essai portant sur le médicament (tiré de l’abrégé Masson
de Santé Publique)

52

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Le terme « contrôlé » signifie qu’il y a un groupe contrôle (recevant par exemple un placebo)
et que l’on contrôle la comparabilité des groupes tout au long de l’étude.

Le plus souvent, l’essai contrôlé randomisé est un essai à 2 bras parallèles ce qui signifie que
les patients reçoivent un des deux traitements à l’étude selon le résultat de la randomisation)
selon le schéma suivant :

Schéma de l’essai à 2 bras parallèles

Le plus souvent, également, il s’agit d’un essai dit de supériorité dont l’objectif est de
montrer que le nouveau traitement est supérieur à un placebo ou à un traitement de référence.

Afin de limiter au maximum le risque de biais, l’essai devrait être en double aveugle avec
analyse en intention de traiter comme nous allons le voir un peu plus loin.

Enfin l’essai peut être monocentrique s’il est réalisé dans un seul centre ou multicentrique
s’il est réalisé dans plusieurs centres. C’est une notion importante car elle influence la validité
externe de l’essai. Les résultats d’un essai monocentrique sont moins transposables à la
pratique qu’un essai multicentrique, la validité externe sera donc moindre dans un essai
monocentrique.

2.1.3 Choix du comparateur (de l’intervention dans le groupe contrôle)

Le choix du comparateur est un élément important à évaluer. Ce choix dépend de la


pathologie étudiée.

53

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
S’il existe un traitement ayant fait la preuve de son efficacité dans cette pathologie, ce
traitement devrait être le comparateur. Si aucun traitement n’a fait la preuve de son efficacité
dans la pathologie étudiée, le groupe contrôle devrait recevoir un placebo.

Choix du comparateur

Remarque :

Malheureusement, même dans les pathologies pour lesquelles il existe des traitements ayant
montré leur efficacité, les essais sont fréquemment réalisés contre placebo.

Ces essais ont un intérêt limité car ils ne permettent pas de savoir si le nouveau traitement a
un intérêt par rapport aux traitements existants (on pourra juste conclure que le traitement fait
mieux que le placebo s’il existe une différence significative pour le critère de jugement
principal).

Ils ne permettent donc pas de répondre à la question la plus importante pour le médecin à
savoir : dans cette pathologie, quel est le meilleur traitement à donner à mon patient ?

Exemple : Un essai dans le psoriasis modéré à sévère a évalué un nouveau traitement,


l’efalizumab, par rapport à un placebo alors qu’il existe des traitements systémiques dans
cette pathologie comme le methotrexate.

54

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.4 Randomisation

La randomisation est le tirage au sort des patients permettant une répartition au hasard
(aléatoire) des patients dans deux ou plusieurs groupes.

La randomisation, si elle est bien faite, tend à obtenir des groupes comparables pour
tous les facteurs pronostiques connus et inconnus, afin que toute différence entre les 2
groupes ne puisse être attribuée qu’au traitement reçu.

Attention, la randomisation concerne la comparabilité initiale des groupes et non la


comparabilité pendant la durée de l’étude.

La qualité de la randomisation est un élément clef pour évaluer la validité interne d’un
essai contrôlé randomisé. Elle repose sur 3 points :

1) La génération de la séquence de randomisation

2) L’assignation secrète (la clause d’ignorance)

3) La vérification de la comparabilité initiale des groupes

Si l’un de ces 3 éléments pose problème, il y a un risque de biais de sélection.

2.1.4.1 Génération de la séquence de randomisation

La méthode utilisée pour générer la liste de randomisation doit permettre une allocation
« totalement aléatoire ».

Méthodes adéquates = « aléatoires »

o séquence informatique

o table de nombres aléatoires (random number table) (utilisée quand il n’y avait
pas d’ordinateur)

o tirage à pile ou face (coin toss) (en théorie mais pas vraiment faisable dans un
essai)

55

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Méthodes inadéquates = non aléatoires

o randomisation alternée (ABABAB…)

o randomisation basée sur une caractéristique du malade (initiale du prénom,


date de naissance, etc.)

o randomisation basée sur le jour d’inclusion (lundi=A, mardi=B,


mercredi=A,…)

o toute autre méthode comportant une attitude décisionnelle systématique

Randomisation équilibrée versus déséquilibrée

Une randomisation est dite équilibrée quand l’objectif est de randomiser autant de patients
dans le groupe expérimental que contrôle. Le ratio d’allocation (ratio groupe A/groupe B)
est alors 1/1. Il s’agit de la situation la plus fréquente.

Dans certains essais, le ratio est 2/1 c'est-à-dire qu’on souhaite randomiser 2 fois plus de
sujets traités par le nouveau médicament que de sujets traités par placebo. On parle alors de
randomisation déséquilibrée. L’argument fréquemment utilisé pour justifier cette
randomisation déséquilibrée est d’augmenter le nombre de sujets traités par le traitement
expérimental afin d’avoir davantage de données concernant la tolérance de ce traitement. Une
autre raison moins fréquemment avouée est que cela va améliorer le recrutement dans l’essai
car les patients ont plus de chances de recevoir le traitement expérimental que le placebo.

Randomisation simple

Lorsque la randomisation est basée sur une simple séquence de nombres, on parle de
randomisation simple.

Méthodes de randomisation utilisées en cas de faible effectif

Quand l’effectif de l’essai est faible, une randomisation simple peut aboutir à des
déséquilibres liés au hasard (aux fluctuations d’échantillonnage). Par exemple, si je
randomise 10 patients, je peux me retrouver par hasard avec 8 patients dans un groupe et 2

56

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
patients dans l’autre (comme quand on tire au sort à pile ou face), ce qui me poserait
problème pour interpréter les résultats de mon essai.

Des techniques peuvent être utilisées pour éviter ces déséquilibres liés au hasard en cas de
faible effectif (fluctuations d’échantillonnage). Il s’agit de la randomisation par blocs, de
la randomisation stratifiée et de la randomisation par minimisation.

1) Randomisation par blocs

La randomisation par blocs consiste à s’assurer, qu’à tout moment de l’essai, à peu
près le même nombre de patients soit alloué dans chaque groupe.

Par exemple, dans un essai comportant deux bras, une randomisation par blocs avec
des blocs de taille 4 signifie que tous les 4 patients, 2 seront randomisés dans le
groupe expérimental (A) et 2 dans le groupe contrôle (B).

Exemple de randomisation par blocs de taille 4

1 A
2 A
3 B
4 B
5 A
6 B
7 A
8 B
9 B
10 B
11 A
12 A
13 B
14 A
15 B
16 A

Remarque :

La randomisation par blocs est une méthode de randomisation adéquate adaptée en cas de
faible effectif. Il faut cependant faire attention à ne pas communiquer la taille des blocs aux

57

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
investigateurs qui recrutent les patients ou alors à faire des blocs de taille aléatoire (qui
change pendant la durée de l’étude). Autrement, l’investigateur, s’il connait la taille des blocs,
pourrait déduire quel va être le groupe dans lequel le patient suivant sera randomisé. Par
exemple, si l’investigateur a randomisé les 2 premiers patients dans le groupe A, il peut en
déduire que les 2 prochains patients seront randomisés dans le groupe B s’il sait que la taille
des blocs est de 4. Cela pourrait entraîner une violation de la clause d’ignorance (voir plus
loin).

2) Stratification de la randomisation (ou randomisation stratifiée)

Cette méthode est utilisée en complément de la randomisation par blocs. Elle est
utilisée pour limiter des déséquilibres liés au hasard sur des facteurs
pronostiques importants.

Le principe est de s’assurer qu’un nombre à peu près égal de patients ayant certaines
caractéristiques (par exemple une tumeur de stade avancé) soit randomisé dans
chaque groupe. La randomisation stratifiée consiste à faire une liste de
randomisation par strate.

Par exemple, si la randomisation est stratifiée sur le stade de la maladie (précoce et


avancé), il y aura 2 strates (stade précoce et stade avancé) et donc 2 listes de
randomisation : 1 liste pour les stades précoces et 1 liste pour les stades avancés.

Exemple de randomisation par blocs stratifiée sur le stade de la maladie

Si la randomisation est stratifiée sur le sexe et sur le stade de la maladie (précoce et


avancé), il y aura 4 strates et donc 4 listes de randomisation : 1 pour les femmes en
58

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
stade précoce, 1 pour les femmes en stade avancé, 1 pour les hommes en stade
précoce, 1 pour les hommes en stade avancé.

Remarque :

- Il est fréquent dans les essais multicentriques de stratifier sur le centre afin qu’il y ait à
peu près autant de patients randomisés dans le groupe A et dans le groupe B au sein de chaque
centre.

- On ne peut pas stratifier sur un trop grand nombre de facteurs car dans ce cas, on
pourrait se retrouver avec des strates vides (sans patient). Quand on a un faible effectif et
beaucoup de facteurs pronostiques importants à prendre en compte, on fera plutôt une
randomisation par minimisation (cf ci-dessous).

3) Randomisation par minimisation

La minimisation est utilisée dans les essais incluant un nombre limité de


patients lorsqu’il existe un nombre important de facteurs pronostiques
importants.

Cette technique est notamment utilisée dans les essais en cancérologie.

Il s’agit d’une méthode impliquant un algorithme permettant de limiter les


déséquilibres sur les facteurs pronostiques importants. Lors de l’inclusion
d’un nouveau patient, l’investigateur enregistre les facteurs pronostiques du
patient sur un site internet sécurisé, l’algorithme détermine alors le groupe du
patient en fonction des caractéristiques des patients précédemment inclus afin de
limiter les déséquilibres entre les groupes.

59

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.4.2 Clause d’ignorance

Synonyme : non divulgation de l’allocation, masquage de l’allocation, allocation


concealment, assignation secrète

Chronologie de l’inclusion d’un patient dans l’essai pour respecter la clause d’ignorance

La clause d’ignorance est respectée lorsque l’investigateur qui recrute les patients dans un
essai contrôlé randomisé ne peut pas prévoir dans quel groupe le patient va être
randomisé au moment où il recrute le patient.

Le fait de pouvoir prévoir le groupe de randomisation du prochain patient risque d’influencer


la décision d’inclure le patient dans l’essai (par exemple, l’investigateur peut décider de ne
pas proposer au patient de participer à l’essai si le patient est sévère et qu’il sait que le
prochain patient de l’étude sera randomisé dans le groupe expérimental). Cela risque
d’entrainer un biais de sélection.

L’investigateur ne doit connaitre le résultat de la randomisation (le groupe du patient) qu’une


fois que celui-ci est entré dans l’essai.

60

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Méthodes adéquates pour respecter la clause d’ignorance:

o Randomisation centralisée (randomisation par téléphone, fax ou via un site


internet) : une fois que le patient est inclus dans l’essai, l’investigateur se
connecte à un site internet, appelle la centrale de randomisation ou envoie un fax.

o Enveloppes numérotées séquentiellement contenant l’information sur le groupe


de randomisation opaques et scellées. Une fois que le patient est entré dans
l’essai, l’investigateur ouvre l’enveloppe ayant le plus petit numéro.

o Médicaments préparés par la pharmacie dans des containers identiques (pour


les essais médicamenteux). Une fois que le patient est entré dans l’essai,
l’investigateur contacte la pharmacie qui fournit le traitement alloué par
randomisation dans un container qui ne permet pas de savoir de quel traitement il
s’agit.

Méthodes inadéquates car prévisibles:

o Randomisation alternée (ABABABAB)

o Randomisation selon une caractéristique du patient (par exemple l’année de


naissance : donner le traitement A aux sujets nés les années paires et le traitement
B aux sujets nés les années impaires) ou le jour de la semaine

o Enveloppes contenant l’information sur le groupe de randomisation non opaques


ou non scellées

Ces méthodes ne respectent pas la clause d’ignorance.

2.1.4.3 Vérification de la comparabilité initiale des groupes

Le tableau 1 d’un essai contrôlé randomisé présente les caractéristiques initiales des
patients par groupe de randomisation. Il doit présenter toutes les caractéristiques
importantes des patients au regard de l’essai (l’âge, le sexe, la sévérité de la maladie, les
antécédents, les comorbidités éventuelles, les autres traitements pris par les patients…).

61

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Il permet de vérifier que les caractéristiques initiales des patients sont relativement
comparables entre les 2 groupes. Cette évaluation se fait « à l’œil » (Eye Ball test) ce qui
signifie sans faire de tests statistiques.

Pour évaluer si les groupes sont comparables, il faut prendre en compte l’effectif de l’essai.
En cas de faible effectif, on peut s’attendre à quelques déséquilibres entre les groupes liés au
hasard (fluctuations d’échantillonnage). En revanche, si l’effectif est important, les
déséquilibres entre les groupes doivent être minimes. De plus, les déséquilibres liés aux
fluctuations d’échantillonnage doivent aller dans les 2 sens (favorisant tantôt le bras
expérimental tantôt le bras contrôle). Des déséquilibres favorisant toujours le même groupe
doivent alerter et faire évoquer un risque de biais de sélection.

Exemple de Tableau 1

62

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Dans cet exemple, les groupes sont relativement comparables en termes de caractéristiques
initiales.

Remarques :

L’absence de différence importante entre les groupes randomisés est un indice de qualité
mais les groupes peuvent différer sur des caractéristiques non renseignées dans
l’essai.

Une randomisation de bonne qualité peut ne pas aboutir à des groupes comparables, par
le simple fait du hasard (fluctuations d’échantillonnage), surtout en cas de petit
effectif.

Quelle qu’en soit la raison (randomisation mal faite ou fluctuations d’échantillonnage),


si les groupes diffèrent, il faut déterminer si la différence est suffisamment
importante pour altérer les résultats. Si les groupes sont trop différents, cela peut
invalider les résultats de l’étude.

Le tableau 1 permet également de décrire la population à l’étude pour évaluer si la


population de l’essai est proche de celle que l’on traite en pratique (validité
externe).

2.1.5 Maintien de la comparabilité des groupes pendant l’essai

Afin d’être sûr que la différence de résultats observée entre les 2 groupes n’est due qu’au
traitement reçu, il est nécessaire de maintenir la comparabilité des groupes (qui a été
obtenue avec la randomisation) pendant toute la durée de l’essai et ce jusqu’à l’analyse. Le
double aveugle et l’analyse en intention de traiter permettent de maintenir la comparabilité
des groupes pendant le suivi et l’analyse, respectivement et de limiter les biais.

63

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.5.1 Le double aveugle

Qu’est-ce que le double aveugle ?

Le double aveugle est le fait que ni le patient ni le soignant ne savent quel traitement le
patient reçoit (le traitement expérimental ou le traitement du groupe contrôle).

Pourquoi c’est important

Le double aveugle permet de limiter :

- Un éventuel effet placebo. L’effet placebo est un effet positif de la prise d'un
médicament qui n'est pas lié aux propriétés physico-chimiques de la molécule, mais au
fait que l'on prend un traitement (effet psychologique)

- Des modifications de comportement du patient et du soignant. S’il connait le


traitement qu’il reçoit, le patient risque de modifier son comportement. Par exemple
s’il est randomisé dans le groupe contrôle, il pourra être déçu et quitter l’essai. A
l’inverse s’il est randomisé dans le groupe expérimental, il pourra redouter de
présenter des effets secondaires. De la même manière, le médecin qui suit le patient va
modifier son comportement (même de manière inconsciente) s’il sait quel traitement le
patient a reçu.

- Le risque de biais de performance ou de suivi défini comme des différences


systématiques dans le suivi des patients et qui sont liées à des modifications de
comportement du patient et du soignant (par exemple, plus grande prescription de
corticoïdes dans le groupe contrôle pour « compenser »).

Comment obtenir le double aveugle ?

Pour qu’un essai soit en double aveugle, il faut que les patients du groupe contrôle reçoivent
soit un placebo ayant les mêmes caractéristiques (apparence, goût, forme) que le traitement
expérimental soit que le traitement actif (si le comparateur est un traitement actif) ait la même
apparence ce qui n’est pas toujours possible.

Dans le cas d’un essai où le comparateur est un traitement actif d’apparence différente
ou ayant un mode d’administration différent (par exemple quand on compare un nouveau
64

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
traitement sous la forme de comprimés au traitement habituel qui est sous la forme
d’injections), il faudra utiliser un double placebo. Tous les patients vont alors recevoir deux
traitements :

o soit le traitement expérimental et le placebo du traitement contrôle pour les patients


randomisés dans le groupe expérimental

o soit le placebo du traitement expérimental et le traitement contrôle pour les patients


randomisés dans le groupe contrôle.

Schéma d’un essai randomisé comparant deux traitements actifs ayant des modes
d’administration différents (utilisation d’un double placebo)

Remarques :

L’aveugle vis-à-vis du traitement reçu n’est pas toujours possible du fait de la nature de
l’intervention (par exemple en chirurgie).

Le terme double aveugle est un terme que les méthodologistes n’aiment pas car il est
trop vague : cela implique que 2 protagonistes de l’essai sont en aveugle mais on ne
sait pas forcément lesquels (habituellement, il s’agit du patient et du médecin,
mais…on ne sait jamais). C’est pourquoi il est préférable de préciser qui est en
aveugle du traitement reçu dans l’essai :

- le patient ?

- le médecin qui suit le patient ?

-la personne qui évalue le critère de jugement qui peut être soit le patient (par

65

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
exemple pour la douleur) soit le médecin (par exemple infarctus du myocarde) soit
une personne extérieure.

2.1.5.2 L’analyse en intention de traiter

Qu’est-ce que l’analyse en intention de traiter ?

Dans l’analyse en intention de traiter, tous les patients randomisés sont analysés et ce,
dans le groupe dans lequel ils ont été randomisés, quel que soit le traitement effectivement
reçu, qu’ils aient ou non terminé ou même commencé le traitement et quel que soit leur suivi.
On les analyse comme ils auraient dû être traités et non comme ils ont été traités réellement.

Exemple :

Dans cet exemple, on cherche à comparer l’accouchement par césarienne par rapport à
l’accouchement par voie basse chez des femmes avec un bébé qui se présente par le siège. On
randomise 90 femmes dans chaque groupe.

Dans le groupe « voie basse », 10 femmes ont dû avoir une césarienne en urgence en raison
d’une souffrance fœtale. Selon le principe de l’analyse en intention de traiter, ces 10 femmes
doivent être analysées et ce dans le groupe « voie basse ».

66

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
L’analyse doit donc comparer le devenir des 90 femmes du groupe « voie basse » (80
ayant vraiment accouché par voie basse plus 10 ayant eu une césarienne) par rapport
aux 90 femmes du « groupe césarienne ». La souffrance fœtale peut être liée au fait que la
voie basse n’était pas adaptée. Exclure ces 10 patientes risquerait de surestimer le bénéfice de
la voie basse.

Pourquoi c’est important

L’analyse en intention de traiter permet :

- De limiter le risque de biais d’attrition. Les patients perdus de vue ou qui ont arrêté
le traitement l’ont peut être fait en raison d’un manque d’efficacité ou d’effets
secondaires. Les exclure risque de surestimer l’effet du traitement.

- De maintenir la comparabilité des groupes randomisés au moment de l’analyse.


En effet, le tableau 1 porte sur l’ensemble des patients randomisés. Si on exclut des
patients au moment de l’analyse, on perd le bénéfice de la randomisation.

C’est la méthode d’analyse de référence des essais randomisés (de supériorité).

Comment évaluer si l’analyse est bien en intention de traiter ?

Les auteurs rapportent souvent une analyse en intention de traiter dans les méthodes mais
quand on évalue le diagramme de flux ou les résultats, il est fréquent que des patients aient été
exclus de l’analyse.

Il faudra donc vérifier que l’analyse est bien en intention de traiter: pour cela, il faudra
évaluer :

- le diagramme de flux : le nombre de patients analysés en bas du diagramme de flux doit


correspondre au nombre de patients randomisés

- les résultats : le dénominateur (au moins pour le critère de jugement principal) doit
correspondre au nombre de patients randomisés

67

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Exemple :

Dans cet essai contrôlé randomisé, les auteurs rapportent dans les méthodes que l’analyse est
en intention de traiter. Cependant le diagramme de flux montre que des patients ont été exclus
de l’analyse.

Remarque :

Si le nombre de patients exclus est minime par rapport au nombre de patients randomisés, cela
n’aura probablement pas d’impact sur les résultats mais l’analyse n’est pas à proprement
parler en intention de traiter.

68

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Stratégie de gestion des données manquantes

L’analyse en intention de traiter doit être systématiquement associée à une stratégie de


gestion des données manquantes.

Prenons l’exemple d’un essai contrôlé randomisé comparant un nouveau médicament à un


placebo et avec comme critère de jugement principal la survenue d’un infarctus du myocarde
dans l’année et avec 200 patients randomisés dans le bras expérimental et 200 dans le bras
placebo. Si 20 patients sont perdus de vue dans le bras expérimental et 30 dans le bras
contrôle, l’analyse en intention de traiter devra porter sur les 400 patients. Le problème, c’est
que si on analyse les données comme cela, sans rien faire de plus, cela revient à considérer
qu’aucun des perdus de vue n’a eu d’infarctus du myocarde dans l’année ce qui est peut être
faux. Il faut donc mettre en place une stratégie de gestion des données manquantes pour
remplacer les données de ces 20+ 30 perdus de vue.

Les stratégies de gestion des données manquantes recommandées sont :

- l’imputation multiple. Il s’agit d’une analyse statistique permettant de remplacer les


valeurs manquantes du critère de jugement en fonction des caractéristiques des patients
perdus de vue à l’aide de modèles de régression complexes.

- la méthode du pire scénario. Cette méthode revient à considérer les données


manquantes du bras expérimental comme des échecs (ou des non-réponses) et les
données manquantes du bras contrôle comme des succès (ou des réponses). Dans
notre exemple, cela reviendrait à considérer que les 20 perdus de vue du groupe
expérimental ont tous eu un infarctus du myocarde dans l’année alors qu’aucun des 30
perdus de vue du groupe contrôle n’aurait eu d’infarctus du myocarde. Cela est également
probablement faux mais si on arrive à montrer une différence avec cette méthode, c’est
qu’elle existe vraiment. Cette méthode est toutefois peu utilisée car trop stricte.

Une autre méthode d’imputation des données manquantes est fréquemment utilisée mais
elle n’est pas recommandée. Il s’agit de la méthode LOCF (Last Observation Carried
Forward). Elle consiste à prendre la dernière valeur disponible pour le patient avant qu’il ne

69

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
sorte de l’essai. Par exemple, si un patient est venu en consultation à 6 mois mais n’est pas
revenu à 9 mois ni à un an, on prendra son résultat à 6 mois.

Analyse per protocole versus analyse en intention de traiter

L’autre méthode d’analyse est l’analyse per protocole, où seuls les patients compliants au
protocole c'est-à-dire ayant reçu le traitement ou le placebo pendant toute la durée de leur
suivi sont considérés.

Dans les essais contrôlés randomisés de supériorité, seule l’analyse en intention de


traiter est recommandée. L’analyse en ITT est plus conservatrice c'est-à-dire qu’elle a
tendance à diminuer les différences entre les 2 groupes. L’analyse per protocole donne des
résultats plus favorables car on exclut tous les patients qui n’ont pas respecté le protocole (on
exclut ceux qui ont arrêté le traitement car il ne leur paraissait pas efficace, ceux qui ont arrêté
le traitement en raison d’effets secondaires,…).

Remarques :

On parle également de population d’analyse en intention de traiter ou per protocole.

L’analyse en intention de traiter est une analyse plus proche de la « vraie vie » que
l’analyse per protocole, car en pratique clinique, le patient peut ne pas prendre le
traitement, prendre son traitement un jour sur deux, ne pas revenir en
consultation,….

2.1.6 Les critères de jugement

2.1.6.1 Règles concernant le critère de jugement principal

S’il y a le plus souvent plusieurs critères de jugement dans les essais contrôlés randomisés, un
critère de jugement principal doit être identifiable.

70

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Le critère de jugement principal devrait :

- Etre de préférence unique afin de conserver un risque alpha de 5% (autrement il faudra


ajuster le risque alpha)

- Correspondre à l’objectif principal de l’essai

- Etre pré-spécifié dès le protocole (c’est sur ce critère qu’on va faire le calcul d’effectif)

- Ne pas changer au cours de l’étude notamment au vu des résultats car sinon, cela risque
de biaiser les résultats de l’essai

- Etre pertinent cliniquement (cf ci-dessous)

La conclusion de l’essai doit porter sur ce critère de jugement principal.

Remarque : Pourquoi c’est mal de changer de critère de jugement principal en cours


d’étude (après avoir vu les résultats) ?

Par exemple, des investigateurs font leur essai et se rendent compte au moment de l’analyse
que le critère de jugement principal qui avait été défini dans le protocole n’est pas
significatif. Or un critère de jugement secondaire également pertinent est significatif. Ils
décident d’intervertir les deux critères (le critère initialement secondaire devient principal et
vice versa) dans la publication.

Cela risque de biaiser les résultats de l’étude pour la raison suivante :

Plus on fait de tests statistiques, plus on augmente le risque alpha de conclure à une
différence statistiquement significative alors que la différence est en fait due au hasard. Si on
choisit parmi tous les critères de jugement secondaires testés (souvent un certain nombre)
celui qui est statistiquement significatif, cela va favoriser des résultats statistiquement
significatifs qui sont dus au hasard et surestimer l’effet du traitement

2.1.6.2 Pertinence clinique du critère de jugement

Les critères de jugement surtout le critère de jugement principal devraient être cliniquement
pertinents. Evaluer la pertinence dépend de la pathologie étudiée mais globalement, on peut
considérer que les critères suivants sont pertinents cliniquement :

71

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
o Mortalité

o Tout évènement clinique (infarctus du myocarde, infection, accident vasculaire


cérébral, …)

o Douleur

o Qualité de vie

o Incapacités ou handicaps (échelles fonctionnelles)

A l’inverse, certains critères sont dits « intermédiaires » ou « critères de substitution »


ou « surrogate » en anglais. Il peut s’agir de mesures cliniques (ex : mesure de la
pression artérielle), biologiques (ex : mesure de la clairance de la créatinine) ou
radiologiques (mesure de la densité minérale osseuse). Ces critères permettent une
évaluation à court-terme avec une durée de l’étude moins longue et un nombre de patients
recrutés moins importants (donc un coût moindre).

Exemple :

Pour évaluer l’efficacité d’une chimiothérapie contre le cancer de la prostate, on pourrait


s’intéresser :

à la mortalité toutes causes confondues ou à la mortalité par cancer de la prostate


(critères pertinents)

à la réduction de la taille de la tumeur ou à la baisse du taux sanguin de PSA (critères


intermédiaires)

Le problème est que les critères intermédiaires ne sont pas forcément corrélés avec la
mortalité ou les évènements cliniques tels que la survenue d’un infarctus du myocarde
(critères vraiment pertinents pour le patient nécessitant des études plus longues et plus
coûteuses) et peuvent donner une évaluation trompeuse de l’efficacité d’un traitement.

72

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.6.3 Evaluation objective ou subjective ?

L’évaluation du critère de jugement est dite objective si son évaluation est incontestable et ne
peut pas être sujette à des interprétations différentes selon la personne qui l’évalue.

Critères dont l’évaluation est objective :

Peu de critères de jugement ont une évaluation vraiment objective.

o Mortalité toutes causes confondues

o Examens biologiques sans interprétation (par exemple, mesure de la glycémie).

Critères dont l’évaluation est subjective :

Certains critères de jugement sont, à l’inverse, très subjectifs comme les critères rapportés
par le patient tels que la douleur, la qualité de vie, le niveau d’incapacité qui sont utilisés
pour évaluer des traitements symptomatiques. Dans ce cas, il est très important que le patient
soit en aveugle du traitement reçu afin de limiter le risque de biais de classement et que le
critère de jugement soit évalué à l’aide d’une échelle validée (par exemple, pour la qualité de
vie, échelle SF36).

Les autres critères : évènements cliniques (par exemple, infarctus du myocarde), critères
radiologiques (par exemple, récidive tumorale évaluée par scanner), mortalité cause-
spécifique (par exemple, mortalité cardiovasculaire) sont des critères dont l’évaluation peut
être considérée comme subjective car soumise à l’interprétation d’un individu.

Conséquences d’un critère de jugement dont l’évaluation est subjective :

o Risque de biais de classement en l’absence d’aveugle de l’évaluateur


(l’évaluateur peut être influencé s’il sait quel traitement le patient a reçu)

o Variabilité dans l’évaluation du critère de jugement

Que faut-il vérifier en cas de critère de jugement dont l’évaluation est subjective :

o L’évaluateur est-il en aveugle pour le limiter le risque de biais de classement ?

73

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
o Eléments permettant de limiter la variabilité entre les évaluateurs (améliorer la
reproductibilité)

Définition standardisée du critère de jugement

Utilisation d’échelles validées

Evaluation en double (par deux personnes de manière indépendante avec


consensus)

Voire évaluation centralisée par un comité indépendant (comité


d’adjudication)

2.1.6.4 Critère composite

Il s’agit d’un critère composé de plusieurs évènements. Ces critères sont souvent utilisés
dans les essais en cardiologie. Un critère composite peut être, par exemple, la survenue d’un
infarctus du myocarde, d’un AVC ou d’un décès. On considère que le patient a présenté le
critère de jugement s’il a eu au moins l’un de ces évènements. S’il a présenté plusieurs
évènements du critère, on retient la date du premier évènement.

Avantages :

o Gain de puissance en augmentant la probabilité de survenue de l’évènement pour


un même effectif

o ou réduction de l’effectif nécessaire pour une même puissance

o Evaluation de la balance bénéfice-risque. Un critère composite permet


éventuellement de prendre en compte l’ensemble des évènements importants. Par
exemple, si on veut évaluer l’intérêt d’un traitement anti-thrombotique, il peut être
intéressant d’avoir un critère de jugement composite combinant des évènements
ischémiques (évaluant l’efficacité du traitement) et des évènements hémorragiques
(évaluant sa tolérance).

74

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Inconvénients :

o Difficulté d’interprétation. Un critère de jugement composite doit être interprété


tel quel. Si le résultat pour le critère de jugement composite (par exemple la
survenue d’un infarctus du myocarde, d’un AVC ou d’un décès) est
statistiquement significatif, il n’est pas possible de conclure que le traitement
permet de diminuer les décès. La conclusion doit être : « le nouveau traitement
permet de diminuer de manière significative la survenue d’in infarctus du
myocarde, d’un AVC ou d’un décès ».

o Vérifier que l’effet traitement est le même pour tous les évènements cliniques
du critère composite.

Chaque évènement clinique composant le critère composite doit être défini


comme critère secondaire. L’effet traitement est souvent plus important pour
les évènements les moins graves mais qui sont le plus souvent les plus
fréquents. Il y a aura alors une différence statistiquement significative pour le
critère composite et pas forcément pour les évènements les plus graves ce qui
pose problème quant à l’interprétation d’un bénéfice pour le patient. C’était le
cas dans l’exemple donné ci-dessous :

Exemple :

Interprétation des résultats d’un critère de jugement composite

Dans cet exemple, le critère de jugement composite est défini comme la survenue d’un décès,

75

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
d’une insuffisance rénale terminale ou d’un doublement de la créatinine.

Il y a une différence statistiquement significative pour le critère de jugement composite.


Quand on regarde les composantes du critère composite, il n’y a pas de différence
statistiquement significative pour la mortalité globale ni pour l’insuffisance rénale terminale
qui sont deux critères importants pour le patient.

La seule différence statistiquement significative observée est pour le critère « doublement de


la créatinine » qui du fait de sa plus grande fréquence entraine la significativité statistique du
critère composite. Mais ce critère est un critère intermédiaire qui n’est pas important pour le
patient. Cet essai pose donc un problème d’interprétation du bénéfice pour le patient.

2.1.7 Calcul d’effectif (ou calcul du nombre de sujets nécessaires)

L’estimation du nombre de sujets nécessaires pour l’étude doit être faite a priori (au moment
de l’élaboration du protocole). Il faut inclure suffisamment de sujets pour avoir une forte
probabilité de détecter une différence statistiquement significative.

Eléments nécessaires pour estimer le nombre de sujets à inclure:

o la puissance statistique souhaitée (devrait être > 80%)

o le niveau de l’ erreur alpha (0,05 en général)

o la valeur attendue du paramètre dans le groupe contrôle (au mieux,


documentée par la référence à des études antérieures) : proportion pour un critère
binaire, écart-type pour un critère continu

o la différence minimale entre les groupes jugée cliniquement pertinente: plus


la différence à montrer est faible, plus il faudra de sujets.

76

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.8 Respect des règles éthiques et enregistrement des essais

2.1.8.1 Règles éthiques

Les essais contrôlés randomisés sont soumis à des règles très strictes sur le plan éthique. Ils
sont régis par la loi Huriet-Serusclat.

Pour tout essai contrôlé randomisé :

- Soumission du protocole à un comité d’éthique pour approbation pour pouvoir débuter.


En France, ce comité d’éthique est le comité de protection des personnes (le CPP).

- Information claire et loyale des patients

- Signature par les patients d’un consentement libre, éclairé et révocable à tout moment.

Pour pouvoir conduire un essai, il faut également que la clause d’ambivalence soit respectée.
La clause d’ambivalence ou équipoise (equipoise en anglais) signifie qu’il existe une
incertitude sur l’efficacité de l’intervention évaluée. Si tel n’est pas le cas, ce n’est pas
éthique de conduire l’essai car cela expose les patients du groupe contrôle à une perte de
chance. Une autre définition présente dans le glossaire de LCA du CNCI est que tous les
patients doivent pouvoir recevoir l’un ou l’autre des traitements (ils ne doivent pas
présenter de contre-indication à l’un ou l’autre des traitements pour pouvoir être inclus
dans l’essai).

2.1.8.2 Enregistrement des essais

Tous les essais doivent être enregistrés avant le début de l’essai dans un registre public tel
que ClinicalTrials.gov.

Cela permet d’évaluer s’il y a eu des écarts au protocole c'est-à-dire des changements par
rapport à ce qui avait été prévu (par exemple, un changement de critère de jugement principal
qui pourrait biaiser les résultats de l’essai).

Vérifier que ce qui est rapporté dans l’article est conforme à ce qui a enregistré est un élément
important pour apprécier la validité des résultats d’un essai.

77

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.9 Interprétation des résultats d’un essai

2.1.9.1 Interprétation des résultats pour le critère de jugement principal

• Est-ce que le résultat pour le critère de jugement principal est


statistiquement significatif ?

Il faut évaluer le p, le degré de significativité du test.

Si p<0.05, on peut conclure que la différence est statiquement significative

Si p≥ 0.05, il n’y a pas de différence statistiquement significative et on ne peut


rien conclure d’autre.

Exemple :

“Overall, 32 of the 229 (14%) had complete clearance of all plantar warts at 12 weeks,
corresponding to 17/119 (14%) patients in the salicylic acid group and 15/110 (14%)
patients in the cryotherapy group, p=0.89

Conclusions Salicylic acid and the cryotherapy were equally effective for clearance of
plantar warts.”

Dans cet exemple, p est >0.05, il n’y a pas de différence statistiquement significative
entre les 2 traitements (acide salicylique et cryothérapie) en termes de disparition de la
verrue plantaire (le critère de jugement principal). Et on ne peut rien conclure d’autre.
La conclusion des auteurs dans le résumé (les 2 traitements ont une efficacité
équivalente en termes de disparition de la verrue) est donc erronée.

78

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Remarques :

Ne pas confondre p (degré de significativité et risque alpha)

o Risque alpha :

- Défini a priori (en général 5%)

- Probabilité de conclure à une différence qui n’existe pas (probabilité

d’avoir un faux positif)

o Degré de significativité

- Résultat a posteriori

- Probabilité que le hasard explique à lui seul une différence au moins

aussi grande (degré de confiance dans le résultat)

Exemple : Si p=0.01 et risque alpha défini à 5%, la probabilité de conclure à une différence
qui n’existe pas reste de 5%.

• Est-ce que la différence observée est cliniquement pertinente ? (quelle est


la taille d’effet ?)

Quand on interprète les résultats d’un essai, il faut garder à l’esprit qu’une différence
statistiquement significative ne traduit pas forcément une différence cliniquement
pertinente. En effet, plus l’essai aura inclus de patients, plus il aura de puissance pour mettre
en évidence de faibles différences qui ne sont pas forcément pertinentes.

Il faut donc évaluer si la différence observée est cliniquement pertinente. Pour cela, il faut
évaluer la taille d’effet (effect size) et en particulier la réduction absolue du risque (qui
correspond à la différence de risque entre les 2 groupes) ou le nombre de patients à traiter
pour éviter un évènement (qui correspond à l’inverse de la réduction absolue du risque).
Une réduction relative du risque peut donner une estimation trompeuse de la taille d’effet.

79

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Par exemple, une réduction relative du risque de 50% peut correspondre à une réduction
absolue de risque de 1% ce qui est très faible et peu pertinent.

Exemple :

Dans un essai contrôlé randomisé, la mortalité à 3 mois est de 20/200 (10%) dans le bras
expérimental et de 30/200 (15%) dans le groupe contrôle.

Nous avons :

- Réduction absolue du risque : 15%-10%=5%

- Réduction relative du risque : (15%-10%)/15%=33%

- Nombre de patients à traiter pour éviter un évènement : 1/0.05=20 c'est-à-dire qu’il


faudra traiter 20 patients pour éviter un seul décès à 3 mois.

En pratique, il est souvent difficile d’apprécier si la différence est pertinente cliniquement.


Cela dépend de la pathologie et du critère de jugement. Une réduction absolue du risque de
5% est très importante quand il s’agit de la mortalité globale mais moins importante quand il
s’agit d’autres critères comme la proportion de patients douloureux.

2.1.9.2 Interprétation des résultats pour les critères secondaires

Les résultats des critères de jugement secondaires doivent être interprétés


précautionneusement surtout si le résultat pour le critère de jugement principal n’est pas
statistiquement significatif. En effet, en général le nombre de critères de jugement secondaires
est assez important ce qui entraîne une inflation du risque alpha de conclure à une différence
qui n’existe pas.

80

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Il n’est pas possible de conclure à l’efficacité d’un traitement sur la base du résultat d’un
critère de jugement secondaire si le résultat pour le critère de jugement principal n’est pas
statistiquement significatif.

2.1.9.3 Interprétation d’une analyse intermédiaire

Qu’est ce qu’une analyse intermédiaire ?

Une analyse intermédiaire est une analyse effectuée avant l'inclusion de tous les sujets prévus.
Elle est réalisée le plus souvent lorsque l'étude est longue et qu’il y a un risque pour les
patients.

L’idée est que si le nouveau traitement, ou l’intervention, fonctionne vraiment bien (ou
vraiment mal), ce n’est peut-être pas la peine (voire contraire à l’éthique) d’attendre la fin de
l’étude pour présenter les résultats.

Idéalement, ces analyses intermédiaires sont gérées par un comité indépendant : le Data
Safety Monitoring Board.

Règles concernant les analyses intermédiaires et l’arrêt prématuré d’un essai

o Les analyses intermédiaires doivent être prévues à l’avance dans le protocole.

o Les règles d’arrêt de l’étude doivent être définies dans le protocole. En effet, si
on répète l’analyse au fur et à mesure des inclusions, on risque de trouver à un
moment donné une différence statistiquement significative par le simple fait du
hasard. Si on fait un seul test statistique pour le critère de jugement principal en fin
d’étude, le risque alpha est de 5% mais si on fait des tests statistiques de manière
répétée, le risque alpha va augmenter et la probabilité de conclure à une différence
qui n’existe pas également. Si l’on arrête alors l’étude, on va conclure à l’existence
d’une différence alors qu’elle est possiblement due au hasard.

o La réalisation d’analyses intermédiaires nécessite un ajustement du risque


alpha (pour prendre en compte la multiplicité des tests statistiques).

o Il est licite d’arrêter l’essai après une analyse intermédiaire si et seulement


si les règles d’arrêt prédéfinies ont été atteintes.
81

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.9.4 Interprétation des analyses en sous-groupe

Qu’est ce qu’une analyse en sous-groupe ?

Il s’agit de l’analyse du critère de jugement principal dans des sous-groupes de patients


définis selon leurs caractéristiques (par exemple, l’âge, le sexe, le stade de la maladie). Ces
analyses permettent d’évaluer si l’effet traitement diffère selon certaines caractéristiques
de la population.

Règles concernant les analyses en sous-groupe

o Elles doivent être prédéfinies dès le protocole et en nombre limité

o Elles doivent être considérées comme des analyses exploratoires. La


conclusion de l’essai doit porter sur le résultat pour toute la population et non sur
l’un des sous-groupes et ce d’autant plus qu’il n’y a pas de différence
statistiquement significative dans la population globale.

o On ne devrait pas interpréter une analyse en sous-groupe si le critère de


jugement principal n’est pas significatif dans l’ensemble de la population.

Justification

Le fait de faire des analyses en sous-groupe entraine une inflation du risque alpha (plus on
fait de tests, plus le risque alpha augmente) et il est donc possible d’avoir un résultat
statistiquement significatif pour l’un des sous-groupes par le simple fait du hasard.

Présentation des résultats

Les résultats des analyses en sous-groupe sont fréquemment présentés sous la forme d’une
figure appelée Forest plot. Pour évaluer s’il existe une différence d’effet traitement selon
le sous-groupe, il faut faire un test d’interaction entre l’effet du traitement et le sous-
groupe. Ce test évalue si l’effet traitement varie selon la caractéristique considérée.

82

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Exemple :

Interprétation des résultats d’une analyse en sous-groupe

Dans cet exemple, 3 analyses en sous-groupe ont été réalisées : en fonction de l’âge (moins de
77 ans versus plus de 77 ans), en fonction du sexe (hommes et femmes) et en fonction de
l’index d’Hardman (index=0, index=1, index≥2).

Le résultat du test d’interaction est le p qui est représenté à droite. Dans cet exemple, seul le
test d’interaction pour le sexe est statistiquement significatif (p=0.019) c’est à dire qu’il y a
une différence d’effet traitement entre les hommes et les femmes. Toutefois, on ne peut rien
en conclure car il n’y a pas de différence statistiquement significative globalement (OR=0.94,
IC 95% 0.67-1.33).

83

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.9.5 Interprétation des résultats de tolérance

La tolérance d’un traitement est un élément essentiel à évaluer mais elle est fréquemment mal
rapportée dans les essais.

Présentation des résultats de tolérance (en théorie)

- Description de tous les évènements indésirables par groupe de traitement avec leur
fréquence de survenue.

- Description séparée de tous les évènements indésirables graves (décès, tout évènement
clinique ayant entraîné la prolongation d’une hospitalisation, anomalie congénitale, ou
incapacité).

Les analyses de tolérance manquent fréquemment de puissance car les évènements


indésirables sont rares (particulièrement les évènements indésirables graves) et le calcul
d’effectif n’est fréquemment pas fait sur des critères de tolérance. Le fait qu’il n’y ait pas de
différence statistiquement significative ne permet donc absolument pas de conclure à un
bon profil de tolérance du traitement évalué. Il faudra évaluer la différence de
pourcentages entre les 2 groupes.

2.1.10 Plans expérimentaux particuliers

Nous nous sommes placés jusqu’à présent dans la situation la plus fréquente c’est à dire un
essai contrôlé randomisé à 2 bras parallèles et de supériorité.

Il existe, en fait, d’autres types d’essai. Nous aborderons ici 2 autres types d’essai contrôlé
randomisé sur lesquels vous pouvez être interrogés: les essais en cross-over et les essais
d’équivalence ou de non infériorité.

84

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.10.1 Les essais en cross-over

Principe de l’essai en cross-over

Tous les patients vont recevoir les 2 traitements à l’étude. Les patients seront ainsi leur propre
contrôle.

Schéma d’un essai en cross-over

La randomisation détermine l’ordre d’attribution des traitements. Les patients sont donc
randomisés en 2 groupes : soit traitement A puis traitement B soit traitement B puis traitement
A.

L’essai comporte 2 périodes séparées par un wash out (lavage) qui permet d’éliminer
l’effet du traitement donné en 1ère période (effet rémanent ou carry-over effect qui peut se
définir comme la poursuite de l’effet du traitement après son arrêt et qui dépend de la demi-
vie de la molécule).

Intérêts de l’essai en cross-over

o Comparabilité des groupes parfaite puisque ce sont les mêmes patients

o Nombre de sujets à inclure bien moindre que dans un essai classique.


L’effectif est au moins divisé par 2 par rapport aux essais à 2 bras parallèles car ce
sont les mêmes patients qui reçoivent les deux traitements. Il existe également un
gain de puissance lié à l’analyse d’échantillons appariés.

Cependant il faut respecter certaines conditions pour pouvoir réaliser ce type d’essai.

85

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Conditions nécessaires

o Maladie chronique stable dans le temps : Si la maladie n’est pas stable, on ne


pourra pas être sûr que les résultats observés traduisent l’effet du traitement, ils
pourraient également traduire l’évolution de la maladie. Ce type d’essai est
donc réservé aux maladies telles que l’asthme, l’épilepsie ou encore la
migraine.

o Les traitements à évaluer doivent être des traitements symptomatiques : ils


doivent agir de manière temporaire sur les symptômes et non de manière
définitive. L’essai en cross-over n’est ainsi pas adapté pour évaluer des
interventions chirurgicales.

o Le critère de jugement peut être répété : Cela peut être par exemple, la
douleur. L’essai en cross-over n’est pas adapté pour mesurer des critères de
jugement tels que la mortalité…

o Période de wash-out suffisante: Cette période est nécessaire pour supprimer les
effets du traitement donné en 1ère période (effet rémanent ou carry-over effect
qui peut se définir comme la poursuite de l’effet du traitement après son arrêt et
qui dépend de la demi-vie de la molécule).

Principes de l’analyse

o Il faut avant tout systématiquement tester la possibilité d’un effet carry-over


en évaluant s’il y a une interaction entre la période et l’effet du traitement. Si on
met en évidence une telle interaction, il y a un effet carry-over et on ne pourra pas
analyser correctement les résultats de l’essai en cross-over.

o L’analyse est une analyse sur échantillons appariés (ce sont les mêmes
patients)

86

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.10.2 Les essais d’équivalence ou de non-infériorité

Dans quelle situation réalise-t-on un essai de non-infériorité ou d’équivalence ?

On réalise un essai de non-infériorité quand le nouveau traitement présente certains


avantages par rapport au traitement de référence. Ces avantages peuvent être :

o Un meilleur profil de tolérance : le nouveau traitement présente moins d’effets


secondaires

o Un coût moindre

o Un mode d’administration plus pratique. Par exemple, le nouveau traitement est


un traitement sous forme de comprimés alors que le traitement de référence est
sous forme d’injections.

Dans ce cas, il suffit de vérifier que le nouveau traitement est au moins aussi efficace
que le traitement de référence.

Comme nous l’avons vu précédemment, avec l’essai « classique », l’absence de différence


statistiquement significative ne permet pas de déterminer que deux traitements sont
équivalents. Il existe donc un type d’essai particulier permettant de déterminer si deux
traitements sont équivalents ou si le nouveau traitement est non-inférieur au traitement de
référence.

Principe des essais de non-infériorité et d’équivalence

En pratique, il est impossible de déterminer que deux traitements sont strictement équivalents
en termes d’efficacité. On montre donc qu’ils ne sont pas trop différents c'est-à-dire qu’on
doit définir une borne d’équivalence ou de non-infériorité. Si la différence absolue entre
les 2 traitements (et son intervalle de confiance à 95%) est comprise dans cette borne, on
pourra conclure à l’équivalence ou à la non-infériorité.

87

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Interprétation des résultats d’un essai selon son plan expérimental

Dans ce schéma, ∆ représente la borne d’équivalence ou de non infériorité. Dans le premier


cas, pour conclure à la supériorité du traitement A, il faut que l’IC à 95% de la différence soit
strictement supérieur à 0. Dans le second cas, pour conclure à l’équivalence entre A et B, il
faut que l’IC à 95% de la différence soit strictement inclus entre – ∆ et + ∆ (le traitement A ne
doit être ni trop inférieur à B ni trop supérieur). Dans le 3ème cas de figure, pour conclure à la
non-infériorité de A par rapport à B, il faut que l’IC à 95% de la différence soit strictement
supérieur à – ∆ (le traitement A peut être supérieur).

Choix de la borne

Le choix de la borne est très difficile. Il doit se faire en fonction de la spécialité et du type de
critère de jugement. La borne va conditionner le nombre de patients à inclure. Plus la
borne est petite, plus il faudra inclure de patients dans l’essai. D’un autre côté si la borne est
trop large, ce serait erroné de considérer que les deux traitements ont une efficacité
comparable.

Attention à l’analyse !

Dans un essai d’équivalence ou de non-infériorité, il faut faire à la fois une analyse en


intention de traiter et une analyse per protocole et vérifier que les résultats sont
88

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
cohérents avec ces 2 analyses. En effet, comme nous l’avons vu précédemment, l’analyse en
intention de traiter a tendance à diminuer les différences entre les 2 groupes ce qui risque de
faire conclure plus facilement à l’équivalence ou à la non-infériorité alors que l’analyse per
protocole a tendance à augmenter la différence entre les groupes.

89

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.11 Rappel des biais dans un essai contrôlé randomisé

Rappel des principaux biais dans un essai contrôlé randomisé

Nom du biais A quoi ça correspond ? Comment limiter le risque de


biais ?

Biais de sélection Sélection d’un échantillon non Sélection d’un échantillon


représentatif représentatif

Absence de comparabilité Séquence de randomisation


initiale des groupes favorisant aléatoire et respect de la clause
une des interventions d’ignorance (assignation
secrète)

Biais de performance Le patient et son médecin Double aveugle si possible


peuvent être influencés s’ils (dépend du type
savent quelle intervention le d’intervention)
patient reçoit

Biais de classement L’évaluateur peut être Critère de jugement objectif


influencé s’il sait quelle (décès toutes causes
intervention le patient a reçue confondues, examen
biologique)

OU

Evaluation du critère de
jugement en aveugle du
traitement reçu si critère de
jugement subjectif

Biais d’attrition Exclusion de patients de Analyse en intention de traiter


l’analyse
ET

Stratégie de gestion des


données manquantes

90

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.1.12 Recommandations de reporting pour les essais contrôlés randomisés

CONSORT Statement

http://www.consort-statement.org/

Le Consort Statement fournit notamment un modèle de flow chart qui permet de suivre le
flux des patients au cours de l’essai.

91

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.2 Evaluation étiologique

Points-clés

Les études étiologiques évaluent l’association entre l’exposition à un ou plusieurs


facteurs de risque et la survenue d’une maladie.

Les études étiologiques sont des études observationnelles qui font appel à 2 grands-types
d’étude : les études cas-témoin et les études de cohorte.

Attention aux points suivants :

Etudes cas-témoin :

- Sélection des cas

- Choix des témoins

- Recueil des facteurs de risque : risque de biais de mémoire

Etudes de cohorte

- Suivi dans les études de cohorte prospective (risque de perdus de vue)

- Données manquantes dans les cohortes rétrospectives

Prise en compte des facteurs de confusion Analyse multivariée

La causalité ne peut pas être affirmée par une seule étude observationnelle (une
différence statistiquement significative n’est pas synonyme de lien causal)

o Critères de Bradford Hill

92

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.2.1 Formulation de l’objectif

L’objectif doit être formulé de manière claire et complète. Pour cela, on peut reprendre les
différents éléments du PECO :

- P= population concernée

- E= le ou les facteurs de risque étudié(s)

- C (souvent sous-entendu)= absence de facteur de risque

- O= maladie

Par exemple : évaluer si l’hypercholestolémie (E) est un facteur de risque de maladie


d’Alzheimer (O) chez les personnes de plus de 50 ans (P) (sous entendu par rapport à une
absence d’hypercholestérolémie (C)).

2.2.2 Type d’étude

2.2.2.1 Principe des études de cohorte et cas-témoin

Etude de cohorte

Dans les études de cohorte, on recrute des sujets indemnes de la maladie qui sont exposés à
un ou des facteurs de risque et on les suit dans le temps afin d’évaluer s’ils deviennent
malades.

Une étude de cohorte peut être prospective ou rétrospective (on parle également de cohorte
historique). Cette notion fait habituellement référence à la temporalité du recueil de données.
Dans une cohorte rétrospective, la cohorte est reconstituée rétrospectivement à partir de
données déjà recueillies (par exemple dans les dossiers médicaux). Ce schéma est intéressant
pour les maladies ayant un long délai de latence, comme les cancers ou la maladie
d’Alzheimer. Cependant, il faut que la qualité des données recueillies soit bonne sinon il y
a aura un nombre important de données manquantes.

93

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Etudes cas témoin

Dans les études cas-témoin, on recrute des malades et des témoins indemnes de la maladie
et on recherche dans le passé des sujets s’ils ont été exposés à certains facteurs de risque. Une
étude cas-témoin est rétrospective.

Différences entre études de cohorte prospective et rétrospective et études cas-témoin

Exemple de cohorte rétrospective:

Dans une étude évaluant l’association entre le type de ventilation (ventilation non invasive ou
ventilation mécanique) et la mortalité chez des patients hospitalisés en réanimation pour une
décompensation de BPCO, les auteurs ont cherché rétrospectivement dans les dossiers tous
les patients hospitalisés pour une décompensation de BPCO ayant nécessité une ventilation
non invasive ou mécanique. Ils ont recueilli leurs données et ont évalué ensuite leur devenir
(décès ou non).

94

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Cas particulier

l’étude cas-témoin niché dans une cohorte : les cas et les témoins sont issus d’une cohorte
existante. Le principal avantage est que les données sont déjà disponibles et qu’elles ont été
recueillies de façon prospective. Il est cependant fréquent d’avoir besoin d’informations
complémentaires, non renseignées dans la cohorte initiale. On procède alors à un recueil
rétrospectif de ces données, en contactant les patients et/ou en retournant au dossier médical.

2.2.2.2 Choix entre étude de cohorte et étude cas témoin

Le choix entre cohorte et cas-témoin dépend de la question posée. Chaque type d’étude
présente des avantages et des inconvénients.

Avantages et inconvénients des études de cohorte et cas-témoin (à connaître)

COHORTE CAS-TEMOIN

Avantages - Adaptée aux expositions rares - Adaptée aux maladies rares

- Etude possible de plusieurs - Etude possible de plusieurs


maladies expositions

- Estimation possible de - Rapidité


l’incidence de la maladie - Adaptée aux maladies avec un
- Calcul du risque relatif long délai d’apparition depuis
l’exposition (délai de latence
- La temporalité entre exposition
important)
et maladie peut être étudiée
précisément - Parfois les seules réalisables

- Risque de biais de sélection


moindre

Inconvénients - Perdus de vue - Biais de classement (biais de

95

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
- Nécessite souvent un échantillon mémoire lié au recueil de
de grande taille données rétrospectif)

- Durée de l’étude longue - Choix des témoins difficile


(biais de sélection potentiel)
- Souvent impossibilité d’étudier
plusieurs expositions - Peu adapté pour les expositions
rares
- Peu adaptée aux maladies rares
- On ne peut estimer la prévalence
de la maladie*

- On ne peut pas estimer de RR

Mesure de RR OR
l’association OR (RR impossible)

*car c’est le chercheur qui décide du nombre de cas et de témoins à inclure.

2.2.3 Particularités des études de cohorte

2.2.3.1 Choix de la population

Il existe deux possibilités pour le choix de la population:

o Les cohortes en population : L’échantillon peut être plus ou moins représentatif de


la population cible. Pour avoir un échantillon représentatif, l’idéal est de procéder par
sondage à partir d’une population source correspondant à la population cible.

o Les cohortes exposés-non-exposés où l’on recrute en fait deux cohortes : une cohorte
d’individus exposés à un facteur de risque et une cohorte d’individus non-exposés au
facteur de risque. Ces deux cohortes vont être suivies dans le temps et doivent avoir
un suivi similaire. Ce type d’étude ne permet pas d’évaluer simultanément plusieurs
facteurs de risque. Ce type d’étude est à privilégier quand l’exposition est rare et
l’évènement relativement fréquent. Les cohortes exposés-non-exposés sont adaptées à
l’étude de facteurs de risque professionnels (par exemple, l’exposition à l’amiante).

96

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.2.3.2 Recueil des facteurs de risque

Dans une étude de cohorte prospective, le recueil des facteurs de risque se fait au moment de
l’entrée dans l’étude et éventuellement pendant le suivi. Si l’exposition au facteur de risque
n’est recueillie qu’au début, cela peut poser problème car celle-ci peut varier au cours
du temps (par exemple si le facteur de risque est la consommation de tabac).

Dans une étude de cohorte rétrospective, les données concernant l’exposition à des
facteurs de risque ont déjà été collectées (dans les dossiers médicaux ou dans des registres).
Dans ce cas, il est très important de vérifier la qualité du recueil des données. S’il y a des
données manquantes ou si un facteur de confusion important n’a pas été collecté, cela va
poser problème.

2.2.3.3 Recueil de la maladie (critère de jugement)

Le plus souvent, il s’agira d’un critère dont l’évaluation peut être subjective (cancer, infarctus
du myocarde,…).

Il y a donc un risque :

- De biais de classement (différentiel) si l’évaluation de la maladie n’est pas faite en


aveugle de l’exposition au facteur de risque

- De variabilité et d’erreur de mesure entre les évaluateurs (on parle d’erreur non
différentielle). Pour limiter cela et améliorer la reproductibilité, il faut standardiser la
définition de la maladie, former les évaluateurs, faire une évaluation en double voire
centralisée avec un comité indépendant.

2.2.3.4 Suivi et problème des données manquantes dans les études de cohorte prospective

Quel que soit le type d’étude de cohorte, le suivi des sujets exposés doit être
identique au suivi des sujets non-exposés.

97

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Dans les études de cohorte prospective, il faut définir une durée de suivi suffisante pour
pouvoir observer la maladie.

Cette durée peut être longue et pose le problème des perdus de vue c'est-à-dire des
patients pour lesquels il n’y a pas de données concernant leur suivi. Dans les analyses,
il faudra vérifier les caractéristiques des patients perdus de vue et la durée médiane de
suivi rapportée, et apprécier ainsi l’influence potentielle de la proportion de perdus de
vue sur les critères de jugement.

o Si les perdus de vue se répartissent également dans les groupes en nombre et


caractéristiques et ne concernent pas une catégorie particulière de patients, la
seule conséquence sera une perte de puissance. C’est rare car le plus souvent
si on est perdu de vue ce n’est pas pour rien… (rupture de soins et/ou
mauvaise observance, etc.)

o S’il y a plus de perdus de vue dans un groupe que dans l’autre, ou si les sujets
perdus de vue ont des caractéristiques spécifiques, on risque, outre la perte de
puissance, un biais d’attrition.

o L’influence de la proportion de perdus de vue dépend de la fréquence de


survenue de l’événement étudié. Si le nombre de perdus de vue dépasse le
nombre d’évènements, cela pose problème.

2.2.4 Particularités des études cas-témoin

2.2.4.1 Population d’étude

La sélection des cas et des témoins doit être indépendante des facteurs de risque étudiés.
Le recrutement des cas et des témoins doit se faire sans connaître leurs éventuelles
expositions à des facteurs de risque

• Sélection des cas

Les cas doivent être représentatifs de la population de malades.

Il faut distinguer les cas incidents et les cas prévalents.

o Les cas incidents sont inclus dans l’étude quand ils deviennent malades. Dans ce cas
de figure, on ne recrute que les nouveaux malades.
98

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
o Les cas prévalents sont déjà malades avant d’être inclus dans l’étude. Dans ce cas de
figure, on recrute tous les malades à un moment donné c'est-à-dire ceux qui ont
survécu jusque là. Cela peut conduire à un biais de sélection particulier : le biais de
survie sélective.

Il faut donc privilégier le recrutement de cas incidents.

• Choix des témoins

Le choix des témoins doit être indépendant de l’exposition.

Idéalement, le groupe de témoins doit être représentatif de l’ensemble des sujets non-
malades de la population source d’où est issu le groupe de malades étudiés.

Il est difficile de choisir la population de témoins, il existe plusieurs possibilités : témoins


issus de la population, témoins hospitalisés, témoins familiaux. Chaque choix présente des
avantages et des inconvénients.

Avantages et inconvénients des différents types de témoins

Témoins Témoins population Témoins famille


hospitalisés

Accès Facile Difficile et coûteux Facile

Motivation Forte ( malades ) Faible ( bonne santé) Forte

Taux de Élevé Faible Elevé


réponse

Biais de Important Limité Important


sélection

99

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Exemple :

Le choix de témoins hospitalisés dans une étude cas-témoin peut être une source de biais
de sélection : si on veut étudier le lien entre tabagisme et risque d’infarctus du myocarde et
que pour cela on compare des patients hospitalisés en cardiologie avec des patients de
cancérologie, on risque de ne pas voir d’association car de nombreux patients de cancérologie
sont également fumeurs et à haut risque d’infarctus.

Remarque:

Dans une étude cas témoin, il est fréquent d’avoir plusieurs témoins pour un même
cas.

Cela permet d’augmenter la puissance de l’étude car les études cas témoin portent
plutôt sur des maladies rares (le nombre de cas est limité). Cette augmentation de
puissance est très modeste au-delà de 4 témoins.

2.2.4.2 Recueil des facteurs de risque

Le recueil des facteurs de risque est rétrospectif et soumis à un risque de biais de


classement particulier le biais de mémoire. Ce biais est différentiel c'est-à-dire que les cas
vont avoir tendance à exagérer leur exposition à un facteur de risque et les témoins à la
minimiser.

Exemple :

Par exemple, si on étudie le lien entre l’exposition à un médicament A et le risque de fausse


couche spontanée (FCS), les femmes ayant fait une FCS se souviendront mieux avoir pris le
médicament A que les femmes n’ayant pas fait de FCS, car il s’agit d’un événement
traumatisant.

100

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.2.5 Biais de classement dans les études observationnelles (cohorte et cas témoin)

Un biais de classement est un biais (une erreur) dans la mesure de l’élément soumis à
évaluation ou du critère de jugement. On ne classe pas correctement les sujets en
« exposés/non exposés », ou en « malades/non malades ».

En épidémiologie, on parle d’erreur différentielle lorsque les probabilités d'erreur de


classement sur la maladie sont différentes chez les exposés et chez les non-exposés (ou
lorsque les probabilités d'erreur de classement sur l’exposition sont différentes chez les
malades et chez les non-malades). Les erreurs différentielles peuvent conduire à une
surestimation ou à une sous-estimation de l’association (la valeur de l’odds-ratio ou du risque
relatif peut être soit augmentée soit diminuée).

Exemple de biais différentiel :

Biais de mémoire dans les études cas-témoin : les cas se souviennent davantage de
l’exposition que les témoins, cela va entrainer une surestimation de l’association (un OR
plus grand que ce qu’il devrait être).

On dit qu'une erreur de classement sur la maladie (ou sur le facteur de risque/exposition)
est non-différentielle lorsqu'elle survient indifféremment chez les exposés et chez les non-
exposés (respectivement chez les malades et chez les non-malades). On peut montrer que les
erreurs non différentielles conduisent à une sous-estimation de l’association exposition-
maladie, autrement dit rapprochent de 1 la valeur du risque relatif ou de l’odds-ratio.

2.2.6 Prise en compte des facteurs de confusion potentiels

Que ce soit dans les études de cohorte ou cas témoin, afin d’isoler le rôle intrinsèque du
facteur étudié sur la survenue de la maladie, il faut mesurer l’association qui existe entre ce
facteur et le critère de jugement, indépendamment des autres facteurs potentiellement
impliqués. Il faut donc prendre en compte les facteurs de confusion potentiels.

101

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Rappel

Un facteur de confusion (confounding factor) est un facteur qui perturbe l’association entre
l’exposition au facteur étudié et la maladie.

Pour être un facteur de confusion, il faut que la variable soit liée à la fois au paramètre
étudié (maladie) et à l’exposition et ne soit pas un facteur intermédiaire.

Le facteur de confusion peut conduire à une surestimation ou une sous-estimation de


l’association (OR ou RR).

Il existe 3 méthodes pour prendre en compte des facteurs de confusion potentiels :


l’appariement, l’ajustement et la stratification.

1) L’appariement

o Se décide au moment de la planification de l’étude (prise en compte a priori du


facteur de confusion).

o Fréquent dans les études cas témoin

o Permet de prendre en compte un ou deux facteurs de confusion connus

o Le nombre de facteurs d’appariement est limité

o Ne permet pas d’étudier l’association entre ce ou ces facteurs et la maladie

102

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Dans une étude cas-témoin, on veut apparier les cas et les témoins sur l’âge et le sexe. On va
d’abord recruter les cas. Puis, pour chaque cas, on va identifier un ou plusieurs témoins de
même sexe et ayant à peu près le même âge.

2) L’ajustement

o Méthode pour prendre en compte des facteurs de confusion au moment de


l’analyse (a posteriori)

o Permet d’étudier l’association entre les facteur de confusion et la maladie

o Se fait au moyen de modèles de régression multivariés généralement :

o Modèle de régression logistique dans les études cas témoin

o Modèle de régression logistique ou modèle de Cox dans les études de


cohorte

o Pour chaque facteur étudié ou de confusion introduit dans le modèle, on va obtenir un


OR (si régression logistique) ou un HR (si modèle de Cox) ajusté sur les autres
facteurs

o Ceux pour lesquels p<0.05 ou l’IC à 95% de l’OR ou de l’HR ne contient


pas la valeur 1 sont les facteurs indépendamment associés à la maladie.

3) La stratification

o Méthode moins utilisée

o Quand les autres facteurs de confusion diffèrent selon la variable de stratification


(souvent le sexe)

o Consiste à faire une analyse séparée selon la variable de stratification. Par exemple,
une étude de cohorte avec analyse stratifiée sur le sexe présentera les résultats
séparément chez les hommes et chez les femmes (on fera un modèle multivarié chez
les hommes et un modèle multivarié chez les femmes)

o Ne permet pas d’étudier l’association entre ce facteur et la maladie

103

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Remarque:

Une même étude peut combiner ces différentes méthodes. Par exemple :

- étude cas témoin appariée sur l’âge et le sexe et ajustée sur la consommation de tabac, la
consommation d’alcool, les antécédents familiaux, l’hypercholestérolémie

- Etude de cohorte stratifiée sur le sexe et ajustée chez les hommes sur l’âge, la
consommation de tabac, la consommation d’alcool, les antécédents familiaux,
l’hypercholestérolémie et chez la femme, sur l’âge, la consommation de tabac, la
consommation d’alcool, les antécédents familiaux, l’hypercholestérolémie, l’âge à la
ménopause, la prise de traitement hormonal substitutif

- L’ajustement via un modèle de régression multivarié est (le plus souvent) une constante
des études de cohorte et cas témoin. Les autres méthodes (appariement et stratification)
sont complémentaires

Remarque:

Le biais de confusion est le seul biais qu’on peut prendre en compte lors de
l’analyse (par une analyse ajustée sur les facteurs de confusion)

2.2.7 Interprétation des résultats

Les résultats principaux de l’étude sont les résultats de l’analyse multivariée car ils
prennent en compte les facteurs de confusion.

104

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Exemple :

Interprétation du résultat d’une étude étiologique

Dans cet exemple :

• Il n’y a pas d’association statistiquement significative entre le facteur 1 et la maladie.


L’OR est à 1.80 avec un IC à 95% de 0.90 à 3.60 qui contient la valeur 1 (p>0.05).

• Il y a une association statistiquement significative entre le facteur 2 et la maladie car


l’IC à 95% ne contient pas la valeur 1 (1.80-5.90) et il s’agit d’un facteur de risque car
l’OR est > 1 (3.30). Si la prévalence de la maladie est faible, on peut dire que les
individus exposés au facteur 2 ont 3.3 fois plus de risque de développer la maladie que
les individus non exposés.

• Il y a une association statistiquement significative entre le facteur 3 et la maladie car


l’IC à 95% ne contient pas la valeur 1 (0.20-0.60) et il s’agit d’un facteur protecteur
car l’OR est < 1 (0.30).

105

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Remarque:

P (le degré de significativité) et l’IC à 95% donnent exactement la même information sur
la significativité:

- Si p<0.05 et l’IC à 95% de l’OR ou de l’HR ne contient pas 1, il existe une association
significative

- Si p≥ 0.05 et l’IC à 95% de l’OR ou de l’HR contient 1, il n’y a pas d’association


significative

- Ce n’est pas possible d’avoir p<0.05 avec l’IC à 95% qui contient la valeur 1

2.2.8 Causalité

Il faut bien différencier association statistiquement significative et lien causal. Ce n’est


pas parce qu’on a montré une association statistiquement significative entre un facteur et un
critère de jugement qu’il y a un lien causal !

La seule manière d’affirmer un lien de causalité, c’est de comparer des groupes qui ne
diffèrent que par l’exposition ou non à l’élément soumis à évaluation, c’est-à-dire
comparables sur toutes les autres caractéristiques. Ainsi, toute différence observée entre
les groupes sera imputable à l’élément soumis à évaluation. Seul un essai contrôlé
randomisé, s’il est bien conduit, permet d’affirmer un lien causal car la randomisation
permet d’obtenir des groupes comparables pour tous les facteurs de confusion connus
ou inconnus.

Une seule étude observationnelle ne permet pas de conclure à un lien de causalité.

Certains éléments s’ils sont présents sont cependant en faveur d’un lien causal. Ces
éléments ont été décrits par Sir Bradford Hill.

106

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Critères de Bradford Hill (à connaître)

Critères internes à l’étude

o Existence d’une association statistique entre l’exposition et la maladie

o Forte intensité de l’association

o Existence d’une relation de type “dose-effet” entre l’exposition et la maladie

o Spécificité de la relation entre l’exposition et la maladie (controversé)

o Minimisation des biais de sélection et de classement. Prise en compte


correcte de l’ensemble des facteurs de confusion connus.

o Absence d’ambiguïté temporelle (l’exposition doit précéder la maladie)

Critères externes à l’étude

o Concordance avec les résultats d’autres études

o Plausibilité biologique (au mieux, explication physiopathologique)

o Concordance avec les expérimentations menées in vitro ou chez l’animal

o Gradients géographiques parallèles de l’exposition et de la maladie

o Diminution de l’incidence de la maladie lorsque l’exposition est supprimée ou


réduite

Remarque :

Le critère « spécificité de la relation» est de moins en moins pertinent car on sait


aujourd’hui qu’un effet résulte souvent de plusieurs causes intriquées (composantes
causales) : facteurs environnementaux, comportementaux, génétiques, etc.

107

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.2.9 Rappels des biais dans les études étiologiques

Principaux biais dans une étude étiologique

Nom du biais A quoi ça correspond ? Comment limiter le risque de


biais ?

Biais de sélection Etudes de cohorte : Etudes de cohorte :

Sélection d’une population non Sélection d’une population


représentative de la population représentative de la population
d’intérêt d’intérêt

Etudes cas-témoin : Etudes cas-témoin :

Mauvaise définition des cas Définition standardisée des cas

Sélection des témoins non Sélection des témoins


indépendante de l’exposition indépendante de l’exposition

Biais de survie sélective Il s’agit d’une forme de biais Sélection de cas incidents
de sélection qu’on retrouve
dans les études cas témoins

Sélection de cas prévalents

Biais de classement Etudes de cohorte : Etudes de cohorte :

L’évaluateur peut être Evaluation du critère de


influencé s’il connaît le statut jugement en aveugle du statut
exposé/non exposé du patient exposé ou non exposé
vis à vis du facteur de risque

Biais de mémoire Il s’agit d’une forme de biais Les sujets sont en aveugle des
de classement qu’on retrouve hypothèses
dans les études cas témoins.
Evaluation d’après des données
Les cas ont tendance à majorer recueillies de manière
leur exposition à des facteurs objective
de risque et les témoins à les
minimiser

Biais de confusion Liés à des facteurs de Analyse multivariée avec

108

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
confusion dans la relation ajustement et éventuellement
facteur de risque-maladie appariement sur les facteurs de
confusion

Biais d’attrition Etudes de cohorte prospective : Limiter au maximum les


perdus de vue
liés aux perdus de vue et à leur
exclusion de l’analyse Imputer les données
manquantes

Remarque :

La définition des groupes de comparaison peut être source de biais différents selon les
études. Dans une étude cas témoins, le mauvais choix des cas ou des témoins peut être source
de biais de sélection. Dans une étude exposés/non-exposés (où l’on recrute séparément les
sujets exposés et non-exposés), le mauvais choix des exposés ou des non-exposés peut de la
même façon être source de biais de sélection. En revanche, dans le cas (fréquent) d’une étude
de cohorte dans laquelle on va mesurer l’exposition et définir ainsi les groupes de
comparaison, une erreur de mesure de l’exposition sera une source potentielle de biais
de…classement !

109

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.2.10 Recommandations pour rapporter une étude étiologique

Checklist STROBE

https://www.strobe-statement.org/index.php?id=available-checklists

110

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.3 Evaluation de facteurs pronostiques

Points clés

Dans ce type d’article, l’objectif est de montrer qu’un facteur est associé au devenir des
patients (guérison, décès, séquelles).

Ce chapitre portera sur les particularités des études pronostiques. Il existe beaucoup
d’éléments communs avec les études étiologiques.

Cependant, contrairement aux études étiologiques, on ne cherche pas à montrer un lien causal.

Le but est d’identifier des facteurs associés à un bon ou à un mauvais pronostic afin de
pouvoir informer le patient et d’orienter la prise en charge en fonction de ce facteur (par
exemple, rapprocher la surveillance ou les consultations de suivi si le pronostic est mauvais).

Les études pronostiques sont souvent des études de cohorte, avec des analyses de survie.
Elles sont sujettes aux perdus de vue si le suivi est long. Et bien sûr, il faut prendre en
compte les facteurs de confusion avec une analyse multivariée.

111

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.3.1 Formulation de l’objectif

L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO :

- P= population concernée

- E= facteur pronostique évalué

- C (sous-entendu)= absence du facteur pronostique

- O= critère de jugement.

Par exemple, évaluer si un taux faible d’Albumine plasmatique (reflet d’un état de
dénutrition) est un facteur pronostique, prédictif de décès chez des patients ayant un cancer à
un stade avancé.

2.3.2 Distinction facteur de risque/ facteur pronostique

Différences entre facteur de risque et facteur pronostique

112

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.3.3 Type d’étude utilisé

Les études évaluant des facteurs pronostiques sont principalement des études de cohorte
prospective ou rétrospective.

Les notions précédemment vues dans les études de cohorte (dans la partie étiologie)
s’appliquent ici également.

Il faudra accorder une attention particulière aux points suivants :

• Biais de sélection : il faut être sûr que les patients que l’on va inclure dans
l’étude ont bien la pathologie d’intérêt et sont à un stade similaire de l’histoire de
la maladie (par exemple, patients ayant survécu à un infarctus du myocarde,
patientes ayant un cancer du sein nouvellement diagnostiqué).

• Evaluation du critère de jugement : Si le critère de jugement est le décès ou la


survie, il s’agit d’un critère de jugement dont l’évaluation est objective. C'est-à-
dire que l’évaluation est incontestable et ne peut pas être sujet à des interprétations
différentes selon la personne qui l’évalue. Dans ce cas, le risque de biais de
classement est faible. Si le critère de jugement est un critère dont l’évaluation peut
être subjective (par exemple la rechute tumorale ou la récidive d’événement
cardiovasculaire), l’évaluation du critère de jugement doit se faire en aveugle de
l’exposition au facteur pronostique afin de limiter le biais de classement. Afin de
limiter la variabilité liée à l’évaluation subjective d’un critère de jugement, son
mode d’évaluation doit être défini a priori et standardisé. Pour améliorer la
reproductibilité, il est souhaitable de faire une évaluation en double (par 2
personnes de manière indépendante) voire centralisée avec un comité
indépendant (appelé comité d’adjudication ou comité d’évènements cliniques).

• Durée du suivi. Un facteur prédictif de la survie à 1 an n’est pas forcément


prédictif de la survie à 3 ans.

• Perdus de vue (biais d’attrition)

• Prise en compte des facteurs de confusion

113

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
• Interprétation des résultats : interprétation des résultats de l’analyse multivariée
par un modèle de régression logistique si le critère de jugement est une variable
binaire (par exemple décès à 3 mois) ou par un modèle de Cox si le critère de
jugement est une variable censurée (délai avant décès).

2.3.4 Les biais dans les études pronostiques

Principaux biais dans une étude pronostique

Nom du biais A quoi ça correspond ? Comment limiter le risque de


biais ?

Biais de sélection Sélection d’une population non Sélection d’une population


représentative de la population représentative de la population
d’intérêt d’intérêt

Biais de classement L’évaluateur peut être Evaluation du critère de


influencé s’il connaît le statut jugement en aveugle du statut
exposé non exposé du patient exposé ou non exposé
vis à vis du facteur pronostique

Biais de confusion Liés à des facteurs de Analyse multivariée avec


confusion dans la relation ajustement et éventuellement
facteur pronostique-maladie appariement sur les facteurs de
confusion

Biais d’attrition Liés aux perdus de vue et à leur Limiter au maximum les
exclusion de l’analyse perdus de vue

Imputer les données


manquantes

114

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.4 Evaluation d’un test diagnostique

Points clés

L’évaluation d’un test diagnostique comporte deux axes :

- Evaluation de la performance diagnostique (le test discrimine bien les malades et les
non-malades) et de sa reproductibilité.

- Evaluer si son utilisation améliore le devenir des patients en pratique courante on


mène alors un essai randomisé comparant l’évolution clinique d’un groupe de patients
bénéficiant de l’outil diagnostique à l’évolution clinique d’un groupe contrôle)(cf
chapitre essai randomisé).

115

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.4.1 Formulation de l’objectif

L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO :

P= population concernée

E= test à évaluer

C= test de référence (gold standard)

O= critère de jugement c'est-à-dire ce qu’on cherche à diagnostiquer.

Par exemple, évaluer la performance diagnostique de la palpation manuelle (E) par rapport à
l’échographie (C) pour diagnostiquer des présentations non-céphaliques (O) chez des femmes
en fin de grossesse (P).

2.4.2 Type d’étude

Les études diagnostiques peuvent faire appel à des études transversales ou de cohorte selon
qu’il faut que les individus soient suivis dans le temps.

2.4.3 Population d’étude

La population de l’étude doit être proche de la population à laquelle seront appliqués les
résultats de l’étude. En effet, le test peut être très performant dans un contexte mais
beaucoup moins dans un autre.

Si la population d’étude comporte des patients soit trop malades soit trop peu malades, il y a
un risque de biais de sélection appelé ici biais de spectre. Il est plus fréquent d’avoir une
évaluation des performances diagnostiques dans une population de patients plus sévères que
celle à laquelle les résultats seront extrapolés (par exemple, étude de la performance
diagnostique de la CRP pour différencier les infections bactériennes et virales chez les enfants
consultant aux urgences pédiatriques réalisée dans une population d’enfants hospitalisés pour
infection sévère).

De plus, les résultats seront difficilement transposables à la pratique clinique courante.


116

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.4.4 Choix du test de référence

Il s’agit d’un élément très important à évaluer. Le test de référence est le test qui va
permettre d’identifier véritablement les malades et les non-malades et d’évaluer la
performance diagnostique du test évalué (en Anglais, diagnostic accuracy). Il doit donc être
incontestable pour différencier les personnes malades des non-malades et préalablement
validé. On l’appelle également gold standard.

2.4.5 Réalisation des tests (test à évaluer et test de référence)

o Les 2 tests (test à évaluer et test de référence) doivent être réalisés chez tous les
patients

La réalisation de l’examen de référence uniquement chez les patients avec un résultat


positif du test à évaluer surestime les performances diagnostiques du test. Il y a un
risque de biais de vérification (work up bias).

o Les 2 tests doivent être réalisés de manière standardisée

o Les 2 tests doivent être interprétés indépendamment l’un de l’autre (la personne
qui évalue le nouveau test doit être en aveugle des résultats de l’examen de référence)

Sinon il y a un risque de biais de classement

2.4.6 Evaluation de la performance diagnostique d’un test

2.4.6.1 Mesure de la validité d’un test diagnostique

Un test diagnostique est valide s’il mesure bien ce qu’il est sensé mesuré (discrimine bien
les malades et les non-malades). Les principaux indicateurs de la validité d’un test sont la
sensibilité, la spécificité, les valeurs prédictives positives et négatives et les rapports de
vraisemblance positifs et négatifs. Leur définition doit être connue.

Il est fortement recommandé de refaire le tableau de contingence

117

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Tableau de contingence type pour l'analyse des résultats d'une étude diagnostique

Test de référence positif Test de référence négatif


(malades) (non-malades)

Test évalué positif Vrais positifs (VP) Faux positifs (FP)


Test évalué négatif Faux négatifs (FN) Vrais négatifs (VN)

Définition des différents paramètres permettant d’évaluer la validité d’un test

Paramètre Définition Comment le calculer

Sensibilité (Se) Probabilité d’avoir un test positif quand on P(T+/M+)=VP/(VP+FN)


est malade

Spécificité (Sp) Probabilité d’avoir un test négatif quand on P(T-/M-)=VN/(VN+FP)


n’est pas malade

Valeur prédictive positive Probabilité d’être malade si on a un test P(M+/T+)=VP(VP+FP)


positif

Valeur prédictive Probabilité de ne pas être malade si on a un P(M-/T-)=VN/(VN+FN)


négative test négatif

Rapport de Rapport entre les probabilités d’avoir un test RV+=P(T+/M+)/P(T+/M-)


vraisemblance positif positif chez les malades et chez les non- =Se/(1-Sp)
malades

Rapport de Rapport entre les probabilités d’avoir un test RV-=P(T-/M+)/P(T-/M-)


vraisemblance négatif négatif chez les malades et chez les non-
= (1-Se)/sp
malades

118

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Interprétation des résultats

o Un test très sensible va rarement rater un malade (peu de faux négatifs). Ce type de
test est à privilégier pour le dépistage car dans cette situation, on ne veut rater aucun
malade.

o Un test très spécifique va rarement considérer comme positif un sujet qui n’est pas
malade (peu de faux positifs). Ce type de test est à privilégier dans une situation de
confirmation du diagnostic.

Indicateurs de validité indépendants de la prévalence de la maladie (à privilégier):

o Sensibilité

o Spécificité

o Rapport de vraisemblance positif (RVP)

o Rapport de vraisemblance négatif (RVN)

Interprétation d’un rapport de vraisemblance

Un test positif est RVP fois plus fréquent chez les malades que chez les non-malades. Par
exemple, si le RVP =8 cela signifie qu’il y a 8 fois plus de chance d’avoir un test positif
lorsque la personne est malade que lorsqu’elle n’est pas malade.

Un test négatif est 1/RVN plus fréquent chez les non-malades que chez les malades. Par
exemple, si le RVN est=0.25, cela signifie qu’il y a 4 fois plus de chance de présenter un test
négatif si la personne n’est pas malade que si la personne est malade.

Interprétation des rapports de vraisemblance positif et négatif

RVP RVN Propriété discriminante

>10 <0.1 importante

5-10 0.1-0.2 modérée

119

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2-5 0.2-0.5 faible

1-2 0.5-1 Très faible

Plus le RVP est élevé, plus on aura confiance dans le résultat d’un test positif pour confirmer
le diagnostic.

Plus le RVN est faible, plus on aura confiance dans le résultat d’un test négatif pour éliminer
le diagnostic.

Indicateurs de validité dépendants de la prévalence de la maladie :

o Valeur prédictive positive (VPP)

o Valeur prédictive négative (VPN)

Remarque :

La VPP et la VPN dépendent de la prévalence de la maladie dans la population. Ce sont


des indicateurs imparfaits. Si dans une population, la fréquence de la maladie est élevée, la
probabilité que le patient soit malade sera élevée, quel que soit le résultat du test donc la VPP
sera élevée. A l’inverse, plus la maladie est rare, plus la VPP sera faible.

Cas d’un test donnant un résultat sur une échelle quantitative continue (par exemple
mesure de la CRP)

La distribution des valeurs du test dans un échantillon de sujets malades et non-malades peut
être représentée comme dans la figure ci-dessous.

120

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Quel seuil choisir ?

o Si on abaisse le seuil:

– Amélioration de la sensibilité

– Diminution de la spécificité

o Si on augmente le seuil:

– Diminution de la sensibilité

– Amélioration de la spécificité

o Dépend de la situation

121

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
– Examen de dépistage (on préfère privilégier la sensibilité) ou examen de
confirmation diagnostique (on préfère privilégier la spécificité).

Attention, cependant, pour un examen de dépistage, même si la sensibilité est


importante, il est souhaitable de trouver un compromis acceptable avec la
spécificité quand le test de de confirmation diagnostique est invasif et/ou qu’il
présente des risques potentiels, quand la maladie potentielle est particulièrement
grave car cela peut générer une anxiété importante en attendant les résultats du test
de confirmation diagnostique.

Intérêt de la courbe ROC (Receiver Operating Curve)

Elle représente la sensibilité en ordonnée et le taux de faux positifs (1 – spécificité) en


abscisse pour tous les seuils possibles du test.

Cette courbe a pour intérêt de prendre en compte la sensibilité et la spécificité.

L’estimation de l’aire sous la courbe ROC (AUC=area under the curve) est un bon
indicateur de la performance diagnostique du test. L’aire sous la courbe ROC varie entre
0.5 et 1. Plus l’aire est proche de 1, plus le test est discriminant.

122

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
La comparaison des aires sous la courbes ROC de 2 tests diagnostiques est une bonne
méthode pour comparer leur performance, en s’affranchissant du choix d’un seuil.

Exemple : Comparaison du taux de CRP au taux de globules blancs pour le diagnostic


d’appendicite aigüe chez l’enfant

123

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Dans cet exemple, on voit très bien que la CRP fait mieux que le taux de globules blancs dans
le diagnostic d’appendicite aigüe chez l’enfant.

2.4.6.2 Mesure de la fiabilité d’un test diagnostique

Définition

La fiabilité d’un test correspond à son caractère reproductible. Un test diagnostique est
fiable s’il donne le même résultat lorsqu’il est répété, par des opérateurs différents, dans
des conditions différentes. C’est particulièrement important lorsque l’interprétation d’un test
est subjective ou « opérateur-dépendante » (par exemple en imagerie ou en
anatomopathologie).

Mesure de la concordance pour une variable binaire (par exemple malade, non malade)

Le Coefficient kappa évalue le pourcentage de concordance entre deux évaluateurs


prenant en compte la concordance due au hasard.

Le coefficient kappa va de -1 (les 2 opérateurs sont en désaccord total) à 1 (les


opérateurs sont en accord total). Il est habituellement admis que le coefficient kappa est
« bon » au-dessus de 0,80 et « correct » entre 0,60 et 0,80, mais selon l’utilisation clinique du
test, on pourra exiger une fiabilité plus ou moins importante.

Mesure de la concordance d’une échelle quantitative continue (par exemple score


diagnostique)

Le coefficient de corrélation intraclasse évalue la concordance entre deux variables


quantitatives : accord inter-évaluateurs (concordance entre deux évaluateurs), accord
intra-évaluateur (concordance entre deux évaluations pour un même évaluateur) ou
bien concordance entre deux examens.

On peut également réaliser dans ces situations un diagramme de Bland et Altman

124

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
Chaque point représente un patient. L’axe des abscisses représente la moyenne des deux
mesures, l’axe des ordonnées la différence entre les deux mesures. Ce diagramme permet de
voir si l’une des deux mesures a tendance à donner des scores trop bas ou trop élevés, les
points devant normalement se répartir de part et d’autre de la ligne d’identité.

125

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.4.7 Rappels des différents biais pouvant affecter une étude d’évaluation diagnostique

Rappel des principaux biais dans une étude diagnostique

Nom du biais A quoi ça correspond ? Que faut-il vérifier ?

Biais de spectre Il s’agit d’un biais de sélection La population de l’étude


doit être proche de la
Les patients étudiés ne reflètent
population à laquelle
pas l’ensemble des patients
seront appliqués les
concernés
résultats de l’étude.

Biais de vérification (work- Seuls les individus avec un test Tous les individus
up bias) à l’étude positif ont le test de doivent avoir les 2 tests :
référence le test à l’étude et le test
de référence
Surestime la performance
diagnostique du test

Biais de classement Le même évaluateur évalue le Les résultats du test à


résultat des 2 tests. Il est évaluer et du test de
influencé par le résultat de la référence doivent être
première évaluation interprétés
indépendamment l’un de
l’autre

2.4.8 Recommandations pour rapporter un article diagnostique

Checklist STARD

http://www.stard-statement.org/

126

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.5 Evaluation d’une intervention de dépistage

2.5.1 Définition

Une procédure de dépistage vise à identifier dans une population a priori en bonne santé
des sujets ayant une maladie inapparente ou à risque élevé de présenter une maladie, en
vue d’examens complémentaires, d’un suivi plus rapproché ou de mesures de prévention.

On distingue deux types de dépistage :

o Dépistage opportuniste ou individuel est un dépistage fait auprès d’un individu sur
proposition du médecin traitant, d’un spécialiste ou d’un médecin du travail de
faire un test susceptible de découvrir au stade asymptomatique une maladie curable.

o Dépistage collectif organisé (« systématique » ou « de masse ») est mis en place sur


décision de l’état. Il est pris en charge totalement.

Avantages et inconvénients d’une procédure de dépistage

Avantages Inconvénients

- Diminution de la mortalité ou de la - Risque de faux négatifs (faux réconfort)


morbidité
- Risque de faux positifs (stress)
- Traitements moins lourds, plus efficaces
- Risques iatrogènes des tests diagnostiques et des
- Réconfort des sujets négatifs traitements après dépistage

- Allongement artificiel de la période de maladie


(marquage)

Un dépistage efficace permet une avance au diagnostic qui s’accompagne d’une


guérison.
127

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.5.2 Formulation de l’objectif

L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO :

- P= population concernée

- E= procédure de dépistage évaluée

- C= absence de dépistage

- O= critère de jugement

Par exemple, évaluer l’efficacité d’un dépistage organisé par frottis cervico-vaginal (E) par
rapport à une absence de dépistage organisé (C) en termes de mortalité (O) chez les femmes
de 25 à 65 ans (P).

2.5.3 Type d’étude

L’essai contrôlé randomisé est la référence pour évaluer l’efficacité d’une procédure de
dépistage car il permet de limiter les biais et apporte (en théorie) le niveau de preuve
scientifique le plus élevé.

Schéma d’un essai contrôlé randomisé évaluant le bénéfice d’un dépistage organisé

128

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
2.5.4 Points à évaluer

Les notions précédemment vues dans les essais contrôlés randomisés s’appliquent ici
également.

Il faudra accorder une attention particulière aux points suivants :

- Qualité de la randomisation

- Critère de jugement principal : pertinence clinique ? subjectivité ? mode d’évaluation ?

- Analyse en intention de dépister : c’est la même chose que l’analyse en intention de


traiter mais pour une procédure de dépistage c'est-à-dire l’analyse de tous les patients
randomisés dans le groupe dans lequel ils ont été randomisés quel que soit leur suivi, leur
compliance et l’intervention qu’ils ont effectivement reçue. L’analyse en intention de
dépister est le reflet de l’impact de la procédure de dépistage organisé dans la vraie
vie car on sait très bien que tous les individus qui reçoivent une invitation pour un
dépistage organisé ne vont pas forcément le faire et que certains individus
randomisés dans le groupe absence de dépistage auront la procédure de dépistage
dans le cadre d’un dépistage dit opportuniste via leurs médecins.

- Interprétation des résultats : Il faut évaluer si la différence est statistiquement significative


et si celle-ci est cliniquement pertinente. Pour cela, il faut considérer la réduction absolue
du risque et le nombre de sujets à dépister pour éviter un évènement. Attention, il est
normal que ce nombre soit plus élevé que dans un essai thérapeutique classique car les
sujets ne sont pas malades.

2.5.5 Biais spécifiques aux études d’évaluation d’une procédure de dépistage

o Biais d’avance au diagnostic (lead time bias): la découverte précoce du cancer


augmente la durée de vie après diagnostic. Le dépistage est inefficace si les sujets
n’ont pas une durée de survie globale augmentée mais se savent malades pendant plus
longtemps.

o Biais de sélection des formes lentes (length time bias) : le dépistage trouve plus
souvent les tumeurs à croissance lente que les tumeurs les plus agressives.

129

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres
o Surdiagnostic : certaines tumeurs évoluent plus lentement que ne surviennent les
autres maladies et ne se seraient jamais manifestées sans le dépistage (découvertes lors
d’autopsie)

2.5.6 Critères justifiant la mise en place d’un dépistage organisé

Pour faire l’objet d’un dépistage organisé, plusieurs critères doivent être réunis :

- La maladie doit être un problème de santé publique par sa fréquence, sa sévérité ou son
impact socio-économique.

- L’histoire naturelle de la maladie doit être bien connue

- La maladie doit pouvoir être détectée pendant sa phase de latence asymptomatique

- Il n’existe pas de facteurs de risque accessibles à la prévention primaire

- Il doit exister un test de dépistage (en phase précoce de la maladie) ayant une forte
sensibilité et une forte spécificité

- Le test de dépistage doit être simple à utiliser et avoir une bonne acceptabilité par les
patients et les professionnels

- Les fréquences de répétition du test doivent être connus

- La précocité du traitement doit être démontrée comme un facteur de bon pronostic

- Les moyens appropriés de diagnostic et de traitement sont disponibles

- Le coût du dépistage (y compris le diagnostic et le traitement) ne doit pas être


disproportionné par rapport au coût global des soins médicaux

- Le programme de dépistage doit avoir fait la preuve de son efficacité avec des essais
contrôlés randomisés

- Les moyens existent pour réaliser le programme de dépistage de façon continue et pour
faire face aux charges supplémentaires induites par la pratique du test.

- Les risques physiques et psychologiques du dépistage doivent être démontrés inférieurs


aux bénéfices obtenus

130

Faculté de médecine Sorbonne Université


Polycopié de LCA-2018/2019- A. Dechartres

Vous aimerez peut-être aussi