Académique Documents
Professionnel Documents
Culture Documents
UNIVERSITE PARIS VI
Dr Agnès Dechartres
2.2.3.4 Suivi et problème des données manquantes dans les études de cohorte
prospective ................................................................................................................97
2.4.7 Rappels des différents biais pouvant affecter une étude d’évaluation
diagnostique ..............................................................................................................126
2.4.8 Recommandations pour rapporter un article diagnostique ..........................126
2.5 Evaluation d’une intervention de dépistage..........................................................127
2.5.1 Définition ...........................................................................................................127
2.5.2 Formulation de l’objectif ..................................................................................128
2.5.3 Type d’étude .....................................................................................................128
2.5.4 Points à évaluer ................................................................................................129
2.5.5 Biais spécifiques aux études d’évaluation d’une procédure de dépistage ..129
2.5.6 Critères justifiant la mise en place d’un dépistage organisé ........................130
Le tableau ci-dessous donne des orientations sur les différents éléments que l’on doit trouver
dans un article avec les réflexes que vous devez avoir. Attention, cependant, tous les articles
ne vont pas forcément respecter ce plan. Il faudra donc faire attention à bien lire l’article dans
son entier avant de répondre aux questions.
Evaluation de la validité
interne (risque de biais de
sélection ?)
Evaluation de la validité
interne (risque de biais de
performance en l’absence
d’aveugle)
Reproductibilité ?
(standardisation, évaluation en
double, ou centralisée)?
Aveugle ? Evaluation de la
validité interne (biais de
classement)
Il existe pour chaque type d’étude (essais randomisé, étude observationnelle, étude
diagnostique), des recommandations pour rapporter de manière adéquate l’ensemble des
éléments importants. Ce sont ce qu’on appelle des ‘reporting guidelines’ tel que le
CONSORT Statement pour les essais contrôlés randomisés (le lien vers ces reporting
guidelines est donné à la fin de chaque section de la seconde partie de ce polycopié).
10
Dans une étude observationnelle, on ne modifie pas la prise en charge des patients, on se
contente d’observer ce qui se passe.
11
Les études non-comparatives sont plus rares. Elles sont descriptives et peuvent être
transversales ou longitudinales.
Une étude purement descriptive est une étude dans laquelle on se contente de décrire sans
chercher d’association. Ce sont par exemple des études de prévalence ou d’incidence. Elles
peuvent être transversales (estimation de la prévalence de la dépression chez les patients
traités pour un cancer par exemple) ou longitudinales (estimation de l’incidence des
infections post-opératoires chez les patients opérés par exemple)
Une étude analytique est une étude dans laquelle on va rechercher une association entre un
ou plusieurs facteurs et une maladie ou un évènement (ce sont des études comparatives).
Elles peuvent être de cohorte, cas témoin ou transversales. Cependant les études
transversales ne sont pas très recommandées pour évaluer des associations.
Les études analytiques peuvent être à visée étiologique (association entre un facteur de
risque (par exemple tabagisme) et une maladie (par exemple infarctus du myocarde) ou
pronostique (association entre un facteur pronostique (par exemple envahissement
ganglionnaire) et un évènement (par exemple décès).
Une étude transversale est une étude à un moment donné (comme une photographie), on ne
suit pas les patients dans le temps.
Les études de cohorte et les essais contrôlés randomisés sont des études longitudinales.
12
Une étude prospective est une étude dans laquelle on décide de faire l’étude et on suit des
patients pour recueillir leurs données (le suivi se fait postérieurement à l’enregistrement de
l’exposition au facteur de risque (définition du glossaire)).
Une étude rétrospective est une étude dans laquelle on va recueillir a posteriori des
informations sur l’exposition à des facteurs de risque ou des évènements qui se sont déjà
produits.
Les études de cohorte peuvent être prospectives ou rétrospectives (cf chapitre 2.2).
13
Il n’est généralement pas possible de réaliser une étude dans l’ensemble de la population et
donc d’obtenir la « vraie » valeur du paramètre qui nous intéresse. On va donc constituer un
échantillon qui doit être le plus représentatif possible de la population qui nous intéresse et
estimer la valeur du paramètre dans cet échantillon. On parle alors de paramètre « mesuré »,
« estimé » ou « observé ». Pour pouvoir extrapoler cette valeur estimée du paramètre à
l’ensemble de la population qui nous intéresse, l’échantillon doit être représentatif (avoir les
mêmes caractéristiques) de cette population.
La population qui nous intéresse est définie comme la population cible. C’est la population
à laquelle on souhaite extrapoler les résultats de l’étude.
14
L’intervalle de confiance à 95% d’un paramètre est calculé à partir de la mesure du paramètre
et de la mesure de sa variabilité.
15
• à partir d’un registre (par exemple les listes électorales), tirage aléatoire de sujets
On distingue les critères d’inclusion (il faut que les patients les remplissent tous
pour entrer dans l’étude) et les critères de non inclusion parfois appelés, par abus de
langage, critères d’exclusion. Les critères d’exclusion devraient, en fait, désigner les
critères qui font que des sujets initialement inclus sont exclus dans un deuxième
temps.
Il suffit d’un seul critère de non-inclusion pour que le patient ne puisse pas entrer
dans l’étude.
16
Un biais est une erreur systématique dans l’estimation des résultats qui opère dans un sens
donné (par exemple surestimation de l’association ou de l’effet traitement).
Remarque : les biais peuvent être introduits lors de la conception de l’étude ou lors de
son déroulement.
Erreur aléatoire=fluctuation
Type d'erreur Erreur systématique= biais
d’échantillonnage
17
La première cible correspond à la situation idéale : l’évaluation est à la fois précise et non
biaisée (absence d’erreurs aléatoire et systématique).
La seconde cible correspond à une évaluation peu précise mais non biaisée. Il s’agit
probablement d’estimations faites dans un échantillon de petite taille avec des fluctuations
d’échantillonnage (erreur aléatoire). Les flèches se répartissent un peu partout mais assez loin
du point central.
La troisième cible correspond à une évaluation précise mais biaisée. Les flèches sont centrées
sur un point qui n’est pas le point central.
De très nombreux biais sont décrits dans la littérature. Le type de biais et la terminologie
varient selon le type d’étude. Nous verrons dans la partie 2, les biais propres à chaque type
d’étude. Mais, globalement les biais sont de 3 types principaux : les biais de sélection, les
biais de classement et les biais de confusion.
18
• A un mauvais choix du groupe de référence comme cela peut être le cas dans les
études cas-témoin. Les témoins peuvent ne pas être représentatifs de la population de
non-malades.
Exemple :
Biais de mémoire dans les études cas-témoin : les cas se souviennent davantage de
l’exposition que les témoins, cela va entrainer une surestimation de l’association (un OR
plus grand que ce qu’il devrait être).
On dit qu'une erreur de classement sur la maladie (ou sur le facteur de risque/exposition)
est non-différentielle lorsqu'elle survient indifféremment chez les exposés et chez les non-
exposés (ou chez les malades et chez les non-malades). Les erreurs non différentielles
conduisent à une sous-estimation de l’association exposition-maladie, autrement dit
rapprochent de 1 la valeur du risque relatif ou de l’odds-ratio.
D’une façon générale, il est préférable d’avoir des erreurs de classement non
différentielles, car elles tendent à sous-estimer l’association que l’on souhaite mettre en
évidence.
20
Il convient d’y penser lors la planification de l’étude car après on ne pourra pas les corriger.
- Utiliser une procédure d’aveugle à chaque fois que possible (enquêteurs en aveugle
des hypothèses de l’étude), former (contrôler) les enquêteurs
- Même délai entre exposition et interrogatoire pour les cas et les témoins
- Utiliser des définitions les plus précises (valides et reproductibles) possibles pour
l’exposition et la maladie
Un biais de confusion est lié à la présence d’un (ou plusieurs) facteur(s) de confusion non
contrôlé(s). Un facteur de confusion (confounding factor) est un facteur qui perturbe
l’association entre l’exposition au facteur étudié et la maladie.
Pour être un facteur de confusion, il faut que la variable soit liée à la fois au paramètre
étudié (maladie) et à l’exposition et ne soit pas un facteur intermédiaire.
21
D’autres moyens existent pour prendre en compte les facteurs de confusion lors de la
planification de l’étude
o L’appariement sur un ou deux facteurs de confusion souvent utilisé dans les études
cas témoin
o La stratification (l’analyse séparée chez les hommes et les femmes par exemple) ou la
restriction à une strate
Ces méthodes sont expliquées dans la partie 2.2 sur les études étiologiques.
En résumé :
Le biais de confusion est le seul biais qu’on peut prendre en compte au moment de
l’analyse.
22
• déterminer s’il s’agit d’un biais différentiel ou non, c'est-à-dire s’il modifie le résultat
de la même façon pour tous les groupes.
La validité interne peut être définie comme la qualité méthodologique de l’étude c'est-à-dire
le contrôle des différents biais potentiels.
Une étude avec une méthodologie adéquate, permettant de limiter le risque de biais pour les
principaux biais évoqués, aura une bonne validité interne.
23
• Caractéristiques des centres : les résultats des études monocentriques sont moins
généralisables que les résultats des études multicentriques. Le niveau d’expertise
des centres est également à prendre en compte pour évaluer la transposabilité des
résultats. Par exemple, si un essai est réalisé dans un centre de référence universitaire
avec un volume d’activité important, les résultats ne seront pas forcément
généralisables à des centres pratiquant moins d’interventions ou avec un plateau
technique différent.
• Caractéristiques des pays : par exemple, les résultats des études réalisées en Chine
ne sont pas forcément généralisables en France.
• Caractéristiques des interventions dans les essais : est-il possible de reproduire les
interventions évaluées dans l’essai dans notre contexte de soins ? Les interventions
sont-elles suffisamment bien décrites pour être reproduites ?
24
25
Vous n’y couperez pas, il est indispensable de connaître les éléments de biostatistiques de
base pour évaluer de manière critique un article. En effet, il faut pouvoir interpréter les
résultats et vérifier que les analyses statistiques sont cohérentes avec l’objectif de l’étude. Les
objectifs pédagogiques sont :
- Vérifier que les analyses statistiques (en fonction de notions élémentaires) sont
cohérentes avec le projet de travail
1) Analyse descriptive
2) Analyse univariée
3) Analyse multivariée
Les analyses réalisées dépendent du type de variable. Nous allons donc d’abord présenter
les différents types de variable puis nous décrirons chacune de ces 3 étapes selon le type de
variable.
Une variable est un phénomène que l’on mesure. Une variable peut être selon le type d’étude
un facteur de risque, un facteur de confusion, un facteur pronostique, un critère de jugement.
Ces notions seront définies ultérieurement.
26
Une variable est dite quantitative quand cela a un sens de dire qu’un résultat est
plus grand ou plus petit qu’un autre (elle reflète une notion de grandeur). Une
variable peut être quantitative discrète (si elle ne peut prendre qu’un nombre limité de
valeurs comme la pression artérielle systolique) ou continue (si elle peut prendre un
nombre infini de valeurs comme la douleur sur une échelle visuelle analogique
continue).
Une variable qui ne reflète pas une notion de grandeur est une variable dite
qualitative. Il s’agit d’une variable en classes.
Une variable est dite binaire quand elle ne peut prendre que 2 valeurs. Le genre
(masculin ou féminin) est un exemple de variable binaire.
La durée de survie est continue. Cependant, on aura une valeur pour les patients décédés
mais pas pour les patients survivants à la fin de l’étude. On sait seulement que leur
durée de survie dépasse leur durée de participation dans l’étude. Afin d’analyser
correctement ces patients, on doit définir une date de point qui correspond à la fin de
l’étude. Les patients qui ne sont pas décédés (ou qui n’ont pas eu l’évènement) à la
date de point sont censurés à cette date. C’est pour cela que ces variables sont appelées
variables censurées. Les patients qui sont perdus de vue avant la date de point sont
censurés à la date de la dernière visite.
27
- Pour les patients décédés avant la date de point : délai entre la date d’entrée dans
l’étude et la date de décès
- Pour les patients toujours en vie à la date de point : délai entre la date d’entrée dans
l’étude et la date de point
- Pour les patients perdus de vue avant la date de point : délai entre la date d’entrée
dans l’étude et la date de la dernière visite
Les évènements survenant après la date de point ne sont pas pris en compte.
- Elles permettent de prendre en compte le fait que tous les patients n’ont pas forcément
la même durée de suivi
- Pour chaque patient, on aura son statut à la date de point (vivant ou mort/ évènement
pas d’évènement) et sa durée de participation
28
29
La première étape de l’analyse statistique consiste à décrire l’ensemble des variables étudiées
dans l’échantillon.
Toute variable quantitative doit être décrite avec un paramètre de position (ou paramètre
central) associé à un paramètre de dispersion qui permet de donner une estimation de la
dispersion (de la variabilité) de la mesure au sein de l’échantillon.
Paramètres de position
o Moyenne
Remarque : La médiane est moins sensible aux valeurs extrêmes que la moyenne (si
quelques personnes sont très âgées, la moyenne d’âge va beaucoup augmenter, mais pas la
médiane).
30
Si la courbe n’a pas cette forme de cloche, il est préférable d’utiliser la médiane.
Paramètres de dispersion
Par exemple, l’échantillon composé de 563 individus comportait 445 femmes (79%) et 118
(21%) hommes.
31
• Prévalence
• Taux d’incidence
Le taux d’incidence quantifie le nombre de nouveaux cas de malades qui surviennent dans
la population pendant une période de temps donnée.
Le taux d’incidence nécessite de préciser sur quelle période de temps le compte est fait.
Le taux d’incidence mesure une vitesse moyenne d’apparition de nouveaux cas sur
l’ensemble des sujets de la population et de la durée totale de leur suivi.
32
Dans une analyse portant sur des variables censurées, on s’intéresse au risque instantané de
décès ou plus généralement de survenue de l’évènement.
L’analyse descriptive des variables censurées repose sur la réalisation de courbes dites de
survie (bien que le critère qui nous intéresse ne soit pas toujours le décès, cela peut être une
infection, un infarctus du myocarde,…). Cette courbe est généralement tracée avec la méthode
de Kaplan-Meier.
La courbe commence à 1 (ou 100%) au temps 0, puisqu’au début de l’étude aucun patient n’a
présenté l’évènement. La courbe est décroissante, puisqu’au cours du temps certains patients
vont présenter l’évènement.
33
Ici, l’évènement est l’absence de conception (chez des femmes subfertiles). L’axe des
ordonnées représente donc la probabilité de ne pas concevoir au cours du temps.
La médiane de survie correspond au temps pour lequel la probabilité de survie est de 0.5
(ou bien pour lequel il y a 50% des patients qui sont décédés).
34
Dans cette étude, la durée médiane avant conception après une laparoscopie et une
hydrotubation chez des femmes ayant des problèmes de fertilité était de 6 mois.
Remarque :
35
Dans cet exemple, il n’est pas possible d’estimer la médiane de survenue d’une
tachyarythmie atriale car moins de la moitié de la population a présenté l’évènement.
36
On cherche à déterminer si l’association entre les 2 variables au niveau d’un échantillon est
due à une différence réelle dans la population ou peut être le simple fait du hasard.
Le premier risque d’erreur est considéré comme le plus grave. Il s’agit du risque de conclure
à une différence qui n’existe pas en réalité. C’est le risque alpha. Il est généralement fixé
à 5%.
37
Ou
Ou
Ou
Avec les hypothèses présentées ci-dessus, le test est dit bilatéral car la différence entre
traitement A et traitement B peut aller dans les 2 sens.
Dans certains articles, les auteurs font un test unilatéral : ils font l’hypothèse que la différence
ne peut aller que dans un sens, c'est-à-dire que l’un des 2 traitements est supérieur à l’autre.
38
Exemple 1 :
“At the end of the 12-week treatment courses, 27% of patients treated with efalizumab
(98/369) achieved PASI-75 compared with 4% of patients who received placebo (8/187),
p<0.001”
39
“Overall, 32 of the 229 (14%) had complete clearance of all plantar warts at 12 weeks,
corresponding to 17/119 (14%) patients in the salicylic acid group and 15/110 (14%)
patients in the cryotherapy group, p=0.89”
Dans cet exemple, p >0.05, la probabilité de disparition de la verrue plantaire (le critère
de jugement principal) ne diffère pas significativement entre les 2 groupes de
traitement (acide salicylique et cryothérapie). On ne peut rien conclure d’autre.
Notamment, on ne peut pas conclure que les 2 traitements ont une efficacité équivalente
en termes de disparition de la verrue.
Remarque 2 : le p est une mesure a posteriori. Dans une étude si vous avez p=0.01 et qu’on
vous demande quel est le risque alpha, celui-ci reste de 5%. La probabilité de se tromper en
concluant à une différence qui n’existe pas reste de 5%.
Le choix du test statistique dépend du type de variable que l’on veut évaluer.
- Pour comparer une variable qualitative (par exemple le sexe) entre 2 groupes :
- Pour comparer une variable quantitative (par exemple l’âge) entre 2 groupes :
Remarque : Un test est dit paramétrique quand on fait des hypothèses sur la distribution des
variables (par exemple, pour un critère de jugement continu, on fait fréquemment l’hypothèse
d’une distribution normale). Un test est dit non-paramétrique quand on ne fait aucune
hypothèse sur la distribution des variables.
- Pour comparer une variable censurée (par exemple la survie) entre 2 groupes :
o Test du log rank qui permet de comparer les courbes de survie entre les 2
groupes
Exemple :
Attention, le test du log-rank compare globalement les deux courbes. On ne peut pas dire
qu’il devient significatif quand les courbes se séparent.
- Le risque relatif
- L’odds ratio
- Le hazard ratio
Lorsque l’on parle de mesure d’association entre une exposition et une maladie, il est souvent
utile de faire un « tableau 2x2 » comme suit :
E+ E- M+ : malades
M+ a b m1 M- : non malades
M- c d m0 E+ : exposés
n1 n0 n E- : non exposés
Risque relatif
Le risque relatif (RR) est le rapport des proportions de malades chez les exposés (a/n1) et les
non exposés (b/n0).
42
Par exemple, si le RR vaut 2,2 dans la population, on peut dire que le risque de maladie chez
les exposés est 2,2 fois plus élevé que chez les non-exposés.
Remarque : On ne peut pas calculer un risque relatif dans une étude cas témoin
Odds Ratio
L’odds ratio (OR) est une autre mesure possible de l’intensité de l’association entre deux
facteurs qui est fréquemment utilisée car on peut le calculer quel que soit le type d’étude
(contrairement au risque relatif). Il s’agit d’un rapport des rapports ou d’un rapport des cotes.
= =
L’odds ratio peut être obtenu avec un modèle de régression logistique qui s’écrit de la
manière suivante :
43
Le hazard ratio (hazard = risque en Anglais) est l’équivalent du risque relatif pour des
variables censurées. Il correspond au rapport des risques instantanés de chaque groupe.
Le hazard ratio peut être obtenu par un modèle de Cox (modèle pour données censurées)
Important : Risque relatif, odds ratio, hazard ratio doivent toujours être présentés avec
leur intervalle de confiance à 95%
• Donner une idée de la précision de l’estimation : plus l’intervalle est étroit, plus
l’estimation est précise ; à l’inverse, plus l’intervalle est large, moins l’estimation est
précise
Exemples :
Remarque :
Il revient au même de faire un test statistique et regarder si p est inférieur à 0,05 et de regarder
si l’IC à 95% d’un RR, OR ou HR contient la valeur 1.
44
Attention, ils doivent s’interpréter pour une augmentation d’une unité de la variable
quantitative.
Exemple :
Dans une étude évaluant l’association entre l’âge (exprimé en années) et la survenue d’un
AVC, l’Odds ratio est de 1.05 (IC 95% 1.01-1.10). Cela signifie que le risque de faire un
AVC augmente de 5% pour chaque année supplémentaire (si on suppose que la prévalence
de l’AVC est faible afin d’interpréter l’Odds ratio comme un risque relatif (et qu’il existe une
relation log-linéaire entre l’âge et la survenue d’un AVC)).
En théorie, on n’a pas besoin de faire d’analyse multivariée dans les essais contrôlés
randomisés car, grâce à la randomisation, les deux groupes sont comparables pour tous les
facteurs de confusion connus ou inconnus.
L’analyse multivariée fait appel à des modèles de régression (multivariés car comprenant
plusieurs variables).
Le principe est de prédire la valeur d’une variable qui est le critère de jugement (par exemple
la maladie) en fonction d’autres variables (facteurs de risque potentiels et facteurs de
confusion). On les appelle respectivement la variable à expliquer et les variables explicatives.
Le modèle peut s’écrire comme suit :
C’est à dire
Sens de l’interprétation
Exemple : Dans cette étude cas témoin, on a recherché les facteurs de risque d’infection
urinaire récidivante résistante aux antibiotiques.
Le tableau ci-dessous présente les résultats de l’analyse multivariée c'est-à-dire les ORs
ajustés.
Pour chaque variable, on a une catégorie de référence comme indiqué dans le tableau. L’OR
dans la catégorie de référence vaut 1 par définition (valeur nulle).
Les variables qui sont indépendamment associées aux infections urinaires récidantes antibio-
résistantes sont (ce sont celles pour lesquelles l’IC à 95% n’incluent pas la valeur 1):
47
- l’âge (OR=0.26 (IC 95 0.09-0.80) pour un âge de 2 à 6 ans c'est-à-dire un rôle protecteur car
l’OR est <1)
- le fait d’avoir reçu des antibiotiques (OR=7.60 (IC 95 1.60-35.17) c'est-à-dire facteur de
risque car l’OR est > 1)
o Cas d’une variable à expliquer censurée (par exemple délai avant décès ou
incidence cumulée d’infarctus du myocarde)
Sens de l’interprétation
48
Ex: Mortalité à 30 jours Exemple: douleur, qualité de vie Ex: mortalité, survenue d’infarctus
du myocarde
Etape 1 : analyse descriptive Fréquences et pourcentages Moyenne ET écart-type Courbe de Kaplan-Meier (médiane
de survie)
Médiane ET minimum-maximum ou
Q1-Q3
Etape 2 : analyse univariée ou bivariée Test du Chi 2 (paramètrique) Test t de Student (paramètrique) Test du Log rank
Tests statistiques Test exact de Fisher (non Test de Wilcoxon (non paramètrique) Modèle de Cox univarié (HR brut)
paramètrique)
Mais aussi modèles statistiques univariés Test de Mann Whitney (non
(1 seule variable explicative) Régression logistique univariée paramètrique)
(OR brut)
Régression linéaire univariée
Etape 3 : analyse multivariée Régression logistique multivariée Régression linéaire multivariée Modèle de Cox multivarié
Modèles statistiques multivariés (plusieurs Permet d’obtenir un OR ajusté Permet d’obtenir un HR ajusté
variables explicatives)
49
50
Points clés :
La référence pour évaluer l’efficacité d’un traitement est l’essai contrôlé, randomisé, en
double aveugle (quand cela est possible), avec analyse en intention de traiter. C’est ce
schéma qui permet de limiter les biais et d’avoir une comparabilité des groupes pendant
la durée de l’étude
o Double aveugle
Le critère de jugement principal doit être pertinent et il faut vérifier si son évaluation est
objective
Pour conclure, il faut que le résultat pour le critère principal soit significatif mais il faut
également se poser la question d’une différence cliniquement pertinente
51
L’objectif doit être formulé de manière claire et complète. Pour cela, on peut utiliser le moyen
mnémotechnique PECO ou PICO :
- P=Population concernée
Par exemple, évaluer l’efficacité sur la mortalité à 30 jours (O) d’un traitement par
hydrocortisone (E) par rapport à un placebo (C) chez des patients en choc septique (P).
La question posée doit être pertinente au vue de la littérature existante sur le sujet. Un essai
devrait être réalisé s’il s’agit d’un nouveau traitement dans la pathologie étudiée, d’un
traitement qui n’a pas démontré son efficacité ou d’un traitement pour lequel les résultats des
études antérieures sont discordants.
L’essai contrôlé randomisé est la référence pour évaluer l’efficacité d’une intervention car il
permet de limiter les biais et apporte (en théorie) le niveau de preuve scientifique le plus
élevé.
Il s’agit en général d’un essai de phase 3 dont les résultats peuvent conduire à l’autorisation
de mise sur le marché.
Rappel des différentes phases d’un essai portant sur le médicament (tiré de l’abrégé Masson
de Santé Publique)
52
Le plus souvent, l’essai contrôlé randomisé est un essai à 2 bras parallèles ce qui signifie que
les patients reçoivent un des deux traitements à l’étude selon le résultat de la randomisation)
selon le schéma suivant :
Le plus souvent, également, il s’agit d’un essai dit de supériorité dont l’objectif est de
montrer que le nouveau traitement est supérieur à un placebo ou à un traitement de référence.
Afin de limiter au maximum le risque de biais, l’essai devrait être en double aveugle avec
analyse en intention de traiter comme nous allons le voir un peu plus loin.
Enfin l’essai peut être monocentrique s’il est réalisé dans un seul centre ou multicentrique
s’il est réalisé dans plusieurs centres. C’est une notion importante car elle influence la validité
externe de l’essai. Les résultats d’un essai monocentrique sont moins transposables à la
pratique qu’un essai multicentrique, la validité externe sera donc moindre dans un essai
monocentrique.
53
Choix du comparateur
Remarque :
Malheureusement, même dans les pathologies pour lesquelles il existe des traitements ayant
montré leur efficacité, les essais sont fréquemment réalisés contre placebo.
Ces essais ont un intérêt limité car ils ne permettent pas de savoir si le nouveau traitement a
un intérêt par rapport aux traitements existants (on pourra juste conclure que le traitement fait
mieux que le placebo s’il existe une différence significative pour le critère de jugement
principal).
Ils ne permettent donc pas de répondre à la question la plus importante pour le médecin à
savoir : dans cette pathologie, quel est le meilleur traitement à donner à mon patient ?
54
La randomisation est le tirage au sort des patients permettant une répartition au hasard
(aléatoire) des patients dans deux ou plusieurs groupes.
La randomisation, si elle est bien faite, tend à obtenir des groupes comparables pour
tous les facteurs pronostiques connus et inconnus, afin que toute différence entre les 2
groupes ne puisse être attribuée qu’au traitement reçu.
La qualité de la randomisation est un élément clef pour évaluer la validité interne d’un
essai contrôlé randomisé. Elle repose sur 3 points :
La méthode utilisée pour générer la liste de randomisation doit permettre une allocation
« totalement aléatoire ».
o séquence informatique
o table de nombres aléatoires (random number table) (utilisée quand il n’y avait
pas d’ordinateur)
o tirage à pile ou face (coin toss) (en théorie mais pas vraiment faisable dans un
essai)
55
Une randomisation est dite équilibrée quand l’objectif est de randomiser autant de patients
dans le groupe expérimental que contrôle. Le ratio d’allocation (ratio groupe A/groupe B)
est alors 1/1. Il s’agit de la situation la plus fréquente.
Dans certains essais, le ratio est 2/1 c'est-à-dire qu’on souhaite randomiser 2 fois plus de
sujets traités par le nouveau médicament que de sujets traités par placebo. On parle alors de
randomisation déséquilibrée. L’argument fréquemment utilisé pour justifier cette
randomisation déséquilibrée est d’augmenter le nombre de sujets traités par le traitement
expérimental afin d’avoir davantage de données concernant la tolérance de ce traitement. Une
autre raison moins fréquemment avouée est que cela va améliorer le recrutement dans l’essai
car les patients ont plus de chances de recevoir le traitement expérimental que le placebo.
Randomisation simple
Lorsque la randomisation est basée sur une simple séquence de nombres, on parle de
randomisation simple.
Quand l’effectif de l’essai est faible, une randomisation simple peut aboutir à des
déséquilibres liés au hasard (aux fluctuations d’échantillonnage). Par exemple, si je
randomise 10 patients, je peux me retrouver par hasard avec 8 patients dans un groupe et 2
56
Des techniques peuvent être utilisées pour éviter ces déséquilibres liés au hasard en cas de
faible effectif (fluctuations d’échantillonnage). Il s’agit de la randomisation par blocs, de
la randomisation stratifiée et de la randomisation par minimisation.
La randomisation par blocs consiste à s’assurer, qu’à tout moment de l’essai, à peu
près le même nombre de patients soit alloué dans chaque groupe.
Par exemple, dans un essai comportant deux bras, une randomisation par blocs avec
des blocs de taille 4 signifie que tous les 4 patients, 2 seront randomisés dans le
groupe expérimental (A) et 2 dans le groupe contrôle (B).
1 A
2 A
3 B
4 B
5 A
6 B
7 A
8 B
9 B
10 B
11 A
12 A
13 B
14 A
15 B
16 A
Remarque :
La randomisation par blocs est une méthode de randomisation adéquate adaptée en cas de
faible effectif. Il faut cependant faire attention à ne pas communiquer la taille des blocs aux
57
Cette méthode est utilisée en complément de la randomisation par blocs. Elle est
utilisée pour limiter des déséquilibres liés au hasard sur des facteurs
pronostiques importants.
Le principe est de s’assurer qu’un nombre à peu près égal de patients ayant certaines
caractéristiques (par exemple une tumeur de stade avancé) soit randomisé dans
chaque groupe. La randomisation stratifiée consiste à faire une liste de
randomisation par strate.
Remarque :
- Il est fréquent dans les essais multicentriques de stratifier sur le centre afin qu’il y ait à
peu près autant de patients randomisés dans le groupe A et dans le groupe B au sein de chaque
centre.
- On ne peut pas stratifier sur un trop grand nombre de facteurs car dans ce cas, on
pourrait se retrouver avec des strates vides (sans patient). Quand on a un faible effectif et
beaucoup de facteurs pronostiques importants à prendre en compte, on fera plutôt une
randomisation par minimisation (cf ci-dessous).
59
Chronologie de l’inclusion d’un patient dans l’essai pour respecter la clause d’ignorance
La clause d’ignorance est respectée lorsque l’investigateur qui recrute les patients dans un
essai contrôlé randomisé ne peut pas prévoir dans quel groupe le patient va être
randomisé au moment où il recrute le patient.
60
Le tableau 1 d’un essai contrôlé randomisé présente les caractéristiques initiales des
patients par groupe de randomisation. Il doit présenter toutes les caractéristiques
importantes des patients au regard de l’essai (l’âge, le sexe, la sévérité de la maladie, les
antécédents, les comorbidités éventuelles, les autres traitements pris par les patients…).
61
Pour évaluer si les groupes sont comparables, il faut prendre en compte l’effectif de l’essai.
En cas de faible effectif, on peut s’attendre à quelques déséquilibres entre les groupes liés au
hasard (fluctuations d’échantillonnage). En revanche, si l’effectif est important, les
déséquilibres entre les groupes doivent être minimes. De plus, les déséquilibres liés aux
fluctuations d’échantillonnage doivent aller dans les 2 sens (favorisant tantôt le bras
expérimental tantôt le bras contrôle). Des déséquilibres favorisant toujours le même groupe
doivent alerter et faire évoquer un risque de biais de sélection.
Exemple de Tableau 1
62
Remarques :
L’absence de différence importante entre les groupes randomisés est un indice de qualité
mais les groupes peuvent différer sur des caractéristiques non renseignées dans
l’essai.
Une randomisation de bonne qualité peut ne pas aboutir à des groupes comparables, par
le simple fait du hasard (fluctuations d’échantillonnage), surtout en cas de petit
effectif.
Afin d’être sûr que la différence de résultats observée entre les 2 groupes n’est due qu’au
traitement reçu, il est nécessaire de maintenir la comparabilité des groupes (qui a été
obtenue avec la randomisation) pendant toute la durée de l’essai et ce jusqu’à l’analyse. Le
double aveugle et l’analyse en intention de traiter permettent de maintenir la comparabilité
des groupes pendant le suivi et l’analyse, respectivement et de limiter les biais.
63
Le double aveugle est le fait que ni le patient ni le soignant ne savent quel traitement le
patient reçoit (le traitement expérimental ou le traitement du groupe contrôle).
- Un éventuel effet placebo. L’effet placebo est un effet positif de la prise d'un
médicament qui n'est pas lié aux propriétés physico-chimiques de la molécule, mais au
fait que l'on prend un traitement (effet psychologique)
Pour qu’un essai soit en double aveugle, il faut que les patients du groupe contrôle reçoivent
soit un placebo ayant les mêmes caractéristiques (apparence, goût, forme) que le traitement
expérimental soit que le traitement actif (si le comparateur est un traitement actif) ait la même
apparence ce qui n’est pas toujours possible.
Dans le cas d’un essai où le comparateur est un traitement actif d’apparence différente
ou ayant un mode d’administration différent (par exemple quand on compare un nouveau
64
Schéma d’un essai randomisé comparant deux traitements actifs ayant des modes
d’administration différents (utilisation d’un double placebo)
Remarques :
L’aveugle vis-à-vis du traitement reçu n’est pas toujours possible du fait de la nature de
l’intervention (par exemple en chirurgie).
Le terme double aveugle est un terme que les méthodologistes n’aiment pas car il est
trop vague : cela implique que 2 protagonistes de l’essai sont en aveugle mais on ne
sait pas forcément lesquels (habituellement, il s’agit du patient et du médecin,
mais…on ne sait jamais). C’est pourquoi il est préférable de préciser qui est en
aveugle du traitement reçu dans l’essai :
- le patient ?
-la personne qui évalue le critère de jugement qui peut être soit le patient (par
65
Dans l’analyse en intention de traiter, tous les patients randomisés sont analysés et ce,
dans le groupe dans lequel ils ont été randomisés, quel que soit le traitement effectivement
reçu, qu’ils aient ou non terminé ou même commencé le traitement et quel que soit leur suivi.
On les analyse comme ils auraient dû être traités et non comme ils ont été traités réellement.
Exemple :
Dans cet exemple, on cherche à comparer l’accouchement par césarienne par rapport à
l’accouchement par voie basse chez des femmes avec un bébé qui se présente par le siège. On
randomise 90 femmes dans chaque groupe.
Dans le groupe « voie basse », 10 femmes ont dû avoir une césarienne en urgence en raison
d’une souffrance fœtale. Selon le principe de l’analyse en intention de traiter, ces 10 femmes
doivent être analysées et ce dans le groupe « voie basse ».
66
- De limiter le risque de biais d’attrition. Les patients perdus de vue ou qui ont arrêté
le traitement l’ont peut être fait en raison d’un manque d’efficacité ou d’effets
secondaires. Les exclure risque de surestimer l’effet du traitement.
Les auteurs rapportent souvent une analyse en intention de traiter dans les méthodes mais
quand on évalue le diagramme de flux ou les résultats, il est fréquent que des patients aient été
exclus de l’analyse.
Il faudra donc vérifier que l’analyse est bien en intention de traiter: pour cela, il faudra
évaluer :
- les résultats : le dénominateur (au moins pour le critère de jugement principal) doit
correspondre au nombre de patients randomisés
67
Dans cet essai contrôlé randomisé, les auteurs rapportent dans les méthodes que l’analyse est
en intention de traiter. Cependant le diagramme de flux montre que des patients ont été exclus
de l’analyse.
Remarque :
Si le nombre de patients exclus est minime par rapport au nombre de patients randomisés, cela
n’aura probablement pas d’impact sur les résultats mais l’analyse n’est pas à proprement
parler en intention de traiter.
68
Une autre méthode d’imputation des données manquantes est fréquemment utilisée mais
elle n’est pas recommandée. Il s’agit de la méthode LOCF (Last Observation Carried
Forward). Elle consiste à prendre la dernière valeur disponible pour le patient avant qu’il ne
69
L’autre méthode d’analyse est l’analyse per protocole, où seuls les patients compliants au
protocole c'est-à-dire ayant reçu le traitement ou le placebo pendant toute la durée de leur
suivi sont considérés.
Remarques :
L’analyse en intention de traiter est une analyse plus proche de la « vraie vie » que
l’analyse per protocole, car en pratique clinique, le patient peut ne pas prendre le
traitement, prendre son traitement un jour sur deux, ne pas revenir en
consultation,….
S’il y a le plus souvent plusieurs critères de jugement dans les essais contrôlés randomisés, un
critère de jugement principal doit être identifiable.
70
- Etre pré-spécifié dès le protocole (c’est sur ce critère qu’on va faire le calcul d’effectif)
- Ne pas changer au cours de l’étude notamment au vu des résultats car sinon, cela risque
de biaiser les résultats de l’essai
Par exemple, des investigateurs font leur essai et se rendent compte au moment de l’analyse
que le critère de jugement principal qui avait été défini dans le protocole n’est pas
significatif. Or un critère de jugement secondaire également pertinent est significatif. Ils
décident d’intervertir les deux critères (le critère initialement secondaire devient principal et
vice versa) dans la publication.
Plus on fait de tests statistiques, plus on augmente le risque alpha de conclure à une
différence statistiquement significative alors que la différence est en fait due au hasard. Si on
choisit parmi tous les critères de jugement secondaires testés (souvent un certain nombre)
celui qui est statistiquement significatif, cela va favoriser des résultats statistiquement
significatifs qui sont dus au hasard et surestimer l’effet du traitement
Les critères de jugement surtout le critère de jugement principal devraient être cliniquement
pertinents. Evaluer la pertinence dépend de la pathologie étudiée mais globalement, on peut
considérer que les critères suivants sont pertinents cliniquement :
71
o Douleur
o Qualité de vie
Exemple :
Le problème est que les critères intermédiaires ne sont pas forcément corrélés avec la
mortalité ou les évènements cliniques tels que la survenue d’un infarctus du myocarde
(critères vraiment pertinents pour le patient nécessitant des études plus longues et plus
coûteuses) et peuvent donner une évaluation trompeuse de l’efficacité d’un traitement.
72
L’évaluation du critère de jugement est dite objective si son évaluation est incontestable et ne
peut pas être sujette à des interprétations différentes selon la personne qui l’évalue.
Certains critères de jugement sont, à l’inverse, très subjectifs comme les critères rapportés
par le patient tels que la douleur, la qualité de vie, le niveau d’incapacité qui sont utilisés
pour évaluer des traitements symptomatiques. Dans ce cas, il est très important que le patient
soit en aveugle du traitement reçu afin de limiter le risque de biais de classement et que le
critère de jugement soit évalué à l’aide d’une échelle validée (par exemple, pour la qualité de
vie, échelle SF36).
Les autres critères : évènements cliniques (par exemple, infarctus du myocarde), critères
radiologiques (par exemple, récidive tumorale évaluée par scanner), mortalité cause-
spécifique (par exemple, mortalité cardiovasculaire) sont des critères dont l’évaluation peut
être considérée comme subjective car soumise à l’interprétation d’un individu.
Que faut-il vérifier en cas de critère de jugement dont l’évaluation est subjective :
73
Il s’agit d’un critère composé de plusieurs évènements. Ces critères sont souvent utilisés
dans les essais en cardiologie. Un critère composite peut être, par exemple, la survenue d’un
infarctus du myocarde, d’un AVC ou d’un décès. On considère que le patient a présenté le
critère de jugement s’il a eu au moins l’un de ces évènements. S’il a présenté plusieurs
évènements du critère, on retient la date du premier évènement.
Avantages :
74
o Vérifier que l’effet traitement est le même pour tous les évènements cliniques
du critère composite.
Exemple :
Dans cet exemple, le critère de jugement composite est défini comme la survenue d’un décès,
75
L’estimation du nombre de sujets nécessaires pour l’étude doit être faite a priori (au moment
de l’élaboration du protocole). Il faut inclure suffisamment de sujets pour avoir une forte
probabilité de détecter une différence statistiquement significative.
76
Les essais contrôlés randomisés sont soumis à des règles très strictes sur le plan éthique. Ils
sont régis par la loi Huriet-Serusclat.
- Signature par les patients d’un consentement libre, éclairé et révocable à tout moment.
Pour pouvoir conduire un essai, il faut également que la clause d’ambivalence soit respectée.
La clause d’ambivalence ou équipoise (equipoise en anglais) signifie qu’il existe une
incertitude sur l’efficacité de l’intervention évaluée. Si tel n’est pas le cas, ce n’est pas
éthique de conduire l’essai car cela expose les patients du groupe contrôle à une perte de
chance. Une autre définition présente dans le glossaire de LCA du CNCI est que tous les
patients doivent pouvoir recevoir l’un ou l’autre des traitements (ils ne doivent pas
présenter de contre-indication à l’un ou l’autre des traitements pour pouvoir être inclus
dans l’essai).
Tous les essais doivent être enregistrés avant le début de l’essai dans un registre public tel
que ClinicalTrials.gov.
Cela permet d’évaluer s’il y a eu des écarts au protocole c'est-à-dire des changements par
rapport à ce qui avait été prévu (par exemple, un changement de critère de jugement principal
qui pourrait biaiser les résultats de l’essai).
Vérifier que ce qui est rapporté dans l’article est conforme à ce qui a enregistré est un élément
important pour apprécier la validité des résultats d’un essai.
77
Exemple :
“Overall, 32 of the 229 (14%) had complete clearance of all plantar warts at 12 weeks,
corresponding to 17/119 (14%) patients in the salicylic acid group and 15/110 (14%)
patients in the cryotherapy group, p=0.89
Conclusions Salicylic acid and the cryotherapy were equally effective for clearance of
plantar warts.”
Dans cet exemple, p est >0.05, il n’y a pas de différence statistiquement significative
entre les 2 traitements (acide salicylique et cryothérapie) en termes de disparition de la
verrue plantaire (le critère de jugement principal). Et on ne peut rien conclure d’autre.
La conclusion des auteurs dans le résumé (les 2 traitements ont une efficacité
équivalente en termes de disparition de la verrue) est donc erronée.
78
o Risque alpha :
o Degré de significativité
- Résultat a posteriori
Exemple : Si p=0.01 et risque alpha défini à 5%, la probabilité de conclure à une différence
qui n’existe pas reste de 5%.
Quand on interprète les résultats d’un essai, il faut garder à l’esprit qu’une différence
statistiquement significative ne traduit pas forcément une différence cliniquement
pertinente. En effet, plus l’essai aura inclus de patients, plus il aura de puissance pour mettre
en évidence de faibles différences qui ne sont pas forcément pertinentes.
Il faut donc évaluer si la différence observée est cliniquement pertinente. Pour cela, il faut
évaluer la taille d’effet (effect size) et en particulier la réduction absolue du risque (qui
correspond à la différence de risque entre les 2 groupes) ou le nombre de patients à traiter
pour éviter un évènement (qui correspond à l’inverse de la réduction absolue du risque).
Une réduction relative du risque peut donner une estimation trompeuse de la taille d’effet.
79
Exemple :
Dans un essai contrôlé randomisé, la mortalité à 3 mois est de 20/200 (10%) dans le bras
expérimental et de 30/200 (15%) dans le groupe contrôle.
Nous avons :
80
Une analyse intermédiaire est une analyse effectuée avant l'inclusion de tous les sujets prévus.
Elle est réalisée le plus souvent lorsque l'étude est longue et qu’il y a un risque pour les
patients.
L’idée est que si le nouveau traitement, ou l’intervention, fonctionne vraiment bien (ou
vraiment mal), ce n’est peut-être pas la peine (voire contraire à l’éthique) d’attendre la fin de
l’étude pour présenter les résultats.
Idéalement, ces analyses intermédiaires sont gérées par un comité indépendant : le Data
Safety Monitoring Board.
o Les règles d’arrêt de l’étude doivent être définies dans le protocole. En effet, si
on répète l’analyse au fur et à mesure des inclusions, on risque de trouver à un
moment donné une différence statistiquement significative par le simple fait du
hasard. Si on fait un seul test statistique pour le critère de jugement principal en fin
d’étude, le risque alpha est de 5% mais si on fait des tests statistiques de manière
répétée, le risque alpha va augmenter et la probabilité de conclure à une différence
qui n’existe pas également. Si l’on arrête alors l’étude, on va conclure à l’existence
d’une différence alors qu’elle est possiblement due au hasard.
Justification
Le fait de faire des analyses en sous-groupe entraine une inflation du risque alpha (plus on
fait de tests, plus le risque alpha augmente) et il est donc possible d’avoir un résultat
statistiquement significatif pour l’un des sous-groupes par le simple fait du hasard.
Les résultats des analyses en sous-groupe sont fréquemment présentés sous la forme d’une
figure appelée Forest plot. Pour évaluer s’il existe une différence d’effet traitement selon
le sous-groupe, il faut faire un test d’interaction entre l’effet du traitement et le sous-
groupe. Ce test évalue si l’effet traitement varie selon la caractéristique considérée.
82
Dans cet exemple, 3 analyses en sous-groupe ont été réalisées : en fonction de l’âge (moins de
77 ans versus plus de 77 ans), en fonction du sexe (hommes et femmes) et en fonction de
l’index d’Hardman (index=0, index=1, index≥2).
Le résultat du test d’interaction est le p qui est représenté à droite. Dans cet exemple, seul le
test d’interaction pour le sexe est statistiquement significatif (p=0.019) c’est à dire qu’il y a
une différence d’effet traitement entre les hommes et les femmes. Toutefois, on ne peut rien
en conclure car il n’y a pas de différence statistiquement significative globalement (OR=0.94,
IC 95% 0.67-1.33).
83
La tolérance d’un traitement est un élément essentiel à évaluer mais elle est fréquemment mal
rapportée dans les essais.
- Description de tous les évènements indésirables par groupe de traitement avec leur
fréquence de survenue.
- Description séparée de tous les évènements indésirables graves (décès, tout évènement
clinique ayant entraîné la prolongation d’une hospitalisation, anomalie congénitale, ou
incapacité).
Nous nous sommes placés jusqu’à présent dans la situation la plus fréquente c’est à dire un
essai contrôlé randomisé à 2 bras parallèles et de supériorité.
Il existe, en fait, d’autres types d’essai. Nous aborderons ici 2 autres types d’essai contrôlé
randomisé sur lesquels vous pouvez être interrogés: les essais en cross-over et les essais
d’équivalence ou de non infériorité.
84
Tous les patients vont recevoir les 2 traitements à l’étude. Les patients seront ainsi leur propre
contrôle.
La randomisation détermine l’ordre d’attribution des traitements. Les patients sont donc
randomisés en 2 groupes : soit traitement A puis traitement B soit traitement B puis traitement
A.
L’essai comporte 2 périodes séparées par un wash out (lavage) qui permet d’éliminer
l’effet du traitement donné en 1ère période (effet rémanent ou carry-over effect qui peut se
définir comme la poursuite de l’effet du traitement après son arrêt et qui dépend de la demi-
vie de la molécule).
Cependant il faut respecter certaines conditions pour pouvoir réaliser ce type d’essai.
85
o Le critère de jugement peut être répété : Cela peut être par exemple, la
douleur. L’essai en cross-over n’est pas adapté pour mesurer des critères de
jugement tels que la mortalité…
o Période de wash-out suffisante: Cette période est nécessaire pour supprimer les
effets du traitement donné en 1ère période (effet rémanent ou carry-over effect
qui peut se définir comme la poursuite de l’effet du traitement après son arrêt et
qui dépend de la demi-vie de la molécule).
Principes de l’analyse
o L’analyse est une analyse sur échantillons appariés (ce sont les mêmes
patients)
86
o Un coût moindre
Dans ce cas, il suffit de vérifier que le nouveau traitement est au moins aussi efficace
que le traitement de référence.
En pratique, il est impossible de déterminer que deux traitements sont strictement équivalents
en termes d’efficacité. On montre donc qu’ils ne sont pas trop différents c'est-à-dire qu’on
doit définir une borne d’équivalence ou de non-infériorité. Si la différence absolue entre
les 2 traitements (et son intervalle de confiance à 95%) est comprise dans cette borne, on
pourra conclure à l’équivalence ou à la non-infériorité.
87
Choix de la borne
Le choix de la borne est très difficile. Il doit se faire en fonction de la spécialité et du type de
critère de jugement. La borne va conditionner le nombre de patients à inclure. Plus la
borne est petite, plus il faudra inclure de patients dans l’essai. D’un autre côté si la borne est
trop large, ce serait erroné de considérer que les deux traitements ont une efficacité
comparable.
Attention à l’analyse !
89
OU
Evaluation du critère de
jugement en aveugle du
traitement reçu si critère de
jugement subjectif
90
CONSORT Statement
http://www.consort-statement.org/
Le Consort Statement fournit notamment un modèle de flow chart qui permet de suivre le
flux des patients au cours de l’essai.
91
Points-clés
Les études étiologiques sont des études observationnelles qui font appel à 2 grands-types
d’étude : les études cas-témoin et les études de cohorte.
Etudes cas-témoin :
Etudes de cohorte
La causalité ne peut pas être affirmée par une seule étude observationnelle (une
différence statistiquement significative n’est pas synonyme de lien causal)
92
L’objectif doit être formulé de manière claire et complète. Pour cela, on peut reprendre les
différents éléments du PECO :
- P= population concernée
- O= maladie
Etude de cohorte
Dans les études de cohorte, on recrute des sujets indemnes de la maladie qui sont exposés à
un ou des facteurs de risque et on les suit dans le temps afin d’évaluer s’ils deviennent
malades.
Une étude de cohorte peut être prospective ou rétrospective (on parle également de cohorte
historique). Cette notion fait habituellement référence à la temporalité du recueil de données.
Dans une cohorte rétrospective, la cohorte est reconstituée rétrospectivement à partir de
données déjà recueillies (par exemple dans les dossiers médicaux). Ce schéma est intéressant
pour les maladies ayant un long délai de latence, comme les cancers ou la maladie
d’Alzheimer. Cependant, il faut que la qualité des données recueillies soit bonne sinon il y
a aura un nombre important de données manquantes.
93
Dans les études cas-témoin, on recrute des malades et des témoins indemnes de la maladie
et on recherche dans le passé des sujets s’ils ont été exposés à certains facteurs de risque. Une
étude cas-témoin est rétrospective.
Dans une étude évaluant l’association entre le type de ventilation (ventilation non invasive ou
ventilation mécanique) et la mortalité chez des patients hospitalisés en réanimation pour une
décompensation de BPCO, les auteurs ont cherché rétrospectivement dans les dossiers tous
les patients hospitalisés pour une décompensation de BPCO ayant nécessité une ventilation
non invasive ou mécanique. Ils ont recueilli leurs données et ont évalué ensuite leur devenir
(décès ou non).
94
l’étude cas-témoin niché dans une cohorte : les cas et les témoins sont issus d’une cohorte
existante. Le principal avantage est que les données sont déjà disponibles et qu’elles ont été
recueillies de façon prospective. Il est cependant fréquent d’avoir besoin d’informations
complémentaires, non renseignées dans la cohorte initiale. On procède alors à un recueil
rétrospectif de ces données, en contactant les patients et/ou en retournant au dossier médical.
Le choix entre cohorte et cas-témoin dépend de la question posée. Chaque type d’étude
présente des avantages et des inconvénients.
COHORTE CAS-TEMOIN
95
Mesure de RR OR
l’association OR (RR impossible)
o Les cohortes exposés-non-exposés où l’on recrute en fait deux cohortes : une cohorte
d’individus exposés à un facteur de risque et une cohorte d’individus non-exposés au
facteur de risque. Ces deux cohortes vont être suivies dans le temps et doivent avoir
un suivi similaire. Ce type d’étude ne permet pas d’évaluer simultanément plusieurs
facteurs de risque. Ce type d’étude est à privilégier quand l’exposition est rare et
l’évènement relativement fréquent. Les cohortes exposés-non-exposés sont adaptées à
l’étude de facteurs de risque professionnels (par exemple, l’exposition à l’amiante).
96
Dans une étude de cohorte prospective, le recueil des facteurs de risque se fait au moment de
l’entrée dans l’étude et éventuellement pendant le suivi. Si l’exposition au facteur de risque
n’est recueillie qu’au début, cela peut poser problème car celle-ci peut varier au cours
du temps (par exemple si le facteur de risque est la consommation de tabac).
Dans une étude de cohorte rétrospective, les données concernant l’exposition à des
facteurs de risque ont déjà été collectées (dans les dossiers médicaux ou dans des registres).
Dans ce cas, il est très important de vérifier la qualité du recueil des données. S’il y a des
données manquantes ou si un facteur de confusion important n’a pas été collecté, cela va
poser problème.
Le plus souvent, il s’agira d’un critère dont l’évaluation peut être subjective (cancer, infarctus
du myocarde,…).
Il y a donc un risque :
- De variabilité et d’erreur de mesure entre les évaluateurs (on parle d’erreur non
différentielle). Pour limiter cela et améliorer la reproductibilité, il faut standardiser la
définition de la maladie, former les évaluateurs, faire une évaluation en double voire
centralisée avec un comité indépendant.
2.2.3.4 Suivi et problème des données manquantes dans les études de cohorte prospective
Quel que soit le type d’étude de cohorte, le suivi des sujets exposés doit être
identique au suivi des sujets non-exposés.
97
Cette durée peut être longue et pose le problème des perdus de vue c'est-à-dire des
patients pour lesquels il n’y a pas de données concernant leur suivi. Dans les analyses,
il faudra vérifier les caractéristiques des patients perdus de vue et la durée médiane de
suivi rapportée, et apprécier ainsi l’influence potentielle de la proportion de perdus de
vue sur les critères de jugement.
o S’il y a plus de perdus de vue dans un groupe que dans l’autre, ou si les sujets
perdus de vue ont des caractéristiques spécifiques, on risque, outre la perte de
puissance, un biais d’attrition.
La sélection des cas et des témoins doit être indépendante des facteurs de risque étudiés.
Le recrutement des cas et des témoins doit se faire sans connaître leurs éventuelles
expositions à des facteurs de risque
o Les cas incidents sont inclus dans l’étude quand ils deviennent malades. Dans ce cas
de figure, on ne recrute que les nouveaux malades.
98
Idéalement, le groupe de témoins doit être représentatif de l’ensemble des sujets non-
malades de la population source d’où est issu le groupe de malades étudiés.
99
Le choix de témoins hospitalisés dans une étude cas-témoin peut être une source de biais
de sélection : si on veut étudier le lien entre tabagisme et risque d’infarctus du myocarde et
que pour cela on compare des patients hospitalisés en cardiologie avec des patients de
cancérologie, on risque de ne pas voir d’association car de nombreux patients de cancérologie
sont également fumeurs et à haut risque d’infarctus.
Remarque:
Dans une étude cas témoin, il est fréquent d’avoir plusieurs témoins pour un même
cas.
Cela permet d’augmenter la puissance de l’étude car les études cas témoin portent
plutôt sur des maladies rares (le nombre de cas est limité). Cette augmentation de
puissance est très modeste au-delà de 4 témoins.
Exemple :
100
Un biais de classement est un biais (une erreur) dans la mesure de l’élément soumis à
évaluation ou du critère de jugement. On ne classe pas correctement les sujets en
« exposés/non exposés », ou en « malades/non malades ».
Biais de mémoire dans les études cas-témoin : les cas se souviennent davantage de
l’exposition que les témoins, cela va entrainer une surestimation de l’association (un OR
plus grand que ce qu’il devrait être).
On dit qu'une erreur de classement sur la maladie (ou sur le facteur de risque/exposition)
est non-différentielle lorsqu'elle survient indifféremment chez les exposés et chez les non-
exposés (respectivement chez les malades et chez les non-malades). On peut montrer que les
erreurs non différentielles conduisent à une sous-estimation de l’association exposition-
maladie, autrement dit rapprochent de 1 la valeur du risque relatif ou de l’odds-ratio.
Que ce soit dans les études de cohorte ou cas témoin, afin d’isoler le rôle intrinsèque du
facteur étudié sur la survenue de la maladie, il faut mesurer l’association qui existe entre ce
facteur et le critère de jugement, indépendamment des autres facteurs potentiellement
impliqués. Il faut donc prendre en compte les facteurs de confusion potentiels.
101
Un facteur de confusion (confounding factor) est un facteur qui perturbe l’association entre
l’exposition au facteur étudié et la maladie.
Pour être un facteur de confusion, il faut que la variable soit liée à la fois au paramètre
étudié (maladie) et à l’exposition et ne soit pas un facteur intermédiaire.
1) L’appariement
102
2) L’ajustement
3) La stratification
o Consiste à faire une analyse séparée selon la variable de stratification. Par exemple,
une étude de cohorte avec analyse stratifiée sur le sexe présentera les résultats
séparément chez les hommes et chez les femmes (on fera un modèle multivarié chez
les hommes et un modèle multivarié chez les femmes)
103
Une même étude peut combiner ces différentes méthodes. Par exemple :
- étude cas témoin appariée sur l’âge et le sexe et ajustée sur la consommation de tabac, la
consommation d’alcool, les antécédents familiaux, l’hypercholestérolémie
- Etude de cohorte stratifiée sur le sexe et ajustée chez les hommes sur l’âge, la
consommation de tabac, la consommation d’alcool, les antécédents familiaux,
l’hypercholestérolémie et chez la femme, sur l’âge, la consommation de tabac, la
consommation d’alcool, les antécédents familiaux, l’hypercholestérolémie, l’âge à la
ménopause, la prise de traitement hormonal substitutif
- L’ajustement via un modèle de régression multivarié est (le plus souvent) une constante
des études de cohorte et cas témoin. Les autres méthodes (appariement et stratification)
sont complémentaires
Remarque:
Le biais de confusion est le seul biais qu’on peut prendre en compte lors de
l’analyse (par une analyse ajustée sur les facteurs de confusion)
Les résultats principaux de l’étude sont les résultats de l’analyse multivariée car ils
prennent en compte les facteurs de confusion.
104
105
P (le degré de significativité) et l’IC à 95% donnent exactement la même information sur
la significativité:
- Si p<0.05 et l’IC à 95% de l’OR ou de l’HR ne contient pas 1, il existe une association
significative
- Ce n’est pas possible d’avoir p<0.05 avec l’IC à 95% qui contient la valeur 1
2.2.8 Causalité
La seule manière d’affirmer un lien de causalité, c’est de comparer des groupes qui ne
diffèrent que par l’exposition ou non à l’élément soumis à évaluation, c’est-à-dire
comparables sur toutes les autres caractéristiques. Ainsi, toute différence observée entre
les groupes sera imputable à l’élément soumis à évaluation. Seul un essai contrôlé
randomisé, s’il est bien conduit, permet d’affirmer un lien causal car la randomisation
permet d’obtenir des groupes comparables pour tous les facteurs de confusion connus
ou inconnus.
Certains éléments s’ils sont présents sont cependant en faveur d’un lien causal. Ces
éléments ont été décrits par Sir Bradford Hill.
106
Remarque :
107
Biais de survie sélective Il s’agit d’une forme de biais Sélection de cas incidents
de sélection qu’on retrouve
dans les études cas témoins
Biais de mémoire Il s’agit d’une forme de biais Les sujets sont en aveugle des
de classement qu’on retrouve hypothèses
dans les études cas témoins.
Evaluation d’après des données
Les cas ont tendance à majorer recueillies de manière
leur exposition à des facteurs objective
de risque et les témoins à les
minimiser
108
Remarque :
La définition des groupes de comparaison peut être source de biais différents selon les
études. Dans une étude cas témoins, le mauvais choix des cas ou des témoins peut être source
de biais de sélection. Dans une étude exposés/non-exposés (où l’on recrute séparément les
sujets exposés et non-exposés), le mauvais choix des exposés ou des non-exposés peut de la
même façon être source de biais de sélection. En revanche, dans le cas (fréquent) d’une étude
de cohorte dans laquelle on va mesurer l’exposition et définir ainsi les groupes de
comparaison, une erreur de mesure de l’exposition sera une source potentielle de biais
de…classement !
109
Checklist STROBE
https://www.strobe-statement.org/index.php?id=available-checklists
110
Points clés
Dans ce type d’article, l’objectif est de montrer qu’un facteur est associé au devenir des
patients (guérison, décès, séquelles).
Ce chapitre portera sur les particularités des études pronostiques. Il existe beaucoup
d’éléments communs avec les études étiologiques.
Cependant, contrairement aux études étiologiques, on ne cherche pas à montrer un lien causal.
Le but est d’identifier des facteurs associés à un bon ou à un mauvais pronostic afin de
pouvoir informer le patient et d’orienter la prise en charge en fonction de ce facteur (par
exemple, rapprocher la surveillance ou les consultations de suivi si le pronostic est mauvais).
Les études pronostiques sont souvent des études de cohorte, avec des analyses de survie.
Elles sont sujettes aux perdus de vue si le suivi est long. Et bien sûr, il faut prendre en
compte les facteurs de confusion avec une analyse multivariée.
111
L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO :
- P= population concernée
- O= critère de jugement.
Par exemple, évaluer si un taux faible d’Albumine plasmatique (reflet d’un état de
dénutrition) est un facteur pronostique, prédictif de décès chez des patients ayant un cancer à
un stade avancé.
112
Les études évaluant des facteurs pronostiques sont principalement des études de cohorte
prospective ou rétrospective.
Les notions précédemment vues dans les études de cohorte (dans la partie étiologie)
s’appliquent ici également.
• Biais de sélection : il faut être sûr que les patients que l’on va inclure dans
l’étude ont bien la pathologie d’intérêt et sont à un stade similaire de l’histoire de
la maladie (par exemple, patients ayant survécu à un infarctus du myocarde,
patientes ayant un cancer du sein nouvellement diagnostiqué).
113
Biais d’attrition Liés aux perdus de vue et à leur Limiter au maximum les
exclusion de l’analyse perdus de vue
114
Points clés
- Evaluation de la performance diagnostique (le test discrimine bien les malades et les
non-malades) et de sa reproductibilité.
115
L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO :
P= population concernée
E= test à évaluer
Par exemple, évaluer la performance diagnostique de la palpation manuelle (E) par rapport à
l’échographie (C) pour diagnostiquer des présentations non-céphaliques (O) chez des femmes
en fin de grossesse (P).
Les études diagnostiques peuvent faire appel à des études transversales ou de cohorte selon
qu’il faut que les individus soient suivis dans le temps.
La population de l’étude doit être proche de la population à laquelle seront appliqués les
résultats de l’étude. En effet, le test peut être très performant dans un contexte mais
beaucoup moins dans un autre.
Si la population d’étude comporte des patients soit trop malades soit trop peu malades, il y a
un risque de biais de sélection appelé ici biais de spectre. Il est plus fréquent d’avoir une
évaluation des performances diagnostiques dans une population de patients plus sévères que
celle à laquelle les résultats seront extrapolés (par exemple, étude de la performance
diagnostique de la CRP pour différencier les infections bactériennes et virales chez les enfants
consultant aux urgences pédiatriques réalisée dans une population d’enfants hospitalisés pour
infection sévère).
Il s’agit d’un élément très important à évaluer. Le test de référence est le test qui va
permettre d’identifier véritablement les malades et les non-malades et d’évaluer la
performance diagnostique du test évalué (en Anglais, diagnostic accuracy). Il doit donc être
incontestable pour différencier les personnes malades des non-malades et préalablement
validé. On l’appelle également gold standard.
o Les 2 tests (test à évaluer et test de référence) doivent être réalisés chez tous les
patients
o Les 2 tests doivent être interprétés indépendamment l’un de l’autre (la personne
qui évalue le nouveau test doit être en aveugle des résultats de l’examen de référence)
Un test diagnostique est valide s’il mesure bien ce qu’il est sensé mesuré (discrimine bien
les malades et les non-malades). Les principaux indicateurs de la validité d’un test sont la
sensibilité, la spécificité, les valeurs prédictives positives et négatives et les rapports de
vraisemblance positifs et négatifs. Leur définition doit être connue.
117
118
o Un test très sensible va rarement rater un malade (peu de faux négatifs). Ce type de
test est à privilégier pour le dépistage car dans cette situation, on ne veut rater aucun
malade.
o Un test très spécifique va rarement considérer comme positif un sujet qui n’est pas
malade (peu de faux positifs). Ce type de test est à privilégier dans une situation de
confirmation du diagnostic.
o Sensibilité
o Spécificité
Un test positif est RVP fois plus fréquent chez les malades que chez les non-malades. Par
exemple, si le RVP =8 cela signifie qu’il y a 8 fois plus de chance d’avoir un test positif
lorsque la personne est malade que lorsqu’elle n’est pas malade.
Un test négatif est 1/RVN plus fréquent chez les non-malades que chez les malades. Par
exemple, si le RVN est=0.25, cela signifie qu’il y a 4 fois plus de chance de présenter un test
négatif si la personne n’est pas malade que si la personne est malade.
119
Plus le RVP est élevé, plus on aura confiance dans le résultat d’un test positif pour confirmer
le diagnostic.
Plus le RVN est faible, plus on aura confiance dans le résultat d’un test négatif pour éliminer
le diagnostic.
Remarque :
Cas d’un test donnant un résultat sur une échelle quantitative continue (par exemple
mesure de la CRP)
La distribution des valeurs du test dans un échantillon de sujets malades et non-malades peut
être représentée comme dans la figure ci-dessous.
120
o Si on abaisse le seuil:
– Amélioration de la sensibilité
– Diminution de la spécificité
o Si on augmente le seuil:
– Diminution de la sensibilité
– Amélioration de la spécificité
o Dépend de la situation
121
L’estimation de l’aire sous la courbe ROC (AUC=area under the curve) est un bon
indicateur de la performance diagnostique du test. L’aire sous la courbe ROC varie entre
0.5 et 1. Plus l’aire est proche de 1, plus le test est discriminant.
122
123
Définition
La fiabilité d’un test correspond à son caractère reproductible. Un test diagnostique est
fiable s’il donne le même résultat lorsqu’il est répété, par des opérateurs différents, dans
des conditions différentes. C’est particulièrement important lorsque l’interprétation d’un test
est subjective ou « opérateur-dépendante » (par exemple en imagerie ou en
anatomopathologie).
Mesure de la concordance pour une variable binaire (par exemple malade, non malade)
124
125
Biais de vérification (work- Seuls les individus avec un test Tous les individus
up bias) à l’étude positif ont le test de doivent avoir les 2 tests :
référence le test à l’étude et le test
de référence
Surestime la performance
diagnostique du test
Checklist STARD
http://www.stard-statement.org/
126
2.5.1 Définition
Une procédure de dépistage vise à identifier dans une population a priori en bonne santé
des sujets ayant une maladie inapparente ou à risque élevé de présenter une maladie, en
vue d’examens complémentaires, d’un suivi plus rapproché ou de mesures de prévention.
o Dépistage opportuniste ou individuel est un dépistage fait auprès d’un individu sur
proposition du médecin traitant, d’un spécialiste ou d’un médecin du travail de
faire un test susceptible de découvrir au stade asymptomatique une maladie curable.
Avantages Inconvénients
L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO :
- P= population concernée
- C= absence de dépistage
- O= critère de jugement
Par exemple, évaluer l’efficacité d’un dépistage organisé par frottis cervico-vaginal (E) par
rapport à une absence de dépistage organisé (C) en termes de mortalité (O) chez les femmes
de 25 à 65 ans (P).
L’essai contrôlé randomisé est la référence pour évaluer l’efficacité d’une procédure de
dépistage car il permet de limiter les biais et apporte (en théorie) le niveau de preuve
scientifique le plus élevé.
Schéma d’un essai contrôlé randomisé évaluant le bénéfice d’un dépistage organisé
128
Les notions précédemment vues dans les essais contrôlés randomisés s’appliquent ici
également.
- Qualité de la randomisation
o Biais de sélection des formes lentes (length time bias) : le dépistage trouve plus
souvent les tumeurs à croissance lente que les tumeurs les plus agressives.
129
Pour faire l’objet d’un dépistage organisé, plusieurs critères doivent être réunis :
- La maladie doit être un problème de santé publique par sa fréquence, sa sévérité ou son
impact socio-économique.
- Il doit exister un test de dépistage (en phase précoce de la maladie) ayant une forte
sensibilité et une forte spécificité
- Le test de dépistage doit être simple à utiliser et avoir une bonne acceptabilité par les
patients et les professionnels
- Le programme de dépistage doit avoir fait la preuve de son efficacité avec des essais
contrôlés randomisés
- Les moyens existent pour réaliser le programme de dépistage de façon continue et pour
faire face aux charges supplémentaires induites par la pratique du test.
130