Académique Documents
Professionnel Documents
Culture Documents
Dr Agnès Dechartres
Table des matières
1 ERE
PARTIE : NOTIONS COMMUNES AUX DIFFERENTS TYPES D’ARTICLE .......................... 5
1.1 STRUCTURE D’UN ARTICLE ........................................................................................................................ 6
1.2 LES DIFFERENTS TYPES D’ETUDE ............................................................................................................... 9
1.2.1 Les études comparatives.................................................................................................................. 9
1.2.2 Les études non-comparatives .......................................................................................................... 9
1.2.3 Autres mots-clés concernant le plan expérimental ........................................................................ 10
1.3 CONSTITUTION D’UN ECHANTILLON, NOTION DE POPULATION SOURCE, POPULATION CIBLE,
FLUCTUATIONS D’ECHANTILLONNAGE .............................................................................................................. 11
1.3.1 Echantillon, population source et population cible....................................................................... 11
1.3.2 Notion de fluctuations d’échantillonnage ..................................................................................... 12
1.3.3 Constitution de l’échantillon ......................................................................................................... 13
1.4 BIAIS ET NOTION DE VALIDITE INTERNE ................................................................................................... 13
1.4.1 Notion de biais .............................................................................................................................. 13
1.4.2 Les principaux biais ...................................................................................................................... 15
1.4.2.1 Biais de sélection ................................................................................................................................. 15
1.4.2.2 Biais de classement ............................................................................................................................. 15
1.4.2.3 Biais de confusion ............................................................................................................................... 17
1.4.3 Quels sont les réflexes à avoir ? .................................................................................................... 18
1.4.4 Définition de la validité interne..................................................................................................... 18
1.5 VALIDITE EXTERNE.................................................................................................................................. 19
1.6 NIVEAU DE PREUVE D’UNE ETUDE ........................................................................................................... 20
1.7 RAPPELS DE BIOSTATISTIQUES A CONNAITRE .......................................................................................... 21
1.7.1 Les différents types de variable ..................................................................................................... 21
1.7.2 Analyse descriptive ........................................................................................................................ 23
1.7.3 Analyse univariée .......................................................................................................................... 29
1.7.3.1 Tests statistiques .................................................................................................................................. 29
1.7.3.2 Mesure de l’association entre deux variables ...................................................................................... 33
1.7.4 Analyse multivariée ....................................................................................................................... 36
1.7.5 Cas particulier du test de tendance (trend test) ............................................................................ 39
1.7.6 Cas particulier du test d’interaction ............................................................................................. 40
2 EME PARTIE : SPECIFICITES DES DIFFERENTS TYPES D’ARTICLES ................................... 43
2.1 EVALUATION D’UN TRAITEMENT ............................................................................................................. 44
2.1.1 Formulation de l’objectif .............................................................................................................. 45
2.1.2 Type d’étude .................................................................................................................................. 45
2.1.3 Choix du comparateur (de l’intervention dans le groupe contrôle) .............................................. 46
2.1.4 Randomisation............................................................................................................................... 47
2.1.4.1 Génération de la séquence de randomisation ....................................................................................... 48
2.1.4.2 Clause d’ignorance .............................................................................................................................. 52
2.1.4.3 Vérification de la comparabilité initiale des groupes ........................................................................... 53
2.1.5 Maintien de la comparabilité des groupes pendant l’essai ........................................................... 54
2.1.5.1 Le double aveugle ............................................................................................................................... 55
2.1.5.2 L’analyse en intention de traiter .......................................................................................................... 57
2.1.6 Les critères de jugement ................................................................................................................ 61
2.1.6.1 Règles concernant le critère de jugement principal ............................................................................. 61
2.1.6.2 Pertinence clinique du critère de jugement .......................................................................................... 62
2.1.6.3 Evaluation objective ou subjective ? ................................................................................................... 63
2.1.6.4 Critère composite ................................................................................................................................ 64
2.1.7 Calcul d’effectif (ou calcul du nombre de sujets nécessaires) ...................................................... 65
2.1.8 Respect des règles éthiques et enregistrement des essais .............................................................. 66
2.1.8.1 Règles éthiques .................................................................................................................................... 66
2.1.8.2 Enregistrement des essais .................................................................................................................... 66
Type d’étude Plan expérimental de l’étude Les mots clés correspondant au type
(Study design) d’étude
de biais de sélection ?)
- Aveugle ? Evaluation de la
validité interne (biais de
classement)
Analyse Calcul d’effectif (surtout pour les essais)
statistique
Analyse :
- Analyse descriptive Les analyses statistiques sont- elles
- Analyse univariée appropriées ?
- Analyse multivariée (études
Matériel et méthodes
étiologiques et pronostiques)
Il existe pour chaque type d’étude (essais randomisé, étude observationnelle, étude
diagnostique), des recommandations pour rapporter de manière adéquate l’ensemble des
éléments importants. Ce sont ce qu’on appelle des ‘reporting guidelines’ tel que le CONSORT
Statement pour les essais contrôlés randomisés (le lien vers ces reporting guidelines est donné
à la fin de chaque section de la seconde partie de ce polycopié).
Dans une étude observationnelle, on ne modifie pas la prise en charge des patients, on se
contente d’observer ce qui se passe.
Dans une étude expérimentale (interventionnelle), on modifie la prise en charge en
introduisant une intervention par exemple (traitement, stratégie de dépistage,…) ou en
contrôlant le facteur d’exposition étudié. Pour l’ECNi, il s’agit des essais contrôlés randomisés.
Les études cas témoin et les études de cohorte sont définies plus loin (dans la partie 2.2)
Les études non-comparatives sont plus rares. Elles sont descriptives et peuvent être
transversales ou longitudinales.
- Une étude purement descriptive est une étude dans laquelle on se contente de décrire
sans chercher d’association. Ce sont par exemple des études de prévalence ou
d’incidence. Elles peuvent être transversales (estimation de la prévalence de la
dépression chez les patients traités pour un cancer par exemple) ou longitudinales
(estimation de l’incidence des infections post-opératoires chez les patients opérés par
exemple)
- Une étude analytique est une étude dans laquelle on va rechercher une association
entre un ou plusieurs facteurs et une maladie ou un évènement (ce sont des études
comparatives). Elles peuvent être de cohorte, cas témoin ou transversales. Cependant
les études transversales ne sont pas très recommandées pour évaluer des associations.
- Les études analytiques peuvent être à visée étiologique (association entre un facteur
de risque (par exemple tabagisme) et une maladie (par exemple infarctus du myocarde)
ou pronostique (association entre un facteur pronostique (par exemple envahissement
ganglionnaire) et un évènement (par exemple décès).
- Une étude transversale est une étude à un moment donné (comme une photographie),
on ne suit pas les patients dans le temps.
- Dans une étude longitudinale, on va suivre les patients dans le temps.
- Les études de cohorte et les essais contrôlés randomisés sont des études
longitudinales.
- Une étude prospective est une étude dans laquelle on décide de faire l’étude et on suit
des patients pour recueillir leurs données (le suivi se fait postérieurement à
l’enregistrement de l’exposition au facteur de risque (définition du glossaire)).
- Une étude rétrospective est une étude dans laquelle on va recueillir a posteriori des
informations sur l’exposition à des facteurs de risque ou des évènements qui se sont
déjà produits.
- Les essais contrôlés randomisés sont forcément des études prospectives.
- Les études de cohorte peuvent être prospectives ou rétrospectives (cf chapitre 2.2).
Il n’est généralement pas possible de réaliser une étude dans l’ensemble de la population et
donc d’obtenir la « vraie » valeur du paramètre qui nous intéresse. On va donc constituer un
échantillon qui doit être le plus représentatif possible de la population qui nous intéresse et
estimer la valeur du paramètre dans cet échantillon. On parle alors de paramètre « mesuré »,
« estimé » ou « observé ». Pour pouvoir extrapoler cette valeur estimée du paramètre à
l’ensemble de la population qui nous intéresse, l’échantillon doit être représentatif (avoir les
mêmes caractéristiques) de cette population.
La population qui nous intéresse est définie comme la population cible. C’est la
population à laquelle on souhaite extrapoler les résultats de l’étude.
En pratique, il est souvent très difficile de constituer l’échantillon dans l’ensemble de la
population cible. L‘échantillon est donc tiré d’une population dite « source » (population
dans laquelle l’échantillon a été constitué).
Dans l’idéal, l’échantillon est représentatif de la population source qui correspond
parfaitement à la population cible.
Remarque : Idéalement, la population source devrait être la population cible, mais ce n’est pas
toujours le cas. Par exemple, l’identification de facteurs de risque de maladies est souvent
réalisée chez des patients hospitalisés. Les patients non hospitalisés font bien partie de la
population cible de l’étude mais ne feront pas partie de l’échantillon.
- Les critères d’éligibilité : sont les critères permettant de caractériser la population que
l’on souhaite inclure.
o On distingue les critères d’inclusion (il faut que les patients les remplissent tous
pour entrer dans l’étude) et les critères de non inclusion parfois appelés, par
abus de langage, critères d’exclusion. Les critères d’exclusion devraient, en
fait, désigner les critères qui font que des sujets initialement inclus sont exclus
dans un deuxième temps.
o Il suffit d’un seul critère de non-inclusion pour que le patient ne puisse pas entrer
dans l’étude.
Un biais est une erreur systématique dans l’estimation des résultats qui opère dans un sens
donné (par exemple surestimation de l’association ou de l’effet traitement).
Remarque : les biais peuvent être introduits lors de la conception de l’étude ou lors de son
déroulement.
Erreur aléatoire=fluctuation
Type d'erreur Erreur systématique= biais
d’échantillonnage
De très nombreux biais sont décrits dans la littérature. Le type de biais et la terminologie varient
selon le type d’étude. Nous verrons dans la partie 2, les biais propres à chaque type d’étude.
Mais, globalement les biais sont de 3 types principaux : les biais de sélection, les biais de
classement et les biais de confusion.
Exemple :
Dans une étude cas-témoin évaluant l’association entre la consommation de café et le cancer
du pancréas, les témoins étaient des malades hospitalisés dans un service de gastro-entérologie
pour un problème de côlon irritable. Le choix du groupe témoin pose problème ici car la
consommation de café est déconseillée chez les patients ayant un syndrome du côlon irritable.
Le groupe de référence n’est pas représentatif de la population de non-malades car il s’agit de
patients hospitalisés et que leur consommation de café est différente de celle de l’ensemble des
non-malades.
On dit qu'une erreur de classement sur la maladie (ou sur le facteur de risque/exposition)
est non-différentielle lorsqu'elle survient indifféremment chez les exposés et chez les non-
exposés (ou chez les malades et chez les non-malades). Les erreurs non différentielles
conduisent à une sous-estimation de l’association exposition-maladie, autrement dit
rapprochent de 1 la valeur du risque relatif ou de l’odds-ratio.
D’une façon générale, il est préférable d’avoir des erreurs de classement non différentielles,
car elles tendent à sous-estimer l’association que l’on souhaite mettre en évidence.
Pour être un facteur de confusion, il faut que la variable soit liée à la fois au paramètre étudié
(maladie) et à l’exposition et ne soit pas un facteur intermédiaire.
Le biais de confusion est propre aux études observationnelles (car dans les essais
contrôlés randomisés, la randomisation permet d’équilibrer les facteurs de confusion
connus et inconnus entre les 2 groupes).
Le facteur de confusion peut conduire à une surestimation ou une sous-estimation de
l’association (OR ou RR).
Contrairement aux autres biais (sélection et classement), il est possible de prendre en
compte le biais lié aux facteurs de confusion lors de l’analyse statistique. En effet, le biais
de confusion peut être en partie contrôlé par l’analyse statistique multivariée qui, en ajustant
sur les facteurs de confusion potentiels, permet de corriger l’estimation des OR ou RR. Cette
correction peut malheureusement n’être qu’imparfaite, on parle alors de confusion résiduelle.
La prise en compte des facteurs de confusion dans l’analyse nécessite au préalable que les
informations sur ces facteurs de confusion aient été renseignées.
D’autres moyens existent pour prendre en compte les facteurs de confusion lors de la
planification de l’étude
- L’appariement sur un ou deux facteurs de confusion souvent utilisé dans les études
cas témoin
- La stratification (l’analyse séparée chez les hommes et les femmes par exemple) ou la
restriction à une strate
Ces méthodes sont expliquées dans la partie 2.2 sur les études étiologiques.
- Le biais de confusion est le seul biais qu’on peut prendre en compte au moment de
l’analyse.
- Il existe 3 manières de prendre en compte les facteurs de confusion :
o Ajustement (modèle multivarié) au moment de l’analyse
o Appariement dans les études cas témoin sur un ou plusieurs facteurs de
confusion connus (par exemple âge et sexe)
o Stratification ou restriction à un sous-groupe particulier
La validité interne peut être définie comme la qualité méthodologique de l’étude c'est-à-dire
le contrôle des différents biais potentiels.
L’évaluation de la validité interne passe par la recherche des défauts méthodologiques de
l’étude et des biais potentiels.
Une étude avec une méthodologie adéquate, permettant de limiter le risque de biais pour les
principaux biais évoqués, aura une bonne validité interne.
L’effectif d’une étude intervient également dans l’évaluation de la validité externe. En effet,
une étude de petite taille aura une moins bonne validité externe qu’une étude de grande taille.
Attention toutefois, une étude de grande taille ne garantit pas une bonne validité externe car il
faut également évaluer la représentativité de la population (les caractéristiques des patients).
Les analyses réalisées dépendent du type de variable. Nous allons donc d’abord présenter
les différents types de variable puis nous décrirons chacune de ces 3 étapes selon le type de
variable.
Une variable est un phénomène que l’on mesure. Une variable peut être selon le type d’étude
un facteur de risque, un facteur de confusion, un facteur pronostique, un critère de jugement.
Ces notions seront définies ultérieurement.
- Elles permettent de prendre en compte le fait que tous les patients n’ont pas
forcément la même durée de suivi
- Pour chaque patient, on aura son statut à la date de point (vivant ou mort/
évènement) pas d’évènement) et sa durée de participation
- Les analyses censurées sont également souvent appelées analyses de survie car
l’évènement étudié est souvent la mortalité mais elles peuvent concerner tout
évènement (par exemple, survenue d’un infarctus du myocarde ou d’une infection)
La première étape de l’analyse statistique consiste à décrire l’ensemble des variables étudiées
dans l’échantillon.
- Paramètres de dispersion
o Ecart-type, variance (carré de l’écart-type) : représentent les « écarts à la
moyenne ». Plus la variance est élevée, plus le caractère est variable dans la
population. L’écart-type et la variance sont des paramètres de dispersion
classiquement associés à la moyenne.
- Taux d’incidence
Le taux d’incidence quantifie le nombre de nouveaux cas de malades qui surviennent
dans la population pendant une période de temps donnée.
𝑚 𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑛𝑜𝑢𝑣𝑒𝑎𝑢𝑥 𝑐𝑎𝑠 𝑝𝑒𝑛𝑑𝑎𝑛𝑡 ∆𝑡
𝑇𝑎𝑢𝑥 𝑑 ′ 𝑖𝑛𝑐𝑖𝑑𝑒𝑛𝑐𝑒 = =
𝑃𝑇 𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑝𝑒𝑟𝑠𝑜𝑛𝑛𝑒𝑠𝑡𝑒𝑚𝑝𝑠 à 𝑟𝑖𝑠𝑞𝑢𝑒 𝑝𝑒𝑛𝑑𝑎𝑛𝑡 ∆𝑡
Avec PT : Nombre de Personnes-Temps à risque cumulé sur la période c'est-à-dire la
somme cumulée des durées pendant lesquelles les non-malades sont « à risque » de
devenir malade.
Le taux d’incidence nécessite de préciser sur quelle période de temps le compte est fait.
Le taux d’incidence mesure une vitesse moyenne d’apparition de nouveaux cas sur
l’ensemble des sujets de la population et de la durée totale de leur suivi.
L’analyse descriptive des variables censurées repose sur la réalisation de courbes dites de
survie (bien que le critère qui nous intéresse ne soit pas toujours le décès, cela peut être une
infection, un infarctus du myocarde,…). Cette courbe est généralement tracée avec la méthode
de Kaplan-Meier.
Dans cette étude, la durée médiane avant conception après une laparoscopie et une
hydrotubation chez des femmes ayant des problèmes de fertilité était de 6 mois.
Remarque :
Si moins de 50% des sujets ont présenté l’événement au cours du suivi, on ne peut
estimer la durée médiane de survenue de l’événement.
Dans cet exemple, il n’est pas possible d’estimer la médiane de survenue d’une tachyarythmie
atriale car moins de la moitié de la population a présenté l’évènement.
On cherche à déterminer si l’association entre les 2 variables au niveau d’un échantillon est
due à une différence réelle dans la population ou peut être le simple fait du hasard.
Avec les hypothèses présentées ci-dessus, le test est dit bilatéral car la différence entre
traitement A et traitement B peut aller dans les 2 sens.
Dans certains articles, les auteurs font un test unilatéral : ils font l’hypothèse que la différence
ne peut aller que dans un sens, c'est-à-dire que l’un des 2 traitements est supérieur à l’autre.
Il est recommandé de faire des tests bilatéraux. La réalisation d’un test unilatéral
impose une correction du risque alpha qui devrait être à 2.5% mais cela n’est pas
fréquemment fait en pratique par les auteurs.
Exemple 2 :
“Overall, 32 of the 229 (14%) had complete clearance of all plantar warts at 12 weeks,
corresponding to 17/119 (14%) patients in the salicylic acid group and 15/110 (14%) patients
in the cryotherapy group, p=0.89”
Dans cet exemple, p >0.05, la probabilité de disparition de la verrue plantaire (le critère
de jugement principal) ne diffère pas significativement entre les 2 groupes de traitement
(acide salicylique et cryothérapie). On ne peut rien conclure d’autre. Notamment, on ne
peut pas conclure que les 2 traitements ont une efficacité équivalente en termes de
disparition de la verrue.
- Pour comparer une variable quantitative (par exemple l’âge) entre 2 groupes :
o Test t de Student si la variable quantitative a une distribution normale.
o Test de Wilcoxon si ce n’est pas le cas (exemple : dosage des leucocytes) (test
non paramétrique).
Remarque : Un test est dit paramétrique quand on fait des hypothèses sur la distribution des
variables (par exemple, pour un critère de jugement continu, on fait fréquemment l’hypothèse
d’une distribution normale). Un test est dit non-paramétrique quand on ne fait aucune hypothèse
sur la distribution des variables.
- Pour comparer une variable censurée (par exemple la survie) entre 2 groupes :
o Test du log rank qui permet de comparer les courbes de survie entre les 2
groupes
Attention, le test du log-rank compare globalement les deux courbes. On ne peut pas
dire qu’il devient significatif quand les courbes se séparent.
Le risque relatif (RR) est le rapport des L’odds ratio (OR) est une autre mesure
proportions de malades chez les exposés possible de l’intensité de l’association entre
(a/n1) et les non exposés (b/n0). deux facteurs qui est fréquemment utilisée car
on peut le calculer quel que soit le type
𝑎
𝑛 d’étude (contrairement au risque relatif). Il
𝑅𝑅 = 1 s’agit d’un rapport des rapports ou d’un
𝑏
𝑛0 rapport des cotes.
Hazard ratio
Le hazard ratio (hazard = risque en Anglais) est l’équivalent du risque relatif pour des
variables censurées. Il correspond au rapport des risques instantanés de chaque groupe.
Le hazard ratio s’interprète comme un risque relatif.
Exemples :
RR = 1,8 ; IC95% : 1,2 – 2,5 RR significativement différent de 1
RR = 2,5 ; IC95% : 0,8 – 3,2 RR non significativement différent de 1
Remarque :
Il revient au même de faire un test statistique et regarder si p est inférieur à 0,05 et de regarder
si l’IC à 95% d’un RR, OR ou HR contient la valeur 1.
Cette analyse est l’analyse la plus importante pour les études observationnelles (cohorte ou
cas témoin) parce qu’elle permet de prendre en compte les facteurs de confusion.
En théorie, on n’a pas besoin de faire d’analyse multivariée dans les essais contrôlés randomisés
car, grâce à la randomisation, les deux groupes sont comparables pour tous les facteurs de
confusion connus ou inconnus.
L’analyse multivariée fait appel à des modèles de régression (multivariés car comprenant
plusieurs variables).
Le principe est de prédire la valeur d’une variable qui est le critère de jugement (par exemple
la maladie) en fonction d’autres variables (facteurs de risque potentiels et facteurs de
confusion). On les appelle respectivement la variable à expliquer et les variables explicatives.
Le modèle peut s’écrire comme suit :
𝑌 (𝑚𝑎𝑙𝑎𝑑𝑖𝑒) = [𝑎 × 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑒 1] + [𝑏 × 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑒 2] + ⋯
+ 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒
C’est-à-dire : 𝑌 = 𝑎𝑋1 + 𝑏𝑋2 + ⋯ + 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒
Pour chaque variable, on a une catégorie de référence comme indiqué dans le tableau. L’OR
dans la catégorie de référence vaut 1 par définition (valeur nulle).
Les variables qui sont indépendamment associées aux infections urinaires récidantes antibio-
résistantes sont (ce sont celles pour lesquelles l’IC à 95% n’incluent pas la valeur 1):
- L’ethnie (OR=0.21 (IC 95 0.07-0.63) pour l’ethnie caucasienne c'est-à-dire un rôle
protecteur car l’OR est <1)
- l’âge (OR=0.26 (IC 95 0.09-0.80) pour un âge de 2 à 6 ans c'est-à-dire un rôle
protecteur car l’OR est <1)
- le fait d’avoir reçu des antibiotiques (OR=7.60 (IC 95 1.60-35.17) c'est-à-dire facteur
de risque car l’OR est > 1)
Le test de tendance que l’on retrouve le plus souvent dans les études observationnelles permet
de tester s’il existe une tendance entre une exposition en catégories croissantes (variable
qualitative ordinale) et la survenue d’une maladie. Quand le test de tendance est significatif,
cela signifie que plus la consommation augmente, plus le risque de survenue de la maladie
augmente et c’est en faveur d’une relation de type dose effet, qui fait partie des critères de
Bradford Hill en faveur d’un lien causal.
Exemple
Dans cet article, les auteurs évaluent l’association entre la consommation d’alcool qui est
définie en 6 catégories croissantes allant de 0 à plus de 45g/jour et le risque de cancer. Ils
effectuent deux modèles : un modèle ajusté sur l’âge et un modèle multivarié ajusté sur l’âge
ainsi que sur un certain nombre de facteurs de confusion. Pour chacun de ces modèles, on a
deux niveaux d’information (qu’il ne faut pas mélanger):
- Est-ce que telle catégorie de consommation d’alcool est associée à un risque accru
de cancer par rapport à la catégorie de référence (0g/j d’alcool, représenté par un
RR=1)? Pour analyser cela, il faut regarder l’intervalle de confiance à 95% de la
catégorie concernée. S’il n’inclut pas 1, cela signifie qu’il y a une association
significative entre cette catégorie et le risque de cancer par rapport à une
consommation nulle d’alcool (la catégorie de référence). Par exemple, selon le
modèle multivarié, il y avait une association significative entre le fait de consommer
de 30 à 44g/j d’alcool et le risque de cancer par rapport à l’absence de consommation
d’alcool car RR=2.21 (IC à 95% 1.12-1.32 n’incluant pas 1).
- Est-ce qu’il existe une tendance entre la consommation d’alcool et le risque de
cancer ? Pour répondre à cette question, c’est le p du test de tendance qu’il faut
regarder. Ici il était significatif avec un p<0.0001 ce qui signifie que, globalement,
plus la consommation d’alcool augmente plus le risque de cancer augmente. Ce
résultat est en faveur d’une relation de type dose effet entre la consommation d’alcool
et le risque de cancer.
Attention, un test de tendance significatif ne signifie pas que les catégories diffèrent
entre elles ni que chaque catégorie est significativement associée à l’outcome.
Faculté de médecine Sorbonne Université 39
Polycopié de LCA-2021/2022- A. Dechartres
Enfin, attention à ne pas confondre le test de tendance avec le test d’interaction.
1.7.6 Cas particulier du test d’interaction
On retrouve principalement le test d’interaction quand on fait une analyse en sous-groupe, cela
peut être dans un essai randomisé mais également dans une étude observationnelle. Le test
d’interaction évalue si l’effet traitement dans un essai randomisé (ou l’association entre le
facteur d’exposition et l’outcome dans une étude observationnelle) diffère selon un tiers facteur.
Si le test d’interaction est significatif, cela signifie que l’effet traitement (ou l’association entre
l’exposition et l’outcome dans une étude observationnelle) varie (ou diffère) significativement
selon le tiers facteur autrement dit le tiers facteur a un effet modificateur sur l’effet traitement
ou l’association ou encore le tiers facteur est un facteur d’interaction dans la relation entre
l’exposition et l’outcome.
Dans cette étude observationnelle, les auteurs ont regardé l’association entre pression
artérielle systolique de 20 mmHg ou plus et risque de maladie artérielle périphérique.
- Le résultat global est représenté tout en bas de la figure (ligne overall) avec un
HR=1.63 et un IC à 95% ne comprenant pas la valeur 1 ce qui signifie qu’il y avait
une association significative entre une pression artérielle systolique élevée et la
survenue d’une maladie artérielle périphérique.
- Les auteurs présentent ici des analyses en sous-groupe selon l’âge, le sexe, le BMI et
le tabagisme. Le test d’interaction permet à chaque fois d’évaluer si l’association
Moyenne ET écart-type
Courbe de Kaplan-Meier
Etape 1 : analyse descriptive Fréquences et pourcentages Médiane ET minimum-
(médiane de survie)
maximum ou Q1-Q3
Points clés :
La référence pour évaluer l’efficacité d’un traitement est l’essai contrôlé, randomisé, en
double aveugle (quand cela est possible), avec analyse en intention de traiter. C’est ce
schéma qui permet de limiter les biais et d’avoir une comparabilité des groupes pendant
la durée de l’étude
- Comparabilité initiale = randomisation
- Maintien de la comparabilité des groupes pendant l’étude et l’analyse
o Double aveugle
o Analyse en intention de traiter
Le critère de jugement principal doit être pertinent et il faut vérifier si son évaluation est
objective
Pour conclure, il faut que le résultat pour le critère principal soit significatif mais il faut
également se poser la question d’une différence cliniquement pertinente
L’objectif doit être formulé de manière claire et complète. Pour cela, on peut utiliser le moyen
mnémotechnique PECO ou PICO :
- P=Population concernée
- E ou I=Intervention thérapeutique évaluée
- C=Intervention dans le groupe contrôle (le comparateur)
- O=outcome (critère de jugement principal)
Par exemple, évaluer l’efficacité sur la mortalité à 30 jours (O) d’un traitement par
hydrocortisone (E) par rapport à un placebo (C) chez des patients en choc septique (P).
La question posée doit être pertinente au vue de la littérature existante sur le sujet. Un essai
devrait être réalisé s’il s’agit d’un nouveau traitement dans la pathologie étudiée, d’un
traitement qui n’a pas démontré son efficacité ou d’un traitement pour lequel les résultats des
études antérieures sont discordants.
L’essai contrôlé randomisé est la référence pour évaluer l’efficacité d’une intervention car il
permet de limiter les biais et apporte (en théorie) le niveau de preuve scientifique le plus
élevé.
Il s’agit en général d’un essai de phase 3 dont les résultats peuvent conduire à l’autorisation de
mise sur le marché.
Rappel des différentes phases d’un essai portant sur le médicament (tiré de l’abrégé Masson de
Santé Publique)
Le terme « contrôlé » signifie qu’il y a un groupe contrôle (recevant par exemple un placebo)
et que l’on contrôle la comparabilité des groupes tout au long de l’étude.
Le plus souvent, également, il s’agit d’un essai dit de supériorité dont l’objectif est de montrer
que le nouveau traitement est supérieur à un placebo ou à un traitement de référence.
Afin de limiter au maximum le risque de biais, l’essai devrait être en double aveugle avec
analyse en intention de traiter comme nous allons le voir un peu plus loin.
Enfin l’essai peut être monocentrique s’il est réalisé dans un seul centre ou multicentrique
s’il est réalisé dans plusieurs centres. C’est une notion importante car elle influence la validité
externe de l’essai. Les résultats d’un essai monocentrique sont moins transposables à la
pratique qu’un essai multicentrique, la validité externe sera donc moindre dans un essai
monocentrique.
Remarque :
Malheureusement, même dans les pathologies pour lesquelles il existe des traitements ayant
montré leur efficacité, les essais sont fréquemment réalisés contre placebo.
Ces essais ont un intérêt limité car ils ne permettent pas de savoir si le nouveau traitement a un
intérêt par rapport aux traitements existants (on pourra juste conclure que le traitement fait
mieux que le placebo s’il existe une différence significative pour le critère de jugement
principal).
Ils ne permettent donc pas de répondre à la question la plus importante pour le médecin à
savoir : dans cette pathologie, quel est le meilleur traitement à donner à mon patient ?
Exemple : Un essai dans le psoriasis modéré à sévère a évalué un nouveau traitement,
l’efalizumab, par rapport à un placebo alors qu’il existe des traitements systémiques dans cette
pathologie comme le methotrexate.
2.1.4 Randomisation
La randomisation est le tirage au sort des patients permettant une répartition au hasard
(aléatoire) des patients dans deux ou plusieurs groupes.
La randomisation, si elle est bien faite, tend à obtenir des groupes comparables pour tous
les facteurs pronostiques connus et inconnus, afin que toute différence entre les 2 groupes ne
puisse être attribuée qu’au traitement reçu.
Attention, la randomisation concerne la comparabilité initiale des groupes et non la
comparabilité pendant la durée de l’étude.
- Une randomisation est dite équilibrée quand l’objectif est de randomiser autant de
patients dans le groupe expérimental que contrôle. Le ratio d’allocation (ratio
groupe A/groupe B) est alors 1/1. Il s’agit de la situation la plus fréquente.
- Dans certains essais, le ratio est 2/1 c'est-à-dire qu’on souhaite randomiser 2 fois plus
de sujets traités par le nouveau médicament que de sujets traités par placebo. On parle
alors de randomisation déséquilibrée. L’argument fréquemment utilisé pour justifier
cette randomisation déséquilibrée est d’augmenter le nombre de sujets traités par le
traitement expérimental afin d’avoir davantage de données concernant la tolérance de
ce traitement. Une autre raison moins fréquemment avouée est que cela va améliorer le
recrutement dans l’essai car les patients ont plus de chances de recevoir le traitement
expérimental que le placebo.
Randomisation simple
- Lorsque la randomisation est basée sur une simple séquence de nombres, on parle de
randomisation simple.
Remarque :
La randomisation par blocs est une méthode de randomisation adéquate adaptée en cas de faible
effectif. Il faut cependant faire attention à ne pas communiquer la taille des blocs aux
investigateurs qui recrutent les patients ou alors à faire des blocs de taille aléatoire (qui
change pendant la durée de l’étude).
Autrement, l’investigateur, s’il connait la taille des blocs, pourrait déduire quel va être le groupe
dans lequel le patient suivant sera randomisé. Par exemple, si l’investigateur a randomisé les 2
premiers patients dans le groupe A, il peut en déduire que les 2 prochains patients seront
randomisés dans le groupe B s’il sait que la taille des blocs est de 4. Cela pourrait entraîner une
violation de la clause d’ignorance (voir plus loin).
Remarque :
- Il est fréquent dans les essais multicentriques de stratifier sur le centre afin qu’il y
ait à peu près autant de patients randomisés dans le groupe A et dans le groupe B
au sein de chaque centre.
- On ne peut pas stratifier sur un trop grand nombre de facteurs car dans ce cas, on
pourrait se retrouver avec des strates vides (sans patient). Quand on a un faible
effectif et beaucoup de facteurs pronostiques importants à prendre en compte, on
fera plutôt une randomisation par minimisation (cf ci-dessous).
Chronologie de l’inclusion d’un patient dans l’essai pour respecter la clause d’ignorance
La clause d’ignorance est respectée lorsque l’investigateur qui recrute les patients dans un
essai contrôlé randomisé ne peut pas prévoir dans quel groupe le patient va être randomisé
au moment où il recrute le patient.
Dans cet exemple, les groupes sont relativement comparables en termes de caractéristiques
initiales.
Afin d’être sûr que la différence de résultats observée entre les 2 groupes n’est due qu’au
traitement reçu, il est nécessaire de maintenir la comparabilité des groupes (qui a été obtenue
avec la randomisation) pendant toute la durée de l’essai et ce jusqu’à l’analyse. Le double
aveugle et l’analyse en intention de traiter permettent de maintenir la comparabilité des
groupes pendant le suivi et l’analyse, respectivement et de limiter les biais.
Remarques :
- L’aveugle vis-à-vis du traitement reçu n’est pas toujours possible du fait de la nature
de l’intervention (par exemple en chirurgie).
- Le terme double aveugle est un terme que les méthodologistes n’aiment pas car il est
trop vague : cela implique que 2 protagonistes de l’essai sont en aveugle mais on ne
sait pas forcément lesquels (habituellement, il s’agit du patient et du médecin,
mais…on ne sait jamais). C’est pourquoi il est préférable de préciser qui est en
aveugle du traitement reçu dans l’essai :
o le patient ?
o le médecin qui suit le patient ?
o la personne qui évalue le critère de jugement qui peut être soit le patient (par
exemple pour la douleur) soit le médecin (par exemple infarctus du myocarde)
soit une personne extérieure.
Faculté de médecine Sorbonne Université 56
Polycopié de LCA-2021/2022- A. Dechartres
2.1.5.2 L’analyse en intention de traiter
Qu’est-ce que l’analyse en intention de traiter ?
Dans l’analyse en intention de traiter, tous les patients randomisés sont analysés et
ce, dans le groupe dans lequel ils ont été randomisés, quel que soit le traitement
effectivement reçu, qu’ils aient ou non terminé ou même commencé le traitement et quel
que soit leur suivi. On les analyse comme ils auraient dû être traités et non comme ils
ont été traités réellement.
Exemple :
Dans cet exemple, on cherche à comparer l’accouchement par césarienne par rapport à
l’accouchement par voie basse chez des femmes avec un bébé qui se présente par le siège.
On randomise 90 femmes dans chaque groupe.
Dans le groupe « voie basse », 10 femmes ont dû avoir une césarienne en urgence en raison
d’une souffrance fœtale. Selon le principe de l’analyse en intention de traiter, ces 10 femmes
doivent être analysées et ce dans le groupe « voie basse ».
L’analyse doit donc comparer le devenir des 90 femmes du groupe « voie basse » (80
ayant vraiment accouché par voie basse plus 10 ayant eu une césarienne) par rapport
aux 90 femmes du « groupe césarienne ». La souffrance fœtale peut être liée au fait que la
voie basse n’était pas adaptée. Exclure ces 10 patientes risquerait de surestimer le bénéfice
de la voie basse.
Remarque :
Si le nombre de patients exclus est minime par rapport au nombre de patients randomisés, cela
n’aura probablement pas d’impact sur les résultats mais l’analyse n’est pas à proprement parler
en intention de traiter.
Une autre méthode d’imputation des données manquantes est fréquemment utilisée mais
elle n’est pas recommandée. Il s’agit de la méthode LOCF (Last Observation Carried
Forward). Elle consiste à prendre la dernière valeur disponible pour le patient avant qu’il ne
sorte de l’essai. Par exemple, si un patient est venu en consultation à 6 mois mais n’est pas
revenu à 9 mois ni à un an, on prendra son résultat à 6 mois.
Exemple :
Pour évaluer l’efficacité d’une chimiothérapie contre le cancer de la prostate, on pourrait
s’intéresser :
- à la mortalité toutes causes confondues ou à la mortalité par cancer de la prostate
(critères pertinents)
- à la réduction de la taille de la tumeur ou à la baisse du taux sanguin de PSA (critères
intermédiaires)
Le problème est que les critères intermédiaires ne sont pas forcément corrélés avec la
mortalité ou les évènements cliniques tels que la survenue d’un infarctus du myocarde
(critères vraiment pertinents pour le patient nécessitant des études plus longues et plus
coûteuses) et peuvent donner une évaluation trompeuse de l’efficacité d’un traitement.
- Vérifier que l’effet traitement est le même pour tous les évènements
cliniques du critère composite.
Chaque évènement clinique composant le critère composite doit être défini
comme critère secondaire. L’effet traitement est souvent plus important pour
les évènements les moins graves mais qui sont le plus souvent les plus
fréquents. Il y a aura alors une différence statistiquement significative pour le
critère composite et pas forcément pour les évènements les plus graves ce qui
pose problème quant à l’interprétation d’un bénéfice pour le patient. C’était le
cas dans l’exemple donné ci-dessous :
Dans cet exemple, le critère de jugement composite est défini comme la survenue d’un décès,
d’une insuffisance rénale terminale ou d’un doublement de la créatinine.
Il y a une différence statistiquement significative pour le critère de jugement composite.
Quand on regarde les composantes du critère composite, il n’y a pas de différence
statistiquement significative pour la mortalité globale ni pour l’insuffisance rénale terminale
qui sont deux critères importants pour le patient.
La seule différence statistiquement significative observée est pour le critère « doublement de
la créatinine » qui du fait de sa plus grande fréquence entraine la significativité statistique du
critère composite. Mais ce critère est un critère intermédiaire qui n’est pas important pour le
patient. Cet essai pose donc un problème d’interprétation du bénéfice pour le patient.
L’estimation du nombre de sujets nécessaires pour l’étude doit être faite a priori (au moment
de l’élaboration du protocole). Il faut inclure suffisamment de sujets pour avoir une forte
probabilité de détecter une différence statistiquement significative.
Eléments nécessaires pour estimer le nombre de sujets à inclure:
- la puissance statistique souhaitée (devrait être > 80%)
- le niveau de l’erreur alpha (0,05 en général)
- Est-ce que le test est unilatéral ou bilatéral
- la valeur attendue du paramètre dans le groupe contrôle (au mieux, documentée par
la référence à des études antérieures) : proportion pour un critère binaire, écart-type pour
un critère continu
- la différence minimale entre les groupes jugée cliniquement pertinente: plus la
différence à montrer est faible, plus il faudra de sujets.
Faculté de médecine Sorbonne Université 65
Polycopié de LCA-2021/2022- A. Dechartres
On peut également prendre en compte de possibles perdus de vue (même s’il est prévu de faire
l’analyse en intention de traiter, des perdus de vue risquent de diminuer la puissance de l’étude).
Ce n’est toutefois pas systématique.
Pour pouvoir conduire un essai, il faut également que la clause d’ambivalence soit respectée.
La clause d’ambivalence ou équipoise (equipoise en anglais) signifie qu’il existe une
incertitude sur l’efficacité de l’intervention évaluée. Si tel n’est pas le cas, ce n’est pas
éthique de conduire l’essai car cela expose les patients du groupe contrôle à une perte de
chance. Une autre définition présente dans le glossaire de LCA du CNCI est que tous les
patients doivent pouvoir recevoir l’un ou l’autre des traitements (ils ne doivent pas
présenter de contre-indication à l’un ou l’autre des traitements pour pouvoir être inclus
dans l’essai).
En pratique, il est souvent difficile d’apprécier si la différence est pertinente cliniquement. Cela
dépend de la pathologie et du critère de jugement. Une réduction absolue du risque de 5% est
très importante quand il s’agit de la mortalité globale mais moins importante quand il s’agit
d’autres critères comme la proportion de patients douloureux.
Justification
Le fait de faire des analyses en sous-groupe entraine une inflation du risque alpha (plus on
fait de tests, plus le risque alpha augmente) et il est donc possible d’avoir un résultat
statistiquement significatif pour l’un des sous-groupes par le simple fait du hasard.
Dans cet exemple, 3 analyses en sous-groupe ont été réalisées : en fonction de l’âge (moins
de 77 ans versus plus de 77 ans), en fonction du sexe (hommes et femmes) et en fonction de
l’index d’Hardman (index=0, index=1, index≥2).
Le résultat du test d’interaction est le p qui est représenté à droite. Dans cet exemple, seul le
test d’interaction pour le sexe est statistiquement significatif (p=0.019) c’est à dire qu’il y a
une différence d’effet traitement entre les hommes et les femmes. Toutefois, on ne peut rien
en conclure car il n’y a pas de différence statistiquement significative globalement (OR=0.94,
IC 95% 0.67-1.33).
Nous nous sommes placés jusqu’à présent dans la situation la plus fréquente c’est à dire un
essai contrôlé randomisé à 2 bras parallèles et de supériorité.
Il existe, en fait, d’autres types d’essai. Nous aborderons ici 2 autres types d’essai contrôlé
randomisé sur lesquels vous pouvez être interrogés: les essais en cross-over et les essais
d’équivalence ou de non infériorité.
Principes de l’analyse
- Il faut avant tout systématiquement tester la possibilité d’un effet carry-over en
évaluant s’il y a une interaction entre la période et l’effet du traitement. Si on met en
évidence une telle interaction, il y a un effet carry-over et on ne pourra pas analyser
correctement les résultats de l’essai en cross-over.
- L’analyse est une analyse sur échantillons appariés (ce sont les mêmes patients)
Attention à l’analyse !
Dans un essai d’équivalence ou de non-infériorité, il faut faire à la fois une analyse en
intention de traiter et une analyse per protocole et vérifier que les résultats sont cohérents
avec ces 2 analyses. En effet, comme nous l’avons vu précédemment, l’analyse en intention de
traiter a tendance à diminuer les différences entre les 2 groupes ce qui risque de faire conclure
plus facilement à l’équivalence ou à la non-infériorité alors que l’analyse per protocole a
tendance à augmenter la différence entre les groupes.
Biais de sélection Sélection d’un échantillon non Sélection d’un échantillon représentatif
représentatif
Séquence de randomisation aléatoire et
Absence de comparabilité initiale respect de la clause d’ignorance
des groupes favorisant une des (assignation secrète)
interventions
Biais de L’évaluateur peut être influencé Critère de jugement objectif (décès toutes
classement s’il sait quelle intervention le causes confondues, examen biologique)
patient a reçue
OU
CONSORT Statement
http://www.consort-statement.org/
Le Consort Statement fournit notamment un modèle de flow chart qui permet de suivre le flux
des patients au cours de l’essai.
Points-clés
- Les études étiologiques évaluent l’association entre l’exposition à un ou plusieurs
facteurs de risque et la survenue d’une maladie.
- Les études étiologiques sont des études observationnelles qui font appel à 2 grands-
types d’étude : les études cas-témoin et les études de cohorte.
Attention aux points suivants :
- Etudes cas-témoin :
o Sélection des cas
o Choix des témoins
o Recueil des facteurs de risque : risque de biais de mémoire
- Etudes de cohorte
o Suivi dans les études de cohorte prospective (risque de perdus de vue)
o Données manquantes dans les cohortes rétrospectives
Prise en compte des facteurs de confusion Analyse multivariée
La causalité ne peut pas être affirmée par une seule étude observationnelle (une
différence statistiquement significative n’est pas synonyme de lien causal)
L’objectif doit être formulé de manière claire et complète. Pour cela, on peut reprendre les
différents éléments du PECO :
- P= population concernée
- E= le ou les facteurs de risque étudié(s)
- C (souvent sous-entendu)= absence de facteur de risque
- O= maladie
Par exemple : évaluer si l’hypercholestolémie (E) est un facteur de risque de maladie
d’Alzheimer (O) chez les personnes de plus de 50 ans (P) (sous entendu par rapport à une
absence d’hypercholestérolémie (C)).
Etude de cohorte
- Dans les études de cohorte, on recrute des sujets indemnes de la maladie qui sont
exposés à un ou des facteurs de risque et on les suit dans le temps afin d’évaluer s’ils
deviennent malades.
- Une étude de cohorte peut être prospective ou rétrospective (on parle également de
cohorte historique). Cette notion fait habituellement référence à la temporalité du recueil
de données. Dans une cohorte rétrospective, la cohorte est reconstituée
rétrospectivement à partir de données déjà recueillies (par exemple dans les dossiers
médicaux). Ce schéma est intéressant pour les maladies ayant un long délai de latence,
comme les cancers ou la maladie d’Alzheimer. Cependant, il faut que la qualité des
données recueillies soit bonne sinon il y a aura un nombre important de données
manquantes.
Etudes cas témoin
- Dans les études cas-témoin, on recrute des malades et des témoins indemnes de la
maladie et on recherche dans le passé des sujets s’ils ont été exposés à certains facteurs
de risque. Une étude cas-témoin est rétrospective.
Cas particulier
L’étude cas-témoin niché dans une cohorte : les cas et les témoins sont issus d’une cohorte
existante. Le principal avantage est que les données sont déjà disponibles et qu’elles ont été
recueillies de façon prospective. Il est cependant fréquent d’avoir besoin d’informations
complémentaires, non renseignées dans la cohorte initiale. On procède alors à un recueil
rétrospectif de ces données, en contactant les patients et/ou en retournant au dossier médical.
Dans une étude de cohorte rétrospective, les données concernant l’exposition à des
facteurs de risque ont déjà été collectées (dans les dossiers médicaux ou dans des registres).
Dans ce cas, il est très important de vérifier la qualité du recueil des données. S’il y a des
données manquantes ou si un facteur de confusion important n’a pas été collecté, cela va
poser problème.
Dans les études de cohorte prospective, il faut définir une durée de suivi suffisante pour pouvoir
observer la maladie.
Cette durée peut être longue et pose le problème des perdus de vue c'est-à-dire des patients
pour lesquels il n’y a pas de données concernant leur suivi. Dans les analyses, il faudra vérifier
les caractéristiques des patients perdus de vue et la durée médiane de suivi rapportée, et
apprécier ainsi l’influence potentielle de la proportion de perdus de vue sur les critères de
jugement.
Exemple :
Le choix de témoins hospitalisés dans une étude cas-témoin peut être une source de biais
de sélection : si on veut étudier le lien entre tabagisme et risque d’infarctus du myocarde et
que pour cela on compare des patients hospitalisés en cardiologie avec des patients de
cancérologie, on risque de ne pas voir d’association car de nombreux patients de cancérologie
sont également fumeurs et à haut risque d’infarctus.
Un biais de classement est un biais (une erreur) dans la mesure de l’élément soumis à
évaluation ou du critère de jugement. On ne classe pas correctement les sujets en
« exposés/non exposés », ou en « malades/non malades ».
En épidémiologie, on parle d’erreur différentielle lorsque les probabilités d'erreur de
classement sur la maladie sont différentes chez les exposés et chez les non-exposés (ou
lorsque les probabilités d'erreur de classement sur l’exposition sont différentes chez les malades
et chez les non-malades). Les erreurs différentielles peuvent conduire à une surestimation ou
à une sous-estimation de l’association (la valeur de l’odds-ratio ou du risque relatif peut être
soit augmentée soit diminuée).
Que ce soit dans les études de cohorte ou cas témoin, afin d’isoler le rôle intrinsèque du
facteur étudié sur la survenue de la maladie, il faut mesurer l’association qui existe entre ce
facteur et le critère de jugement, indépendamment des autres facteurs potentiellement
impliqués. Il faut donc prendre en compte les facteurs de confusion potentiels.
Rappel :
Un facteur de confusion (confounding factor) est un facteur qui perturbe l’association entre
l’exposition au facteur étudié et la maladie.
1) L’appariement
- Se décide au moment de la planification de l’étude (prise en compte a priori du
facteur de confusion).
- Fréquent dans les études cas témoin
- Permet de prendre en compte un ou deux facteurs de confusion connus
2) L’ajustement
- Méthode pour prendre en compte des facteurs de confusion au moment de
l’analyse (a posteriori)
- Permet d’étudier l’association entre les facteur de confusion et la maladie
- Se fait au moyen de modèles de régression multivariés généralement :
o Modèle de régression logistique dans les études cas témoin
o Modèle de régression logistique ou modèle de Cox dans les études de
cohorte
- Pour chaque facteur étudié ou de confusion introduit dans le modèle, on va obtenir
un OR (si régression logistique) ou un HR (si modèle de Cox) ajusté sur les autres
facteurs
Ceux pour lesquels p<0.05 ou l’IC à 95% de l’OR ou de l’HR ne contient pas
la valeur 1 sont les facteurs indépendamment associés à la maladie.
3) La stratification
- Méthode moins utilisée
- Quand les autres facteurs de confusion diffèrent selon la variable de stratification
(souvent le sexe)
- Consiste à faire une analyse séparée selon la variable de stratification. Par
exemple, une étude de cohorte avec analyse stratifiée sur le sexe présentera les
résultats séparément chez les hommes et chez les femmes (on fera un modèle
multivarié chez les hommes et un modèle multivarié chez les femmes)
- Ne permet pas d’étudier l’association entre ce facteur et la maladie
- étude cas témoin appariée sur l’âge et le sexe et ajustée sur la consommation de tabac,
la consommation d’alcool, les antécédents familiaux, l’hypercholestérolémie
- Etude de cohorte stratifiée sur le sexe et ajustée chez les hommes sur l’âge, la
consommation de tabac, la consommation d’alcool, les antécédents familiaux,
l’hypercholestérolémie et chez la femme, sur l’âge, la consommation de tabac, la
consommation d’alcool, les antécédents familiaux, l’hypercholestérolémie, l’âge à la
ménopause, la prise de traitement hormonal substitutif
- L’ajustement via un modèle de régression multivarié est (le plus souvent) une
constante des études de cohorte et cas témoin. Les autres méthodes (appariement et
stratification) sont complémentaires
Remarque:
Le biais de confusion est le seul biais qu’on peut prendre en compte lors de l’analyse
(par une analyse ajustée sur les facteurs de confusion)
Les résultats principaux de l’étude sont les résultats de l’analyse multivariée car ils
prennent en compte les facteurs de confusion.
Exemple :Interprétation du résultat d’une étude étiologique
Remarque:
P (le degré de significativité) et l’IC à 95% donnent exactement la même information sur la
significativité:
- Si p<0.05 et l’IC à 95% de l’OR ou de l’HR ne contient pas 1, il existe une association
significative
- Si p≥ 0.05 et l’IC à 95% de l’OR ou de l’HR contient 1, il n’y a pas d’association
significative
- Ce n’est pas possible d’avoir p<0.05 avec l’IC à 95% qui contient la valeur 1
Il faut bien différencier association statistiquement significative et lien causal. Ce n’est pas
parce qu’on a montré une association statistiquement significative entre un facteur et un critère
de jugement qu’il y a un lien causal !
La seule manière d’affirmer un lien de causalité, c’est de comparer des groupes qui ne
diffèrent que par l’exposition ou non à l’élément soumis à évaluation, c’est-à-dire
comparables sur toutes les autres caractéristiques. Ainsi, toute différence observée entre les
groupes sera imputable à l’élément soumis à évaluation. Seul un essai contrôlé randomisé,
s’il est bien conduit, permet d’affirmer un lien causal car la randomisation permet
d’obtenir des groupes comparables pour tous les facteurs de confusion connus ou
inconnus.
Checklist STROBE
https://www.strobe-statement.org/index.php?id=available-checklists
Points clés
- Dans ce type d’article, l’objectif est de montrer qu’un facteur est associé au
devenir des patients (guérison, décès, séquelles).
- Ce chapitre portera sur les particularités des études pronostiques. Il existe beaucoup
d’éléments communs avec les études étiologiques.
- Cependant, contrairement aux études étiologiques, on ne cherche pas à montrer un
lien causal.
- Le but est d’identifier des facteurs associés à un bon ou à un mauvais pronostic
afin de pouvoir informer le patient et d’orienter la prise en charge en fonction de
ce facteur (par exemple, rapprocher la surveillance ou les consultations de suivi si le
pronostic est mauvais).
- Les études pronostiques sont souvent des études de cohorte, avec des analyses de
survie. Elles sont sujettes aux perdus de vue si le suivi est long. Et bien sûr, il faut
prendre en compte les facteurs de confusion avec une analyse multivariée.
L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO :
- P= population concernée
- E= facteur pronostique évalué
- C (sous-entendu)= absence du facteur pronostique
- O= critère de jugement.
Par exemple, évaluer si un taux faible d’Albumine plasmatique (reflet d’un état de dénutrition)
est un facteur pronostique, prédictif de décès chez des patients ayant un cancer à un stade
avancé.
Les études évaluant des facteurs pronostiques sont principalement des études de cohorte
prospective ou rétrospective.
Les notions précédemment vues dans les études de cohorte (dans la partie étiologie)
s’appliquent ici également.
Il faudra accorder une attention particulière aux points suivants :
- Biais de sélection : il faut être sûr que les patients que l’on va inclure dans l’étude ont
bien la pathologie d’intérêt et sont à un stade similaire de l’histoire de la maladie (par
exemple, patients ayant survécu à un infarctus du myocarde, patientes ayant un cancer
du sein nouvellement diagnostiqué).
- Evaluation du critère de jugement : Si le critère de jugement est le décès ou la survie,
il s’agit d’un critère de jugement dont l’évaluation est objective. C'est-à-dire que
l’évaluation est incontestable et ne peut pas être sujet à des interprétations différentes
selon la personne qui l’évalue. Dans ce cas, le risque de biais de classement est faible.
Si le critère de jugement est un critère dont l’évaluation peut être subjective (par
exemple la rechute tumorale ou la récidive d’événement cardiovasculaire), l’évaluation
du critère de jugement doit se faire en aveugle de l’exposition au facteur pronostique
afin de limiter le biais de classement. Afin de limiter la variabilité liée à l’évaluation
subjective d’un critère de jugement, son mode d’évaluation doit être défini a priori et
standardisé. Pour améliorer la reproductibilité, il est souhaitable de faire une
évaluation en double (par 2 personnes de manière indépendante) voire centralisée avec
un comité indépendant (appelé comité d’adjudication ou comité d’évènements
cliniques).
- Durée du suivi. Un facteur prédictif de la survie à 1 an n’est pas forcément prédictif
de la survie à 3 ans.
- Perdus de vue (biais d’attrition)
- Prise en compte des facteurs de confusion
- Interprétation des résultats : interprétation des résultats de l’analyse multivariée par
un modèle de régression logistique si le critère de jugement est une variable binaire (par
exemple décès à 3 mois) ou par un modèle de Cox si le critère de jugement est une
variable censurée (délai avant décès).
Biais d’attrition Liés aux perdus de vue et à leur Limiter au maximum les perdus
exclusion de l’analyse de vue
Points clés
L’évaluation d’un test diagnostique comporte deux axes :
- Evaluation de la performance diagnostique (le test discrimine bien les malades et
les non-malades) et de sa reproductibilité.
- Evaluer si son utilisation améliore le devenir des patients en pratique courante on
mène alors un essai randomisé comparant l’évolution clinique d’un groupe de patients
bénéficiant de l’outil diagnostique à l’évolution clinique d’un groupe contrôle)(cf
chapitre essai randomisé).
L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO :
- P= population concernée
- E= test à évaluer
- C= test de référence (gold standard)
- O= critère de jugement c'est-à-dire ce qu’on cherche à diagnostiquer.
Par exemple, évaluer la performance diagnostique de la palpation manuelle (E) par rapport à
l’échographie (C) pour diagnostiquer des présentations non-céphaliques (O) chez des femmes
en fin de grossesse (P).
Les études diagnostiques peuvent faire appel à des études transversales ou de cohorte selon
qu’il faut que les individus soient suivis dans le temps.
La population de l’étude doit être proche de la population à laquelle seront appliqués les
résultats de l’étude. En effet, le test peut être très performant dans un contexte mais beaucoup
moins dans un autre.
Si la population d’étude comporte des patients soit trop malades soit trop peu malades, il y a un
risque de biais de sélection appelé ici biais de spectre. Il est plus fréquent d’avoir une
évaluation des performances diagnostiques dans une population de patients plus sévères que
celle à laquelle les résultats seront extrapolés (par exemple, étude de la performance
diagnostique de la CRP pour différencier les infections bactériennes et virales chez les enfants
consultant aux urgences pédiatriques réalisée dans une population d’enfants hospitalisés pour
infection sévère).
De plus, les résultats seront difficilement transposables à la pratique clinique courante.
Il s’agit d’un élément très important à évaluer. Le test de référence est le test qui va permettre
d’identifier véritablement les malades et les non-malades et d’évaluer la performance
diagnostique du test évalué (en Anglais, diagnostic accuracy). Il doit donc être incontestable
pour différencier les personnes malades des non-malades et préalablement validé. On
l’appelle également gold standard.
Faculté de médecine Sorbonne Université 100
Polycopié de LCA-2021/2022- A. Dechartres
2.4.5 Réalisation des tests (test à évaluer et test de référence)
Les 2 tests (test à évaluer et test de référence) doivent être réalisés chez tous les patients
La réalisation de l’examen de référence uniquement chez les patients avec un résultat
positif du test à évaluer surestime les performances diagnostiques du test. Il y a un risque
de biais de vérification (work up bias).
Les 2 tests doivent être réalisés de manière standardisée
Les 2 tests doivent être interprétés indépendamment l’un de l’autre (la personne qui évalue
le nouveau test doit être en aveugle des résultats de l’examen de référence)
Sinon il y a un risque de biais de classement
Tableau de contingence type pour l'analyse des résultats d'une étude diagnostique
Test de référence positif Test de référence négatif
(malades) (non-malades)
Test évalué positif Vrais positifs (VP) Faux positifs (FP)
Test évalué négatif Faux négatifs (FN) Vrais négatifs (VN)
- Sensibilité
- Spécificité
- Rapport de vraisemblance positif (RVP)
- Rapport de vraisemblance négatif (RVN)
- Plus le RVP est élevé, plus on aura confiance dans le résultat d’un test positif pour
confirmer le diagnostic.
- Plus le RVN est faible, plus on aura confiance dans le résultat d’un test négatif pour
éliminer le diagnostic.
Remarque :
La VPP et la VPN dépendent de la prévalence de la maladie dans la population. Ce sont
des indicateurs imparfaits. Si dans une population, la fréquence de la maladie est élevée, la
probabilité que le patient soit malade sera élevée, quel que soit le résultat du test donc la VPP
sera élevée. A l’inverse, plus la maladie est rare, plus la VPP sera faible.
La comparaison des aires sous la courbes ROC de 2 tests diagnostiques est une bonne méthode
pour comparer leur performance, en s’affranchissant du choix d’un seuil.
Chaque point représente un patient. L’axe des abscisses représente la moyenne des deux
mesures, l’axe des ordonnées la différence entre les deux mesures. Ce diagramme permet de
voir si l’une des deux mesures a tendance à donner des scores trop bas ou trop élevés, les
points devant normalement se répartir de part et d’autre de la ligne d’identité.
Biais de vérification Seuls les individus avec un test Tous les individus doivent avoir
(work-up bias) à l’étude positif ont le test de les 2 tests : le test à l’étude et le
référence test de référence
Surestime la performance
diagnostique du test
Checklist STARD
http://www.stard-statement.org/
Une procédure de dépistage vise à identifier dans une population a priori en bonne santé des
sujets ayant une maladie inapparente ou à risque élevé de présenter une maladie, en vue
d’examens complémentaires, d’un suivi plus rapproché ou de mesures de prévention.
On distingue deux types de dépistage :
- Dépistage opportuniste ou individuel est un dépistage fait auprès d’un individu sur
proposition du médecin traitant, d’un spécialiste ou d’un médecin du travail de
faire un test susceptible de découvrir au stade asymptomatique une maladie curable.
- Dépistage collectif organisé (« systématique » ou « de masse ») est mis en place sur
décision de l’état. Il est pris en charge totalement.
L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les
différents éléments du PECO :
- P= population concernée
- E= procédure de dépistage évaluée
- C= absence de dépistage
- O= critère de jugement
Par exemple, évaluer l’efficacité d’un dépistage organisé par frottis cervico-vaginal (E) par
rapport à une absence de dépistage organisé (C) en termes de mortalité (O) chez les femmes de
25 à 65 ans (P).
L’essai contrôlé randomisé est la référence pour évaluer l’efficacité d’une procédure de
dépistage car il permet de limiter les biais et apporte (en théorie) le niveau de preuve
scientifique le plus élevé.
Schéma d’un essai contrôlé randomisé évaluant le bénéfice d’un dépistage organisé
Les notions précédemment vues dans les essais contrôlés randomisés s’appliquent ici
également. Il faudra accorder une attention particulière aux points suivants :
- Qualité de la randomisation
- Critère de jugement principal : pertinence clinique ? subjectivité ? mode d’évaluation ?
- Analyse en intention de dépister : c’est la même chose que l’analyse en intention de
traiter mais pour une procédure de dépistage c'est-à-dire l’analyse de tous les patients
randomisés dans le groupe dans lequel ils ont été randomisés quel que soit leur suivi,
leur compliance et l’intervention qu’ils ont effectivement reçue. L’analyse en intention
de dépister est le reflet de l’impact de la procédure de dépistage organisé dans la
vraie vie car on sait très bien que tous les individus qui reçoivent une invitation pour
un dépistage organisé ne vont pas forcément le faire et que certains individus
randomisés dans le groupe absence de dépistage auront la procédure de dépistage
dans le cadre d’un dépistage dit opportuniste via leurs médecins.
- Interprétation des résultats : Il faut évaluer si la différence est statistiquement
significative et si celle-ci est cliniquement pertinente. Pour cela, il faut considérer la
réduction absolue du risque et le nombre de sujets à dépister pour éviter un
évènement. Attention, il est normal que ce nombre soit plus élevé que dans un essai
thérapeutique classique car les sujets ne sont pas malades.
Pour faire l’objet d’un dépistage organisé, plusieurs critères doivent être réunis :
- La maladie doit être un problème de santé publique par sa fréquence, sa sévérité ou
son impact socio-économique.
- L’histoire naturelle de la maladie doit être bien connue
- La maladie doit pouvoir être détectée pendant sa phase de latence asymptomatique
- Il n’existe pas de facteurs de risque accessibles à la prévention primaire
- Il doit exister un test de dépistage (en phase précoce de la maladie) ayant une forte
sensibilité et une forte spécificité
- Le test de dépistage doit être simple à utiliser et avoir une bonne acceptabilité par
les patients et les professionnels
- Les fréquences de répétition du test doivent être connues
- La précocité du traitement doit être démontrée comme un facteur de bon pronostic
- Les moyens appropriés de diagnostic et de traitement sont disponibles
- Le coût du dépistage (y compris le diagnostic et le traitement) ne doit pas être
disproportionné par rapport au coût global des soins médicaux
- Le programme de dépistage doit avoir fait la preuve de son efficacité avec des essais
contrôlés randomisés
- Les moyens existent pour réaliser le programme de dépistage de façon continue et pour
faire face aux charges supplémentaires induites par la pratique du test.
- Les risques physiques et psychologiques du dépistage doivent être démontrés inférieurs
aux bénéfices obtenus
Faculté de médecine Sorbonne Université 111
Polycopié de LCA-2021/2022- A. Dechartres
2.6 Revues systématiques et méta-analyses
Points clés
Quand on s’intéresse à une question de recherche, il arrive très fréquemment que plusieurs
études aient répondu à cette question avec parfois des discordances entre les études. Il
convient donc de faire une synthèse de ces études et si possible d’explorer les discordances.
Les revues systématiques et méta-analyses sont affectées par le biais de publication (les
études avec des résultats significatifs sont plus souvent publiées que les études avec des
résultats non-significatifs) et les autres biais de dissémination (présentation sélective des
critères de jugement, biais de délai de publication, biais de citation, biais de publication
multiple,…).
La formulation de l’objectif doit être claire et complète. Pour cela, on utilise également le
PECO adapté au type de question de recherche. Pour l’évaluation d’un traitement, se référer
au point 2.1.1 pour une question d’évaluation étiologique, au point 2.2.1…
Quand on s’intéresse à une question de recherche, il arrive très fréquemment que plusieurs
études aient répondu à cette même question de recherche avec parfois des discordances entre
les études. Il convient donc de faire une synthèse de ces études et si possible d’explorer ces
discordances.
Le type d’étude le plus adapté pour cela est la revue systématique avec méta-analyse. Ce type
d’étude apporte un niveau de preuve élevé car il repose sur une démarche rigoureuse et
reproductible mais attention il faudra bien vérifier cela quand vous en lisez une.
La recherche est l’une des étapes les plus importantes mais les plus difficiles de la revue
systématique en raison du volume de la littérature biomédicale et du risque de biais de
publication (les études avec des résultats statistiquement significatifs sont plus souvent
publiées que les études avec des résultats non significatifs). Elle doit comporter les
éléments suivants :
Les études seront ensuite sélectionnées sur la base de critères d’éligibilité pré-établis. Les
raisons d’exclusion doivent être collectées et présentées avec un diagramme de flux.
C’est une étape très importante car si les études sont biaisées, le résultat de la méta-
analyse risque de l’être également. Il faut utiliser un outil adapté au type d’études
incluses dans la revue systématique. S’il s’agit d’une revue systématique d’essais
contrôlés randomisés, l’outil recommandé pour évaluer le risque de biais des essais
randomisés est le risk of bias tool de la Cochrane. Cet outil comporte l’évaluation
d’éléments méthodologiques que vous connaissez bien : l’évaluation de la qualité de la
randomisation (méthode pour générer la séquence et assignation secrète), l’aveugle,
l’exclusion de patients de l’analyse,…
Les étapes de sélection des études, d’évaluation du risque de biais et d’extraction des
données dans les études sont des étapes subjectives de la revue systématique c’est-à-dire
qu’il peut y avoir de la variabilité. Afin de limiter cette variabilité et d’améliorer la
reproductibilité de ces étapes, elles doivent être faites en double par deux personnes de
manière indépendante. On regarde ensuite s’il y a des désaccords entre les deux
personnes. Si c’est le cas, elles doivent essayer de se mettre d’accord avec éventuellement
l’aide d’une 3ème personne pour aboutir à un consensus.
Les résultats d’une méta-analyse sont représentés graphiquement avec un forest plot dont
voici un exemple (source article : Saccone G, Berghella V, BMJ, 2016).
Cette méta-analyse comporte 4 études. La mesure d’association utilisée est un risque relatif
(comme indiqué en haut de la figure).
Dans la figure, le RR de chaque étude est représenté par un carré, la taille du carré dépend du
poids de l’étude dans la méta-analyse. Vous pouvez noter que l’étude Gyam_-Bannerman et al a le
poids le plus important (80.9%) et donc contribue le plus au résultat de la méta-analyse. C’est
normal car c’est l’étude qui inclut le plus grand nombre de patients et qui a le plus
d’évènements. Le trait horizontal représente l’intervalle de confiance à 95%.
Le résultat de la méta-analyse est représenté par le losange en bas de la figure qui correspond
à un RR combiné de 0.55 (IC à 95% : 0.33 à 0.91) donc significatif. Le p correspondant est
indiqué par test for overall effect à gauche de la figure, p=0.02 ici donc on peut dire ici que la
méta-analyse montre une réduction significative du risque de syndrome de détresse
respiratoire sévère chez le nouveau-né avec des corticoïdes anténataux par rapport au groupe
contrôle.
Evaluation de l’hétérogénéité
Toute méta-analyse doit comporter une évaluation de l’hétérogénéité qui peut se définir
par la variation de l’effet entre les études.
Pour l’évaluer, il faut d’abord regarder l’aspect du forest plot. On peut dire qu’il y a
visuellement de l’hétérogénéité quand les intervalles de confiance à 95% ne se chevauchent
pas (c’est-à-dire quand on a des IC totalement disjoints). Ce n’est pas le cas dans cette méta-
analyse. Ici on voit que tous les intervalles de confiance à 95% se chevauchent donc il n’y a
pas d’impression visuelle d’hétérogénéité.
Deux indices statistiques permettent d’évaluer l’hétérogénéité (rapporté en bas à gauche dans
la ligne débutant par Test for heterogeneity:
Attention à ne pas confondre le test for overall effect (qui représente le résultat de la méta-
analyse : y a-t-il une différence significative entre les deux groupes) et le test d’hétérogénéité
(y a-t-il une hétérogénéité significative de l’effet entre les études ?).
Selon l’objectif, une revue systématique peut s’intéresser à des essais contrôlés randomisés
uniquement (par exemple pour évaluer l’efficacité d’un traitement) ou des études
observationnelles uniquement (par exemple pour évaluer l’association entre un facteur de
risque et un critère de jugement) ou bien encore dans certains cas à la fois à des essais
randomisés et à des études observationnelles (par exemple pour évaluer la tolérance de
certains traitements). Dans ce dernier cas, il faut prévoir une méta-analyse séparée pour les
essais randomisés et une pour les études observationnelles ou au minimum une analyse en
sous-groupe représentant séparément ces deux types d’étude car ce sont des études de nature
trop différentes pour être mises ensemble sans distinction dans la même méta-analyse.
Pour la méta-analyse:
Je tiens à remercier tout particulièrement Lena Gajdos qui a réalisé la mise en page de cette
nouvelle version du polycopié.