Vous êtes sur la page 1sur 70

Lecture critique et interprétation

des essais cliniques pour la pratique


médicale
Michel Cucherat
Faculté de médecine Laennec - Lyon
But de la lecture critique

 Juger de
– la validité scientifique (fiabilité du résultat) et
– de l'intérêt clinique
d'un résultat d’essai thérapeutique dans le but de

 modifier ou ne pas modifier la pratique


Objectif

 le bénéfice apporté par ce traitement est-il suffisamment


établi et cliniquement pertinent pour justifier son utilisation
?
Trois axes

 la validité interne
– est-ce que le résultat est exact ?
– juger de la fiabilité de l’étude
 la pertinence clinique
– ce résultat représente-t-il un bénéfice intéressant en pratique et
pour quels patients ?
 la validité externe
– est-ce que ce résultat est concordant avec les autres
connaissances sur le sujet ?
Validité interne
Validité interne

 Écarter un faux positif du au hasard


– réalité statistique

 Écarter un faux positif du à un biais


– le résultat est sûr (exempt de biais)

– « faux positif » : argument en faveur de l’efficacité d’un traitement


en réalité sans effet
Réalité statistique des résultats

 Éliminer le rôle du hasard


– Voir si la différence est statistiquement significative (p  0.05,
risque  de faux positif)
– Écarter un risque d’inflation du risque  par répétition des analyses

 Inflation du risque alpha


– absence de critère de jugement principal
– résultat de sous groupe
– répétition des mesures au cours du temps
– analyse intermédiaire non protégée
Multiplicité des critères de
jugement - Exemple

In women, however (Table 2), a positive effect on


BMD was observed at several sites (mostly
trabecular bone zones), namely the femoral neck and
the Ward’s
triangle in the 60–69 y group, and upper and total
radius in the 70–79 y group.
Critère principal

 Conclusion que si le critère principal est significatif


 Critères secondaires : explicatifs
The significance level used in the pairwise comparisons
between the groups receiving experimental treatment and the
group receiving standard treatment was 0.017 on the basis of
the Bonferroni correction for multiple comparisons,
corresponding to an overall type I error rate of 0.05.
Suvimax
Lancet 2005; 365: 176–86
Utilisation correcte des sous groupes
Différence non significative

Absence réelle
d'effet
Résultat
non significatif ?
Manque de
puissance

 Impossible de conclure
 Ne pas conclure à l’absence de différence
 «L’absence de preuve n’est pas la preuve de l’absence»
OBJECTIF : Évaluer l’efficacité d’une injection unique de tobramycine (T)
chez des patientes traitées pour une pyélonéphrite aiguë noncompliquée par de
la ciprofloxacine (CIP) (500 mg 2 fois par jour
per os).

RÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le groupe
tobramycine et 58 dans le groupe placebo. E. coli a été isolé de façon
prédominante et tous les germes isolés étaient sensibles à la ciprofloxacine et
à la tobramycine. Deux échecs sont survenus dans le groupe CIP + T et 4 dans
le groupe CIP + P (non significatif)

CONCLUSION : L’administration d’une dose de tobramycine n’améliore


aucun paramètre clinique dans le traitement des pyélonéphrites aiguës non
compliquées traitées par de la ciprofloxacine par voie orale.
Analyses intermédiaires

 en cours d’essai, avant que tous les patients prévus aient


été recrutés
 et/ou avant la fin de la période de suivi initialement prévue

 But arrêter prématurément


– pour efficacité
– pour toxicité
– pour futilité
Ajustement du seuil de signification

 Méthode de Bonferroni

– Pour k comparaisons, le seuil ajusté est : saj 
– Pour k=3, saj = 5% / 3 = 1.67%
k
– Quand  est petit,
     1k
k
1
1  1      k
k

– Donc pour conserver un risque alpha global de 5% :


 k  0.05
0.05

k
– Inconvénient : fait l’hypothèse d’une stricte indépendance des
variables testées  méthode conservatrice
Cas 1

Analyse intermédiaire Analyse


1 2 3 finale
p = 0.10 p = 0.011

 3 analyses intermédiaires + 1 analyse finale = 4


comparaisons
saj  5%/ 4  1.25%
 Arrêt prématuré de l’essai
Cas 2

Analyse intermédiaire Analyse


1 2 3 finale
p = 0.25 p = 0.08 p = 0.04 p = 0.01

 Pas d’arrêt prématuré mais conclusion à l’efficacité


Cas 3

Analyse intermédiaire Analyse


1 2 3 finale
p = 0.42 p = 0.28 p = 0.12 p = 0.04

 Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)


Cas 4

Analyse intermédiaire Analyse


1 2 3 finale
P = 0.89 p = 0.48 p = 0.25 p = 0.10

 Résultat non significatif


Tests hiérarchiques

 The primary endpoint was analysed with a closed test


procedure applying a hierarchical testing process.
– In the first step, this endpoint was tested in the population of
patients not taking low-dose aspirin.
– If this test was positive the second step was to analyse the
endpoint in the overall population.
– If this test was positive the third and final step was to do the
analysis in the population of patients taking low-dose aspirin.
 Hypotheses were tested at a one-sided 2·5% level of
significance, using the logrank test stratified by substudy
and low-dose aspirin use, as appropriate

Lancet 2004; 364: 665–7


 For the primary efficacy end point, comparisions were
made sequentially by a two-step closed-testing procedure:
– first, each febuxostat group was compared with the allopurinol
group for noninferiority by using binomial confidence intervals for
the difference between groups;
– second, each febuxostat group shown to be noninferior to the
allopurinol group was tested for superiority to the allopurinol group
by Fisher’s exact test.

N Engl J Med 2005;353:2450-61


Absence de biais

 S’assurer de l’absence de biais potentiel à toutes les


étapes (protocole, réalisation et analyse)
– le résultat est-il à l’abris du
• biais de confusion
• biais de sélection
• biais de suivi
• biais d’évaluation
• biais d’attrition
Validité interne - Biais

 Biais
– Le résultat observé peut provenir d’une autre cause que le traitement
– la méthodologie empêche la survenue de biais
 Essai biaisé
– Il existe un défaut dans la méthodologie ou la réalisation
– qui est susceptible d’entraîner une différence au niveau du critère de
jugement, même en l’absence d’effet du traitement

 Impossible de savoir si un essai est effectivement biaisé


– déterminer si la méthode utilisée protège contre les biais
Exemple de biais patent
Ev. cardiovasculaires

Diabétique 15%
6%
Traitement

10%
Diabétique 45%

La différence de fréquence des ev. cardiovasculaires


peut provenir de la différence de pronostic et non pas
de l’effet traitement
Biais potentiel : il y a un défaut dans la méthodologie
qui n’empêche pas de sélection les patients dans les
groupes
Les différents biais

 Un biais de sélection est évoqué


– quand le résultat présenté peut provenir d’une différence dans le
pronostic de base des patients
 Biais de réalisation
– différence dans le suivi et les soins appliqués aux patients
 Biais de mesure
– différence dans l'évaluation du critère de jugement
 Biais d'attrition
– différence au niveau des "sorties" d‘analyse
Biais de sélection

 Ce qui met à l’abris de ce biais :


– randomisation
– le processus de randomisation ne doit pas être prévisible par les
investigateurs : randomisation centralisée

 Comment évaluer l’absence de biais en fin d’essai


– imprévisibilité de la rando
– (comparabilité des groupes)
Danger des randomisations
prévisibles
 CAPP
– hypertension, captopril vs traitement standard par diurétique ou
bêta-bloquants
– 10 985 patients suivis en moyenne 6,1 ans
– PA initiale : 166.6/103.6 vs 163.3/101.2 mm Hg, p<0·0001
Validation empirique des
marqueurs de qualité
Concealment of allocation
(inadequate or unclear versus adequate)

Schultz 1995 0.66 (0.59 - 0.73)

Moher 1998 0.63 (0.45 - 0.88)

Kjaergard 2000 // 0.60 (0.31 - 1.15)

Jüni 2000 0.79 (0.70 - 0.89)

Combined 0.70 (0.62 - 0.80)


ROR
0.4 0.5 0.6 0.7 0.8 0.9 1 1.2 1.4 1.6 1.8 2
Jüni et al. BMJ 2001;323:42-46
Biais de suivi

 Ce qui met à l’abris de ce biais :


– le double aveugle
 Comment évaluer l’absence de biais en fin d’essai:
– Le double aveugle a-t-il été réellement respecté ?
– Comparer dans les 2 groupes (et particulièrement si essai en
ouvert) : violations de protocole, arrêts de traitements, traitements
concomitants…
Biais d’évaluation

Ce qui met à l’abris de ce biais :


– le double aveugle
– en cas de double aveugle impossible (essai ouvert)
• évaluation à l’aveugle
• choix de critères objectifs
Biais de mesure - mécanisme

 Prophylaxie des TVP en chirurgie


 Les HBPM sont considérés comme plus efficace que l'HNF
– Subjectivement les TVP sont plus facilement suspectées devant
des signes cliniques avec l'HNF
– Recours à la phlébographie plus facile

Sensibilité Incidence réelle Test positif


HBPM 70% 10% 7%
HNF 90% 10% 9%
Mise en évidence - Biais de suivi
et de mesure
méta-analyse en chirurgie générale : HBPM versus HNF
Mismetti et al. Br J Surg 01;88:913-30
TVP « phlébographiques »
n = 12 698 double aveugle
n = 5 297 ouvert

TVP + EP cliniques
double aveugle
ouvert

en faveur HBPM 0,5 1 en faveur HNF


Biais des études en ouvert
 Recherche empirique de biais
– Pour un domaine donné
– comparaison des résultats des essais en ouvert au essai en double
aveugle
– calcul du rapport des odds ratio (ROR)

Jüni P BMJ 2001;323:42-


Jüni et al. BMJ 2001;323:42-46
Biais d’attrition

 Situation potentiellement biaisée :


– Tous les patients randomisés ne sont pas analysés.
 Ce qui met à l’abris de ce biais :
– L’analyse en intention de traiter avec remplacement des données
manquantes
 Comment évaluer l’absence de biais en fin d’essai
– nb malades analysés / nb malades randomisés
– robustesse du résultat vis à vis de l’hypothèse de biais maximum
Biais d'attrition
Nouveau Traitement
traitement standard
Patients randomisés
Effectif randomisé 1000 1000
Fréquence échec 10.0% 10.0%
Échecs thérapeutiques (non rép.) 100 100
Patients analysés
taux d'arrêts chez les répondeurs 13% 2%
taux d'arrêts chez les non
26% 4%
répondeurs
sortie d’étude chez les répondeurs 117 18
sorties d’étude chez les non rép. 26 4
Répondeurs 783 882
non répondeurs 74 96
Effectif 857 978
fréquence échec 8.6% 9.8%
risque relatif 0.88
Biais maximum

G traité G contrôle
n randomisé 100 100
pdv 10 30
n analysable 90 70
événement 10 20 Risque relatif
fréquence mesurable 10 / 90 20 / 70
% 11% 29% 0.39
biais maximum (10+10)/100 20/100
% 20% 20% 1.00
MMSE
Essai contrôlé randomisé en
double aveugle
Biais d'attrition ITT

Grp T Critère

Groupe
Randomisation comparable
Maintient de la comparabilité

Grp C Critère

Biais de sélection Biais de réalisation Biais d'évaluation


Randomisation Double aveugle
Pertinence clinique
Pertinence clinique

 Pertinence de l'objectif de l'essai


 le critère de jugement est pertinent cliniquement et
correspond à l’objectif thérapeutique
 le résultat est de taille suffisante pour être intéressant en
pratique,
 la balance bénéfice risque est acceptable,
 le résultat a été obtenu sur des patients représentatifs de
ceux vus en pratique,
 le traitement a été utilisé dans un contexte de soins
similaires à celui de la pratique quotidienne.
Question cliniquement pertinente

 Problème médical réel (et non résolu)


– FSAD (female sexual arousal disorder)
• créé de toute pièce en 1997
• pour créer une utilisation potentielle du sildenafil
• BMJ 2003;326:45-47
Traitement du groupe contrôle

 Placebo
– en l’absence de traitement de référence
 Traitement de référence
– si déjà validé contre placebo
• choix acceptable ?
• traitement optimal (posologie, administration) ?

 Placebo + traitement de référence


– 2 groupes contrôles différents si « traitement de référence » mal
validé
Critères de jugement

 Pertinence du critère principal d’évaluation


– Critère clinique
– Et non pas critère intermédiaire

 Critères cliniques
 Critères intermédiaires
 Critères de substitution
– succès sur CS  succès critère clinique !
Exemples

 fluorure de sodium vs placebo


– augmentation de la DO p<0.001
– fractures vertébrales 163 vs 136
– fractures non vertébrales 72 vs 24 p=0.01
Pertinence de l'outil de mesure

 Artériopathie des membres inférieurs


 Mesure du périmètre de marche
– augmentation significative de 20 m
– quel est le service médical rendu au patient ?
– Quel intérêt de passer de 200m à 220m
 Fréquence du succès
– fréquence des patients retrouvant sous traitement un périmètre de
marche de 500m
Pertinence des patients

 Voir les critères d’éligibilité


 Voir la population réellement incluse
– Généralisation des résultats ?

 Définition de la maladie
– Critères actuels
– Examens couramment disponibles
 Critères d'exclusion
– Absence de critères d'exclusion arbitraires : age, sexe
 Origine géo-ethnique
– différences génétiques
– différences environnementales
Pertinence de la prise en charge
médicale

 Circonstances de la "vraie vie"


– Accès aux soins similaire à celui disponible en dehors d'une étude
 Durée du suivi pertinente
– Ni trop long, ni trop court
Taille et précision de l’effet
thérapeutique
 Effet représenté avec un IC à 95 % ?
 Taille de l’effet : pertinence clinique ?
 Précision de l’effet : la borne péjorative de l’IC représente
le plus petit effet du traitement que l’on ne peut
raisonnablement exclure
 cet effet reste-t-il intéressant cliniquement ?
Zone de bénéfice insuffisant

Essai A

Essai B

Essai C

Essai D

Essai E

0.40 0.60 0.80 1.00 1.20 1.40


Risque relatif
Pertinence de la taille
Lancet 2001

 Essai DAIS
 Effet du fénofibrate sur la progression des plaques
d'athérosclérose coronarien chez le diabétique
– fénofibrate vs placebo
– 731 hommes et femmes suivi 3 ans
 Résultat
– ralentissement de la progression des plaques
– le traitement a réduit de 0.04 mm la diminution du diamètre moyen
sur 3 ans (p=0.028)
 Quid des événement clinique ?
Évaluation de la balance bénéfice
/ risque
 Effets indésirables de gravité supérieure à la maladie ?
 Fréquence des effets indésirables trop importante par
rapport au bénéfice ?

 Comparaison avec les effets indésirables des traitements


existants
Cohérence externe
Cohérence externe

 Concordance avec d’autres essais sur le même domaine :


– un seul essai ne suffit pas
– intérêt de la méta-analyse (hétérogénéité ?)

 Concordance avec les autres connaissances dans le


domaine (physiopathologie, épidémiologie,
pharmacologie, …)
 Un essai de grande taille (1000 patients) montre bien
l’efficacité du traitement
 2 essais
– le premier mené en Europe de l’Est est concluant
– le second réalisé aux USA est non concluant
 Conclusion
– l’effet du traitement n’est pas le même aux USA et en Europe
– car les contextes de soins sont différents avec un sous traitement
en Europe de l’est
 3 essais ont été réalisés pour évaluer le même traitement
 ils sont tous négatifs
 conclusion : ce traitement n’a pas d’efficacité
 www.spc.univ-lyon1.fr/lecture-critique

 www.spc.univ-lyon1.fr/user/mcu/polycop