I. Généralités :
Le protocole doit contenir: Problème posé, l’objectif de l’étude, les méthodes employées et les analyses statistiques.
=> Il est obligatoire de l’enregistrer en début d’étude.
Format de l’étude :
- Titre
- Auteurs : 1er auteur = celui qui rédige l’article, dernier auteur = celui ayant supervisé la recherche.
A. Résumé : doit contenir l’objectif, le plan expérimental, la description de la population étudiée, le critère de jugement principal, les résultats et les conclusions.
- Introduction
- Méthode
- Résultats
- Conclusion
A. Types d’étude :
Études longitudinales sont des études réalisées sur une période donnée : on suit les patients dans le temps. Par exemple : études de cohorte, essai contrôlé randomisé.
En fonction du type d’étude, les modalités d’inscription / recueil du consentement etc… N’est pas le même :
>> Le consentement (écrit dans une étude interventionnelle ou oral dans les études non interventionnelles) garantissent l’éthique du protocole.
A noter que la catégorie 1 peut aussi être appelée recherche interventionnelle biomédicale et catégorie 2 : recherche interventionnelle en soins courants.
D. Promoteurs et investigateur dans une étude :
Pour chaque étude il faut un promoteur et un investigateur, ainsi que déclaration à la CNIL
E. Enregistrement et registre d’une étude :
>> L’enregistrement des études est une obligation éthique. Il doit être réalisé avant l’inclusion du protocole.
Il permet d’évaluer les biais de publication (on ne publie que les études ayant des résultats concluants, donc si tous les essais sont enregistres, on peut comparer ceux qui sont
enregistrés et publiés, ou alors enregistrés et non publiés) et les biais de présentation sélective des résultats (résultats obtenus vs résultats qui étaient prévus dans le
protocole).
Les registres ont été créé à la demande de l’OMS : « l’enregistrement de tous les essais cliniques interventionnels est une responsabilité scientifique, éthique et
morale ».
Doit être indépendant du promoteur, et gestion par un organisme à but non lucratif.
L’objectif est de standardiser les informations que les auteurs d’essais doivent rendre publique à l’échelle internationale. Souci de TRANSPARENCE, pour recenser tous les
essais réalisés dans un domaine donné, tracer les modifications effectuées (évite les modifications en cours d’étude) et protège les personnes participant aux essais cliniques.
Sous types :
- Biais de publication : une étude aboutissant à des résultats en faveur du nouveau ttt testé fera beaucoup plus souvent l’objet d’une publication qu’une étude non favorable à
cette nouveauté
- Multiplication des publications dans ce cas, dans des revues à impact factor élevé, études souvent citées en références
- Biais de mention des résultats = biais de présentation séléctive : consiste à sélectionner, pour la publication, seulement une partie des données pour certaines variables,
sur la base des résultats observés.
>> Une comparaison entre publications et protocoles initiaux des recherches montre qu’environ 50% des études modifient, introduisent ou oublient au moins 1 critère
primaire. Ce choix sélectif de critères mentionnés dans la publication est particulièrement trompeur dans l’évaluation des effets indésirables et de la sécurité des
médicaments.
Si l’on constitue plusieurs échantillons (provenant de la même population source), l’estimation des paramètres qui nous intéressent ne sera pas exactement la même d’un
échantillon à l’autre (même si ceux-ci sont de même taille, du simple fait du hasard).
Modalités de recrutement :
Le recrutement des patients se fait via la publicité, sur la base du volontariat, parmi les patients se présentant à une consultation ou à l’entrée d’un hôpital, ou à partir d’un
registre
Critères d’inclusion : les patients doivent répondre à tous les critères afin d’être inclus dans l’étude
Critères de non inclusion : il suffit que les patients aient 1 critère de non inclusion pour être non inclus.
Critères d’exclusion : après inclusion dans l’étude, on sort le patient car il a un critère d’exclusion.
>>>> Les différentes raisons qui poussant à exclure les patients dans une étude sont :
- Des raisons éthiques
- Des raisons de validité interne en éliminant de potentiels facteurs de confusion ou en limitant le nombre de perdus de vue
- Pour des raisons de respect de la clause d’ambivalence
IV Variables :
Définition : une variable est un phénomène que l’on mesure. Une variable peut être selon le type d’étude un facteur de risque, un facteur de confusion, un facteur pronostique,
un critère de jugement.
Type de variable :
Variable quantitative : notion de grandeur, mesure d’une quantité prenant des valeurs numériques avec une signification concrète.
L’écart entre deux valeurs et le calcul d’une moyenne a un sens.
2 types de variables quantitatives :
* Discrète : nombre fini et dénombrable de valeurs possibles distinctes, sans valeur intermédiaire possible.
Exemple : nombre d’évènements, nombre d’enfants d’une famille, l’âge en années.
* Continue : nombre infini et non dénombrable de valeurs possibles – valeur intermédiaire possible entre 2 écarts.
Exemple : poids/dosage biologique.
Pour mesurer l’association entre deux variables quantitatives, on calculera un coefficient de corrélation entre ces deux variables, qui peut varier entre -1 (les 2 variables sont
totalement corrélées et varient en sens contraire) et 1 (les 2 variables sont totalement corrélées et varient dans le même sens).
On teste si ce coefficient de corrélation est significativement différent de 0. Une corrélation de 0 correspond à une absence de dépendance, mais cela ne signifie pas que les
variables sont indépendantes.
Variable qualitative : ne reflète pas une notion de grandeur, variable qui n’est pas naturellement associée à une valeur numérique, peut donc etre binaire. Peut aussi
s’appeler variable catégorielle
* Un test du Chi 2, (paramétrique) = se basent sur des distributions statistiques supposées dans les données. Sont plus puissants que les tests non paramétriques)
* Un test exact de Fischer, (non paramétrique) = ne se base pas sur une distribution statistique supposée dans les données. Plus robuste que les tests paramétriques c’est-à-
dire qu’il peut être utilisé dans un plus grand nombre de situations.
Variable censurée : date de point qui correspond à la fin de l’étude, les patients non décédés à la date de point sont censurés. Les patients perdus de vue avant la date de
point sont censurés à la date de la dernière visite.
- L’analyse descriptive des variables censurées repose sur la réalisation de courbes dites de survie, bien que le critère qui nous intéresse ne soit pas toujours le décès
(infection/IDM…).
Méthode de Kaplan-Meier : permet de représenter, à chaque temps d’évènement, le pourcentage de sujets n’ayant pas encore présenté l’évènement d’intérêt. Elle permet
d’estimer la durée médiane de survenue de l’évènement (durée pour laquelle 50% des sujet n’ont pas encore présentés l’évènement). Analyse descriptive.
Logiquement si <50% de la population présente l’évènement, on ne pourra pas calculer la médiane.
Incidence cumulée : autre présentation des données de survie, équivalente à la courbe de Kaplan-Meier, consiste à représenter la proportion de sujets AYANT présenté
l’évènement au cours du temps. La courbe est inversée, elle commence à 0, et la courbe est croissante au cours du temps.
Test comparatif : Pour deux variables censurées entre 2 groupes, on fera un test du log Rank. On y compare les courbes de survie des deux groupes.
Un test est dit paramétrique quand on fait des hypothèses sur la distribution des variables (par exemple, pour un critère de jugement continu, on fait fréquemment l’hypothèse d’une
distribution normale). Un test est dit non-paramétrique quand on ne fait aucune hypothèse sur la distribution des variables.
Hazard ratio équivalent du risque relatif pour les variables censurées (si = 2, il y a 2x + de risque d’être malade chez les exposés que chez les non exposés).
C’est un risque instantané de survenue de l’évènement du critère de jugement principal, ce qui implique qu’il ne soit pas constant en fonction du temps
Par exemple, si on mesure la mortalité toute causes confondues dans une étude BB- vs placebo, si le HR est à 0,66, cela signifie que sous traitement, le risque instantané de
décès est 0,66 fois celui sous placébo.
Variables indépendantes : 2 variables sont indépendantes si la connaissance de l’une ne renseigne pas sur la valeur de l’autre.
Par exemple, l’âge et la TA sont deux variables NON indépendantes, car la TA systolique augmente et la TA diastolique diminue avec l’âge.
Le sexe et l’âge sont deux variables indépendantes car la variation de l’une ne permet pas de connaître le résultat de l’autre.
LOG RANK univarié.
C’est le quart d’heure moyen mnémotechnique :
Une variable QUALITATIVE se test avec une FISCHER (bière de QUALITEE) ou un Chi-2 (technique de très haute qualité de les Hdu contrevents)
Une variable QUANTITATIVE se teste par les étudiants (quand t’es jeune tu veux de la quantité mais tu t’en fou de si elle ressemble à Roselyne Bachelot), et un Wilcoxon (Will n’est
pas un anglais très qualitatif)
LE RISQUE ALPHA EST FIXÉ À PRIORI ET NE VARIE PAS EN FONCTION DU NOMBRE DE SUJETS ! LE RISQUE ALPHA NE PEUT PAS VARIER.
2. Résultat du test :
Le résultat du test statistique est le p ou degré de significativité (ou degré de signification). Il s’agit de la probabilité que le hasard puisse expliquer à lui tout seul une
différence au moins aussi grande que celle observée.
Si p < alpha (< 0,05) : on peut conclure que la différence est statistiquement significative
Si p >= alpha : il n’y a pas de différence statistiquement significative.
N.B : ce n’est pas parce qu’une différence est statistiquement significative qu’elle est cliniquement pertinente.
Un test statistique non significatif ne permet PAS de confirmer H0 (= les paramètres sont égaux) mais uniquement de rejeter H1 (= il n’existe pas de différence
significative). PAR CONTRE : s’il n’existe PAS de différence entre le médicament testé et le placébo, on peut dire qu’il n’existe pas de différence et donc QUE LE
TRAITEMENT N’A PAS D’EFFET.
3. Types de tests
Test unilatéral : test statistique pour lequel on part du principe que la différence que l’on cherche à démonter à un sens connu (en cas d’essai thérapeutique de
non-infériorité ou d’un essai de supériorité). « Le nouveau traitement A est forcément meilleur ou égal à l’ancien traitement B ».
Par exemple : si l’efficacité du traitement A est supérieure au seuil fixé à 30%, alors le résultat sera significatif. Sinon, il ne le sera pas (p > 0,05) et on ne pourra
PAS DIRE si le traitement est inférieur, équivalent, ou d’une supériorité inférieure à 30%.
On pourra donc avoir A > B ou A non différent significativement de B
Interet :
* Permet d’augmenter la puissance car le degré de significativité p d’un test unilatéral est égal à la moitié du p d’un test bilatéral.
* Permet de diminuer le nombre de sujets à inclure (pour une même puissance).
N.B : le degré de significativité p est divisé par 2 pour un test unilatéral par rapport à un test bilatéral.
Par exemple : si un test unilatéral a un degré de significativité p = 0,03, alors en situation bilatérale on obtiendrait p = 0,03 x 2, soit un p > alpha = 5%. Donc les
résultats ne seraient pas statistiquement significatifs en situation bilatérale
4. RISQUE RELATIF :
Rapport entre les malades chez les exposés et les malades chez les non exposés. Un RR de 3,2 permet de dire que les exposés ont 3,2x plus de risques d’être malades.
a/a+c / b/b+d
5. ODDS RATIO :
(Nombre de malades exposés / nombre de non malades exposés) / (nombre de malades non exposés / nombre de non malades non exposés). = a/c/b/d = ad/bc
Mesure de l’intensité de l’association entre 2 facteurs. On peut le calculer sur n’importe quel type d’étude.
Lorsque la prévalence de la maladie est faible dans la population cible, l’OR est proche du RR.
Si prévalence élevée, il faudra dire ‘il y a 3,2 fois plus de malades par rapport aux non-malades chez les exposés que de malades par rapport aux non malades chez les non
exposés ».
C LE RAPPORT DES DIAGONALES DU TABLEAU DE CONTINGENCE MNEMOTECHNIQUE BRICE DE NICE (MEC QUI FAIT DES DIAGONALES
ET EN OR parce qu’en jaune connard
6. HAZARD RATIO :
Équivalent du risque relatif pour les variables censurées.
7. Présentation et utilisation :
OR, RR, HR doivent être systématiquement présentés avec leur IC à 95% qui permet :
- D’évaluer la précision de ces estimations : plus l’intervalle de confiance est large, moins l’estimation est précise (et donc plus l’intervalle est étroit, plus l’estimation est
précise)
- De déterminer s’il y a une différence statistiquement significative : si l’intervalle de confiance d’un RR/OR/HR ne contient PAS la valeur 1, alors on peut conclure
qu’il y a une différence significative.
Pour un IC d’une différence de 2 moyennes ou de 2 proportions NE CONTIENT PAS 0 (moyenne du résultat de la comparaison entre les 2 groupes).
L'intervalle de confiance peut être calculé pour une différence de deux moyennes ou de deux proportions (différence de risque). Dans ces cas, si l'intervalle de confiance à
95 % contient zéro, les deux moyennes ou les deux proportions ne sont pas différentes (p >= 0,05). Si l'intervalle de confiance à 95 % ne contient pas zéro les différences
sont significativement différentes (p < 0,05)
>> ATTENTION : si on a 2 RR, un évocateur d’un facteur protecteur (donc RR < 1) et l’autre évocateur d’un facteur de risque (RR > 1) MAIS que l’estimation de
leur intervalle de confiance SE RECOUVRENT, les deux estimations NE SONT PAS DIFFÉRENTES, et donc élimine un effet d’intéraction qui pourrait jouer un
rôle.
Paramètres de position :
Moyenne Somme des observations/nombre d’obstervations.
Si la variable présente une distribution normale, la médiane = moyenne
Si la variable a une distribution normale (courbe en cloche, centrée par la moyenne) alors la moyenne est un bon paramètre de position (=
paramètre central)
Si la variable n’a pas une distribution normale, il faudra utiliser la médiane.
Médiane 50% des valeurs observées sont inférieures et 50% sont supérieures à la médiane
Moins sensible aux valeurs extrêmes que la moyenne.
8. Prévalence :
Nombre de malades / population totale à un moment donné.
Intègre 2 dimensions différentes : durée de la maladie (plus la maladie dure longtemps, plus le nombre de malades est important) et la vitesse d’apparition de nouveaux cas
de la maladie (plus celle-ci est grande, plus la prévalence augmente).
9. Incidence :
Nombre de nouveaux cas pendant t / nombre de personnes – temps « à risque » pendant t
Le taux d’incidence mesure une vitesse moyenne d’apparition de nouveaux cas sur l’ensemble des sujets de la population et la durée totale de leur suivi.
> Seule une personne non malade peut produire un nouveau cas de maladie pendant tout ou une partie du suivi.
1 personne/temps = 1 personne x temps de suivi (jusqu’à l’apparition de la maladie, la fin de l’étude, le décès, ou perdu de vue). On utilise cette unité pour donner
l’incidence (ex : 4 nouveaux cas/an).
10. Personne/année :
L’unité de mesure des personnes/temps fréquemment utilisée en épidémiologie est la personne année.
1 personne/année correspond à la durée de suivi de :
- 1 personne non malade pendant 1 an : si cette personne n’est pas malade pendant l’année de suivi, elle aura été susceptible de produire un nouveau cas de maladie pendant 1
an.
- 2 personnes non malades pendant 6 mois
12. STANDARDISATION :
- Les méthodes de standardisation reposent sur le calcul du TAUX D’INCIDENCE.
En pratique, dans la mesure où la répartition par âge (par sexe) de la population peut varier entre zones géographiques (= variations géographiques) ou au cours du temps (=
variations temporelles), la comparaison des taux entre zones géographiques (ou entre périodes) nécessite une standardisation selon l’âge (et souvent le sexe).
> Il vaut mieux avoir des erreurs de classement non différentielles, car le sens du biais est connu, et
le manque de précision de l’estimation peut être contrebalancé par une augmentation de l’effectif.
- Biais de recrutement : perte de comparabilité initiale - Biais de suivi (ou de performance) : perte de comparabilité des groupes au cours du suivi - Effet placebo du médicament
THÉRAPEUTIQUE
ESSAI
* Par ex : recrutement de patients sur le résultat du test diagnostic à l’essai Correction : double aveugle
et non pas sur la pathologie (dans les études diagnostiques) - Caractéristiques intrinsèques des patients
=> Correction : RANDOMISATION CORRECTE - Biais d’évaluation : mesure du critère de jugement principal différente dans les deux groupes
- Effet non médicamenteux de la prise en charge
- Biais des perdus de vue : liés directement à la diminution des effectifs, - Biais de réalisation : soins prodigués de façon différente.
entraînant une perte de puissance * Biais de performance : dans les ECR, le patient et le médecin peuvent être influencés s’ils - Evolution naturelle de la maladie
- Biais d’attrition : s’il y a plus de perdus de vue dans un groupe que dans savent quelle intervention à eu le patient.
l’autre, où s’ils ont des caractéristiques spécifiques, ou si les patients sont
analysés dans un groupe différent de la randomisation. Correction des biais d’évaluation et de réalisation : double aveugle, critère d’évaluation
Correction : ANALYSE EN ITT principal, comité d’adjudication d’évaluateurs indépendants et investigateurs différents.
Conséquence : non représentativité de l’échantillon => extrapolation Correspond au fait de mal classer un patient pour le statut exposé/non exposé, ou malade/non
impossible donc une validité externe diminuée. malade. => Pour corriger les facteurs de confusion potentiels, il
>> Systématique dans une étude cas/témoin : séléction des témoins qui Biais d’exposition = biais de classement dans une étude épidémiologique existe 3 méthodes :
doivent resssemble le plus possible aux cas mais sans être malade : - Biais d’évaluation subjective de l’enquêteur : réponses suggérées ou interprétées par l’enquêteur - Prise en compte à priori : appariement
extrêmement difficile = on sélectionne des paires de sujets comparables sur 1-2
- Biais de jugement : classer un sujet dans les exposés parce qu’il est malade. caractéristiques (âge/sexe par ex). Le nombre de facteurs
- Biais de recrutement : biais des témoins travailleurs : si probabilité d’appariement est limité
d’inclusion dans l’étude est lié au facteur étudié - Biais de mémoire dans les études cas/témoin : les cas se souviennent davantage de l’exposition - A postériori : ajustement (modèle de régression
que les témoins. Biais différentiel car les exposés surestiment leur exposition. logistique multivarié prenant en compte les facteurs de
- Biais d’auto-séléction : biais du volontariat, si décision d’inclusion due à
la décision du patient confusion)
- Biais de prévarication : mensonge sur la consommation de drogues par ex (non différentiel). + Restriction de la population d’étude : on n’inclut pas
- Biais de survie sélective : dans les études cas/témoin, si on choisit des
cas prévalents (= déjà malades avant l’inclusion dans l’étude) on ne prend ceux qui présentent le facteur.
Correction : recueil des données par des questionnaires standardisés, objectifs et validés,
que les malades ayant survécu
enquêteurs en aveugle du groupe, formation des enquêteurs, étude de variabilité inter-
- Biais de Berkson : les témoins sont aussi des patients hospitalisés enquêteurs.
Si données déclaratives : mesures répétées.
>> Biais de perdus de vue : IMPOSSIBLE POUR LES
ÉTUDES CAS/TÉMOIN (pas de suivi). Possible pour cohorte
Biais de séléction si la séléction des patients porte sur le résultat du test à - Biais gold standard : si le test à l’étude est meilleur que le test de référence, les résultats seront - Biais de vérification = work up bias : les patients n’ont
ETUDE DIAGNOSTIQUE
l’essai et non sur la référence (pathologie) faussés. pas tous le test de référence. Seulement les patients avec
un test étudié positif ont le test de référence (Spécifiques
- Biais de spectre : sélection de sujets malades très graves pour le test - Biais de vérification = work up bias : les patients n’ont pas tous le test de référence. Seulement aux études diagnostique)
diagnostique, ce qui conduit à l’augmentation artificielle de la sensibilité et les patients avec un test étudié positif ont le test de référence Correction : tous les patients doivent avoir les deux tests.
donc de la RV+. - Biais d’information : les résultats des deux tests doivent être interprétés en aveugle l’un de
l’autre.
=> Biais spécifique des études de dépistage : lead time
- Biais de contexte : l’évaluateur des tests a une connaissance du contexte clinique, d’autres
biais = la maladie est dépistée plus tôt certes, mais
résultats complémentaires …
n’améliore pas la survie.
- Description méthodologique des tests insuffisante : la description du test de référence et du test
étudiée doit être la plus précise possible car elle est fondamentale pour la reproductibilité du test.
>> Un biais D’INFORMATION : est un biais résultant d’erreurs de classement portant sur la maladie ou sur l’exposition.
Biais de publication : systématique si méta-analyse.
>> L’APPARIEMENT DES CAS ET DES TÉMOINS DANS LES ÉTUDES CAS/TÉMOIN SE FAIT TOUJOURS SUR LES FACTEURS DE CONFUSION.
>> Les méta-analyses peuvent comporter un biais de PUBLICATION : la méta-analyse repose sur le regroupement des données publiées dans des articles originaux déjà
réalisés. Or, les articles qui montrent une différence significative ont plus de chance d’être publiés que les études qui n’en montrent pas. Les méta-analyses auront tendance à
omettre les articles n’ayant pas abouti à démontrer le bénéfice d’une molécule.
Elles peuvent également avoir des biais de suivi car le suivi des différentes études n’est pas toujours le même.
VII. Analyse multivariée
A. Facteurs intervenants :
Facteur intermédiaire : facteur qui intervient dans la chaîne causale entre le facteur d’exposition et le critère de jugement. Seule la connaissance du problème étudié
permet de supposer qu’un facteur donné est un facteur intermédiaire.
Facteur de confusion : facteur associé à la fois au facteur d’exposition et au critère de jugement, et qui n’est pas un facteur intermédiaire.
Facteur d’interaction : la relation entre deux facteurs diffère selon les modalités d’un 3e facteur, appelé facteur d’interaction ou facteur modificateur. L’interaction peut être
quantitative ou qualitative.
Comment distinguer facteur d’interaction et facteur de confusion : on estime un RR ou un HR ajusté sur le facteur de confusion. En comparant le paramètre brut au
paramètre ajusté, on peut déduire si le facteur d’ajustement est un facteur de confusion.
Ex : si RR brut = 1,8 avec IC95% (1,4-2,3) (= statistiquement significatif) on ajuste ce RR sur le facteur potentiel, qui nous donne RR1 et RR2.
On fait la moyenne de ces RR = RR ajusté.
- Si le RR ajusté est très proche du RR brut, la relation exposition-maladie est indépendante du facteur.
- Si le RR ajusté est différent du RR brut, et est proche de 1, l’association exposition-maladie est EXPLIQUÉE par le facteur = facteur de confusion.
B . Contrôle d’un facteur éventuel de confusion
- Restriction de la population étudiée en utilisant des facteurs d’exclusion qui éliminent les facteurs potentiels de confusion
- Appariement d’un cas à un ou plusieurs témoins sur les facteurs de confusion
- Analyse multivariée pour ajustement
Par conséquent : OR brut (ou RR brut, HR brut …) est synonyme d’analyse univariée, tandis que l’OR ajusté est synonyme d’ajustement par analyse multivariée.
C’est donc l’analyse des OR ajustés (ou l’analyse multivariée) qui permet de contrôler les facteurs de confusion potentiels
A. ÉTUDES DIAGNOSTIQUES :
Avant qu’un nouvel outil diagnostique ne puisse être utilisé, il faut montrer :
Ses bonnes performances diagnostiques : permet de discriminer les malades et les non malades de façon fiable
Son utilisation améliore la survie des patients en pratique courante
Pour cela on mène un essai contrôlé randomisé : Comparaison de l’évolution clinique d’un groupe de patients bénéficiant de l’outil diagnostique à l’évolution clinique d’un
groupe contrôle.
Modalités : Etude transversales ou de cohorte, selon qu’il faut que les individus soient suivis dans le temps.
Test de référence : test qui va permettre d’identifier véritablement les malades et les non-malades, et d’évaluer la performance diagnostique du test évalué. Il doit donc être
incontestable, c’est le gold-standard.
Tous les patients doivent bénéficier des deux tests : en effet la réalisation de l’examen de référence uniquement chez les patients avec un résultat positif du test en étude
surestime ses performances diagnostiques risque de biais de vérification (work up biais).
Les 2 tests doivent être interprétés indépendamment l’un de l’autre (aveugle) et réalisés de manière standardisée.
Biais : il en existe des spécifiques aux études diagnostiques
SELECTION :
- Biais de spectre : si on a trop de patients malades, ou trop de patients non malades.
- Biais de recrutement : si on inclut les patients dans l’étude en fonction de leur résultat au test diagnostic (M+/M-) et non pas en fonction de critères pré-établis AVANT
l’étude (selon le protocole).
Correction de ce biais : on définit des critères d’inclusion avant la réalisation des différents tests diagnostiques.
CLASSEMENT :
- Biais de vérification : si on ne réalise le test de référence que chez les patients ayant eu un test à l’étude positif.
Correction de ce biais : on réalise les deux tests chez TOUS les patients.
- Biais d’information : si la lecture des 2 tests n’est pas réalisé en aveugle.
- Biais de gold standard : si le test à l’étude est meilleur que le gold standard.
6. Validité interne d’une étude diagnostique : pour s’assurer qu’elle est suffisante pour l’étude il faut :
- Que l’inclusion des patients soit prospective, que l’étude soit multicentrique, que le calcul du NSN soit réalisé à priori, donc sélection et représentativité de l’échantillon
- Réaliser l’examen de référence = le gold standard, qui doit être validé avec Se et Spe fournies.
- Définition de la maladie par le Gold Standard avec description précise du test
- TOUS les sujets ont à la fois le test à l’étude et le test de référence.
- Réalisation et interprétation des 2 tests à l’aveugle, par un comité d’adjudication
- Reproductibilité du test, étude de la variabilité inter et intra observateurs.
- Ensemble des paramètres opérationnels fournis, avec l’IC à 95% pour chacun.
- Choix du seuil argumenté = courbe ROC fournie.
- Bonne validité externe : applicabilité, coût-bénéfice, risque.
B. ETUDES ÉTIOLOGIQUES :
2 types d’études observationnelles étiologiques : etudes cas/témoins ou de cohortes
COHORTE CAS/TÉMOIN
Principe On recrute des sujets indemnes de la maladie qui sont exposés à un ou des On recrute des malades et des témoins indemnes de la
facteurs de risque, et on les suit dans le temps afin d’évaluer s’ils deviennent maladie et on regarde s’ils ont été exposés à certains facteurs de
malades. risque.
Peut être prospective ou rétrospective. Une étude cas témoin est rétrospective.
Dans une cohorte rétrospective, la cohorte est reconstituée
rétrospectivement à partir de données déjà recueillies (par ex : dossiers => Schéma intéressant pour les maladies ayant un long délai
médicaux). de latence, mais risque de données manquantes si qualité des
=> schéma intéressant pour les maladies ayant un court délai de latence, données recueillies mauvaise.
fréquentes.
Inconvénients - Perdus de vus (biais de séléction / biais d’attrition / perte de puissance) - Biais de mémoire (= biais de classement) lié au recueil de
- Nécessite un échantillon de grande taille données rétrospectif
- Durée de l’étude longue - Choix des témoins difficile (biais de sélection potentiel : doit
- Impossibilité d’évaluer plusieurs expositions. être réalisé en aveugle de l’exposition)
- Peu adapté aux maladies rares - Peu adaptées pour les expositions rares.
- Coût important - On ne peut pas estimer la prévalence de la maladie
- Séquence temporelle impossible à affirmer
Association RR OU OR OR
Niveau de preuve Niveau 2 (grade B) Niveau 3 (grade C)
Exposition au facteur de risque doit se faire au moment de l’entrée dans l’étude, et pendant toute la durée de l’étude.
Recrutement des patients : 2 possibilités, soit cohortes en population, soit cohortes exposés/non exposés (où on recrute 2 cohortes).
Critère de jugement principal : Généralement sa mesure est subjective : cancer, IDM …
Gestion des données manquantes : quel que soit le type d’étude de cohorte, le suivi doit être le même entre sujets exposés et sujets non exposés.
Dans les études de type cohorte prospective, l’étude doit être suffisamment longue pour voir apparaître la maladie, ce qui pose le problème des perdus de vue : càd, les
patients pour lesquels il n’y a pas de données concernant leur suivi.
> Si les perdus de vue se répartissent équitablement dans les groupes en nombre et caractéristiques et ne concernent pas une catégorie particulière de patients, la seule
conséquence sera une perte de puissance.
> S’il y a plus de perdus de vue dans un groupe que dans l’autre, ou si les sujets perdus de vue on des caractéristiques spécifiques, on risque d’obtenir un biais d’attrition +
une perte de puissance.
> L’influence de la proportion de perdus de vue dépend de la fréquence de survenue de l’évènement étudié : si le nombre de perdus de vue dépasse le nombre d’évènements,
cela pose problème.
Biais possibles :
Biais de classement (différentiel) : si l’évaluation de la maladie n’est pas faite en aveugle de l’exposition au FDR
Variabilité et erreur de mesure entre les évaluateurs (non différentielle) : Pour améliorer la reproductibilité (= fiabilité), il faut standardiser la définition de la maladie.
Biais d’attrition : se voit si mauvaise gestion des données manquantes et plus de perdues de vues dans un groupe que dans l’autre.
Biais de sélections des perdues de vue : le nombre de perdus de vue doit être < 10-15% dans les DEUX groupes, sinon apparition de ce biais
Sélection de cas et de témoins : doit être indépendante de l’exposition aux facteurs de risques étudiés, et le groupe témoin doit être représentatifs de l’ensemble des non
malades (ils doivent donc ressembler aux cas sans etre malade, ce qui entraine un biais de sélection). OR du groupe témoin toujours égal à 1.
L’APPARIEMENT DES CAS ET DES TÉMOINS DANS LES ÉTUDES CAS/TÉMOIN SE FAIT TOUJOURS SUR LES FACTEURS DE CONFUSION.
Le recrutement doit se faire sans connaître leurs éventuelles expositions à des facteurs de risque.
Types de cas :
- Cas incidents : on ne recrute que les nouveaux malades (au moment où ils deviennent malades)
- Cas prévalents : les patients sont déjà malades au moment de leur inclusion de l’étude, mais biais de sélection, par biais de survie sélective (on ne prend que le non morts)
>> Il faut donc privilégier le recrutement de cas incidents.
Biais possibles :
Biais de séléction : liée à la difficulté de sélectionner des témoins assez proches des cas sans être malades.
Biais de survie sélective : Si on prend des cas prévalents, on ne prend que les non morts, donc la représentativité est limitée
Biais de classement de mémorisation : liés à une évaluation rétrospective purement déclarative des données liées aux facteur d’exposition.
3. Test de tendance :
Un test de tendance (trend test, TT) est un test qui permet de mettre en évidence une relation dose/effet entre un facteur d’exposition et une maladie
Ex : plus les patients boivent du café et plus le taux de NN avec une fente palatine est élevé
Mise en évidence d’un facteur de confusion : s’il est réalisé sur un facteur de confusion potentiel le trend test peut montrer qu’il existe une relation dose/effet entre ce
facteur et la survenue de la maladie, il le met donc en évidence
Attention : il ne permet pas d’éliminer ce facteur de confusion dans l’analyse !
4. Non causalité :
Dans les études étiologiques, une différence statistiquement significative n’affirme pas la causalité, d’où l’importance des critères de Hills.
Critères de Hill : s’ils sont présents, ils sont en FAVEUR d’un lien causal (mais ne le prouvent pas).
Cohérence interne
INTERNES À L’ÉTUDE EXTERNES À L’ÉTUDE
1 - Existence d’une association statistique entre l’exposition et la maladie 1 - Concordance entre les résultats de l’étude
2 - Forte intensité de l’association 2 - Plausibilité biologique
3 - Existence d’une relation de type dose/effet entre l’exposition et la maladie 3 - Concordance avec les expérimentations menées in vitro ou chez l’animal
4 - Minimisation des biais de séléction et de classement. Prise en compte correcte 4 - Gradients géographiques parallèles de l’exposition et de la maladie
de l’ensemble des facteurs de confusion connus. 5 - Diminution de l’incidence de la maladie lorsque l’exposition est supprimée
5 - Absence d’ambigüité temporelle (l’exposition doit précéder la maladie) ou réduite.
N.B : Pour pouvoir réfléchir sur une causalité il faut que les groupes soient comparables en tout point, sauf sur celui qu’on éprouve en ce sens SEUL L’ESSAI
CONTRÔLÉ RANDOMISÉ, s’il est bien conduit, PERMET D’AFFIRMER UN LIEN CAUSAL
Donc ni puissance, ni représentativité de l’échantillon
C. ÉTUDES PRONOSTIQUES
1. Objectifs : montrer qu’un facteur donné est associé à un risque plus élévé de présenter le critère de jugement principal. On ne veut donc pas montrer un lien causal
(contrairement aux études étiologiques).
2. Modalités de l’étude :
Les études évaluant les facteurs pronostiques sont principalement les études de cohorte prospective ou rétrospective.
Le critère de jugement peut être subjectif (décès/survie par exemple) ou objectif (récidive incidident CDV par ex). Si le critère est subjectif son mode d’évaluation doit être
défini à priori et standardisé. L’idéal étant une évaluation en double ou en comité indépendant centralisé
3. Biais :
Biais de sélection : tous les patients inclus dans l’étude doivent présenter la même pathologie, à un stade similaire. Le stade se sévérité doit également être normé.
Biais de classement : en cas de critère de jugement subjectif, peut être limité par une évaluation en aveugle
Points importants :
> Comparabilité initiale = qualité de la randomisation
> Maintien de la comparabilité des groupes randomisés : double aveugle et analyse en
intention de traiter
> Critère de jugement principal
> Différence cliniquement pertinente ?
1. Modalités de l’étude
L’essai contrôlé randomisé est la référence pour évaluer l’efficacité d’une intervention, car il permet de limiter les biais et apporte (en théorie) le niveau de preuve
scientifique le plus élevé s’il est bien conduit. Il s’agit en général d’un essai de phase 3 dont les résultats peuvent conduire à l’AMM.
Contrôlé : signifie qu’il y a un groupe contrôle (recevant par exemple un placebo) et que l’on maintien la comparabilité́ des groupes tout au long de l’étude.
Le plus souvent, l’essai contrôlé́ randomisé est un essai à 2 bras parallèles c’est à dire que les patients reçoivent un des deux traitements de l’essai selon la randomisation
Double aveugle avec analyse en intention de traiter : un essai contrôle randomisé de bonne qualité se doit de présenter ces caractéristiques pour limiter les biais
Nombre de centres : L’essai peut être monocentrique (réalisé dans un seul centre) ou multicentrique (réalisé́ dans plusieurs centres). Le choix d’une option, ou de
l’autre, influe sur la validité́ externe de l’étude ( logiquement les résultats d’un essai monocentrique sont moins transposables à la pratique)
Le plus souvent, également, il s’agit d’un essai dit de supériorité́ dont l’objectif est de montrer que le nouveau traitement est supérieur à un placebo ou à un traitement de
référence.
2. Choix du comparateur :
Il existe un traitement ayant fait la preuve de son efficacité dans une pathologie : on l’utilise alors comme comparateur.
Il n’y a pas de traitement de référence : le comparateur devra donc être un placébo.
3. Calcul d’effectif :
Le nombre de sujet nécessaire doit être calculé au préalable, afin d’obtenir la meilleure puissance.
Il faut inclure théoriquement suffisamment de sujets pour avoir une forte probabilité de détecter une différence statistiquement significative qui doit correspondre à une
différence cliniquement importante sur le critère de jugement principal.
Le NSN dépend :
- Risque alpha + risque béta ou puissance
- Taille delta de la différence (cliniquement significative) : différence minimale entre les 2 groupes jugée cliniquement pertinente : plus la différence à montrer est faible,
plus il faudra de sujets
- Nombre de perdus de vus attendus
- Probabilité de survenue de l’évènement dans le groupe témoin : plus elle est faible plus le NSN augmente.
- Durée de l’étude
- Type d’étude
- Type de test statistique
- Plan expérimental
- Si analyse intermédiaires ou mesures répétées prévues
- Si les données sont appariées
Si CDJ QUANTITATIF : on utilise la variance ou l’écart type du CDJP (estimé sur des études antérieures)
Si QDJ QUALITATIF : on utilise le risque de base du CDJP (= risque en l’absence de traitement).
4. Randomisation :
Si elle est bien réalisée, elle assure la comparabilité initiale des groupes pour tous les facteurs pronostiques connus et inconnus.
a. Qualité de la randomisation :
Elle repose sur 3 points
- La génération de la séquence de randomisation
- L’assignation secrète = la clause d’ignorance
- La vérification de la comparabilité initiale des groupes.
=> Si un de ces 3 éléments pose problème, il y a un risque de biais de séléction.
Attention la clause d’ignorance n’est pas le fait d’etre en aveugle.
ATTENTION : l’utilisation de blocs de permutation ne permet pas de respecter l’assignation secrète, c’est LA RANDOMISATION en elle-même qui permet de
respecter la clause d’ignorance.
d. Principes de la randomisation :
- Clause d’ignorance : = non-divulgation de l’allocation = masquage de l’allocation = allocation concealment = assignation secrète : le médecin ne sait pas et ne peut pas
savoir quel traitement recevra le patient qu’il inclut. Elle est respectée si les personnes qui recrutent les patients dans un ECR ne peuvent pas savoir si le prochain patient est
inclus dans le groupe intervention ou dans le groupe contrôle.
Les méthodes suivantes permettent de s’assurer que la clause d’ignorance est respectée :
- Randomisation centralisée
- Enveloppes opaques et scellées
- Médicaments préparés par la pharmacie dans des containers identiques.
- Clause d’ambivalence : les patients inclus peuvent recevoir aussi bien le traitement contrôle que le traitement test
- Principe d’incertitude : le principe d’incertitude correspond au fait que le médecin inclut un patient sans savoir quel traitement serait le mieux pour le patient
e. Génération de la séquence de randomisation :
Méthodes adéquates : totalement aléatoires avec table de nombre aléatoires ou séquence informatique.
Méthodes inadéquates : non aléatoires, avec une randomisation alternée, ou basées sur une caractéristique du malade, ou basées sur le jour d’inclusion…
Ratio d’allocation désigne le ratio groupe A/B (Le plus souvent 1/1)
Randomisation déséquilibrée : Dans certains essais, le ratio est de 2/1, on va donc randomiser 2x plus de sujets traités par le nouveau médicament que de sujets traités par
placébo.
Permet d’augmenter le nombre de sujets traités afin d’avoir davantage de données concernant la tolérance du traitement. (permet également d’améliorer le recrutement car
les patients ont + de chances de recevoir le ttt).
NB : on peut aussi randomiser 2x, 3x, plus de TÉMOINS (dans les études de cohorte, cas témoins etc…) pour DIMINUER le risque béta (ne pas mettre en évidence une
différence qui existe) et donc AUGMENTER LA PUISSANCE (donc augmenter les chances de mettre en évidence une différence entre les cas et les témoins)
f. Stratification de la randomisation
Méthode utilisée pour limiter le risque de déséquilibre lié à des facteurs pronostiques importants. On stratifie donc sur les biais de confusions.
On s’assure qu’un nombre égal de patient ayant certaines caractéristiques (ex : tumeur stade avancé) soit randomisé dans chaque groupe.
Il est fréquent dans les essais multicentriques de stratifier sur le centre : en effet, si pas de stratification sur le centre dans les études multicentriques, il y a un risque de
non-représentativité du centre par rapport à l’ensemble des autres centres. C’est un biais de SÉLÉCTION.
Il est TOUJOURS présent dans une étude monocentrique.
Il existera autant de listes de randomisation (liste de tirage au sort) que de strate décidée
Ex : Donc si on a stratifié sur le centre, et qu’il y a 3 centres, il y aura 3 listes de randomisation (cf exemple au dessus)
On évite de multiplier les strates car sinon, risque de manque de puissance avec des résultats non significatifs => MAX 5 STRATES
Minimisation : type particulier de randomisation par stratification, parfois utilisé dans les essais incluant un nombre limité de patients, et qu’il existe un grand nombre
de facteurs pronostiques importants. Elle implique qu’à chaque nouveau patient on choisit le groupe pour assurer une minimisation des biais la plus optimale (groupe
similaire)
Un algorithme limite les déséquilibres sur ces facteurs, en enregistrant ceux du patient et en l’attribuant à un groupe en fonction de ses caractéristiques.
Attention, la minimisation ne permet pas « d’augmenter les facteurs d’appariement ».
Appariement Stratification
Les participants sont appariés selon certaines caractéristiques, après la séléction. Permet d’effectuer des comparaisons entre les participants d’une étude, qui suivent
Ensuite, chaque membre de la paire est affecté de manière aléatoire à l’un des différentes procédures.
deux différents sous-groupes de l’étude. Tous les participants de l’étude sont regroupés selon un ou plusieurs facteurs (âge, sexe,
Cela permet d’effectuer des comparaisons entre les participants d’une étude, critères relatifs au mode de vie, médication concomitante...) avant de faire l’objet d’une
qui suivent différentes procédures. randomisation.
Ceci garantit une répartition équilibrée dans chaque combinaison.
>> La stratification contrôle l'affectation aléatoire des sujets dans les différents
groupes d'un essai. La randomisation stratifiée est utilisée pour garantir qu'à chaque
groupe de l'essai sera affecté le même nombre de participants ayant une
caractéristique sensée affecter la réponse à une intervention
Double aveugle :
Peut aussi etre appelé insu, evite les risque de contamination.
Procédé permettant que ni le patient, ni le médecin ne connaissent le groupe de randomisation du patient tout au long du suivi.
Simple aveugle : uniquement le patient ne connait pas son groupe de randomisation
Triple aveugle : ni le patient, ni le médecin, ni l’investigateur analysant les résultats ne connaissent le groupe de randomisation du patient.
>> Le double aveugle permet de supprimer l’effet placebo éventuel d’un médicament.
Modalités : Il faut que les médicaments administrés aient la même apparence. Si non réalisable il faut ruser :
- Traitement testé + placébo du traitement de référence pour le groupe traitement testé
- Placébo du traitement testé + traitement de référence pour le groupe traitement de référence
La comparabilité initiale des groupes est assurée à priori par la randomisation. Elle doit se vérifier sur le Tableau 1 (caractéristiques des groupes à l’inclusion, dans la
partie Résultats) : vérification à « vue d’œil », c’est-à-dire n’entrainant PAS de tests statistiques. En effet, la multiplication des tests diagnostiques conduirait à une inflation du
risque alpha (tests significatifs à torts, juste par multiplication du hasard). On dit que la multiplication des tests conduirait à une « inflation du risque alpha »
« A vue d’œil » = la différence entre les deux groupes doit être inférieure à 25%.
Par exemple, s’il y a 44,1% de fumeuses dans un groupe, et 36,8% de fumeuses dans un autre groupe, il existe une différence de > 25% de la proportion de fumeuse entre les
deux groupes. (36,8 x 100 / 44,1 = 72,1 donc 100 – 72,1 = 27,9)
Fluctuations d’échantillonnage : répartition des caractéristiques initiales des patients imparfaite du simple fait du hasard
- Si l’effectif est faible, on peut s’attendre à quelques déséquilibres entre les groupes liés mais ils doivent aller dans les 2 sens (tantôt favorisant le bras expérimental, tantôt le
bras contrôle)
Des déséquilibres favorisant toujours le même groupe doivent alerter et faire évoquer un biais de séléction.
- Si l’effectif est élevé, les déséquilibres entre les 2 groupes doivent être minimes.
Intérêt : Le tableau 1 permet de vérifier que la population étudiée est comparable à la population cible (validité EXTERNE) et permet de vérifier la comparabilité initiale des
2 groupes au sein de la population étudiée (validité INTERNE).
Critère pour juger de la comparabilité des effectifs :
Répartition (égale ou non) des facteurs pronostiques connus entre les 2 groupes.
Parfois répartition imparfaite du fait du hasard (surtout les petits effectifs) = erreur aléatoire
- Soit on équilibre le facteur de confusion potentiel par randomisation stratifiée sur le facteur de confusion (ex : stratification sur le stade T d’un cancer)
- Soit on fait un ajustement au cours de l’analyse statistique pour corriger, à posteriori, les écarts sur les facteurs pronostiques connus.
Si jamais il existe une différence entre les groupes, il faut évaluer quel groupe cela dessert (contrôle ou testé, si biais différentiel ou non) et évaluer si cette différence est
importante au point de biaiser les résultats (biais de séléction) et de modifier les conclusions de l’essai.
N.B : Si on effectue quand même une multiplication des tests diagnostiques, on utilise la méthode de Bonferroni : diviser le seuil de signification (en général alpha =0,05)
par le nombre de tests.
Par exemple, si 10 comparaisons multiples sont faites sur le tableau 1, on retiendra comme significatives celles dont le seuil de signification est alpha ajusté = 0,05/10 =
0,005.
a. Critères qualités :
Pour les essais contrôlés randomisés, les recommandations sont les CONSORT statement, qui dictent notamment les caractéristiques recommandées pour le CDJP
- Critère de jugement principal consensuel et valide
- Cliniquement pertinent : mortalité, tout évènement clinique, douleur, qualité de vie, incapacités, handicaps.
- Objectif : L’évaluation d’un critère de jugement est dite objective si son évaluation est incontestable et ne peut pas être sujette à des interprétations différentes
Si le critère de jugement est subjectif : : il est très important que le patient soit en AVEUGLE du traitement reçu pour éviter le risque de biais de classement, que le critère
soit évalué à l’aide d’une échelle validée.
- Unique
- Adapté à la question posée et au type d’étude
- Reproductible et quantifiable
- Défini à priori dans le protocole, de manière précise et qui ne change pas au cours de l’essai
- Standardisé
N.B S’il existe plusieurs critères de jugement, le critère de jugement principal doit être identifiable, et pré-spécifié dès le protocole, et ne doit pas changer au cours de
l’étude.
La conclusion doit porter sur le critère de jugement principal.
- Critère CLINIQUE : correspond aux objectifs thérapeutiques d’un traitement, leur nature est donc fonction de ces derniers.
Sous catégories :
- Guérison d’une maladie : on s’intéresse au taux de guérison (puisque une véritable guérison ne peut être obtenue spontanément).
Si la maladie est bénigne, on s’intéresse à sa durée (puisque cette dernière sera spontanément résolutive
- Prévention primaire ou secondaire : le plus souvent, on s’intéresse à la fréquence ou au délai de survenue des évènement qu’on cherche à prévenir.
- Symptomatologique : les critères cliniques correspondront à des intensités de symptômes ou de gêne
- Amélioration de la qualité de vie : on aura recours à des échelles de qualité de vie comme critère d’évaluation des traitements.
- Critère de SUBSTITUTION/INTERMÉDIAIRE :
Aussi appelé surrogate
Critère de jugement facile d’accès à mesure simple, et dont on suppose le lien avec l’effet clinique (thérapeutique) recherché
Exemple : étude thérapeutique sur un anti-ostéoporotique : on suppose que l’augmentation de la densité minérale osseuse sera corrélée à une diminution de survenue du
nombre de fractures ostéoporotiques.
Ce n’est pas le résultat que le traitement de l’étude cherche à obtenir, mais leur utilisation est pertinente lorsque les critères d’évaluation clinique apparaissent longtemps après
la prévention (cf exemple : diminution de la mortalité).
Exemple de critères intermédiaires :
- Dosages biologiques (glycémie, Hba1c, CRP, PaO2, PaCO2)
- Constantes cliniques (pression artérielle, fréquence cardiaque, pression intracrânienne).
- Scores radiologiques (densité minérale osseuse).
Avantages :
- Etude moins longue (mesure possible souvent assez rapprochée de l’intervention)
- Moins chère
- Plus simple
Inconvénients :
- Défaut de pertinence clinique : il faut être capable d’être très critique vis-à-vis de l’utilisation de ces critères intermédiaires car ils peuvent avoir un lien faussé avec le
critère de jugement directement lié à l’objectif clinique.
Exemple 1 : utilisation de la DMO mesurée par DMO comme critère de jugement principal (intermédiaire) pour évaluer l’impact d’un traitement anti-ostéoporotique. Or, le
critère de jugement principal directement lié à l’objectif clinique et donc cliniquement pertinent serait plutôt la survenue de fracture ostéoporotique. Une ancienne étude sur
le fluor montrait qu’il augmentait la DMO, et pourtant il fragilisait également l’os et donc entraînait une augmentation du nombre de fractures.
-Critères composites :
Il s’agit de critères composés de plusieurs évènements, ce qui permet un gain de puissance par augmentation de la probabilité de l’évenement
On considère que le patient a présenté le critère de jugement s’il a présente au moins 1 des critères.
S’il a présenté plusieurs évènements du critère, on retient la date du 1er évènement, donc le patient n’est compté qu’une seule fois dès qu’il a présenté l’un des évènements.
Les critères composites doivent être interprétés tels quels, ce qui veut dire que si le résultat pour le critère de jugement composite est statistiquement significatif, il n’est pas
possible de conclure que le traitement permet de diminuer un seul des critères composites
par ex : le nouveau ttt permet de diminuer de manière significative la survenue d’un infarctus du myocarde OU d’un AVC OU d’un décès, et pas juste le décès
N.B : En cas de critère de jugement composite, le calcul du NSN doit être fait à partir de l’incidence cumulée de tous les critères, et non pas de l’incidence de chaque critère
pris isolément. L’incidence cumulée est plus importante, permettant de diminuer le NSN, et donc d’augmenter la puissance de l’étude.
Critères de jugement secondaires : pas possible de conclure dessus si le critère de jugement principal n’est pas statistiquement significatif (SAUF la tolérance)
7. Analyse
a. Analyse intermédiaire :
Analyse effectuée avant l’inclusion de tous les sujets prévus. Elle est pertinente quand l’étude est longue et qu’il y a un risque pour les patients, en d’autres termes, si
le traitement semble bien fonctionner (ou très mal), ce n’est pas la peine et potentiellement pas éthique d’attendre la fin de l’analyse.
Elle nécessite une augmentation du nombre de sujet nécessaires (mettant ainsi en évidence la différence plus vite).
Cependant pas d’augmentation du temps de suivi.
>> Le choix d’un risque alpha plus bas que 5% dans le cadre des études avec analyse intermédiaire s’appelle « ajustement du risque alpha », de manière à limiter le
risque d’inflation du risque alpha, lié à la mesure répétée du critère de jugement principal.
Une analyse intermédiaire doit être prévue à l’avance, et décrite dans le protocole. Les règles d’arrêt de l’étude doivent être définies.
Par exemple :
- Efficacité du ttt : détecter au plus tôt le bénéfice du ttt pour éviter de ttt des patients par un placébo ou une thérapeutique donnée alors que les données intermédiaires sont
suffisantes pour conclure à l’efficacité du ttt étudié
- Toxicité : détecter au plus tôt un éventuel effet délétère du traitement afin de limiter le nombre de patientes exposées au risque
- Futilité : arrêt d’une étude dont on peut prédire avec une certitude raisonnable qu’elle ne pourra pas aboutir
- Vérifier le taux d’écart par rapport au protocole : l’essai est-il de qualité ?
- Vérifier le taux d’inclusion : est-ce que l’essai pourra être réalisé dans un délai acceptable ?
- Vérifier les caractéristiques des patients : le risque de base des patients effectivement inclus correspond-il à celui initialement prévu et utilisé dans le calcul du NSN ? Les
patients recrutés correspondent-ils à la population cible de l’essai ?
b. Analyses en sous-groupes :
Analyse du critère de jugement principal dans des sous-groupes de patients définis selon leurs caractéristiques. Ces analyses permettent d’évaluer si l’effet traitement est le
même quelles que soient les caractéristiques de la population.
Les analyses en sous-groupes doivent être prédéfinies et considérées comme des analyses EXPLORATOIRES, donc la conclusion de l’essai ne peut porter sur ces
analyses, à fortiori s’il n’y a pas de différence statistiquement significative dans la population globale.
>> L’analyse en sous-groupe augmente le risque d’obtenir un résultat faussement positif dans l’un des sous-groupes analysés (= inflation du risque alpha), mais augmente
aussi le risque d’obtenir un résultat négatif car la puissance du test statistique est diminuée (effectif limité de patients au sein de chaque sous-groupe).
c. Différence statistiquement significative et différence observée cliniquement pertinente :
Ce n’est pas parce qu’une différence est statistiquement significative que la différence clinique est pertinente. Plus l’essai aura inclus des patients, plus il aura de puissance
pour mettre en évidence de faibles différences, qui ne seront pas forcément pertinentes.
Il faut donc évaluer la pertinence clinique de la différence observée
Taille d’effet (effet size)
Réduction absolue du risque : différence de risque entre les 2 groupes
Nombre de sujets à traiter pour éviter un évènement (= inverse de la réduction absolue du risque) : nombre de sujets à traiter pendant une période donnée pour éviter
l’apparition d’un évènement défavorable. Idéalement on veut qu’il soit à 1 (plus il grandit plus le traitement est mauvais)
Par exemple : si on compare 2 groupes de patients pour le sevrage tabagique, 1 groupe traité par nicotine en patch (= contrôle) et 1 groupe traité par cigarette électronique
(= étude), et que le NST est de 12, alors la cigarette électronique permet de sevrer 1 patient de plus pour 12 traités par rapport au traitement contrôle.
d. Risque relatif :
Dans un essai contrôlé randomisé, le critère d’efficacité à utiliser est le risque relatif, l’OR lui surestimes l’effet du traitement.
Si la prévalence de l’affection est faible dans l’échantillon (p < 10%), l’OR est un bon estimateur du RR.
Si la prévalence de l’affection est élevée dans l’échantillon (p > 10%), l’OR est un mauvais estimateur du RR.
Traitement/intervention Administré par les meilleures mains et suivi rapproché pour la dose et Donné comme un soin de routine
les effets secondaires (standardisation)
L’observance du traitement est suivi.
Intensité du suivi Élevée, visites fréquentes Habituelle, pas différente des soins usuels
Adhésion des médecins au Évaluée très précisément, avec feedback si adhésion incomplète Non évaluée
protocole de l’étude
Co-interventions Le plus souvent interdites, et au moins précisément définies et Autorisée
enregistrées
E. ESSAIS EN CROSS OVER
Tous les patients vont recevoir les 2 traitements à l’étude. Les patients sont ainsi leur propre contrôle.
La randomisation détérmine l’attribution des traitements. L’essai comporte 2 périodes séparées par une période de wash out, qui permet d’éliminer l’effet du traitement donné
en 1e période (=effet rémanent ou carry over).
On recommande une période de washout > 5 x demi vie du médicament
1. Avantages :
- Comparabilité des 2 groupes parfaite (puisque les patients sont leur propre contrôle) = augmente la validité interne car gain de comparabilité des groupes puisqu’on
élimine la variabilité inter-individuelle.
- Un effectif diminué par 2 par rapport aux essais à 2 bras parallèles : GAIN de puissance car chaque patient compte 2 fois donc 2 fois moins de patients à inclure.
2. Conditions nécessaires :
- Maladie chronique stable dans le temps : car si instable, on ne pourra pas être sûr que les résultats observés traduisent l’effet du traitement. Ils peuvent traduire de
l’évolution de la maladie. (ex : épilepsie, migraine, asthme).
- Les traitements à évaluer doivent être des traitements symptomatiques : ils doivent agir de manière temporaire afin de permettre le wash-out.
- Ils doivent également avoir des effets d’apparition rapide, réversibles à l’arrêt, et sans effet rémanent/effet rebond.
- Absence d’effet période : effet modifié si reçu en 1er ou 2e période
- Le critère de jugement doit pouvoir être répété (donc pas la mortalité)
- Période de washout : il faut que les effets du 1er traitement (= effet rémanent ou carry over) puissent être supprimés.
- Peu de perdus de vue en 1e période
- Le patient ne doit PAS guérir après la 1e période, et il ne doit pas s’habituer à des effets secondaires.
F. ESSAI D’ÉQUIVALENCE OU DE NON INFERIORITÉ
Pour les médicaments voulant prouver qu’ils ont moins d’effet secondaires/coût moindre/plus pratique d’utilisation.
En pratique il est impossible de montrer que 2 traitements sont strictement équivalents en termes d’efficacités. On montre donc qu’ils ne sont pas trop différents, càd qu’on
définit une borne d’équivalence, ou une borne de non inferiorité.
Si la différence entre les 2 traitements (et son intervalle de confiance à 95%) est comprise dans cette borne, on pourra conclure à l’équivalence ou à la non inferiorité.
Dans les essais d’équivalence et de non inferiorité, (et de tolérance) il faut réaliser une analyse en ITT et une analyse per protocole et vérifier que les résultats sont
cohérents avec ces 2 analyses.
Analyse en ITT diminue les différences entre les deux groupes et l’analyse per protocole tend à la faire augmenter si les deux sont significatives, conforte le résultat
Plus la borne est étroite, et plus le nombre de patients à inclure est élevé. Si la borne est trop large, il serait erroné de considérer que les 2 ttt ont une efficacité comparable.
1. Essai de non inferiorité :
L’idée est de rechercher des intérêts supplémentaires au médicament testé par rapport au traitement de référence (tolérance, moins d’effets secondaires, moins cher,
surveillance + simple, moins de nombre de prises par jour, galénique plus simple, meilleur gout)
La fixation de la limite de non-infériorité est un problème clinique et non pas statistique. Il s’agit de déterminer la plus grande perte d’efficacité acceptable par rapport
au traitement de référence, on l’appelle la marge de non-infériorité
Selon le type de différence d’effet utilisé, cette marge pourra s’exprimer en terme relatif (par exemple RR < 1,1 ou rapport des moyennes μréf/μtest < 1,1) ou en terme absolu
(par exemple différence de risque Πref – Пtest < 10%, différence des moyennes μréf – μtest < 5) .
Le produit testé doit être comparé à un produit qui est réellement un produit de référence, présentant la meilleure efficacité dans l’indication considérée.
Toute situation susceptible d’empêcher le comparateur d’avoir son efficacité optimale doit être soigneusement évitée car elle favorise la conclusion de non-infériorité.
Il faut donc s’assurer que la population incluse de l’essai est bien identique à celle dans laquelle le traitement de référence a précédemment démontré son effet et que le
traitement de référence utilisé ait été optimal en termes de dose et de durée.
ATTENTION : l’hypothèse sur l’objectif du critère de jugement principal est un objectif de NON infériorité, mais généralement les hypothèses sur les objectifs
secondaires sont des objectifs de supériorité.
Biais :
Les essais de non infériorité sont plus sensibles aux faiblesses méthodologiques et aux écarts aux protocoles dont les effets tendent à rendre les deux groupes
artificiellement semblables et donc sont en faveur de la non infériorité. Donc les biais sont plus fréquents.
>> En effet, un excès d’arrêts de traitement, ou de perdus de vue peut biaiser l’essai en faveur d’une conclusion de non inferiorité (= différent d’un essai de différence, où ces
problèmes amènent à ne pas pouvoir obtenir une différence significative).
Il est recommandé de réaliser une analyse per protocole et de la compléter par une analyse en intention de traiter. Une conclusion n'est acceptable que si les deux
analyses sont cohérentes.
Critères de qualités
>> L’inclusion d’un groupe placébo en + des 2 groupes traitement (de référence et à l’essai) dans les études de non infériorité est un élément majeur de qualité d’un essai de
non infériorité : il permet d’éviter un biais d’évaluation optimiste des résultats. En effet, même si l’essai est en double aveugle, en l’absence d’un groupe placébo les
investigateurs savent qu’il n’y a que des produits actifs dans l’essai.
>> Comme pour les essais de supériorité, les essais cliniques de non-infériorité doivent se conformer aux recommandations du groupe CONSORT
BULLET POINTS :
- Les essais de non-infériorité permettent de montrer que l'efficacité d'un nouveau traitement n'est pas trop inférieure à celle du traitement de référence, mais pas de
conclure à la stricte équivalence d'efficacité.
- Même si l'essai de non-infériorité est concluant, il reste la possibilité que le nouveau traitement soit inférieur au traitement de référence (dans la limite fixée par le seuil de
non-infériorité utilisé, fixé de manière arbitraire a priori, c'est-à-dire avant de connaître les résultats).
- Un traitement montré comme non inférieur ne constitue un progrès thérapeutique que s'il présente des avantages démontrés sur d'autres plans (tolérance, facilité
d'utilisation)
- La fixation de la limite de non-infériorité est un problème clinique et non pas statistique. Il s'agit de déterminer la plus grande perte d'efficacité acceptable par rapport au
traitement de référence.
- La perte d'efficacité consentie par le seuil de non-infériorité ne peut être supérieure à l'efficacité du traitement de référence, sinon cela revient à accepter de perdre la
totalité du bénéfice qu'apporte ce traitement.
Il faut que la borne supérieure de l'intervalle de confiance du paramètre de mesure choisi (RR, DR, etc.) n'excède pas la marge de non-infériorité fixée a priori
> Les valeurs exigées pour un test de dépistage sont une bonne valeur prédictive négative, et donc une bonne sensibilité.
N.B : Même fonctionnement que les essais contrôlés pour un traitement : analyse en intention de dépister. On évalue la réduction absolue du risque et le nombre de
sujets à dépister pour éviter un évènement.
4. Biais :
- Biais d’avance au diagnostic : la découverte précoce d’un cancer augmente la durée de vie apparente (= dépistage inefficace). La survie globale n’est pas augmentée mais
les malades se savent malades plus longtemps.
- Biais de séléction des formes lentes : le dépistage trouve plus souvent les tumeurs de croissance lente que les tumeurs les plus agressives.
- Surdiagnostic : certaines tumeurs évoluent plus lentement et ne se seraient jamais manifestées.
X. Niveau de preuve :
Le niveau de preuve d’une étude dépend de l’adéquation de l’étude à la question posée ainsi que de l’existence de biais dans la planification ou la conduite de l’étude
VALIDITÉ INTERNE : est le fait qu’un résultat observé soit un bon reflet de la réalité, et qu’il n’est pas du à un biais. L’évaluation de la validité interne passe par la
recherche de défauts méthodologiques de l’étude et de biais potentiels. Une étude avec méthodologie adéquate permet de limiter le risque de biais pour les principaux biais
évoqués, aura une bonne validité interne.
- La déclaration des sources de financement et des liens d’intérêt, le fait que le protocole soit disponible et la description des méthodes de randomisation participent
à la bonne validité interne.
- Des caractéristiques des interventions dans les essais : utilisable en pratique selon les conditions de l’étude ?
- Regarder également le mode de recrutement : le temps de recrutement, et le lieu de recrutement
- Regarder le nombre de patients éligibles et le nombre de patients inclus : taux, raison des refus de consentement/participation = sur le diagramme de flux.
Rajout :