Vous êtes sur la page 1sur 33

Jeudi 7 février 2019

Cours DES – Recherche

Bases statistiques pour réussir sa thèse :


l’obsession du « petit p »

Ingrid MILLET, MD, PhD

Service d’Imagerie Médicale


CHU Lapeyronie
Quelques rappels …
La thèse, à quoi ça peut servir ?

A faire une hypothèse


= UNE question pour UN résultat et UN message

Prédire Associer Evaluer

Diagnostiquer Estimer Comparer

But = démontrer que l’hypothèse d’égalité est fausse (= H0)


L’hypothèse

• On la nomme H0 ou hypothèse nulle


• Le scanner a des perf diag > à l’IRM dans l’appendicite aiguë
• H0 = AUC ROC scanner = AUC ROC IRM
• La valeur d’ADC est corrélé au stade de Gleason dans le cancer de prostate
• H0 = ADC indépendante du stade de Gleason = distribution des valeurs d’ADC
(moyennes) est identique quel que soit le stade de Gleason
• La prescription d’un scanner pour suspicion d’embolie pulmonaire dépend
de l’urgentiste
• H0 = taux de prescription de scanner est identique quel que soit l’urgentiste

• L’hypothèse alternative est nommé H1

But = démontrer que l’hypothèse d’égalité est fausse (= H0)


La p-value

• Probabilité que le résultat de mon test soit lié à la chance (ou au


hasard)

= degré d’incertitude qu’un énoncé soit vrai


Exemple pour bien comprendre

• Efficacité de 2 traitements pour les cancers du rein (RF vs. Chir


partielle)

• H0 = % succès RF = % succès chir partielle


• % succès RF (80%) vs. % succès chirurgie partielle (75%); P<0,05
• La probabilité que le % de RF = % de la chir dans une autre étude est < 0,05
• On peut dire aussi que la probabilité que mon résultat soit dû au hasard < 0,05
• DONC il est probable qu’il existe une différence d’efficacité entre les 2 ttt et le
ttt par RF semble plus efficace.

P-value < 0.05 = l’effet observé n’est probablement pas dû à la chance.


Mais cela ne veut pas dire que l’effet existe …
Comment gérer la p-value ?
Exemple 1

• Etudes rétrospectives comparant la mortalité réelle des


traumatisés graves entre les groupes "imagerie conventionnelle"
et "scanner corps entier".

Mortalité (imagerie Mortalité (scanner


Auteurs Etude Odd Ratio (OR) p
conventionnelle) « corps entier »)
Weninger et al. 370 patients
Monocentrique 16 % 17 % n.s.
(2007)
318 patients
Wurmb (2011) Monocentrique 9% 8,5 % n.s.

Yeguiayan 1950 patients 0,63


Multicentrique 22 % 16 %
(2012) (0,44 - 0,91)
426 patients
James (2017) Monocentrique 1,8 % 3,9 % n.s.

40435 patients 0,84


Tsutsumi (2018) Multicentrique 16,4 % 16,6 %
(0,72 - 0,98)

Que conclure ?
Exemple 1

• Etudes rétrospectives comparant la mortalité réelle des


traumatisés graves entre les groupes "imagerie conventionnelle"
et "scanner corps entier".

Mortalité (imagerie Mortalité (scanner


Auteurs Etude Odd Ratio (OR) p
conventionnelle) « corps entier »)
370 patients
Weninger et al.
(2007) Monocentrique 16 % 17 % n.s. 1%
318 patients
Wurmb (2011) Monocentrique 9% 8,5 % n.s. 0,5%
Yeguiayan 1950 patients 0,63
(2012) Multicentrique 22 % 16 %
(0,44 - 0,91)
5%
426 patients
James (2017) Monocentrique 1,8 % 3,9 % n.s. 2,1%
40435 patients 0,84
Tsutsumi (2018) Multicentrique 16,4 % 16,6 %
(0,72 - 0,98)
0,2%
La p-value

• Plus la magnitude de l’effet est petite et plus l’échantillon devra


être grand pour montrer une différence significative

4. Altman D G, Bland J M. British Med Journal. 1995:311–485.


Exemple 2

• Estimer l’évolution du poids des enfants en fonction du contexte


tabagique de la mère.
• 12987 bébés

Habitude tabagique Habitude


Poids de naissance P-value 3 mois 6 mois P-value
mère tabagique mère
Non fumeur Non fumeur vs.
- 257 (-319 à -181) < 0.01 - 76 (-188 à 9) - 50 (-136 à 121) NS
vs. fumeur fumeur
Non fumeur Non fumeur vs.
- 172 (-222 à -103) < 0.01 - 172 (-141 à 30) - 55 (-129 à 93) NS
vs. gros fumeur gros fumeur

Adapted from V. Conter, BMJ, 1995


La p-value

• Plus la magnitude de l’effet est petite et plus l’échantillon devra


être grand pour montrer une différence significative

• Ne renseigne pas sur la signification « clinique » du résultat


Exemple 3

• Je randomise mes patients en 2 groupes pour évaluer l’efficacité


d’un nouveau traitement endovasculaire d’un anévrysme :
• groupe 1 pour stent A (200p)
• groupe 2 pour le nouveau stent B (200p)

• Voilà les premiers résultats descriptifs de la cohorte, que pensez


vous de ces p-values ?

Groupe 1 Groupe 2 P-value


Age (ans) 78 (67-85) 81 (65-89) 0,04
Sexe (femmes) 84 % (80-86) 81% (75-86) 0,08
Tabagique (oui) 78% (65-81) 75% (63-78) 0,56
• P-value INUTILE dans ce tableau

• Car la randomisation = répartition aléatoire des patients pour


qu’ils soient en tout point comparables sauf pour le traitement
étudié.

• DONC la probabilité que le hasard explique les différences entre


les 2 groupes au début de l’étude est de… 100%

Rappel : P-value = probabilité que le résultat que je trouve soit lié à la chance (ou au hasard)
La p-value

• Plus la magnitude de l’effet est petite et plus l’échantillon devra


être grand pour montrer une différence significative

• Ne renseigne pas sur la signification « clinique » du résultat

• N’a pas de sens sur les « variables intrinsèques » des patients qui
ont été randomisés (ou appariés sur ces variables…).
Exemple 4

• Evaluer l’influence des paramètres du patient et de la tumeur sur


la cinétique de rehaussement des tumeurs invasives du sein
• N = 273
% pic

Washout

Pente phase précoce

Tps au pic
Millet, Radiology, 2014
.02

.02 .02

.02
La p-value

• Plus la magnitude de l’effet est petite et plus l’échantillon devra être


grand pour montrer une différence significative

• Ne renseigne pas sur la signification « clinique » du résultat

• N’a pas de sens sur les « variables intrinsèques » des patients qui ont
été randomisés ou appariés.

• !!! Tests multiples = « P-hacking » !!!


• Risque ⍺ = au moins 1 test / 20 sera significatif par simple loi de probabilité…
donc on conclura à tort au rejet de H0 alors qu’elle est vrai 1 fs/20
• Solution = diminuer le risque alpha de chaque test (correction de Bonferroni,
False Discovery Rate…)
.02

.02 .02

.02
La p-value

• Plus la magnitude de l’effet est petite et plus l’échantillon devra être


grand pour montrer une différence significative

• Ne renseigne pas sur la signification « clinique » du résultat

• N’a pas de sens sur les « variables intrinsèques » des patients qui ont
été randomisés ou appariés.

• !!! Tests multiples = « P-hacking » !!!  Correction du risque ⍺


Que faire si p-value > 0,05 ?

• On n’a pas réussi à rejeter H0 = on n’a pas réussi à mettre en


évidence une différence ou un effet.

• Ce qui est différent de il n’y a « pas d’effet » ou « pas de


différence ».

« An absence of evidence is not evidence of absence »

CAT : Calcul de la puissance à postériori


(si non fait initialement !)

4. Altman D G, Bland J M. British Med Journal. 1995:311–485.


Autres réflexions…
Exemple 1

• Etude cas-témoins pour rechercher des signes scanners prédictifs


de la présence d’une tumeur appendiculaire dans le cadre d’une
appendicite aiguë.
• 1 cas de tumeur appendiculaire pour 3 appendicites simples
• N TOTAL = 258 patients appariés sur l’âge et le sexe
Signes Sens Spe VPP VPN
Epaississement
15% 95% 90% 20%
irrégulier focal
Masse tissulaire 6% 98% 80% 30%
Perforation 60% 78% 75% 70%

Que pensez-vous des valeurs prédictives ?


Valeurs prédictives

• Leur interprétation dépend de la prévalence de la maladie dans la


population

• !!! ATTENTION à leur interprétation dans les populations


« enrichies » ou les études cas-témoins
• Prévalence inappropriée
• Valeurs prédictives seront alors non « utilisables » en pratique clinique car
non transposables

Préférer les mesures diagnostiques bayésiennes de type rapport de vraisemblance


Exemple 2
• Pancréatite aiguë : 2 types de collection
• Nécrotiques (CAN)
• Liquidiennes (CLAP)
• Objectif : le scanner permet-il de bien classer ces collections ?
• On prends 2 lecteurs et on leur demande de classer les
collections sur 178 scanners de pancréatite aiguë.

L1 CAN L1 CLAP
L2 CAN 110 5 115
L2 CLAP 7 56 63 K = 0,80
117 61 178 (95 IC : 0,70-0,91)

Conclusion : Le scanner est très performant pour classer les collections péri pancréatiques puisque
la reproductibilité inter-observateur (kappa) est excellente.
La reproductibilité

• Kappa statistiques : mesure de la concordance en tenant compte de


l’effet du hasard
• Ne doit pas être utilisé comme une mesure de l’exactitude diagnostique
mais comme une mesure de la fiabilité d’une mesure

Ce n’est pas parce qu’on est reproductible que le résultat est exact !

• NB : les valeurs du kappa seront pénalisées si :


• Faible prévalence de la maladie ou du signe étudié (la moindre erreur sera
« coûteuse »)
• Forte différence d’expérience des lecteurs (discordances mal « équilibrées »)
• Plusieurs classes dans le tableau (nombre important de discordance possible)
Exemple 3

• On cherche une éventuelle association entre les valeurs d’ADC et


la cellularité tumorale (compte des cellules tumorales)

• Utilise la technique des coefficients de corrélation de Pearson


ADC
(mm2/sec)

𝜌=0,55 (0,45-0,72)
p<0,00002

Compte des cellules


Adapted from Surov, Anticancer Res, 2017
Coefficient de corrélation

• Recherche une association LINEAIRE entre 2 variables


quantitatives.

• Test = H0, ⍴=0

• Valeurs entre (-0,5 – 0,5) : association faible même si S…

• !!!! N’évalue pas la relation de cause à effet !!!


Mais au fait, quels tests dois-je
utiliser ?
Chi2 si grands effectifs
Fisher si effectifs < 5 / case
Quelles étapes pour y arriver ?

• Formuler votre hypothèse nulle et alternative


• Comprendre le type de données que vous avez : quantitatives
(distribution gaussienne ou pas), qualitatives, ordonnées ou pas, appariés…
• Choisir le test statistique approprié
• Calculer la p-value et les IC95%
• Décider du rejet ou non de H0 et l’interpréter

Anvari, Radiographics 2015


Conclusion
Pour bien réussir sa thèse …

• Bien poser son hypothèse de départ en termes


statistiques

• Significativité statistique ≠ significativité clinique

• Garder un œil critique sur les résultats, ne pas sur-


interpréter, restez modestes
Albert Einstein

Vous aimerez peut-être aussi