Vous êtes sur la page 1sur 29

Eléments de statistiques médicales

Les statistiques permettent de manière générale de transposer une incertitude en connaissance


utilisable. Bien que des résultats valables pour un grand nombre ne sont pas systématiquement
transposables à tout individu (qui peut se situer aux extrêmes) auquel le médecin fait face,
l'usage des statistiques en médecine est devenu le socle non seulement de la constitution des
connaissances mais aussi de la pratique clinique en médecine contemporaine (Evidence Based
Medicine ou Médecine Basée sur des Preuves).

Cet article n'a pas pour but de constituer un cours de statistiques (médecin est un métier,
statisticien en est un autre). La réalisation des études médicales les plus simples passe par
l'usage de tables pré-établies pour les différents tests statistiques ou de logiciels, les plus
complexes par la collaboration avec des épidémiologistes, mieux formés aux statistiques, ou
de véritables statisticiens. Face à la croissance exponentielle des publications et l'usage qui en
est fait (quel médecin ne s'est-il jamais retrouvé au détour d'un couloir face à un représentant
pharmaceutique lui mettant sous le nez une étude mal réalisée, dont une partie des résultats
n'étaient pas significatifs ou dont des résultats significatifs n'étaient de signification que
négligeable ? quel médecin n'a t-il pas été choqué par les scandales ayant aboutit à la
dépublication en masse d'articles non pas simplement "erronés" mais véritablement
frauduleux par des revues prestigieuses ?), tout médecin doit cependant pouvoir appréhender
différents concepts lui permettant de comprendre et interpréter les résultats d'une étude
médicale voire de réaliser seul des études simples.

Cet article n'a par ailleurs de sens que mis en articulation avec l'article consacré à
l'épidémiologie médicale dont les éléments sont plus faciles d'accès et de plus grande
importance pour la pratique clinique.

Introduction
Terminologie

Hasard signifie "jeu de dé" en arabe, traduisant un événement dont l'issue est imprévisible.

Randomisation : distribution faite au hasard.

Processus stochastique ( = aléatoire) : processus dont le résultat dépend du hasard.

Statistiques descriptives : résumé des caractéristiques propres (paramètres) à une population


(ou un échantillon).

Statistiques déductives (=inférentielles) : permet de formuler des hypothèses Ho sur les


paramètres d’une population. Ces hypothèses seront vérifiés sur base des paramètres d’un
échantillon.

Probabilités : nombre (entre 0 = non réalisation de l’événement et 1 = réalisation certaine de


l’événement) traduisant le degré de confiance dans la réalisation d’un événement =
quantification de l’expression du hasard pouvant expliquer les observations. C’est le
pourcentage de réalisation d’un événement si on le répétait un très grand nombre de fois dans
des conditions similaires.

Probabilités subjectives (= personnelles) : degré de croyance en la survenue de l’événement.


Le "sens clinique" lui correspond en médecine.

Population et échantillon :

 Population : tout groupe d’individus dont est extrait un échantillon.


 Échantillon : petit nombre de sujets tirés au hasard d’une population. A partir de ses
paramètres (m, s) on pourra estimer les paramètres de la population (µ, σ).

Biais n'est pas hasard

Les biais sont des erreurs systématiques liées à la constitution de l’échantillon ou à la mesure
(technique, mauvais tarage, appareils différents…) et sont corrigibles, différents donc de
l’erreur aléatoire, non corrigible.

Exemple de biais : si on mesure la tension artérielle (TA) avec un sphyngomanomètre ou avec


un cathéter intra-artériel on obtiendra des valeurs différentes.

Distributions des variables aléatoires

 Distributions :
o Des variables continues : distributions gaussienne (= normale), logarythmico-
normale
 Distribution gaussienne : on construit une courbe de probabilité basée
sur une loi de distribution postulant que l’intervalle de prédiction [m +-
s] contient 68% des valeurs et [m +- 2s] contient 95% des valeurs. La
surface totale étant de 100% et la médiane = le mode = la moyenne.
o Des variables discrètes : distributions hypergéométriques, binomiales, de
Poisson
 Lois de probabilités sur de petits échantillons : tests de student, du chi², de Fisher,…
nécessitent un degré de liberté (d.d.l.)

Statistiques descriptives : calcul des paramètres


Les paramètres sont des variables caractérisant une distribution théorique connue, permettant
de déterminer la forme exacte de cette distribution. Ils permettent de résumer (réduire) un
grand nombre de données. On fait souvent l’hypothèse que dans une population déterminée la
variable a une distribution de forme théorique connue. Ex : une distribution gaussienne se
caractérise par deux paramètres : moyenne et variance.

Il existe des tests paramétriques (= test statistique dont le calcul est basé sur les paramètres.
Supposant un écart-type sd symétrique de part et d’autre de la moyenne m) et non
paramétriques (test statistique dont le calcul n’est pas basé sur les paramètres mais sur les
rangs pour la comparaison de deux ou plusieurs groupes dont la distribution des valeurs
observées n’est pas gaussienne).

Est variable tout ce qui varie dans un exemple de donné. Qualifiée d’aléatoire si les valeurs
qu’elle peut prendre fluctuent au hasard.

 Variables qualitatives catégorielles : nominales (ex : fumeur/ non fumeur) ou ordinales


(ex : groupes d’âges 10-19/ 20-29/…)
 Variables quantitatives : discrètes (dénombrements. Ex : nombre de décès) ou
continues (mesures. Ex : poids)

Paramètres de position et paramètres de dispersion

 Paramètres de tendance centrale (= de position) : moyenne (arithmétique = somme des


valeurs/ nombre de valeurs, géométrique, harmonique, quadratique), médiane (=
percentile 50 = divisant la population en deux groupes contenant chacun 50% des
individus), mode (= valeur la plus fréquente).
o Dans le cas d’une distribution normale (symétrique), moyenne = mode =
médiane
 Paramètres de dispersion :
o Ecart-type (s = SD), qu’on ne peut calculer directement (les – neutralisant les
+) mais par le biais de la racine carrée de la variance.
o Variance = s² = ( ∑ (Xi – m)² ) / (n-1)
 (n-1) exprimant l’existence d’un degré de liberté d.d.l.=1
o Amplitude (= maximum – minimum), coefficient de dispersion/ de variation (=
100 x sd/m), écart interquartile (= p75 – p25)…

La notion de degré de liberté (d.d.l.) se réfère au nombre de termes linéairement indépendants


impliqués dans le calcul d’un paramètre. Il est calculé comme la taille de l’échantillon moins
le nombre de paramètres nécessaires pour le calcul de ce paramètre. Ainsi pour une
distribution normale : d.d.l. = 0 pour le calcul de la moyenne (on divise par n), d.d.l.=1 pour le
calcul de la variance (on divise par n-1).

Symétrie et représentation graphique

Plus la valeur (moyenne – médiane) est éloignée de 0, plus la série est asymétrique.
Indépendance et covariance

Deux variables sont indépendantes lorsqu’il n’existe pas de corrélation entre leurs séries de
valeurs (les variations d’une variable Y ne sont pas liées aux variations de la variable X).
L’indépendance traduit donc que la connaissance de la réalisation d’un événement ne nous
donne aucune information sur la réalisation d’un autre événement. Cette notion est importante
car elle déterminera notamment le mode de calcul du test statistique utilisé pour la
comparaison de deux moyennes.

Ex : l’âge et la TA sont deux variables non indépendantes : la TA systolique augmente et la


TA diastolique diminue avec l’âge (baisse d’élasticité des artères liée à l’âge : se dilatent
moins en systole et se contractent moins en diastole).

Comment calculer le degré d’indépendance entre deux variables ? Par le biais de la


covariance :

Cov = ( (Xi – m1) x (Yi – m2) ) / (n – 1)… Une covariance = 0 signifie que les deux
variables aléatoires sont indépendantes. Cependant, ce paramètre doit encore être transformé
pour être facilement interprété : on calcule le Coefficient de corrélation : r = cov /
( √variance1 x √variance2).

Si ce coefficient est proche de ses valeurs extrêmes 1 ou -1, il existe une corrélation directe ou
inverse (souvent une relation causale).

Variance de la différence entre deux moyennes

 Si les variables ne sont pas indépendantes :


o Var (mx-my) = 1/n x (varx + vary – 2 covxy)
 Ex : test t = (mx – my) / [√(var (mx – my)] avec d.d.l. = nx + ny – 2
 Si les variables sont indépendantes : idem mais covxy = 0

Estimation de la précision d'une moyenne

Imaginons une population (µ, σ) dont on tire n échantillons (m(n), sd(n)). On peut alors
construire une « superdistribution » avec une « supermoyenne » m (estimant µ) et une « erreur
standard » SE = sd/ √n (« super écart-type » estimant SE = σ/√n).

On peut alors bâtir un intervalle de confiance à 95% = m +- 2 SE estimant la précision de la


moyenne (la moyenne réelle a 95% de chances de se trouver dans cet intervalle) : 95% de ces
intervalles, calculés via les paramètres de chaque échantillon, contiendront la moyenne de la
population.

L’intervalle de fluctuation µ +- 2σ/√n de la population : intervalle, calculé via les paramètres


de la population, contenant 95% des moyennes échantillons

L’intervalle de prédiction pour un individu m +- 2 sd

En pratique, des études sont compatibles si et seulement si l’intervalle de confiance de la


moyenne de l’une contient la moyenne de l’autre. Ainsi :
Intervalles de confiance d'une proportion

On peut raisonner de la même façon pour une proportion, les paramètres étant alors p et SE,
estimations de pi et SE.

SE = (√ (p x (1 – p))) / √n

La variance étant p x (1 – p)

Statistiques inférentielles
Formulation d'hypothèses (tests d'hypothèse = test de signification)

Une hypothèse statistique est une assertion concernant la distribution d’une ou plusieurs
variables aléatoires.

Les tests statistiques ne nous permettent que de rejeter une hypothèse avec un certain degré de
certitude. Si l’on se pose une question (HA), il faut donc tester l’hypothèse alternative
(inverse) (Ho) pour voir si l’on peut la rejeter avec un degré de certitude suffisant. Ainsi, si
l’on veut démontrer l’existence d’une différence, on part d’une hypothèse nulle Ho (postulant
l’absence de différence = les différences observées peuvent être expliquées par le hasard)
qu’on va essayer de rejeter par un test statistique… On obtient alors une valeur de p. Si :

 p < 0,05 à ok = significatif = il n’y a que 5% de chances que le hasard suffise à


expliquer les différences observées à Ho est rejetée : il y a une différence
 p > 0,05 à ko = non significatif = il y a plus de 5% de chances que le hasard suffise à
expliquer les différences observées à on ne peut rien dire (peut-être est-ce un hasard…
peut-être pas…).

On distingue les

 études de supériorité : Ho : m1 = m2 à Ho ko (HA ok) si p < 0,05 à m1 est différent de


m2 !
 études d’équivalence : Ho : m1 est différent de m2 à Ho ko (HA ok) si p > 0,05 à m1 =
m2 !

Tests d’égalité = d’homogénéité (vérifier si l’écart entre les moyennes de deux échantillés
peut-être considéré comme fortuit), de conformité (vérifier si un échantillon peut être
considéré comme extrait d’une population), d’indépendance (vérifier l’indépendance
stochastique de deux ou plus critères de classification), d’ajustement (vérifier si un échantillon
suit à tout point de vue une distribution donnée : gaussienne, de Poisson,…).
Erreurs et fluctuations d'échantillonnage

Il est ici question d’intervalles de confiance de la moyenne (pas de l’intervalle de prédiction


des individus)

Erreur de type 1: α

Les fluctuations d’échantillonnages sont liées au hasard et peuvent nous conduire à conclure
qu’il existe une différence, même en l’absence de différence réelle ! Le fait de choisir p = 0,05
limite cette erreur α à 5%, chiffre arbitrairement choisit comme seuil international de
signification.

= rejeter Ho alors qu’elle est vraie (p < 0,05… mais pas de bol on est en plein dans ce 0,05…)

Erreur de type 2 : β

Inversement, ces fluctuations peuvent nous conduire à conclure qu’il n’existe pas de
différence, alors qu’il existe une différence réelle ! Cette erreur, elle, n’est pas fixée, mais
dépend du nombre de sujets (augmenter n revient à reserrer les distributions) et de
l’importance de la différence (l’erreur de type 2 baisse si la différence est plus importante, ce
qui peut être obtenu en augmentant par exemple la dose d’un médicament versus placebo). On
a arbitrairement choisit une valeur maximale de β = 20% comme acceptable.

= accepter Ho alors qu’elle est fausse

Si Ho est vraie, les 2 courbes se superposent et on a un risque d’erreur α d’avoir un


échantillon dont la moyenne se situe en dehors de l’intervalle de confiance (IC) de la
moyenne. Si Ho est fausse, les 2 courbes s’éloignent et on a un risque β que m2 se situe dans
l’intervalle de confiance de m1…

Ho vraie (pas de différence) Ho fausse (différence)


Acceptation (pas de
Correct Erreur β
différence
Rejet (différence) Erreur α Correct
La puissance

Autre façon de quantifier l’erreur de type 2 : puissance = 1 – β. La puissance d’une étude doit
donc être supérieure à 80% pour être considérée comme suffisante, ce qui signifie qu’il y 80%
de chances de mettre en évidence une différence significative si elle existe.

Certains calculs permettent de déterminer une taille n de l’échantillon ou une dose nécessaire
pour obtenir une puissance suffisante.

p renseigne sur l’importance du hasard dans les résultats (ex : il existe une différence entre les
groupes placebo et médiqué), mais pas sur l’importance de ces résultats (ex : forte ou faible
différence). Il peut exister une différence significative mais sans/peu d’importance clinique.
Inversement, une différence non significative peut avoir une importance clinique.

En cas de résultat non significatif, il est très important de s’intéresser à la puissance.

Les tests statistiques


Comparaison de deux moyennes : tests de Student (t)

La première chose à faire est de savoir si l’on a affaire à des indépendants ou pairés (design
expérimental)

Echantillons indépendants

Comparer les variances

Via le test de F (= s(1)²/s(2)²) avec ddl 1 et 2 = n-1

Si on obtient un p correct (>0,05 : on ne peut rejeter l’égalité des variances) on conclut que les
variances sont comparables et on les remplace par une variance moyenne (ou variance poolée)
s (= (ddl1 x s1 + ddl2 x s2) / n1+n2 -2

Si les variances ne sont pas comparables, des formules supercompliquées et dépassant le


cadre de cet article permettent de s’en sortir.

Comparer les moyennes en cas de variances « égales »

On utilise le test de student t = [m1 – m2] / (s x √ (1/n1 + 1/n2) ) avec ddl = n1 + n2 – 2

On obtient un p, significatif ?

Exemple :

Etude sur l’HTA avec 2 groupes de 5 placebos (m = 174,4 ; sd = 4,93) et 5 béta-bloquants (m


= 168 ; sd = 3,94)

 Comparer les variances : F = 1,57 avec ddl1 et ddl2 = 4 → p = 0,337 → ok → s =


4,46
 Comparer les moyennes : t = 2,27 avec ddl = 8 → p= 0,053 → p > 0,05 (non
significatif) → Ho (m1 = m2) ne peut pas être rejetée et on ne peut rien conclure !
o on pourrait tenter d’obtenir un p significatif en augmentant les n ou/ et en
augmentant les doses.

Echantillons pairés

Lorsqu’on utilise des groupes de données non indépendantes, on doit utiliser la covariance.
On va en fait calculer les différences entre les deux groupes pour l’éliminer (on élimine ce qui
est commun), et calculer la moyenne et le sd des différences.

On utilise alors le test suivant de student t = m(diff) / √ (s²/n) avec ddl = n-1

Exemple :

 Etude sur l’hypertension artérielle (HTA) avec un seul groupe de 5 patients. On


mesure leur TA avant (G1) et après (G2) l’administration de beta-bloquants.
 → t = 3,66 avec ddl = 4 à p = 0,0216 à on peut rejeter Ho : la différence est
signficative (p < 0,05)

Comparaison de deux proportions : tests de z

Proportions indépendantes

Soit p1 et p2

→ on calcule une proportion moyenne pondérée p = (n1 x p1 + n2 x p2) / n1+n2

→ on utilise le test de z = [p1 – p2] / √( p x (1 – p) x (1/n1+1/n2))

Ex : 2 sondages donnant 38% (n=1000) et 42% (n=500) d’opinions positives → p = 0,393 →


z = 1,495 → p = 0,135 → il n’existe pas de différence significative entre ces deux sondages.

Echantillons pairés

On utilise z = [p1 – p2] / √[p1-p2]

Ex : comparaison des effets de la caféine et d’un placebo sur le sommeil. Tous les sujets
essaient les 2.

 → Caféine : 8 endormissements difficiles, 23 non. Placebo : 1 difficile (alors qu’il


avait facile avec la caféine), 30 non.
 → z = 2,33 à p = 0,019 à on rejette Ho à il existe une différence significative entre le
placebo et la caféine.

Les études observationnelles


Peuvent être classées selon : finalité/ interventions du chercheur/ calendrier (sens temporel)/
durée
Les types d'études observationnelles

Etudes de cohorte = études prospectives

Désavantages : pas de randomisation, nombreux facteurs confondants, 1 seule question peut


être posée, coût, difficile pour les pathologies rares, possibles perte de suivi ou changement de
comportement, études parfoois fort longue (si temps de latence élevé)

Avantages : calcul de risque, information sur l'incidence, pas d’ambiguité temporelle, étude
de la relation dose-effet

→ principale information : taux d’incidence de la maladie

Design : identifier les patients sains à risque (FR), constituer 2 (ou plus) groupes avec ou sans
FR, mesure de l’apparition de la maladie, taux de survenue comparé en fonction de
l’exposition.

Etudes cas-témoins = études rétrospectives

Groupe de malade et groupe contrôle → qui a été exposé aux FR ?

Avantages : permet l’évaluation de causes multiples, adapté pour les pathologies rares ou avec
période de latence élevée, rapide, moins cher, bonne collaboration du patient (nécessite
rarement plus d’1 ou 2 interviews).

Désavantages : données anamnestiques ou sur dossier souvent incomplètes, contrôle des


facteurs externes difficile, appariement pas toujours adéquat.

Rétrospectif → biais : absence de double aveugle, biais de détection, biais de sélection, biais
liés aux différences de traitement (= facteurs déséquilibrant un groupe en faveur de l’autre).
Design : choisir les cas (malades), établir des contrôles témoins (quelques uns par cas),
évaluer chaque groupe à la recherche d’antécédents d’exposition au FR, établir une
association entre l’exposition au FR et l’apparition de la malaadie.

Etudes transversales = études de prévalence

De durée brève : à un moment donné/ sur un événement donné tel que l’embauche, l’entrée à
l’école.

→ Récolte de données pour ce moment sur l’exposition et la maladie à prévalences de la


maladie chez les exposés et chez les non exposés.

Analyse des résultats : tableau de contingence et test du chi2

Tableau de contingence :

Variable 2 positive Variable 2 négative


Total
(svt malade) (svt sain)
Variable 1 positive
a b Total marginal N1
(svt exposition au FR)
Variable 2 négative
(svt non exposition au c d Total marginal N0
FR)
Total Total marginal M1 Total marginal M0 Grand total

→ calculer les proportions : pour une étude prospective : p1 = a/ (a+b) et p2 = c/ (c+d) à p1


est-il différent de p2 ? → Ho : p1 = p2

On pourrait faire un test de z, cependant celui-ci ne permet que de comparer deux proportions
2 à 2. De plus pour un test de z, le design est important : il faut savoir si on est dans le cas
d’une étude prospective, transversale (on doit alors utiliser le grand total comme
dénominateur pour les proportions) ou rétrospective (on doit alors utiliser comme
dénominateurs (a+c) et (b+d) pour les proportions). Le fait qu’on utilise des dénominateurs
différents est dû au fait que le design nous impose des totaux fixés différents

Autre alternative = test du chi². Ses avantages sont :

 Peut s’appliquer quelque soit le nombre de proportions (tableaux à x lignes et y


colonnes)
 Il se calcule de la même façon quelque soit le design de l’étude à si on ne connaît pas
le design, pas de panique : on peut toujours faire un chi²…

Principe du chi² = calculer "ce que le hasard aurait mis comme proportions". Test du chi² =
calculer la relation entre le chiffre attendu (celui que le hasard aurait mis) et celui observé.
Pour obtenir les chiffres que le hasard aurait distribué, il suffit de prendre p = M1/Grand total
et d’appliquer cette proportion à N1 et N0 pour obtenir a et c attendus.

Chi² = ∑ (observé – attendu)²/ attendu avec un ddl = (rangées – 1) x (colonnes – 1)


(chi² = 0 si les nombres observés sont égaux à ceux attendus = différence non significative
avec p = 1)

Exemple d’étude prospective : apparition d’une maladie en fonction de la présence d’un FR.

Exemple d’étude transversale : existe-t-il une relation entre bactériurie et HTA chez la femme
par l’étude d’un échantillon de la population féminine à un moment donné ?

Exemple d’étude rétrospective : étude du rapport entre alcoolisme et cancer de l’œsophage par
étude de dossiers/ anamnèses de cas et témoins.

Evaluation de l'importance de l'effet

Le test du chi² nous permet donc d’établir s’il existe des différences significatives… mais ne
nous renseigne pas sur l’importance de ces différences. Pour cela il faut utiliser d’autres
outils.

La différence de risque (entre le FR et le risque de base) = DR = risque attribuable (RA)


pour les exposés

DR = p1 – p2

Le dénominateur des p varie selon le design de l’étude, de la même façon que pour le test de
z. En outre, la DR ne peut être calculée pour les études rétrospectives (car c’est nous qui
choisissons le rapport malades/témoins)

Le risque relatif = le rapport de risque = RR

RR = p1/ p2

Le dénominateur des p varie selon le design de l’étude, de la même façon que pour le test de
z. En outre, le RR ne peut être calculée pour les études rétrospectives (car c’est nous qui
choisissons le rapport malades/témoins)

Ce qui signifie qu’on à RR x plus de chances de tomber malade si l’on présente le FR.

Le rapport des cotes = le Odds Ratio = le rapport des chances contraires = OR

A la différence des DR et RR, le OR peut être calculé pour les études rétrospectives (car les
différences se simplifient en cours de calcul). Dans le cas d’une étude prospective on parle de
OR de maladie, pour une étude rétrospective de OR d’exposition (au FR) : la signification
diffère, mais le calcul est le même.

C’est le rapport des quotes qu’un événement (ex : maladie) arrivant à un groupe arrive à un
autre.

Si q1 = 1 – p1 et q2 = 1 – p2 : OR = probabilité de gagner / probabilité de perdre = (p1/q1) /


(p2/q2)

Après simplification : OR = a x d / b x c = rapport des produits croisés.


NB : quotes et probabilités :

Selon les cas on peut calculer une « quote en faveur » ou une « quote contre ».

Ex : On veut obtenir un 4 en jetant un dé → p = 1/6 et q = 5/6 → odds en faveur de


l’événement = (1/6) / (5/6) = 0,2 (on perdra 5 fois pour chaque victoire)

Ex : On parie sur un cheval qui a 1/6 chances de gagner → odds contre l’événement = (5/6) /
(1/6) = 5 → quote de 5 contre 1 (on perdra 5 fois pour chaque victoire)

Intervalles de confiance des DR, RR et OR

Un intervalle de confiance peut être calculé autour de chacune de ces données.

DR

Si DR +- 1,96 SE contient le neutre (ici 0) à cela signifie que le p est non significatif

NB : une DR < 0 signifie qu’il s’agit d’un facteur protecteur, > 0 qu’il s’agit d’un FR

RR et OR

Si RR/ OR +- 1,96 contient le neutre (ici 1) à cela signifie que le p est non significatif.

NB : un RR/ OR < 1 signifie qu’il s’agit d’un facteur protecteur, > 1 qu’il s’agit d’un FR

Réduction relative du risque = RRR = fraction étiologique du risque pour les exposés

RRR = % de malades attribuable au FR chez les exposés = part des maladies que l’on pourrait
éviter dans la population à risque en cas d’élimination du FR.

RRR = Risque Attribuable pour les exposés / Risque absolu pour les exposés = [ (a/N1) –
(c/N0) ] / (a/N1) = (p1 – p2) / p1

Le number needed to treat = NNT

Représente le nombre de patients à traiter pour avoir un effet bénéfique chez 1 patient.

Interprétation des résultats

Se méfier de la RRR (souvent présenté par les études des firmes !) car elle amplifie fortement
les répercussions réelles.
Préférer :

 La DR : très significatif si elle est haute


 Le NNT : très significatif s’il est faible. C’est le chiffre le plus important en pratique
car il représente concrètement ce que l’on recherche : un NNT = 5 signifie qu’on aura
un effet bénéfique tous les 5 patients en adoptant le traitement proposé.
o Si < 10 à considéré comme effet significativement positif
o Si entre 10 et 100 → zone floue, difficilement interprétable
o Si > 100 → on considère que le traitement proposé ou l’élimination du FR
n’aura pas d’effet visible

Avoir établit une association (résultat significatif) n’équivaut pas à établir un lien de
causalité ! Pour cela la randomisation est un argument puissant. Cependant, même en
l’absence de randomisation (études cas-témoins par exemple) on peut se baser sur 5 critères
pour établir un lien de causalité :

 Reproductibilité des résultats


 Intensité de la relation (RR important)
 Spécificité (moins il y a de FR impliqué, plus le rôle causal du FR étudié est
vraisemblable)
 Relation temporelle : la cause précède l’effet !
 Plausibilité (biologique, physiopathologique, pharmacologique,…)

Incidence et prévalence

Prévalence = nombre de malades par rapport à la population à un moment donné. = n


malades/ x hab < études transversales

Incidence = nombre de nouveaux malades chaque année dans une population donnée = n cas /
x hab / an < études prospectives

Ces deux concepts apportent des infos très différentes. Ex : l’efficacité du traitement contre le
SIDA n’a pas changé son incidence (reste ~) mais bien sa prévalence (augmentée puisque les
malades survivent bien plus longtemps).

Densité d’incidence : utilise comme dénominateur la durée d’exposition au risque = nombre


de nouveaux cas/ x jours-patients

Taux de mortalité

= nombre de décès par an rapporté à une population donnée en milieu de cette année.

Des taux de mortalités identiques peuvent avoir des significations très différentes selon la
population. Ex : le taux moyen de décès est sensiblement le même (~12%) en Belgique
(population vieille) et au Maroc (population jeune)… alors que le taux de mortalités par
tranche d’âge sont nettement plus élevés au Maroc qu’en Belgique quel que soit l’âge… mais
en Belgique la tranche d’âge des > 50 ans est sur-représentée.

→ Utilisation de :
 Taux de mortalité spécifique par tranche d’âge
 Taux standardisés : le SMR (standardized mortality ratio) présente ce que serait la
mortalité si la population présentait une structure de tranches d’âges "standard"
(généralement celle du monde ou de l’Europe). Il permet des comparaisons entre
régions présentant des vieillissements différents et constitue le gold standard en
matière d’évaluation hospitalière. "calculé comme le rapport du nombre de décès
observé sur le nombre de décès attendus calculé par méthode indirecte"

Taux de létalité

= nombre de décès attribuables à une maladie durant une période donnée / nombre de cas de
cette maladie sur cette période = potentiel létal d’une maladie.

Taux de mortalité proportionnel

= nombre de décès attribuables à une maladie durant une période donnée/ nombre total de
décès dans la population durant la même année. = part de la mortalité totale attribuable à une
cause donnée.

Tableaux de survie démogrpahique et espérance de vie

Un tableau de survie est calculé en partant du taux de mortalité spécifique pour l’âge. On
calcule ensuite ce qui arriverait à la cohorte depuis la naissance si les taux de mortalité
spécifiques pour l’âge s’appliquaient sans modification sur une vie entière.

L’espérance de vie à un âge donné = durée de vie moyenne pour les sujets ayant cet âge.

Essais comparatifs = essais cliniques = études


expérimentales
Effet observé = effet réel + erreur aléatoire (varie selon la puissance) + erreur systématique
(biais = erreurs systématiques généralement involontaire, plus ou moins difficile à déceler, qui
fausse la comparaison de deux groupes, l’évaluation d’un critère diagnostique, etc…)

Phases cliniques du développement d'un médicament

Phases cliniques de développement d’un nouveau médicament :

 phase 1 : détermination de l’innocuité, c'est-à-dire de la dose maximale tolérable. On


utilisera alors en clinique la dose = dose(max) / 2
 phase 2 : étude des effets (thérapeutiques et ES) pour l’administration de la dose
déterminée en phase 1
 phase 3 : comparaison des effets du médicaments vs un placebo ou un autre médoc.
 phase 4 : après la mise sur le marché, évaluation des Es (pharmacovigilance), autres
utilités,…

On va s’intéresser ici aux essais de phase 3.


Méthodes d'échantillonage et randomisation

Il ne faut pas confondre comparabilité (randomisation) et représentativité (technique


d’échantillonnage).

Randomisation = tirage au sort d’individus parmi un groupe pour établir des sous-groupes
comparables. Elle élimine les sources de biais (sauf biais accidentel [déséquilibre entre
traitements lié au hasard seul]). Elle valide les tests statistiques utilisés pour comparer les
traitements.

La représentativité

La représentativité d’un échantillon s’améliore lorsque chaque personne de la population à


une chance égale d’être tirée au sort (échantillon aléatoire simple = méthode probabiliste).

Cependant ce n’est pas toujours le cas. Pour améliorer la représentativité de son échantillon,
on peut alors utiliser des quotas (après avoir étudié la structure de la population). Un exemple
type est la constitution d’un échantillon sur base du volontariat. On s’éloigne encore plus de la
population de base si l’on recrute parmi les patient de l’hopital. Etc.

Le tirage au sort

A l’aide d’un générateur de nombres aléatoires, parmi une base de donnée (ex : tirage au sort
de 40 personnes parmi 1000, pour constituer deux groupes de 20 patients) à distribution de x
patients dans les différents groupes.

La randomisation minimise les biais de sélection (équilibre entre les groupes, aussi bien pour
les facteurs connus qu’inconnus [facteurs inconnus = facteurs confondants]).

La modélisation est différente : il s’agit d’un algorythme permettant d’équilibrer/ d’ajuster les
facteurs connus.

NB :

 dans le cas d’une population bien définie (dont on connait la réponse au traitement
classique = dont on connaît les paramètres) et d’un échantillon aléatoire possible à
besoin d’un seul échantillon aléatoire simple recevant le nouveau traitement à
comparaison à la population
 dans le cas d’une population mal définie et d’un échantillon aléatoire possible à
constitution de deux groupes aléatoires simples à comparaison des deux groupes à
généralisation à la population
 dans le cas d’une population mal définie et d’un échantillon non aléatoire (non
représentatif de la population, ex : patients de l’hopital) à constitution de deux groupes
non aléatoires par randomisation à généralisation uniquement à la population
concernée (ex : patients hospitalisés).

Le placebo
Placebo = médicament factice ne contenant aucune substance active. Effet placebo = placebo
entraînant des effets positifs (amélioration de la maladie non attribuable au hasard ou à
l’évolution naturelle de la maladie = effet bénéfique non spécifique)

Effet nocebo = idem mais entraînant des effets négatifs (ES)

Au sens large, l’effet placebo dépend de :

 facteurs spécifiques à la maladie :


o les effets placebo jouent moins dans les maladies chroniques
 facteurs non spécifiques (sensibilité variable selon les patients, importance variable
selon l’attitude des médecins, l’environnement,…) :
o effet blouse blanche
o effet Hawthorne (le simple fait que le patient participe à une étude et que l’on
s’intéresse à lui accroit sa motivation et peut influencer son état)
o auto-suggestion liée aux croyances et attentes du patient
o hétérosuggestion liée aux croyances et attentes des médecins
o lié à l’apparence et autres caractéristiques du traitement
o lié à l’environnement de l’expérience

L’évaluation de son impact est très important dans les études cliniques car, si un tt A marche
mal mais que l’effet placebo y est très important on conclura à un résultat positif similaire à
celui d’un tt B marchant très bien mais où l’effet placebo n’a pas joué à si on veut pouvoir les
comparer, il faudra établir des groupes placebo pour A et pour B.

L’évaluation médicale finale de l’étude dépend de :

Statut initial du patient + histoire naturelle de la maladie + effet thérapeutique du traitement+


erreurs de mesures

Exemples de l’impact de l’administration d’un placebo : parkinsonisme (6-18%


d’amélioration subjective), angoisse (30% d’amélioration), ulcère GD (55-88%
d’amélioration), douleur (40% d’amélioration [ !!!versus « seulement » 60% pour la
morphine !!!])

Puissance de l'essai clinique


= capacité à détecter une différence entre deux traitements lorsque cette différence existe. P =
1 – erreur β. P doit être supérieure à 80%, elle augmente en fonction du nombre de sujet et de
la dose administrée.

Les biais de l'essai clinique

Biais de sélection

= on a constitué un groupe dont un facteur risque d’influencer la réponse au traitement par


rapport à l’autre groupe. Eliminés par la randomisation.

Biais de susceptibilité

= on a constitué un groupe dont l’état de base risque d’influencer la réponse au traitement par
rapport à l’autre groupe. Eliminés par la randomisation.

Biais de procédure (= de performance)

= l’exposition au traitement n’est pas identique. Ex : administration per os dans un groupe et


IV dans l’autre (effet subjectif différent, compliance différente,…)

Biais de détection (= d'outcome)

= évaluation différente des résultats selon les groupes. Peut être éliminé par la pratique du
« double aveugle »

Biais de transfert

= perte de patients durant l’étude (certains ne viennent plus, ont a du exclure d’autres, on a du
stopper pour certains du fait d’ES,…) à formation d’un déséquilibre entre les deux groupes.

Ils ne peuvent être corrigés mais on peut en tenir compte dans l’analyse des résultats :

 analyse per protocole = exclusion de patients sur base d’infos obtenue après
randomisation à étude l’efficacité pharmacologique… le problème c’est que lorsqu’on
retire des patients de groupes randomisés, on perd l’effet randomisation…
 analyse en intention de traiter = évaluation globale de l’efficacité du traitement : on
considère que les « biais de transfert » seraient également présent dans la réalité… et
que dans ce cas on n’évalue pas seulement l’effet intrinsèque du traitement mais
également la compliance qu’il entraîne, sa facilité d’administration,… C’est la
méthode qui semble la meilleure.
o ainsi, si une infirmière commet une erreur dans l’administration traitement
d’un patient du groupe A, on garde néanmoins le patient dans ce groupe. De
même, si un patient du groupe A meurt fortuitement durant l’étude, on le garde
dans les résultats.

Validité

On peut distinguer :
 la validité interne d’une étude, qui est maximale si l’étude répond à :
o la randomisation
o un groupe contrôle
o procédure en double aveugle
 la validité externe : peut-on généraliser les résultats à la population ? Cela dépend :
o des critères d’inclusions : plus ils sont larges, plus la généralisation prend sens
o de la représentativité de l’échantillon… en pratique l’extrapolation est
rarement possible.

Méta-analyses sur les essais randomisés

La présentation par diagramme de Forest nous apporte de nombreuses informations :

 si l’intervalle de confiance de l’OR contient 1 à non significatif


 un intervalle de confiance trop grand signifie généralement que le nombre de sujets
n’est pas suffisant. En l’augmentant, on peut diminuer l’IC et, éventuellement en
exclure 1…

Test d'hétérogénéité

On fait un test de chi² pour savoir si on peut rejeter Ho (études homogènes). S’il est
significatif cela signifie que les résultats d’au moins une des études n’est pas compatibles
avec les autres. S’il n’est pas significatif, Ho ne peut être rejetée, et on considérera que
l’homogénéité est suffisante pour faire l’analyse.

La variance de chaque étude

Sur le diagramme de Forest, la variance correspond à la boîte sans ses moustaches (plus elle
est grande, plus la variance interne de l’étude est grande).

L'EBM : Evidence Based Médicine

= pratique clinique basée sur les niveaux de preuve des études motivant cette pratique.

Comparaisons multiples et dérives de l'erreur α

Imaginons que nous voulons comparer n échantillons (1 contrôle et 2 traitements p ex)…


peut-on envisager de comparer les échantillons 2 à 2 par des tests t et de rejeter l’hypothèse
d’égalité si au moins un des tests la rejette pour un couple d’échantillon ? Non ! Pourquoi ?
Du fait de l’erreur α : imaginons que les distributions dont sont issus les échantillons soient
effectivement identiques (équivaut à une distribution commune) à on s’attend à ce que les
moyennes des échantillons soient proches de la moyenne de la « distribution commune »…
cependant plus on tire d’échantillons, plus on prend le risque d’en prendre un dans les
extrêmes définis comme non significatifs… et de rejeter à tort l’hypothèse d’égalité… c’est
l’inflation de l’erreur α.

En fait, si on prend p = 0,05 pour une étude (une comparaison), on a pour n comparaisons p =
n x 0,05 x 0,95^n
Ainsi si une telle méthode était appliquée à 3 échantillons (3 comparaisons), l’erreur
résultante serait de 13%... et de 23% pour 4 traitements (6 comparaisons)… ce qui ne peut
être acceptable !

Comment résoudre le problèmes ?

On fait d’abord une analyse de variance (ANOVA) qui permet de dire si une moyenne au
moins diffère significativement des autres (mais on ne sait ni laquelle, ni combien) à on
obtient une valeur de F. Si elle est < 1, on ne rejette pas Ho (moyennes identiques). Si elle est
> 1, il faut alors recourir à une méthode de correction complexe. Diverses méthodes de
correction existent : corrections de Bonferroni, de Sidak, de Tukey, test de student modifié,…

Designs expérimentaux

Essais en parallèles

= étude classique, 2 groupes différents dont on compare les moyennes

Essais croisés = cross over

Dans ce type d’étude, chaque sujet est son propre témoin. à nécessite 2 périodes
d’expérimentation (administration séquentielle de deux traitement).

Les avantages :

 diminution de la variance résiduelle (élimination de la variabilité inter-individuelle)


 nécessite moitié moins de sujets à économies et pratique pour les maladies rares

Les désavantages :

 ne peut s’appliquer à tous les traitements (ex : si le patient est guéri à la première
étape, la seconde est impossible) et il faut que la maladie n’évolue pas entre les
traitements.
 Effet carry-over : le traitement A n’aurait-il pas continué à agir durant le traitement B,
ou du moins modifié son activité ?

→ Evaluation statistique difficile nécessitant des outils particuliers.

Designs factoriels

= cas particulier de stratification. Consiste incluant au moins deux facteurs. x^y

Ex : design factoriel 2² : double randomisation sur des patients atteints d’un cancer rectal :

 Randomisation 1 à 2 groupes : radiothérapie et pas de RXth


 Randomisation 2 de chacun de ces deux groupes à Chimiothérapie et contrôle
 → au final : 4 groupes : contrôle, RXth, Chth, RXth + Chth

Estimation de l’effet des traitements a et b pour un 2² avec 4 groupes X Xb Xa et Xab :


 Effet du traitement A = ½ x [ (Xa-X) + (Xab-Xb) ]
 Interaction AxB = [ (Xab-Xb) – (Xa-X) ] = [ (Xab-Xa) – (Xb-X) ]

Avantages :

 Plus efficient qu’un design en parallèle car il permet d’obtenir une précision
équivalente avec moins de mesures (donc de sujets) : pour un 2², 4 mesures permettent
d’obtenir la même précision qu’avec 6 en parallèle. Il nécessite cependant plus de
sujets qu’un crossing-over. Si un design parallèle nécessite (pour une puissance
identique) 1 sujet, le cross-over (2x2) en nécessite 0,5 et le design factoriel (2²)
0,66667
 Permet d’estimer les interactions entre plusieurs médocs (effet synergique ou
antagoniste) ou l’absence d’interaction (simple effet additif).
 Peut-être utilisé pour des tts qui n’ont rien à voir, dans le seul but de diminuer le
nombre de sujets (on traite alors les données séparément et on publie 2 études)

L'analyse séquentielle

Dans un essai séquentiel, le nombre de sujets n’est pas calculé au préalable : l’essai est
analysé de manière répétée (tous les x patients inclus) au fur et à mesure de l’obtention des
résultats et l’on recrute les patients paquets par paquets. Chaque analyse intermédiaire porte
sur l’ensemble des sujets inclus depuis le début de l’essai, et 2 statistiques sont calculées : la
différence entre les traitements (Z) et la quantité d’infos accumulées (V), ce qui permet
d’obtenir un point pour chaque analyse. Le design séquentiel est délimité par des frontières,
calculées par un test triangulaire uni- ou bilatéral et dépendent des taux d’erreurs α et β, de la
différence à mettre en évidence, de la fréquence des analyses intermédiaires prévues. Lorsque
le trajet reliant les points franchit une frontière, l’essai est arrêté et la conclusion obtenue.

Ce type d’essai permet généralement de réduire le nombre de sujets nécessaires.

Pose cependant des problèmes : si le recrutement (période d’inclusion) dure 2 ans et que le tt a
un effet déjà 2 mois après le début, peut-on garder les autres sous placebo (éthique) ? De plus,
lorsque les périodes d’inclusion sont très longues, le mode de vie des sujets est susceptible de
se modifier. Si lors des analyses intermédiaires, Z est trop petit, on doit arrêter (augmentation
de n !!!). Idem pour un Z très grand (d’évidence très efficace ou trop toxique).

En outre, si on multiplie les analyses intermédiaire, on assiste à une dérive de l’erreur α à on


doit imposer des p très faibles aux premières analyses intermédiaires pour pouvoir obtenir un
p < 0,05 au final.

Les essais d'équivalence

Lorsque dans un essai classique, la supériorité n’est pas significative, il peut être tentant de
conclure à une équivalence… mais :

 La puissance peut-être insuffisante


 Conclure ainsi revient à changer d’hypothèse (on testait une hypothèse de différence)
 Les contraintes d’un essai d’équivalence sont différentes de celles d’un essai de
supériorité
Les essais d’équivalence ne concluent pas à une efficacité identique par rapport au tt de
référence mais à une efficacité suffisante (pas de différence importante d’un point de vue
clinique).

Il s’agit de tests unilatéraux (Ho : (m1 – m2) < -delta à p < 0,025 indique une équivalence
significative.

Pour démontrer l’équivalence, il faut :

 Que l’IC à 95% centré sur la différence observée soit compris entre –delta et +delta
 Que l’IC à 95% centré sur la différence observée ne contienne pas 0

La décision médicale
Le théorème de Bayes (théorème de l’inversion des probabilités
conditionnelles) et les valeurs prédictives

Notion importante : chance à priori (prévalence) et chance à posteriori (VPP) après un


premier test. Ex : patient fumeur 51 ans avec douleur thoracique → chance à priori d’un
infarctus = 0,5 → enzymes et ECG + → chance à posteriori > 0,9. Mais si patient sportif de
19 ans avec douleur thoracique → chance à priori < 0,2 → enzymes et ECG + → chance à
posteriori > 0,4. La démarche clinique doit consister à faire augmenter la chance à posteriori.

Le théorème de Bayes permet de calculer la probabilité des causes à posteriori (maladies si


présence d’un signe/ symptôme = VPP) à partir de la connaissance de :

 La probabilité de l’effet (symptômes, signes) lorsque la cause (maladie) est présente (=


la sensibilité du signe, dans chacune des maladies comportant ce signe).
 La probabilité à priori des causes (prévalences des maladies présentant ce signe).

Pr (M1/S) = Pr (S/M1) x Pr (M1) / ∑de i=1 à k [ Pr (S/Mi) x Pr (Mi) ]

Ex concret : homme de 60 ans non fumeur avec une toux chronique. La biopsie pulmonaire
est compatible avec un cancer bronchique ou une sarcoïdose. On a :

 P (toux / bonne santé) = 0,001


 P (toux/ néoplasie) = 0,9
 P (toux/ sarcoïdose) = 0,9
 P (bonne santé) = 0,99
 P (néoplasie) = 0,001
 P (sarcoïdose) = 0,009

→ On peut calculer les différentes probabilités à posteriori :

 P (bonne santé / toux) = 0,001 x 0,99 / (0,001 x 0,99 + 0,9 x 0,001 + 0,9 x 0,009) =
0,099 = 10%
 P (néoplasie / toux) = 0,09 = 10%
 P (sarcoïdose/ toux) = 0,811 = 80%
Même cas mais fumeur (prévalences différentes) → BS : 5%, néo : 71%, sarcoïdose : 24%

! En dehors des cas où les sensibilités et spécificités des tests = 100%, la VPP diminue très
vite avec la diminution de la prévalence. Un test négatif avec une prévalence très basse à
grande chance d’un vrai négatif (VPN très élevé). Un test positif avec une prévalence très
élevée à grande chance d’un vrai positif.

Les sensibilités et spécificités sont donc des propriétés intrinsèques d’un test. Les propriétés
extrinsèques étant :

 Statiques : VPP et VPN


 Dynamiques : rapports de vraisemblance d’un test positif et d’un test négatif.

VPN et VPP

 La VPP = valeur prédictive positive = probabilité que le patient soit malade si le test
est positif
o VPP = VP / (VP + FP)
 La VPN = valeur prédictive négative = probabilité que le patient ne soit pas malade si
le test est négatif
o VPN = VN / (VN + FN)

Les rapports de vraisemblance : Likehood Ratio

Autre moyen de résumer la sensibilité et la spécificité. Alternative à la courbe ROC (cf


épidémiologie).

On définit :

 Le LR positif = VP / FP = (sensibilité) / (1- spécificité)


o = proportion entre la probabilité d’avoir un test positif chez un malade et la
probabilité d’avoir un test positif chez un non malade
 Le LR négatif = FN / VN = (1 – sensibilité) / (spécificité)
o = proportion entre la probabilité d’avoir un test négatif chez un malade et la
probabilité d’avoir un test négatif chez un non malade

Ces rapports de vraisemblance sont également indépendants de la prévalence et permettront


de calculer les VPP et VPN.

Ils offrent une aide précieuse à la décision diagnostique. Ex : un test avec un LR+ = 2,3 à
signifie que si le test est positif, il est 2,3 x plus probable que le patient soit malade plutôt
qu’il ne le soit pas. Ex : un test avec un LR- = 0,2 à signifie que si le test est négatif, il est 0,2
x plus probable que le patient soit malade plutôt qu’il ne le soit pas (autrement dit : il est 5 x
plus probable que le patient ne soit pas malade plutôt qu’il ne le soit).

Valeurs seuil et choix d'un test diagnostic

Il n'y a pas de choix univoque, chaque cas clinique étant particulier. De manière générale, on
peut dégager quatre postulats relatifs au choix pratique des tests (Galen et Gambino) :
 Un test sensible est à préférer si :
o Maladie grave et accessible à un traitement potentiellement efficace
o Lorsque le fait de savoir qu’on n’a pas la maladie a une importance sanitaire
o Lorsque les résultats faussement positifs n’ont pas de conséquences
économiques ou psychologiques pour le patient
o Ex : phénylcétonurie, tuberculose,...
 Un test spécifique est à préférer si :
o Maladie non ou difficilement curable
o Lorsque les résultats faussement positifs peuvent être économiquement ou
psychologiquement traumatisants
o Ex : sclérose en plaques, cancer broncho-pulmonaire,...
 Un test avec une VPP très élevée est à préférer si le traitement des patients a des
conséquences graves et irréversibles
o Ex : lobectomie pour suspicion de cancer pulmonaire
 Un test optimal (PCC maximal) doit être préféré
o Lorsque la maladie est grave mais curable
o Lorsque les résultats faussement positifs et faussement négatifs sont tous deux
traumatisants et ont des conséquences graves
o Ex : diabète de type I, infarctus myocardique.

Une forte sensibilité (peu de FN) est souhaitable lorsque l’on veut exclure la maladie, une
forte spécificité (peu de FP) est souhaitable lorsque l’on veut confirmer une maladie.

Régression vers la moyenne = répétition des tests

Lorsqu’une maladie est rare, on se méfie des tests positifs. Lorsqu’une maladie est fréquente,
on se méfie des tests négatifs → intérêt de recontrôler.

Stratégie en série

Soit deux tests t1 et t2. Soit T l'interprétation des deux tests. Deux tests t1 et t2 sont dit mis en
série si l'interprétation T est jugée positive lorsque t1 et t2 sont positifs et négative lorsque t1
ou t2 est négatif. Elle implique une perte de sensibilité. Surtout intéréressant pour affirmer
raisonnablement la présence d'un trouble rare (contrôle des tests positifs).

Ex : Populations à faible prévalence → faible VPP → on répète plusieurs fois le même test
sur les sujets détectés + → amélioration de la VPP. Test avec sensibilité de 90% sur
prévalence de 10% à VPP = 50% ! Aucun intérêt pratique ! Mais si on le répète sur les sujets
+ → VPP = 90%. Si on le répète encore → VPP = 98,78% !

Stratégie en parallèle

Soit deux tests t1 et t2. Soit T l'interprétation des deux tests. Deux tests t1 et t2 sont dit mis en
parallèle si l'interprétation T est jugée positive lorsque t1 ou t2 est positif et négative lorsque
t1 et t2 sont négatifs. Elle n'implique pas de perte de sensibilité. Surtout intéréressant pour
affirmer raisonnablement l'absence d'un trouble fréquent (contrôle des tests négatifs).

Ex : Populations → haute prévalence à faible VPN → on répète plusieurs fois le même test
sur les sujets détectés - → amélioration de la VPN. Test avec sensibilité de 90% pour une
prévalence de 90% → VPN = 50% → on refait encore le test 2x → VPN = 98,9% !
Combinaison de plusieurs tests en série

En cas de faible prévalence, appliquer le plus sensible en premier → minimise les faux
positifs de T, maximise la VPP

Ex : HIV (prévalence = 0,03%)? Test Elisa (sensibilité = 97%) → VPP = 12,7% + Western
Blot (sensibilité = 95%) → VPP = 99,93%

Combinaison de plusieurs tests en parallèle

En cas de haute prévalence, appliquer le plus sensible en premier → minimise les faux
négatifs de T, maximise la VPN

Ex : toxicomane HIV (prévalence = 60%) ? Test Elisa → VPN = 95,68% + Western Blot →
VPN = 99,77%

Courbes ROC (Reveiver Operating Curve) : choix d'un seuil (et donc d'une
sensibilité et d'une spécificité)

Courbe ROC = graphique montrant le tracé des valeurs de la sensibilité en fonction de (1 - la


spécificité) pour chaque valeur seuil donnée.

Le « point le plus discriminant » correspond à celui qui présente la SSC (surface sous la
courbe) la plus élevée. Le point idéal est le coin supérieur gauche (spécificité = sensibilité =
1) à on choisit le point de la courbe le plus proche du coin supérieur gauche.

En pratique, on ne choisit pas toujours ce point : il peut être important de privilégier la


spécificité (traitement très toxique,…) ou la sensibilité (maladie à évolution fatale rapide,…).
On choisit alors un autre point sur la courbe.
 Courbe A (diagonale d’égalité) : le meilleur point correspond à une sensibilité =
spécificité = 0,5 à cette courbe correspond à un test totalement inefficace : il y a autant
de gens sains déclarés malades que non malades et autant de gens malades déclarés
sains que malades.
 Courbe B : correspond à la courbe de température comme test diagnostique pour la
grippe. Le meilleur point correspond à une sensibilité = 0,65 et une spécificité = 0,75,
valeurs déterminées pour un seuil de 39°C.
 Courbe C correspond à un test presqu’idéal, permettant d’obtenir des valeurs très
élevées de spécificité et de sensibilité. Ex : dosage des CK et infarctus.

La courbe ROC offre donc une estimation globale de la valeur d’un séparateur et peut
comparer la valeur discriminante de deux tests.

Approche bayesienne des essais cliniques versus approche fréquentiste

L'approche fréquentiste nécessite un p < 0,05. L'approche Bayesienne un p > 0,95.

La probabilité à priori est ici difficile à cerner, il s’agit plutôt d’une probabilité subjective
(degré de croyance en l’efficacité du tt avant de l’évaluer). Elle peut s’assimiler à la fréquence
moyenne des résultats positifs obtenus avec les essais thérapeutiques. La valeur prédictive
dépend ici de la probabilité à priori (en cas de situation très spéculative où l’essai est réalisé
sans qu’il y ait de justification à priori, elle est très faible (une proba à priori de 50% revient à
adopter une approche fréquentiste simple traditionnelle) à la VP sera faible même en cas de
résultat hautement significatif) mais aussi de la puissance de l’essai (augmente avec la
puissance).

Pour un essai de phase III, la proba à priori d’efficacité est > 90% à la VPP d’un résultat
significatif sera très importante.
La régression et la corrélation
Régression : l’analyse de régression est un outil pour étudier et mesurer la relation existant
entre des variables

Variable dépendante : variable prédite Y par une ou plusieurs variables indépendantes X (=


prédicteurs)

Variable(s) indépendante(s) : variable(s) X utilisées pour prédire la variable dépendante.

Estimation des paramètres d’une régression linéaire (en cas de variable dépendante continue) :
Y= a + bX tel que b soit la pente (dY/dX) de la droite de régression et a l’interception avec
l’axe des Y pour X=0. L’estimation se fait par la méthode des moindres carrés (minimiser le
carré des distances par rapport à la droite

Corrélation : le coefficient de corrélation simple (r) est une mesure de l’intensité de la relation
linéaire entre deux variables aléatoires. Il varie de -1 (pente négative -45°) à 1 (pente positive
45°), 0 indiquant l’absence de relation linéaire. (NB : une interprétation d’un r multiple est
moins évidente)

 ! une corrélation significative n’indique pas forcément une relation causale ! Et s’il y a
causalité, on n’en connaît pas le sens (savoir ce qui est la cause et l’effet relève de
l’interprétation biologique).
 Une corrélation peut être faussement significative lorsque les 2 variables X et Y
partagent la même variable (= couplage mathématique). Ex : transport et
consommation d’O2 dépendent tous deux du débit cardiaque.
 r(X,Y) = covariance / produit des racines carrées des variances = Sxy/ √[Sx² x Sy²]

On peut tester la signification de r par comparaison avec 0 (absence de signification). On


utilise le test :

t = (r/ √[1-r²] ) x √[n-2] tel que n-2 soit le d.d.l. avec n = nombre de couples (x,y). Ho : r = 0

! Pour s’assurer qu’un résultat soit significatif, il faut non seulement un p< 0,05 mais aussi
que l’équation Y=a+bX ait un sens biologique, soit vraisemblable.

Une fois que l’on a déterminé la droite par la méthode des moindres carrés, on peut
déterminer la bande de confiance à 95% (2 courbes entourant la droite) concernant la pente de
la droite. On peut également déterminer la bande de prédiction à 95% (contenant 95% des
points)

Coefficient de détermination r² : varie entre 0 et 1. Correspond au pourcentage des


changements de y expliqués par x. Ex : Y : TAS, X : âge, r = 0,718, r² = 0,516 à 51,6% de la
variation de la TAS s’explique par la variation de l’âge (48,4% expliqués par d’autres facteurs
[obésité, pratique d’un sport, génet, tabagisme,…].

La régression linéaire multiple : son principe est de construire une équation avec plusieurs
prédicteurs pour prédire une variable continue. Ex : prédire la TAS selon l’âge, le poids, le
sexe,… Y = b0 + b1 X1 + b2 X2 +… tels que les b soient des paramètres (= coefficient de
régression partielle) et les X les variables. Chaque coefficient peut alors faire l’objet d’un test
qui, s’il est significatif, signifie que la variable y correspondant a une valeur pronostique pour
Y. On peut calculer un r multiple et un r² multiple, ainsi qu’un r² ajusté.

La régression logistique repose sur le même principe que la régression linéaire mais est
utilisable lorsque la variable dépendante Y est dichotomique (qualitative à deux niveaux =
variable discrète, non continue). Ex : présence (1) ou absence (0) de coronopathies en
fonction de l’âge. On utilise alors un graphes de proportions de coronopathies (donc une
variable continue) en fonction de l’âge à sigmoïde, qu’on peut transformer en droite par la
régression logistique, on obtient alors un graphe de logit (proportion) en fonction de l’âge.

Ex : le score APACHE (calculé à l’admission en USI pour prédire la mortalité en fonction de


ce score et de l’affection dont souffre le patient) est calculé selon une équation de régression
logistique multivariable.

Les études longitudinales de survie


Définitions

 Durée de survie = temps écoulé entre naissance et la mort. Dans ces études elle
commence au début du diagnostic/ début du traitement (= date d’origine)
 Date des dernières nouvelles = date la plus récente où l’on a recueillie des
renseignements sur la santé du patient
 Date de point = date choisie pour calculer la durée de survie
 Durée de surveillance = délai entre la date d’origine et la date des dernières nouvelles
 Durée de participation = délai entre la date d’origine et la date des dernières nouvelles
ou la date de point (on prend la date la plus tardive).
 Statuts du patient :
o Perdu de vue : dont on ne connaît pas l’état de santé à la date de point (à source
de perte d’infos et de biais)
o Exclu-vivant : sujet vivant à la date de point et après cette date
o Observations censurées = sujets perdu de vue et exclu-vivant
o Décédé : décès avant la date de point

Courbes de survie non paramétriques de Kaplan Meier

« Etre encore en vie après l’instant t, c’est être en vie juste avant l’instant t et ne pas mourir à
l’instant t » [oui, bon...]

Pour estimer la fonction de survie S(t) d’une population à partir d’un échantillon de taille n, il
faut classer les observations par ordre croissant de temps de participation. On définit :

 ti : les instants auxquels les décès sont observés


 ni le nombre de sujets en vie juste avant ti = nbre de sujets exposés au risque de
décéder à ti
 mi le nombre de décès à ti
 ci le nombre de données censurées (perdus de vue et exclus-vivants) entre [ti et ti+1[
→ taux de décès instantané = nbre de décès dans l’intervalle / (nbre de sujets – nbre de
censurés et de décédés au cours des périodes précédentes) à taux de survie pour la période à
taux de survie globale.

On peut comparer deux courbes de survie grâce au test du Logrank (ex : pour un groupe traité
et un groupe placebo)

Courbes de survie par la méthode actuarielle (Bohmer)

Différence avec la méthode de Kaplan : les probabilités conditionnelles sont estimées pour
des intervalles de temps fixés à priori et non pas par les dates des décès observés

Courbes de survie par le modèle de Cox = régression de Cox (semi-


paramétrique)

Permet la prise en compte simultanée de plusieurs variables pour expliquer la survie, sans
donner aux fonctions de survie des formes paramétriques précises. à ajustement selon l’âge, le
sexe,.. + permet l’identification des variables pronostiques pertinentes.

Egalement appelé modèle des risques proportionnels car il assume que chaque facteur
affectant le risque l’affecte du même rapport à tout instant.

Vous aimerez peut-être aussi