Académique Documents
Professionnel Documents
Culture Documents
Cet article n'a pas pour but de constituer un cours de statistiques (médecin est un métier,
statisticien en est un autre). La réalisation des études médicales les plus simples passe par
l'usage de tables pré-établies pour les différents tests statistiques ou de logiciels, les plus
complexes par la collaboration avec des épidémiologistes, mieux formés aux statistiques, ou
de véritables statisticiens. Face à la croissance exponentielle des publications et l'usage qui en
est fait (quel médecin ne s'est-il jamais retrouvé au détour d'un couloir face à un représentant
pharmaceutique lui mettant sous le nez une étude mal réalisée, dont une partie des résultats
n'étaient pas significatifs ou dont des résultats significatifs n'étaient de signification que
négligeable ? quel médecin n'a t-il pas été choqué par les scandales ayant aboutit à la
dépublication en masse d'articles non pas simplement "erronés" mais véritablement
frauduleux par des revues prestigieuses ?), tout médecin doit cependant pouvoir appréhender
différents concepts lui permettant de comprendre et interpréter les résultats d'une étude
médicale voire de réaliser seul des études simples.
Cet article n'a par ailleurs de sens que mis en articulation avec l'article consacré à
l'épidémiologie médicale dont les éléments sont plus faciles d'accès et de plus grande
importance pour la pratique clinique.
Introduction
Terminologie
Hasard signifie "jeu de dé" en arabe, traduisant un événement dont l'issue est imprévisible.
Population et échantillon :
Les biais sont des erreurs systématiques liées à la constitution de l’échantillon ou à la mesure
(technique, mauvais tarage, appareils différents…) et sont corrigibles, différents donc de
l’erreur aléatoire, non corrigible.
Distributions :
o Des variables continues : distributions gaussienne (= normale), logarythmico-
normale
Distribution gaussienne : on construit une courbe de probabilité basée
sur une loi de distribution postulant que l’intervalle de prédiction [m +-
s] contient 68% des valeurs et [m +- 2s] contient 95% des valeurs. La
surface totale étant de 100% et la médiane = le mode = la moyenne.
o Des variables discrètes : distributions hypergéométriques, binomiales, de
Poisson
Lois de probabilités sur de petits échantillons : tests de student, du chi², de Fisher,…
nécessitent un degré de liberté (d.d.l.)
Il existe des tests paramétriques (= test statistique dont le calcul est basé sur les paramètres.
Supposant un écart-type sd symétrique de part et d’autre de la moyenne m) et non
paramétriques (test statistique dont le calcul n’est pas basé sur les paramètres mais sur les
rangs pour la comparaison de deux ou plusieurs groupes dont la distribution des valeurs
observées n’est pas gaussienne).
Est variable tout ce qui varie dans un exemple de donné. Qualifiée d’aléatoire si les valeurs
qu’elle peut prendre fluctuent au hasard.
Plus la valeur (moyenne – médiane) est éloignée de 0, plus la série est asymétrique.
Indépendance et covariance
Deux variables sont indépendantes lorsqu’il n’existe pas de corrélation entre leurs séries de
valeurs (les variations d’une variable Y ne sont pas liées aux variations de la variable X).
L’indépendance traduit donc que la connaissance de la réalisation d’un événement ne nous
donne aucune information sur la réalisation d’un autre événement. Cette notion est importante
car elle déterminera notamment le mode de calcul du test statistique utilisé pour la
comparaison de deux moyennes.
Cov = ( (Xi – m1) x (Yi – m2) ) / (n – 1)… Une covariance = 0 signifie que les deux
variables aléatoires sont indépendantes. Cependant, ce paramètre doit encore être transformé
pour être facilement interprété : on calcule le Coefficient de corrélation : r = cov /
( √variance1 x √variance2).
Si ce coefficient est proche de ses valeurs extrêmes 1 ou -1, il existe une corrélation directe ou
inverse (souvent une relation causale).
Imaginons une population (µ, σ) dont on tire n échantillons (m(n), sd(n)). On peut alors
construire une « superdistribution » avec une « supermoyenne » m (estimant µ) et une « erreur
standard » SE = sd/ √n (« super écart-type » estimant SE = σ/√n).
On peut raisonner de la même façon pour une proportion, les paramètres étant alors p et SE,
estimations de pi et SE.
SE = (√ (p x (1 – p))) / √n
La variance étant p x (1 – p)
Statistiques inférentielles
Formulation d'hypothèses (tests d'hypothèse = test de signification)
Une hypothèse statistique est une assertion concernant la distribution d’une ou plusieurs
variables aléatoires.
Les tests statistiques ne nous permettent que de rejeter une hypothèse avec un certain degré de
certitude. Si l’on se pose une question (HA), il faut donc tester l’hypothèse alternative
(inverse) (Ho) pour voir si l’on peut la rejeter avec un degré de certitude suffisant. Ainsi, si
l’on veut démontrer l’existence d’une différence, on part d’une hypothèse nulle Ho (postulant
l’absence de différence = les différences observées peuvent être expliquées par le hasard)
qu’on va essayer de rejeter par un test statistique… On obtient alors une valeur de p. Si :
On distingue les
Tests d’égalité = d’homogénéité (vérifier si l’écart entre les moyennes de deux échantillés
peut-être considéré comme fortuit), de conformité (vérifier si un échantillon peut être
considéré comme extrait d’une population), d’indépendance (vérifier l’indépendance
stochastique de deux ou plus critères de classification), d’ajustement (vérifier si un échantillon
suit à tout point de vue une distribution donnée : gaussienne, de Poisson,…).
Erreurs et fluctuations d'échantillonnage
Erreur de type 1: α
Les fluctuations d’échantillonnages sont liées au hasard et peuvent nous conduire à conclure
qu’il existe une différence, même en l’absence de différence réelle ! Le fait de choisir p = 0,05
limite cette erreur α à 5%, chiffre arbitrairement choisit comme seuil international de
signification.
= rejeter Ho alors qu’elle est vraie (p < 0,05… mais pas de bol on est en plein dans ce 0,05…)
Erreur de type 2 : β
Inversement, ces fluctuations peuvent nous conduire à conclure qu’il n’existe pas de
différence, alors qu’il existe une différence réelle ! Cette erreur, elle, n’est pas fixée, mais
dépend du nombre de sujets (augmenter n revient à reserrer les distributions) et de
l’importance de la différence (l’erreur de type 2 baisse si la différence est plus importante, ce
qui peut être obtenu en augmentant par exemple la dose d’un médicament versus placebo). On
a arbitrairement choisit une valeur maximale de β = 20% comme acceptable.
Autre façon de quantifier l’erreur de type 2 : puissance = 1 – β. La puissance d’une étude doit
donc être supérieure à 80% pour être considérée comme suffisante, ce qui signifie qu’il y 80%
de chances de mettre en évidence une différence significative si elle existe.
Certains calculs permettent de déterminer une taille n de l’échantillon ou une dose nécessaire
pour obtenir une puissance suffisante.
p renseigne sur l’importance du hasard dans les résultats (ex : il existe une différence entre les
groupes placebo et médiqué), mais pas sur l’importance de ces résultats (ex : forte ou faible
différence). Il peut exister une différence significative mais sans/peu d’importance clinique.
Inversement, une différence non significative peut avoir une importance clinique.
La première chose à faire est de savoir si l’on a affaire à des indépendants ou pairés (design
expérimental)
Echantillons indépendants
Si on obtient un p correct (>0,05 : on ne peut rejeter l’égalité des variances) on conclut que les
variances sont comparables et on les remplace par une variance moyenne (ou variance poolée)
s (= (ddl1 x s1 + ddl2 x s2) / n1+n2 -2
On obtient un p, significatif ?
Exemple :
Echantillons pairés
Lorsqu’on utilise des groupes de données non indépendantes, on doit utiliser la covariance.
On va en fait calculer les différences entre les deux groupes pour l’éliminer (on élimine ce qui
est commun), et calculer la moyenne et le sd des différences.
On utilise alors le test suivant de student t = m(diff) / √ (s²/n) avec ddl = n-1
Exemple :
Proportions indépendantes
Soit p1 et p2
Echantillons pairés
Ex : comparaison des effets de la caféine et d’un placebo sur le sommeil. Tous les sujets
essaient les 2.
Avantages : calcul de risque, information sur l'incidence, pas d’ambiguité temporelle, étude
de la relation dose-effet
Design : identifier les patients sains à risque (FR), constituer 2 (ou plus) groupes avec ou sans
FR, mesure de l’apparition de la maladie, taux de survenue comparé en fonction de
l’exposition.
Avantages : permet l’évaluation de causes multiples, adapté pour les pathologies rares ou avec
période de latence élevée, rapide, moins cher, bonne collaboration du patient (nécessite
rarement plus d’1 ou 2 interviews).
Rétrospectif → biais : absence de double aveugle, biais de détection, biais de sélection, biais
liés aux différences de traitement (= facteurs déséquilibrant un groupe en faveur de l’autre).
Design : choisir les cas (malades), établir des contrôles témoins (quelques uns par cas),
évaluer chaque groupe à la recherche d’antécédents d’exposition au FR, établir une
association entre l’exposition au FR et l’apparition de la malaadie.
De durée brève : à un moment donné/ sur un événement donné tel que l’embauche, l’entrée à
l’école.
Tableau de contingence :
On pourrait faire un test de z, cependant celui-ci ne permet que de comparer deux proportions
2 à 2. De plus pour un test de z, le design est important : il faut savoir si on est dans le cas
d’une étude prospective, transversale (on doit alors utiliser le grand total comme
dénominateur pour les proportions) ou rétrospective (on doit alors utiliser comme
dénominateurs (a+c) et (b+d) pour les proportions). Le fait qu’on utilise des dénominateurs
différents est dû au fait que le design nous impose des totaux fixés différents
Principe du chi² = calculer "ce que le hasard aurait mis comme proportions". Test du chi² =
calculer la relation entre le chiffre attendu (celui que le hasard aurait mis) et celui observé.
Pour obtenir les chiffres que le hasard aurait distribué, il suffit de prendre p = M1/Grand total
et d’appliquer cette proportion à N1 et N0 pour obtenir a et c attendus.
Exemple d’étude prospective : apparition d’une maladie en fonction de la présence d’un FR.
Exemple d’étude transversale : existe-t-il une relation entre bactériurie et HTA chez la femme
par l’étude d’un échantillon de la population féminine à un moment donné ?
Exemple d’étude rétrospective : étude du rapport entre alcoolisme et cancer de l’œsophage par
étude de dossiers/ anamnèses de cas et témoins.
Le test du chi² nous permet donc d’établir s’il existe des différences significatives… mais ne
nous renseigne pas sur l’importance de ces différences. Pour cela il faut utiliser d’autres
outils.
DR = p1 – p2
Le dénominateur des p varie selon le design de l’étude, de la même façon que pour le test de
z. En outre, la DR ne peut être calculée pour les études rétrospectives (car c’est nous qui
choisissons le rapport malades/témoins)
RR = p1/ p2
Le dénominateur des p varie selon le design de l’étude, de la même façon que pour le test de
z. En outre, le RR ne peut être calculée pour les études rétrospectives (car c’est nous qui
choisissons le rapport malades/témoins)
Ce qui signifie qu’on à RR x plus de chances de tomber malade si l’on présente le FR.
A la différence des DR et RR, le OR peut être calculé pour les études rétrospectives (car les
différences se simplifient en cours de calcul). Dans le cas d’une étude prospective on parle de
OR de maladie, pour une étude rétrospective de OR d’exposition (au FR) : la signification
diffère, mais le calcul est le même.
C’est le rapport des quotes qu’un événement (ex : maladie) arrivant à un groupe arrive à un
autre.
Selon les cas on peut calculer une « quote en faveur » ou une « quote contre ».
Ex : On parie sur un cheval qui a 1/6 chances de gagner → odds contre l’événement = (5/6) /
(1/6) = 5 → quote de 5 contre 1 (on perdra 5 fois pour chaque victoire)
DR
Si DR +- 1,96 SE contient le neutre (ici 0) à cela signifie que le p est non significatif
NB : une DR < 0 signifie qu’il s’agit d’un facteur protecteur, > 0 qu’il s’agit d’un FR
RR et OR
Si RR/ OR +- 1,96 contient le neutre (ici 1) à cela signifie que le p est non significatif.
NB : un RR/ OR < 1 signifie qu’il s’agit d’un facteur protecteur, > 1 qu’il s’agit d’un FR
Réduction relative du risque = RRR = fraction étiologique du risque pour les exposés
RRR = % de malades attribuable au FR chez les exposés = part des maladies que l’on pourrait
éviter dans la population à risque en cas d’élimination du FR.
RRR = Risque Attribuable pour les exposés / Risque absolu pour les exposés = [ (a/N1) –
(c/N0) ] / (a/N1) = (p1 – p2) / p1
Représente le nombre de patients à traiter pour avoir un effet bénéfique chez 1 patient.
Se méfier de la RRR (souvent présenté par les études des firmes !) car elle amplifie fortement
les répercussions réelles.
Préférer :
Avoir établit une association (résultat significatif) n’équivaut pas à établir un lien de
causalité ! Pour cela la randomisation est un argument puissant. Cependant, même en
l’absence de randomisation (études cas-témoins par exemple) on peut se baser sur 5 critères
pour établir un lien de causalité :
Incidence et prévalence
Incidence = nombre de nouveaux malades chaque année dans une population donnée = n cas /
x hab / an < études prospectives
Ces deux concepts apportent des infos très différentes. Ex : l’efficacité du traitement contre le
SIDA n’a pas changé son incidence (reste ~) mais bien sa prévalence (augmentée puisque les
malades survivent bien plus longtemps).
Taux de mortalité
= nombre de décès par an rapporté à une population donnée en milieu de cette année.
Des taux de mortalités identiques peuvent avoir des significations très différentes selon la
population. Ex : le taux moyen de décès est sensiblement le même (~12%) en Belgique
(population vieille) et au Maroc (population jeune)… alors que le taux de mortalités par
tranche d’âge sont nettement plus élevés au Maroc qu’en Belgique quel que soit l’âge… mais
en Belgique la tranche d’âge des > 50 ans est sur-représentée.
→ Utilisation de :
Taux de mortalité spécifique par tranche d’âge
Taux standardisés : le SMR (standardized mortality ratio) présente ce que serait la
mortalité si la population présentait une structure de tranches d’âges "standard"
(généralement celle du monde ou de l’Europe). Il permet des comparaisons entre
régions présentant des vieillissements différents et constitue le gold standard en
matière d’évaluation hospitalière. "calculé comme le rapport du nombre de décès
observé sur le nombre de décès attendus calculé par méthode indirecte"
Taux de létalité
= nombre de décès attribuables à une maladie durant une période donnée / nombre de cas de
cette maladie sur cette période = potentiel létal d’une maladie.
= nombre de décès attribuables à une maladie durant une période donnée/ nombre total de
décès dans la population durant la même année. = part de la mortalité totale attribuable à une
cause donnée.
Un tableau de survie est calculé en partant du taux de mortalité spécifique pour l’âge. On
calcule ensuite ce qui arriverait à la cohorte depuis la naissance si les taux de mortalité
spécifiques pour l’âge s’appliquaient sans modification sur une vie entière.
L’espérance de vie à un âge donné = durée de vie moyenne pour les sujets ayant cet âge.
Randomisation = tirage au sort d’individus parmi un groupe pour établir des sous-groupes
comparables. Elle élimine les sources de biais (sauf biais accidentel [déséquilibre entre
traitements lié au hasard seul]). Elle valide les tests statistiques utilisés pour comparer les
traitements.
La représentativité
Cependant ce n’est pas toujours le cas. Pour améliorer la représentativité de son échantillon,
on peut alors utiliser des quotas (après avoir étudié la structure de la population). Un exemple
type est la constitution d’un échantillon sur base du volontariat. On s’éloigne encore plus de la
population de base si l’on recrute parmi les patient de l’hopital. Etc.
Le tirage au sort
A l’aide d’un générateur de nombres aléatoires, parmi une base de donnée (ex : tirage au sort
de 40 personnes parmi 1000, pour constituer deux groupes de 20 patients) à distribution de x
patients dans les différents groupes.
La randomisation minimise les biais de sélection (équilibre entre les groupes, aussi bien pour
les facteurs connus qu’inconnus [facteurs inconnus = facteurs confondants]).
La modélisation est différente : il s’agit d’un algorythme permettant d’équilibrer/ d’ajuster les
facteurs connus.
NB :
dans le cas d’une population bien définie (dont on connait la réponse au traitement
classique = dont on connaît les paramètres) et d’un échantillon aléatoire possible à
besoin d’un seul échantillon aléatoire simple recevant le nouveau traitement à
comparaison à la population
dans le cas d’une population mal définie et d’un échantillon aléatoire possible à
constitution de deux groupes aléatoires simples à comparaison des deux groupes à
généralisation à la population
dans le cas d’une population mal définie et d’un échantillon non aléatoire (non
représentatif de la population, ex : patients de l’hopital) à constitution de deux groupes
non aléatoires par randomisation à généralisation uniquement à la population
concernée (ex : patients hospitalisés).
Le placebo
Placebo = médicament factice ne contenant aucune substance active. Effet placebo = placebo
entraînant des effets positifs (amélioration de la maladie non attribuable au hasard ou à
l’évolution naturelle de la maladie = effet bénéfique non spécifique)
L’évaluation de son impact est très important dans les études cliniques car, si un tt A marche
mal mais que l’effet placebo y est très important on conclura à un résultat positif similaire à
celui d’un tt B marchant très bien mais où l’effet placebo n’a pas joué à si on veut pouvoir les
comparer, il faudra établir des groupes placebo pour A et pour B.
Biais de sélection
Biais de susceptibilité
= on a constitué un groupe dont l’état de base risque d’influencer la réponse au traitement par
rapport à l’autre groupe. Eliminés par la randomisation.
= évaluation différente des résultats selon les groupes. Peut être éliminé par la pratique du
« double aveugle »
Biais de transfert
= perte de patients durant l’étude (certains ne viennent plus, ont a du exclure d’autres, on a du
stopper pour certains du fait d’ES,…) à formation d’un déséquilibre entre les deux groupes.
Ils ne peuvent être corrigés mais on peut en tenir compte dans l’analyse des résultats :
analyse per protocole = exclusion de patients sur base d’infos obtenue après
randomisation à étude l’efficacité pharmacologique… le problème c’est que lorsqu’on
retire des patients de groupes randomisés, on perd l’effet randomisation…
analyse en intention de traiter = évaluation globale de l’efficacité du traitement : on
considère que les « biais de transfert » seraient également présent dans la réalité… et
que dans ce cas on n’évalue pas seulement l’effet intrinsèque du traitement mais
également la compliance qu’il entraîne, sa facilité d’administration,… C’est la
méthode qui semble la meilleure.
o ainsi, si une infirmière commet une erreur dans l’administration traitement
d’un patient du groupe A, on garde néanmoins le patient dans ce groupe. De
même, si un patient du groupe A meurt fortuitement durant l’étude, on le garde
dans les résultats.
Validité
On peut distinguer :
la validité interne d’une étude, qui est maximale si l’étude répond à :
o la randomisation
o un groupe contrôle
o procédure en double aveugle
la validité externe : peut-on généraliser les résultats à la population ? Cela dépend :
o des critères d’inclusions : plus ils sont larges, plus la généralisation prend sens
o de la représentativité de l’échantillon… en pratique l’extrapolation est
rarement possible.
Test d'hétérogénéité
On fait un test de chi² pour savoir si on peut rejeter Ho (études homogènes). S’il est
significatif cela signifie que les résultats d’au moins une des études n’est pas compatibles
avec les autres. S’il n’est pas significatif, Ho ne peut être rejetée, et on considérera que
l’homogénéité est suffisante pour faire l’analyse.
Sur le diagramme de Forest, la variance correspond à la boîte sans ses moustaches (plus elle
est grande, plus la variance interne de l’étude est grande).
= pratique clinique basée sur les niveaux de preuve des études motivant cette pratique.
En fait, si on prend p = 0,05 pour une étude (une comparaison), on a pour n comparaisons p =
n x 0,05 x 0,95^n
Ainsi si une telle méthode était appliquée à 3 échantillons (3 comparaisons), l’erreur
résultante serait de 13%... et de 23% pour 4 traitements (6 comparaisons)… ce qui ne peut
être acceptable !
On fait d’abord une analyse de variance (ANOVA) qui permet de dire si une moyenne au
moins diffère significativement des autres (mais on ne sait ni laquelle, ni combien) à on
obtient une valeur de F. Si elle est < 1, on ne rejette pas Ho (moyennes identiques). Si elle est
> 1, il faut alors recourir à une méthode de correction complexe. Diverses méthodes de
correction existent : corrections de Bonferroni, de Sidak, de Tukey, test de student modifié,…
Designs expérimentaux
Essais en parallèles
Dans ce type d’étude, chaque sujet est son propre témoin. à nécessite 2 périodes
d’expérimentation (administration séquentielle de deux traitement).
Les avantages :
Les désavantages :
ne peut s’appliquer à tous les traitements (ex : si le patient est guéri à la première
étape, la seconde est impossible) et il faut que la maladie n’évolue pas entre les
traitements.
Effet carry-over : le traitement A n’aurait-il pas continué à agir durant le traitement B,
ou du moins modifié son activité ?
Designs factoriels
Ex : design factoriel 2² : double randomisation sur des patients atteints d’un cancer rectal :
Avantages :
Plus efficient qu’un design en parallèle car il permet d’obtenir une précision
équivalente avec moins de mesures (donc de sujets) : pour un 2², 4 mesures permettent
d’obtenir la même précision qu’avec 6 en parallèle. Il nécessite cependant plus de
sujets qu’un crossing-over. Si un design parallèle nécessite (pour une puissance
identique) 1 sujet, le cross-over (2x2) en nécessite 0,5 et le design factoriel (2²)
0,66667
Permet d’estimer les interactions entre plusieurs médocs (effet synergique ou
antagoniste) ou l’absence d’interaction (simple effet additif).
Peut-être utilisé pour des tts qui n’ont rien à voir, dans le seul but de diminuer le
nombre de sujets (on traite alors les données séparément et on publie 2 études)
L'analyse séquentielle
Dans un essai séquentiel, le nombre de sujets n’est pas calculé au préalable : l’essai est
analysé de manière répétée (tous les x patients inclus) au fur et à mesure de l’obtention des
résultats et l’on recrute les patients paquets par paquets. Chaque analyse intermédiaire porte
sur l’ensemble des sujets inclus depuis le début de l’essai, et 2 statistiques sont calculées : la
différence entre les traitements (Z) et la quantité d’infos accumulées (V), ce qui permet
d’obtenir un point pour chaque analyse. Le design séquentiel est délimité par des frontières,
calculées par un test triangulaire uni- ou bilatéral et dépendent des taux d’erreurs α et β, de la
différence à mettre en évidence, de la fréquence des analyses intermédiaires prévues. Lorsque
le trajet reliant les points franchit une frontière, l’essai est arrêté et la conclusion obtenue.
Pose cependant des problèmes : si le recrutement (période d’inclusion) dure 2 ans et que le tt a
un effet déjà 2 mois après le début, peut-on garder les autres sous placebo (éthique) ? De plus,
lorsque les périodes d’inclusion sont très longues, le mode de vie des sujets est susceptible de
se modifier. Si lors des analyses intermédiaires, Z est trop petit, on doit arrêter (augmentation
de n !!!). Idem pour un Z très grand (d’évidence très efficace ou trop toxique).
Lorsque dans un essai classique, la supériorité n’est pas significative, il peut être tentant de
conclure à une équivalence… mais :
Il s’agit de tests unilatéraux (Ho : (m1 – m2) < -delta à p < 0,025 indique une équivalence
significative.
Que l’IC à 95% centré sur la différence observée soit compris entre –delta et +delta
Que l’IC à 95% centré sur la différence observée ne contienne pas 0
La décision médicale
Le théorème de Bayes (théorème de l’inversion des probabilités
conditionnelles) et les valeurs prédictives
Ex concret : homme de 60 ans non fumeur avec une toux chronique. La biopsie pulmonaire
est compatible avec un cancer bronchique ou une sarcoïdose. On a :
P (bonne santé / toux) = 0,001 x 0,99 / (0,001 x 0,99 + 0,9 x 0,001 + 0,9 x 0,009) =
0,099 = 10%
P (néoplasie / toux) = 0,09 = 10%
P (sarcoïdose/ toux) = 0,811 = 80%
Même cas mais fumeur (prévalences différentes) → BS : 5%, néo : 71%, sarcoïdose : 24%
! En dehors des cas où les sensibilités et spécificités des tests = 100%, la VPP diminue très
vite avec la diminution de la prévalence. Un test négatif avec une prévalence très basse à
grande chance d’un vrai négatif (VPN très élevé). Un test positif avec une prévalence très
élevée à grande chance d’un vrai positif.
Les sensibilités et spécificités sont donc des propriétés intrinsèques d’un test. Les propriétés
extrinsèques étant :
VPN et VPP
La VPP = valeur prédictive positive = probabilité que le patient soit malade si le test
est positif
o VPP = VP / (VP + FP)
La VPN = valeur prédictive négative = probabilité que le patient ne soit pas malade si
le test est négatif
o VPN = VN / (VN + FN)
On définit :
Ils offrent une aide précieuse à la décision diagnostique. Ex : un test avec un LR+ = 2,3 à
signifie que si le test est positif, il est 2,3 x plus probable que le patient soit malade plutôt
qu’il ne le soit pas. Ex : un test avec un LR- = 0,2 à signifie que si le test est négatif, il est 0,2
x plus probable que le patient soit malade plutôt qu’il ne le soit pas (autrement dit : il est 5 x
plus probable que le patient ne soit pas malade plutôt qu’il ne le soit).
Il n'y a pas de choix univoque, chaque cas clinique étant particulier. De manière générale, on
peut dégager quatre postulats relatifs au choix pratique des tests (Galen et Gambino) :
Un test sensible est à préférer si :
o Maladie grave et accessible à un traitement potentiellement efficace
o Lorsque le fait de savoir qu’on n’a pas la maladie a une importance sanitaire
o Lorsque les résultats faussement positifs n’ont pas de conséquences
économiques ou psychologiques pour le patient
o Ex : phénylcétonurie, tuberculose,...
Un test spécifique est à préférer si :
o Maladie non ou difficilement curable
o Lorsque les résultats faussement positifs peuvent être économiquement ou
psychologiquement traumatisants
o Ex : sclérose en plaques, cancer broncho-pulmonaire,...
Un test avec une VPP très élevée est à préférer si le traitement des patients a des
conséquences graves et irréversibles
o Ex : lobectomie pour suspicion de cancer pulmonaire
Un test optimal (PCC maximal) doit être préféré
o Lorsque la maladie est grave mais curable
o Lorsque les résultats faussement positifs et faussement négatifs sont tous deux
traumatisants et ont des conséquences graves
o Ex : diabète de type I, infarctus myocardique.
Une forte sensibilité (peu de FN) est souhaitable lorsque l’on veut exclure la maladie, une
forte spécificité (peu de FP) est souhaitable lorsque l’on veut confirmer une maladie.
Lorsqu’une maladie est rare, on se méfie des tests positifs. Lorsqu’une maladie est fréquente,
on se méfie des tests négatifs → intérêt de recontrôler.
Stratégie en série
Soit deux tests t1 et t2. Soit T l'interprétation des deux tests. Deux tests t1 et t2 sont dit mis en
série si l'interprétation T est jugée positive lorsque t1 et t2 sont positifs et négative lorsque t1
ou t2 est négatif. Elle implique une perte de sensibilité. Surtout intéréressant pour affirmer
raisonnablement la présence d'un trouble rare (contrôle des tests positifs).
Ex : Populations à faible prévalence → faible VPP → on répète plusieurs fois le même test
sur les sujets détectés + → amélioration de la VPP. Test avec sensibilité de 90% sur
prévalence de 10% à VPP = 50% ! Aucun intérêt pratique ! Mais si on le répète sur les sujets
+ → VPP = 90%. Si on le répète encore → VPP = 98,78% !
Stratégie en parallèle
Soit deux tests t1 et t2. Soit T l'interprétation des deux tests. Deux tests t1 et t2 sont dit mis en
parallèle si l'interprétation T est jugée positive lorsque t1 ou t2 est positif et négative lorsque
t1 et t2 sont négatifs. Elle n'implique pas de perte de sensibilité. Surtout intéréressant pour
affirmer raisonnablement l'absence d'un trouble fréquent (contrôle des tests négatifs).
Ex : Populations → haute prévalence à faible VPN → on répète plusieurs fois le même test
sur les sujets détectés - → amélioration de la VPN. Test avec sensibilité de 90% pour une
prévalence de 90% → VPN = 50% → on refait encore le test 2x → VPN = 98,9% !
Combinaison de plusieurs tests en série
En cas de faible prévalence, appliquer le plus sensible en premier → minimise les faux
positifs de T, maximise la VPP
Ex : HIV (prévalence = 0,03%)? Test Elisa (sensibilité = 97%) → VPP = 12,7% + Western
Blot (sensibilité = 95%) → VPP = 99,93%
En cas de haute prévalence, appliquer le plus sensible en premier → minimise les faux
négatifs de T, maximise la VPN
Ex : toxicomane HIV (prévalence = 60%) ? Test Elisa → VPN = 95,68% + Western Blot →
VPN = 99,77%
Courbes ROC (Reveiver Operating Curve) : choix d'un seuil (et donc d'une
sensibilité et d'une spécificité)
Le « point le plus discriminant » correspond à celui qui présente la SSC (surface sous la
courbe) la plus élevée. Le point idéal est le coin supérieur gauche (spécificité = sensibilité =
1) à on choisit le point de la courbe le plus proche du coin supérieur gauche.
La courbe ROC offre donc une estimation globale de la valeur d’un séparateur et peut
comparer la valeur discriminante de deux tests.
La probabilité à priori est ici difficile à cerner, il s’agit plutôt d’une probabilité subjective
(degré de croyance en l’efficacité du tt avant de l’évaluer). Elle peut s’assimiler à la fréquence
moyenne des résultats positifs obtenus avec les essais thérapeutiques. La valeur prédictive
dépend ici de la probabilité à priori (en cas de situation très spéculative où l’essai est réalisé
sans qu’il y ait de justification à priori, elle est très faible (une proba à priori de 50% revient à
adopter une approche fréquentiste simple traditionnelle) à la VP sera faible même en cas de
résultat hautement significatif) mais aussi de la puissance de l’essai (augmente avec la
puissance).
Pour un essai de phase III, la proba à priori d’efficacité est > 90% à la VPP d’un résultat
significatif sera très importante.
La régression et la corrélation
Régression : l’analyse de régression est un outil pour étudier et mesurer la relation existant
entre des variables
Estimation des paramètres d’une régression linéaire (en cas de variable dépendante continue) :
Y= a + bX tel que b soit la pente (dY/dX) de la droite de régression et a l’interception avec
l’axe des Y pour X=0. L’estimation se fait par la méthode des moindres carrés (minimiser le
carré des distances par rapport à la droite
Corrélation : le coefficient de corrélation simple (r) est une mesure de l’intensité de la relation
linéaire entre deux variables aléatoires. Il varie de -1 (pente négative -45°) à 1 (pente positive
45°), 0 indiquant l’absence de relation linéaire. (NB : une interprétation d’un r multiple est
moins évidente)
! une corrélation significative n’indique pas forcément une relation causale ! Et s’il y a
causalité, on n’en connaît pas le sens (savoir ce qui est la cause et l’effet relève de
l’interprétation biologique).
Une corrélation peut être faussement significative lorsque les 2 variables X et Y
partagent la même variable (= couplage mathématique). Ex : transport et
consommation d’O2 dépendent tous deux du débit cardiaque.
r(X,Y) = covariance / produit des racines carrées des variances = Sxy/ √[Sx² x Sy²]
t = (r/ √[1-r²] ) x √[n-2] tel que n-2 soit le d.d.l. avec n = nombre de couples (x,y). Ho : r = 0
! Pour s’assurer qu’un résultat soit significatif, il faut non seulement un p< 0,05 mais aussi
que l’équation Y=a+bX ait un sens biologique, soit vraisemblable.
Une fois que l’on a déterminé la droite par la méthode des moindres carrés, on peut
déterminer la bande de confiance à 95% (2 courbes entourant la droite) concernant la pente de
la droite. On peut également déterminer la bande de prédiction à 95% (contenant 95% des
points)
La régression linéaire multiple : son principe est de construire une équation avec plusieurs
prédicteurs pour prédire une variable continue. Ex : prédire la TAS selon l’âge, le poids, le
sexe,… Y = b0 + b1 X1 + b2 X2 +… tels que les b soient des paramètres (= coefficient de
régression partielle) et les X les variables. Chaque coefficient peut alors faire l’objet d’un test
qui, s’il est significatif, signifie que la variable y correspondant a une valeur pronostique pour
Y. On peut calculer un r multiple et un r² multiple, ainsi qu’un r² ajusté.
La régression logistique repose sur le même principe que la régression linéaire mais est
utilisable lorsque la variable dépendante Y est dichotomique (qualitative à deux niveaux =
variable discrète, non continue). Ex : présence (1) ou absence (0) de coronopathies en
fonction de l’âge. On utilise alors un graphes de proportions de coronopathies (donc une
variable continue) en fonction de l’âge à sigmoïde, qu’on peut transformer en droite par la
régression logistique, on obtient alors un graphe de logit (proportion) en fonction de l’âge.
Durée de survie = temps écoulé entre naissance et la mort. Dans ces études elle
commence au début du diagnostic/ début du traitement (= date d’origine)
Date des dernières nouvelles = date la plus récente où l’on a recueillie des
renseignements sur la santé du patient
Date de point = date choisie pour calculer la durée de survie
Durée de surveillance = délai entre la date d’origine et la date des dernières nouvelles
Durée de participation = délai entre la date d’origine et la date des dernières nouvelles
ou la date de point (on prend la date la plus tardive).
Statuts du patient :
o Perdu de vue : dont on ne connaît pas l’état de santé à la date de point (à source
de perte d’infos et de biais)
o Exclu-vivant : sujet vivant à la date de point et après cette date
o Observations censurées = sujets perdu de vue et exclu-vivant
o Décédé : décès avant la date de point
« Etre encore en vie après l’instant t, c’est être en vie juste avant l’instant t et ne pas mourir à
l’instant t » [oui, bon...]
Pour estimer la fonction de survie S(t) d’une population à partir d’un échantillon de taille n, il
faut classer les observations par ordre croissant de temps de participation. On définit :
On peut comparer deux courbes de survie grâce au test du Logrank (ex : pour un groupe traité
et un groupe placebo)
Différence avec la méthode de Kaplan : les probabilités conditionnelles sont estimées pour
des intervalles de temps fixés à priori et non pas par les dates des décès observés
Permet la prise en compte simultanée de plusieurs variables pour expliquer la survie, sans
donner aux fonctions de survie des formes paramétriques précises. à ajustement selon l’âge, le
sexe,.. + permet l’identification des variables pronostiques pertinentes.
Egalement appelé modèle des risques proportionnels car il assume que chaque facteur
affectant le risque l’affecte du même rapport à tout instant.