Académique Documents
Professionnel Documents
Culture Documents
Abstract: The aim of this paper is to provide basic tools for the interpretation of diagnostic accuracy stu-
dies, by analyzing the data that the contingency table provides. Concepts are given in the application and
meaning of sensitivity, specificity, positive and negative predictive values. Furthermore, by analyzing the
pre-test and post-test probabilities, construction and implementation of the likelihood ratio are explained.
The diagnostic odds ratio and its limitations are described. Finally, the importance of calculating confidence
intervals is explained. Understanding the contingency table and the construction of the parameters that
we can calculate from this, is essential for the critical evaluation and development of diagnostic accuracy
studies, as well as their application in daily clinical work.
Keywords (MeSH): Biostatistics, Diagnostic, Diagnostic accuracy, Likelihood ratio, Predictive value, Sen-
sibility, Specificity.
Resumen: El objetivo del presente artculo es entregar herramientas bsicas para la interpretacin de los
estudios de exactitud diagnstica, mediante el anlisis de los datos que entrega la tabla de contingencia.
Se entregan conceptos en la aplicacin y significado de sensibilidad, especificidad, valores predictivos
positivo y negativo. Adems, mediante el anlisis de las probabilidades pre-test y post-test, se explica la
construccin e implementacin de los likelihood ratio o razones de verosimilitud. Se describe el odds ratio
diagnstico y sus limitaciones. Por ltimo, se explica la importancia del clculo de intervalos de confianza.
Entender la tabla de contingencia y la construccin de los parmetros que de esta podemos calcular es
fundamental para la valoracin crtica y desarrollo de estudios de exactitud diagnstica, as como para su
aplicacin en el quehacer clnico diario.
Palabras clave (MeSH): Bioestadstica, Diagnstico, Especificidad, Exactitud diagnstica, ndice de pro-
babilidad, Sensibilidad, Valores predictivos.
Bravo-Grau S., Cruz JP. Estudios de exactitud diagnstica: Herramientas para su Interpretacin. Rev Chil Radiol
2015; 21(4): 158-164.
Correspondencia: Sebastin Bravo-Grau / sebastianbravo@gmail.com / sebravo1@uc.cl
Trabajo recibido el 30 de agosto de 2015. Aceptado para publicacin el 16 de noviembre de 2015.
159
Dr. Sebastin Bravo-Grau, et al. Revista Chilena de Radiologa. Vol. 21 N 4, ao 2015; 158-164.
Likelihood ratio (+) sensibilidad/(1-especificidad) Describe cuntas veces es ms probable que reciba
un resultado determinado una persona con la enfermedad
Likelihood ratio (-) (1-sensibilidad)/especificidad que una persona sin la enfermedad
Odds ratio (a/c) / (b/d) Razn entre la odds de estar enfermo si la prueba da
diagnstico positivo y la odds de no estar enfermo si la prueba da
negativo
lidad de enfermedad en un paciente individual. Los En la Tabla II se ilustra el ejemplo 1, que corres-
valores predictivos positivos (VPP) y negativos (VPN) ponde a un estudio del ao 2001(13), sobre la exactitud
proporcionan estimaciones de la probabilidad de la diagnstica de la tomografa computada (TC) para
enfermedad. Vale decir, es la probabilidad de que la prediccin de dao cerebral irreversible luego de
prueba diagnstica entregue el diagnstico correcto, accidente cerebrovascular isqumico. Los datos en
si esta resulta positiva o negativa. esta tabla de contingencia (Tabla II) corresponden
Valor Predictivo Positivo: Corresponde a la proba- a la exactitud diagnstica de la TC para diagnstico
bilidad condicional de que el paciente tenga la enfer- de infarto cerebral, en las primeras 6 horas luego
medad, dado que el test result positivo. Expresado de iniciado los sntomas, en el estudio ECASS II
de otra manera, es la proporcin de pacientes con la (European Cooperative Acute Stroke Study II) y por
prueba diagnstica positiva que efectivamente tienen el panel de reporte de la TC compuesto por tres neu-
la condicin (Tabla I). rorradilogos (CT reading panel)(13). Estos mismos
Valor Predictivo Negativo: Corresponde a la pro- datos se modificaron para generar el ejemplo 2, con
babilidad condicional de que el paciente no tenga la una prevalencia menor de la enfermedad (58,5%) y
enfermedad, dado que la prueba diagnstica result ligeramente disminuyendo el tamao de la muestra
negativa. En otras palabras, es la probabilidad de que (Tabla III).
el individuo no tenga la condicin en estudio luego Entindase prevalencia de enfermedad como
de que el test es negativo (Tabla I). Es equivalente al la proporcin del total de pacientes, incluidos en el
inverso de la probabilidad post-test de tener la enfer- estudio, con la condicin segn el gold standard.
medad dado que el test result negativo (1-VPN)(12). En nuestro ejemplo, utilizaron como gold standard
160
Revista Chilena de Radiologa. Vol. 21 N 4, ao 2015; 158-164. MISCELNEO
el seguimiento con TC a las 22-36 horas y a los 6-8 la TC fue positiva, en este escenario clnico, es de
das de iniciado los sntomas (13). 96,4%, mientras que en el ejemplo 2 (Tabla III) es
Mediante el empleo de estos ejemplos, se nota de 85,8%.
como al variar la prevalencia de la enfermedad en
nuestra poblacin, la sensibilidad y especificidad se Likelihood ratios
mantienen estables. Por el contrario, el VPP y VPN, Los likelihood ratios (LR) o razones de verosi-
varan considerablemente en forma inversa, al au- militud se definen como cuntas veces es ms pro-
mentar la prevalencia aumenta el VPP y disminuye el bable que un paciente con la enfermedad tenga un
VPN y vice-versa. En el ejemplo 1 (Tabla II), con una determinado resultado en el test que pacientes sin
prevalencia de 86,4%, el VPP de la TC para infarto la enfermedad (Tabla I). Dicho de otra manera, es la
cerebral era de 96,4%. Vale decir, la probabilidad de razn de probabilidad de un resultado especfico en
que el paciente tenga un infarto cerebral dado que pacientes con la enfermedad versus en aquellos que
Tabla II. Ejemplo 1, con datos obtenidos de un estudio del ao 2001(13), sobre la exactitud diagnstica
de la tomografa computada para prediccin de dao cerebral irreversible luego de accidente cerebro-
vascular isqumico.
Gold standard
TC en infarto agudo Positivo Negativo TOTAL
IC 95%
Tabla III. Ejemplo 2 con datos modificados, con una prevalencia menor de la enfermedad y un tamao
muestral ligeramente menor.
Gold standard
TC en infarto agudo -2 Positivo Negativo TOTAL
IC 95%
161
Dr. Sebastin Bravo-Grau, et al. Revista Chilena de Radiologa. Vol. 21 N 4, ao 2015; 158-164.
162
Revista Chilena de Radiologa. Vol. 21 N 4, ao 2015; 158-164. MISCELNEO
entre el resultado de una prueba y la enfermedad. Una forma de interpretar el intervalo de confianza,
Este ndice nico traduce las prestaciones de una es que si repetimos un mismo experimento muchas
prueba con un solo valor que no est influenciado veces, el intervalo contendr el valor del parmetro
por la prevalencia. Es la razn entre la odds o chance en (1-alfa) % de las veces. Se conoce el valor de alfa
de estar enfermo si la prueba da positivo y la odds o como el nivel de significancia, generalmente se toma
chance de no estar enfermo si la prueba da negativo. 0,05 como valor de alfa, lo que equivale a un intervalo
Los valores de la DOR varan de cero a infinito de confianza de 95%. Otros intervalos de confianza
(cuantos ms altos son los valores, mejor es la prue- menos utilizados son de 90% y 99%. Entre ms ancho
ba). El valor DOR= 1 significa que la prueba no es el intervalo de confianza, mayor es la incertidumbre
discriminante, el test es intil (20). Los valores mayores que existe sobre la estimacin puntual del parmetro.
de 1 significan que es ms probable que la prueba de Mientras ms grande es la muestra, menor es el
positivo en el caso de enfermos que en sanos. Esta intervalo de confianza, lo que se puede observar en
medida tiene varias limitaciones, en especial, el de los intervalos de confianza de los ejemplos (Tabla II y
combinar sensibilidad y especificidad en un nico Tabla III). Una pequea variacin en el tamao mues-
indicador, perdiendo el valor relativo de cada uno tral (en el ejemplo 2 se redujo en 12, ver Tabla III) va
de stos. Por consecuencia, una prueba diagnstica ampliando el intervalo de confianza, sin cambios en la
con baja sensibilidad y alta especificidad puede tener estimacin puntual de la sensibilidad y especificidad.
el mismo DOR que una con alta sensibilidad y baja Lo anterior toma especial relevancia en estudios con
especificidad (20). Esta limitacin la comparten otros pequeo tamao muestral (22).
parmetros nicos, como por ejemplo la exactitud
(accuracy) (Tabla I). Discusin
Los conceptos revisados son de especial impor-
Intervalos de confianza tancia en la actual era de la radiologa basada en la
La sensibilidad, especificidad, VPP y VPN, son evidencia (9,23,24). La validez de los anlisis anterior-
proporciones, por lo que se les puede y debe calcular mente descritos toman como requisito que provengan
intervalos de confianza utilizando mtodos estndar a de estudios con metodologas de calidad mnima
partir de la proporcin binomial y el teorema central del aceptable (1-5). Adems, en el presente artculo se ha
lmite (Figura 2). Este mtodo depende del tamao del hecho nfasis en el anlisis de datos dicotmicos, por
intervalo y del tamao muestral, en la frmula el N. motivos de extensin, sin abordar la interpretacin de
Cabe destacar, que para tamaos muestrales meno- los datos continuos o semi-cuantitativos, lo que ser
res a 30, esta frmula de clculo es menos confiable, analizado en otro artculo en forma separada.
recomendndose utilizar otras estimaciones. De igual Los descriptores de sensibilidad y especificidad
manera, cuando el estimador puntual es cercano al se pueden resumir como parmetros intrnsecos a la
1 (o 100%) o al 0 (0%), algunos autores plantean la prueba diagnstica. De esta forma, son menos apli-
necesidad de estimar el intervalo de confianza de cables a la decisin clnica especfica de determinado
otras maneras para mejorar rendimiento (21). paciente. Por otra parte, los valores predictivos positivo
y negativo, son aplicables al algoritmo de decisin de
nuestro paciente en una situacin clnica determinada,
sin embargo, son dependientes de la prevalencia de
la enfermedad en la poblacin estudiada. Los LR son
los parmetros ms tiles para evaluar una prueba
diagnstica, ya que no dependen de la prevalencia,
y son aplicables en la toma de decisin clnica del
Figura 2. Frmula simplificada para el clculo de intervalo paciente. Nos ayudan a entender por qu no es apro-
de confianza de una proporcin. El valor de Z se obtiene a
piado efectuar pruebas diagnsticas a poblaciones con
partir de la funcin normal (funcin inversa de una normal
estndar), para un intervalo de confianza de 95% con dos una muy baja probabilidad pre-test de enfermedad.
colas es 1,96. p corresponde a la proporcin a la que se Es importante considerar la forma de estimacin
desea calcular el intervalo de confianza. N corresponde al de la prevalencia, en especial cuando esta se asigna
denominador de determinada proporcin, por ejemplo, en como la probabilidad pre-test en la implementacin de
el caso de la sensibilidad, corresponde a la suma entre los LR. Se debe ser cuidadoso en la extrapolacin de
verdaderos positivos y falsos negativos. la prevalencia de la enfermedad a partir de estudios
de exactitud diagnstica en otras poblaciones ya que
El clculo de intervalos de confianza para likelihood esta no necesariamente es la prevalencia en nuestra
ratio, siendo estas razones-cocientes entre probabili- poblacin.
dades, es ms complejo, por lo que se pueden utilizar Algunos autores plantean que al aumentar la pre-
calculadoras disponibles en internet o bien programas valencia en estudios diagnsticos tambin tendra un
estadsticos apropiados. efecto sobre la sensibilidad de la herramienta, en el
163
Dr. Sebastin Bravo-Grau, et al. Revista Chilena de Radiologa. Vol. 21 N 4, ao 2015; 158-164.
especfico caso de la radiologa, al ser la enfermedad de la investigacin radiolgica. Rev Chil Radiol 2008;
encontrada ms frecuente que en la prctica diaria(25-27). 14(4): 221-226.
Lo anterior sera vlido en el exclusivo caso en que 9. Busel MD, Silva FC. Radiologa basada en la evidencia:
el aumento de la prevalencia conlleve a un aumento Estrategia conceptual focalizada para la prctica de la
imagenologa. Rev Chil Radiol 2004; 10: 109-117.
en los casos graves. Por el contrario, si el espectro
10. Altman DG, Bland JM. Diagnostic tests 1: Sensitivity
de enfermedad cambia a un escenario de screening and specificity. BMJ 1994; 308(6943): 1552.
poblacional, con una consecuente menor prevalen- 11. Cerda LJ, Cifuentes AL. Uso de tests diagnsticos en
cia de la enfermedad y probable presentacin ms la prctica clnica (Parte 1): Anlisis de las propiedades
leve, los resultados de la prueba diagnstica sern de un test diagnstico. Rev Chilena Infectol 2010; 27.
ms cercanos al de los pacientes sanos, por lo tanto, 12. Akobeng AK. Understanding diagnostic tests 1: sen-
reduciendo su sensibilidad (28). Este y otros aspectos sitivity, specificity and predictive values. Acta Paediatr
de la metodologa de las investigaciones de pruebas 2007; 96: 338-341.
diagnsticas en imaginologa no han sido completa- 13. von Kummer R, Bourquain H, Bastianello S, Bozzao L,
Manelfe C, Meier D, et al. Early prediction of irreversible
mente estudiados. Profundizar en estas temticas
brain damage after ischemic stroke at CT. Radiology
est fuera de los objetivos del presente artculo, no 2001; 219(1): 95-100.
obstante, ser importante estar alerta a las limitaciones 14. Deeks JJ, Altman DG. Diagnostic tests 4: likelihood
y avances en esta materia. ratios. BMJ 2004; 329: 168-169.
15. Black WC, Armstrong P. Communicating the significance
Conclusin of radiologic test results: the likelihood ratio. AJR Am
En el anlisis de los estudios de exactitud diagns- J Roentgenol 1986; 147(6): 1313-1318.
tica, la tabla de contingencia, y los estadgrafos que 16. Akobeng AK. Understanding diagnostic tests 2: likelihood
de esta podemos calcular (sensibilidad, especificidad, ratios, pre- and post-test probabilities and their use in
clinical practice. Acta Paediatr 2007; 96: 487-491.
valor predictivo positivo, valor predictivo negativo,
17. Fagan TJ. Letter: Nomogram for Bayes theorem. N Engl
razones de verosimilitud), son muy importantes en J Med 1975; 293: 257.
cunto a la caracterizacin y valoracin de las prue- 18. Whiting PF, Sterne JA, Westwood ME, Bachmann LM,
bas diagnsticas. Entender su significado y forma de Harbord R, Egger M, et al. Graphical presentation of
construccin es fundamental, no solo para la valoracin diagnostic information. BMC Med Res Methodol 2008;
crtica de los estudios de exactitud diagnstica, sino 8: 20.
que en su aplicacin en el quehacer clnico diario y 19. Altman DG, Bland JM. Diagnostic tests 3: receiver
en el desarrollo de investigaciones originales (22). En operating characteristic plots. BMJ 1994; 309(6948):
este ltimo punto, existen esfuerzos internacionales 188.
20. Glas AS, Lijmer JG, Prins MH, Bonsel GJ, Bossuyt
en la estandarizacin del reporte y anlisis crtico de
PM. The diagnostic odds ratio: a single indicator of test
estudios de exactitud diagnstica indispensables de performance. J Clin Epidemiol 2003; 56(11): 1129-1235.
ser considerados y adoptados (1-5). 21. Berry CC. A tutorial on confidence intervals for propor-
tions in diagnostic radiology. AJR Am J Roentgenol
Bibliografa 1990; 154(3): 477-480.
1. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, 22. Greenhalgh T. How to read a paper. Papers that report
Glasziou PP, Irwig LM, et al. The STARD statement for diagnostic or screening tests. BMJ 1997; 315: 540-543.
reporting studies of diagnostic accuracy: Explanation 23. Medina LS, Blackmore CC, Applegate KE. Evidence-
and elaboration. Ann Intern Med 2003; 138: W1-12. Based Imaging: Principles. In: Medina LS, Sanelli PC,
2. Pauker SG, Kassirer JP. The threshold approach to Jarvik JG, editors. Evidence-Based Neuroimaging
clinical decision making. N Engl J Med 1980; 302(20): Diagnosis and Treatment. 1st ed. New York. Springer
1109-1117. 2013; 3-18.
3. Graham T. Are you a risk-minimizer or a test minimi- 24. Garcia Villar C. [Evidence-based radiology for diagnostic
zer?. Can Fam Physician 2000; 46: 29-30, 3-5. imaging: What it is and how to practice it]. Radiologia
4. Capurro D, Rada G. [The diagnostic process]. Rev Med 2011; 53(4): 326-334.
Chil 2007; 135(4): 534-538. 25. Boone D, Halligan S, Mallett S, Taylor SA, Altman DG.
5. Whiting PF, Rutjes AW, Westwood ME, Mallett S, Deeks Systematic review: Bias in imaging studies - the effect of
JJ, Reitsma JB, et al. QUADAS-2: A revised tool for the manipulating clinical context, recall bias and reporting
quality assessment of diagnostic accuracy studies. Ann intensity. Eur Radiol 2012; 22(3): 495-505.
Intern Med 2011; 155(8): 529-536. 26. Egglin TK, Feinstein AR. Context bias. A problem in
6. Valenzuela D L, Cifuentes A L. Validez de estudios de diagnostic radiology. JAMA 1996; 276(21): 1752-1755.
tests diagnsticos. Rev Med Chil 2008; 136. 27. Kundel HL. Disease prevalence and radiological decision
7. Steurer J, Fischer JE, Bachmann LM, Koller M, Riet making. Invest Radiol 1982; 17(1): 107-109.
Gt. Communicating accuracy of tests to general prac- 28. Irwig L, Bossuyt P, Glasziou P, Gatsonis C, Lijmer J.
titioners: a controlled study. BMJ 2002; 324: 824-826. Designing studies to ensure that estimates of test accu-
8. Canals M. Ciencia e imaginologa: Anlisis cuantitativo racy are transferable. BMJ 2002; 324(7338): 669-671.
164