Académique Documents
Professionnel Documents
Culture Documents
curvas ROC
661
MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995
La prueba diagnóstica ideal debería tener una sensibilidad y específico (PSA) no puede distinguir a los pacientes con cán-
una especificidad tan próximas al 100 % como fuera posi- cer de próstata, diagnosticados mediante tacto rectal y estu-
ble. Esto constituye una excepción, pero en principio se debe dio anatomopatológico del material obtenido por punción
dudar de pruebas cuyas sensibilidad y especificidad sean transrectal, de los pacientes sin dicho cáncer, en los varones
inferiores al 80 %. mayores de 50 años.
A partir de la tabla de contingencia se puede definir el valor A veces, los datos obtenidos se revisan en busca de correla-
predictivo del resultado positivo como la proporción de resul- ciones inesperadas entre variables o subgrupos de pacien-
tados válidos entre los resultados positivos de la prueba: tes con datos llamativos. Sin embargo, la significación esta-
dística de tales relaciones que han sugerido los datos no se
VP puede determinar sin obtener datos adicionales. Para ase-
VPP= gurarse de que el grado de significación, P, obtenido no su-
VP+FP pera el riesgo de error, α, fijado por el investigador, es nece-
sario plantear la hipótesis nula antes de la recogida de datos.
El valor predictivo del resultado negativo será la proporción
de resultados válidos entre los negativos:
Elección de sujetos representativos de la población clínica a
VN la que se aplicará la prueba
VPN=
VN+FN Debe evaluarse en un grupo de individuos con sospecha clí-
nica de la enfermedad que se quiera detectar. Este grupo
y el valor global la proporción de resultados válidos entre la incluirá a dos subgrupos que no necesitan estar en la misma
totalidad de pruebas efectuadas: proporción: aquellos pacientes afectados por dicha enferme-
dad y los no afectados.
VP + VN Idealmente, los sujetos deberían escogerse y estudiarse
VG= prospectivamente sin conocer su clasificación final. Esto no
VP + FP + VN + FN es lo más frecuente por lo que es necesario tomar precaucio-
nes para no inducir a error en la obtención de la sensibilidad
Los valores predictivos de una prueba, a diferencia de la sen- y la especificidad diagnósticas2.
sibilidad y la especificidad, varían en función de la prevalen- La muestra de enfermos utilizada para calcular la sensibili-
cia de la enfermedad. Si se estudia una enfermedad cuya dad debe ser representativa del conjunto de enfermos a los
prevalencia es baja, incluso una prueba muy específica dará que se aplicará la prueba en condiciones normales y rutina-
lugar a muchos falsos positivos, dado el elevado número de rias3,4. Es decir, debe integrar individuos que padezcan la
individuos sanos de la colectividad. Si la prevalencia es alta enfermedad a estudiar, pero con un rango amplio de varia-
se puede esperar un mayor número de resultados falsamen- ción en cuanto a la gravedad del proceso, la extensión del
te negativos. Por lo tanto, cuanto menor sea la prevalencia mismo, su duración y su asociación con otros trastornos o
de la enfermedad menor será el VPP y mayor el VPN; lo con- enfermedades.
trario será cierto si la prevalencia es elevada. Cuando se afirma que la sensibilidad y la especificidad son
independientes de la prevalencia se hace referencia a la pre-
valencia de enfermos en la muestra global a la que se aplica
Evaluación de una prueba diagnóstica la prueba. La sensibilidad sí depende de la prevalencia de
los distintos grados de enfermedad en el grupo de pacien-
La evaluación clínica de una prueba debe incluir los siguien- tes5,6. Si al estudiar la sensibilidad de un marcador tumoral
tes pasos 3: se mide sólo en pacientes en fases avanzadas de cáncer, la
sensibilidad resultará superior que si la muestra incluye tam-
1. Planteamiento explícito de la hipótesis nula antes de la bién a enfermos de escasa evolución. Además, debe tenerse
recogida de datos. cuidado de no excluir a sujetos que estén en el límite diag-
2. Elección de sujetos representativos de la población clínica nóstico.
a la que se aplicará la prueba. De manera análoga, en el grupo control deben incluirse suje-
3. Establecimiento del diagnóstico verdadero mediante mé- tos de edades, procedencias y situaciones semejantes a las
todos rigurosos, exactos e independientes de la prueba que de aquellos a quienes va dirigida la prueba. Es importante
se va a estudiar. analizarla en individuos que sin padecer la enfermedad en
4. Realización de la prueba a evaluar evitando sesgos. estudio posean los cuadros más usuales en el diagnóstico
5. Cálculo de la sensibilidad y la especificidad. Evaluación y diferencial de dicha enfermedad, trastornos de la misma lo-
comparación de pruebas diagnosticas a todos los niveles de calización anatómica o de la misma naturaleza fisiológica.
decisión usando curvas ROC. Igual que la composición del grupo de enfermos influye en la
Cada uno de estos pasos implica una serie de precauciones sensibilidad, la composición del grupo control que no pade-
para evitar errores en los resultados finales. El diseño del ce la enfermedad influye en la especificidad7,8. Si una prue-
estudio, como se verá a continuación, es fundamental para ba se va a usar para identificar el infarto agudo de miocardio
que las conclusiones sean válidas y relevantes. (IAM) en sujetos que se presentan en el servicio de urgen-
cias con dolor torácico típico y otros síntomas indicativos de
Planteamiento explícito de la hipótesis nula antes de la reco- IAM, el grupo control debe estar formado por individuos que
gida de datos reúnan estas condiciones pero sin infarto. Si se usan donan-
tes de sangre voluntarios se obtendrá una especificidad ma-
Esta hipótesis debe establecer: a) la cuestión clínica precisa yor pero falsa, puesto que la prueba no está encaminada a
que se pretende resolver con la prueba; b) la naturaleza de detectar IAM en individuos asintomáticos.
la población estudiada, y c) el método utilizado para deter- En el caso de comparaciones entre varias pruebas, si se uti-
minar la verdadera respuesta a la cuestión clínica, es decir, lizan distintos grupos de sujetos es necesario comprobar que
el diagnóstico verdadero. dichos grupos no difieren por la variación del muestreo ni
Un ejemplo de hipótesis nula que cumple los anteriores re- por sesgos de selección. Por este motivo es mejor estudiar
quisitos sería: la concentración sérica del antígeno prostático todas las pruebas en los mismos sujetos, de manera que las
662
M. J. BURGUEÑO ET AL.- LAS CURVAS ROC EN LA EVALUACIÓN DE LAS PRUEBAS DIAGNÓSTICAS
diferencias observadas se deban a las verdaderas diferen- pecificidad frente a un método de referencia. Sin embargo,
cias entre las pruebas 3. citar un solo valor de sensibilidad y especificidad puede con-
ducir a error o, por lo menos, a una simplificación de la exac-
titud. Para cualquier prueba en la que la distribución de los
Establecimiento del diagnóstico verdadero mediante méto- resultados de los grupos sano y enfermo se solapen, existe
dos rigurosos, exactos e independientes de la prueba que se un equilibrio entre sensibilidad y especificidad. Ambas va-
va a estudiar 4,9 rían en direcciones opuestas: si al modificar el punto de cor-
te aumenta la sensibilidad, la especificidad disminuye, y vi-
Un estándar de oro para el diagnóstico clínico es lo ideal, ceversa.
pero en muchos casos no existe o no es factible. Zweig y Por tanto, las pruebas diagnosticas no tienen un solo par
CampbeIl8 recogen las estrategias de distintos investigado- sensibilidad/especificidad (S/E), sino muchos, uno por cada
res para establecer el diagnóstico verdadero cuando se care- nivel de decisión o punto de corte que se adopte. ¿Cuál será
ce de estándar de oro: el par que describa la exactitud de la prueba? Sólo el espec-
Definir el diagnóstico en términos de resultados clínicos tro completo de pares S/E para todos los puntos de corte
medibles. limita y describe la exactitud de la prueba para discriminar
Usar como criterio diagnóstico algún consenso, regla mayo- entre estados de salud. La curva ROC proporciona una visión
ritaria o revisión de expertos. de este espectro completo, por lo que es una herramienta
Asignar a cada sujeto un valor comprendido entre 0 y 1 a fundamental en la evaluación y comparación de pruebas
partir del conocimiento subjetivo de la enfermedad, para su diagnósticas9.
posterior análisis logístico. Un punto de corte se puede elegir para utilizar la prueba en
Estudiar a largo plazo la evolución clínica. el cuidado del paciente, pero para evaluar pruebas no es
deseable ya que puede conducir a errores respecto a su exac-
En un gran número de casos el diagnóstico definitivo se esta- titud o comparaciones erróneas entre distintas pruebas.
blece mediante el estudio anatomopatológico de biopsias y
son raros los resultados falsos positivos, salvo en cuadros de
muy difícil catalogación. Sin embargo, el azar en la toma de Curvas ROC
la muestra, cuando se trata de procesos no generalizados,
produce falsos negativos que disminuyen artificialmente la Las curvas ROC se desarrollaron en los años cincuenta como
especificidad de la prueba en evaluación. herramientas para el estudio de detección e interpretación
Por otra parte, la adjudicación del diagnóstico verdadero siem- de señales de radar. El objetivo de los operadores de radar
pre tiene elementos subjetivos, en muchos casos inconscien- era distinguir las verdaderas señales del ruido de fondo11. Si
tes para el investigador. Así, éste debe establecer el diagnós- se observa la pantalla de un receptor de radar (fig. 1), puede
tico de manera ciega, sin conocer previamente el resultado verse cómo al variar la amplitud de la señal definida para
de la prueba evaluada, para evitar cualquier tipo de considerar un pico como misil, varían la sensibilidad y la es-
condicionamiento que produzca aumentos sesgados de la pecificidad del sistema de recepción.
sensibilidad y la especificidad2. Si I, II y III son señales emitidas por misiles, al situar la ampli-
También debe evitarse el sesgo por razonamiento circular. tud A como punto de corte detectaremos los 3 misiles (sen-
Este error se produce cuando para catalogar a los sujetos sibilidad 100 %), pero también consideraremos misiles se-
como enfermos o sanos uno de los criterios utilizados es la ñales que no lo son. Al cambiar el nivel de decisión a la am-
propia prueba que se está evaluando o alguna otra muy rela- plitud B no consideraremos misil ninguna señal de ruido (es-
cionada, por lo que aumenta artificialmente la concordancia. pecificidad 100 %) pero no habremos detectado el misil lI,
El diagnóstico definitivo debe hacerse con independencia de por lo que la sensibilidad desciende.
la prueba en estudio9. De la misma forma que en el receptor de radar se produce
Por último, es necesario considerar que el método usado para un solapamiento entre las verdaderas señales y el ruido, al
determinar la verdad no debe afectar a la selección de la realizar pruebas diagnosticas existe un solapamiento entre
muestra porque sea tan invasivo que se reserve para casos los resultados de los pacientes con una condición particular
muy graves, no sea bien tolerado por los pacientes o por al- y los de aquellos que no la tienen. Por este motivo, las aplica-
guna otra causa 4. ciones de las curvas ROC se extendieron a múltiples siste-
mas diagnósticos, incluidas las técnicas radiológicas12 y las
Realización de la prueba a evaluar evitando sesgos pruebas de laboratorio9, y su denominación se está sustitu-
yendo cada vez más por «Performance Characteristic Curves»
Existen pruebas en las que la subjetividad puede afectar al o curvas de rendimiento diagnóstico.
resultado, por lo que el conocimiento del diagnóstico verda- La curva ROC es un gráfico en el que se observan todos los
dero puede influir mejorando injustificadamente la estima- pares sensibilidad/especificidad resultantes de la variación
ción de la sensibilidad y la especificidad. Los resultados ob- continua de los puntos de corte en todo el rango de resulta-
tenidos con la prueba en evaluación no deben conducir a dos observados13. En el eje y de coordenadas se sitúa la sen-
verificaciones en caso de discordancia con el diagnóstico de sibilidad o fracción de verdaderos positivos, definida como
referencia, ya que esto llevaría a un sesgo, aumentando la se expuso anteriormente y calculada en el grupo de enfer-
sensibilidad y la especificidad. Tanto el diagnóstico de refe- mos (fig. 2). En el eje x se sitúa la fracción de falsos positivos
rencia como la prueba en estudio deben realizarse con igual o 1-especificidad, definida como FP/VN + FP y calculada en
cuidado en todos los casos y con independencia10. el subgrupo no afectado. Algunos autores sitúan en el eje x la
especificidad, pero es lo menos frecuente14.
Cálculo de la sensibilidad y la especificidad. Evaluación y Cada punto de la curva representa un par S/1-E correspon-
comparación de pruebas diagnosticas a todos los niveles de diente a un nivel de decisión determinado. Una prueba con
decisión usando curvas ROC discriminación perfecta, sin solapamiento de resultados en
las dos poblaciones, tiene una curva ROC que pasa por la
Como se ha comentado, en aquellas pruebas que ofrecen esquina superior izquierda, donde S y E toman valores máxi-
resultados en un rango continuo es necesario establecer un mos (S y E = 1). Una prueba sin discriminación, con igual
punto de corte que divida los resultados en dos grupos (posi- distribución de resultados en los dos subgrupos, da lugar a
tivo y negativo) para poder calcular su sensibilidad y su es- una línea diagonal de 45º, desde la esquina inferior izquier-
663
MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995
664
M. J. BURGUEÑO ET AL.- LAS CURVAS ROC EN LA EVALUACIÓN DE LAS PRUEBAS DIAGNÓSTICAS
665
MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995
Fig. 5. Curva ROC no paramétrica del cociente Apo A1/Apo B. La línea con- Fig. 6 .Curva ROC paramétrica de imágenes radiológicas clasificadas en ca-
tinua muestra los datos sin agrupar y la discontinua los mismos datos agru- tegorías. La línea discontinua representa la curva empírica y la continua el
pados en categorias. resultado del ajuste a una distribución gaussiana.
descartar muchos datos se pierde información y se introdu- que también permiten los análisis estadísticos para la eva-
cen muchos empates. Cuando los puntos son pocos y aleja- luación cuantitativa de las pruebas diagnósticas.
dos entre sí, esta gráfica puede representar erróneamente la
verdadera curva ROC, subestimando la exactitud de la prue-
ba, ya que las líneas diagonales suelen caer por debajo de la
escalera 16.
TABLA 3
Ventajas e inconvenientes de las curvas ROC no
Curvas ROC paramétricas paramétricas
Cuando se dispone de datos discretos o continuos agrupa- Ventajas
dos en categorías, puede utilizarse algún modelo paramétrico Usan todos los datos y la curva pasa por todos los puntos de corte
para el ajuste de la curva ROC. Se asume que la distribución Proporcionan estimadores centrados (sin sesgo) de la sensibilidad, la
especificidad y el área bajo la curva, ya que para cada punto de corte
de frecuencias de resultados, no de los propios resultados, los mejores estimadores son los no paramétricos
en las diversas categorías sigue un modelo paramétrico y No necesitan asumir supuestos
posteriormente se estiman los parámetros correspondientes17. Los cálculos son simples
Un modelo utilizado frecuentemente es el denominado
Inconvenientes
binormal. Asume que las distribuciones de frecuencias de Tienen apariencia de escalera
los subgrupos enfermo y no enfermo en las distintas catego- Las series grandes de datos producen un gráfico abigarrado
rías son gaussianas con distintas medias y, en muchos ca- Los empates pueden causar problemas, ya que normalmente dan lugar a
sos, distintas variancias. Estos supuestos no pueden verifi- curvas subestimadas y, por tanto, la exactitud obtenida es menor que
la real
carse completamente, por lo que varios autores discrepan La comparación entre dos puntos de dos curvas ROC sólo puede
con este método18,19 . En la figura 6 se observa una curva realizarse a sensibilidades o especificidades observadas
paramétrica de imágenes radiológicas clasificadas en cinco
categorías; en ella, los datos experimentales se han ajustado TABLA 4
a una distribución binormal.
Otros modelos paramétricos con una distribución logística o Ventajas e Inconvenientes de las curvas ROC paramétricas
exponencial negativa tienen inconvenientes semejantes.
Una aproximación distinta consiste en ajustar los puntos de Ventajas
la curva ROC directamente a una función matemática, lo que Proporcionan una línea curva de visualización más clara.
Permiten comparar puntos de dos curvas a cualquier sensibilidad o
implica también adoptar un modelo paramétrico. especificidad, observadas o no
En las tablas 3 y 4 se exponen las ventajas e inconvenientes
de las curvas ROC paramétricas y no paramétricas. Para datos Inconvenientes
Descartan datos al agruparlos, con la consiguiente pérdida de
continuos, como la mayoría de los resultados de laboratorio, información
son preferibles las curvas ROC no paramétricas. Asumen modelos de distribución que muchas veces no se pueden
comprobar
Análisis de las curvas ROC La curva no pasa necesariamente por los verdaderos puntos Los puntos
ROC y el área pueden ser sesgados
Los cálculos son complejos
Las curvas ROC no sólo aportan información cualitativa, sino
666
M. J. BURGUEÑO ET AL.- LAS CURVAS ROC EN LA EVALUACIÓN DE LAS PRUEBAS DIAGNÓSTICAS
Área bajo la curva ROC estándar de W que permite obtener su intervalo de confian-
za. El estadístico W es un estimador centrado de la verdade-
El área bajo la curva (ABC) ROC es una medida global de la ra ABC ROC teórica.
exactitud de una prueba diagnóstica. Se define como la pro- Con datos clínicos se debe considerar la posibilidad de em-
babilidad de clasificar correctamente un par de individuos pates. Si se producen pocos empates, el ABC puede calcu-
sano y enfermo, seleccionados al azar de la población, me- larse también mediante el método trapezoidal o utilizando la
diante los resultados obtenidos al aplicarles la prueba versión de Mann-Whitney del estadístico de Wilcoxon con los
diagnóstica. Es decir, es la probabilidad de que el resultado rangos medios. Sin embargo, al agrupar los datos en catego-
de la prueba resulte más anormal en el paciente enfermo22. rías ordenadas el aumento de empates conduce a un área
trapezoidal subestimada y a un aumento de su error
Verdadera ABC ROC =Prob (Xenfermo > Xsano) estándar24.
Existen varios métodos gráficos y matemáticos para calcular
Se puede tomar como ejemplo la determinación del PSA para el ABC y su error estándar asumiendo un modelo paramétrico
el diagnóstico del cáncer de próstata. Un ABC de 0,75 signi- binormal12,21 . Pero, a menos que se satisfagan bien las asun-
fica que un individuo seleccionado aleatoriamente del grupo ciones paramétricas, las ABC obtenidas suelen ser sesgadas.
de enfermos tendrá el 75 % de las veces un valor de PSA También se ha propuesto un modelo exponencial negativo,
mayor que un individuo elegido al azar del grupo no enfer- más conservador que el binormal. Hanley y McNeil22 expli-
mo. Esto no significa que un resultado positivo se produzca can un método de cálculo del tamaño de muestra necesario
en el enfermo con una probabilidad de 0,75 ni que esté aso- para obtener el ABC ROC con la precisión deseada utilizan-
ciado con la enfermedad el 75 % de las veces. do dicho modelo.
Por convenio, el ABC ROC es siempre mayor o igual que 0,5. Centor y Schwartz25 han realizado una comparación de áreas
Toma valores comprendidos entre 0,5, si no existen diferen- no paramétricas y paramétricas binormales.
cias en la distribución de resultados de la prueba entre los El área bajo la curva ROC por ser una medida global implica
subgrupos enfermo y sano, y 1,0, cuando existe separación pérdida de información, por lo que no debe considerarse ais-
perfecta entre las dos distribuciones. Swets4 interpreta el ABC ladamente sin examinar la curva. A veces, curvas ROC de
de la siguiente manera: valores entre 0,5 y 0,7 indican baja trazados muy distintos pueden tener áreas semejantes (fig.
exactitud, entre 0,7 y 0,9 pueden ser útiles para algunos pro- 7). Por otra parte, una curva con mayor área que otra puede
pósitos y un valor mayor de 0,9 indica exactitud alta. no ser la mejor en la situación clínica de interés.
La capacidad de discriminación de la prueba diagnóstica
puede evaluarse estimando el intervalo de confianza del ABC
ROC. Si el intervalo no incluye el valor 0,5 la prueba es capaz Comparación de curvas ROC
de discernir entre enfermos y sanos.
El cálculo del ABC ROC así como de su error estándar puede La comparación clásica de pruebas diagnósticas se realiza
abordarse, en función del tipo de curva, mediante un enfo- mediante estudios de correlación, una vez fijado el punto de
que paramétrico o no paramétrico. Si se utiliza el criterio no corte. La utilización de curvas ROC permite hacer compara-
paramétrico, el ABC puede calcularse mediante un método ciones de puntos de dos curvas que tengan igual sensibili-
trapezoidal o estimarse como el estadístico W de Wilcoxon. dad o especificidad20 y un enfoque global de confrontación
Bamber23 demostró que el área bajo la curva ROC coincide de la exactitud de dos pruebas en el espectro completo de
con la suma de rangos (W) obtenida mediante la prueba no puntos de corte, comparando sus áreas bajo la curva22.
paramétrica de comparación de medias de Wilcoxon. Hanley El diseño del estudio de comparación puede ser de20:
y McNeil22 exponen esta demostración matemática en el con- Datos pareados, se realizan dos o más pruebas en los mis-
texto médico y el método directo para el cálculo del error mos sujetos. Es un diseño muy eficaz que controla la varia-
667
MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995
TABLA 5
Programas informáticos para la construcción y análisis de curvas ROC
CLINROC MEZ ROC ANALYZER ROCLAB RULEMAKER SIGNAL EP-UH
Tipo de datos C C, 1 A C C A C
Curva ROC NP - NP, P NP NP NP, P NP
ABC ROC NP NP, P NP, P NP NP NP, P NP
Comparación ABC - P NP, P - NP -
Elección puntos de corte P - - NP - - -
-
C: Continuos; A: agrupados en categorías ordenadas; NP: no paramétrico; P: paramétrico.
ción paciente-paciente, por lo que requiere menor tamaño b) el hecho de conocer que no se padece la enfermedad
de la muestra. Los resultados de las pruebas están general- tiene una importancia sanitaria y psicológica.
mente asociados o correlacionados. 3. Debe utilizarse una prueba con alto valor predictivo positi-
Grupos independientes, las diversas pruebas se realizan en vo cuando el tratamiento de los falsos positivos pueda tener
distintos individuos. Los resultados son independientes y no consecuencias graves.
se relacionan. 4. Se desea un valor global elevado cuando: a) la enferme-
Si el estudio se realiza en grupos independientes, tanto en dad sea importante pero curable, y b) tanto los falsos positi-
curvas paramétricas como no paramétricas, la comparación vos como los falsos negativos supongan un traumatismo y
de áreas mediante métodos estadísticos es directa16,26 . Si se conlleven consecuencias graves.
utilizan datos apareados es necesario calcular previamente
la correlación entre las pruebas27,28 ; los cálculos son comple-
jos y requieren el uso de ordenador. Aplicaciones de las curvas ROC en el diagnóstico de
Distintos autores han descrito programas informáticos comer- laboratorio
ciales o de dominio público para la obtención y análisis de
curvas ROC29,31 . La tabla 5 recoge los principales programas Las curvas ROC tuvieron sus primeras aplicaciones en medi-
así como algunas de sus capacidades. Zweig8 cita las direc- cina en el campo del radiodiagnóstico12. En 1981, Robertson
ciones de contacto para adquirirlos. y Zweig9 las utilizaron por primera vez en la evaluación de
pruebas de laboratorio. Estudiaron las concentraciones séricas
de mioglobina y creatincinasa MB (CK-MB) en pacientes con
Elección de niveles de decisión o puntos de corte sospecha de IAM y comunicaron sus resultados en forma de
curvas ROC. Además, reanalizaron datos ya publicados so-
Considerando únicamente los valores de sensibilidad y es- bre la hormona paratiroidea usando estas curvas. Posterior-
pecificidad no es posible seleccionar el punto de corte idó- mente, estos autores colaboraron con Van Steirteghem35 en
neo para la aplicación concreta de las pruebas diagnósticas. un estudio de comparación de mioglobina, CK total, CK-MB
Para determinar cuál de las posibles combinaciones S/E es y CK-BB en el diagnóstico de IAM. Construyeron las curvas
la más apropiada, es necesario considerar dos elementos8: ROC obtenidas con los cuatro parámetros a distintos tiempos
de muestreo desde el comienzo del dolor torácico. Estas cur-
1. Los costes relativos de los resultados falsos, tanto negati- vas demostraron que la mioglobina poseía la mayor capaci-
vos como positivos, así como los beneficios de las clasifica- dad diagnóstica en las primeras 5 a 8 h tras la instauración
ciones correctas. del dolor, mientras que la CK y la CK-MB eran superiores a
2. La proporción relativa de los dos estados de salud que se las 18 h.
pretende discriminar con la prueba, es decir, la prevalencia Sucesivamente, diversos autores publicaron curvas ROC como
o probabilidad a priori de la enfermedad en la población. resultados de sus estudios 36-40, pero con interpretaciones
solamente cualitativas.
Evaluar el primer apartado es complicado, ya que puede ex- En 1985, Carson et al41 utilizaron por primera vez el análisis
presarse en términos financieros o de costes para la salud y cuantitativo de curvas ROC en un estudio de comparación
se puede interpretar desde el punto de vista del paciente, de de cuatro técnicas analíticas para la determinación de
los sanitarios o de la sociedad. Diversos autores8,32,33 han fosfatasa ácida prostática en casos de sospecha de cáncer
expuesto sus criterios para el cálculo de los costes relativos de próstata. La evaluación se efectuó comparando las áreas
de los resultados y obtienen distintas fórmulas que también bajo las curvas ROC obtenidas.
engloban la prevalencia para la determinación del punto de Hermann33 comparó la exactitud de dos versiones de un en-
corte óptimo. sayo comercial radioisotópico para tirotropina y su capaci-
Independientemente del cálculo del nivel de decisión exac- dad para distinguir entre individuos eutiroideos e hipotiroideos,
to, Galen y Gambino34 han emitido cuatro postulados relati- mediante curvas y ABC ROC. Kazmierczack et al42 usaron
vos a la elección práctica de las características de una prue- curvas ROC para evaluar la exactitud de lipasa, amilasa y
ba diagnóstica, que consideran la patología estudiada y las fosfolipasa A en el diagnóstico de pancreatitis aguda. Guyatt43
condiciones reales de la comunidad, y que son los siguien- estudió la capacidad de siete pruebas incluyendo ferritina,
tes: transferrina, saturación, volumen corpuscular medio y
protoporfirina eritrocitaria para distinguir la anemia ferropénica
1. Se elige la mayor sensibilidad posible cuando: a) la enfer- de otras causas de anemia en sujetos mayores de 65 años.
medad sea grave y no pueda pasar inadvertida; b) la enfer- Utilizó un factor para corregir la correlación, ya que todas las
medad sea tratable, y c) los resultados falsos positivos no curvas se obtuvieron en los mismos individuos.
supongan un traumatismo psicológico o económico en los En los últimos años se han publicado diversos estudios sobre
individuos examinados. evaluación y comparación de pruebas diagnósticas, utilizan-
2. Se elige la mayor especificidad posible cuando: a) la en- do curvas y análisis ROC44-50.
fermedad sea importante pero difícil de curar o incurable, y Sin embargo, el principal avance de nuestros días consiste
668
M. J. BURGUEÑO ET AL.- LAS CURVAS ROC EN LA EVALUACIÓN DE LAS PRUEBAS DIAGNÓSTICAS
669
MEDICINA CLÍNICA VOL. 104 NÚM. 17. 1.995
classifying patients with chest pain. Clin Chem 1982; 28: 1.319-1.324. 45. Dupont A, Cusan L, Gómez JL, Thibeault MM, Tremblay M, Labrie F.
36. Kadar N, DeCherney AH, Romero R. Receiver operating characteristic Prostate specific antigen and prostatic acid phosphatase for monitoring
(ROC) curve analysis of the relative efficacy of single and serial chorionic therapy of carcinoma of the prostate. J Urol 1991; 146: 1.064-1.068.
gonadotropin determinations in the early diagnosis of ectopic pregnancy. Fertil 46. De Wit R, Hoek FJ, Bakker PJ, Veenhof CH. The value of MCA, CA 15-
Steril 1982; 37: 542-547. 3, CEA and CA-125 for discrimination between metastasic breast cancer
37. Ryan ED, Bilous G. Serum 5'-nucleotidase: Automation of a manual and adenocarcinoma of other primary sites. J Intern Med 1991; 229: 463-
assay and briev observations on values in patients with breast cancer. Clin 466.
Biochem 1983; 16: 249-253. 47. Ricker DM, Hebert LA, Rohde R, Sedmak DD, Lewis EJ, Clough JD.
38. Marchand A, Van Lente F, Galen RS. The assessment of laboratory Serum C3 levels are diagnostically more sensitiva and specific for systemic
tests in the diagnosis of acute appendicitis. Am J Clin Pathol 1983; 80: 369- lupus erythematosus activity than are serum C4 levels. Am J Kidney Dis 1991;
374. 18: 678-685.
39. Leroux ML, Rabson J, Desjardins PRE. Clinical effectiveness of the Du 48. Amico S, Liehn JC, Desoize B, Larbre H, Deltour G, Valeyre J.
Pont aca measurement of creatine kinase MB in serum from patients in a Comparison of phosphatase isoenzymes PAP and PSA with bone scan in
coronary-care unit. Clin Chem 1984; 30: 1.552-1.554. patients with prostate carcinoma. Clin Nuci Med 1991; 16: 643-648.
40. Kim l, Pollit E, Leibel RL. Application of receiver-operator analysis to 49 . Lott JA, Lu CJ. Lipase isoforms and amylase isoenzymes: assays and
diagnostic tests of iron defficiency in man. Pediatr Res 1984; 18: 916-920. application in the diagnosis of acute pancreatitis. Clin Chem 1991; 37: 361-
41. Carson JL, Eisenberg JM, Shaw LM, Kundel HL, Soper KA. Diagnostic 368.
accuracy of four assays of prostatic acid phosphatase. Comparison using 50. Flack MR, Oldfield EH, Cutler GB, Zweig MH, Malley JD, Chrousos GP
receiver operating characteristic curve analysis. JAMA 1985; 253: 665-669. et al. Urine free cortisol in the high-dose dexamethasone suppression test for
42. Kazmierczack SC, Van leute F, Hodges ED. Diagnostic and prognostic the differential diagnosis of the Cushing syndrome. Ann lntern Med 1992;
utility of phospholipase A activity in patients with acute pancreatitis: 116: 211-217.
comparison with amylase and lipase. Clin Chem 1991; 37: 356-360. 51. Zweig MH, Broste SK, Reinhart RA. ROC curve analysis: an example
43. Guyatt GH, Oxman AD, Alí M, Willan A, Mcllroy W, Patterson C. showing the relationships among serum lipid and apolipoprotein
laboratory diagnosis of iron-deficiency anemia: an overview. J Gen lntern Med concentrations in identifying patients with coronary adery disease. Clin Chem
1992; 7: 145-153. 1992; 38: 1.425-1.428.
44. Leung FY, Galbraith LV, Jablonsky G, Henderson AR, Reevaluation of 52. Kazmierczack SC, Catrou PG, Van Lente F. Diagnostic accuracy of
the diagnostic utility of serum total creatine kinase and creatine kinase-2 in pancreatic enzymes evaluated by the use of multivariate data analysis. Clin
myocardial infarction. Clin Chem 1989; 35: 1.435-1.440. Chem 1993; 39: 1.960-1.965.
670