Vous êtes sur la page 1sur 3

Índices de concordancia

Caso más sencillo: 2 observadores y variable dicotómica.

Ejemplo: dos radiólogos independientes informan como neumonía sí/no 100


radiografías. Los resultados son

Radiólogo A
Rad. B Pulmonía No pulmonía Total
Pulm. 4 6 10
No 10 80 90
Total 14 86 100

En general

Observador A
Obs. B Positivo Negativo Total
Positivo a b r
Negativo c d s
Total t u N

siendo N el número total de individuos observados, a el número de ellos al que ambos


observadores clasifican como positivo, etc.

Existen varios índices de concordancia propuestos, el más obvio es la proporción de


acuerdos observados, es decir (a + d)/N. Este índice es muy intuitivo y fácilmente
interpretable: tomará valores entre 0 (total desacuerdo) y 1 (máximo acuerdo). Sin
embargo como indicador de reproducibilidad tiene el inconveniente de que aun en el
caso de que los dos observadores clasifiquen con criterios independientes se produciría
un cierto grado de acuerdo por azar. Por ejemplo, si se tiran dos dados y se registra si
sale un cierto número, p.e. el dos (resultado positivo) u otro cualquiera (resultado
negativo), en un cierto número de veces (con una probabilidad de 26/36, para ser más
preciso, siguiendo el razonamiento que se hace más abajo) ambos dados producirán el
mismo resultado por azar. Es deseable que un índice de concordancia tenga en cuenta
este hecho y que, de algún modo, indique el grado de acuerdo que existe por encima
del esperado por azar. En este sentido, el índice más usado es el propuesto
por Cohen y denominado índice kappa () que se define como

siendo Po la proporción de acuerdos observados y Pe la proporción de acuerdos


esperados en la hipótesis de independencia entre los observadores, es decir de
acuerdos por azar. A partir de la tabla
para calcular Pe hay recordar que dos sucesos A1, A2 son independientes si
p(A1A2)=p(A1)p(A2). En este caso, si llamamos A1 al suceso "el observador A
clasifica un individuo como positivo" y A2 al suceso "el observador B clasifica un
individuo como positivo" el suceso A1A2 será "ambos observadores clasifican un
individuo como positivo"; como el observador A ha clasificado t individuos como
positivos y el B ha clasificador, la mejor estimación de p(A1) es t/N y la de p(A2)
es r/N, por lo tanto la mejor estimación de la probabilidad de que ambos clasifiquen
como positivo a un individuo, en la hipótesis de que ambos son independientes es su
producto, es decir rt/N2; por la misma razón, la probabilidad de que ambos clasifiquen
como negativo a un individuo por azar es su/N2, en consecuencia

Cuando hay acuerdo total b=c=0, por lo tanto el valor de Po es 1 y en consecuencia el


índice también vale 1 para el máximo acuerdo; si el acuerdo observado es igual al
esperado por azar, vale 0. Obsérvese que si el acuerdo observado es menor que el
esperado por azar, el índice toma valores negativos. Un modo intuitivo de interpretar
este índice puede hacerse despejando Po de la definición

si se piensa que la proporción de acuerdos observados (Po) es un valor intermedio


entre el máximo acuerdo posible (1) y la proporción de acuerdos esperados por azar
(Pe), se puede interpretar como el peso que el máximo acuerdo posible tiene en los
acuerdos observados.

En el ejemplo la proporción de acuerdos observados es

es decir, ambos radiólogos coinciden en un 84% de las radiografías. Ahora bien, el


acuerdo esperado por azar es

por lo tanto

es decir, el grado de acuerdo una vez corregido el debido al azar es mucho más
modesto que lo que indicaba el 84% de acuerdo "crudo". Según la interpretación
anterior, el acuerdo observado está compuesto por un 24,5% del acuerdo máximo y
un 75,5% del esperado por azar.
Landis y Koch propusieron, y desde entonces ha sido ampliamente usada, la siguiente
escala de valoración del 

kappa grado de acuerdo


< 0,00 sin acuerdo
>0,00 - 0,20 insignificante
0,21 - 0,40 discreto
>0,41 - 0,60 moderado
0,61 - 0,80 sustancial
0,81 - 1,00 casi perfecto

Referencias

Cohen J. (1960) A coefficient of agreement for nominal scales. Educ Psychol


Meas 20:37-46.

Landis J.R., Koch G.G. (1977) The measurement of observer agreement for categorical
data. Biometrics 33:159-174.

Latour J., Abraira V., Cabello J.B., López Sánchez J. (1997) Métodos de investigación
en cardiología clínica (IV). Las mediciones clínicas en cardiología: validez y errores de
medición. Rev Esp Cardiol 50:117-128.

Vous aimerez peut-être aussi