Académique Documents
Professionnel Documents
Culture Documents
1. Teoría de la probabilidad
2. Introducción a la estadística
3. Análisis de la varianza
4. Modelos de regresión lineal
5. Precisión y validez de las pruebas diagnósticas
6. Modelos de regresión logística
7. Modelos de regresión de Poisson
8. Análisis de Supervivencia
9. Medidas de frecuencia de la enfermedad
1. Teoría de la probabilidad
1.1 Idea intuitiva
1.2 Formalización de la probabilidad
1.3 Definición axiomática de la probabilidad
1.4 Propiedades de la probabilidad
1.5 Probabilidad condicionada
1.6 Sucesos independientes
1.7 Regla de la probabilidad total
1.8 Teorema de Bayes
1.9 Problemas propuestos
Anexo I
Repaso de Algebra de Conjuntos
Definiciones
Propiedades
Función de conjunto
2 Estadística
2.1 Definiciones
2.1.1 ¿Por qué la estadística?
2.2 Estadística descriptiva
2.2.1 Métodos gráficos de representación de datos
2.2.2 Medidas descriptivas
2.2.3.Medidas de posición
2.2.4 Medidas de dispersión
2.3 Variable aleatoria
2.3.1 Inducción de probabilidad a variables aleatorias
2.3.2 Función densidad de probabilidad (fdp)
2.3.3 Función acumulativa de probabilidad
3. Análisis de la varianza
3.1 Bases del análisis de la varianza
3.2 Algunas propiedades
3.3 Ejemplo 1
3.4 Pruebas para la homocedasticidad
3.5 Modelos de Anova
3.5.1 Modelo I o de efectos fijos
3.5.2 Modelo II o de efectos aleatorios
3.6 Pruebas “a posteriori”
3.7 Análisis de la varianza de dos factores
3.8 Identidad de la suma de cuadrados
3.9 Contrastes de hipótesis en el anova de 2 vías
3.9.1 Modelo I
3.9.2 Modelo II
3.9.3 Modelo mixto
3.10 Ejemplo 2
3.11 Tamaños muestrales desiguales en un anova de 2 vías
3.12 Casos particulares: Anova sin repetición y Bloques completos aleatorios
3.13 Ejemplo 3
3.14 Análisis de la varianza de más de dos factores
8. Análisis de Supervivencia
8.1 Bibliografía
8.2 Introducción
8.3 Distribución de la variable tiempo de espera
8.4 Estimación de la función de supervivencia (método de Kaplan-Meier)
8.5 Varianza de los estimadores
8.6 Método actuarial
8.7 Comparación de funciones de supervivencia
8.8 Alternativa parámetrica
8.8.1 Función exponencial
8.8.2 Función de Weibull
8.8.3 Función lognormal
8.8.4 Función gamma
8.9 Modelo de riesgo proporcional (Cox)
8.10 Estimación de los coeficientes y contrastes de hipótesis
8.11 Estrategias de modelización
PROBABILIDAD
V.Abraira
Referencia bibliográfica
A.Pérez de Vargas, V.Abraira. Bioestadística. Centro de Estudios Ramón Areces. Madrid. 1996.
Idea intuitiva
Número, entre 0 y 1, asociado con la verosimilitud de que ocurra un suceso, 0 cuando estamos seguros que el
suceso no va a ocurrir y 1 cuando estamos seguros que sí va a ocurrir. El problema es ¿cómo asignar ese número
en situaciones de incertidumbre?
a) A veces se estima por la frecuencia relativa. P.e. una manera de aproximarnos a la probabilidad de que una
intervención quirúrgica arriesgada tenga éxito es consultar el registro de las intervenciones quirúrgicas realizadas
sobre pacientes similares, si de las últimas 10, ha sido un éxito en 8, la frecuencia relativa es 8/10=0,8 se parecerá
a esa probabilidad.
La frecuencia relativa cambia, en el ejemplo anterior si el registro, en lugar de 10 pacientes, tuviera 11, la
frecuencia relativa sería necesariamente distinta (8/11 ó 9/11), pero hay una ley empírica que establece que
cuando el "número de ensayos" (pacientes, en el ejemplo) es suficientemente grande, la frecuencia relativa se
estabiliza. A veces, se define la probabilidad como el límite de la frecuencia relativa. ¿Cómo saber, en cada caso,
si el "número de ensayos" es suficientemente grande? Una parte de la estadística tiene que ver con este
problema.
b) Hay situaciones en que se puede calcular: si todos los resultados del experimento son igualmente probables,
entonces la probabilidad se define (definición clásica o de Laplace) como el cociente entre el número de casos
favorables y el número de casos totales.
La probabilidad de que el resultado de tirar un dado sea un uno, se calcularía de esta forma. Compárese el
resultado 1/6 obtenido así con la gráfica anterior.
Formalización de la probabilidad
Experimento Aleatorio: experimento que puede ser repetido bajo "las mismas condiciones", del
que puede establecerse el conjunto de sus posibles resultados, pero no predecir un resultado
concreto.
Ejemplo 1: una mujer portadora de hemofilia tiene 3 hijos ¿Cuál es el espacio muestral
apropiado para estudiar la posible hemofilia de estos?
Opción a: Cada hijo puede padecer hemofilia (s) o no (n), por tanto
Donde, por ejemplo, 'sns' significa el primero y el tercero la padecen y el segundo no. Hay que
asegurarse que no se olvida ninguno.
En este espacio muestral, el suceso "dos hijos padecen hemofilia" se representa como
A1={ssn, sns, nss} y el suceso "los dos primeros no la padecen" como A2={nns, nnn}
Opción b: Pueden padecer hemofilia los tres hijos (3), dos (2), ...
Ω2={3, 2, 1, 0}
En este espacio muestral, el suceso "dos hijos padecen hemofilia" es A1={2} y el suceso "los
dos primeros no la padecen" no se puede representar porque en el espacio muestral no está
contemplado el orden.
Sea Ω: espacio muestral, P(Ω) conjunto de las partes de Ω, o conjunto de sucesos, o álgebra
de sucesos. Se define probabilidad, o función de probabilidad, a cualquier función p: P(Ω)→ℜ
(es decir, una regla bien definida por la que se asigna a cada suceso un, y un solo un, número
real) que cumpla los axiomas siguientes
i) p(A) ≥ 0 ∀ A ∈ P(Ω)
iii) p(Ω) = 1
Obsérvese que es necesario asignar un número a todos los sucesos, no sólo a los sucesos
elementales, pero si se ha asignado la probabilidad a los sucesos elementales, a través de la
propiedad ii) se puede asignar a todos los demás.
Ejemplo 1:
Sin embargo si se ha asignado a los sucesos elementales p({1})= p({2})= ...= p({6})= 1/6, por la
propiedad ii), p.e. la probabilidad del suceso {1, 3} es p({1,3})= p({1})+ p({3})=2/6.
Nota: El suceso {1} es: "el resultado de tirar el dado es la cara 1", el suceso {1, 3} es: "el
resultado de tirar el dado es la cara 1, o la 3", el suceso {1, 3, 5} es: "el resultado de tirar el
dado es una cara impar".
Propiedades de la probabilidad
Demostraciones
1) p(Ac) = 1 - p(A)
Ac representa el suceso complementario de A, es decir el formado por todos los resultados que
no están en A.
2) A1 ⊂ A2 ⇒ p(A1) ≤ p(A2)
3) p(∅) = 0
4) p(A) ≤ 1
Ejemplo 2: Un 15% de los pacientes atendidos en un hospital son hipertensos, un 10% son
obesos y un 3% son hipertensos y obesos. ¿Qué probabilidad hay de que elegido un paciente
al azar sea obeso o hipertenso?
A = {obeso} B = {hipertenso}
A ∩ B = {hipertenso y obeso}
A ∪ B = {obeso o hipertenso}
Probabilidad condicionada
Como la probabilidad está ligada a nuestra ignorancia sobre los resultados de la experiencia,
el hecho de que ocurra un suceso, puede cambiar la probabilidad de los demás. El proceso de
realizar la historia clínica, explorar y realizar pruebas complementarias ilustra este principio.
La probabilidad de que ocurra el suceso A si ha ocurrido el suceso B se denomina probabilidad
condicionada y se define
Según las leyes de Mendel, todos los posibles genotipos de un hijo de una madre portadora
(xX) y un padre normal (XY) son xX, xY, XX, XY y tienen la misma probabilidad. El espacio
muestral es Ω = {xX, xY, XX, XY}
el suceso A={hijo enfermo} corresponde al genotipo xY, por tanto, según la definición clásica
de probabilidad
p(A) = 1/4 = 0,25
La mujer tiene el hijo y es varón ¿qué probabilidad hay de que tenga la enfermedad?
Si sabemos que es varón, el espacio muestral ha cambiado, ahora es B. Por lo tanto se puede
calcular p(A|B) aplicando la definición clásica de probabilidad al nuevo espacio muestral
p(A|B) = 1/2 = 0,5
Ejemplo 4: Se sabe que el 50% de la población fuma y que el 10% fuma y es hipertensa.
¿Cuál es la probabilidad de que un fumador sea hipertenso?
Obsérvese que los coeficientes falso-positivo y falso-negativo de las pruebas diagnósticas son
probabilidades condicionadas.
Ejemplo 4: Se sabe por estudios previos que el 0,1% de la población tiene problemas
vasculares. Un estudio sobre individuos con problemas vasculares revela que el 20% de ellos
son placas de ateroma. Si el 10% de los individuos con placas de ateroma están expuestos a
muerte súbita por desprendimiento de trombos ¿qué probabilidad tiene un individuo cualquiera
de estar expuesto a muerte súbita por desprendimiento de trombos de una placa de ateroma?
Ejemplo 5: Una urna contiene 10 bolas, de las cuales 3 son rojas, 5 verdes y 2 azules. Se
extraen al azar 3 bolas. Calcular la probabilidad de que la primera sea azul, y las otras dos
verdes.
Definimos A1 = {la 1ª bola es azul}; A2 = {la 2ª bola es verde}; A3 = {la 3ª bola es verde}
p(A1) = 2/10 aplicando la definición clásica de probabilidad, puesto que hay 10 bolas y 2 son
verdes.
p(A2|A1) = 5/9; si la primera bola extraída es azul, en la urna quedan 9 bolas, 5 de ellas verdes.
p(A3|A1 ∩ A2) = 4/8; si la primera bola extraída es azul y la segunda verde en la urna quedan 8
bolas, 4 de ellas verdes.
p(A1 ∩ A2 ∩ A3) = 2/10 x 5/9 x 4/8 = 1/18
Sucesos independientes
Ejemplo 6: Para un hijo de una mujer portadora de Duchenne, el sexo y la enfermedad ¿son
independientes?
Regla de la probabilidad total: Si un conjunto de sucesos Ai forman una partición del espacio
muestral y p(Ai) ≠ 0 ∀ Ai, para cualquier otro suceso B se cumple
Demostración
Teorema de Bayes
Demostración
Aplicaciones
Nótese que un mismo conjunto de síntomas podría dar lugar a un diagnóstico diferente en
poblaciones en las que las prevalencias fueran diferentes.
Pruebas diagnósticas: Supóngase una prueba diagnóstica, por ejemplo nivel de glucosa en
sangre, en ayunas, para diagnosticar la diabetes. Se considera que la prueba es positiva si se
encuentra un nivel por encima de un cierto valor, digamos 120 mg/l.
Para evaluar la prueba, (habrá que hacerlo para distintos valores de corte) se somete a la
misma a una serie de individuos diabéticos diagnosticados por otro procedimiento (el patrón de
oro o "gold standar") y a una serie de individuos no diabéticos. Los resultados se pueden
representar en una tabla de doble entrada
Patrón de oro
NE E
- a b r
Prueba
+ c d s
t u
Cuando la prueba se usa con fines diagnósticos (o de "screening") interesa calcular p(E|+) y/o
p(NE|-).
como E y NE son una partición, usando el Teorema de Bayes
Nótese que ambas dependen de la prevalencia de la enfermedad: una prueba diagnóstica que
funciona muy bien en la clínica Mayo, puede ser inútil en el Hospital Ramón y Cajal.
Ejemplo 8: una prueba diagnóstica para la diabetes tiene un CFP de 4% y un CFN del 5%. Si
la prevalencia de la diabetes en la población donde se usa es del 7% ¿cuál es la probabilidad
de que sea diabético un individuo en el que la prueba dé positiva? y ¿de que no lo sea uno en
el que dé negativo?
Pruebas en serie: Cuando se aplican pruebas en serie, para cada prueba p(E) y p(NE), serán
la p(E|+) y p(NE|+) de la prueba anterior (si dio positiva) o p(E|-) y p(NE|-) si dio negativa.
1º Una mujer es hija de una portadora de la enfermedad de Duchenne. Dicha mujer tiene tres
hijos sanos. Calcular la probabilidad de que ella sea portadora de la enfermedad.
Solución
2º Una prueba diagnóstica para el cáncer uterino tiene un coeficiente falso-positivo de 0.05 y
falso-negativo de 0.10. Una mujer con una probabilidad pre-prueba de padecer la enfermedad
de 0.15 tiene un resultado negativo con la misma. Calcular la probabilidad de que no esté
enferma.
Solución
1º Una mujer es hija de una portadora de la enfermedad de Duchenne. Dicha mujer tiene tres
hijos varones sin la enfermedad. Calcular la probabilidad de que ella sea portadora de la
enfermedad.
Solución
Si representamos por x el gen alterado y por X el gen normal, el espacio muestral para el
nacimiento de la mujer Ω ={xX, XX}, cada suceso elemental con la misma probabilidad (1ª ley
de Mendel). Por tanto, si A = {xX} = {la mujer es portadora}, según la definición clásica de
probabilidad p(A) = 1/2.
Si la mujer fuera portadora, los posibles genotipos para sus hijos son xX, xY, XX, XY, todos
con la misma probabilidad. El espacio muestral para el nacimiento de un hijo varón es Ω ={xY,
XY}, por tanto la probabilidad de que un hijo varón no tenga la enfermedad es 1/2 (también
según la definición clásica). Cómo los genotipos de los sucesivos hijos son independientes (2ª
ley de Mendel), y de acuerdo a la definición de independencia, la probabilidad de que los 3
hijos varones no tengan la enfermedad es (1/2)x(1/2)x(1/2) = 1/8. Obviamente si la mujer no
fuera portadora, la probabilidad de que los 3 hijos varones no tengan la enfermedad es 1.
Como el suceso A = {la mujer es portadora} y su complementario Ac = {la mujer no es
portadora} forman una partición, se puede aplicar el teorema de Bayes en relación con el
suceso B = {los 3 hijos varones no tienen la enfermedad}
2º Una prueba diagnóstica para el cáncer uterino tiene un coeficiente falso-positivo de 0,05 y
falso-negativo de 0,10. Una mujer con una probabilidad pre-prueba de padecer la enfermedad
de 0,15 tiene un resultado negativo con la misma. Calcular la probabilidad de que no esté
enferma.
Solución
Sea NE = {la mujer no está enferma}, + = {el resultado de la prueba es positivo} y - = {el
resultado de la prueba es negativo}. La pregunta pide p(NE|-). Los datos que se dan son
p(+|NE)=0,05; p(-|E)=0,10 y p(E)=0,15. Del primero se deduce que p(-|NE)=0,95 y del último
p(NE)=0,85, por lo tanto aplicando el teorema de Bayes
V.Abraira
Definiciones
Se llama cardinal del conjunto, y se representa car(A), al número de elementos que contiene.
Se llama conjunto vacío, y se representa por ∅, al conjunto que no contiene ningún elemento. No desespere,
estamos de acuerdo en que si no contiene ningún elemento, no es un conjunto, sin embargo su definición como tal es
muy útil.
Se llama universo o conjunto universal, y se suele representar por H, al conjunto formado por todos los elementos
que se están considerando.
Dado un conjunto A, se llama complementario del mismo, y se representa por Ac, al conjunto formado por los
elementos del universo que no son de A.
Dos conjuntos son iguales si están formados por los mismos elementos.
Dados dos conjuntos A y B, se llama unión de ambos, y se representa A ∪ B, al conjunto formado por los elementos
que pertenecen a A o a B.
A ∪ B = {a, b, c, d, e, h}
Se llama intersección y se representa A ∩ B, al conjunto formado por los elementos que pertenecen a A y a B.
Si dos conjuntos no tienen elementos comunes, se llaman disjuntos y su intersección es el conjunto vacío. Si, para el
ejemplo 2, en el universo que se está considerando no hay nadie que sea hipertenso y obeso C ∩ D = ∅
Al conjunto formado por todos los subconjuntos de un conjunto dado se le denomina conjunto de las partes del
conjunto o álgebra y se representa por P(A)
Ejemplo: A = {1, 2, 3}
Propiedades
Propiedades de la inclusión
i) A ⊂ A
ii) ∅ ⊂ A
iii) A ⊂ B ⇒ B ⊄ A ; sólo si A = B
iv) A ⊂ B y B ⊂ D ==> A ⊂ D
i) Identidad A∪∅=A A ∩H = A
ii) Idempotencia A∪A=A A∩A=A
iii) Commutatividad A∪B=B∪A A∩B=B∩A
iv) Asociatividad (A ∪ B) ∪ D = A ∪ (B ∪ D) (A ∩B) ∩ D = A ∩ (B ∩ D)
v) Distributividad (A ∪ B) ∩ D = (A ∩D) ∪ (B ∩ D) (A∩B) ∪ D = (A ∪ D) ∩ (B ∪ D)
vi) Absorción A ∪ (A ∩ B) = A A ∩ (A ∪ B) = A
vii) Complementaridad A ∪ Ac = H A ∩ Ac = ∅
Nota: A todo conjunto en el que se hayan definido dos operaciones que tengan estas propiedades, se le denomina
Algebra de Boole.
Función de conjunto: toda regla que de un modo perfectamente determinado haga corresponder un número real a
cada elemento del conjunto. Se representa por
f: A → ℜ
Se denomina imagen de la función al conjunto de números que están en correspondencia con algún elemento, a
través de la función.
im f = { x ∈ℜ; a ∈ A , f(a)=x }
Volver Ir a Bioestadística
ESTADISTICA
V.Abraira
Referencia bibliográfica
Definiciones
Ciencia que sirve para demostrar que dos personas han comido 1/2 pollo cada una, cuando
en realidad una ha comido uno y la otra ninguno.
En ciertas ciencias (Biología, Ciencias Humanas, algunos campos de la Física, ...) aparece el
concepto de experimento aleatorio (experimento que repetido en las "mismas condiciones" no
produce el mismo resultado) y asociado al mismo el de variable aleatoria.
Una variable no aleatoria (asociada al resultado de una experiencia que sí produce el mismo
resultado) está caracterizada por un valor para cada condición.
Una variable aleatoria está caracterizada por la llamada función densidad de probabilidad, a
partir de la cual se obtienen las probabilidades para sus posibles valores para cada condición.
La estadística es la ciencia que estudia los métodos que permiten realizar este proceso para
variables aleatorias. Estos métodos permiten resumir datos y acotar el papel de la casualidad
(azar).
Contraste de hipótesis.
ESTADISTICA DESCRIPTIVA
La descripción completa de una variable aleatoria está dada por su función densidad de
probabilidad (fdp).
Dentro de cada familia, cada fdp está caracterizada por unos pocos parámetros, típicamente
dos: media y varianza.
Por tanto la descripción de una variable indicará la familia a que pertenece la fdp y los
parámetros correspondientes.
Muestra aleatoria: muestra elegida independientemente de todas las demás, con la misma
probabilidad que cualquier otra y cuyos elementos están elegidos independientemente unos de
otros y con la misma probabilidad.
Advertencias:
MEDIDAS DESCRIPTIVAS
Media muestral: Si tenemos X1, X2, ... , Xn datos, se llama media muestral de los mismos a su
media aritmética
Moda muestral: El valor que más se repite (puede no existir y si existe puede no ser única).
Medidas de dispersión
Varianza:
Coeficiente de variación:
Variable aleatoria
Una función que asocia un número real, perfectamente definido, a cada punto muestral.
A veces las variables aleatorias (v.a.) están ya implícitas en los puntos muestrales.
Se podría definir una variable que asignara a cada punto muestral el número de orden en el
espacio muestral.
Pero otra posible v.a.: a cada punto muestral el número de s. X: sss 3; ssn 2; ...
Las v.a. definidas sobre espacios muestrales discretos se llaman v.a. discretas y las definidas
sobre espacios muestrales continuos se llaman continuas.
Una v.a. puede ser continua, aunque nosotros sólo podamos acceder a un subconjunto finito
de valores. P.e. la presión arterial es una v.a. continua pero sólo podemos acceder a un
conjunto finito de valores por la limitación de los aparatos de medida.
En general, las medidas dan lugar a v.a. continuas y los conteos a v.a. discretas.
Las v.a permiten definir la probabilidad como una función numérica (de variable real) en lugar
de como una función de conjunto como se había definido antes
Ejemplo 3: Tiramos una moneda 3 veces. Representamos cara por c y cruz por z.
Definimos la v.a. X: número de caras, que puede tomar los valores {0, 1, 2, 3}. Se buscan
todos los puntos muestrales que dan lugar a cada valor de la variable y a ese valor se le
asigna la probabilidad del suceso correspondiente.
x Sucesos px
0 {zzz} 1/8
3 {ccc} 1/8
x f(x)
1 0,22
2 0,27
3 0,30
4 0,21
Para variables continuas la probabilidad de que una variable tome cualquier valor concreto es
0, por lo tanto la fdp sólo permite calcular la probabilidad para un intervalo del tipo (a<X<b),
mediante el área bajo la curva de la fdp.
Para las variables aleatorias de interés hay tablas, y programas de ordenador, donde buscar
esos valores.
F(x) = p(X ≤ x)
Para el ejemplo 3
x f(x) F(x)
0 1/8 1/8
1 3/8 4/8
2 3/8 7/8
3 1/8 8/8
y para el ejemplo 4
x f(x) F(x)
1 0,22 0,22
2 0,27 0,49
3 0,30 0,79
4 0,21 1
si X es una v.a. cualquier función de ella, h(x), es también una v.a., en consecuencia también
se define este parámetro para una función de v.a.
Ejemplo 5: Se tira un dado. Se define como v.a. el número que sale ¿Cuál es su media?
La variable X puede tomar los valores 1, 2, ..., 6 y para todos ellos f(x) = 1/6. En consecuencia
la media es
Observese que es un número que la v.a. no puede alcanzar. ¿Qué significa? No mucho.
Se define ahora una función sobre X: el premio: si sale 1 ó 2 se gana 100 ptas, si sale 3 se
gana 500 y si sale 4, 5 ó 6 no se gana nada
X h(x)
1 100
2 100
3 500
4 0
5 0
6 0
Varianza:
Se define como:
1º Un juego consiste en tirar dos dados. Si la suma de sus caras es mayor o igual a 10 se ganan 300 pts, si está
comprendida entre 7 y 9 se ganan 100 pts. y para cualquier otro resultado no se gana nada. ¿Cuál debería ser el precio
de la apuesta para que la ganancia esperada de la banca sea de 50 pts?
Solución
2º La siguiente tabla muestra la fdp para la variable X: número de personas por día que solicitan un tratamiento
innecesario en el servicio de urgencias de un pequeño hospital.
x 0 1 2 3 4 5
a. Encontrar f(5)
b. Construir F(x)
c. Encontrar p(X≤2)
d. Encontrar p(X<2)
e. Encontrar p(X>3)
f. Calcular la media y la varianza
Solución
3º Se desarrolla un compuesto para aliviar las migrañas. El fabricante afirma que es efectivo en un 90% de los casos. Se
prueba sobre 4 pacientes. Sea X el número de pacientes que obtiene alivio.
a. Encontrar la fdp para X, suponiendo que la afirmación del fabricante sea correcta.
b. Encontrar p(X≤1)
c. Si el compuesto no alivia a ninguno de los pacientes ¿es esa una razón para poner en duda la eficacia afirmada por el
fabricante? Razonar sobre la base de la probabilidad implicada.
d. Calcular la media. ¿Qué significa en este ejemplo?
Solución
4º Sea X el tiempo de supervivencia en años después de un diagnóstico de leucemia aguda. La fdp para X es f(x) = -x/2
+ 1, para 0 < x < 2.
Solución
1º Un juego consiste en tirar dos dados. Si la suma de sus caras es mayor o igual a 10 se ganan 300 pts, si está
comprendida entre 7 y 9 se ganan 100 pts. y para cualquier otro resultado no se gana nada. ¿Cuál debería ser el precio
de la apuesta para que la ganancia esperada de la banca sea de 50 pts?
Solución
El espacio muestral para el problema es Ω = {(1,1), (1,2), (1,3), ..., (6,6)} con 36 puntos muestrales. Todos los sucesos
elementales tiene la misma probabilidad 1/36.
Se define la v.a. X: suma de las dos caras. Esta variable puede tomar los valores 2, 3, 4, ....,12. La tabla con la fdp
inducida es
x Sucesos f(x)
2 {(1,1)} 1/36
12 {(6,6)} 1/36
x h(x)
2 0
3 0
4 0
5 0
6 0
7 100
8 100
9 100
10 300
11 300
12 300
en consecuencia, la apuesta debería costar 91,7 + 50 = 141,7 para que la ganancia esperada de la banca sea 50 ptas.
2º La siguiente tabla muestra la fdp para la variable X: número de personas por día que solicitan un tratamiento
innecesario en el servicio de urgencias de un pequeño hospital.
x 0 1 2 3 4 5
a. Encontrar f(5)
b. Construir F(x)
c. Encontrar p(X≤2)
d. Encontrar p(X<2)
e. Encontrar p(X>3)
f. Calcular la media y la varianza
Solución
.
Para que se cumpla esta condición es necesario que f(5)=0,09
b.
x 0 1 2 3 4 5
3º Se desarrolla un compuesto para aliviar las migrañas. El fabricante afirma que es efectivo en un 90% de los casos. Se
prueba sobre 4 pacientes. Sea X el número de pacientes que obtiene alivio.
a. Encontrar la fdp para X, suponiendo que la afirmación del fabricante sea correcta.
b. Encontrar p(X≤1)
c. Si el compuesto no alivia a ninguno de los pacientes ¿es esa una razón para poner en duda la eficacia afirmada por el
fabricante? Razonar sobre la base de la probabilidad implicada.
d. Calcular la media. ¿Qué significa en este ejemplo?
Solución
a. Representando por a que un paciente tenga alivio y por n que no lo tenga, el espacio muestral para el problema es Ω
= {aaaa, naaa, anaa, aana, aaan, ..., nnnn}, Si es cierta la afirmación del fabricante p(a)=0,9 y p(n)=0,1
La v.a. X: número de pacientes que tienen alivio puede tomar los valores 0, 1, 2, 3, 4. La tabla con la fdp inducida es
x Sucesos f(x)
0 {nnnn} 0,14
4 {aaaa} 0,94
4º Sea X el tiempo de supervivencia en años después de un diagnóstico de leucemia aguda. La fdp para X es f(x) = -x/2
+ 1, para 0 < x < 2.
Solución
a. La gráfica de la fdp es
La condición equivalente a
b.
c. Como en toda variable continua la probabilidad de que tome un valor concreto es 0, por lo tanto p(X=1) = 0
d. Obviamente p(X≥1) = p(X >1) = 1/4
e. Media
varianza
Estadística inferencial
Los dos tipos de problemas que resuelven las técnicas estadísticas son: estimación y contraste
de hipótesis. En ambos casos se trata de generalizar la información obtenida en una muestra a
una población. Estas técnicas exigen que la muestra sea aleatoria. En la práctica rara vez se
dispone de muestras aleatorias, por la tanto la situación habitual es la que se esquematiza en
la figura
Entre la muestra con la que se trabaja y la población de interés, o población diana, aparece la
denominada población de muestreo: población (la mayor parte de las veces no definida con
precisión) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la
generalización está amenazada por dos posibles tipos de errores: error aleatorio que es el que
las técnicas estadísticas permiten cuantificar y críticamente dependiente del tamaño muestral,
pero también de la variabilidad de la variable a estudiar y el error sistemático que tiene que ver
con la diferencia entre la población de muestreo y la población diana y que sólo puede ser
controlado por el diseño del estudio.
Tamaño muestral
Estimación de parámetros
Estadístico: variable aleatoria que sólo depende de la muestra aleatoria elegida para
calcularla.
Estimación: Proceso por el que se trata de averiguar un parámetro de la población
representado, en general, por θ a partir del valor de un estadístico llamado estimador y
representado por
El problema se resuelve en base al conocimiento de la "distribución muestral" del estadístico
que se use.
¿Qué es esto? Concretemos, p.e. en la media (µ). Si para cada muestra posible calculamos la
media muestral ( ) obtenemos un valor distinto ( es un estadístico: es una variable
aleatoria y sólo depende de la muestra), habrá por tanto una fpd para , llamada distribución
muestral de medias. La desviación típica de esta distribución se denomina error típico de la
media. Evidentemente, habrá una distribución muestral para cada estadístico, no sólo para la
media, y en consecuencia un error típico para cada estadístico.
Si la distribución muestral de un estadístico estuviera relacionada con algún parámetro de
interés, ese estadístico podría ser un estimador del parámetro.
Si tenemos una muestra aleatoria de una población N(µ,σ ), se sabe (Teorema del límite central) que la fdp de la
media muestral es también normal con media µ y varianza σ2/n. Esto es exacto para poblaciones normales y
aproximado (buena aproximación con n>30) para poblaciones cualesquiera. Es decir es el error típico, o
error estándar de la media.
Recuérdese que la probabilidad de que µ esté en este intervalo es 1 - α. A un intervalo de este tipo se le denomina
intervalo de confianza con un nivel de confianza del 100(1 - α)%, o nivel de significación de 100α%. El nivel de
confianza habitual es el 95%, en cuyo caso α=0,05 y zα /2=1,96. Al valor se le denomina estimación puntual y
Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria de tamaño 20 en la que se
calcula se puede decir que µ tiene una probabilidad de 0,95 de estar comprendida en el intervalo
En general esto es poco útil, en los casos en que no se conoce µ tampoco suele conocerse σ2; en el caso más
realista de σ2 desconocida los intervalos de confianza se construyen con la t de Student (otra fdp continua para la
que hay tablas) en lugar de la z.
Este manera de construir los intervalos de confianza sólo es válido si la variable es normal. Cuando n es grande
(>30) se puede sustituir t por z sin mucho error.
Interpreting study results: confidence intervals. Guyatt et al. CMAJ. 152:169-173. 1995
Estimación de proporciones
Sea X una variable binomial de parámetros n y p (una variable binomial es el número de éxitos
en n ensayos; en cada ensayo la probabilidad de éxito (p) es la misma, por ejemplo: número
de diabéticos en 2000 personas).
Si n es grande y p no está próximo a 0 ó 1 (np ≥ 5) X es aproximadamente normal con media
muestral), que es también aproximadamente normal, con error típico dado por
en consecuencia, un IC para p al 100(1 - α)% será
Obsérvese que para construirlo, ¡se necesita conocer p!. Si n es grande (>30) se pueden
substituir p y q por sus estimadores sin mucho error, en cualquier caso como pq ≤ 0,25 si se
substituye pq por 0,25 se obtiene un intervalo más conservador (más grande).
¿Qué significa este intervalo? La verdadera proporción de curaciones está comprendida entre,
aproximadamente, 72% y 88% con un 95% de probabilidad.
¿Es suficientemente preciso? Habrá que juzgarlo con criterios clínicos.
Solución
2º Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de riesgo.
Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10 pasan la
gripe. Construir un IC al 95% para la probabilidad de pasar la gripe si se está vacunado. En los
otros 100 pacientes sin vacunar la pasan 20. ¿Hay evidencia de que la vacuna es eficaz?
Solución
Solución
Para poder usar esta fórmula es necesario que la variable sea normal. ¿es abusiva esta
asunción? Ver, por ejemplo The normal distribution. Altman & Bland. BMJ 1995; 310:298.
2º Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de riesgo.
Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10 pasan la
gripe. Construir un IC al 95% para la probabilidad de pasar la gripe si se está vacunado. En los
otros 100 pacientes sin vacunar la pasan 20. ¿Hay evidencia de que la vacuna es eficaz?
Solución
es decir, hay una probabilidad del 95% de que la probabilidad de pasar la gripe si se está
vacunado esté comprendida entre el 4% y el 16%. Para los no vacunados
Existe solapamiento, aunque pequeño, entre ambos intervalos; por tanto no podemos asegurar
que la vacuna sea eficaz.
Contrastes de hipótesis
H0 cierta H0 falsa
H1 cierta
Obsérvese que, de esta manera, se está más seguro cuando se rechaza una
hipótesis que cuando no. Por eso se fija como H0 lo que se quiere rechazar.
Cuando no se rechaza, no se ha demostrado nada, simplemente no se ha
podido rechazar. Por otro lado, la decisión se toma en base a la distribución
muestral en H0, por eso es necesario que tenga la igualdad.
Ejemplo:
2. la hipótesis alternativa
no está en la región crítica (no es mayor que 1,69), por tanto no rechazamos H0.
Otra manera equivalente de hacer lo mismo (lo que hacen los paquetes
estadísticos) es buscar en las tablas el "valor p" que corresponde a T=0,833,
que para 35 g.l. es aproximadamente 0,20. Es decir, si H0 fuera cierta, la
probabilidad de encontrar un valor de T como el que hemos encontrado o mayor
(¿por qué mayor? Porque la H1 es que µ es mayor , lo que produciría una media
muestral mayor y por tanto mayor valor de t) es 0,20, dicho de otra manera la
probabilidad de equivocarnos si rechazamos H0 es 0,20, como la frontera se
establece en 0,05 no la rechazamos.
es decir, se acepta H0 si
Concretando H1: µ = µ0 + δ.
resulta que
Comparación de medias
La hipótesis nula
H0: µ1 − µ2 = d0
Generalmente d0=0
Todos asumen normalidad. Si no se cumpliera hay que usar los llamados test no paramétricos.
Ejemplo
En un ensayo clínico para evaluar un hipotensor se compara un grupo placebo con el grupo tratado. La
variable medida es la disminución de la presión sistólica y se obtiene: grupo placebo n = 35; = 3,7 mm de
Hg. y s2 = 33,9; grupo tratado n = 40; = 15,1 mm de Hg. y s2 = 12,8. ¿Es eficaz el tratamiento?
Como no conocemos las varianzas, para realizarlo debemos decidir si son iguales o distintas, para ello se
plantea el contraste
H0:
H1:
Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear un archivo con 2 variables:
Trata (con un código distinto para cada grupo, p.e. 0 para placebo y 1 para tratado) y Diferen con la
diferencia de presión arterial para cada individuo al acabar el estudio y al empezar. Originalmente en el
archivo podría haber una variable con la presión al empezar y otra al acabar y se crearía la diferencia con la
opción: Transformar ---> Calcular. Para calcular la t desplegamos los menús que se ven en la gráfica:
Y el programa calcula la t para varianzas iguales y distintas y realiza el contraste para las varianzas. Para el
contraste sobre las varianza el SPSS no usa la prueba descrita más arriba, sino la de Levene que no asume
normalidad y se puede usar para comparar varias varianzas.
Inferior Superior
DIFEREN Se han 10,431 ,002 -10,503 73 ,000 -11,346 1,080 -13,500 -9,193
asumido
varianzas
iguales
¿Qué nos está diciendo este resultado? Que si el tratamiento fuera igual de eficaz que el placebo, la
probabilidad de haber obtenido una diferencia entre ambos como la que hemos encontrado o mayor es muy
pequeña (<0,000) ¿Bastaría esto para convencernos de que debemos tratar con este tratamiento?
Se quiere estudiar un posible factor pronóstico del éxito de una terapia, p.e. cierto grado de albuminuria como
mal pronóstico en la diálisis. Los resultados de un estudio de este tipo se pueden comprimir en una tabla 2x2 del
tipo
F nF
E a b m = a+b
nE c d n = c+d
e = a+c f = b+d T
Se estudian T individuos, a tienen al factor (F) y tiene éxito la terapia (E), b no tienen al factor (nF) y tiene éxito la
terapia, ...
¡Ojo! A pesar de la aparente "inocencia" de esta tabla, puede significar cosas distintas segíun el diseño del
estudio. No todas las probabilidades de las que se habla más abajo se pueden estimar siempre.
H0 es que el factor F y el éxito E son independientes (F no es factor pronóstico) y H1 que están asociados (sí es
factor pronóstico). Si son independientes p(E∩F) = p(E)p(F). A partir de los datos de la tabla las mejores
que se distribuye según una distribución conocida denominada ji-cuadrado, que depende de un parámetro
llamado "grados de libertad" (g.l.) Los g.l. en esta tabla son 1. Esto se puede generalizar a tablas CxF y los
grados de libertad son (C-1)x(F-1).
Ejemplo
En una muestra de 100 pacientes que sufrieron infarto de miocardio se observa que 75 sobrevivieron más de 5
años (éxito). Se quiere estudiar su posible asociación con la realización de ejercicio moderado (factor). La tabla
es
F nF
E 50 25 75
nE 10 15 25
60 40 100
F nF
E 60x75/100=45 40x75/100=30
nE 60x25/100=15 40x25/100=10
Obsérvese que una vez calculado uno de los valores esperados, los demás vienen dados para conservar los
totales marginales (eso es lo que significa que hay 1 g.l.). A partir de aquí calculamos
Rechazamos la H0 y concluimos que hay asociación entre el ejercicio y la supervivencia. Obviamente esta
asociación no es necesariamente causal.
Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear un archivo con 2 variables: Super
con un código distinto para cada grupo, p.e. 1 para supervivencia y 0 para no y Ejer también con dos códigos.
Para calcular la ji-cuadrado desplegamos los menús que se ven en la gráfica:
y la salida es
Recuento
SUPER Total
0 1
EJERC 0 15 25 40
1 10 50 60
Total 25 75 100
Pruebas de chi-cuadrado
b 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 10,00.
1º Diferencia de riesgo o Reducción absoluta del riesgo (RAR): A partir de la tabla del ejemplo
anterior podemos estimar la probabilidad (riesgo en la terminología epidemiológica) de que un
3º Riesgo relativo (RR): Otro índice relativo es el riesgo relativo definido como el cociente entre
los riesgos. En el ejemplo anterior RR=0,83/0,63=1,32. Los individuos que hacen ejercicio
tienen una probabilidad de éxito 1,32 veces mayor que los que no. El RR puede oscilar entre 0
y ∞; 1 indica no asociación. Es el estadístico preferido.
4º Odds ratio (OR): Es un estadístico menos intuitivo que el RR. Para caracterizar un proceso
binomial se puede usar su probabilidad (p) o el cociente p/q llamado odds. En el ejemplo
anterior, para el ejercicio p = 0,83 y el odds = 0,83/0,17=4,88, es decir es 4,88 veces más
probable tener éxito que no tenerlo si se hace ejercicio y para el no ejercicio p = 0,63 y el odds
= 0,63/0,37=1,70. Para comparar ambos procesos podemos usar su cociente u odds ratio OR
= 4,88/1,70 = 2,87. El odds para el ejercicio es 2,87 veces mayor que para el no ejercicio. El
OR también puede oscilar entre 0 y ∞
; 1 indica no asociación. Queda como ejercicio para el
lector comprobar que el OR se puede estimar como el cociente de los productos cruzados de
los elementos de la tabla, OR=(50x15)/(10x25)=3. La diferencia con el anterior es debida a
errores de redondeo.
¿Qué ventajas tiene el OR frente al RR?. En principio parece menos intuitivo aunque un
jugador no opinaría lo mismo. De hecho el OR proviene del mundo de las apuestas. Si
queremos comparar dos juegos ¿qué da más información el OR o el RR? ... y ¿si queremos
comparar dos estrategias terapéuticas?
Por otro lado si el estudio del ejemplo anterior se hubiera hecho de otra forma: muestreando
por un lado individuos con éxito y por otro sin éxito (diseño caso-control) el RR no se podría
estimar y sin embargo el OR sí y de la misma forma (se puede demostrar usando el teorema
de Bayes).
Assessing the effects of treatment: measures of association. Jaeschke et al. CMAJ. 152:351-
357. 1995
Medidas del efecto de un tratamiento (I): reducción absoluta del riesgo, reducción relativa del
riesgo y riesgo relativo. Abraira SEMERGEN 26: 535-536. 2000.
Medidas del efecto de un tratamiento (II): odds ratio y numero necesario para tratar. Abraira
SEMERGEN 27: 418-420. 2001.
Solución
Solución
3º En un estudio caso-control para estudiar la posible asociación entre estado civil y mortalidad
en la UVI se ha encontrado que de 50 personas que murieron 30 eran solteros, mientras que
entre 60 que sobrevivieron sólo lo eran 15. Plantear y resolver el contraste. ¿Cuál sería el
mejor estimador del efecto?
Solución
Solución
Construimos la tabla
V nV
G 10 20 30
nG 90 80 170
V nV
G 100x30/200=15 100x30/200=15
nG 100x170/200=85 100x170/200=85
Calculamos el estadístico χ2
Solución
H0: µa = µd
H1: µa > µd
b. Error tipo I = (rechazar H0|H0 cierta) es decir concluir que la concentración ha disminuido,
cuando en realidad no ha sido así.
Error tipo II = (aceptar H0|H0 falsa) es decir concluir que la concentración no ha disminuido,
cuando en realidad si ha disminuido
3º En un estudio caso-control para estudiar la posible asociación entre estado civil y mortalidad
en la UVI se ha encontrado que de 50 personas que murieron 30 eran solteros, mientras que
entre 60 que sobrevivieron sólo lo eran 15. Plantear y resolver el contraste. ¿Cuál sería el
mejor estimador del efecto?
Solución
Construimos la tabla
Soltero No
Morir 30 20 50
No 15 45 60
45 65 110
Soltero no
No 45x60/110=24,5 65x60/110=35,5
Calculamos el estadístico χ2
Introducción a la causalidad
1 Causalidad en la vida común: Parece que forma parte de la mente humana el buscar relaciones entre las
cosas y particularmente entre acciones y sus consecuencias como modo de entender el mundo y adaptarse
al mismo. Ya figura en el aprendizaje del niño, incluso la repetición.
Sin embargo en el lenguaje común e incluso literario se usa con mucha laxitud:
"Un hombre entró en un local provocando una nube de humo, se alisó el cabello provocando la aparición de
un barman de aspecto feroz". Queneau.
"Sobre como la divina providencia regula la igualdad en el nacimiento de los sexos". Arthunot.
No es infrecuente encontrar esta visión finalista en Biología: "El sistema inmunológico está para defender al
individuo de ataques externos".
Otras posiciones:
i) ontológica (Leibniz): La causalidad es un principio del ser. "Las leyes causales que una cosa cumple
constituyen un aspecto fundamental e inseparable de su modo de ser". D. Bohm.
ii) legalista (Hume): La causalidad es la forma en que se expresan las leyes científicas basadas en una
generalización de la experiencia y con capacidad predictiva. Las características de la relación causal son:
a) contigüidad (causa y efecto deben estar contiguos en espacio y tiempo).
b) prioridad (la causa precede en el tiempo al efecto).
c) conjunción constante (las relaciones anteriores deben conservarse en varios casos).
iii) a priorista (Kant): La causalidad es un "a priori" que se necesita para el conocimiento racional. No procede
del conocimiento, es un supuesto previo que lo hace posible.
iv) escéptica: "La razón por la que la física ha dejado de buscar las causas es que en realidad no existen. La
Ley de causalidad como mucho de lo que se da por bueno entre los filósofos, es una reliquia de una época
pasada que sobrevive, como la monarquía, porque se supone erróneamente que no hace ningún daño". B.
Russell.
1 Elemento inicial (A) o causa: su definición depende del modelo. Pueden ser causas:
a) Acciones intencionales (p.e. administración de un tratamiento): las más claras
b) Acciones no intencionales: acciones naturales (lluvia), hechos (fumar),...
c) Atributos (sexo), constructos (inteligencia): como no se definen en función de cambios, a veces en lugar de
causas se habla de determinantes.
2 Elemento final (B) o efecto que se define en términos de cambio con respecto a:
a) situación previa
b) lo que hubiera ocurrido si no hubiera ocurrido la causa. Es la que plantea más problemas en el diseño
experimental: necesidad de control.
El cuarto caso es el más difícil de establecer por su ambigüedad, pero es el más frecuente en Biología.
4 Características de la relación causal: siguiendo a Hume, pero con un lenguaje más actual
a) temporalidad: la causa precede al efecto
b) dirección: la relación va de la causa al efecto
c) asociación: entendida como cuantificación de la constancia de la relación
2 Modelo de Bradford Hill: más conocido como criterios de Bradford Hill, aunque estrictamente no son
criterios, y paradigmático en el estudio de enfermedades no infecciosas y también asume los principios
anteriores adecuados a la relación causal tipo iv:
i) fuerza de la asociación, medida con los índices estadísticos apropiados.
ii) consistencia entre distintos observadores, en diferentes lugares, tiempos y circunstancias.
iii) especificidad de las causas.
iv) temporalidad
v) gradiente biológico en la relación dosis-respuesta.
vi) plausibilidad biológica.
vii) coherencia con otros conocimientos.
viii) evidencia experimental
ix) analogía con otras relaciones causales
3 Modelo de Rothman, con más contenido teórico, contempla las relaciones multicausales, fue desarrollado
en el ámbito de la epidemiología y es el más adaptado a los métodos estadísticos multivariantes.
Define causa como todo acontecimiento, condición o característica que juega un papel esencial en producir
un efecto (p.e. una enfermedad)
Distingue entre:
Causa componente causa que contribuye a formar un conglomerado que constituirá una causa suficiente.
Causa suficiente conjunto de causas que producen un efecto.
Causa necesaria ver más adelante (punto iii)
¿qué es?
¿qué añade?
¿es siempre necesario?
Supongamos que si tenemos en cuenta el tabaco, resultara que el 99% de los que hacen
ejercicio no fuman, mientras que sólo no fuman el 70% de los que no lo hacen y el tabaco ya
hubiera demostrado una asociación con la supervivencia: ¿hemos encontrado un nuevo factor
pronóstico o sólo estamos viendo indirectamente el efecto del tabaco? Dicho en la jerga usual:
¿es el tabaco una variable de confusión para la asociación entre el ejercicio y la
supervivencia?
ANÁLISIS DE LA VARIANZA
V. Abraira
Bibliografía:
Análisis de la varianza
Por otro lado, en cada comparación la hipótesis nula es que las dos muestras
provienen de la misma población, por lo tanto, cuando se hayan realizado todas
las comparaciones, la hipótesis nula es que todas las muestras provienen de la
misma población y, sin embargo, para cada comparación, la estimación de la
varianza necesaria para el contraste es distinta, pues se ha hecho en base a
muestras distintas.
El método que resuelve ambos problemas es el anova, aunque es algo más que
esto: es un método que permite comparar varias medias en diversas
situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna
manera, es la base del análisis multivariante.
1) Una llamada varianza dentro de los grupos (ya que sólo contribuye a ella la
varianza dentro de las muestras), o varianza de error, o cuadrados medios del
error, y habitualmente representada por MSE (Mean Square Error) o MSW
(Mean Square Within) que se calcula como la media de las k varianzas
muestrales (cada varianza muestral es un estimador centrado de σ2 y la media
de k estimadores centrados es también un estimador centrado y más eficiente
que todos ellos). MSE es un cociente: al numerador se le llama suma de
cuadrados del error y se representa por SSE y al denominador grados de
libertad por ser los términos independientes de la suma de cuadrados.
2) Otra llamada varianza entre grupos (sólo contribuye a ella la varianza entre
las distintas muestras), o varianza de los tratamientos, o cuadrados medios de
los tratamientos y representada por MSA o MSB (Mean Square Between). Se
calcula a partir de la varianza de las medias muestrales y es también un
cociente; al numerador se le llama suma de cuadrados de los tratamientos (se le
representa por SSA) y al denominador (k-1) grados de libertad.
Algunas propiedades
Ejemplo 1
Grupo
1 2 3 4 5
180 172 163 158 147
173 158 170 146 152
175 167 158 160 143
182 160 162 171 155
181 175 170 155 160
Fuente de variación GL SS MS F
Tratamiento 4 2010,64 502,66 11,24
Error 20 894,4 44,72
Total 24 2905,04
Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear
un archivo con 2 variables: Trata (con un código distinto para cada grupo, p.e.
de 1 a 5) y Presion con la presión arterial de cada individuo al acabar el estudio.
Para calcular el Anova desplegamos los menús que se ven en la gráfica:
Hay que tener en cuenta que estas pruebas van "al reves" de lo habitual. La
hipótesis nula es lo que se quiere probar, en consecuencia hay que usarlas con
precaución.
La hipótesis nula en este análisis es que todas las medias son iguales
E[MSA0] = σ2
E[MSE0] = σ2
Se puede ver que MSE es igual en la hipótesis nula que en la alternativa. Por lo
tanto:
E[MSE] = E[MSE0] = σ2
La situación, por lo tanto, es la siguiente: en H0, MSA y MSE estiman σ2; en H1,
MSE estima σ2 pero MSA estima . Contrastar la H0 es equivalente a
contrastar la existencia de la componente añadida o, lo que es lo mismo, que
MSE y MSA estimen, o no, la misma varianza.
donde µ es la media global, εij son variables (una para cada muestra)
distribuidas normalmente, con media 0 y varianza σ2 (como en el modelo I) y A i
es una variable distribuida normalmente, independiente de las εij, con media 0 y
varianza .
Por tanto, en H0 tanto MSA como MSE estiman σ2, mientras que en H1, MSE
sigue estimando σ2 y MSA estima . La existencia de esta componente
añadida se contrasta con F=MSA/MSE y en caso afirmativo, la varianza de Ai se
estima como:
Pruebas “a posteriori”
Sin embargo, en un modelo I, lo que tiene interés son las diferencias entre los
distintos grupos.
En el Ejemplo 1, lo que interesa, una vez visto que la presión arterial media es
diferente para los cinco grupos, es, por ejemplo, estimar el efecto de la dieta sin
sal, α3 − α1, o el aumento del efecto de la segunda dosis del fármaco con
respecto a la primera dosis α5 – α4.
Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las
posibles hipótesis del tipo µi – µj = 0.
Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan
el rango (diferencia entre medias) de todos los pares de muestras como
estadístico y dicho rango debe superar un cierto valor llamado mínimo rango
significativo para considerar la diferencia significativa.
Para los datos del Ejemplo 1 la salida semigráfica para la prueba LSD de, por
ejemplo, el Statgraphics es
El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo
factor y el tercero la observación dentro de la muestra. Los factores pueden ser
ambos de efectos fijos (se habla entonces de modelo I), de efectos aleatorios
(modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El
modelo matemático de este análisis es:
modelo I
modelo II
modelo mixto
A los términos (αβ)ij, (AB)ij, (αB)ij, se les denomina interacción entre ambos factores
Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos
niveles (hombre y mujer para el sexo y somnífero y placebo para el fármaco). Los
dos tipos de resultados posibles se esquematizan en la figura
A B
En la figura A se observa que las mujeres tardan más en dormirse, tanto en el grupo
tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con
placebo tardan más en dormirse que los tratados con somnífero en ambos sexos
(hay un efecto del tratamiento). Ambos efectos son fácilmente observables.
Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los
distintos niveles del otro, es decir, que las mujeres se durmieran antes con el
somnífero y los hombres antes con el placebo.
La interacción indica, por tanto, que los efectos de ambos factores no son aditivos:
cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando
están por separado, por lo que, si en un determinado estudio se encuentra
interacción entre dos factores, no tiene sentido estimar los efectos de los
factores por separado. A la interacción positiva, es decir, cuando el efecto de los
factores actuando juntos es mayor que la suma de efectos actuando por separado,
en Biología se le denomina sinergia o potenciación y a la interacción negativa
inhibición. En el ejemplo de la figura B, se diría que el ser mujer inhibe el efecto del
somnífero, o que el ser hombre lo potencia (según el sexo que se tome como
referencia).
Fuente de variación GL SS MS
1º factor a -1 SSA SSA/(a - 1)
2º factor b-1 SSB SSB/(b - 1)
Interacción (a - 1)(b - 1) SSAB SSAB/[(a - 1)(b - 1)]
Error ab(n - 1) SSE SSE/[ab(n - 1)]
Total abn - 1 SST
Para plantear los contrastes de hipótesis hay que calcular los valores esperados de
los distintos cuadrados medios.
Del mismo modo que se hizo en el anova de una vía, para plantear los contrastes
de hipótesis habrá que calcular los valores esperados de los distintos cuadrados
medios. Los resultados son:
Modelo I
MS Valor esperado
MSA
MSB
MSAB
MSE
ii) no existe efecto del primer factor, es decir, diferencias entre niveles del primer
factor (MSA/MSE)
Modelo II
MS Valor esperado
MSA
MSB
MSAB
MSE
Ejemplo
Fuente de G.L. SS MS
variación
1º factor 4 315,8 78,95
2º factor 3 823,5 274,5
Interacción 12 328,9 27,41
Error 100 2308,0 23,08
Total 119 3776,2
Modelo mixto
MS Valor esperado
MSA
MSB
MSAB
MSE
Ejemplo
Placebo Somnífero
30 35
50 32
45 30 Hombre
47 25
38 30
50 42
35 30
46 15 Mujer
25 18
32 23
Fuente de GL SS MS
variación
Somnífero 1 696,2 696,2
Sexo 1 105,8 105,8
Interacción 1 0,2 0,2
Error 16 1197,6 74,85
Total 19 1999,8
sexo f = 105,8/74,85 = 1,41 que como es menor que 4,49 no existe diferencias
entre los sexos.
La estimación del efecto del somnífero será la diferencia entre las medias de los
que lo toman y los que tomaron placebo, sin tener en cuenta el sexo, una vez
que se ha visto que no tiene efecto.
y la tabla de medias
Por tanto la estimación del efecto del somnifero es 39,8 - 28,0=11,8 min
Aunque los paquetes estadísticos suelen hacer el anova de dos factores, tanto
en el caso de tamaños muestrales iguales como desiguales, conviene resaltar
que el análisis es bastante más complicado en el caso de tamaños desiguales.
La complicación se debe a que con tamaños desiguales hay que ponderar las
sumas de cuadrados de los factores con los tamaños muestrales y no resultan
ortogonales (su suma no es la suma de cuadrados total) lo que complica no sólo
los cálculos sino también los contrastes de hipótesis.
En ciertos estudios en que los datos son difíciles de obtener o presentan muy
poca variabilidad dentro de cada subgrupo es posible plantearse un anova sin
repetición, es decir, en el que en cada muestra sólo hay una observación (n=1).
Hay que tener en cuenta que, como era de esperar con este diseño, no se
puede calcular SSE. El término de interacción recibe el nombre de residuo y
que, como no se puede calcular MSE, no se puede contrastar la hipótesis de
existencia de interacción.
Por ejemplo, en un ensayo clínico para comparar los efectos de dos analgésicos
y un placebo en el que el efecto se mide por el tiempo que tarda en desaparecer
una cefalea. Si se hicieran tres grupos de enfermos y a cada uno de ellos se le
suministrara un tratamiento distinto, habría una gran variación individual en las
respuestas, debido a que no todas las cefaleas son de la misma intensidad y no
todos los individuos tienen la misma percepción del dolor, que dificultaría el
hallazgo de diferencias entre los tratamientos. Esta dificultad desaparece si se
aplican los tres tratamientos a los mismos individuos en diferentes episodios de
cefalea. Se ha emparejado a cada individuo consigo mismo, con lo que se
elimina la variación individual.
En este diseño a los datos de cada individuo se les denomina bloque y los datos
se representan en una tabla de doble entrada análoga a la del anova de
clasificación única en la que las a columnas son los tratamientos y las b filas los
bloques, el elemento Yij de la tabla corresponde al tratamiento i y al bloque j. Las
hipótesis que se pueden plantear son:
(igualdad
de medias de tratamientos)
(igualdad
de medias de bloques)
A pesar del parecido con la clasificación única, el diseño es diferente: allí las
columnas eran muestras independientes y aquí no. Realmente es un diseño de
dos factores, uno de efectos fijos: los tratamientos, y el otro de efectos
aleatorios: los bloques, y sin repetición: para cada bloque y tratamiento sólo hay
una muestra.
Ejemplo 3
para los bloques f=191,9/51,15=3,75 que es menor que F0,05(4,8)=3,84 por tanto
no hay componente añadida por los pacientes.
y el resultado
Los tres primeros subíndices para los factores y el cuarto para las repeticiones,
nótese que aparecen términos de interacción de segundo y tercer orden, en
general en un modelo de k factores aparecen términos de interacción de orden
2, 3,... hasta k y el número de términos de interacción de orden n será el número
combinatorio Ck;n. Este gran número de términos de interacción dificulta el
análisis de más de dos factores, ya que son difíciles de interpretar y complican
los valores esperados de los cuadrados medios por lo que también resulta difícil
encontrar los estadísticos para los contrastes. Por estas razones no se suele
emplear este tipo de análisis y cuando interesa estudiar varios factores a la vez
se recurre a otros métodos de análisis multivariante.
V. Abraira
Bibliografía:
En el caso discreto:
en el caso continuo:
Esto se puede generalizar a más de una variable. Para n variables aleatorias X1,
X2, ..., Xn se llama fdp conjunta a una función n-dimensional f(x1,x2,...,xn) a partir
de la cual se puede calcular la probabilidad de los distintos valores de las
variables.
En el caso discreto:
en el caso continuo:
discreta
continua
X1
X2 0 1
0 0,4 0,1
1 0,3 0,2
Caso discreto
Caso continuo
En el ejemplo anterior:
X1
X2 0 1 f2(X2)
X1
0 0,4/0,5=0,8
1 0,1/0,5=0,2
Obsérvese que como esto es una fdp, la suma de sus valores debe ser 1.
Función lineal
asumimos que para cada valor de X, Y no está determinada, sino que sigue una
distribución normal cuya media está dada por el modelo:
Ejemplo 3: Para el diseño del ejemplo 2 una muestra produce los siguientes datos:
X (sal) Y (Presión)
1,8 100
2,2 98
3,5 110
4,0 110
4,3 112
5,0 120
H0 : α 1=0
H1 : α1≠0
según iii)
se rechaza H0.
6,335±2,776x0,840=(4,004 8,666)
A veces interesa hacer inferencias sobre la propia regresión, es decir sobre µY|xi para
cualquier valor de xi . Si a los valores xi de la muestra se les aplica la ecuación estimada, se
obtiene una estimación de µY|xi
23,8 13,8
15,4 9,3
21,7 17,2
18,0 15,1
Se asume que las variables X e Y son ambas variables aleatorias y que su fdp conjunta es
normal bivariante.
A partir de una muestra aleatoria se pueden estimar los coeficientes por los mismos
procedimientos que en el modelo I y ¡¡se obtienen los mismos resultados!! Ahora, sin
embargo, también se obtiene un estimador para el coeficiente de correlación (la "famosa"
r) que no tiene sentido en el modelo I.
¿Qué mide r?
¿Qué no mide r?
Supongamos que
Cuando
en nuestro caso mayor que 4,92. Como no lo es, no rechazamos H0. Hay que
calcular la probabilidad de encontrar
si α1 fuera 5. Calculamos
Si, para cada valor del consumo de grasas, las demás variables se distribuyen
aleatoriamente, la estimación por RLS es adecuada y la variación "debida" a las
otras variables estaría incluida en la variación aleatoria alrededor de la
regresión, pero en caso contrario la estimación sería incorrecta, si p.e., las
costumbres dietéticas variaran con la edad y ésta influyera en el colesterol, una
parte no cuantificada de la variación del colesterol que el modelo atribuye al
consumo de grasas sería "debida" a la edad.
α0 : media de Y cuando todas las Xi son cero (cuando no tiene sentido Xi=0, p.e.
edad, se interpreta como la media de Y que no depende de las Xi).
αi : cambio en la media de Y cuando Xi aumenta una unidad permaneciendo
constantes las demás.
Las asunciones del modelo son una generalización de las de RLS y dado el
resultado de RLS no vamos a distinguir entre modelo I y II.
es decir la matriz de datos con una primera columna de 1's. Estos coeficientes
se distribuyen como una normal multivariante cuya matriz de medias son los
verdaderos coeficientes y matriz de varianzas-covarianzas
un buen estimador de σ2 es
H0: αI = 0
H1: αi ≠ 0
Ejemplo 5
Tabla de datos
1 350 80 35 0
2 190 30 40 2
3 263 42 15 1
4 320 50 20 0
5 280 45 35 0
6 198 35 50 1
7 232 18 70 1
8 320 32 40 0
9 303 49 45 0
10 220 35 35 0
11 405 50 50 0
12 190 20 15 2
13 230 40 20 1
14 227 30 35 0
15 440 30 80 1
16 318 23 40 2
17 212 35 40 1
18 340 18 80 0
19 195 22 15 0
20 223 41 34 0
Obsérvese que, a diferencia de la RLS, este contraste no es equivalente al realizado sobre los
coeficientes.
Además de esta prueba global del modelo basada en el análisis de la varianza, se pueden
plantear pruebas parciales sobre si una variable, o un grupo de variables, añadidas a un
modelo previo lo mejoran.
Se tiene un modelo
y se añade una nueva variable X*, con el primer modelo se tiene una SSR(Y,X1,...,Xk) y con el
nuevo otra SSR(Y,X1,...,Xk,X*), la diferencia entre ambas será lo que ha mejorado la suma de
cuadrados por añadir la variable X* y tendrá 1 grado de libertad.
y el cociente
llamado F parcial, tendrá una distribución F con 1 y n-(k+2) grados de libertad en la hipótesis
Del mismo modo, si al modelo original se le añaden p variables X1*,...,Xp*, se puede definir
se distribuye como una Fp,n-(k+p+1) en la hipótesis nula de que las nuevas p variables X1*, ...,
Xp* no mejoren el modelo con respecto a las k variables originales y permite contrastar dicha
hipótesis.
Ejemplo 6
Con los datos del ejemplo 5, realizar el contraste de la F parcial para añadir la variable ejercicio
a un modelo que sólo contenga la edad y las grasas consumidas.
SSR(COLEST,EJERC|GRASAS,EDAD) =
que se distribuye como una F1,16. Como F0,05(1,16) = 4,49 no se puede rechazar la hipótesis de
que EJERC no mejora el modelo. Obsérvese que esta Fpar es exactamente el cuadrado del
valor de t correspondiente al coeficiente de EJERC en el modelo con las tres variables
independientes.
En los modelos de RLM la linealidad se asume. Esto, p.e. para la variable EJERC
del ejemplo anterior, quiere decir que el efecto sobre el colesterol de hacer ejercicio
intenso (EJERC=2) con respecto a no hacerlo (EJERC=0) es el doble que el del
ejercicio moderado (EJERC=1).
Una solución podría ser crear tantas variables como categorías. No sirve porque
serían combinación lineal y el modelo es irresoluble.
La solución es crear tantas variables como categorías menos 1 (en los ejemplos
anteriores 2) denominadas variables indicadoras con el siguiente esquema
X1 X2
No-fumador 0 0
Fumador 1 0
Ex-fumador 0 1
Con este esquema de codificación los coeficientes tienen una clara interpretación
cuando, como en este caso, una de las categorías (no-fumador) se quiere usar
como referencia para las demás.
A dicha categoría se le asigna el valor cero para todas las variables indicadoras.
Sin embargo, para variables en las que no haya una categoría que sea natural
usarla como referencia, por ejemplo genotipos, lugar de residencia, etc., es más útil
otro esquema de codificación. Para discutirlo supóngase la variable lugar de
residencia con cuatro lugares: A, B, C y D. Se crearán tres variables indicadoras
(siempre una menos que categorías) con el siguiente esquema
X1 X2 X3
A -1 -1 -1
B 1 0 0
C 0 1 0
D 0 0 1
El modelo quedará
y por lo tanto
X1 X2 X3
A 1 1 1
B 0 1 1
C 0 0 1
D 0 0 0
Conviene destacar que estas variables indicadoras no tienen ningún sentido por sí
solas y por, lo tanto, deben figurar en los modelos y se debe contrastar su inclusión
siempre en bloque, usando la F del modelo completo si sólo están dichas variables
en el modelo, o la F parcial correspondiente a las mismas si hay más variables.
Ejercicio propuesto: Para los datos del Ejemplo 5, crear "dummys" para el ejercicio
(¿con qué esquema?) y contrastar (con la F parcial) si estas variables mejoran el
modelo que sólo contiene edad y grasas. Interpretar los coeficientes.
1 15,0 0
2 19,0 2
3 16,3 1
4 22,0 1
5 18,0 2
6 19,8 0
7 23,2 1
8 14,4 0
9 20,3 2
10 22,0 1
11 20,5 2
12 19,0 2
13 12,7 0
14 14,0 0
15 11,8 0
16 11,2 2
17 14,0 0
18 19,5 1
19 22,3 1
20 15,0 0
21 12,6 2
22 16,4 0
23 13,5 2
24 13,7 1
Los resultados de un modelo entre presión arterial y "status" de fumador tal y como
está codificado en la tabla son
1 15.0 0 0 0
2 19.0 2 0 1
3 16.3 1 1 0
4 22.0 1 1 0
5 18.0 2 0 1
6 19.8 0 0 0
7 23.2 1 1 0
8 14.4 0 0 0
9 20.3 2 0 1
10 22.0 1 1 0
11 20.5 2 0 1
12 19.0 2 0 1
13 12.7 0 0 0
14 14.0 0 0 0
15 11.8 0 0 0
16 11.2 2 0 1
17 14.0 0 0 0
18 19.5 1 1 0
19 22.3 1 1 0
20 15.0 0 0 0
21 12.6 2 0 1
22 16.4 0 0 0
23 13.5 2 0 1
24 13.7 1 1 0
EE(α 0 + α 1) = 1,214
EE(α0 + α 2) = 1,135
Por lo tanto los intervalos de confianza al 95% para la presión arterial media de
fumadores y ex-fumadores son
Existe interacción cuando la asociación entre dos variables varía según los
diferentes niveles de otra u otras variables. Aunque en una primera lectura pueden
parecer similares, conviene distinguir claramente entre ambos fenómenos. En el
ejemplo 5 la edad no presenta una correlación significativa con el nivel de
colesterol si no se considera el consumo de grasas, mientras que si se considera
dicho consumo, sí lo presenta, en este caso el consumo de grasas es una variable
de confusión para la asociación entre colesterol y edad. Para que exista confusión
no es necesario que exista un cambio tan drástico (la correlación es significativa
en un caso y no lo es en el otro), también puede ocurrir que, aún siendo
significativa en ambos casos, cambie el coeficiente de regresión. Evidentemente la
mejor estimación del coeficiente es la que se obtiene del modelo en que figura la
variable de confusión, en el ejemplo, la mejor estimación del coeficiente
correspondiente a la edad es la del modelo con edad y consumo de grasas.
Veamos estos conceptos sobre los modelos. El modelo más sencillo para estudiar
la asociación entre una variable Y y otra variable X1 es
µY = α0 + α1 X1
µY = α0 + α1 X1 + α2 X2
µY = α0 + α1 X1 + α2 X2 + ... + αk Xk
El modelo más sencillo que hace explícita la interacción entre dos variables X1 y
X2 es
µY = α0 + α1 X1 + α2 X2 + α3 X1 X2
µY = α0 + α1 x1 + α2 x2 + α3 x1 x2
µY = α0 + α1(x1 + 1) + α2 x2 + α3 (x1 + 1) x2 = α0 + α1 x1 + α1 + α2 x2 + α3 x1 x2
+ α3 x2
α1 + α3 x2
que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en µY por
una unidad de cambio en X2 manteniendo fijo X1 es
α2 + α3 x1
Ejemplo 8
1 15,0 0 1
2 11,0 1 1
3 26,3 1 0
4 13,0 1 1
5 18,0 0 1
6 19,8 1 1
7 23,2 1 0
8 14,4 0 0
9 13,3 1 1
10 12,0 1 1
11 22,5 1 0
12 23,5 1 0
13 12,7 0 1
14 14,0 0 1
15 11,8 0 0
16 21,2 1 0
17 14,0 0 0
18 15,5 1 1
19 12,3 1 1
20 15,0 0 0
21 22,6 1 0
22 16,4 0 1
23 23,5 1 0
24 13,7 1 1
Según vimos antes la estimación del efecto del tabaco (cambio en la presión
arterial media por ser fumador) es para los no consumidores de café α1 y para los
consumidores de café α1 + α 3. La varianza estimada de esta última estimación es
Estrategias de modelización
El problema es ¿cómo usamos todo esto? Debido a los dos objetivos distintos
que un análisis de regresión puede tener es difícil establecer una estrategia
general para encontrar el mejor modelo de regresión, es más, el mejor modelo
significa cosas distintas con cada objetivo.
Sin embargo, hay una serie de pasos que deben realizarse siempre:
i) Especificación del modelo máximo.
ii) Especificación de un criterio de comparación de modelos y definición de una
estrategia para realizarla.
iii) Evaluación de la fiabilidad del modelo.
Debe establecerse cómo y con qué se comparan los modelos. Si bien hay varios
estadísticos sugeridos para comparar modelos, el más frecuentemente usado es
la F parcial, recordando que cuando los dos modelos sólo difieren en una
variable, el contraste sobre la F parcial es exactamente el mismo que el
realizado con la t sobre el coeficiente de regresión, pero a veces interesa
contrastar varias variables conjuntamente mejor que una a una (por ejemplo
todos los términos no lineales) o, incluso, es necesario hacerlo (por ejemplo
para variables indicadoras).
Hay que hacer notar que en un análisis estimativo el criterio para incluir o excluir
variables distintas a las de interés, es sobre todo los cambios en los coeficientes
y no los cambios en la significación del modelo.
Ejemplo 9
Encontrar el mejor modelo para los datos del ejemplo 5, con el objetivo de
estimar el efecto del consumo de grasas sobre el nivel del colesterol y usando la
estrategia hacia atrás.
Una vez encontrado el mejor modelo hay que evaluar su fiabilidad, es decir,
evaluar si se comporta igual en otras muestras extraídas de la misma población.
Evidentemente, el modo más completo de evaluarlo será repetir el estudio con
otra muestra y comprobar que se obtienen los mismos resultados, aunque
generalmente esta aproximación resulta excesivamente costosa.
Una validación menos estricta consiste en ajustar el modelo sobre uno de los
grupos (grupo de trabajo) y calcular su R2, que se puede interpretar como el
cuadrado del coeficiente de correlación simple entre la variable dependiente y
Otras lecturas
Silva Ayçaguer L.C., Barroso Utra I.M. Selección algorítmica de modelos en las
aplicaciones biomédicas de la regresión múltiple. Medicina Clínica.
2001;116:741-745.
El problema de la colinealidad
Es uno de los problemas más desesperantes con que uno se puede encontrar en un
análisis de regresión. Como ya vimos al hablar de la estimación de los coeficientes,
si en un modelo de RLM alguna variable independiente es combinación lineal de
otras, el modelo es irresoluble, debido a que, en ese caso, la matriz X'X es singular,
es decir, su determinante es cero y no se puede invertir.
Del mismo modo, que una variable X1 sea combinación lineal de otras X2, ..., Xi con
i>2, significa que dichas variables están relacionadas por la expresión X1 =β 1 + β
2X2 + ... + β iXi, siendo β1,..., βi constantes y por tanto, el coeficiente de correlación
múltiple RX1|X2,...Xi también será 1.
Otro modo, por tanto, de definir la colinealidad es decir que existe colinealidad
cuando alguno de los coeficientes de correlación simple o múltiple entre algunas de
las variables independientes es 1, es decir, cuando algunas variables
independientes están correlacionadas entre sí.
En la práctica, esta colinealidad exacta raras veces ocurre, pero sí surge con cierta
frecuencia la llamada casi-colinealidad, o por extensión, simplemente colinealidad
en que alguna variable es "casi" combinación lineal de otra u otras, o dicho de otro
modo, algunos coeficientes de correlación simple o múltiple entre las variables
independientes están cercanos a 1, aunque no llegan a dicho valor.
Una regla empírica, citada por Kleinbaum, consiste en considerar que existen
problemas de colinealidad si algún FIV es superior a 10, que corresponde a algún
R2i 0,9 y Ti < 0,1.
Aunque puede existir colinealidad con FIV bajos, además puede haber
colinealidades que no impliquen a todas las variables independientes y que, por
tanto, no son bien detectadas por el FIV.
De hecho, para modelos predictivos los componentes principales son las variables
independientes ideales.
Para Belsley índices de condición entre 5 y 10 están asociados con una colinealidad
débil, mientras que índices de condición entre 30 y 100 señalan una colinealidad
moderada a fuerte.
Los índices de condición altos (mayores que 30) indican el número de colinealidades
y la magnitud de los mismos mide su importancia relativa.
En los modelos estimativos no tiene sentido, ya que el interés del modelo es,
justamente, estimar el efecto sobre la variable independiente de una variable
determinada y no interesa, por lo tanto, usar otras variables distintas.
En este mismo sentido hay que tener en cuenta que las variables producto
introducidas para estudiar la interacción pueden dan lugar a problemas de
colinealidad y no se recomienda, por lo tanto, que un modelo contenga muchos
términos de interacción.
Si una variable toma el mismo valor para todas las observaciones (tiene varianza
cero) existe colinealidad exacta con el término independiente, y si una variable tiene
varianza casi cero (toma valores muy próximos para todas las observaciones) existe
casi-colinealidad.
Puede ocurrir que una varianza pequeña sea debida a una escala inapropiada para
la variable, por ejemplo, si la edad de sujetos adultos se mide en décadas se obtiene
una varianza 100 veces menor que si se midiera en años. En este caso un cambio
de escala puede evitar el problema de la colinealidad.
Ejemplo 10
Realizar el estudio de colinealidad en los datos del ejemplo 5, usando los FIV, los
índices de condición y la matriz de proporción de descomposición de la varianza de
los estimadores.
Los autovalores de la matriz X'X y los índices de condición, así como la matriz de
proporción de descomposición de varianza son:
Hay un índice de condición alto (50,781) y asociado con el mismo hay cinco
variables (el término constante, GRASAS, GRASA2, EDAD y GRAXED) con
proporción de varianza alta.
Nos indica, por tanto, que GRASAS es colineal con GRASA2, GRAXED (no nos
sorprende), EDAD y con la constante.
Referencias
D.A. Belsley
Conditioning Diagnostics: Collinearity and Weak Data in Regression.
John Wiley &Sons. 1991
Hay que tener en cuenta que, en caso de que no se cumpla la normalidad, no se puede
utilizar la t ni la F para los contrastes de hipótesis. Puede usarse, sin embargo, la
desigualdad de Tchebysheff, que establece que para cualquier variable aleatoria
H0 : αi = a
es calcular el cociente
Recordando la 2ª formulación del modelo, las asunciones se pueden resumir en que las
variables εx1,...,xk son independientes, distribuidas normalmente con media cero y todas
con la misma varianza σ2
denominados residuos, son los valores que en la muestra toman estas variables.
Para el problema del ejemplo 8, sin embargo, sólo hay cuatro variables: ε0,0, ε1,0, ε0,1 y
ε1,1 y sí puede haber suficientes valores muestrales para cada una de ellas como para
plantearse pruebas de bondad de ajuste a la distribución normal (ji-cuadrado o Kolmogorov-
Smirnov) y de homoscedasticidad (Bartlett).
El planteamiento habitual es considerar que, como todas ellas son normales con la misma
media (0) y la misma varianza (σ 2), los residuos ( ) también tienen una distribución
normal con media 0 y varianza desconocida σ2 y, simplemente, contrastar este extremo.
Al conjunto de técnicas que se usan para ello se le denomina análisis de los residuos.
El análisis de los residuos consiste, por tanto, en contrastar que , i=1,...,n provienen de
una población normal con media 0 y varianza σ2 con las pruebas habituales de ji-cuadrado,
Kolmogorov-Smirnov.
Hay que tener en cuenta que de este modo se están contrastando globalmente todas las
asunciones y, por consiguiente, una falta de normalidad de los residuos puede ser debida
también a que el modelo sea inapropiado o a existencia de heterocedasticidad.
Teniendo en cuenta que (n-(k+1))s2/σ2 se distribuye como una ji-cuadrado con (n-(k+1))
grados de libertad, la variable
llamada residuo normalizado tendrá una distribución t de Student con (n-(k+1)) grados de
libertad, que para valores de n suficientemente grandes se puede aproximar a una normal
reducida (de media cero y varianza 1) y, a menudo, se contrasta la distribución de esta
variable en lugar de el residuo.
Además de estas pruebas de significación para asegurar que globalmente se cumplen las
asunciones del modelo, es útil realizar un análisis gráfico de los mismos que permite
discriminar entre distintas violaciones de las mismas. Si se representara en una gráfica
bidimensional los residuos observados (eje Y) para cada una de las variables Y|x1,...,xk (eje
X) y se cumplieran las asunciones se observaría una nube de puntos en dirección
horizontal y con anchura constante (la media de cada εx1,...,xk debería ser cero y tener
todas la misma varianza). Como para cada variable Y|x1,...,xk el modelo produce la misma
estimación una gráfica de los residuos contra los valores predichos tendrá el mismo
aspecto (fig. A).
Si se viola la linealidad se observará una falta de linealidad también en los residuos (fig. B),
si se viola la homoscedasticidad, la anchura de la banda no será constante (fig. C), una
relación lineal entre los residuos y las predicciones puede indicar que alguna variable no
incluida en el modelo puede ser significativa (fig. D).
Con el PRESTA se puede realizar la regresión lineal simple con dos opciones: L
(regresión lineal) o R (regresión múltiple) que tienen diferentes prestaciones.
La opción L puede leer las dos variables de diferentes archivos asumiendo que
están en el mismo orden. Acepta variable de control, es decir permite leer sólo
aquellos casos que cumplan alguna condición con respecto a otra variable, por
ejemplo, si hay un archivo con 3 variables: SEXO, EDAD y PRESIS se pueden
hacer la regresión lineal de PRESIS y EDAD sólo para los varones usando
SEXO como variable de control. Acepta que el archivo tenga datos no
especificados incluso en las variables a analizar (aunque obviamente no los
usa).
Produce también una gráfica con los puntos, la recta de regresión y la banda de
confianza al nivel solicitado. Permite dividir la nube de puntos en varias zonas
(hasta un máximo de 5) y realizar regresiones distintas para cada zona como
una primera aproximación a regresiones no lineales.
Permite guardar en otra variable del archivo los residuos. Para crear los
residuos normalizados, hay que dividir esta variable por el error estándar de la
estimación (s), con la opción de operar con variables del menú de Entrada y
Edición de Datos.
Con esta misma opción se pueden restar los residuos de la variable dependiente
para obtener los valores predichos y realizar con la opción de gráficas
bivariantes el análisis gráfico.
V. Abraira
Introducción
Todo proceso de medición (proceso mediante el cual se cuantifica una magnitud) está amenazado por
diversas fuentes de error, derivadas tanto de las limitaciones del instrumento de medida, como de la
naturaleza de la magnitud a medir. Clásicamente se distingue entre el error debido a la precisión limitada
del instrumento que atenta a la reproducibilidad de la medición introduciendo un error aleatorio en la
misma y el debido a la validez, también limitada, que introduce un error sistemático, que en epidemiología
se denomina sesgo. De modo esquemático se puede decir que la validez depende exclusivamente del
instrumento y tiene que ver con la cuestión de si el mismo mide lo que debe medir, mientras que la
precisión depende tanto del instrumento como del proceso de medición y tiene que ver con cuánto se
aproxima la medida al valor real de la magnitud. En ambos casos es siempre cuestión de grado, no
existen instrumentos infinitamente precisos y válidos, hay sólo instrumentos más precisos y/o válidos que
otros. Al modo habitual de controlar la validez de un instrumento de medida se le denomina calibración, y
consiste en comparar las medidas obtenidas con él con unos patrones de referencia (cuanto más se
parezcan estas medidas al patrón, más válido es el instrumento), mientras que la manera de controlar la
precisión de un instrumento es comparar entre sí medidas repetidas de un mismo objeto y evaluar el
grado de acuerdo entre ellas (cuanto más se parezcan estas medidas entre sí, más preciso es).
En ciertas situaciones, en la práctica clínica entre ellas, el proceso de control de la precisión y validez de
una medida es más complejo que el esbozado hasta aquí, debido a dos fenómenos inherentes a las
mismas y que, hasta ahora, no se han considerado. De un lado, las magnitudes a medir son aleatorias, es
decir presentan diversos grados de variabilidad impredecible propia. Si, por ejemplo, se trata de controlar
la precisión de la medición de la presión arterial diastólica habría que repetir la medición en un mismo
individuo varias veces y como la propia presión arterial es variable a lo largo del tiempo, el resultado se
vería afectado simultáneamente por la variabilidad introducida por la precisión limitada del instrumento
(manómetro y observador) y la variabilidad propia de la presión arterial.
Por otro lado, además de magnitudes tales como presión, temperatura, concentración de hemoglobina en
sangre, etc., se trabaja con magnitudes como dolor, mejoría en un proceso patológico, grado pronóstico
de una afección, etc., para las cuales no existe un patrón de referencia claro y objetivo ni escala métrica
apropiada y que, por tanto, suelen describirse en escalas ordinales o, incluso, nominales, cuya
apreciación puede estar muy distorsionada por influencias subjetivas. Estas magnitudes suelen
denominarse variables blandas (véase Feinstein) y dan lugar a clasificaciones mejor que a mediciones en
sentido estricto (que implica la existencia de una escala métrica). Evidentemente, existen también
variables objetivas ("duras" en la jerga) que dan lugar a clasificaciones, por ejemplo muerto/vivo. Los
procesos de clasificación sufren los mismos problemas de validez y precisión que los de medición, pero
con ciertas complicaciones añadidas en el caso de las variables blandas. Para controlar su validez, no
suelen existir patrones de referencia, o no son tan objetivos o accesibles como en el caso de una
magnitud física. Por ejemplo, en la calibración de las imágenes obtenidas por resonancia nuclear
magnética para diagnosticar lesiones de menisco, ¿cuál es el patrón de referencia adecuado? ¿la visión
directa mediante artroscopia? ¿es ésta suficientemente objetiva, o también está influida por factores
subjetivos dependientes de la propia técnica, de la experiencia del médico que la realiza, de la diversidad
de meniscos "normales"? En este sentido se suele distinguir entre dos modos de controlar la validez de
un instrumento de medida (nótese que se está usando el término instrumento de medida en un sentido
muy amplio, en este ejemplo no es sólo el "aparato" usado para obtener la imagen, sino el conjunto
formado por el aparato que produce la imagen y el observador que la interpreta, siendo, además, éste
último más crítico para los errores de medición-clasificación): cuando se hace con patrones objetivos se
habla de exactitud ("accuracy" en la literatura clínico-epidemiológica inglesa), mientras que cuando se
controla comparando simplemente con una referencia considerada mejor ("gold standard") se habla de
conformidad.
Esquemáticamente
reproducibilidad o
concordancia interobservador
concordancia
exactitud
Validez
conformidad
Referencias
Índices de concordancia
Ejemplo: dos radiólogos independientes informan como neumonía sí/no 100 radiografías. Los
resultados son
Radiólogo A
Pulm. 4 6 10
No 10 80 90
Total 14 86 100
En general
Observador A
Positivo a b r
Negativo c d s
Total t u N
para calcular Pe hay recordar que dos sucesos A1, A2 son independientes si p(A1∩
A2)=p(A1)p(A2). En este caso, si llamamos A1 al suceso "el observador A clasifica un individuo
como positivo" y A2 al suceso "el observador B clasifica un individuo como positivo" el suceso
A1∩ A2 será "ambos observadores clasifican un individuo como positivo"; como el observador
A ha clasificado t individuos como positivos y el B ha clasificado r, la mejor estimación de p(A1)
es t/N y la de p(A2) es r/N, por lo tanto la mejor estimación de la probabilidad de que ambos
clasifiquen como positivo a un individuo, en la hipótesis de que ambos son independientes es
su producto, es decir rt/N2; por la misma razón, la probabilidad de que ambos clasifiquen como
negativo a un individuo por azar es su/N2, en consecuencia
Cuando hay acuerdo total b=c=0, por lo tanto el valor de Po es 1 y en consecuencia el índice κ
también vale 1 para el máximo acuerdo; si el acuerdo observado es igual al esperado por azar,
κ vale 0. Obsérvese que si el acuerdo observado es menor que el esperado por azar, el índice
κ toma valores negativos. Un modo intuitivo de interpretar este índice puede hacerse
despejando Po de la definición
es decir, ambos radiólogos coinciden en un 84% de las radiografías. Ahora bien, el acuerdo
esperado por azar es
por lo tanto
es decir, el grado de acuerdo una vez corregido el debido al azar es mucho más modesto que
lo que indicaba el 84% de acuerdo "crudo". Según la interpretación anterior, el acuerdo
observado está compuesto por un 24,5% del acuerdo máximo y un 75,5% del esperado por
azar.
Landis y Koch propusieron, y desde entonces ha sido ampliamente usada, la siguiente escala
de valoración del κ
Referencias
Cohen J. (1960) A coefficient of agreement for nominal scales. Educ Psychol Meas 20:37-46.
Landis J.R., Koch G.G. (1977) The measurement of observer agreement for categorical data.
Biometrics 33:159-174.
Latour J., Abraira V., Cabello J.B., López Sánchez J. (1997) Métodos de investigación en
cardiología clínica (IV). Las mediciones clínicas en cardiología: validez y errores de medición.
Rev Esp Cardiol 50:117-128.
Rad. A
Rad. B 30 6 36
10 54
40
donde las prevalencias respectivas son 40% para A y 36% para B, con la misma proporción de
acuerdos observados (84%) el índice κ hubiera sido 0,661. En general, cuanto más cercana a 0,5
sea la prevalencia (cuanto más balanceados estén los totales marginales en la tabla) mayor es el
κ para igual proporción de acuerdos observados, dicho de otro modo, prevalencias muy bajas, o
muy altas, penalizan el índice κ , debido a que en ese caso la proporción de acuerdos esperados
por azar es mayor que cuando la prevalencia es cercana a 0,5. Por otro lado, éste también se ve
afectado por la simetría de los totales marginales.
Tabla 1 Tabla 2
Rad. A Rad. A
Rad. B 45 15 60 25 35 60
25 15 5 35
70 30
En consecuencia, para interpretar el índice κ es necesario contar, también con el valor de las
frecuencias marginales de la tabla (prevalencias observadas por cada observador).
El pequeño valor de κ para los datos del ejemplo (mediano en la escala de Landis y Koch) es
"explicado" a la luz de los efectos anteriores por el hecho de que estamos en la peor de las
situaciones posibles: baja prevalencia, y similar, en ambos observadores o, en la terminología
anterior totales marginales "desbalanceados" con casi perfecta simetría.
Referencias
Feinstein A.R., Cicchetti D.V. (1990) High agreement but low kappa: I. The problem of two
paradoxes, J Clin Epidemiol 43: 543-549.
Clasificaciones multinomiales
Si bien las clasificaciones binomiales son muy frecuentes, a menudo en clínica resultan insuficientes. P.e. un
psiquiatra clasifica los trastornos de los pacientes en psicóticos, neuróticos u orgánicos, o un reumatólogo clasifica
las artritis en leves, moderadas o graves. Ambas clasificaciones son multinomiales (tres categorías), no obstante
existe una diferencia entre ellas, las categorías en el caso de la artritis pueden ordenarse de un modo relevante para
el problema: una artritis grave es más que una moderada, y ésta más que una leve, mientras que para la
clasificación psiquiátrica este orden no existe. A las variables multinomiales que tienen implícito un orden se les
denomina ordinales y a las que no, nominales. Para estudiar la precisión de una clasificación multinomial, hay ciertas
diferencias según que ésta sea ordinal o nominal.
Como en las clasificaciones binarias, los resultados de un estudio de concordancia se pueden resumir en una tabla
de doble entrada, aunque ahora con K filas y K columnas, siendo K el número de categorías de la clasificación.
La notación usada en esta tabla es: para identificar una celda se usan dos subíndices: el primero para la fila y el
segundo para la columna, por lo tanto Xij es el número de individuos que el observador B ha clasificado en la
categoría i y el observador A en la j.
Observador A
. . . ... . .
Para indicar los totales marginales se usa un punto en el lugar del subíndice con respecto al que se ha sumado: Xi.
es la suma de la fila i y X.j es la suma de la columna j. En notación algebraica
Para una clasificación multinomial se puede definir un índice kappa idéntico al anterior, generalizando el cálculo de
Po y Pe como
Ejemplo: Dos reumatólogos clasifican en tres categorías (leve, moderada, grave) 80 enfermos con artritis. Los
resultados son
Reumatólogo A
Leve 9 8 3 20
Moderada 9 29 5 43
Grave 0 3 14 17
Total 18 40 22 80
Otra alternativa para estudiar concordancia entre clasificaciones multinomiales consiste en definir un índice kappa
para cada una de las categorías, colapsando la tabla KxK original en K tablas 2x2 en las que se compara cada
categoría con todas las demás. De este modo se puede estudiar la contribución de cada una de ellas a la
concordancia de la clasificación.
Para los datos del ejemplo, se colapsaría la tabla en 3 tablas: una comparando la categoría leve con las demás, otra
la moderada con las demás y la tercera la grave con las otras.
1 2 3
L O M O G O
Obs B L 9 11 M 29 14 G 14 3
O 9 51 O 11 26 O 8 55
tabla Po Pe κ
donde se observa que la clasificación de la categoría grave es la que mayor κ produce (¿Cómo se interpreta?).
Una solución que puede verse como intermedia entre las anteriores (un único kappa global o K
kappas individuales para cada categoría), pero que, en general, sólo tiene sentido para
variables ordinales, es el denominado kappa ponderado, también propuesto por Cohen, en el
cual se asignan unos pesos para cuantificar la importancia relativa entre los desacuerdos.
Pensando en el ejemplo anterior, no tiene la misma importancia un desacuerdo en la
clasificación entre las categorías leve y moderada que entre leve y grave, obviamente la última
representa un mayor desacuerdo que la primera.
La idea de este índice ponderado es asignar a cada celda de la tabla un peso wij comprendido
entre 0 y 1 que represente la importancia del desacuerdo. Dando el máximo peso al acuerdo
perfecto, y pesos proporcionalmente menores según la importancia del desacuerdo
Obs. A A
Cat 1 2 3 1 2 3
B 1 1 1/2 0 1 3/4 0
3 0 1/2 1 0 3/4 1
Para los datos del ejemplo de los reumatólogos los kappas usando estos sistemas de pesos
Múltiples observadores
Este índice se puede extender a múltiples observadores, con lo que las fórmulas se complican
pero sin apenas cambios conceptuales.
Referencias
Cohen J. (1968) Weighted kappa: Nominal scale agreement with provision for scaled
disagreement or parcial credit Psychol Bull 70: 213-220.
El índice κ se calcula a partir de muestras, por tanto se obtiene sólo una estimación del
verdadero valor del κ en la población. Es necesario estudiar su distribución muestral para
poder construir intervalos de confianza y realizar contrastes de hipótesis.
se distribuye como una normal tipificada y puede usarse para contrastar la H0: κ = 0
con una región crítica para un contraste lateral z > zα
Ejemplo: Realizar el contraste de hipótesis H0: κ = 0 para los datos del ejemplo de los
reumatólogos. Según la tabla
P.1=18/80=0.225 P.2=40/80=0.5
P.3=22/80=0.275 P1.=20/80=0.25
P2.=43/80=0.5375 P3.=17/80=0.2125
Pe=0.383
por lo tanto
En general, sin embargo, estos contrastes no tienen mucho interés. El objetivo de un estudio
de concordancia no es tanto contrastar si hay más acuerdo que el esperado en la hipótesis de
independencia sino cuantificar el mismo. Si un estudio produce un κ = 0,1 aunque sea
significativamente distinto de 0, revela un acuerdo insignificante. Lo que tiene interés es, por
tanto, la estimación por intervalos. Aquí debe señalarse que la varianza anterior se ha obtenido
en la hipótesis de independencia entre observadores en cuyo caso κ=0, y consecuentemente
no sirve para construir intervalos de confianza en la hipótesis de no independencia. En esta
hipótesis se puede demostrar que
siendo
También hay fórmulas, que os ahorro, para la varianza del kappa ponderado. Para el caso de
múltiples observadores, aunque hay algunas aproximaciones parciales, no existe todavía una
fórmula de uso general para la estimación de su varianza, y se suele usar una técnica muy
general para construir intervalos de confianza para estadísticos de distribución muestral
desconocida que es la denominada "técnica jackknife", introducida por Quenouille y que se
puede aplicar al índice kappa.
Referencias
Abraira V., Pérez de Vargas A. (1999). Generalization of the kappa coefficient for ordinal
categorical data, multiple observers and incomplete designs. Qüestiió 23: 561-571
El Presta calcula el índice kappa en dos procesamientos: Tablas de contingencia (G) y Análisis
de concordancia (3). En la primera: sólo para dos observadores, no admite pesos, calcula el
error estándar con las fórmulas dadas aquí y se pueden codificar libremente las categorías, en
la segunda: acepta varios observadores, se pueden usar los pesos que se deseen (ofrece por
defecto los bicuadrados), calcula el error estándar por la técnica jackknife y obliga a codificar
las categorías con números enteros consecutivos (1,2,...).
Aunque en la literatura clínica hay una gran tradición de usar el coeficiente de correlación lineal (r) para evaluar la
concordancia entre variables continuas, ello es incorrecto: dicho coeficiente mide la correlación y no la
concordancia: si, p.e. un aparato para medir una magnitud produce sistemáticamente el triple de otro aparato que
supuestamente mide la misma magnitud, ambas mediciones están perfectamente correlacionadas (r=1) pero no
son concordantes en absoluto.
Ejemplo: en 1979, en un artículo de gran impacto entre neumólogos (Thorax,34:807-809), se comparaba las
medidas de flujo respiratorio máximo obtenidas por el aparato estándar (Wright) con las obtenidas por otro portátil
(miniWright). Los autores hacen hincapié en que ambas medidas se correlacionaban muy bien (r=0,992) y
proponen el uso alternativo del portátil. Como veremos enseguida las cosas no eran tan claras.
El índice más establecido para variables continuas es el denominado coeficiente de correlación intraclase que se
calcula a partir de los estadísticos que produce un análisis de la varianza y que, por tanto, no estamos en
condiciones de abordar en este curso.
Un procedimiento, gráfico, alternativo propuesto por Altman e ilustrado con datos del estudio anterior es el
siguiente:
P R E S T A PC V2.2 23-MAR-1995
REGRESION LINEAL
X = wright MWRIGH
Y = wright WRIGHT
NO. DE PUNTOS 17
COEF. CORRELACION .943
COEF. DETERMINACION .890
ERROR ESTANDAR DE LA ESTIMA 39.882
donde se observa que las mediciones no son tan concordantes como parecía en la gráfica anterior.
La media de las diferencias es de -2.1 l/min, es decir hay un error sistemático "hacia abajo" por parte del
miniWright. Los límites de concordancia son los límites de confianza de esta diferencia, para calcularlos se calcula
la desviación típica de la diferencia, en este caso 38,8 y como t17 =2,11, los límites de concordancia son 79,3 y -
83,5, es decir con un 95% de probabilidad la medición del miniWright puede ser 83,5 por debajo o 79,3 por arriba
de la media de ambas ¿es esto aceptable clínicamente?
Notar que en la gráfica, las diferencias se mantienen homogéneas a lo largo del eje X. Si no fuera así, este método
no se puede usar.
Puesto que estamos trabajando con una muestra, se deben también calcular los límites de confianza para dichos
En nuestro caso para el límite inferior serían -114,3 y -45,1 y para el superior 40,9 y 110,1.
Referencias
Bland J.M., Altman D.G. (1986) Statistical methods for assessing agreement between two methods of clinical
measurement. Lancet i: 307-310.
Latour J., Abraira V., Cabello J.B., López Sánchez J. (1997) Métodos de investigación en cardiología clínica (IV).
Las mediciones clínicas en cardiología: validez y errores de medición. Rev Esp Cardiol 50:117-128.
Índices de validez
Se trata, en esta clase, de procedimientos para evaluar la validez, es decir cuánto se aproxima
una medida al valor real que pretende medir. Son procedimientos muy generales, pero aquí se
van a tratar al hilo del problema de las pruebas diagnósticas (problema muy importante en la
práctica y la investigación clínica): pruebas para determinar si un individuo tiene, o no, una
cierta enfermedad (u otra característica). Hay que resaltar (y no siempre se hace) que si bien
la validez de una prueba depende exclusivamente de la prueba, las estimaciones numéricas
que se obtengan de la misma pueden depender de la prevalencia y de las características
clínicas de los pacientes que se hayan estudiado.
Empezemos por el caso más sencillo: una prueba cuyos resultados posibles son "positivo" o
"negativo". Para evaluar su validez habrá que aplicarla a una muestra de individuos que
sepamos que tienen la enfermedad y a otra que sepamos que no la tiene. Los resultados se
pueden expresar en una tabla como la siguiente:
Estado
Negativo a b r
Positivo c d s
Total t u N
A partir de la tabla, estos índices (que tomarán valores entre 0 y 1) se estiman como:
Sen = d/u
Esp = a/t
PFP = c/t = 1 - Esp
PFN = b/u = 1 - Sen
Como son proporciones, sus I.C. se construyen como tal, es decir, p.e. para la sensibilidad y
asumiendo muestras grandes (0,05 < Sen < 0,95):
(datos tomados de McNeil). Uno de los problemas de estos estudios es la definición del "gold
standard". En éste, se usó la arteriografía pulmonar
Estado
Negativo 2 0 2
Positivo 78 54 132
Total 80 54 134
Es una prueba extraordinariamente sensible (en todos los enfermos da positivo) pero muy
inespecífica (también da positivo en muchos individuos no enfermos). Es una situación
extrema de un hecho habitual.
¿Es razonable usar esta prueba? Depende del contexto clínico. Hay otros índices que ayudan
en esta decisión: los llamados valores predictivos:
VP+=p(enfermo|prueba+)=d/s
VP-=p(no enfermo|prueba-)=a/r
Para el ejemplo
que ponen de manifiesto que podría ser una muy buena prueba para descartar un diagnóstico
de EP, pero mala para confirmarlo.
Hay que tener en cuenta que estas probabilidades postprueba corresponden a la probabilidad
preprueba del estudio 54/134=0,40 y no serían aplicables a otras situaciones. Sin embargo, el
teorema de Bayes permite calcular los valores predictivos a partir de la sensibilidad y
especificidad (que sólo dependen de la prueba) para distintas probabilidades preprueba.
Ejemplo: Calcular los VP+ y VP- de la gammagrafía de perfusión para un paciente cuya
probabilidad preprueba es de 0,7
sin embargo, si da negativa estamos seguros de que no tiene la enfermedad (porque la prueba
tiene Sen=1). Observar que el VP- es igual que el calculado antes para una probabilidad
preprueba de 0,4 sin embargo el VP+ es distinto.
Referencias
Cabello J.B., Pozo F. (1997) Métodos de investigación en cardiología clínica (X). Estudios de
evaluación de las pruebas diagnósticas en cardiología. Rev Esp Cardiol 50:507-519.
McNeil B.J. (1980) Ventilation-perfusion studies and the diagnosis of pulmonary embolism:
concise communication. J Nucl Med. 21: 319-23.
Cocientes de probabilidades:
Similarmente:
es decir: un resultado positivo apenas añade información, mientras que uno negativo da toda
la información (si el resultado es negativo, la odds postprueba es 0, la probabilidad postprueba
es 0) ¿Cuál sería la probabilidad postprueba de un paciente con una probabilidad prepueba de
No hemos ganado prácticamente nada, como informa el valor de CP+ tan próximo a 1.
y que puede interpretarse como la diferencia entre las medias de los resultados entre una
población de enfermos y otra de sanos en una escala normalizada. Si δ=1 la prueba no es
efectiva y si δ=3 es altamente efectiva.
Referencias
Hasselband V., Hedges L. (1995). Meta-analysis of diagnostics test. Psychol Bull 117: 167-178
¿Cuán fiables son los CP calculados sobre muestras? Necesitamos calcular su intervalo de
confianza que no es fácil para cocientes de probabilidades. Hay varios métodos aproximados
para muestras grandes.
siendo a, b, c y d los valores de las celdas de la tabla anterior. Obsérvese que para CP=0 el
intervalo de confianza es siempre 0.
Tablas Kx2
Los índices calculados sobre tablas 2x2 tienen la ventaja de su sencillez, sin embargo,
raramente una prueba diagnóstica se puede resumir en sólo dos resultados. Por ejemplo, los
datos originales del ejemplo de la gammagrafía son:
Enfermo
Prueba No Sí Total
Negativo 2 0 2
Indeter. 22 13 35
pulmonar 2 1 3
lobular 2 2 4
Defecto único
segmentario 4 1 5
subsegmentario 6 0 6
pulmonar 2 3 5
Defectos lobular 5 22 27
múltiples (el
mayor) segmetario 16 22 38
subsegmentario 41 3 44
En la tabla presentada antes se habían eliminado los indeterminados (35 casos) y se habían
agrupado todos los defectos de perfusión en la categoría "positivo", lo que parece una
simplificación excesiva.
Se pueden extender, sin dificultad, los índices anteriores a pruebas con varios niveles. Sea,
p.e, una tabla 4x2
Enfermo
Prueba No Sí
Nivel 1 a b
Nivel 2 c d
Nivel 3 e f
Nivel 4 g h
Total t u
Se puede definir una sensibilidad para cada nivel como la probabilidad de que la prueba
resulte en ese nivel condicionada a que el individuo esté enfermo, y especificidad para cada
nivel como la probabilidad de que la prueba no resulte en ese nivel condicionada a que el
individuo no esté enfermo. A partir de la tabla, la estimaciones de la sensibilidad y
especificidad, p.e. para el nivel 2 son
se define también el cociente de probabilidades para cada nivel como la sensibilidad de ese
nivel dividido por uno menos la especificidad, p.e. para el nivel
estos CP se interpretan del mismo modo, es decir el odds postprueba es el odds preprueba
multiplicado por el CP del nivel que resulte y los IC se calculan de la misma manera.
Enfermo
Prueba No Sí Total
Negativo 2 0 2
Indeterminado 22 13 35
Defecto único 14 4 18
Para un paciente con una probabilidad preprueba de 0,6, el odds preprueba es 0,6/0,4=1,5.
Negativo 0 0
Es decir, dentro de los resultados "positivo" de antes, el defecto único es el de mayor poder
informativo.
Nivel IC
Negativo 0-0
Desenlace
Ejemplo 5 Con los CP del tacto rectal obtenidos de la tabla anterior, calcular la probabilidad
postprueba de apendicitis para un individuo con tacto rectal positivo y cuyas probabilidades
preprueba son: p(A)=0,30; p(P)=0,05 y p(NE)=0,65
Necesitamos estimar, a partir de la tabla, las sensibilidades de cada enfermedad para el tacto
rectal positivo
por lo tanto
es decir, si el tacto rectal es positivo, hemos pasado de una probabilidad preprueba de 0,30 a
una probabilidad postprueba de 0,59.
El cálculo de los IC para estas probabilidades escapa del objetivo de este curso, pero se
pueden ver en Monsour M.J.; Evans A.T, Kupper L.L. (1991).
Referencias
Birkett N.J. (1988) Evaluation of diagnostic tests with multiple diagnostic categories. J Clin
Epidemiol 41:491-494
Monsour M.J., Evans A.T., Kupper L.L. (1991) Confidence intervals for post-test probability.
Stat Med (1991), 10: 443-456.
El PRESTA calcula la sensibilidad, la especificidad y los CP con sus IC's para tablas 2xK, en la opción
de "Análisis de validez de pruebas diagnósticas (5)" Calcula también probabilidades postprueba
correspondientes a distintas probabilidades preprueba.
También está disponible una calculadora que hace los mismos cálculos a partir de la tabla, en lugar de
los datos crudos.
P R E S T A PC V2.2 24-MAR-2000
ARCHIVO gamma7
Los números entre paréntesis son porcentajes respecto a la suma de cada columna
0:0 1:1
2( 2) 0( 0) 1:1
Nivel Probabilidad
1 .0000
2 .2783
3 .1571
4 .3376
Nota: Las diferencias entre las estimaciones de los IC para la Sensibilidad y Especificidad de esta
"salida" y del texto anterior son debidas a que en el texto se usó la aproximación normal y el PRESTA
no la usa si N<100 y los índices <0,05 ó >0,95 en cuyo caso usa la aproximación de Wilxon.
Curvas ROC
En la clase anterior se consideró que el resultado de las pruebas diagnósticas era categórico,
sin embargo muchas pruebas producen resultados continuos, p.e. nivel de glucosa en sangre
para diagnosticar la diabetes. El comportamiento de dichas pruebas depende de donde se
ponga el punto de corte y lo habitual es que exista un grado variable de solapamiento en la fdp
de la variable resultado. En el caso de la glucosa la situación se esquematiza en la gráfica
- Si la prueba fuera perfecta, es decir, sin solapamiento, hay una región en la que cualquier
punto de corte tiene sensibilidad y especifidad iguales a 1: la curva sólo tiene el punto (0,1).
Un parámetro para evaluar la bondad de la prueba es el área bajo la curva que tomará valores
entre 1 (prueba perfecta) y 0,5 (prueba inútil). Puede demostrarse, (Hanley y McNeil) que este
área puede interpretarse como la probabilidad de que ante un par de individuos, uno enfermo y
el otro sano, la prueba los clasifique correctamente.
Limitaciones de su uso: sólo contemplan dos estados clínicos posibles (sano, enfermo) y no
sirven para situaciones en que se trata de discernir entre más de dos enfermedades.
VCM
Sin Fe (n=34): 52, 58, 62, 65, 67, 68, 69, 71, 72, 72, 73, 73, 74, 75, 76, 77, 77, 78, 79, 80, 80,
81, 81, 81, 82, 83, 84, 85, 85, 86, 88, 88, 90, 92
Con Fe (n=66): 60, 66, 68, 69, 71, 71, 73, 74, 74, 74, 76, 77, 77, 77, 77, 78, 78, 79, 79, 80, 80,
81, 81, 81, 82, 82, 83, 83, 83, 83, 83, 83, 83, 84, 84, 84, 84, 85, 85, 86, 86, 86, 87, 88, 88, 88,
89, 89, 89, 90, 90, 91, 91, 92, 93, 93, 93, 94, 94, 94, 94, 96, 97, 98, 100, 103
Donde se observa solapamiento. Para diversos puntos de corte (es decir, decidiendo que hay
anemia cuando el VCM es menor que el punto de corte) las sensibilidad y proporciones de
falsos positivos figuran en la siguiente tabla:
65 3/34=0,088 1/66=0,015
70 7/34=0,206 4/66=0,061
75 13/34=0,382 10/66=0,152
80 19/34=0,559 19/66=0,288
85 27/34=0,794 37/66=0,561
90 32/34=0,941 49/66=0,742
92 33/34=0,971 53/66=0,803
cuya área es 0,717 con un EE de 0,05, es decir no es una prueba demasiado buena. Si se
quisiera comparar esta prueba con otra, p.e. niveles séricos de ferritina, se contruiría para ella
otra curva y se calcularía su área. Supongamos A=0,868 y EE(A)=0,04. El estadístico para
compararlas es (si ambas curvas han sido estimadas independientemente, es decir con
distintos sujetos, en caso contrario, véase Hanley J.A., McNeil B.J. (1983)):
que en este ejemplo vale 2,34 que como es mayor que 1,96 ambas pruebas tienen un
rendimiento significativamente distinto.
Referencias
Hanley J.A., McNeil B.J. (1982) The meaning and use of the area under a receiver operating
characteristic (ROC) curve. Radiology. 143: 29-36
Hanley J.A., McNeil B.J. (1983) A method of comparing the areas under receiver operating
characteristic curves derived from the same cases. Radiology. 148: 839-43
Esta elección se basa en la importancia relativa que para el paciente tenga hacer un diagnóstico falso positivo o
falso negativo. El diagrama de la decisión es
Representamos por U la utilidad y es un valor normalizado (ver ejemplo) que dependerá de las consecuencias de
la decisión y de las preferencias del paciente. La utilidad esperada de la prueba es el promedio ponderado, por las
respectivas probabilidades, de las diferentes utilidades es decir
La curva ROC describe la relación entre: y . Se trata de elegir un punto de esa curva que
maximize la función de utilidad. Para ello hay que resolver la ecuación que resulta de igualar a 0 la derivada de la
El primer miembro de la igualdad es la pendiente de la curva ROC. La ecuación nos da un criterio para elegir el
punto de corte: de tal modo que la pendiente en él sea la de la expresión. UVN-UFP es la diferencia en beneficio
entre no tratar a VN y tratar FP. Habitualmente se denomina coste neto (C) de tratar pacientes no enfermos. UVP-
UFN es la diferencia en beneficio entre tratar a VP y no tratar FN. Habitualmente se denomina beneficio neto (B)
de tratar sujetos enfermos. Con estas consideraciones la fórmula anterior se puede escribir como
Ejemplo: calcular las pendientes del polígono ROC del ejemplo del VCM.
65 4,22
70 2,25
75 1,62
80 1,08
85 0,84
90 0,65
92 0,32
Ejemplo: Usando la tabla anterior, decidir el punto de corte óptimo para un paciente con probabilidad preprueba de
0,3 y otro de 0,6.
UVP: El paciente tiene la enfermedad y la prueba lo detecta. Asumiendo que la anemia ferropénica tenga un
tratamiento eficaz y seguro le ponemos 1 (el máximo, si no hubiera tratamiento le pondríamos 0, incluso negativo
si al paciente le causara angustia un diagnóstico fatal).
UFN: El paciente tiene la enfermedad y la prueba no lo detecta. Las consecuencias serían otras pruebas, que
implican gasto y retraso en el verdadero diagnóstico (asumo que pasado un tiempo de no mejoría se replantearía
el problema) UFN=-0,3.
UVN: El paciente no tiene la enfermedad y la prueba no la detecta. Asumiendo que la anemia no ferropénica
tenga tratamiento menos eficaz y menos seguro le ponemos 0,7.
UFP: El paciente no tiene la enfermedad pero la prueba la detecta. Las consecuencias serían tratamiento
inadecuado (anemia ferropénica) pero sin efectos adversos, que implica gasto y retraso en el verdadero
diagnóstico (asumo que pasado un tiempo de no mejoría se replantearía el problema) UFN=-0,5. Si el tratamiento
tuviera efectos adversos podría ser -0,8 o menos.
pend = (1,2/1,3) x (0,7/0,3) = 2,15 que según la tabla anterior correspondería a un punto de corte un poco por
encima de 70.
pend = (1,2/1,3) x (0,4/0,6) = 0,62 que según la tabla anterior correspondería a un punto de corte un poco por
encima de 90.
Ejemplo: El estudio PIOPED (Prospective Investigation Of Pulmonar Embolism Diagnosis), evaluó la gammagrafía
V/Q para el diagnóstico del EP usando la arteriografía como "gold standar". Los resultados para distintos puntos de
corte fueron:
Arterio
Con estos datos los puntos de corte para distintas situaciones clínicas son:
Referencias
Metz C.E. (1978) Basic principles of ROC analysis. Semin Nucl Med. 8: 283-298.
The PIOPED Investigators (1990) Value of the ventilation/perfusion scan in acute pulmonary embolism. Results of
the prospective investigation of pulmonary embolism diagnosis (PIOPED). JAMA. 263: 2753-2759.
Sesgo de confirmación diagnóstica al limitar el estudio a los pacientes a quienes se les hizo
en su día el "gold standard" que suelen ser los que más probablemente tengan la enfermedad,
por tanto las pruebas positivas están sobre-representadas (sobreestimación de la sensibilidad)
y las negativas infra-representadas (infraestimación de la especificidad). Frecuentemente es
imposible evitarlo por razones éticas. Hay técnicas matemáticas complejas para controlarlo.
Condiciones de generalización
Espectro de la enfermedad ("Case mix") Una prueba puede tener distintos grados de
exactitud para diferentes grados de severidad de la enfermedad. Deben siempre comunicarse
las características clínicas de los pacientes incluidos en el estudio.
Variabilidad interobservador: Todas las pruebas (unas más que otras) requieren cierto
grado de pericia en su realización e interpretación. Dos observadores pueden ser igualmente
exactos pero ser uno más sensible o específico que otro, en otras palabras operar con la
misma curva ROC pero en puntos distintos o pueden tener distinta exactitud (operar en la
misma prueba con distinta curva ROC).
V. Abraira
Bibliografía:
Se dice que un proceso es binomial cuando sólo tiene dos posibles resultados:
"éxito" y "fracaso", siendo la probabilidad de cada uno de ellos constante en una
serie de repeticiones. A la variable número de éxitos en n repeticiones se le
denomina variable binomial. A la variable resultado de un sólo ensayo y, por
tanto, con sólo dos valores: 0 para fracaso y 1 para éxito, se le denomina
binomial puntual.
tratamiento. A tratamiento. B
(X=1) (X=0)
curación 18 13
no 2 7
Total 20 20
Ejemplo 2: Para refrescar los conceptos de odds ratio y riesgo relativo. Sean
dos juegos, en uno (X=0) se apuesta sobre la salida de una cierta cara en una
tirada de un dado, y en otro (X=1) sobre la salida de una cara en la tirada de una
moneda. Evidentemente, la probabilidad de ganar es para el dado p|(X=0)=1/6 y
para la moneda p|(X=1)=1/2 El riesgo relativo es:
el odds para la moneda es 5 veces el odds del dado, es decir, a la larga la razón
de partidas ganadas/perdidas es 5 veces mayor para la moneda que para el
dado. Para decidir a que juego interesa jugar hay que comparar este odds ratio
con la razón de los cocientes entre lo que se puede ganar y perder en cada
jugada en ambos juegos. El OR está siempre más alejado de 1 que el RR,
aunque cuando las probabilidades son muy pequeñas la diferencia (entre el OR
y el RR) es pequeña.
que, como era de esperar, debido a los pequeños valores de p|X=1 y p|X=0 es
prácticamente igual que el riesgo relativo (recordar cuando la prevalencia es
baja, el OR estima el RR).
1 Odds ratios should be avoided when events are common. Altman DG et al.
BMJ. 317:1318. 1998
2 When can odds ratios mislead? Davies HTO et al. BMJ. 316:989-991. 1998
4 Medidas del efecto de un tratamiento (II): odds ratio y número necesario para
tratar. Abraira V. SEMERGEN 27: 418-420. 2001.
Hay varias razones para plantear el modelo con el logaritmo del odds, en lugar
de plantearlo simplemente con la probabilidad de éxito o con el odds. En primer
lugar, el campo de variación de ln(p/q) es todo el campo real (de -∞ a ∞),
mientras que, para p el campo es sólo de 0 a 1 y para p/q de 0 a ∞. Por lo tanto,
con el modelo logístico no hay que poner restricciones a los coeficientes que
complicarían su estimación. Por otro lado, y más importante, en el modelo
logístico los coeficientes son, como veremos enseguida, fácilmente
interpretables en términos de independencia o asociación entre las variables.
A la función:
por lo tanto:
es decir α1 es el logaritmo del cociente de los odds para los dos valores de la
variable X, u "odds ratio" (OR), Si la variable binomial es independiente de la
variable X, ambos odds son iguales, por lo tanto el odds ratio es 1 y su logaritmo
será cero. Por lo tanto, para estudiar con un modelo logístico la independencia
de las variables, basta con estudiar si el coeficiente α1 es cero.
Otro modo de expresar estos resultados es decir que es el odds cuando X=0
y el odds ratio entre X=1 y X=0. Si la variable X puede tomar más valores,
evidentemente sigue siendo el odds cuando X=0 y el odds ratio para el
aumento de una unidad en la variable X. Nótese que, por lo tanto, el modelo
implica que este odds ratio es constante. Del mismo modo que en regresión
lineal, cuando no tiene sentido físico X=0 (por ejemplo edad, presión arterial),
se interpreta como el odds basal, es decir, el odds que no depende de la
variable independiente.
enfermos A B
no enfermos C D
A partir de esta tabla no se pueden estimar p|X=0 ni p|X=1 ya que los datos para
X=0 y X=1 no provienen de una única muestra. Dado que se ha muestreado
independientemente en enfermos y no enfermos, las probabilidades que sí se
pueden estimar a partir de la tabla son p(X=0|E), p(X=0|nE), p(X=1|E) y
p(X=1|nE) cuyos estimadores son respectivamente A/(A+B), C/(C+D), B/(A+B) y
D/(C+D).
2º A partir de estos valores iniciales se construye una matriz Γ con los valores
previstos por el modelo para las observaciones de la variable dependiente.
En este último paso hay que invertir una matriz y eso puede dar problemas
(colinealidad) que veremos más adelante.
Σ = -J -1 = -(X'ΓX) -1
Hay que tener en cuenta que los estimadores habituales de la asociación no son
los coeficientes αi sino los odds ratio, por lo tanto los intervalos de confianza que
interesan calcular son los de los odds ratio. Evidentemente dichos intervalos
están dados por:
H0: αi = a
H1: α i ≠ a siendo a una constante, es:
o equivalentemente:
que se distribuye como una ji-cuadrado con 1 grado de libertad y, por tanto, la
región crítica para el contraste es . A estos contrastes se les denominan
contrastes de Wald.
Para realizarlo con un paquete estadístico hay que partir de un archivo en que
los datos estén individualizados, es decir un archivo con 40 casos (los enfermos)
con dos variables una para el tratamiento con los valores 0 y 1 y otra para el
resultado, también con dos valores 0: no curación y 1: curación. Sería, por tanto:
Curación Tratamiento
1 0
. . 13 casos
1 0
0 0
. . 7 casos
0 0
1 1
. . 18 casos
1 1
0 1
0 1 2 casos
Dosis 0 1 2 3
Muertes 0 1 3 3
El estimador del odds para la dosis 0 (es decir del cociente de la probabilidad de
que un animal muera y la probabilidad de que no muera, en el tiempo del
experimento, si no se le suministra veneno) es 0,068 (es más probable que
sobreviva) aunque no es significativamente distinto de 1 (p=0,052). El estimador
del odds ratio para el aumento de una dosis es 4,539 (es decir el odds se
multiplica por esa cantidad por cada aumento de dosis) y es significativamente
distinto de 1 (p=0,036).
Modelo múltiple
café no café
Cáncer 32 1 15 2
no cáncer 15 10 15 10
En este caso de un bloque con una sola variable, la prueba sería equivalente a
la de Wald para Medio. El que no coincidan exactamente (12,040 la de Wald y
16,864 la del logaritmo del cociente de verosimilitudes) es debido a que ambas
son aproximadas. Si la discrepancia fuera muy grande indicaría que el tamaño
muestral es pequeño para aplicar estas pruebas.
Prueba de Hosmer-Lemeshow
X1 X2 X3
Dosis 0 0 0 0
Dosis 1 1 0 0
Dosis 2 0 1 0
Dosis 3 0 0 1
El modelo quedaría
Conviene destacar que estas variables indicadoras no tienen ningún sentido por
sí solas y por, lo tanto, deben figurar en los modelos y se debe contrastar su
inclusión siempre en bloque.
Ejercicio propuesto: Para los datos del Ejemplo 6, crear variables "dummy"
para la dosis e interpretrar los coeficientes y comentar las diferencias.
Los modelos de regresión, como en el caso lineal, pueden usarse con dos
objetivos: 1) predictivo en el que el interés del investigador es predecir lo mejor
posible la variable dependiente, usando un conjunto de variables independientes
y 2) estimativo en el que el interés se centra en estimar la relación de una o más
variables independientes con la variable dependiente. El segundo objetivo es el
más frecuente en estudios etiológicos en los que se trata de encontrar factores
determinantes de una enfermedad o un proceso.
Veamos también aquí estos conceptos sobre los modelos. El modelo más
sencillo para estudiar la asociación entre una variable binomial y otra variable X1
es
ln(p/q) = α0 + α1X1
ln(p/q) = α0 + α1 X1 + α2 X2 + ... + αk Xk
El modelo más sencillo que hace explícita la interacción entre dos variables X1 y
X2 es
ln(p/q) = α0 + α1 X1 + α2 X2 + α3 X1 X2
En este modelo, el logaritmo del odds para unos valores determinados x1, x2 de
X1, X2 es
ln(p/q) = α0 + α1 x1 + α2 x2 + α3 x1 x2
α1 + α3 x2
que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en ln(p/q)
por una unidad de cambio en X2 manteniendo fijo X1 es
α2 + α3 x1, o en términos del OR, el odds ratio por una unidad de cambio en X2
manteniendo fijo X1 es
Ejemplo 9: Estudiar para los datos del ejemplo 7 la posible interacción y/o
confusión.
radicalmente distintos para el medio urbano (el odds ratio para el café es 2,134)
que para el medio rural (el odds ratio para el café es 0,5). Si se comparan estos
resultados con los del modelo sin el término de interacción:
se observa, como era de esperar, un estimador para el odds ratio del café,
intermedio entre los calculados en el supuesto anterior. Conviene, por
consiguiente, calcular la potencia del contraste con el que se rechazó la
existencia de interacción. El contraste fue:
H0: α3 = 0
H1: α3 ≠ 0
es decir si
es decir, la potencia del contraste es efectivamente muy baja y habría que ser
muy prudente a la hora de comunicar los resultados de este estudio.
Estrategias de modelización
Debido a los dos objetivos distintos que un análisis de regresión puede tener es
difícil establecer una estrategia general para encontrar el mejor modelo de
regresión, es más, el mejor modelo significa cosas distintas con cada objetivo.
Sin embargo, hay una serie de pasos que deben realizarse siempre:
i) Especificación del modelo máximo.
ii) Especificación de un criterio de comparación de modelos y definición de una
estrategia para realizarla.
iii) Evaluación de la fiabilidad del modelo.
Debe establecerse cómo y con qué se comparan los modelos. Si bien hay varios
estadísticos sugeridos para comparar modelos, el más frecuentemente usado es
el logaritmo del cociente de verosimilitudes, recordando que cuando los dos
modelos sólo difieren en una variable, el contraste con el logaritmo del cociente
de verosimilitudes es equivalente al contraste de Wald, pero a veces interesa
contrastar varias variables conjuntamente mejor que una a una (por ejemplo
todos los términos no lineales) o, incluso, es necesario hacerlo (por ejemplo
para variables indicadoras).
Hay que hacer notar que en un análisis estimativo el criterio para incluir o excluir
variables distintas a las de interés, es sobre todo los cambios en los coeficientes
y no los cambios en la significación del modelo.
consiste en que, cada vez que con el criterio anterior se incluye una variable, se
calculan los logaritmos del cociente de verosimilitudes de todas las incluidas
hasta ese momento como si fueran las últimas y la variable con menor logaritmo
del cociente de verosimilitudes no significativo, si la hubiera, se elimina. Se
vuelven a calcular los logaritmos del cociente de verosimilitudes y se continua
añadiendo y eliminando variables hasta que el modelo sea estable.
Ejemplo 10
Una vez encontrado el mejor modelo hay que evaluar su fiabilidad, es decir,
evaluar si se comporta igual en otras muestras extraídas de la misma población
(reproducibilidad) y/o de otras similares (transportabilidad).
Otras lecturas
Silva Ayçaguer L.C., Barroso Utra I.M. Selección algorítmica de modelos en las
aplicaciones biomédicas de la regresión múltiple. Medicina Clínica.
2001;116:741-745.
Ejemplo 10
1 3.41484 1.00000
2 .47826 2.67211
3 .08687 6.26991
4 .02004 13.05337
Conviene destacar que, no obstante, se puede demostrar que en los diseños caso-
control, si las probabilidades de elegir a los individuos en ambos grupos son
independientes de las variables independientes del modelo, las estimaciones, tanto de
los coeficientes como de su matriz de varianzas, a partir de las funciones de
verosimilitud condicional y no condicional producen los mismos resultados, aunque,
como ya se ha dicho en este caso el coeficiente α0 no tiene ningún significado. Hay
que destacar también el riesgo de sesgo en la estimación si no se cumple la condición
anterior (y no siempre es fácil de cumplir), sobre todo cuando el tamaño muestral es
pequeño.
Ejemplo 11
0 15 1 1
1 10 0 1
1 0 0 1
0 70 1 2
1 20 0 2
1 30 0 2
0 40 1 3
1 40 0 3
1 0 0 3
0 10 0 4
1 20 1 4
1 50 0 4
0 30 1 5
1 10 0 5
1 20 0 5
0 80 0 6
1 20 0 6
1 30 0 6
0 50 1 7
1 35 0 7
1 10 0 7
0 60 1 8
1 5 0 8
1 10 0 8
0 90 0 9
1 65 0 9
1 5 0 9
0 30 1 10
1 10 0 10
1 40 0 10
Para realizar el análisis de estos datos usando regresión logística condicional (con el
PRESTA) y con una estrategia hacia adelante se empezaría con el modelo simple:
Se encuentra una asociación significativa tanto con la prueba de Wald como con la del
logaritmo del cociente de verosimilitudes. Nótese que el odds ratio de 1,06 es por
aumento de 1 gramo en el consumo diario de alcohol.
Como en regresión lineal, una vez encontrado el mejor modelo, hay que
validarlo, es decir ver si “trabaja” igual con otros individuos distintos de aquellos
con los que se ha generado (1). Qué significa “trabajar” es diferente según el
objetivo del modelo. En un modelo estimativo se trata de ver si se obtiene el
mismo odds ratio para la variable de interés. Aquí nos vamos a enfocar en los
modelos predictivos en los que validar significa ver si el modelo predice bien la
variable dependiente en un nuevo individuo. Ello implica dos conceptos
relacionados (2), validez (“accuracy”) y generalizabilidad (“generalizability”).
individuo en el que ocurrió el evento y otro en el que no, la proporción de los que
el modelo predice una mayor probabilidad para el que tuvo el evento. A partir de
un área de 0,7 la discriminación del modelo se considera aceptable.
REGRESIÓN DE POISSON
V. Abraira
Bibliografía:
Variables de Poisson
Ejemplo
Se puede plantear que esta diferencia en las incidencias pueda ser debida,
simplemente, a que ambas ciudades tengan una distinta pirámide de población
(es sabido que la incidencia del cáncer es distinta para distintos grupos de edad)
o quizás, y sería una hipótesis más interesante a investigar, a algún otro factor.
Si se conoce la distribución de las poblaciones para los distintos grupos de
edad, así como el grupo al que pertenece cada enfermo, se puede plantear un
modelo:
2º A partir de estos valores iniciales se construye una matriz p con los valores
previstos por el modelo para las observaciones de la variable dependiente.
En este último paso hay que invertir una matriz y eso puede dar problemas de
colinearidad
Σ = -J -1 = -(X'pX) -1
Ejemplo
Supóngase que en las ciudades del ejemplo anterior, la población y los cánceres de
piel aparecidos se distribuyen como sigue para distintos grupos de edad:
Ciudad A Ciudad B
El modelo completo tiene, por lo tanto, cinco variables: CIUDAD, EDAD1, EDAD2,
CIXED1 y CIXED2.
NUMERO DE CASOS: 6
El ajuste del modelo, con la prueba del logaritmo del cociente de verosimilitudes es
significativo. El primer contraste a realizar es sobre la interacción. Como las variables
CIXED1 y CIXED2 son indicadoras y no tienen sentido por sí solas, hay que realizarlo
globalmente para las dos con el logaritmo del cociente de verosimilitudes. Se ajusta,
por lo tanto, a un modelo sin ellas. El resultado es:
NUMERO DE CASOS: 6
MATRIZ DE COVARIANZAS
El próximo contraste a realizar es para las variables EDAD1 y EDAD2, que también
tiene que ser global. Se ajusta a un modelo sin ellas y el resultado es:
NUMERO DE CASOS: 6
Obsérvese que esta última estimación coincide con la calculada anteriormente. Con la
Para estimar, por ejemplo, con ese modelo la densidad de incidencia para el grupo de
mayores de 60 años en la ciudad B, recuérdese que para la ciudad B, CIUDAD=1 y
para ese grupo de edad, EDAD1=0 y EDAD2=1, por lo tanto según el modelo:
obsérvese que, como el ajuste del modelo es muy bueno, coincide con la estimación
que se puede obtener directamente de los datos:
su error estándar es
y del mismo modo para los otros grupos de edad y/o la otra ciudad.
Otras lecturas
Silva Ayçaguer L.C., Barroso Utra I.M. Selección algorítmica de modelos en las
aplicaciones biomédicas de la regresión múltiple. Medicina Clínica. 2001;116:741-745.
Del mismo modo que en la regresión logística, para estimar los coeficientes hay
que invertir la matriz J = X’pX siendo además la inversa de J la matriz de
varianzas-covarianzas de los mismos. Por consiguiente, si dicha matriz es
singular el modelo es irresoluble y si es casi-singular existen problemas de
precisión numérica y estadística, siendo, además, inestable la estimación. Como
entonces, aunque no es un problema de colinealidad en sentido estricto se sigue
hablando, por analogía, de colinealidad y, también, el diagnóstico de la misma
se hace de análoga manera, es decir, calculando los índices de condición para
la matriz J también escalada para que su diagonal principal esté formada por
unos, y calculando a partir de los autovectores de la misma, la matriz de
descomposición de la varianza de los estimadores. Evidentemente, por no ser
un problema de colinealidad, el factor de inflación de la varianza tampoco es útil
ahora.
Hay que tener en cuenta, también, que debido a los grandes valores que suele
tener la variable s, tamaño del intervalo, en algunos modelos (en el ejemplo
desarrollado en este texto son cientos de miles, pero en problemas de
estimación de tasas de mortalidad por países puede ser de decenas o centenas
de millones) pueden aparecer problemas de precisión o, incluso, desbordes (se
denomina así al hecho de que un número sea mayor que la capacidad de la
porción de memoria reservada en el ordenador para almacenarlo) en los
algoritmos de estimación. En estos casos se puede dividir dicha variable por una
constante adecuada, es decir, se expresa la población en miles de personas o
en centenas de miles, entonces el parámetro λ queda multiplicado por ese
mismo factor, pero en el modelo ese cambio sólo afecta a α0 (se le sumará el
logaritmo de dicha constante) y no al resto de los coeficientes. Si en el ejemplo
anterior se divide la población por 1.000, los modelos encontrados serán
exactamente los mismos excepto el coeficiente α0 al que se le sumará
ln1.000=6,908.
Ejemplo
Los “salida” del PRESTA del diagnóstico de colinealidad para el modelo del
ejemplo anterior en el que se ha dividido la población por 1.000 es:
Ejemplo
Vacunados No
vacunados
Edad Total Gripe Total Gripe
20 - 60 80 3 91 5
> 60 50 5 43 10
El número de individuos con gripe en cada una de las situaciones es una variable
de Poisson, para la que se puede plantear un modelo de regresión. Para cada
individuo, el tener, o no, gripe, es una variable binomial puntual para la que se
puede plantear un modelo logístico.
Para ajustar a un modelo logístico hay que crear un archivo en que cada
individuo sea una observación. Sería:
REGRESION DE POISSON
NUMERO DE CASOS: 4
ANÁLISIS DE SUPERVIVENCIA
V. Abraira
Bibliografía:
E.T.Lee
Statistical Methods for Survival Data Analysis
Lifetime Learning Publications. 1980.
J.D.Kalbfleisch, R.L.Prentice
The Statistical Analysis of Failure Time Data
John Wiley & Sons. 1980.
Introducción
Se denomina análisis de supervivencia al conjunto de técnicas que permiten
estudiar la variable “tiempo hasta que ocurre un evento” y su dependencia de
otras posibles variables explicatorias. Por ejemplo, en el estudio de
enfermedades crónicas o tratamientos muy agresivos, el tiempo hasta que
ocurre la muerte del enfermo (tiempo de supervivencia) y su dependencia de la
aplicación de distintos tratamientos, pero en otras enfermedades, el tiempo
hasta la curación, o el tiempo hasta la aparición de la enfermedad. En procesos
de control de calidad se estudia el tiempo hasta que un cierto producto falla
(tiempo de fallo), o el tiempo de espera hasta recibir un servicio (tiempo de
espera), etc.
Existen tres motivos por los que pueden aparecer estas pérdidas, en primer
lugar por fin del estudio. Supóngase, por ejemplo, que para evaluar una
intervención quirúrgica arriesgada se sigue en el tiempo, durante un año, a dos
grupos de pacientes. A los de un grupo se les practicó la intervención y a los de
otro no, y se registró la duración del intervalo de tiempo entre la intervención (o
la entrada en el estudio, para el grupo no intervenido) y la muerte. Al final del
estudio puede haber individuos que no hayan muerto. Otra causa es la pérdida
propiamente dicha, por ejemplo se quiere evaluar la eficacia de un tratamiento
Hay que tener en cuenta también que la variable es el tiempo hasta que ocurre
un evento, y está definida por la duración del intervalo temporal entre los
instantes en que empieza la observación y ocurre el evento. En los ejemplos
citados, la observación no comienza en el mismo instante para todos los
individuos. En algunos textos se denomina pérdida por la izquierda a esta no
coincidencia de los tiempos en que comienza la observación, ya que, si el
estudio está diseñado para acabar en un tiempo determinado, el efecto de esta
no coincidencia es reducir, para los que empiezan más tarde, el tiempo de
observación. En el esquema de la figura se detallan todas las posibles pérdidas.
Evidentemente, se pueden evitar las pérdidas por la izquierda diseñando el
estudio para que acabe, no en un tiempo establecido con carácter general, sino,
para cada individuo, en un tiempo determinado después del inicio de la
observación.
6, sigue vivo al acabar el estudio, sería una pérdida a los 6 meses (existe pérdida
por fin del estudio y pérdida por la izquierda).
Si se quisiera aplicar un modelo de regresión lineal a un estudio de este tipo,
habría que eliminar del mismo las observaciones perdidas, ya que para ellas no
se conoce el valor de la variable; sin embargo sí se tiene alguna información útil
sobre la misma: se sabe que es mayor que el tiempo en el que se produjo la
pérdida.
y que verifica
y la función de supervivencia:
Las funciones de riesgo y riesgo acumulado para una variable discreta también
son:
Ejemplo 1
6 12 3 3/12=0,25 1
10 8 1 1/8=0,125 0,750
12 7 1 1/7=0,143 0,656
15 5 1 1/5=0,2 0,562
17 3 1 1/3=0,333 0,450
22 2 2 2/2=1 0,300
Para analizar estos datos con un paquete estadístico, por ejemplo el SPSS, hay
que introducir dos variables: el tiempo y el “status” con un código que indique si
en ese tiempo se ha producido el evento o es una perdida. La “salida” es
6 1
1 11
6 1
2 10
6 1 ,7500 ,1250
3 9
6 0
3 8
10 1 ,6563 ,1402
4 7
12 1 ,5625 ,1482
5 6
12 0
5 5
15 1 ,4500 ,1555
6 4
15 0
6 3
17 1 ,3000 ,1605
7 2
22 1
8 1
22 1 ,0000 ,0000
9 0
Events: 9
Por ejemplo, para los datos del ejemplo 1, las varianzas de las estimaciones de
la función de supervivencia y los intervalos de confianza al 95% construidos con
ellas son:
En la “salida” del SPSS figura, en lugar de la varianza, su raíz cuadrada (el error
estándar), que es posible guardar en una nueva variable del archivo para, a
partir de ella y la función de supervivencia construir los intervalos de confianza.
y se obtiene
Obsérvese que cuando para un tiempo ocurre el evento para todos los individuos
en riesgo, como en este caso para 22, la varianza está indeterminada (aunque el
SPSS pone 0) puesto que el denominador es 0. Por otro lado, en los tiempos
extremos el intervalo de confianza puede sobrepasar el intervalo [0,1], en este
caso en el tiempo 17. Ello es debido a que la fórmula de la varianza es sólo
aproximada y a que la normalidad es asintótica. Este problema se puede evitar
usando una transformación logarítmica de de normalidad también asintótica
pero cuyo campo de variación es todo el campo real.
A partir de la función
cuyo varianza es
para los datos del ejemplo 1 por este procedimiento se obtienen los intervalos
de confianza al 95% dados en la siguiente tabla:
Método actuarial
Con los datos del ejemplo 1, definiendo intervalos de 5 años, las tablas de vida,
obtenidas con el SPSS, son
Life Table
Survival Variable TIEMPO
,0482 ,1143
20,0 2,0 ,0 2,0 2,0 1,0000 ,0000 ,0000
,0602 ,4000
SE of SE of
Intrvl Cumul Proba- SE of
Start Sur- bility Hazard
Time viving Densty Rate
------- ------ ------ ------
,0 ,0000 ,0000 ,0000
5,0 ,1295 ,0259 ,0342
10,0 ,1525 ,0248 ,0430
15,0 ,1526 ,0288 ,0774
20,0 ,0000 ,0305 ,0000
Comparación de funciones de
supervivencia
Ejemplo 2
Para hacerlo con el SPSS, se necesita crear un archivo con tres variables: tiempo,
estado (codificado, por ejemplo, 0: pérdida, 1: muerte) y tratamiento (codificado,
por ejemplo, 0: tratamiento A, 1: tratamiento B).
y el resultado
Factor TRATA = A
Mean: 17 2 ( 13; 20
)
(Limited to 20 )
Median: 17 4 ( 9; 25
)
Factor TRATA = B
Mean: 12 1 ( 10; 14
)
(Limited to 15 )
Median: 11 1 ( 9; 13
)
Total Number
Number Percent
Events
Censored Censored
TRATA A 6 3
3 50,00
TRATA B 6 4
2 33,33
Overall 12 7
5 41,67
Statistic df Significance
Ejemplo 3
El resultado es:
Factor HOSPITAL = A
Events Remaining
Mean: 9 2 ( 5; 13
)
(Limited to 15 )
Median: 12 2 ( 8; 16
)
Factor HOSPITAL = B
2 muerte
1 7
2 muerte ,7500 ,1531
2 6
3 muerte ,6250 ,1712
3 5
8 muerte ,5000 ,1768
4 4
10 muerte
5 3
10 muerte ,2500 ,1531
6 2
12 pérdida
6 1
15 muerte ,0000 ,0000
7 0
Mean: 8 2 ( 4; 12
)
Median: 8 3 ( 2; 14
)
Factor HOSPITAL = C
1 muerte
1 8
1 muerte ,7778 ,1386
2 7
3 muerte ,6667 ,1571
3 6
7 muerte ,5556 ,1656
4 5
10 pérdida
4 4
12 muerte
5 3
12 muerte ,2778 ,1617 6
2
14 muerte ,1389 ,1272
7 1
15 pérdida
7 0
Mean: 9 2 ( 5; 12
)
(Limited to 15 )
Median: 12 3 ( 6; 18
)
Total Number
Number Percent
Events
Censored Censored
HOSPITAL A 7 5
2 28,57
HOSPITAL B 8 7
1 12,50
HOSPITAL C 9 7
2 22,22
Overall 24 19
5 20,83
Statistic df Significance
Alternativa paramétrica
Las funciones que con más frecuencia se usan se exponen en los apartados
siguientes.
Función exponencial
Usando las relaciones entre las tres funciones las funciones de supervivencia y
riesgo para esta variable son
Es útil que señalar que, dentro de esta relación entre las funciones exponencial
y de Poisson, el parámetro es la media de la variable de Poisson “número de
sucesos en la unidad de tiempo”.
Ejemplo 4
P R E S T A PC V2.2 19-OCT-2001
ANALISIS DE SUPERVIVENCIA
MODELO EXPONENCIAL : S(t)=exp(-At)
NUMERO DE CASOS: 12
CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO 0
Ejemplo 5
P R E S T A PC V2.2 19-OCT-2001
ANALISIS DE SUPERVIVENCIA
MODELO EXPONENCIAL : S(t)=exp(-At)
GRUPO 1
GRUPO 2
Ahora, con un tamaño muestral mayor no hay discrepancia entre ambas pruebas
para la bondad del ajuste, las dos indican un buen ajuste. En la figura se presentan
las gráficas (líneas continuas: estimaciones de las funciones usando el modelo
exponencial y aspas y cuadrados: el método de Kaplan-Meier) y se observa que el
ajuste es muy satisfactorio.
que comparándolo con el valor crítico z0,025= 1,96 permite rechazar la hipótesis
nula de igualdad.
Referencias
Función de Weibull
Usando las relaciones entre las tres funciones las funciones de supervivencia y
riesgo para esta variable son
es decir, el riesgo es creciente a lo largo del tiempo para α > 1 (por ejemplo,
supervivencia de pacientes con una enfermedad crónica sin respuesta al
tratamiento, o materiales con fatiga), constante para α = 1 (materiales sin fatiga)
y decreciente para α < 1 (enfermos con cirugía mayor practicada con éxito).
Ejemplo 6
Ajústese, con las pruebas de bondad de ajuste, la función de Weibull a los datos
de la tabla, donde en la columna “Perdida” figura 0 para muerte y 1 para pérdida
y en “Tiempo” el tiempo en meses.
La salida del PRESTA para este problema (nótese que se denomina parámetro A
a τ y parámetro B a α
P R E S T A PC V2.2 25-OCT-2001
ANALISIS DE SUPERVIVENCIA
MODELO WEIBULL : S(t)=exp[-(At)**B]
MATRIZ DE COVARIANZAS
A B
A .00000 -.00001
B -.00001 .02963
que comparándolo con el valor crítico z0,05= 1,64 permite rechazar la hipótesis
nula de modelo exponencial.
Referencias
1 Marubini E, Bonfanti G, Bozzetti F, et al. A prognostic score for patients resected for gastric
cancer. Eur J Cancer 29A: 845-850. (1993).
Función lognormal
Se ha usado esta función para estudiar tanto la supervivencia en SIDA (1), como
el tiempo hasta la seroconversión de HIV+ (2).
Ejemplo 7
P R E S T A PC V2.2 26-OCT-2001
ANALISIS DE SUPERVIVENCIA
A 2.32263 .04138
B .20719 .02664
MATRIZ DE COVARIANZAS
A B
A .00171 .00000
B .00000 .00071
Con la prueba de bondad de ajuste basada en la ji-cuadrado, que en este caso que
no hay pérdidas “funciona” mejor, no se rechaza la hipótesis nula de modelo
lognormal y en la gráfica también se observa que el modelo es satisfactorio.
Referencias
1 Veugelers PJ, Cornelisse PG, Craib KJ, et al. Models of survival in HIV infection and their
use in the quantification of treatment benefits. Am J Epidemiol 148: 487-496. (1998).
2 Muñoz A, Xu J. Models for the incubation of AIDS and variations according to age and
period. Stat Med. 30: 2459-2473. (1996).
Función gamma
Ejemplo 8
P R E S T A PC V2.2 27-OCT-2001
ANALISIS DE SUPERVIVENCIA
MODELO GAMMA : S(t)=1-I(A,Bt)*(Bt)**A/G(A)
NUMERO DE CASOS: 95
MATRIZ DE COVARIANZAS
A B
A .73829 .00772
B .00772 .00009
Igual que con el modelo de Weibull, un contraste que también interesa hacer es
sí el modelo exponencial es adecuado, es decir si α =1 contra la hipótesis
alternativa α >1. Se hace con el estadístico
que comparándolo con el valor crítico z0,05= 1,64 permite rechazar la hipótesis
nula de modelo exponencial.
Hasta aquí se han estudiado métodos que permiten estimar las funciones de riesgo
y supervivencia para una muestra aleatoria y comparar dos o más estimaciones.
El objetivo ahora es plantear un modelo de regresión para el riesgo, o la
supervivencia, en función de variables "explicatorias", que permita comparar
dichas estimaciones, teniendo en cuenta el efecto de otras variables distintas de la
que se utiliza para definir los grupos.
siendo Φ(X,α) una función de X con unos coeficientes α, que serían los
coeficientes a estimar para el modelo.
Sin embargo, el modelo más popular, por su sencillez y facilidad para interpretar
los coeficientes α, es el denominado modelo de riesgo proporcional o modelo de
Cox que es un modelo de la forma
Es decir, h0(t) es el riesgo cuando todas las variables Xi son 0, o riesgo basal,
que es variable con el tiempo.
es decir, el modelo plantea el logaritmo del riesgo relativo como una función
Nótese que el modelo no depende de cómo sea h0(t), podría ser de cualquiera
de las formas vistas antes u otras, la única asunción es que el riesgo relativo al
aumentar una unidad cada variable es constante (exp(αi)) en todo tiempo. Hay
que destacar que esta asunción no siempre es razonable y conviene evaluarla
en cada caso, por ejemplo, con gráficas que representen el logaritmo de los
riesgos para distintos valores de las variables Xi en función del tiempo, cuando
el riesgo es proporcional deben ser paralelas.
Los cálculos necesarios para la estimación son muy largos, sobre todo cuando
para algún tiempo hay más de un evento. Los paquetes estadísticos suelen usar
una aproximación (aproximación de Peto) que es buena cuando, para cada
tiempo, el número de eventos es pequeño comparado con los individuos en
riesgo.
Teniendo en cuenta que los estimadores lo son por máxima verosimilitud, los
contrastes de hipótesis sobre cada coeficiente se hacen usando su normalidad
asintótica (prueba de Wald) y los contrastes de hipótesis sobre el modelo
completo o sobre un conjunto de coeficientes con el logaritmo del cociente de
verosimilitudes (exactamente igual que en regresión logística).
H0: αi = a
H1: α i ≠ a siendo a una constante, es:
o equivalentemente:
que se distribuye como una ji-cuadrado con 1 grado de libertad y, por tanto, la
región crítica para el contraste es . A estos contrastes se les denominan
contrastes de Wald.
Estrategias de modelización
Las estrategias de modelización son exactamente las mismas que las utilizadas en los otros modelos de regresión,
contrastándose también del mismo modo la interacción y la confusión y pudiéndose usar también las variables
dummy.
Ejemplo 9
Comparar la supervivencia de los tratamientos del ejemplo 5 controlando los posibles efectos de confusión e
interacción de la edad.
En el ejemplo 5 se encontró que la supervivencia con ambos tratamientos ajustaba a un modelo exponencial, es
decir con ambos tratamientos el riesgo es constante (por lo tanto se cumple la asunción de riesgo proporcional):
0,048 para el tratamiento 1 y 0,089 para el tratamiento 2, siendo ambos riesgos significativamente distintos.
Sin embargo la edad media en ambos grupos es muy distinta (39,8 en los pacientes que reciben el tratamiento 1
y 64,7 en los que reciben el tratamiento 2) por lo tanto podría ser una variable de confusión.
El modelo globalmente es significativo, evaluado con la prueba del logaritmo del cociente de verosimilitudes, que
el SPSS denomina “prueba ómnibus”. El coeficiente del termino de interacción no es distinto de 0 (p=0,931) por
lo tanto no se rechaza la hipótesis nula de no existencia de interacción y se elimina esa variable
Obsérvese que la variable EDAD es una variable de confusión: el riesgo relativo ha disminuido desde 1,892
estimado con el modelo simple a 1,449, Además ha dejado de ser significativo.
En consecuencia este sería el modelo final y la conclusión del análisis es que, una vez controlado por la edad,
no hay diferencia significativa entre ambos tratamientos.
V. Abraira
Bibliografía:
Introducción
Otras lecturas
Prevalencia
Características
Ø Es una proporción:
Ø no tiene dimensiones
Ø su valor oscila entre 0 y 1, aunque a veces se expresa como
porcentaje
Ø Es un indicador estático, que se refiere a un momento temporal
Ø Indica la “carga” del evento que soporta la población, tiene su mayor
utilidad en los estudios de planificación de servicios sanitarios
Ø En la prevalencia influye la velocidad de aparición del evento y su
duración; es por ello poco útil en la investigación causal y de medidas
terapéuticas
Incidencia
Incidencia acumulada
Características
Ø Es una proporción
Ø no tiene dimensiones.
Ø su valor oscila entre 0 y 1, aunque también se suele expresar como
porcentaje
Ø Depende del tiempo de seguimiento
Ø Se calcula sobre una cohorte fija, es decir no se permiten entradas de
nuevos individuos durante el seguimiento.
La principal limitación de este índice proviene del efecto de cohorte fija, puesto
que a lo largo del seguimiento generalmente se pierden individuos.
Ejemplo 1:
Los rombos rojos señalan recidivas mientras que los círculos verdes señalan
pérdidas: el paciente B desapareció del estudio a los 2,5 meses, sin que hasta
ese momento hubiera sufrido una recidiva, el paciente D falleció por otra causa
no relacionada con el ACV, los pacientes C y F acabaron el periodo de estudio
sin recidiva.
Características:
Ejemplo 2
desapareció del estudio a los 2,5 meses, sin que hasta ese momento hubiera
sufrido una recidiva, el D falleció por otra causa no relacionada con el ACV, los
pacientes C y F acabaron el periodo de estudio sin recidiva.
Ejemplo 3:
Nótese el valor negativo del límite inferior que indica que para los datos de este
ejemplo la aproximación es mala.
Son medidas que se usan para evaluar la asociación entre un evento y un factor
de estudio, por ejemplo: mutación de un gen (factor) y una enfermedad (evento);
tratamiento (factor) y curación (evento). La mayoría de ellas ya han sido
estudiadas en otra parte de estos apuntes y serán repasadas ahora. Comparan
medidas de frecuencia del evento entre dos o más grupos, definidos por
diferentes categorías del factor. En aras de la simplicidad, consideraremos sólo
2 grupos, uno de ellos, usado como referencia, no tiene el factor y el otro sí. La
categoría de referencia debería tener un tamaño grande para obtener
estimaciones precisas y ser suficientemente homogénea para facilitar la
interpretación.
Comparar dos medidas de frecuencia se puede hacer con su cociente (si no son
distintas se obtiene 1) o con la diferencia (si no son distintas se obtiene 0)
Abraira Medidas del efecto de un tratamiento (I): reducción absoluta del riesgo,
reducción relativa del riesgo y riesgo relativo. SEMERGEN 26: 535-536. 2000.
Abraira Medidas del efecto de un tratamiento (II): odds ratio y numero necesario
para tratar. SEMERGEN 27: 418-420. 2001.
nF F Total
Eventos d0 d1 d
Personas- L0 L1 L
tiempo
A partir de la tabla
Características
Ø no tiene dimensiones.
Ø rango de 0 a ∞.
Ø RDI=1 si no hay asociación entre la presencia del factor y el evento.
Ø RDI>1 si la asociación es positiva, es decir si la presencia del factor se
asocia a mayor ocurrencia del evento y RDI <1 si la asociación es negativa.
Ejemplo 4:
En un ensayo clínico para evaluar el efecto del tratamiento con un IECA más un
diurético opcional, en pacientes que habían sufrido un ACV, se estudió como
evento la ocurrencia de otro ACV en los siguientes 4 años, los resultados fueron:
A partir de aquí:
que indica que en los pacientes tratados con el tratamiento experimental la tasa
de incidencia de otro ACV es el 73% de la de los pacientes tratados con
placebo.
Referencia
Riesgo relativo
nF F
Casos a0 a1
No casos b0 b1
Total n0 n1
A partir de la tabla
Características
Ø no tiene dimensiones.
Ø rango de 0 a ∞.
Ø RR=1 si no hay asociación entre la presencia del factor y el evento.
Ø RR>1 si la asociación es positiva, es decir si la presencia del factor se
asocia a mayor ocurrencia del evento y RR<1 si la asociación es negativa.
Ejemplo 5:
Otra forma de resumir los resultados del ensayo clínico del ejemplo 4 es:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
Y a partir de la tabla:
Odds ratio
El odds ratio (OR) es el cociente entre el odds en el grupo con el factor y el odds
en el grupo sin el factor. A partir de la tabla en la que en la columna nF figuran
los eventos (“casos”: a0) y los “no casos” (b0) en la categoría que no tiene el
factor y en la columna F los de la categoría que sí tiene el factor
nF F
Casos a0 a1
No casos b0 b1
Total n0 n1
El OR se calcula
Características
Ø no tiene dimensiones.
Ø rango de 0 a ∞.
Ø OR=1 si no hay asociación entre la presencia del factor y el evento.
Ø OR>1 si la asociación es positiva, es decir si la presencia del factor se
asocia a mayor ocurrencia del evento y OR<1 si la asociación es negativa.
Relaciones entre el OR y el RR
Ø RR más intuitivo.
Ø OR se puede estimar siempre y de la misma forma; el RR no se puede
en los diseños casos control.
Ø El OR permite, mediante la regresión logística, ajustar por variables de
confusión.
Ejemplo 6:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
El OR se calcula:
A partir de la tabla
nF F
Casos a0 a1
No casos b0 b1
Total n0 n1
La DAR se calcula
Características
Ø no tiene dimensiones.
Ø rango de –1 a 1.
Ø DAR=0 si no hay asociación entre la presencia del factor y el evento.
Ø DAR>0 si la asociación es positiva, es decir si la presencia del factor se
asocia a mayor ocurrencia del evento y DAR<0 si la asociación es negativa.
Ejemplo 7:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
La DAR es:
A partir de la tabla
nF F
Casos a0 a1
No casos b0 b1
Total n0 n1
La RAR se calcula
Características
Ø no tiene dimensiones.
Ø rango de –1 a 1.
Ø RAR=0 si no hay asociación entre la presencia del factor y el evento.
Ø RAR<0 si la asociación es positiva, es decir si la presencia del factor se
asocia a mayor ocurrencia del evento y RAR>0 si la asociación es negativa.
Ejemplo 8:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
La RAR es:
A partir de la tabla
nF F
Casos a0 a1
No casos b0 b1
Total n0 n1
La DRR se calcula
Ejemplo 9:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
La DRR es:
y la RRR
que indica que el riesgo del grupo tratado se reduce un 26,8% del riesgo del
grupo control.
A partir de la tabla
nF F
Casos a0 a1
No casos b0 b1
Total n0 n1
Ejemplo 10:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
El NNT es:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
RR=0,73
OR=0,70
NNT=27
RAR=3,7%
RRR=26,8%
Todos ellos calculados con la misma tabla, por lo tanto todos ellos expresan
exactamente el mismo efecto. Hay que notar, sin embargo que las relaciones
entre ellos no se mantienen entre diferentes estudios (es decir, por ejemplo no
siempre un RR=0,73 es equivalente a un OR=0,70 ni a un NNT=27, aunque
siempre RAR=3,7% es equivalente a NNT=27). Existe evidencia empírica1,2 de
que el efecto apreciado por los lectores de la investigación médica depende en
gran medida del índice usado, por lo tanto conviene familiarizarse con ellos y
sus relaciones.
Los intervalos de confianza aproximados al 95% para todas las medidas que se
han descrito se calculan como:
nF F Total
Eventos d0 d1 d
Personas- L0 L1 L
tiempo
Ejemplo 11:
nF F
Casos a0 a1
No casos b0 b1
Total n0 n1
Odds ratio
Reducción absoluta del riesgo (la fórmula es, obviamente, la misma para la
diferencia absoluta de riesgo)
Para la reducción relativa del riesgo se dividen ambos límites del intervalo de la
reducción absoluta por el riesgo en el grupo control y para el número necesario
a tratar se invierten los límites del intervalo de la reducción absoluta del riesgo.
Ejemplo 12:
Los intervalos de todos los índices calculados para los datos del ejemplo 5
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
1) p(Ac) = 1 - p(A)
por ii p(Ac) + p(A) = p(Ω) ⇒ p(Ac) = p(Ω) - p(A) y como por iii p(Ω)=1 se obtiene 1)
2) A1 ⊂ A2 ⇒ p(A1) ≤ p(A2)
el suceso B = A1c ∩ A2 cumple A1 ∪ B = A2 y A1 ∩ B = ∅ por lo tanto, según ii) p(A2) = p(A1) + p(B) y según i)
p(A2) ≤ p(A1)
A ∪ (Ac ∩ B) = (A ∪ Ac) ∩ (A ∪ B) = Ω ∩ (A ∪ B) = A ∪ B
B = (A ∩ B) ∪ (Ac ∩ B) [3]
(A ∩ B) ∩ (Ac ∩ B) = A ∩ Ac ∩ B ∩ B = ∅
como los Ai son mutuamente excluyentes, también lo son B ∩ Ai, por lo tanto según el axioma
ii
Histogramas: Se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia absoluta) hay en
cada una de ellas. En algunas variables (variables cualitativas) las clases están definidas de modo natural, p.e
sexo con dos clases: mujer, varón o grupo sanguíneo con cuatro: A, B, AB, O. En las variables cuantitativas, las
clases hay que definirlas explícitamente (intervalos de clase).
Otra más