BIOESTADISTICA

Material docente de la Unidad de Bioestadística Clínica
1. Teoría de la probabilidad
2. Introducción a la estadística
3. Análisis de la varianza
4. Modelos de regresión lineal
5. Precisión y validez de las pruebas diagnósticas
6. Modelos de regresión logística
7. Modelos de regresión de Poisson
8. Análisis de Supervivencia
9. Medidas de frecuencia de la enfermedad
1. Teoría de la probabilidad
1.1 Idea intuitiva
1.2 Formalización de la probabilidad
1.3 Definición axiomática de la probabilidad
1.4 Propiedades de la probabilidad
1.5 Probabilidad condicionada
1.6 Sucesos independientes
1.7 Regla de la probabilidad total
1.8 Teorema de Bayes
1.9 Problemas propuestos
Anexo I
Repaso de Algebra de Conjuntos
Definiciones
Propiedades
Función de conjunto
2 Estadística
2.1 Definiciones
2.1.1 ¿Por qué la estadística?
2.2 Estadística descriptiva
2.2.1 Métodos gráficos de representación de datos
2.2.2 Medidas descriptivas
2.2.3.Medidas de posición
2.2.4 Medidas de dispersión
2.3 Variable aleatoria
2.3.1 Inducción de probabilidad a variables aleatorias
2.3.2 Función densidad de probabilidad (fdp)
2.3.3 Función acumulativa de probabilidad
http://www.hrc.es/bioest/M_docente.html (1 of 5) [28/12/2002 18:09:39]

2.3.4 Parámetros característicos de una fdp

2.5 Inferencia estadística
2.6 Estimación de parámetros
2.6.1 Distribución muestral de medias
2.6.2 Estimación de proporciones
2.8 Contrastes de hipótesis
2.8.1 Tamaño muestral para contrastes sobre medias
2.8.2 Comparación de medias
2.8.3 Independencia de v.a. cualitativas
2.9 Estadísticos de fuerza de asociación
2.11 Introducción a la causalidad
2.12 Introducción al análisis multivariante
3. Análisis de la varianza
3.1 Bases del análisis de la varianza
3.2 Algunas propiedades
3.3 Ejemplo 1
3.4 Pruebas para la homocedasticidad
3.5 Modelos de Anova
3.5.1 Modelo I o de efectos fijos
3.5.2 Modelo II o de efectos aleatorios
3.6 Pruebas “a posteriori”
3.7 Análisis de la varianza de dos factores
3.8 Identidad de la suma de cuadrados
3.9 Contrastes de hipótesis en el anova de 2 vías
3.9.1 Modelo I
3.9.2 Modelo II
3.9.3 Modelo mixto
3.10 Ejemplo 2
3.11 Tamaños muestrales desiguales en un anova de 2 vías
3.12 Casos particulares: Anova sin repetición y Bloques completos aleatorios
3.13 Ejemplo 3
3.14 Análisis de la varianza de más de dos factores
4. Correlación y Modelos de regresión lineal

4.1 Bibliografía
4.2 Generalización del concepto de fdp a variables multidimensionales
4.3 Independencia de dos variables aleatorias
4.4 Función lineal
4.5 Modelo I de regresión lineal simple

4.6 Interpretación del contraste α1=0

4.7 Inferencias sobre la regresión
4.8 Análisis de la varianza de la regresión simple
4.9 Modelo II de regresión lineal simple
4.10 Propiedades del coeficiente de correlación
4.11 Potencia de los contrastes en regresión
4.12 Modelo de regresión lineal múltiple
4.13 Estimación y contrastes de hipótesis
4.14 Análisis de la varianza de la regresión múltiple
4.15 Variables indicadoras ("dummy")
4.16 Interacción y confusión en la regresión
4.17 Estrategias de modelización
4.18 El problema de la colinealidad
4.19 Análisis de los residuos
4.20 Regresión lineal con el PRESTA
5. Errores en las mediciones y clasificaciones clínicas: Precisión y validez

5.1 Índices de concordancia
5.2 Problemas del índice kappa
5.3 Clasificaciones multinomiales
5.4 Índice kappa con "pesos"
5.5 Distribución muestral del índice kappa
5.6 Cálculo del índice kappa con el PRESTA
5.7 Concordancia para variables continuas
5.8 Índices de validez
5.9 Cocientes de probabilidad (CP)
5.10 Intervalos de confianza para los CP's
5.11 Tablas Kx2
5.12 Más de dos enfermedades
5.13 Cálculo de estos índices con el PRESTA
5.14 Curvas ROC
5.15 Elección del punto de corte óptimo
5.16 Sesgos en la evaluación de las pruebas diagnósticas
6. Modelos de regresión logística

6.1 Bibliografía
6.2 Asociación entre variables binomiales
6.3 Modelo de regresión logística simple
6.4 Estimación de los coeficientes
6.5 Distribución muestral de los coeficientes
6.6 Estimación por intervalos y contrastes de hipótesis sobre los coeficientes
6.7 Modelo múltiple
6.8 Prueba de Hosmer-Lemeshow

6.9 Área bajo la curva ROC

6.10 Variables indicadoras ("dummy")
6.11 Interacción y confusión en regresión logística
6.13 La colinealidad en regresión logística
6.14 Regresión logística condicional
6.15 Evaluación de los modelos de regresión logística
7. Modelos de regresión de Poisson

7.1 Bibliografía
7.2 Variables de Poisson
7.3 Modelo de regresión de Poisson
7.4 Estimación de los coeficientes
7.5 Distribución muestral de los estimadores
7.6 Contrastes de hipótesis y estrategias de modelización
7.7 La colinealidad en regresión de Poisson
7.8 Relación entre los modelos de Poisson y logístico
8. Análisis de Supervivencia
8.1 Bibliografía
8.2 Introducción
8.3 Distribución de la variable tiempo de espera
8.4 Estimación de la función de supervivencia (método de Kaplan-Meier)
8.5 Varianza de los estimadores
8.6 Método actuarial
8.7 Comparación de funciones de supervivencia
8.8 Alternativa parámetrica
8.8.1 Función exponencial
8.8.2 Función de Weibull
8.8.3 Función lognormal
8.8.4 Función gamma
8.9 Modelo de riesgo proporcional (Cox)
8.10 Estimación de los coeficientes y contrastes de hipótesis
9. Medidas de frecuencia de la enfermedad

9.1 Bibliografía
9.2 Introducción
9.3 Prevalencia
9.4 Incidencia
9.4.1 Incidencia acumulada
9.4.2 Densidad de incidencia
9.5 Intervalos de confianza

9.6 Medidas de asociación o efecto

9.6.1 Razón de tasas de incidencia
9.6.2 Riesgo relativo
9.6.3 Odds ratio
9.6.4 Diferencia absoluta de riesgo
9.6.5 Reducción absoluta de riesgo
9.6.6 Diferencia relativa de riesgo
9.6.7 Reducción relativa de riesgo
9.6.8 Número necesario a tratar
9.7 Comparación de las distintas medidas
9.8 Intervalos de confianza

TEORIA de la PROBABILIDAD
PROBABILIDAD
V.Abraira
Referencia bibliográfica
A.Pérez de Vargas, V.Abraira. Bioestadística. Centro de Estudios Ramón Areces. Madrid. 1996.
Idea intuitiva
Número, entre 0 y 1, asociado con la verosimilitud de que ocurra un suceso, 0 cuando estamos seguros que el
suceso no va a ocurrir y 1 cuando estamos seguros que sí va a ocurrir. El problema es ¿cómo asignar ese número
en situaciones de incertidumbre?
a) A veces se estima por la frecuencia relativa. P.e. una manera de aproximarnos a la probabilidad de que una
intervención quirúrgica arriesgada tenga éxito es consultar el registro de las intervenciones quirúrgicas realizadas
sobre pacientes similares, si de las últimas 10, ha sido un éxito en 8, la frecuencia relativa es 8/10=0,8 se parecerá
a esa probabilidad.
La frecuencia relativa cambia, en el ejemplo anterior si el registro, en lugar de 10 pacientes, tuviera 11, la
frecuencia relativa sería necesariamente distinta (8/11 ó 9/11), pero hay una ley empírica que establece que
cuando el "número de ensayos" (pacientes, en el ejemplo) es suficientemente grande, la frecuencia relativa se
estabiliza. A veces, se define la probabilidad como el límite de la frecuencia relativa. ¿Cómo saber, en cada caso,
si el "número de ensayos" es suficientemente grande? Una parte de la estadística tiene que ver con este
problema.
La gráfica muestra la evolución de la

frecuencia relativa del resultado "cara
1" en 4 series de 100 tiradas de un
dado.
Se observa que la frecuencia relativa

oscila, que la amplitud de las
oscilaciones va decreciendo a medida
que aumenta el número de tiradas y
que todas las series tienden a
estabilizarse a la misma altura,
también que 100 no es un número
"suficientemente grande" para que la
frecuencia relativa ya esté
estabilizada (los valores finales de las
4 series varían entre 0,17 y 0,21).
b) Hay situaciones en que se puede calcular: si todos los resultados del experimento son igualmente probables,
entonces la probabilidad se define (definición clásica o de Laplace) como el cociente entre el número de casos
favorables y el número de casos totales.
La probabilidad de que el resultado de tirar un dado sea un uno, se calcularía de esta forma. Compárese el
resultado 1/6 obtenido así con la gráfica anterior.
http://www.hrc.es/bioest/Probabilidad_1.html [28/12/2002 18:09:56]

Formalización de la probabilidad
Formalización de la probabilidad
Convenios: Los textos en color malva corresponden a un mayor nivel de formalización y

pueden ser omitidos en una primera lectura.
Experimento Aleatorio: experimento que puede ser repetido bajo "las mismas condiciones", del
que puede establecerse el conjunto de sus posibles resultados, pero no predecir un resultado
concreto.
Espacio muestral: conjunto de posibles resultados.
Punto muestral: elemento del espacio muestral.
Suceso: cualquier subconjunto del espacio muestral.
Si representamos el espacio muestral por Ω y a los sucesos por A: A ⊂ Ω. Dado que el

conjunto vacío es subconjunto de cualquier conjunto (∅ ⊂ Ω) y que todo conjunto es
subconjunto de sí mismo (Ω ⊂ Ω), tanto el conjunto vacío como el espacio muestral son
sucesos.
Si lo necesita Repaso del álgebra de conjuntos
Un problema a tener en cuenta es que dado un experimento, podemos encontrar más de

un espacio muestral.
Ejemplo 1: una mujer portadora de hemofilia tiene 3 hijos ¿Cuál es el espacio muestral
apropiado para estudiar la posible hemofilia de estos?
Opción a: Cada hijo puede padecer hemofilia (s) o no (n), por tanto
Ω1={sss, ssn, sns, nss, snn, nsn, nns, nnn}
Donde, por ejemplo, 'sns' significa el primero y el tercero la padecen y el segundo no. Hay que
asegurarse que no se olvida ninguno.
En este espacio muestral, el suceso "dos hijos padecen hemofilia" se representa como
A1={ssn, sns, nss} y el suceso "los dos primeros no la padecen" como A2={nns, nnn}
Opción b: Pueden padecer hemofilia los tres hijos (3), dos (2), ...
Ω2={3, 2, 1, 0}
En este espacio muestral, el suceso "dos hijos padecen hemofilia" es A1={2} y el suceso "los
dos primeros no la padecen" no se puede representar porque en el espacio muestral no está
contemplado el orden.

Definición axiomática de probabilidad
Definición axiomática de probabilidad
Convenios: Los textos en color malva corresponden a un mayor nivel de formalización
Sea Ω: espacio muestral, P(Ω) conjunto de las partes de Ω, o conjunto de sucesos, o álgebra
de sucesos. Se define probabilidad, o función de probabilidad, a cualquier función p: P(Ω)→ℜ
(es decir, una regla bien definida por la que se asigna a cada suceso un, y un solo un, número
real) que cumpla los axiomas siguientes
i) p(A) ≥ 0 ∀ A ∈ P(Ω)
ii) p(A1 ∪ A2 ∪ A3 ∪ ...) = p(A1) + p(A2) + p(A3) + ...
si Ai ∩ Aj = ∅ ∀i ≠ j (sucesos mutuamente excluyentes)
iii) p(Ω) = 1
A la estructura (Ω, P(Ω), p) se le denomina espacio de probabilidad.
Establecer claramente el espacio de probabilidad será el primer paso imprescindible para

estudiar una experiencia aleatoria. Muchas de las dificultades que surgen, en la práctica, en el
análisis estadístico de investigaciones clínicas tienen que ver con el establecimiento implícito y
defectuoso de este espacio.
Obsérvese que es necesario asignar un número a todos los sucesos, no sólo a los sucesos
elementales, pero si se ha asignado la probabilidad a los sucesos elementales, a través de la
propiedad ii) se puede asignar a todos los demás.
Ejemplo 1:
Para el experimento aleatorio de tirar un dado, el espacio muestral es Ω = {1, 2, 3, 4, 5, 6}. En

este espacio el conjunto de sucesos es P(Ω) = {∅, {1}, {2}, ...{1,2}, {1,3}, ...{1,2,3,4,5,6}}. Para
establecer una probabilidad hay que asignar un número a todos esos sucesos.
Sin embargo si se ha asignado a los sucesos elementales p({1})= p({2})= ...= p({6})= 1/6, por la
propiedad ii), p.e. la probabilidad del suceso {1, 3} es p({1,3})= p({1})+ p({3})=2/6.
Nota: El suceso {1} es: "el resultado de tirar el dado es la cara 1", el suceso {1, 3} es: "el
resultado de tirar el dado es la cara 1, o la 3", el suceso {1, 3, 5} es: "el resultado de tirar el
dado es una cara impar".

Propiedades de la probabilidad
Propiedades de la probabilidad
Demostraciones
1) p(Ac) = 1 - p(A)
Ac representa el suceso complementario de A, es decir el formado por todos los resultados que
no están en A.
2) A1 ⊂ A2 ⇒ p(A1) ≤ p(A2)
3) p(∅) = 0
4) p(A) ≤ 1
5) p(A ∪ B) = p(A) + p(B) - p(A ∩ B) (Regla general de la adicción)
Ejemplo 2: Un 15% de los pacientes atendidos en un hospital son hipertensos, un 10% son
obesos y un 3% son hipertensos y obesos. ¿Qué probabilidad hay de que elegido un paciente
al azar sea obeso o hipertenso?
A = {obeso} B = {hipertenso}
A ∩ B = {hipertenso y obeso}
A ∪ B = {obeso o hipertenso}
p(A) = 0,10; p(B) = 0,15; p(A ∩ B) = 0,03
p(A ∪ B) = 0,10 + 0,15 - 0,03 = 0,22

Probabilidad condicionada
Como la probabilidad está ligada a nuestra ignorancia sobre los resultados de la experiencia,
el hecho de que ocurra un suceso, puede cambiar la probabilidad de los demás. El proceso de
realizar la historia clínica, explorar y realizar pruebas complementarias ilustra este principio.
La probabilidad de que ocurra el suceso A si ha ocurrido el suceso B se denomina probabilidad
condicionada y se define
Esta definición es consistente, es decir cumple los axiomas de probabilidad.

Cuando ocurre un suceso cambia el espacio muestral, por eso cambia la probabilidad. A veces
es más fácil calcular la probabilidad condicionada teniendo en cuenta este cambio de espacio
muestral.
Ejemplo 3: Una mujer es portadora de la enfermedad de Duchenne ¿Cuál es la probabilidad

de que su próximo hijo tenga la enfermedad?
Según las leyes de Mendel, todos los posibles genotipos de un hijo de una madre portadora
(xX) y un padre normal (XY) son xX, xY, XX, XY y tienen la misma probabilidad. El espacio
muestral es Ω = {xX, xY, XX, XY}
el suceso A={hijo enfermo} corresponde al genotipo xY, por tanto, según la definición clásica
de probabilidad
p(A) = 1/4 = 0,25
La mujer tiene el hijo y es varón ¿qué probabilidad hay de que tenga la enfermedad?
Se define el suceso B = {ser varón} = {xY, XY}

la probabilidad pedida es p(A|B) y aplicando la definición anterior
p(B) = 0,5; A ∩ B = {xY}; p(A ∩B) = 0,25; p(A|B) = 0,25/0,5 = 0,5
Si sabemos que es varón, el espacio muestral ha cambiado, ahora es B. Por lo tanto se puede
calcular p(A|B) aplicando la definición clásica de probabilidad al nuevo espacio muestral
p(A|B) = 1/2 = 0,5
Ejemplo 4: Se sabe que el 50% de la población fuma y que el 10% fuma y es hipertensa.
¿Cuál es la probabilidad de que un fumador sea hipertenso?
A = {ser hipertenso} B = {ser fumador}

A ∩ B = {ser hipertenso y fumador}
p(A|B) = 0,10/0,50 = 0,20
Obsérvese que los coeficientes falso-positivo y falso-negativo de las pruebas diagnósticas son
probabilidades condicionadas.
La fórmula anterior se puede poner p(A ∩ B) = p(B) p(A|B) = p(A) p(B|A)

llamada regla de la multiplicación, que se puede generalizar a más sucesos
p(A1 ∩ A2 ∩ A3) = p((A1 ∩ A2) ∩ A3) = p(A1 ∩ A2) p(A3|A1 ∩ A2) = p(A1) p(A2|A1) p(A3|A1 ∩
A2)
http://www.hrc.es/bioest/Probabilidad_15.html (1 of 2) [28/12/2002 18:11:13]

En general p(A1 ∩ A2 ∩ A3 ...) = p(A1) p(A2|A1) p(A3|A1 ∩ A2) ...

llamado principio de las probabilidades compuestas y especialmente útil para aquellas
situaciones en que las probabilidades condicionadas son más fáciles de obtener que las
probabilidades de las intersecciones.
Ejemplo 4: Se sabe por estudios previos que el 0,1% de la población tiene problemas
vasculares. Un estudio sobre individuos con problemas vasculares revela que el 20% de ellos
son placas de ateroma. Si el 10% de los individuos con placas de ateroma están expuestos a
muerte súbita por desprendimiento de trombos ¿qué probabilidad tiene un individuo cualquiera
de estar expuesto a muerte súbita por desprendimiento de trombos de una placa de ateroma?
A1 = {problemas vasculares}; A2 = {placas de ateroma}; A3 = {expuesto a muerte súbita por ....}

p(A1) = 0,001; p(A2|A1) = 0,20; p(A3|A1 ∩ A2) = 0,1
p(A1 ∩ A2 ∩ A3) = 0,001 x 0,20 x 0,1 = 0,000002
Ejemplo 5: Una urna contiene 10 bolas, de las cuales 3 son rojas, 5 verdes y 2 azules. Se
extraen al azar 3 bolas. Calcular la probabilidad de que la primera sea azul, y las otras dos
verdes.
Definimos A1 = {la 1ª bola es azul}; A2 = {la 2ª bola es verde}; A3 = {la 3ª bola es verde}
p(A1) = 2/10 aplicando la definición clásica de probabilidad, puesto que hay 10 bolas y 2 son
verdes.
p(A2|A1) = 5/9; si la primera bola extraída es azul, en la urna quedan 9 bolas, 5 de ellas verdes.
p(A3|A1 ∩ A2) = 4/8; si la primera bola extraída es azul y la segunda verde en la urna quedan 8
bolas, 4 de ellas verdes.
p(A1 ∩ A2 ∩ A3) = 2/10 x 5/9 x 4/8 = 1/18

Sucesos independientes
Sucesos independientes
Dos sucesos son independientes si y sólo si p(A ∩ B) = p(A) p(B).

Si dos sucesos son independientes
y del mismo modo p(B|A) = p(B)

Esta propiedad coincide más con la idea intuitiva de independencia y algunos textos la dan
como definición. Hay que notar, sin embargo, que ambas definiciones no son estrictamente
equivalentes.
Ejemplo 6: Para un hijo de una mujer portadora de Duchenne, el sexo y la enfermedad ¿son
independientes?
Según vimos en el Ejemplo 3 el espacio muestral es Ω = {xX, xY, XX, XY}

Definimos los sucesos A = {varón} = {xY, XY}; B = {enfermo} = {xY}
A ∩ B = {xY}
por lo tanto p(A) = 0,5; p(B) = 0,25; p(A ∩ B) = 0,25 ≠ p(A) p(B) NO son independientes.

Regla de la PROBABILIDAD total
Regla de la probabilidad total
Se llama partición a conjunto de sucesos Ai tales que

A1 ∪ A2 ∪ ... ∪ An = Ω y Ai ∩ Aj = ∅ ∀ i ≠ j
es decir un conjunto de sucesos mutuamente excluyentes y que cubren todo el espacio
muestral
Regla de la probabilidad total: Si un conjunto de sucesos Ai forman una partición del espacio
muestral y p(Ai) ≠ 0 ∀ Ai, para cualquier otro suceso B se cumple
Demostración
Ejemplo 7: La prevalencia de infarto cardíaco para hipertensos es del 0,3% y para no

hipertensos del 0,1%. Si la prevalencia de hipertensión en una cierta población es del 25%
¿Cuál es la prevalencia del infarto en esa población?
A1 = {ser hipertenso} A2 = {no serlo} estos sucesos constituyen una partición

B = {padecer infarto}
datos: p(B|A1) = 0,003; p(B|A2) = 0,001; p(A1) = 0,25
evidentemente p(A2) =0,75 por la propiedad 1

p(B) = 0,003x0,25 + 0,001 x 0,75 = 0,0015

Teorema de Bayes
Teorema de Bayes
Si los sucesos Ai son una partición y B un suceso tal que p(B) ≠ 0
Demostración
Aplicaciones
Diagnóstico médico (en general clasificaciones no biunívocas): El diagnóstico consiste en

establecer la enfermedad de un paciente, a partir de una serie de síntomas. Pero los síntomas
y las enfermedades no están ligados de un modo biunívoco.
Llamemos Ei al conjunto de enfermedades

E1: tuberculosis pulmonar; E2 :cáncer de pulmón; E3: bronquitis obstructiva; etc.
y Si a los síntomas y síndromes asociados con las mismas
S1: tos; S2: estado febril; S3: hemotisis; etc.
La información accesible en los libros de patología, o en un archivo de historias clínicas es del
tipo
Para E1: algunos (digamos el 20%) tienen hemotisis; muchos (80%) tienen tos; etc.
y lo mismo para las demás enfermedades
En términos de probabilidad condicionada, esta información es

p(S3|E1) = 0,2; p(S1|E1) = 0,8 etc.
para diagnosticar la tuberculosis se ha de evaluar, para los síntomas que presenta el paciente
p(E1|Si)
para lo que se puede usar el teorema de Bayes si las enfermedades forman una partición (son
mutuamente excluyentes y se consideran todas las enfermedades compatibles con el
síntoma) y se conocen sus prevalencias.
Nótese que un mismo conjunto de síntomas podría dar lugar a un diagnóstico diferente en
poblaciones en las que las prevalencias fueran diferentes.
Pruebas diagnósticas: Supóngase una prueba diagnóstica, por ejemplo nivel de glucosa en
sangre, en ayunas, para diagnosticar la diabetes. Se considera que la prueba es positiva si se
encuentra un nivel por encima de un cierto valor, digamos 120 mg/l.
Para evaluar la prueba, (habrá que hacerlo para distintos valores de corte) se somete a la
misma a una serie de individuos diabéticos diagnosticados por otro procedimiento (el patrón de
oro o "gold standar") y a una serie de individuos no diabéticos. Los resultados se pueden
representar en una tabla de doble entrada
Patrón de oro
NE E
- a b r
Prueba

Teorema de Bayes
+ c d s
t u
Si la prueba fuera perfecta b=c=0, desgraciadamente nunca ocurre. Se denomina coeficiente

falso-positivo (CFP) al cociente c/t, y es una estimación de la probabilidad condicionada
p(+|NE), se denomina coeficiente falso-negativo (CFN) al cociente b/u, y es una estimación de
la probabilidad condicionada p(-|E). Estos dos coeficientes cuantifican los dos errores que la
prueba puede cometer y caracterizan a la misma. Simétricamente, los coeficientes que
cuantifican los aciertos son la sensibilidad, p(+|E), y la especificidad p(-|NE).
Cuando la prueba se usa con fines diagnósticos (o de "screening") interesa calcular p(E|+) y/o
p(NE|-).
como E y NE son una partición, usando el Teorema de Bayes
Nótese que ambas dependen de la prevalencia de la enfermedad: una prueba diagnóstica que
funciona muy bien en la clínica Mayo, puede ser inútil en el Hospital Ramón y Cajal.
Ejemplo 8: una prueba diagnóstica para la diabetes tiene un CFP de 4% y un CFN del 5%. Si
la prevalencia de la diabetes en la población donde se usa es del 7% ¿cuál es la probabilidad
de que sea diabético un individuo en el que la prueba dé positiva? y ¿de que no lo sea uno en
el que dé negativo?
p(+|NE) = 0,04 ⇒ p(-|NE) = 0,96

p(-|E) = 0,05 ⇒ p(+|E) = 0,95
p(E) = 0,07 ⇒ p(NE) = 0,93
Pruebas en serie: Cuando se aplican pruebas en serie, para cada prueba p(E) y p(NE), serán
la p(E|+) y p(NE|+) de la prueba anterior (si dio positiva) o p(E|-) y p(NE|-) si dio negativa.

Problemas de probabilidad propuestos:
Problemas de probabilidad propuestos:
1º Una mujer es hija de una portadora de la enfermedad de Duchenne. Dicha mujer tiene tres
hijos sanos. Calcular la probabilidad de que ella sea portadora de la enfermedad.
Solución
2º Una prueba diagnóstica para el cáncer uterino tiene un coeficiente falso-positivo de 0.05 y
falso-negativo de 0.10. Una mujer con una probabilidad pre-prueba de padecer la enfermedad
de 0.15 tiene un resultado negativo con la misma. Calcular la probabilidad de que no esté
enferma.
Solución
http://www.hrc.es/bioest/Probabilidad_pro.html [28/12/2002 18:13:09]

Problemas de probabilidad resueltos:
Problemas de probabilidad resueltos:
1º Una mujer es hija de una portadora de la enfermedad de Duchenne. Dicha mujer tiene tres
hijos varones sin la enfermedad. Calcular la probabilidad de que ella sea portadora de la
enfermedad.
Solución
Si representamos por x el gen alterado y por X el gen normal, el espacio muestral para el
nacimiento de la mujer Ω ={xX, XX}, cada suceso elemental con la misma probabilidad (1ª ley
de Mendel). Por tanto, si A = {xX} = {la mujer es portadora}, según la definición clásica de
probabilidad p(A) = 1/2.
Si la mujer fuera portadora, los posibles genotipos para sus hijos son xX, xY, XX, XY, todos
con la misma probabilidad. El espacio muestral para el nacimiento de un hijo varón es Ω ={xY,
XY}, por tanto la probabilidad de que un hijo varón no tenga la enfermedad es 1/2 (también
según la definición clásica). Cómo los genotipos de los sucesivos hijos son independientes (2ª
ley de Mendel), y de acuerdo a la definición de independencia, la probabilidad de que los 3
hijos varones no tengan la enfermedad es (1/2)x(1/2)x(1/2) = 1/8. Obviamente si la mujer no
fuera portadora, la probabilidad de que los 3 hijos varones no tengan la enfermedad es 1.
Como el suceso A = {la mujer es portadora} y su complementario Ac = {la mujer no es
portadora} forman una partición, se puede aplicar el teorema de Bayes en relación con el
suceso B = {los 3 hijos varones no tienen la enfermedad}
2º Una prueba diagnóstica para el cáncer uterino tiene un coeficiente falso-positivo de 0,05 y
falso-negativo de 0,10. Una mujer con una probabilidad pre-prueba de padecer la enfermedad
de 0,15 tiene un resultado negativo con la misma. Calcular la probabilidad de que no esté
enferma.
Solución
Sea NE = {la mujer no está enferma}, + = {el resultado de la prueba es positivo} y - = {el
resultado de la prueba es negativo}. La pregunta pide p(NE|-). Los datos que se dan son
p(+|NE)=0,05; p(-|E)=0,10 y p(E)=0,15. Del primero se deduce que p(-|NE)=0,95 y del último
p(NE)=0,85, por lo tanto aplicando el teorema de Bayes
p(NE|--) = [ p(--|NE) p(NE) ] / [ p(--|NE) p(NE) + p(--|E) p(E) ]
p(NE|--) = [ 0,95 x 0,85 ] / [ 0,95 x 0,85 + 0,10 x 0,15 = 0,982
http://www.hrc.es/bioest/Probabilidad_prosul.html [28/12/2002 18:18:34]

REPASO DE ALGEBRA DE CONJUNTOS
V.Abraira
Definiciones
Dado un conjunto A={a, b, c, d}, la relación de pertenencia se representa por a ∈ A.
Se llama cardinal del conjunto, y se representa car(A), al número de elementos que contiene.
Se llama conjunto vacío, y se representa por ∅, al conjunto que no contiene ningún elemento. No desespere,
estamos de acuerdo en que si no contiene ningún elemento, no es un conjunto, sin embargo su definición como tal es
muy útil.
Se llama universo o conjunto universal, y se suele representar por H, al conjunto formado por todos los elementos
que se están considerando.
Dado un conjunto A, se llama complementario del mismo, y se representa por Ac, al conjunto formado por los
elementos del universo que no son de A.
Dos conjuntos son iguales si están formados por los mismos elementos.
Se dice que B es subconjunto de A, y se representa B ⊂ A, si todos los elementos de B pertenecen a A. Se dice

también que B está incluido en A.
Dados dos conjuntos A y B, se llama unión de ambos, y se representa A ∪ B, al conjunto formado por los elementos
que pertenecen a A o a B.
Ejemplo 1: A={a, b, c, d} B={c, d, e, h}
A ∪ B = {a, b, c, d, e, h}
Ejemplo 2: C={personas obesas} D={personas hipertensas}
C ∪ D = {personas obesas o hipertensas}
Se llama intersección y se representa A ∩ B, al conjunto formado por los elementos que pertenecen a A y a B.
Ejemplo 3: para los conjuntos anteriores
A ∩ B = {c, d} C ∩ D = {hipertensos y obesos}
Si dos conjuntos no tienen elementos comunes, se llaman disjuntos y su intersección es el conjunto vacío. Si, para el
ejemplo 2, en el universo que se está considerando no hay nadie que sea hipertenso y obeso C ∩ D = ∅
Al conjunto formado por todos los subconjuntos de un conjunto dado se le denomina conjunto de las partes del
conjunto o álgebra y se representa por P(A)
Ejemplo: A = {1, 2, 3}
P(A) = {∅ , {1}, {2}, {3}, {1,2}, {1,3}, {2,3}, {1,2,3}}
Propiedades
Propiedades de la inclusión
i) A ⊂ A
ii) ∅ ⊂ A
iii) A ⊂ B ⇒ B ⊄ A ; sólo si A = B
iv) A ⊂ B y B ⊂ D ==> A ⊂ D
http://www.hrc.es/bioest/Algebra_conjuntos.html (1 of 2) [28/12/2002 18:31:54]

Propiedades de la unión e intersección
i) Identidad A∪∅=A A ∩H = A
ii) Idempotencia A∪A=A A∩A=A
iii) Commutatividad A∪B=B∪A A∩B=B∩A
iv) Asociatividad (A ∪ B) ∪ D = A ∪ (B ∪ D) (A ∩B) ∩ D = A ∩ (B ∩ D)
v) Distributividad (A ∪ B) ∩ D = (A ∩D) ∪ (B ∩ D) (A∩B) ∪ D = (A ∪ D) ∩ (B ∪ D)
vi) Absorción A ∪ (A ∩ B) = A A ∩ (A ∪ B) = A
vii) Complementaridad A ∪ Ac = H A ∩ Ac = ∅
Nota: A todo conjunto en el que se hayan definido dos operaciones que tengan estas propiedades, se le denomina
Algebra de Boole.
Función de conjunto: toda regla que de un modo perfectamente determinado haga corresponder un número real a
cada elemento del conjunto. Se representa por
f: A → ℜ
el número x que le corresponde al elemento a, se representa por x=f(a)
Se denomina imagen de la función al conjunto de números que están en correspondencia con algún elemento, a
través de la función.
im f = { x ∈ℜ; a ∈ A , f(a)=x }
Volver Ir a Bioestadística
http://www.hrc.es/bioest/Algebra_conjuntos.html (2 of 2) [28/12/2002 18:31:54]

Estadística
ESTADISTICA
V.Abraira
Referencia bibliográfica
A.Pérez de Vargas, V.Abraira. Bioestadística. Centro de Estudios Ramón Areces. Madrid.

1996.
Definiciones
Conjunto de métodos científicos ligados a la toma, organización, recopilación, presentación

y análisis de datos, tanto para la deducción de conclusiones como para tomar decisiones
razonables de acuerdo con tales análisis.
Arte de la decisión en presencia de incertidumbre.
Ciencia que sirve para demostrar que dos personas han comido 1/2 pollo cada una, cuando
en realidad una ha comido uno y la otra ninguno.
¿Por qué la estadística?
¿Usaron la estadística Galileo, Newton y Einstein?
En ciertas ciencias (Biología, Ciencias Humanas, algunos campos de la Física, ...) aparece el
concepto de experimento aleatorio (experimento que repetido en las "mismas condiciones" no
produce el mismo resultado) y asociado al mismo el de variable aleatoria.
Una variable no aleatoria (asociada al resultado de una experiencia que sí produce el mismo
resultado) está caracterizada por un valor para cada condición.
Una variable aleatoria está caracterizada por la llamada función densidad de probabilidad, a
partir de la cual se obtienen las probabilidades para sus posibles valores para cada condición.
Los objetivos de la investigación científica se pueden entender, de un modo muy general, en

términos de encontrar y describir las variables de interés y las relaciones entre ellas, para el
problema en estudio.
La estadística es la ciencia que estudia los métodos que permiten realizar este proceso para
variables aleatorias. Estos métodos permiten resumir datos y acotar el papel de la casualidad
(azar).
Se divide en dos áreas:
Estadística descriptiva: Trata de describir las variables aleatorias en las "muestras".
Estadística inductiva o inferencial: Trata de la generalización hacia las poblaciones de los

resultados obtenidos en las muestras y de las condiciones bajo las cuales estas conclusiones
son válidas. Se enfrenta básicamente con dos tipos de problemas:
Estimación, que puede ser puntual o por intervalos.
http://www.hrc.es/bioest/estadis_1.html (1 of 2) [28/12/2002 18:41:40]

Estadística
Contraste de hipótesis.
ESTADISTICA DESCRIPTIVA
La descripción completa de una variable aleatoria está dada por su función densidad de
probabilidad (fdp).
Afortunadamente una gran cantidad de variables de muy diversos campos están

adecuadamente descritas por unas pocas familias de fdps: binomial, Poisson, normal, gamma,
etc.
Dentro de cada familia, cada fdp está caracterizada por unos pocos parámetros, típicamente
dos: media y varianza.
Por tanto la descripción de una variable indicará la familia a que pertenece la fdp y los
parámetros correspondientes.
Ejemplo: (hipotético) la concentración de glucosa en sangre en individuos no diabéticos,

medida en mg/dl, es normal con media 98 y varianza 90.
El problema es ¿cómo averiguar la fdp de una variable de interés?
La familia, generalmente, se sabe por resultados de la teoría de la probabilidad, aunque, en

cada caso, conviene verificarlo. Para conocer los parámetros se deberían conocer los
resultados de todos los posibles experimentos (población: conjunto de todos los valores de
una variable aleatoria). Generalmente la población es inaccesible, bien es infinita, o aunque
finita suficientemente grande para ser inabordable. En consecuencia, se estudian muestras
(subconjuntos de la población) que, en caso de ser aleatorias, permiten realizar estimaciones
tanto de la familia como de los parámetros de las fdps.
Muestra aleatoria: muestra elegida independientemente de todas las demás, con la misma
probabilidad que cualquier otra y cuyos elementos están elegidos independientemente unos de
otros y con la misma probabilidad.
Métodos gráficos de representación de muestras: El método gráfico más frecuente es el

histograma, que puede adoptar distintas formas. Véanse algunos ejemplos.
Advertencias:
1ª Estos diagramas tienen un fin descriptivo: deben ser fáciles de leer.

2ª El convenio es que la frecuencia sea proporcional al área (es proporcional a la altura sólo si
las barras tienen la misma anchura).
3ª Para fines comparativos es mejor usar frecuencias relativas.
4ª El número de clases (barras), cuando la variable no es cualitativa, no debe ser ni muy
grande ni muy pequeño. Generalmente se recomiendan entre 5 y 20 clases de igual tamaño.
Otro criterio es usar la raíz cuadrada del número de datos.
5ª Los límites de las clases no deben ser ambiguos, p.e. no deben coincidir con valores
posibles de los datos (una cifra decimal más).

Medidas descriptivas
MEDIDAS DESCRIPTIVAS
Medidas de posición o tendencia
Media muestral: Si tenemos X1, X2, ... , Xn datos, se llama media muestral de los mismos a su
media aritmética
Moda muestral: El valor que más se repite (puede no existir y si existe puede no ser única).
Mediana muestral: Ordenando los Xi, el valor que está en el medio
Ejemplo: Sean los datos 3, 5, 7, 7, 8, 9
= 39/6 = 6,5; = 7; moda = 7
Medidas de dispersión
Rango: Si Xi están ordenados Xn - X1
Varianza:
aunque para el cálculo se suele usar otra fórmula más cómoda
Desviación típica o estándar:
¡¡Ojo!! no confundir con error típico o estándar
Coeficiente de variación:

Medidas descriptivas

VARIABLE ALEATORIA
Variable aleatoria
Una función que asocia un número real, perfectamente definido, a cada punto muestral.
A veces las variables aleatorias (v.a.) están ya implícitas en los puntos muestrales.
Ejemplo 1: Experiencia consistente en medir la presión sistólica de 100 individuos. Un punto

muestral (resultado de un experimento) es ya un número (presión sistólica). La v.a. está
implícita.
Ejemplo 2: En el ejemplo de la mujer portadora de hemofilia.
Ω = {sss, ssn, sns, snn, nss, nsn, nns, nnn}
Se podría definir una variable que asignara a cada punto muestral el número de orden en el
espacio muestral.
X: sss 1; ssn 2; sns 3;...
Pero otra posible v.a.: a cada punto muestral el número de s. X: sss 3; ssn 2; ...
Los conjuntos pueden ser:
discretos: número finito o infinito numerable de elementos.
continuos: número infinito no numerable de elementos.
Las v.a. definidas sobre espacios muestrales discretos se llaman v.a. discretas y las definidas
sobre espacios muestrales continuos se llaman continuas.
Una v.a. puede ser continua, aunque nosotros sólo podamos acceder a un subconjunto finito
de valores. P.e. la presión arterial es una v.a. continua pero sólo podemos acceder a un
conjunto finito de valores por la limitación de los aparatos de medida.
En general, las medidas dan lugar a v.a. continuas y los conteos a v.a. discretas.
Inducción de la probabilidad a variables aleatorias
Las v.a permiten definir la probabilidad como una función numérica (de variable real) en lugar
de como una función de conjunto como se había definido antes
Ejemplo 3: Tiramos una moneda 3 veces. Representamos cara por c y cruz por z.
Ω = {ccc, ccz, czc, zcc, czz, zcz, zzc, zzz}
La probabilidad de cada suceso elemental es 1/8. Por ejemplo p(ccc)=1/8, ya que la

probabilidad de sacar cara en una tirada es 1/2 según la definición clásica y las tiradas son
independientes.
Definimos la v.a. X: número de caras, que puede tomar los valores {0, 1, 2, 3}. Se buscan
todos los puntos muestrales que dan lugar a cada valor de la variable y a ese valor se le
asigna la probabilidad del suceso correspondiente.

VARIABLE ALEATORIA
x Sucesos px
0 {zzz} 1/8
1 {czz, zcz, zzc} 3/8
2 {ccz, czc, zcc} 3/8
3 {ccc} 1/8
A esta función se le denomina función densidad de probabilidad (fdp), que desgraciadamente

"funciona" de distinta manera en las variables discreta que en las continuas. En el caso de las
variables discretas, como en el ejemplo, es una función que para cada valor de la variable da
su probabilidad.
Ejemplo 4: Supongamos la variable tipo histológico de un tumor, con los valores 1, 2, 3, 4. Si la

fdp fuera
x f(x)
1 0,22
2 0,27
3 0,30
4 0,21
significaría que la probabilidad del tipo 2 es 0,27, etc.
Para variables continuas la probabilidad de que una variable tome cualquier valor concreto es
0, por lo tanto la fdp sólo permite calcular la probabilidad para un intervalo del tipo (a<X<b),
mediante el área bajo la curva de la fdp.

VARIABLE ALEATORIA
Para las variables aleatorias de interés hay tablas, y programas de ordenador, donde buscar
esos valores.
Distribución acumulativa o función de distribución
F(x) = p(X ≤ x)
Para el ejemplo 3
x f(x) F(x)
0 1/8 1/8
1 3/8 4/8
2 3/8 7/8
3 1/8 8/8
y para el ejemplo 4
x f(x) F(x)
1 0,22 0,22
2 0,27 0,49
3 0,30 0,79
4 0,21 1
Parámetros característicos de una fdp
Valor esperado o esperanza matemática o media
si X es una v.a. cualquier función de ella, h(x), es también una v.a., en consecuencia también
se define este parámetro para una función de v.a.

VARIABLE ALEATORIA
Ejemplo 5: Se tira un dado. Se define como v.a. el número que sale ¿Cuál es su media?
La variable X puede tomar los valores 1, 2, ..., 6 y para todos ellos f(x) = 1/6. En consecuencia
la media es
Observese que es un número que la v.a. no puede alcanzar. ¿Qué significa? No mucho.
Se define ahora una función sobre X: el premio: si sale 1 ó 2 se gana 100 ptas, si sale 3 se
gana 500 y si sale 4, 5 ó 6 no se gana nada
X h(x)
1 100
2 100
3 500
4 0
5 0
6 0
¿Cuál es el valor medio de esta función?
¿qué significa? es el valor medio a la larga: si se juega un número grande de veces la

ganancia final es como si en cada jugada se hubiera ganado 116,6 pts. Si la apuesta costara
menos de eso el juego sería ventajoso para el jugador (así se enriqueció Voltaire), si costara
más, para la banca. (llamar a ésto honestidad del juego le costó el puesto de ministro a
Laplace).
Varianza:
Se define como:
aunque para el cálculo se suele usar esta otra fórmula equivalente:

VARIABLE ALEATORIA
¿Qué mide la varianza? Mide la dispersión de la variable alrededor de la media.
Otras lecturas recomendadas
Variables and parameters. Altman & Bland. BMJ 1999; 318:1667.

Problemas de estadística propuestos
Problemas de estadística propuestos (1ª parte):
1º Un juego consiste en tirar dos dados. Si la suma de sus caras es mayor o igual a 10 se ganan 300 pts, si está
comprendida entre 7 y 9 se ganan 100 pts. y para cualquier otro resultado no se gana nada. ¿Cuál debería ser el precio
de la apuesta para que la ganancia esperada de la banca sea de 50 pts?
Solución
2º La siguiente tabla muestra la fdp para la variable X: número de personas por día que solicitan un tratamiento
innecesario en el servicio de urgencias de un pequeño hospital.
x 0 1 2 3 4 5
f(x) 0,01 0,1 0,3 0,4 0,1 ?
a. Encontrar f(5)
b. Construir F(x)
c. Encontrar p(X≤2)
d. Encontrar p(X<2)
e. Encontrar p(X>3)
f. Calcular la media y la varianza
Solución
3º Se desarrolla un compuesto para aliviar las migrañas. El fabricante afirma que es efectivo en un 90% de los casos. Se
prueba sobre 4 pacientes. Sea X el número de pacientes que obtiene alivio.
a. Encontrar la fdp para X, suponiendo que la afirmación del fabricante sea correcta.
b. Encontrar p(X≤1)
c. Si el compuesto no alivia a ninguno de los pacientes ¿es esa una razón para poner en duda la eficacia afirmada por el
fabricante? Razonar sobre la base de la probabilidad implicada.
d. Calcular la media. ¿Qué significa en este ejemplo?
Solución
4º Sea X el tiempo de supervivencia en años después de un diagnóstico de leucemia aguda. La fdp para X es f(x) = -x/2
+ 1, para 0 < x < 2.
a. Comprobar que es una fdp.

b. Hallar p(X>1)
c. Hallar p(X=1)
d. Hallar p(X≥1)
Ayuda: hacerlo todo gráficamente
e. Calcular la media y la varianza (Sólo para iniciados).
Solución
http://www.hrc.es/bioest/estadis_pro.html [28/12/2002 18:44:46]

Problemas de estadística resueltos
Problemas de estadística resueltos (1ª parte):
1º Un juego consiste en tirar dos dados. Si la suma de sus caras es mayor o igual a 10 se ganan 300 pts, si está
comprendida entre 7 y 9 se ganan 100 pts. y para cualquier otro resultado no se gana nada. ¿Cuál debería ser el precio
de la apuesta para que la ganancia esperada de la banca sea de 50 pts?
Solución
El espacio muestral para el problema es Ω = {(1,1), (1,2), (1,3), ..., (6,6)} con 36 puntos muestrales. Todos los sucesos
elementales tiene la misma probabilidad 1/36.
Se define la v.a. X: suma de las dos caras. Esta variable puede tomar los valores 2, 3, 4, ....,12. La tabla con la fdp
inducida es
x Sucesos f(x)
2 {(1,1)} 1/36
3 {(1,2), (2,1)} 2/36
4 {(1,3), (2,2), (3,1)} 3/36
5 {(1,4), (2,3), (3,2), (4,1)} 4/36
6 {(1,5), (2,4), (3,3), (4,2), (5,1)} 5/36
7 {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)} 6/36
8 {(2,6), (3,5), (4,4), (5,3), (6,2)} 5/36
9 {(3,6), (4,5), (5,4), (6,3)} 4/36
10 {(4,6), (5,5), (6,4)} 3/36
11 {(5,6), (6,5)} 2/36
12 {(6,6)} 1/36
La tabla de la función premio es
x h(x)
2 0
3 0
4 0
5 0
6 0
7 100
8 100
9 100
10 300
11 300
12 300
Por lo tanto el valor esperado del premio es
en consecuencia, la apuesta debería costar 91,7 + 50 = 141,7 para que la ganancia esperada de la banca sea 50 ptas.
2º La siguiente tabla muestra la fdp para la variable X: número de personas por día que solicitan un tratamiento
innecesario en el servicio de urgencias de un pequeño hospital.
http://www.hrc.es/bioest/estadis_prosul.html (1 of 4) [28/12/2002 18:45:31]

x 0 1 2 3 4 5
f(x) 0,01 0,1 0,3 0,4 0,1 ?
a. Encontrar f(5)
b. Construir F(x)
c. Encontrar p(X≤2)
d. Encontrar p(X<2)
e. Encontrar p(X>3)
f. Calcular la media y la varianza
Solución
a. Por la construcción de las fdps es obvio que
.
Para que se cumpla esta condición es necesario que f(5)=0,09
b.
x 0 1 2 3 4 5
f(x) 0,01 0,1 0,3 0,4 0,1 0,09
F(x) 0,01 0,11 0,41 0,81 0,91 1
c. p(X≤2) = F(2) = 0,41

d. p(X<2) = p(X≤1) = F(1)=0,11
e. p(X>3) = 1 - p(≤3) = 1- F(3) = 1 - 0,81 = 0,19
f.
3º Se desarrolla un compuesto para aliviar las migrañas. El fabricante afirma que es efectivo en un 90% de los casos. Se
prueba sobre 4 pacientes. Sea X el número de pacientes que obtiene alivio.
a. Encontrar la fdp para X, suponiendo que la afirmación del fabricante sea correcta.
b. Encontrar p(X≤1)
c. Si el compuesto no alivia a ninguno de los pacientes ¿es esa una razón para poner en duda la eficacia afirmada por el
fabricante? Razonar sobre la base de la probabilidad implicada.
d. Calcular la media. ¿Qué significa en este ejemplo?
Solución
a. Representando por a que un paciente tenga alivio y por n que no lo tenga, el espacio muestral para el problema es Ω
= {aaaa, naaa, anaa, aana, aaan, ..., nnnn}, Si es cierta la afirmación del fabricante p(a)=0,9 y p(n)=0,1
La v.a. X: número de pacientes que tienen alivio puede tomar los valores 0, 1, 2, 3, 4. La tabla con la fdp inducida es
x Sucesos f(x)
0 {nnnn} 0,14
1 {annn, nann, nnan, nnna} 4x0,9x0,13
2 {aann, anan, anna, naan, nana, nnaa } 6x0,92x0,12

3 {aaan, aana, anaa, naaa} 4x0,93x0,1
4 {aaaa} 0,94
b. p(X≤1) = f(0) + f(1) = 0,14 + 4x0,9x0,13 = 0,0037

c. La probabilidad de que no alivie a ningún paciente es f(0)=0,0001. Es una probabilidad tan baja que, efectivamente, si
ese fuera el resultado hay suficientes razones para poner en duda la afirmación de que alivia al 90% de los pacientes.
d.
Si se repitiera un número suficientemente grande de veces la experiencia de administrar el fármaco a 4 pacientes, el

número promedio de pacientes que experimentarían alivio sería 3,6.
4º Sea X el tiempo de supervivencia en años después de un diagnóstico de leucemia aguda. La fdp para X es f(x) = -x/2
+ 1, para 0 < x < 2.
a. Comprobar que es una fdp.

b. Hallar p(X>1)
c. Hallar p(X=1)
d. Hallar p(X≥1)
Ayuda: hacerlo todo gráficamente
e. Calcular la media y la varianza (Sólo para iniciados).
Solución
a. La gráfica de la fdp es
La condición equivalente a
para variables continuas es que el área bajo la fdp sea 1. De

modo general ese área se calcula mediante cálculo integral,
pero en este caso se puede calcular por la conocida fórmula
del área de un triángulo A = (bxh)/2, es decir A = (2x1)/2=1
b.
Gráficamente, la probabilidad pedida es el área coloreada de

verde, por lo tanto se puede calcular también con la fórmula
del área del triángulo. Ahora b=1 y para calcular h hay que
ver que valor toma la fdp cuando x=1, y = -1/2 + 1 = 1/2. Por
lo tanto, la probabilidad es (1x1/2)/2 = 1/4
c. Como en toda variable continua la probabilidad de que tome un valor concreto es 0, por lo tanto p(X=1) = 0
d. Obviamente p(X≥1) = p(X >1) = 1/4
e. Media
varianza


Estadística inferencial: estimación de parámetros y contrastes de hipótesis
Estadística inferencial
Los dos tipos de problemas que resuelven las técnicas estadísticas son: estimación y contraste
de hipótesis. En ambos casos se trata de generalizar la información obtenida en una muestra a
una población. Estas técnicas exigen que la muestra sea aleatoria. En la práctica rara vez se
dispone de muestras aleatorias, por la tanto la situación habitual es la que se esquematiza en
la figura
Entre la muestra con la que se trabaja y la población de interés, o población diana, aparece la
denominada población de muestreo: población (la mayor parte de las veces no definida con
precisión) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la
generalización está amenazada por dos posibles tipos de errores: error aleatorio que es el que
las técnicas estadísticas permiten cuantificar y críticamente dependiente del tamaño muestral,
pero también de la variabilidad de la variable a estudiar y el error sistemático que tiene que ver
con la diferencia entre la población de muestreo y la población diana y que sólo puede ser
controlado por el diseño del estudio.
Tamaño muestral
El tamaño muestral juega el mismo papel en estadística que el aumento de la lente en

microscopía: si no se ve una bacteria al microscopio, puede ocurrir que:
- la preparación no la contenga
- el aumento de la lente sea insuficiente.
Para decidir el aumento adecuado hay que tener una idea del tamaño del objeto.
Del mismo modo, para decidir el tamaño muestral:

i) en un problema de estimación hay que tener una idea de la magnitud a estimar y del error
aceptable.
ii) en un contraste de hipótesis hay que saber el tamaño del efecto que se quiere ver.
http://www.hrc.es/bioest/Introducion.html [28/12/2002 18:46:52]

Estimación de parámetros
Estimación de parámetros
En general, de las variables experimentales u observacionales no conocemos la fpd. Podemos

conocer la familia (normal, binomial,...) pero no los parámetros. Para calcularlos
necesitaríamos tener todos los posibles valores de la variable, lo que no suele ser posible.
La inferencia estadística trata de cómo obtener información (inferir) sobre los parámetros a
partir de subconjuntos de valores (muestras) de la variable.
Estadístico: variable aleatoria que sólo depende de la muestra aleatoria elegida para
calcularla.
Estimación: Proceso por el que se trata de averiguar un parámetro de la población
representado, en general, por θ a partir del valor de un estadístico llamado estimador y
representado por
El problema se resuelve en base al conocimiento de la "distribución muestral" del estadístico
que se use.
¿Qué es esto? Concretemos, p.e. en la media (µ). Si para cada muestra posible calculamos la
media muestral ( ) obtenemos un valor distinto ( es un estadístico: es una variable
aleatoria y sólo depende de la muestra), habrá por tanto una fpd para , llamada distribución
muestral de medias. La desviación típica de esta distribución se denomina error típico de la
media. Evidentemente, habrá una distribución muestral para cada estadístico, no sólo para la
media, y en consecuencia un error típico para cada estadístico.
Si la distribución muestral de un estadístico estuviera relacionada con algún parámetro de
interés, ese estadístico podría ser un estimador del parámetro.
http://www.hrc.es/bioest/Introducion_est.html [28/12/2002 18:47:24]

Distribucción muestral de medias
Distribución muestral de medias
Si tenemos una muestra aleatoria de una población N(µ,σ ), se sabe (Teorema del límite central) que la fdp de la
media muestral es también normal con media µ y varianza σ2/n. Esto es exacto para poblaciones normales y
aproximado (buena aproximación con n>30) para poblaciones cualesquiera. Es decir es el error típico, o
error estándar de la media.
¿Cómo usamos esto en nuestro problema de estimación?

1º problema: No hay tablas para cualquier normal, sólo para la normal µ=0 y σ=1 (la llamada z); pero haciendo la
transformación (llamada tipificación)
una normal de media µ y desviación σ se transforma en una z.
Llamando zα al valor de una variable normal tipificada que deja a

su derecha un área bajo la curva de α, es decir, que la
probabilidad que la variable sea mayor que ese valor es α (estos
son los valores que ofrece la tabla de la normal)
podremos construir intervalos de la forma
para los que la probabilidad es 1 - α.
Teniendo en cuenta la simetría de la normal y manipulando algebraícamente
que también se puede escribir
o, haciendo énfasis en que es el error estándar de la media,
Recuérdese que la probabilidad de que µ esté en este intervalo es 1 - α. A un intervalo de este tipo se le denomina
intervalo de confianza con un nivel de confianza del 100(1 - α)%, o nivel de significación de 100α%. El nivel de
confianza habitual es el 95%, en cuyo caso α=0,05 y zα /2=1,96. Al valor se le denomina estimación puntual y
se dice que es un estimador de µ.
http://www.hrc.es/bioest/esti_medias.html (1 of 2) [28/12/2002 18:48:00]

Distribucción muestral de medias
Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria de tamaño 20 en la que se
calcula se puede decir que µ tiene una probabilidad de 0,95 de estar comprendida en el intervalo
que sería el intervalo de confianza al 95% para µ
En general esto es poco útil, en los casos en que no se conoce µ tampoco suele conocerse σ2; en el caso más
realista de σ2 desconocida los intervalos de confianza se construyen con la t de Student (otra fdp continua para la
que hay tablas) en lugar de la z.
o, haciendo énfasis en que es el error estándar estimado de la media,
Este manera de construir los intervalos de confianza sólo es válido si la variable es normal. Cuando n es grande
(>30) se puede sustituir t por z sin mucho error.
Interpreting study results: confidence intervals. Guyatt et al. CMAJ. 152:169-173. 1995
http://www.hrc.es/bioest/esti_medias.html (2 of 2) [28/12/2002 18:48:00]

Estimación de proporciones
Estimación de proporciones
Sea X una variable binomial de parámetros n y p (una variable binomial es el número de éxitos
en n ensayos; en cada ensayo la probabilidad de éxito (p) es la misma, por ejemplo: número
de diabéticos en 2000 personas).
Si n es grande y p no está próximo a 0 ó 1 (np ≥ 5) X es aproximadamente normal con media
np y varianza npq (siendo q = 1 - p) y se puede usar el estadístico (proporción
muestral), que es también aproximadamente normal, con error típico dado por
en consecuencia, un IC para p al 100(1 - α)% será
es decir, la misma estructura que antes:
Obsérvese que para construirlo, ¡se necesita conocer p!. Si n es grande (>30) se pueden
substituir p y q por sus estimadores sin mucho error, en cualquier caso como pq ≤ 0,25 si se
substituye pq por 0,25 se obtiene un intervalo más conservador (más grande).
Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se obtienen 80

curaciones. Calcular el intervalo de confianza al 95% de la eficacia del tratamiento.
¿Qué significa este intervalo? La verdadera proporción de curaciones está comprendida entre,
aproximadamente, 72% y 88% con un 95% de probabilidad.
¿Es suficientemente preciso? Habrá que juzgarlo con criterios clínicos.
http://www.hrc.es/bioest/esti_propor.html [28/12/2002 18:50:15]

1º En una muestra aleatoria de 90 pacientes se mide el nivel de glucosa en sangre en ayunas.

Se obtiene = 132 mg/dl y s2=109. Construir el IC al 95% para µ ¿Qué asunción se ha
hecho?
Solución
2º Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de riesgo.
Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10 pasan la
gripe. Construir un IC al 95% para la probabilidad de pasar la gripe si se está vacunado. En los
otros 100 pacientes sin vacunar la pasan 20. ¿Hay evidencia de que la vacuna es eficaz?
Solución
http://www.hrc.es/bioest/estadis_pro2.html [28/12/2002 18:50:45]

Problemas de estadística resueltos (2ª parte):
1º En una muestra aleatoria de 90 pacientes se mide el nivel de glucosa en sangre en ayunas.

Se obtiene = 132 mg/dl y s2=109. Construir el IC al 95% para µ ¿Qué asunción se ha
hecho?
Solución
Usando la fórmula general para cuando σ2 es desconocida
podemos, o bien mirar a las tablas de la t (o en un programa de ordenador) el valor de t0,025

que para 89 grados de libertad (los grados de libertad son n - 1) es 1,99, o bien como n > 30
aproximar a la z y usar el valor 1,96.
Para poder usar esta fórmula es necesario que la variable sea normal. ¿es abusiva esta
asunción? Ver, por ejemplo The normal distribution. Altman & Bland. BMJ 1995; 310:298.
2º Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de riesgo.
Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10 pasan la
gripe. Construir un IC al 95% para la probabilidad de pasar la gripe si se está vacunado. En los
otros 100 pacientes sin vacunar la pasan 20. ¿Hay evidencia de que la vacuna es eficaz?
Solución
La fórmula para calcular IC para proporciones es
y aproximando p y q por sus estimaciones
es decir, hay una probabilidad del 95% de que la probabilidad de pasar la gripe si se está
vacunado esté comprendida entre el 4% y el 16%. Para los no vacunados
Existe solapamiento, aunque pequeño, entre ambos intervalos; por tanto no podemos asegurar
que la vacuna sea eficaz.
http://www.hrc.es/bioest/estadis_pro2sul.html (1 of 2) [28/12/2002 18:50:58]


Contrastes de hipótesis
Una hipótesis estadística es una asunción relativa a una o varias poblaciones,

que puede ser cierta o no. Las hipótesis estadísticas se pueden contrastar con
la información extraída de las muestras y tanto si se aceptan como si se
rechazan se puede cometer un error.
La hipótesis formulada con intención de rechazarla se llama hipótesis nula y se

representa por H0. Rechazar H0 implica aceptar una hipótesis alternativa (H1).
La situación se puede esquematizar:
H0 cierta H0 falsa
H1 cierta
H0 rechazada Error tipo I (α) Decisión correcta (*)
H0 no rechazada Decisión correcta Error tipo II (β)
(*) Decisión correcta que se busca
α=p(rechazar H0|H0 cierta)

β=p(aceptar H0|H0 falsa)
Potencia=1-β=p(rechazar H0|H0 falsa)
Detalles a tener en cuenta:
1 α y β están inversamente relacionadas.

2 Sólo pueden disminuirse las dos, aumentando n.
Los pasos necesarios para realizar un contraste relativo a un parámetro θ son:
1. Establecer la hipótesis nula en términos de igualdad
2. Establecer la hipótesis alternativa, que puede hacerse de tres maneras,

dependiendo del interés del investigador
en el primer caso se habla de contraste bilateral o de dos colas, y en los otros

dos de lateral (derecho en el 2º caso, o izquierdo en el 3º) o una cola.
http://www.hrc.es/bioest/Introducion_ch.html (1 of 4) [28/12/2002 18:54:24]

3. Elegir un nivel de significación: nivel crítico para α
4. Elegir un estadístico de contraste: estadístico cuya distribución muestral se

conozca en H0 y que esté relacionado con θ y establecer, en base a dicha
distribución, la región crítica: región en la que el estadístico tiene una
probabilidad menor que α si H0 fuera cierta y, en consecuencia, si el estadístico
cayera en la misma, se rechazaría H0.
Obsérvese que, de esta manera, se está más seguro cuando se rechaza una
hipótesis que cuando no. Por eso se fija como H0 lo que se quiere rechazar.
Cuando no se rechaza, no se ha demostrado nada, simplemente no se ha
podido rechazar. Por otro lado, la decisión se toma en base a la distribución
muestral en H0, por eso es necesario que tenga la igualdad.
5. Calcular el estadístico para una muestra aleatoria y compararlo con la región

crítica, o equivalentemente, calcular el "valor p" del estadístico (probabilidad de
obtener ese valor, u otro más alejado de la H0, si H0 fuera cierta) y compararlo
con α.
Ejemplo:
Estamos estudiando el efecto del estrés sobre la presión arterial. Nuestra

hipótesis es que la presión sistólica media en varones jóvenes estresados es
mayor que 18 cm de Hg. Estudiamos una muestra de 36 sujetos y encontramos
1. Se trata de un contraste sobre medias. La hipótesis nula (lo que queremos

rechazar) es:
2. la hipótesis alternativa
es un contraste lateral derecho.
3. Fijamos "a priori" el nivel de significación en 0,05 (el habitual en Biología).
4. El estadístico para el contraste es
y la región crítica T>tα

Si el contraste hubiera sido lateral izquierdo, la región crítica sería T<t1-α

y si hubiera sido bilateral T<t1-α/2 o T>tα/2
En este ejemplo t(35)0,05=1,69.
5. Calculamos el valor de t en la muestra
no está en la región crítica (no es mayor que 1,69), por tanto no rechazamos H0.
Otra manera equivalente de hacer lo mismo (lo que hacen los paquetes
estadísticos) es buscar en las tablas el "valor p" que corresponde a T=0,833,
que para 35 g.l. es aproximadamente 0,20. Es decir, si H0 fuera cierta, la
probabilidad de encontrar un valor de T como el que hemos encontrado o mayor
(¿por qué mayor? Porque la H1 es que µ es mayor , lo que produciría una media
muestral mayor y por tanto mayor valor de t) es 0,20, dicho de otra manera la
probabilidad de equivocarnos si rechazamos H0 es 0,20, como la frontera se
establece en 0,05 no la rechazamos.
Este valor crítico de 0,05 es arbitrario pero es la convención habitual. ¿Cuán

razonable es?
Problema al respecto: en la hipótesis de que un mazo de cartas esté bien

barajado, la probabilidad de que al sacar dos cartas sean, p.e.:1 el as de oros y
2 el rey de bastos es 1/40 x 1/39=0,000833.
Si hacemos la experiencia y obtenemos ese resultado ¿rechazaríamos la

hipótesis de que el mazo está bien barajado? ¿Cuánto se parece esto a la lógica
del contraste de hipótesis?
Volvamos al problema del estrés. Como no se rechaza H0, se puede cometer un

error tipo II. ¿Cuál es β?. De hecho, sería la información relevante a comunicar
en este estudio (la probabilidad del error que se pude cometer en él).
Habitualmente, sin embargo, no se da porque los paquetes estadísticos no la
calculan.
Para calcularla se debe concretar H1, p.e. µ = 20 (el criterio para este valor no
es estadístico)

β=p(aceptar H0|H1 cierta)
Supongamos que el tamaño muestral sea suficientemente grande para poder

aproximar t a z.
¿Cuándo se acepta H0? si z ≤ 1,69
es decir, se acepta H0 si
¿Qué probabilidad hay de encontrar si µ = 20 (zona verde del gráfico)?

En esta hipótesis lo que se distribuye como una z es
Hypothesis testing. Guyatt et al. CMAJ. 152:27-32. 1995

Tamaño muestral en contrastes sobre medias
Cálculo del tamaño muestral para contrastes sobre medias
Sea el contraste (bilateral)

H0: µ = µ0
H1: µ > µ0
Para calcular el tamaño muestral debemos, además de fijar α

y β, concretar H1
Concretando H1: µ = µ0 + δ.
Si n suficientemente grande para poder usar la normal, es

decir
resulta que
Si el contraste fuera a dos colas habría que cambiar zα por zα/2
http://www.hrc.es/bioest/tamano.html [28/12/2002 18:55:02]

Comparación de medias
La hipótesis nula
H0: µ1 − µ2 = d0
Generalmente d0=0
Hay 3 situaciones distintas:
1º conocidos (poco frecuente).
2º desconocidos pero iguales.
3º desconocidos pero distintos.
Los estadísticos son distintos (z en 1 y t en 2 y 3) pero el procedimiento es el mismo. En los 3 casos se

supone que las muestras son independientes; si no lo fueran hay otro estadístico (t pareada).
Todos asumen normalidad. Si no se cumpliera hay que usar los llamados test no paramétricos.
Ejemplo
En un ensayo clínico para evaluar un hipotensor se compara un grupo placebo con el grupo tratado. La
variable medida es la disminución de la presión sistólica y se obtiene: grupo placebo n = 35; = 3,7 mm de
Hg. y s2 = 33,9; grupo tratado n = 40; = 15,1 mm de Hg. y s2 = 12,8. ¿Es eficaz el tratamiento?
Se trata de un contraste sobre diferencias de medias

H0: µT − µP = 0
H1: µT − µP > 0
Como no conocemos las varianzas, para realizarlo debemos decidir si son iguales o distintas, para ello se
plantea el contraste
H0:
H1:
El estadístico es , para el que p<0,05, en consecuencia rechazamos la H0

y concluimos que las varianzas son distintas. Por lo tanto usaríamos la t para varianzas distintas. Haciendo
los cálculos t=-10,2 p<0,05 rechazamos la H0 y concluimos que las medias son distintas.
Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear un archivo con 2 variables:
Trata (con un código distinto para cada grupo, p.e. 0 para placebo y 1 para tratado) y Diferen con la
diferencia de presión arterial para cada individuo al acabar el estudio y al empezar. Originalmente en el
archivo podría haber una variable con la presión al empezar y otra al acabar y se crearía la diferencia con la
opción: Transformar ---> Calcular. Para calcular la t desplegamos los menús que se ven en la gráfica:
http://www.hrc.es/bioest/ch_medias.html (1 of 3) [28/12/2002 18:55:43]

Y el programa calcula la t para varianzas iguales y distintas y realiza el contraste para las varianzas. Para el
contraste sobre las varianza el SPSS no usa la prueba descrita más arriba, sino la de Levene que no asume
normalidad y se puede usar para comparar varias varianzas.
Estadísticos del grupo
TRATA N Media Desviación Error típ. de

típ. la media
DIFEREN 0 35 3,729 5,666 ,958
1 40 15,075 3,576 ,565
Prueba de muestras independientes
Prueba de Levene Prueba T para la igualdad de medias

para la igualdad de
varianzas
F Sig. t gl Sig. (bilateral) Diferencia de Error típ de la Intervalo de confianza para la

medias diferencia diferencia
Inferior Superior
DIFEREN Se han 10,431 ,002 -10,503 73 ,000 -11,346 1,080 -13,500 -9,193
asumido
varianzas
iguales
No se han -10,201 55,909 ,000 -11,346 1,112 -13,575 -9,118

asumido
varianzas
iguales
¿Qué nos está diciendo este resultado? Que si el tratamiento fuera igual de eficaz que el placebo, la
probabilidad de haber obtenido una diferencia entre ambos como la que hemos encontrado o mayor es muy
pequeña (<0,000) ¿Bastaría esto para convencernos de que debemos tratar con este tratamiento?


Contrastes sobre v.a. cualitativas
Contrastes sobre independencia de v.a. cualitativas
Se quiere estudiar un posible factor pronóstico del éxito de una terapia, p.e. cierto grado de albuminuria como
mal pronóstico en la diálisis. Los resultados de un estudio de este tipo se pueden comprimir en una tabla 2x2 del
tipo
F nF
E a b m = a+b
nE c d n = c+d
e = a+c f = b+d T
Se estudian T individuos, a tienen al factor (F) y tiene éxito la terapia (E), b no tienen al factor (nF) y tiene éxito la
terapia, ...
¡Ojo! A pesar de la aparente "inocencia" de esta tabla, puede significar cosas distintas segíun el diseño del
estudio. No todas las probabilidades de las que se habla más abajo se pueden estimar siempre.
H0 es que el factor F y el éxito E son independientes (F no es factor pronóstico) y H1 que están asociados (sí es
factor pronóstico). Si son independientes p(E∩F) = p(E)p(F). A partir de los datos de la tabla las mejores
estimaciones de estas probabilidades son , por lo tanto en H0 ,
en consecuencia el valor esperado para esa celda en H0 es (cociente entre el producto

de los totales marginales y el gran total), del mismo modo se calculan los demás valores esperados y se
construye el estadístico
que se distribuye según una distribución conocida denominada ji-cuadrado, que depende de un parámetro
llamado "grados de libertad" (g.l.) Los g.l. en esta tabla son 1. Esto se puede generalizar a tablas CxF y los
grados de libertad son (C-1)x(F-1).
Ejemplo
En una muestra de 100 pacientes que sufrieron infarto de miocardio se observa que 75 sobrevivieron más de 5
años (éxito). Se quiere estudiar su posible asociación con la realización de ejercicio moderado (factor). La tabla
es
F nF
E 50 25 75
nE 10 15 25
60 40 100
Calculamos los valores esperados en H0
F nF
E 60x75/100=45 40x75/100=30
nE 60x25/100=15 40x25/100=10
Obsérvese que una vez calculado uno de los valores esperados, los demás vienen dados para conservar los
http://www.hrc.es/bioest/ch_cualitativas.html (1 of 3) [28/12/2002 18:57:07]

totales marginales (eso es lo que significa que hay 1 g.l.). A partir de aquí calculamos
Rechazamos la H0 y concluimos que hay asociación entre el ejercicio y la supervivencia. Obviamente esta
asociación no es necesariamente causal.
Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear un archivo con 2 variables: Super
con un código distinto para cada grupo, p.e. 1 para supervivencia y 0 para no y Ejer también con dos códigos.
Para calcular la ji-cuadrado desplegamos los menús que se ven en la gráfica:
y la salida es
Tabla de contingencia EJERC * SUPER
Recuento
SUPER Total
0 1
EJERC 0 15 25 40
1 10 50 60
Total 25 75 100
Pruebas de chi-cuadrado
Valor gl Sig. asint. Sig. exacta Sig. exacta (unilateral)

(bilateral) (bilateral)
Chi-cuadrado de Pearson 5,556 1 ,018

Corrección de continuidad 4,500 1 ,034

Razón de verosimilitud 5,475 1 ,019
Estadístico exacto de Fisher ,033 ,017
Asociación lineal por lineal 5,500 1 ,019
N de casos válidos 100
a Calculado sólo para una tabla de 2x2.
b 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 10,00.

Estadísticos de fuerza de la asociación
¿Cuál es la fuerza de la asociación? Ni el estadístico χ2 ni su valor p asociado miden esa

fuerza, es decir se puede encontrar un alto valor de χ2 (pequeño valor de p) con una
asociación débil si el tamaño muestral fuera grande. Hay varios estadísticos propuestos para
medir esta fuerza:
1º Diferencia de riesgo o Reducción absoluta del riesgo (RAR): A partir de la tabla del ejemplo
anterior podemos estimar la probabilidad (riesgo en la terminología epidemiológica) de que un
individuo que haga ejercicio tenga éxito: y también la probabilidad de que lo
tenga uno que no lo haga: . Se llama Diferencia de riesgo o Reducción

absoluta del riesgo a esta diferencia: 0,20 que puede oscilar entre -1 y 1; 0 indica no
asociación.
2º Reducción relativa del riesgo (RRR): La magnitud de la diferencia de riesgo es difícil de

interpretar: una diferencia de 0,001 puede ser mucho o poco dependiendo del riesgo basal.
Para superar esta dificultad se define la RRR como la reducción absoluta del riesgo dividida
por el riesgo basal o riesgo del grupo de referencia. En el ejemplo, si consideramos como
referencia el no hacer ejercicio, el RRR sería 0,20/0,63 = 0,32.
3º Riesgo relativo (RR): Otro índice relativo es el riesgo relativo definido como el cociente entre
los riesgos. En el ejemplo anterior RR=0,83/0,63=1,32. Los individuos que hacen ejercicio
tienen una probabilidad de éxito 1,32 veces mayor que los que no. El RR puede oscilar entre 0
y ∞; 1 indica no asociación. Es el estadístico preferido.
4º Odds ratio (OR): Es un estadístico menos intuitivo que el RR. Para caracterizar un proceso
binomial se puede usar su probabilidad (p) o el cociente p/q llamado odds. En el ejemplo
anterior, para el ejercicio p = 0,83 y el odds = 0,83/0,17=4,88, es decir es 4,88 veces más
probable tener éxito que no tenerlo si se hace ejercicio y para el no ejercicio p = 0,63 y el odds
= 0,63/0,37=1,70. Para comparar ambos procesos podemos usar su cociente u odds ratio OR
= 4,88/1,70 = 2,87. El odds para el ejercicio es 2,87 veces mayor que para el no ejercicio. El
OR también puede oscilar entre 0 y ∞
; 1 indica no asociación. Queda como ejercicio para el
lector comprobar que el OR se puede estimar como el cociente de los productos cruzados de
los elementos de la tabla, OR=(50x15)/(10x25)=3. La diferencia con el anterior es debida a
errores de redondeo.
¿Qué ventajas tiene el OR frente al RR?. En principio parece menos intuitivo aunque un
jugador no opinaría lo mismo. De hecho el OR proviene del mundo de las apuestas. Si
queremos comparar dos juegos ¿qué da más información el OR o el RR? ... y ¿si queremos
comparar dos estrategias terapéuticas?
Por otro lado si el estudio del ejemplo anterior se hubiera hecho de otra forma: muestreando
por un lado individuos con éxito y por otro sin éxito (diseño caso-control) el RR no se podría
estimar y sin embargo el OR sí y de la misma forma (se puede demostrar usando el teorema
de Bayes).
Además, cuando se estudian fenómenos con probabilidades bajas (típicamente enfermedades)

el OR tiende al RR.
http://www.hrc.es/bioest/fuerza_asocia.html (1 of 2) [28/12/2002 18:58:29]

Sean dos fenómenos con probabilidades p1 y p2 próximas a cero, en consecuencia q1 y q2

estarán próximos a 1 y su cociente también, por lo tanto
Resumiendo, el OR se puede estimar en diseños como el caso-control en los que el RR no se

puede y si se estudian fenómenos con baja prevalencia el OR estima el RR. Además el OR es
un buen indicador en sí mismo.
5º Número necesario a tratar (NNT): En el contexto de la evaluación de tratamientos (ensayos

clínicos) se suele usar este índice definido como el número de personas que se necesitaría
tratar con un tratamiento para producir, o evitar, una ocurrencia adicional del evento. Del
mismo modo se define número necesario para perjudicar (NNP) para evaluar efectos
indeseables. Se calcula como el inverso del RAR. En el ejemplo NNT = 1/0,20 = 5 que se
interpreta como por cada 5 pacientes que hagan ejercicio se consigue que uno tenga éxito.
Assessing the effects of treatment: measures of association. Jaeschke et al. CMAJ. 152:351-
357. 1995
Medidas del efecto de un tratamiento (I): reducción absoluta del riesgo, reducción relativa del
riesgo y riesgo relativo. Abraira SEMERGEN 26: 535-536. 2000.
Medidas del efecto de un tratamiento (II): odds ratio y numero necesario para tratar. Abraira
SEMERGEN 27: 418-420. 2001.
http://www.hrc.es/bioest/fuerza_asocia.html (2 of 2) [28/12/2002 18:58:29]

1º Plantear (y resolver) el contraste de hipótesis adecuado para el problema 2 de la serie

anterior.
Solución
2º Antiguos estudios muestran que el germicida DDT puede acumularse en el cuerpo. En

1965, la concentración media de DDT en las partes grasas del cuerpo en la población
española era de 9 ppm. Se espera que como resultado de los controles realizados esta
concentración haya disminuido.
a. Construir la hipótesis nula y alternativa para documentar esta afirmación.
b. Explicar en términos prácticos las consecuencias de cometer un error tipo I y

un error tipo II.
c. Se realiza el contraste de forma que la potencia para detectar una

concentración media de 6 ppm es de 0,8. Explicar en términos prácticos qué
significa.
Solución
3º En un estudio caso-control para estudiar la posible asociación entre estado civil y mortalidad
en la UVI se ha encontrado que de 50 personas que murieron 30 eran solteros, mientras que
entre 60 que sobrevivieron sólo lo eran 15. Plantear y resolver el contraste. ¿Cuál sería el
mejor estimador del efecto?
Solución
http://www.hrc.es/bioest/estadis_pro3.html [28/12/2002 19:00:49]

1º Plantear (y resolver) el contraste de hipótesis adecuado para el problema 2 de la serie

anterior: Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de
riesgo. Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10
pasan la gripe. En los otros 100 pacientes sin vacunar la pasan 20. ¿Hay evidencia de que la
vacuna es eficaz?
Solución
H0: No hay asociación entre la vacuna y la gripe (la vacuna no es eficaz)
Construimos la tabla
V nV
G 10 20 30
nG 90 80 170
100 100 200
V nV
G 100x30/200=15 100x30/200=15
nG 100x170/200=85 100x170/200=85
Calculamos el estadístico χ2
Como el valor crítico de χ 2 es 3,84 rechazamos la H0 y concluimos que la vacuna es eficaz.
2º Antiguos estudios muestran que el germicida DDT puede acumularse en el cuerpo. En

1965, la concentración media de DDT en las partes grasas del cuerpo en la población
española era de 9 ppm. Se espera que como resultado de los controles realizados esta
concentración haya disminuido.
a. Construir la hipótesis nula y alternativa para documentar esta afirmación.
b. Explicar en términos prácticos las consecuencias de cometer un error tipo I y

un error tipo II.
c. Se realiza el contraste de forma que la potencia para detectar una

concentración media de 6 ppm es de 0,8. Explicar en términos prácticos qué
significa.

Solución
a. Llamando µ a a la concentración media antes y µ d a la concentración media ahora, las

hipótesis se plantean
H0: µa = µd
H1: µa > µd
b. Error tipo I = (rechazar H0|H0 cierta) es decir concluir que la concentración ha disminuido,
cuando en realidad no ha sido así.
Error tipo II = (aceptar H0|H0 falsa) es decir concluir que la concentración no ha disminuido,
cuando en realidad si ha disminuido
c. El diseño garantiza que si la concentración media ha disminuido 6 ppm o más el estudio

tiene una probabilidad de 0,8 de detectarlo.
3º En un estudio caso-control para estudiar la posible asociación entre estado civil y mortalidad
en la UVI se ha encontrado que de 50 personas que murieron 30 eran solteros, mientras que
entre 60 que sobrevivieron sólo lo eran 15. Plantear y resolver el contraste. ¿Cuál sería el
mejor estimador del efecto?
Solución
H0: No hay asociación entre el estado civil y la mortalidad
Construimos la tabla
Soltero No
Morir 30 20 50
No 15 45 60
45 65 110
Soltero no
Morir 45x50/110=20,5 65x50/110=29,5
No 45x60/110=24,5 65x60/110=35,5
Calculamos el estadístico χ2
Como el valor crítico de χ2 es 3,84 rechazamos la H0 y concluimos que hay asociación. El

mejor estimador de la fuerza de la asociación (realmente el único posible de los que hemos

visto para este tipo de estudios) es el OR estimado como

Introducción a la causalidad
1 Causalidad en la vida común: Parece que forma parte de la mente humana el buscar relaciones entre las
cosas y particularmente entre acciones y sus consecuencias como modo de entender el mundo y adaptarse
al mismo. Ya figura en el aprendizaje del niño, incluso la repetición.
Sin embargo en el lenguaje común e incluso literario se usa con mucha laxitud:
"Un hombre entró en un local provocando una nube de humo, se alisó el cabello provocando la aparición de
un barman de aspecto feroz". Queneau.
"Sobre como la divina providencia regula la igualdad en el nacimiento de los sexos". Arthunot.
2 Causalidad en la filosofía: Para Aristóteles (visión finalista) existen 4 tipos de causa:

Causa material: el mármol para una estatua,la existencia del miocardio y su necesidad de riego sanguíneo
para el infarto de miocardio.
Causa eficiente: la mano del escultor para la estatua, el trombo para el infarto.
Causa formal: el canon de belleza para la estatua, la necesidad de nutrientes para el infarto.
Causa final: depende de posiciones "a priori": el aumento de la belleza en el mundo para la estatua, para la
regulación de la población en el mundo o para que existan cardiólogos para el infarto.
Evidentemente estos conceptos se solapan.
No es infrecuente encontrar esta visión finalista en Biología: "El sistema inmunológico está para defender al
individuo de ataques externos".
Otras posiciones:
i) ontológica (Leibniz): La causalidad es un principio del ser. "Las leyes causales que una cosa cumple
constituyen un aspecto fundamental e inseparable de su modo de ser". D. Bohm.
ii) legalista (Hume): La causalidad es la forma en que se expresan las leyes científicas basadas en una
generalización de la experiencia y con capacidad predictiva. Las características de la relación causal son:
a) contigüidad (causa y efecto deben estar contiguos en espacio y tiempo).
b) prioridad (la causa precede en el tiempo al efecto).
c) conjunción constante (las relaciones anteriores deben conservarse en varios casos).
iii) a priorista (Kant): La causalidad es un "a priori" que se necesita para el conocimiento racional. No procede
del conocimiento, es un supuesto previo que lo hace posible.
iv) escéptica: "La razón por la que la física ha dejado de buscar las causas es que en realidad no existen. La
Ley de causalidad como mucho de lo que se da por bueno entre los filósofos, es una reliquia de una época
pasada que sobrevive, como la monarquía, porque se supone erróneamente que no hace ningún daño". B.
Russell.
3 Elementos de la relación causal
1 Elemento inicial (A) o causa: su definición depende del modelo. Pueden ser causas:
a) Acciones intencionales (p.e. administración de un tratamiento): las más claras
b) Acciones no intencionales: acciones naturales (lluvia), hechos (fumar),...
c) Atributos (sexo), constructos (inteligencia): como no se definen en función de cambios, a veces en lugar de
causas se habla de determinantes.
2 Elemento final (B) o efecto que se define en términos de cambio con respecto a:
a) situación previa
b) lo que hubiera ocurrido si no hubiera ocurrido la causa. Es la que plantea más problemas en el diseño
experimental: necesidad de control.
3 Relación entre ambos

a) Algunos autores (Russell) la definen exclusivamente como funcional en el sentido de función matemática.
b) Otros (Galileo, Stuart Mill, Kant) también como condición. La relación condicional puede ser:
i) Necesaria y suficiente: Si A, entonces B y Si B, entonces A.
ii) Necesaria y no suficiente: Si A, entonces B o no B y Si B, entonces A
iii) No necesaria y suficiente: Si A, entonces B y Si B, entonces A o no A
iv) No necesaria y no suficiente: Si A, entonces B o no B y Si B, entonces A o no A
http://www.hrc.es/bioest/causali.html (1 of 3) [28/12/2002 19:01:45]

El cuarto caso es el más difícil de establecer por su ambigüedad, pero es el más frecuente en Biología.
4 Características de la relación causal: siguiendo a Hume, pero con un lenguaje más actual
a) temporalidad: la causa precede al efecto
b) dirección: la relación va de la causa al efecto
c) asociación: entendida como cuantificación de la constancia de la relación
5 Modelos causales en Biología
1 Modelo de Koch-Henle (sugerido por Koch a propósito de la tuberculosis y paradigmático en el estudio de

enfermedades infecciosas): más que un modelo es un conjunto de reglas de decisión que asumen los
principios anteriores:
i) el microorganismo debe encontrarse siempre en los casos de enfermedad.
ii) el microorganismo deberá poder ser aislado en cultivo, demostrando ser una estructura viva y distinta de
otras que pueden encontrarse en otras enfermedades.
iii) el microorganismo debe distribuirse de acuerdo con las lesiones y ellas deben explicar las manifestaciones
de la enfermedad.
iv) el microorganismo cultivado (algunas generaciones) deberá ser capaz de producir la enfermedad en el
animal de experimentación.
2 Modelo de Bradford Hill: más conocido como criterios de Bradford Hill, aunque estrictamente no son
criterios, y paradigmático en el estudio de enfermedades no infecciosas y también asume los principios
anteriores adecuados a la relación causal tipo iv:
i) fuerza de la asociación, medida con los índices estadísticos apropiados.
ii) consistencia entre distintos observadores, en diferentes lugares, tiempos y circunstancias.
iii) especificidad de las causas.
iv) temporalidad
v) gradiente biológico en la relación dosis-respuesta.
vi) plausibilidad biológica.
vii) coherencia con otros conocimientos.
viii) evidencia experimental
ix) analogía con otras relaciones causales
3 Modelo de Rothman, con más contenido teórico, contempla las relaciones multicausales, fue desarrollado
en el ámbito de la epidemiología y es el más adaptado a los métodos estadísticos multivariantes.
Define causa como todo acontecimiento, condición o característica que juega un papel esencial en producir
un efecto (p.e. una enfermedad)
Distingue entre:
Causa componente causa que contribuye a formar un conglomerado que constituirá una causa suficiente.
Causa suficiente conjunto de causas que producen un efecto.
Causa necesaria ver más adelante (punto iii)
Características del modelo:

i) Ninguna de la causas componentes es superflua
ii) No exige especificidad: un mismo efecto puede ser producido por distintas causas suficientes
iii) Una causa componente puede formar parte de más de una causa suficiente para el mismo efecto. Si una
causa componente forma parte de todas las causas suficientes de un efecto se la denomina causa necesaria
iv) Una misma causa componente puede formar parte de distintas causas suficientes de distintos efectos
v) Dos causas componentes de una causa suficiente se considera que tienen una interacción biológica, es
decir ninguna actúa por su cuenta. El grado de interacción puede depender de otras causas componentes.


Introducción al análisis multivariante
Introducción al análisis multivariante
¿qué es?
¿qué añade?
¿es siempre necesario?
Volvamos al problema del ejercicio y la supervivencia al infarto. Supongamos que:

1) El problema tiene interés
2) el RR de 1,32 es suficientemente preciso
3) es clínicamente relevante.
¿Lo aceptamos? Es decir ¿consideramos la asociación estadística establecida y pasamos a

considerar si es causal?
Supongamos que si tenemos en cuenta el tabaco, resultara que el 99% de los que hacen
ejercicio no fuman, mientras que sólo no fuman el 70% de los que no lo hacen y el tabaco ya
hubiera demostrado una asociación con la supervivencia: ¿hemos encontrado un nuevo factor
pronóstico o sólo estamos viendo indirectamente el efecto del tabaco? Dicho en la jerga usual:
¿es el tabaco una variable de confusión para la asociación entre el ejercicio y la
supervivencia?
Una variable es de confusión cuando está asociada simultáneamente con la variable en

estudio (el ejercicio en este caso) y con la variable respuesta (la supervivencia) y no forma
parte de la cadena causal.
La confusión se puede abordar por:

i) diseño: en este ejemplo se podría hacer que en la muestra estuvieran igualmente
representados los fumadores y los no fumadores. Este es el objetivo fundamental de la
asignación aleatoria a los grupos en los ensayos clínicos.
ii) análisis: por análisis multivariante (los más comunes son los modelos de regresión) con los
que se puede analizar simultáneamente el efecto de varias variables y obtener estimaciones
del efecto de cada una corregido o ajustado por las otras.
¿Cuándo es necesario el análisis multivariante? Siempre que el diseño no controle la

confusión ... y eso ¿cuándo ocurre? No se puede saber a priori: el mejor método para evitar
confusión es la selección aleatoria, pero no lo garantiza.
http://www.hrc.es/bioest/multivariante.html [28/12/2002 19:02:29]

Análisis de la varianza
ANÁLISIS DE LA VARIANZA
V. Abraira
Bibliografía:
V. Abraira, A. Pérez de Vargas

Métodos Multivariantes en Bioestadística.
Ed. Centro de Estudios Ramón Areces. 1996.
El análisis de la varianza (o Anova: Analysis of variance) es un método para

comparar dos o más medias, que es necesario porque cuando se quiere
comparar más de dos medias es incorrecto utilizar repetidamente el contraste
basado en la t de Student. por dos motivos:
En primer lugar, y como se realizarían simultánea e independientemente varios

contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar
aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico,
para lo que, en la hipótesis nula, hay una probabilidad α. Si se realizan m
contrastes independientes, la probabilidad de que, en la hipótesis nula, ningún
estadístico supere el valor crítico es (1 - α)m, por lo tanto, la probabilidad de que
alguno lo supere es 1 - (1 - α)m, que para valores de α próximos a 0 es
aproximadamente igual a αm. Una primera solución, denominada método de
Bonferroni, consiste en bajar el valor de α, usando en su lugar α/m, aunque
resulta un método muy conservador.
Por otro lado, en cada comparación la hipótesis nula es que las dos muestras
provienen de la misma población, por lo tanto, cuando se hayan realizado todas
las comparaciones, la hipótesis nula es que todas las muestras provienen de la
misma población y, sin embargo, para cada comparación, la estimación de la
varianza necesaria para el contraste es distinta, pues se ha hecho en base a
muestras distintas.
El método que resuelve ambos problemas es el anova, aunque es algo más que
esto: es un método que permite comparar varias medias en diversas
situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna
manera, es la base del análisis multivariante.
http://www.hrc.es/bioest/Anova_1.html [28/12/2002 19:03:14]

Bases del análisis de la varianza
Supónganse k muestras aleatorias independientes, de tamaño n, extraídas de

una única población normal. A partir de ellas existen dos maneras
independientes de estimar la varianza de la población σ2:
1) Una llamada varianza dentro de los grupos (ya que sólo contribuye a ella la
varianza dentro de las muestras), o varianza de error, o cuadrados medios del
error, y habitualmente representada por MSE (Mean Square Error) o MSW
(Mean Square Within) que se calcula como la media de las k varianzas
muestrales (cada varianza muestral es un estimador centrado de σ2 y la media
de k estimadores centrados es también un estimador centrado y más eficiente
que todos ellos). MSE es un cociente: al numerador se le llama suma de
cuadrados del error y se representa por SSE y al denominador grados de
libertad por ser los términos independientes de la suma de cuadrados.
2) Otra llamada varianza entre grupos (sólo contribuye a ella la varianza entre
las distintas muestras), o varianza de los tratamientos, o cuadrados medios de
los tratamientos y representada por MSA o MSB (Mean Square Between). Se
calcula a partir de la varianza de las medias muestrales y es también un
cociente; al numerador se le llama suma de cuadrados de los tratamientos (se le
representa por SSA) y al denominador (k-1) grados de libertad.
MSA y MSE, estiman la varianza poblacional en la hipótesis de que las k

muestras provengan de la misma población. La distribución muestral del
cociente de dos estimaciones independientes de la varianza de una población
normal es una F con los grados de libertad correspondientes al numerador y
denominador respectivamente, por lo tanto se puede contrastar dicha hipótesis
usando esa distribución.
Si en base a este contraste se rechaza la hipótesis de que MSE y MSA estimen

la misma varianza, se puede rechazar la hipótesis de que las k medias
provengan de una misma población.
Aceptando que las muestras provengan de poblaciones con la misma varianza,

este rechazo implica que las medias poblacionales son distintas, de modo que
con un único contraste se contrasta la igualdad de k medias.
Existe una tercera manera de estimar la varianza de la población, aunque no es

independiente de las anteriores. Si se consideran las kn observaciones como
una única muestra, su varianza muestral también es un estimador centrado de
σ2:
Se suele representar por MST, se le denomina varianza total o cuadrados

medios totales, es también un cociente y al numerador se le llama suma de
http://www.hrc.es/bioest/Anova_2.html (1 of 2) [28/12/2002 19:04:11]

cuadrados total y se representa por SST, y el denominador (kn -1) grados de

libertad.
Los resultados de un anova se suelen representar en una tabla como la

siguiente:
Fuente de variación G.L. SS MS F

Entre grupos k-1 SSA SSA/(k-1) MSA/MSE
Tratamientos
Dentro (n-1)k SSE SSE/k(n-1)
Error
Total kn-1 SST
Y el cociente F se usa para realizar el contraste de la hipótesis de medias

iguales. La región crítica para dicho contraste es F > Fα(k-1,(n-1)k)

Algunasd propiedades de la tabla de anova
Algunas propiedades
Es fácil ver en la tabla anterior que
GLerror+ GLtrata = (n - 1) k + k - 1 = nk - k + k - 1 = nk - 1 = GLtotal
No es tan inmediato, pero las sumas de cuadrados cumplen la misma

propiedad, llamada identidad o propiedad aditiva de la suma de cuadrados:
SST = SSA + SSE
El análisis de la varianza se puede realizar con tamaños muestrales iguales o

distintos, sin embargo es recomendable iguales tamaños por dos motivos:
1) La F es insensible a pequeñas variaciones en la asunción de igual

varianza, si el tamaño es igual.
2) Igual tamaño minimiza la probabilidad de error tipo II.

Ejemplo de anova
Ejemplo 1
Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la

hipertensión arterial, comparándola con la de una dieta sin sal. Para ello
se seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en
5 grupos. Al primero de ellos no se le suministra ningún tratamiento, al
segundo una dieta con un contenido pobre en sal, al tercero una dieta sin
sal, al cuarto el fármaco a una dosis determinada y al quinto el mismo
fármaco a otra dosis. Las presiones arteriales sistólicas de los 25 sujetos
al finalizar los tratamientos son:
Grupo
1 2 3 4 5
180 172 163 158 147
173 158 170 146 152
175 167 158 160 143
182 160 162 171 155
181 175 170 155 160
La tabla de anova es:
Fuente de variación GL SS MS F
Tratamiento 4 2010,64 502,66 11,24
Error 20 894,4 44,72
Total 24 2905,04
Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hipótesis nula y concluimos

que los resultados de los tratamientos son diferentes.
Nota: Para hacerlo con un paquete estadístico, p.e. el SPSS, deberíamos crear
un archivo con 2 variables: Trata (con un código distinto para cada grupo, p.e.
de 1 a 5) y Presion con la presión arterial de cada individuo al acabar el estudio.
Para calcular el Anova desplegamos los menús que se ven en la gráfica:

Ejemplo de anova
La tabla de anova que devuelve el programa es
que incluye también el “valor p” asociado al contraste.

Pruebas para la homocesdasticidad
Pruebas para la homocedasticidad
Para que este contraste de hipótesis, basado en la F, lo sea de la igualdad de

medias es necesario que todas las muestras provengan de una población con la
misma varianza (σ2), de la que MSE y MSA son estimadores. Por lo tanto es
necesario comprobarlo antes de realizar el contraste. Del mismo modo que no
se puede usar repetidamente la prueba basada en la en la t para comparar más
de dos medias, tampoco se puede usar la prueba basada en la F para comparar
más de dos varianzas. La prueba más usada para contrastar si varias muestras
son homocedásticas (tiene la misma varianza) es la prueba de Bartlett.
La prueba se basa en que, en la hipótesis nula de igualdad de varianzas y

poblaciones normales, un estadístico calculado a partir de las varianzas
muestrales y MSE sigue una distribución
Otras pruebas para contrastar la homocedasticidad de varias muestras son la de

Cochran y la de la F del cociente máximo, ambas similares y de cálculo más
sencillo pero restringidas al caso de iguales tamaños muestrales. La de Cochran
es particularmente útil para detectar si una varianza es mucho mayor que las
otras
En el caso de que las muestras no sean homocedásticas, no se puede, en

principio, realizar el análisis de la varianza.
Existen, sin embargo, soluciones alternativas: Sokal y Rohlf describen una

prueba aproximada, basada en unas modificaciones de las fórmulas originales.
Hay situaciones en que la heterocedasticidad es debida a falta de normalidad.

En estos casos existen transformaciones de los datos que estabilizan la
varianza: la raíz cuadrada en el caso de Poisson, el arco seno de la raíz
cuadrada de p para la binomial, el logaritmo cuando la desviación estándar es
proporcional a la media.
En la práctica, si las pruebas de homocedasticidad obligan a rechazar la

hipótesis nula, se prueba si con alguna de estas transformaciones los datos son
homocedásticos, en cuyo caso se realiza el anova con los datos transformados.
Hay que tener en cuenta que estas pruebas van "al reves" de lo habitual. La
hipótesis nula es lo que se quiere probar, en consecuencia hay que usarlas con
precaución.

Modelos de análisis de la varianza
Modelos de análisis de la varianza
El anova permite distinguir dos modelos para la hipótesis alternativa:
modelo I o de efectos fijos en el que la H1 supone que las k muestras son

muestras de k poblaciones distintas y fijas.
modelo II o de efectos aleatorios en el que se supone que las k muestras, se

han seleccionado aleatoriamente de un conjunto de m>k poblaciones.
Un ejemplo de modelo I de anova es el Ejemplo 1, porque en él se asume que

existen cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de
las que se han extraído las muestras.
Un ejemplo de modelo II sería: un investigador está interesado en determinar el

contenido, y sus variaciones, de grasas en las células hepáticas de cobayas;
toma del animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias
hepáticas.
La manera más sencilla de distinguir entre ambos modelos es pensar que, si se

repitiera el estudio un tiempo después, en un modelo I las muestras serían
iguales (no los individuos que las forman) es decir corresponderían a la misma
situación, mientras que en un modelo II las muestras serían distintas.
Aunque las asunciones iniciales y los propósitos de ambos modelos son

diferentes, los cálculos y las pruebas de significación son los mismos y sólo
difieren en la interpretación y en algunas pruebas de hipótesis suplementarias.

Modelo I de análisis de la varianza
Modelo I o de efectos fijos
Un valor individual se puede escribir en este modelo como
µ es la media global, αi es la constante del efecto, o efecto fijo, que diferencia a

las k poblaciones. También se puede escribir:
representa la desviación de la observación j-ésima de la muestra i-ésima,

con respecto a su media. A este término se le suele llamar error aleatorio y,
teniendo en cuenta las asunciones iniciales del análisis de la varianza son k
variables (una para cada muestra), todas con una distribución normal de media
0 y varianza σ2.
La hipótesis nula en este análisis es que todas las medias son iguales
que puede escribirse en términos del modelo como:
Como en H0 se cumplen las condiciones del apartado anterior se tratará de ver

como se modifican las estimaciones de la varianza en H1.
En H0 MSA y MSE son estimadores centrados de σ2, es decir y usando el

superíndice 0 para indicar el valor de las variables en H0
E[MSA0] = σ2
E[MSE0] = σ2
Se puede ver que MSE es igual en la hipótesis nula que en la alternativa. Por lo
tanto:
E[MSE] = E[MSE0] = σ2
Sin embargo al valor esperado de MSA en la hipótesis alternativa se le añade un

término con respecto a su valor en la hipótesis nula
Al segundo sumando dividido por n se le llama componente de la varianza

añadida por el tratamiento, ya que tiene forma de varianza, aunque

Modelo I de análisis de la varianza
estrictamente no lo sea pues αi no es una variable aleatoria.
La situación, por lo tanto, es la siguiente: en H0, MSA y MSE estiman σ2; en H1,
MSE estima σ2 pero MSA estima . Contrastar la H0 es equivalente a
contrastar la existencia de la componente añadida o, lo que es lo mismo, que
MSE y MSA estimen, o no, la misma varianza.
El estadístico de contraste es F=MSA/MSE que, en la hipótesis nula, se

distribuye según una F con k - 1 y (n - 1)k grados de libertad. En caso de
rechazar la H0, MSA - MSE estima .

Modelo II de análisis de la varianza
Modelo II o de efectos aleatorios
En este modelo se asume que las k muestras son muestras aleatorias de k

situaciones distintas y aleatorias. De modo que un valor aislado Yij se puede
escribir como:
donde µ es la media global, εij son variables (una para cada muestra)
distribuidas normalmente, con media 0 y varianza σ2 (como en el modelo I) y A i
es una variable distribuida normalmente, independiente de las εij, con media 0 y
varianza .
La diferencia con respecto al modelo I es que en lugar de los efectos fijos αi

ahora se consideran efectos aleatorios Ai.
Igual que en el modelo I se encuentra que MSE no se modifica en la H1 y que al

valor esperado de MSA se le añade el término de componente añadida (que
aquí es una verdadera varianza ya que Ai es una variable aleatoria):
Para llegar a este resultado se utiliza la asunción de independencia entre Ai y εij

y es, por tanto, muy importante en el modelo y conviene verificar si es correcta
en cada caso. En el ejemplo de las cobayas significaría que las variaciones de
grasa en el hígado de cada cobaya son independientes de las variaciones entre
cobayas. Esta asunción se violaría si, por ejemplo, en el animalario existieran 2
cepas genéticas tales que en una de ellas la concentración de grasa en las
células hepáticas fuera mayor y más variable que en la otra.
Por tanto, en H0 tanto MSA como MSE estiman σ2, mientras que en H1, MSE
sigue estimando σ2 y MSA estima . La existencia de esta componente
añadida se contrasta con F=MSA/MSE y en caso afirmativo, la varianza de Ai se
estima como:

Pruebas "a posteriori"
Pruebas “a posteriori”
En general, en un modelo II el interés del investigador es averiguar si existe

componente añadida y en su caso estimarla.
Sin embargo, en un modelo I, lo que tiene interés son las diferencias entre los
distintos grupos.
En el Ejemplo 1, lo que interesa, una vez visto que la presión arterial media es
diferente para los cinco grupos, es, por ejemplo, estimar el efecto de la dieta sin
sal, α3 − α1, o el aumento del efecto de la segunda dosis del fármaco con
respecto a la primera dosis α5 – α4.
Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las
posibles hipótesis del tipo µi – µj = 0.
Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan
el rango (diferencia entre medias) de todos los pares de muestras como
estadístico y dicho rango debe superar un cierto valor llamado mínimo rango
significativo para considerar la diferencia significativa.
La principal diferencia con respecto a la t de Student radica en que usan MSE

como estimador de la varianza, es decir un estimador basado en todas las
muestras.
Una manera semigráfica habitual de representar los resultados es dibujar una

línea que una cada subconjunto de medias adyacentes entre las que no haya
diferencias significativas.
Para los datos del Ejemplo 1 la salida semigráfica para la prueba LSD de, por
ejemplo, el Statgraphics es

Pruebas "a posteriori"
que se interpreta como:

Los grupos 5 y 4 están unidos por una línea vertical de ‘X’ por tanto sus medias
no son diferentes entre sí y lo mismo los grupos 4, 3 y 2, mientras que la media
del grupo 1 es distinta de la de todos los demás.

Análisis de la varianza de dos vías
Análisis de la varianza de dos factores
Es un diseño de anova que permite estudiar simultáneamente los efectos de dos

fuentes de variación.
En el ejemplo 1, en el que se estudiaban diversos tratamientos para la hipertensión

arterial, se podría plantear que, quizás, la evolución de la misma fuera diferente
para los hombres y las mujeres, en cuyo caso, y si el número de hombres y
mujeres en cada muestra no fuera el mismo, podría ocurrir que una parte del efecto
atribuido a los tratamientos fuera debido al sexo.
En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no,

diferencia en la evolución según el sexo. En un anova de dos vías se clasifica a los
individuos de acuerdo a dos factores (o vías) para estudiar simultáneamente sus
efectos. En este ejemplo se harían cinco grupos de tratamiento para los hombres y
otros cinco para las mujeres, en total diez grupos; en general, si el primer factor
tiene a niveles y el segundo tiene b, se tendrán ab muestras o unidades
experimentales, cada una con n individuos o repeticiones.
Una observación individual se representa como:
El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo
factor y el tercero la observación dentro de la muestra. Los factores pueden ser
ambos de efectos fijos (se habla entonces de modelo I), de efectos aleatorios
(modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El
modelo matemático de este análisis es:
modelo I
modelo II
modelo mixto
donde µ es la media global, αi o Ai el efecto del nivel i del 1º factor, βj o Bj el efecto

del nivel j del 2º factor y εijk las desviaciones aleatorias alrededor de las medias,
que también se asume que están normalmente distribuidas, son independientes y
tienen media 0 y varianza σ2.
A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo

añade la de aditividad de los efectos de los factores.
A los términos (αβ)ij, (AB)ij, (αB)ij, se les denomina interacción entre ambos factores

y representan el hecho de que el efecto de un determinado nivel de un factor sea

diferente para cada nivel del otro factor.
Para entender mejor este concepto de interacción veamos un ejemplo sencillo

sobre un anova de dos factores, cada uno con dos niveles: supóngase un estudio
para analizar el efecto de un somnífero teniendo en cuenta el sexo de los sujetos.
Se eligen al azar dos grupos de hombres y otros dos de mujeres. A un grupo de
hombres y otro de mujeres se les suministra un placebo y a los otros grupos el
somnífero. Se mide el efecto por el tiempo que los sujetos tardan en dormirse desde
el suministro de la píldora.
Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos
niveles (hombre y mujer para el sexo y somnífero y placebo para el fármaco). Los
dos tipos de resultados posibles se esquematizan en la figura
A B
En la figura A se observa que las mujeres tardan más en dormirse, tanto en el grupo
tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con
placebo tardan más en dormirse que los tratados con somnífero en ambos sexos
(hay un efecto del tratamiento). Ambos efectos son fácilmente observables.
Sin embargo en la figura B es difícil cuantificar el efecto del somnífero pues es

distinto en ambos sexos y, simétricamente, es difícil cuantificar el efecto del sexo
pues es distinto en ambos grupos de tratamiento. En este caso, se dice que existe
interacción.
Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los
distintos niveles del otro, es decir, que las mujeres se durmieran antes con el
somnífero y los hombres antes con el placebo.
La interacción indica, por tanto, que los efectos de ambos factores no son aditivos:
cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando
están por separado, por lo que, si en un determinado estudio se encuentra
interacción entre dos factores, no tiene sentido estimar los efectos de los
factores por separado. A la interacción positiva, es decir, cuando el efecto de los
factores actuando juntos es mayor que la suma de efectos actuando por separado,
en Biología se le denomina sinergia o potenciación y a la interacción negativa
inhibición. En el ejemplo de la figura B, se diría que el ser mujer inhibe el efecto del
somnífero, o que el ser hombre lo potencia (según el sexo que se tome como

referencia).

Identidad de la suma de cuadrados
La suma de cuadrados total en un anova de 2 vías, es:
(donde para representar las medias se ha usado la convención habitual de

poner un punto (.) en el lugar del subíndice con respecto al que se ha sumado)
que dividida por sus grados de libertad, abn - 1, estima la varianza σ2 en el
supuesto de que las ab muestras provengan de una única población.
Se puede demostrar que
que es la llamada identidad de la suma de cuadrados en un anova de dos

factores. Los sucesivos sumandos reciben respectivamente el nombre de suma
de cuadrados del 1º factor (tiene a -1 grados de libertad y recoge la variabilidad
de los datos debida exclusivamente al 1º factor), del 2º factor (con b -1 grados
de libertad y recoge la variabilidad de los datos debida exclusivamente al 2º
factor), de la interacción (con (a - 1)(b - 1) grados de libertad, recoge la
variabilidad debida a la interacción) y del error (con ab(n - 1) grados de libertad,
recoge la variabilidad de los datos alrededor de las medias de cada muestra).
Los resultados de un análisis de la varianza de dos factores se suelen

representar en una tabla como la siguiente:
Fuente de variación GL SS MS
1º factor a -1 SSA SSA/(a - 1)
2º factor b-1 SSB SSB/(b - 1)
Interacción (a - 1)(b - 1) SSAB SSAB/[(a - 1)(b - 1)]
Error ab(n - 1) SSE SSE/[ab(n - 1)]
Total abn - 1 SST
Los grados de libertad también son aditivos.
En ocasiones se añade una primera línea llamada de tratamiento o de

subgrupos cuyos grados de libertad y suma de cuadrados son las sumas de los
del primer, segundo factor y la interacción, que corresponderían a la suma de
cuadrados y grados de libertad del tratamiento de un análisis de una vía en que
las ab muestras se considerarán como muestras de una clasificación única.

Para plantear los contrastes de hipótesis hay que calcular los valores esperados de
los distintos cuadrados medios.

Contrastes de hipótesis en anova de 2 vías
Contrates de hipótesis en un análisis de

la varianza de dos factores
Del mismo modo que se hizo en el anova de una vía, para plantear los contrastes
de hipótesis habrá que calcular los valores esperados de los distintos cuadrados
medios. Los resultados son:
Modelo I
MS Valor esperado
MSA
MSB
MSAB
MSE
Por lo tanto, los estadísticos MSAB/MSE, MSA/MSE y MSB/MSE se distribuyen

como una F con los grados de libertad correspondientes y permiten contrastar,
respectivamente, las hipótesis:
i) no existe interacción (MSAB/MSE)
ii) no existe efecto del primer factor, es decir, diferencias entre niveles del primer
factor (MSA/MSE)
iii) no existe efecto del segundo factor (MSB/MSE)

Contrastes de hipótesis en anova de 2 vías
Si se rechaza la primera hipótesis de no interacción, no tiene sentido contrastar

las siguientes. En este caso lo que está indicado es realizar un análisis de una
vía entre las ab combinaciones de tratamientos para encontrar la mejor
combinación de los mismos.

Contrastes de hipótesis en un anova de 2 vías modelo II
Contraste de hipótesis en un anova de 2

vías
Modelo II
MS Valor esperado
MSA
MSB
MSAB
MSE
donde son, respectivamente las componentes añadidas por el

primer factor, por el segundo y por la interacción, que tienen la misma forma que
los del modelo I, sin más que cambiar αi y βj por Ai y Bj, respectivamente.
La interacción se contrasta, como en el modelo I, con MSAB/MSE, si se rechaza

la hipótesis nula se contrastarían cada uno de los factores con MSA/MSAB y
MSB/MSAB.
En un modelo II, como no se está interesado en estimar los efectos de los

factores sino sólo la existencia de la componente añadida, sí tiene sentido
contrastar la existencia de la misma para cada factor incluso aunque exista
interacción.
Aquí el problema se plantea cuando no se puede rechazar la hipótesis nula y se

concluye que no existe interacción: entonces tanto MSE como MSAB estiman
σ2, entonces ¿cuál se elige para contrastar la componente añadida de los
factores?
En principio, parece razonable escoger su media (la media de varios

estimadores centrados es también un estimador centrado y más eficiente), sin
embargo si se elige MSAB se independiza el contraste para los factores de un
posible error tipo II en el contraste para la interacción. Hay autores que por ello
opinan que es mejor usar MSAB, pero otros proponen promediar si se puede
asegurar baja la probabilidad para el error tipo II. La media de los cuadrados
medios se calcula dividiendo la suma de las sumas de cuadrados por la suma
de los grados de libertad.

Ejemplo
A partir de la siguiente tabla de un anova de 2 factores modelo II, realizar los

contrastes adecuados.
Fuente de G.L. SS MS
variación
1º factor 4 315,8 78,95
2º factor 3 823,5 274,5
Interacción 12 328,9 27,41
Error 100 2308,0 23,08
Total 119 3776,2
Se empezaría contrastando la existencia de interacción: f = 27,41/23,08 = 1,188

como F0,05(12,100) = 1,849 no se puede, al nivel de significación del 95%,
rechazar la hipótesis nula y se concluye que no existe interacción.
Si usamos MSAB para contrastar los factores:
1º factor: f = 78,95/27,41 = 2,880 como F0,05(4,12) = 3,26 no se rechaza la

hipótesis nula y se concluye la no existencia de componente añadida por este
factor.
2º factor: f = 274,5/27,41 = 10,015 como F0,05(3,12) = 3,49 se rechaza la

hipótesis nula y se acepta la existencia de componente añadida por este factor.
El resultado del análisis es: no existe componente añadida por la interacción,

tampoco por el 1º factor y sí existe componente añadida por el 2º.
La estimación de esta componente es: como a partir de los grados de libertad de

la tabla podemos calcular a = 5, b = 4 y n = 6 resulta que la estimación de
es 274,5 - 27,41 = 247,09; por lo tanto que
representa un 35,7% de componente añadida por el segundo factor.
Si se hubiera optado por promediar, los cuadrados medios promediados son

(328,9+2308,0)/(12+100)=
23,54 con 112 grados de libertad y hubiera resultado significativo también el 1º
factor.
La salida de un paquete estadístico, p.e. el Statgraphics, para un anova de 2

factores modelo II


Contrastes de hipótesis en un anova de 2 vías (modelo mixto)
Contrastes de hipótesis en un anova de

dos vías
Modelo mixto
Supóngase el primer factor de efectos fijos y el segundo de efectos aleatorios, lo

que no supone ninguna perdida de generalidad, ya que el orden de los factores es
arbitrario.
MS Valor esperado
MSA
MSB
MSAB
MSE
Se contrastan la interacción y el factor aleatorio con el término de error, si la

interacción fuera significativa no tiene sentido contrastar el efecto fijo y si no lo
fuera, el efecto fijo se contrasta con el término de interacción o con el promedio
de interacción y error.

Ejemplo
Ejemplo
Se quiere probar la eficacia de un somnífero estudiando posibles diferencias de

la misma por el sexo de los sujetos. Se eligen al azar dos grupos de insomnes
varones y otros dos de mujeres y tanto para los hombres como para las mujeres
se suministra a un grupo el somnífero y a otro un placebo y se mide, en minutos,
el tiempo que tardan en dormirse.
Los resultados son:
Placebo Somnífero
30 35
50 32
45 30 Hombre
47 25
38 30
50 42
35 30
46 15 Mujer
25 18
32 23
Se trata de un anova de dos factores fijos. Llamamos primer factor a la droga

que tiene dos niveles: placebo y somnífero. El segundo factor es el sexo
también con 2 niveles: hombres y mujeres. El tamaño de las muestras es n=5.
La tabla de anova es:
Fuente de GL SS MS
variación
Somnífero 1 696,2 696,2
Sexo 1 105,8 105,8
Interacción 1 0,2 0,2
Error 16 1197,6 74,85
Total 19 1999,8
Se empieza contrastando la interacción: f = 0,2/74,85 = 0,0026 que como es

menor que F0,05(1,16)=4,49 no se rechaza la hipótesis nula de que no existe
interacción.
A continuación se contrastan los factores: para el somnífero f = 696,2/74,85 =

9,3 que es mayor que 4,49 por lo tanto existe efecto del somnífero y para el

Ejemplo
sexo f = 105,8/74,85 = 1,41 que como es menor que 4,49 no existe diferencias
entre los sexos.
La estimación del efecto del somnífero será la diferencia entre las medias de los
que lo toman y los que tomaron placebo, sin tener en cuenta el sexo, una vez
que se ha visto que no tiene efecto.
Para analizarlo con un paquete estadístico, p.e. el Statgraphics, se necesita crear

un archivo con tres variables
y el resultado, pidiendo la tabla de anova

Ejemplo
y la tabla de medias
Por tanto la estimación del efecto del somnifero es 39,8 - 28,0=11,8 min

Tamaños muestrales desiguales en un anova de dos factores
Tamaños muestrales desiguales en un anova de dos factores
Aunque los paquetes estadísticos suelen hacer el anova de dos factores, tanto
en el caso de tamaños muestrales iguales como desiguales, conviene resaltar
que el análisis es bastante más complicado en el caso de tamaños desiguales.
La complicación se debe a que con tamaños desiguales hay que ponderar las
sumas de cuadrados de los factores con los tamaños muestrales y no resultan
ortogonales (su suma no es la suma de cuadrados total) lo que complica no sólo
los cálculos sino también los contrastes de hipótesis.
Por esto, cuando se diseña un análisis factorial de la varianza se recomienda

diseñarlo con tamaños iguales. Hay ocasiones en que, sin embargo, por la
dificultad de obtener los datos o por pérdida de alguno de ellos es inevitable
recurrir al análisis con tamaños desiguales. Algunos autores recomiendan,
incluso, renunciar a alguno de los datos para conseguir que todas las muestras
tengan el mismo tamaño. Evidentemente esta solución es delicada pues podría
afectar a la aleatoriedad de las muestras.

Casos particulares de anova
Casos particulares: Anova de dos factores sin repetición
En ciertos estudios en que los datos son difíciles de obtener o presentan muy
poca variabilidad dentro de cada subgrupo es posible plantearse un anova sin
repetición, es decir, en el que en cada muestra sólo hay una observación (n=1).
Hay que tener en cuenta que, como era de esperar con este diseño, no se
puede calcular SSE. El término de interacción recibe el nombre de residuo y
que, como no se puede calcular MSE, no se puede contrastar la hipótesis de
existencia de interacción.
Esto último implica también que:
a) en un modelo I, para poder contrastar las hipótesis de existencia de efectos

de los factores no debe haber interacción (si hubiera interacción no tenemos
término adecuado para realizar el contraste).
b) en un modelo mixto existe el mismo problema para el factor fijo.
Bloques completos aleatorios
Otro diseño muy frecuente de anova es el denominado de bloques completos

aleatorios diseñado inicialmente para experimentos agrícolas pero actualmente
muy extendido en otros campos. Puede considerarse como un caso particular
de un anova de dos factores sin repetición o como una extensión al caso de k
muestras de la comparación de medias de dos muestras emparejadas. Se trata
de comparar k muestras emparejadas con respecto a otra variable cuyos efectos
se quieren eliminar.
Por ejemplo, en un ensayo clínico para comparar los efectos de dos analgésicos
y un placebo en el que el efecto se mide por el tiempo que tarda en desaparecer
una cefalea. Si se hicieran tres grupos de enfermos y a cada uno de ellos se le
suministrara un tratamiento distinto, habría una gran variación individual en las
respuestas, debido a que no todas las cefaleas son de la misma intensidad y no
todos los individuos tienen la misma percepción del dolor, que dificultaría el
hallazgo de diferencias entre los tratamientos. Esta dificultad desaparece si se
aplican los tres tratamientos a los mismos individuos en diferentes episodios de
cefalea. Se ha emparejado a cada individuo consigo mismo, con lo que se
elimina la variación individual.
En este diseño a los datos de cada individuo se les denomina bloque y los datos
se representan en una tabla de doble entrada análoga a la del anova de
clasificación única en la que las a columnas son los tratamientos y las b filas los
bloques, el elemento Yij de la tabla corresponde al tratamiento i y al bloque j. Las
hipótesis que se pueden plantear son:
(igualdad
de medias de tratamientos)

Casos particulares de anova
y también, aunque generalmente tiene menos interés:
(igualdad
de medias de bloques)
A pesar del parecido con la clasificación única, el diseño es diferente: allí las
columnas eran muestras independientes y aquí no. Realmente es un diseño de
dos factores, uno de efectos fijos: los tratamientos, y el otro de efectos
aleatorios: los bloques, y sin repetición: para cada bloque y tratamiento sólo hay
una muestra.
El modelo aquí es:
donde αi es el efecto del tratamiento i y Bj el del bloque j. No hay término de

interacción ya que, al no poder contrastar su existencia no tiene interés. Al ser
un modelo mixto exige la asunción de no existencia de interacción y los
contrastes se hacen usando el término MSE como divisor.

Ejemplo de anova de bloques completos aleatorios
Ejemplo 3
En el ensayo clínico de los analgésicos descrito anteriormente se encuentran los

siguientes resultados:
Placebo Analgésico A Analgésico B

35 20 22
40 35 42
60 50 30
50 40 35
50 30 22
La tabla de anova correspondiente:
Fuente de variación G.L. SS MS

Analgésico 2 748,8 374,4
(tratamiento)
Paciente (bloque) 4 767,6 191,9
Error 8 409,2 51,15
Total 14 1925,6
Los contrastes de hipótesis se hacen:
para el analgésico f=374,4/51,15=7,32 que como es mayor que F0,05(2,8)=4,46

existe un efecto del tratamiento.
para los bloques f=191,9/51,15=3,75 que es menor que F0,05(4,8)=3,84 por tanto
no hay componente añadida por los pacientes.
El archivo para analizarlo con en un paquete estadístisco

y el resultado


Anova de más de dos factores
Análisis de la varianza de más de dos factores
Es una generalización del de dos factores. El procedimiento, por lo tanto, será:
1) encontrar el modelo, teniendo en cuenta si los factores son fijos o aleatorios y

todos los términos de interacción.
2) subdividir la suma de cuadrados total en tantos términos ortogonales como

tenga el modelo y estudiar los valores esperados de los cuadrados medios para
encontrar los estadísticos que permitan realizar los contrastes de hipótesis.
Un modelo de tres factores fijos, por ejemplo, será:
Los tres primeros subíndices para los factores y el cuarto para las repeticiones,
nótese que aparecen términos de interacción de segundo y tercer orden, en
general en un modelo de k factores aparecen términos de interacción de orden
2, 3,... hasta k y el número de términos de interacción de orden n será el número
combinatorio Ck;n. Este gran número de términos de interacción dificulta el
análisis de más de dos factores, ya que son difíciles de interpretar y complican
los valores esperados de los cuadrados medios por lo que también resulta difícil
encontrar los estadísticos para los contrastes. Por estas razones no se suele
emplear este tipo de análisis y cuando interesa estudiar varios factores a la vez
se recurre a otros métodos de análisis multivariante.

Correlacion y modelos de regresion lineal
CORRELACION Y MODELOS DE REGRESION LINEAL
V. Abraira
Bibliografía:

D.G. Kleinbaum, L.L. Kupper, K.E. Muller

Applied Regression Analysis and Other Multivariables Methods.
PWS-KENT Publishing Company. 1988.
Generalización del concepto de fdp a variables multidimensionales
La función densidad de probabilidad (fdp) para una variable aleatoria es una

función a partir de la cual se puede calcular la probabilidad de los distintos
valores de la variable.
En el caso discreto:
en el caso continuo:
Esto se puede generalizar a más de una variable. Para n variables aleatorias X1,
X2, ..., Xn se llama fdp conjunta a una función n-dimensional f(x1,x2,...,xn) a partir
de la cual se puede calcular la probabilidad de los distintos valores de las
variables.
En el caso discreto:
en el caso continuo:
Del mismo modo que en el caso unidimensional estas funciones están

sometidas a las condiciones:
http://www.hrc.es/bioest/Reglin_1.html (1 of 3) [28/12/2002 19:19:23]

discreta
continua
Ejemplo 1: En una cierta población se definen dos variables discretas: X1=

hipertensión arterial y X2= consumo excesivo de sal, ambas con los valores
0=no y 1=sí. La fdp conjunta podría ser
X1
X2 0 1
0 0,4 0,1
1 0,3 0,2
f(0,0)=0,4 quiere decir que la probabilidad de que un individuo no sea hipertenso

(X1=0) y no tenga un consumo excesivo de sal (X2=0) es 0,4. Obsérvese que la
suma de los valores de la fdp es 1.
A partir de esta fdp se puede calcular p.e. la probabilidad de que un individuo

sea hipertenso como 0,1+0,2=0,3.
En general dada una fdp conjunta (para simplificar la notación consideremos

sólo dos variables X e Y) se pueden calcular las denominadas fdp marginales
como
Caso discreto
Caso continuo
y simétricamente para la variable Y.
En el ejemplo anterior:
X1

X2 0 1 f2(X2)
0 0,4 0,1 0,5
1 0,3 0,2 0,5
f1(X1) 0,7 0,3
Se definen también las fdp condicionadas
que permiten calcular las respectivas probabilidades condicionadas.
En el ejemplo anterior se puede construir, p.e., la fdp de la hipertensión (X1)

condicionada al consumo no excesivo de sal (X2=0).
X1
0 0,4/0,5=0,8
1 0,1/0,5=0,2
Obsérvese que como esto es una fdp, la suma de sus valores debe ser 1.
0,8 es la probabilidad de que un individuo no sea hipertenso dado que no tiene

un consumo excesivo de sal.

Independencia de dos variables aleatorias
Dos v.a. X e Y se dice que son estocásticamente independientes si y sólo si

f(x,y)=f1(x).f2(y). En caso contrario se dice que están correlacionadas.
¿Son independientes las variables del ejemplo anterior? Como f1(0)=0,7 y

f2(0)=0,5 f1(0). f2(0)=0,35 no es igual a f(0,0)=0,4 no son independientes.
Según la definición de fdp condicionada, si X e Y son independientes
que coincide más con la idea intuitiva de independencia.
¿Cuándo diríamos que la hipertensión es independiente del consumo de sal?

Cuando la probabilidad de ser hipertenso es la misma en los consumidores de
sal: f(x1|X2=1), en los no consumidores: f(x1|X2=0) y en la población general:
f1(x1).
En el ejemplo, la probabilidad de ser hipertenso en la población general

f1(1)=0,3 y en los consumidores de sal f(X1=1|X2=1)=0,2/0,5=0,4 por lo tanto
tampoco son independientes desde esta perspectiva (evidentemente, ya que
ambas son equivalentes).
Diríamos que el consumo de sal y la hipertensión están correlacionados o

asociados, o que la hipertensión depende del consumo de sal o, en terminología
epidemiológica, que el consumo de sal es un factor de riesgo para la
hipertensión. En cualquier caso, la correlación no implica dependencia causal.
El problema, en la práctica, es que no se suelen conocer las fdp's. A partir de

una muestra sólo se puede obtener una estimación de la misma, además
también se desean obtener estimaciones de la fuerza de la asociación.
Los modelos de regresión son modelos matemáticos de dependencia entre

variables que permiten resolver ambos problemas. Hay tantos modelos como
funciones matemáticas de dependencia se puedan concebir, los más usados
son lineal, polinómico, logístico, de Poisson, ...
http://www.hrc.es/bioest/Reglin_3.html [28/12/2002 19:20:10]

Modelo lineal
Función lineal
Se llama función lineal de una

variable, a una función de la
forma
α0: ordenada en el origen (valor

de Y cuando X=0)
α1: pendiente (cambio de Y al

aumentar X en 1)
Modelo de regresión lineal simple
Es un modelo de regresión lineal entre dos variables
es un modelo probabilístico, que también se puede escribir
A la variable Y se la denomina variable dependiente y a X independiente.
Modelo I de regresión lineal se asume que
i) X no es una variable aleatoria
ii) para cada valor xi de X existe

una v.a. Y|xi cuya media está
dada por el modelo
iii) todas las variables Y|xi son

normales, independientes y con
igual varianza.
Ejemplo 2: Se quiere estudiar la asociación entre consumo de sal y tensión arterial.

A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se
mide su tensión arterial un tiempo después.
Variable X: gr. de sal diarios (no aleatoria)

Variable Y: presión arterial en mm. de Hg

Modelo lineal
asumimos que para cada valor de X, Y no está determinada, sino que sigue una
distribución normal cuya media está dada por el modelo:
α0 presión arterial media de los que no toman nada de sal.

α1 cambio de la media de presión arterial por aumentar 1 gr el consumo de sal,
asumiendo que es constante. Si fuera 0, quiere decir que la presión no cambia con
el consumo de sal, por tanto ambas variables son independientes, un valor distinto
de cero indica que están correlacionadas y su magnitud mide la fuerza de la
asociación.
A partir de una muestra aleatoria, la teoría estadística permite:

i) estimar los coeficientes αi del modelo (hay dos procedimientos: mínimos
cuadrados y máxima verosimilitud que dan el mismo resultado).
ii) estimar la varianza de las variables Y|xi llamada cuadrados medios del error y
representada por s2 o MSE. A su raíz cuadrada se le llama error estándar de la
estimación.
iii) conocer la distribución muestral de los coeficientes estimados, tanto su forma (t)
como su error estándar, que permite hacer estimación por intervalos como
contrastes de hipótesis sobre ellos.
Ejemplo 3: Para el diseño del ejemplo 2 una muestra produce los siguientes datos:
X (sal) Y (Presión)
1,8 100
2,2 98
3,5 110
4,0 110
4,3 112
5,0 120
La "salida" de un paquete estadístico es:

Modelo lineal
86,371 presión arterial media sin nada de sal.

6,335 aumento de presión por cada gr de sal; como es distinto de 0 indica
correlación. La pregunta es ¿podría ser 0 en la población? En términos de
contrastes de hipótesis
H0 : α 1=0
H1 : α1≠0
según iii)
aquí t=7,546 con un valor p=0,002
se rechaza H0.
Para hacer estimación por intervalos de la fuerza de la asociación o el efecto
en este ejemplo para α1 al 95%
6,335±2,776x0,840=(4,004 8,666)
y del mismo modo se ha calculado en la salida anterior, aunque en general tiene

menos interés, para α0

Interpretación del contraste
Interpretación del contraste α1=0
Si no se puede rechazar esta hipótesis, puede ocurrir que:

i) el modelo sea inapropiado, bien porque las variables son independientes, bien porque la
dependencia no sea lineal. Hay que investigar otros modelos.
ii) se cometa error tipo II, el modelo es adecuado, pero el tamaño de la muestra es insuficiente.
Hay que calcular la potencia.
Si se rechaza la hipótesis puede ocurrir que:

i) el modelo es adecuado
ii) se cometa error tipo I
iii) exista una relación no lineal, pero los datos son compatibles con un modelo lineal. Análisis
de residuos.
Inferencias sobre la regresión
A veces interesa hacer inferencias sobre la propia regresión, es decir sobre µY|xi para
cualquier valor de xi . Si a los valores xi de la muestra se les aplica la ecuación estimada, se
obtiene una estimación de µY|xi
cuya distribución muestral también es conocida. A veces se representan los intervalos de

confianza para la regresión en la denominada banda de confianza de la regresión. En la figura
se presenta la banda de confianza para los datos del ejemplo 3

Análisis de la varianza de la regresión
Es un modo alternativo de hacer contrastes sobre el coeficiente α1. Consiste en

descomponer la variación de la variable Y de dos componentes: uno la variación
de Y alrededor de los valores predichos por la regresión y otro con la variación de
los valores predichos alrededor de la media. Si no existe correlación ambos
estimadores estimarían la varianza de Y y si la hay, no. Comparando ambos
estimadores con la prueba de la F se contrasta la existencia de correlación. Para el
ejemplo 3
Observese que el valor de p es igual que antes (son contrastes equivalentes) y el

valor de F es el cuadrado del de t.
Ejemplo 4: Se quiere investigar el efecto de la ingestión masiva de vitamina C

sobre el hígado de las cobayas. Se eligen dos grupos de 4 cobayas, a uno se le
administra y al otro no. Se sacrifica a los animales y se mide la concentración de
lípidos en el hígado.
Grupo control Tratado

(=0) (=1)
23,8 13,8
15,4 9,3
21,7 17,2
18,0 15,1
¿Hay diferencia entre ambos grupos?
Se podría plantear un contraste sobre medias con la t de Student.

También se puede plantear un modelo de regresión entre la variable grupo (X=0

control y X=1 tratado) y la variable lípido (Y)
Interpretar los coeficientes ¿Qué es mejor?

Modelo II de regresion lineal
Modelo II de regresión lineal
Se asume que las variables X e Y son ambas variables aleatorias y que su fdp conjunta es
normal bivariante.
La normal bivariante es una extensión a

dos dimensiones de la normal univariante.
Su representación gráfica es una campana
tridimensional. Depende de 5 parámetros:
µx, µy, σx, σy y ρ que son respectivamente
las medias, las desviaciones típicas de X e
Y, y su coeficiente de correlación. Dicho
coeficiente se define como
Siendo el numerador la llamada covarianza
Las propiedades de la normal bivariante son:

i) las fdps marginales son ambas normales con medias µx, µy y desviaciones típicas σx, σy
respectivamente.
ii) las fdps condicionadas f(y|x) son también normales con medias y varianzas
obsérvese que la media depende linealmente de x, es decir, también se puede escribir
iii) simétricamente las fdps f(x|y)
A partir de una muestra aleatoria se pueden estimar los coeficientes por los mismos
procedimientos que en el modelo I y ¡¡se obtienen los mismos resultados!! Ahora, sin
embargo, también se obtiene un estimador para el coeficiente de correlación (la "famosa"
r) que no tiene sentido en el modelo I.

Propiedades del coeficiente de correlación lineal
Propiedades del coeficiente de correlación
i) número sin dimensiones entre -1 y 1.

ii) si las variables son independientes ρ = 0. La inversa no es necesariamente
cierta, aunque si las variables son normales bivariantes sí.
iii) si las variables estuvieran relacionadas linealmente ρ=1
Un contraste que interesa realizar en un modelo II es H0: ρ=0. Como
este contraste es totalmente equivalente al realizado sobre dicho coeficiente,

aunque también hay tablas basadas en que una cierta transformación (de
Fisher) de r se distribuye aproximadamente como una normal.
¿Qué mide r?
Se puede demostrar una relación algebraica entre r y el análisis de la varianza

de la regresión de tal modo que su cuadrado (coeficiente de determinación) es
la proporción de variación de la variable Y debida a la regresión. En este
sentido, r2 mide el poder explicatorio del modelo lineal.
¿Qué no mide r?
- no mide la magnitud de la pendiente ("fuerza de la asociación")
- tampoco mide lo apropiado del modelo lineal

Potencia de los contrastes en regresión
Los contrastes se realizan en base al conocimiento de la distribución muestral

del estadístico usado. En el caso de la regresión, las distribuciones usadas son
la normal (para r) y la t de Student (para los coeficientes). Sólo para la normal es
fácil el cálculo de la potencia, pero sabemos que la t tiende asintóticamenta
(para muestras grandes (>30 en la práctica) a la normal. Usaremos esto.
1-β = p(rechazar Ho| Ho falsa)
Supongamos que
asumamos normalidad ¿qué potencia tiene el contraste si α1 fuera 5 (recordar

que se necesita concretar H1)?
¿Cuándo rechazamos H0 al 95%?
Cuando
en nuestro caso mayor que 4,92. Como no lo es, no rechazamos H0. Hay que
calcular la probabilidad de encontrar
si α1 fuera 5. Calculamos

y lo miramos en la tabla de la normal 1-β =0,512=51,2%.

Modelo de regresion múltiple
Modelo de regresión lineal múltiple
Las variables biológicas suelen presentar multicorrelaciones. P.e. para estudiar

el efecto del consumo de grasas saturadas en el nivel del colesterol en sangre,
se puede plantear un modelo de RLS, sin embargo el nivel de colesterol puede
depender también de otras variables: consumo de otras substancias, ejercicio
realizado, edad, factores metabólicos genéticos, etc.
Si, para cada valor del consumo de grasas, las demás variables se distribuyen
aleatoriamente, la estimación por RLS es adecuada y la variación "debida" a las
otras variables estaría incluida en la variación aleatoria alrededor de la
regresión, pero en caso contrario la estimación sería incorrecta, si p.e., las
costumbres dietéticas variaran con la edad y ésta influyera en el colesterol, una
parte no cuantificada de la variación del colesterol que el modelo atribuye al
consumo de grasas sería "debida" a la edad.
La regresión lineal múltiple (RLM) es un modelo que permite estudiar estos

efectos. El modelo es
α0 : media de Y cuando todas las Xi son cero (cuando no tiene sentido Xi=0, p.e.
edad, se interpreta como la media de Y que no depende de las Xi).
αi : cambio en la media de Y cuando Xi aumenta una unidad permaneciendo
constantes las demás.
Las asunciones del modelo son una generalización de las de RLS y dado el
resultado de RLS no vamos a distinguir entre modelo I y II.
La estimación de los coeficientes también se hace por mínimos cuadrados o

máxima verosimilitud y se obtienen los mismos resultados. Estos resultados,
usando notación matricial, son (incluyen como caso particular la RLS):
siendo la matriz columna de coeficientes estimados, Y la matriz columna de

observaciones de la variable dependiente y X la denominada matriz de diseño
es decir la matriz de datos con una primera columna de 1's. Estos coeficientes

Modelo de regresion múltiple
se distribuyen como una normal multivariante cuya matriz de medias son los
verdaderos coeficientes y matriz de varianzas-covarianzas
un buen estimador de σ2 es
que se distribuye como una χ2 con n - (k+1) grados de libertad.
Estas fórmulas ponen de manifiesto unas limitaciones al resolver estos modelos.

Para ello hay que invertir una matriz y no todas las matrices pueden invertirse
(singulares). En dos situaciones no se puede:
1. El número de observaciones (n), es menor o igual que el número de

variables independientes (k).
2. Una variable independiente es combinación lineal de otra(s) o constante
(colinealidad ).

Estimación y contrastes de hipótesis en modelos de regresion lineal
Estimación y contrastes de hipótesis:
Usando la teoría resumida en el apartado anterior, los intervalos de confianza

para los coeficientes se construyen igual que en RLS.
y los contrastes de hipótesis
H0: αI = 0
H1: αi ≠ 0
se realizan con el estadístico
Ejemplo 5
Dada una muestra hipotética de 20 pacientes en los que se ha recogido los

siguientes datos: nivel de colesterol en plasma sanguíneo (en mg/100 ml), edad
(en años), consumo de grasas saturadas (en gr/semana) y nivel de ejercicio
(cuantificado como 0: ningún ejercicio, 1: ejercicio moderado y 2: ejercicio
intenso), realizar el ajuste a un modelo lineal entre el nivel de colesterol y las
demás variables.
Tabla de datos
Paciente Colesterol Edad Grasas Ejerci.
1 350 80 35 0
2 190 30 40 2
3 263 42 15 1
4 320 50 20 0
5 280 45 35 0
6 198 35 50 1
7 232 18 70 1
8 320 32 40 0

Estimación y contrastes de hipótesis en modelos de regresion lineal
9 303 49 45 0
10 220 35 35 0
11 405 50 50 0
12 190 20 15 2
13 230 40 20 1
14 227 30 35 0
15 440 30 80 1
16 318 23 40 2
17 212 35 40 1
18 340 18 80 0
19 195 22 15 0
20 223 41 34 0
La salida del programa de ordenador es
Interpretemos esta "salida"

Anova de la regresión múltiple
De un modo similar a RLS se puede descomponer la variación de la variable Y de dos

componentes: uno la variación de Y alrededor de los valores predichos por la regresión y otro
con la variación de los valores predichos alrededor de la media. Si el modelo lineal no es
adecuado, ambos estimadores estimarían la varianza de Y y si es adecuado no. Comparando
ambos estimadores con la prueba de la F se contrasta lo adecuado del modelo. Para el
ejemplo 5
Obsérvese que, a diferencia de la RLS, este contraste no es equivalente al realizado sobre los
coeficientes.
Se define también el coeficiente de determinación como el cociente entre la suma de

cuadrados de la regresión y la suma de cuadrados total (R2 = SSR/SST) y a su raíz cuadrada
(R) se le denomina coeficiente de correlación múltiple.
Además de esta prueba global del modelo basada en el análisis de la varianza, se pueden
plantear pruebas parciales sobre si una variable, o un grupo de variables, añadidas a un
modelo previo lo mejoran.
Se tiene un modelo
y se añade una nueva variable X*, con el primer modelo se tiene una SSR(Y,X1,...,Xk) y con el
nuevo otra SSR(Y,X1,...,Xk,X*), la diferencia entre ambas será lo que ha mejorado la suma de
cuadrados por añadir la variable X* y tendrá 1 grado de libertad.
SSR(Y,X*|X1,...,Xk) = SSR(Y,X1,...,Xk,X*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) -

SSE(Y,X1,...,Xk,X*)
y el cociente
llamado F parcial, tendrá una distribución F con 1 y n-(k+2) grados de libertad en la hipótesis

nula de que la nueva variable X* no mejore el modelo. Evidentemente este contraste es

totalmente equivalente a contrastar que el coeficiente α* de la nueva variable es cero con la
prueba basada en la t.
Del mismo modo, si al modelo original se le añaden p variables X1*,...,Xp*, se puede definir
SSR(Y,X1*,...,Xp*|X1,...,Xk) = SSR(Y,X1,...,Xk,X1*,...,Xp*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) -

SSE(Y,X1,...,Xk,X1*,...,Xp*)
que tiene p grados de libertad, y el cociente
se distribuye como una Fp,n-(k+p+1) en la hipótesis nula de que las nuevas p variables X1*, ...,
Xp* no mejoren el modelo con respecto a las k variables originales y permite contrastar dicha
hipótesis.
Ejemplo 6
Con los datos del ejemplo 5, realizar el contraste de la F parcial para añadir la variable ejercicio
a un modelo que sólo contenga la edad y las grasas consumidas.
La tabla de anova correspondiente

al modelo con EDAD y GRASAS es
Por lo tanto, comparando esta tabla con la del modelo completo
SSR(COLEST,EJERC|GRASAS,EDAD) =
SSR(COLEST,GRASAS,EDAD,EJERC) - SSR(COLEST,GRASAS,EDAD) = 49275,94 -

48940,18 = 335,76
por tanto Fpar=335,76/3381,83=0,099

que se distribuye como una F1,16. Como F0,05(1,16) = 4,49 no se puede rechazar la hipótesis de
que EJERC no mejora el modelo. Obsérvese que esta Fpar es exactamente el cuadrado del
valor de t correspondiente al coeficiente de EJERC en el modelo con las tres variables
independientes.

VARIABLES "dummy"
Variables indicadoras ("dummy")
En los modelos de RLM la linealidad se asume. Esto, p.e. para la variable EJERC
del ejemplo anterior, quiere decir que el efecto sobre el colesterol de hacer ejercicio
intenso (EJERC=2) con respecto a no hacerlo (EJERC=0) es el doble que el del
ejercicio moderado (EJERC=1).
¿Es razonable esta asunción? y ¿para la variable FUMA codificada como 0: no

fuma, 1:fumador y 2:ex-fumador?
Una solución podría ser crear tantas variables como categorías. No sirve porque
serían combinación lineal y el modelo es irresoluble.
La solución es crear tantas variables como categorías menos 1 (en los ejemplos
anteriores 2) denominadas variables indicadoras con el siguiente esquema
X1 X2
No-fumador 0 0
Fumador 1 0
Ex-fumador 0 1
Las variables X1 y X2 ya no son combinación lineal y, por tanto, el modelo es

resoluble. El modelo quedaría
α0 es µY cuando X1 y X2 son ambas cero, es decir, para los no-fumadores; α0 +

α1 es µY cuando X1 es 1 y X2 es 0, es decir fumadores, por lo tanto
α1 es lo que cambia µY entre fumadores y no-fumadores y del mismo modo
α2 es lo que cambia µY entre ex-fumadores y no-fumadores.
Con este esquema de codificación los coeficientes tienen una clara interpretación
cuando, como en este caso, una de las categorías (no-fumador) se quiere usar
como referencia para las demás.
A dicha categoría se le asigna el valor cero para todas las variables indicadoras.
Sin embargo, para variables en las que no haya una categoría que sea natural
usarla como referencia, por ejemplo genotipos, lugar de residencia, etc., es más útil
otro esquema de codificación. Para discutirlo supóngase la variable lugar de
residencia con cuatro lugares: A, B, C y D. Se crearán tres variables indicadoras
(siempre una menos que categorías) con el siguiente esquema

VARIABLES "dummy"
X1 X2 X3
A -1 -1 -1
B 1 0 0
C 0 1 0
D 0 0 1
El modelo quedará
y por lo tanto
µY = α0 - α1 - α2 - α3 = µY|A para los residentes en A

µY = α0 + α1 = µY|B para los residentes en B
µY = α0 + α2 = µY|C para los residentes en C
µY = α0 + α3 = µY|D para los residentes en D
si se suman las 4 ecuaciones:
α0 = ( µY|A + µY|B + µY|C + µY|D)/4 por lo tanto
α0 es la media de Y en los cuatro lugares de residencia

α1 la diferencia de los residentes en B con respecto a la media
α2 la diferencia de los residentes en C con respecto a la media y
α3 la diferencia de los residentes en D con respecto a la media y, evidentemente, -
α1 - α2 - α3 la diferencia de los residentes en A con respecto a la media. De modo
que a diferencia del esquema anterior, se usa como nivel de referencia la media en
todas las categorías en lugar de una de ellas.
Otro posible esquema de codificación que a veces se usa en la literatura es
X1 X2 X3
A 1 1 1
B 0 1 1
C 0 0 1
D 0 0 0

VARIABLES "dummy"
y queda para el lector, a modo de ejercicio, la interpretación de los coeficientes de

regresión en este caso.
Conviene destacar que estas variables indicadoras no tienen ningún sentido por sí
solas y por, lo tanto, deben figurar en los modelos y se debe contrastar su inclusión
siempre en bloque, usando la F del modelo completo si sólo están dichas variables
en el modelo, o la F parcial correspondiente a las mismas si hay más variables.
Ejercicio propuesto: Para los datos del Ejemplo 5, crear "dummys" para el ejercicio
(¿con qué esquema?) y contrastar (con la F parcial) si estas variables mejoran el
modelo que sólo contiene edad y grasas. Interpretar los coeficientes.
Ejemplo 7: Considérense los siguientes datos, procedentes de una muestra

hipotética, sobre presión arterial en cm de Hg y "status" de fumador, codificado
como 0: no-fumador, 1: fumador y 2: ex-fumador. Discutir el modelo de regresión
entre presión arterial y "status" de fumador y estimar por intervalos la presión
arterial media según el "status" de fumador, a partir de los resultados del modelo
más adecuado.
Paciente Presión arte. Fumador
1 15,0 0
2 19,0 2
3 16,3 1
4 22,0 1
5 18,0 2
6 19,8 0
7 23,2 1
8 14,4 0
9 20,3 2
10 22,0 1
11 20,5 2
12 19,0 2
13 12,7 0
14 14,0 0

VARIABLES "dummy"
15 11,8 0
16 11,2 2
17 14,0 0
18 19,5 1
19 22,3 1
20 15,0 0
21 12,6 2
22 16,4 0
23 13,5 2
24 13,7 1
Los resultados de un modelo entre presión arterial y "status" de fumador tal y como
está codificado en la tabla son
En este caso de una única variable independiente, el contraste sobre el modelo

global con la F es equivalente al realizado con la t sobre el coeficiente α1 y con
ninguno se puede rechazar la hipótesis nula (p=0,250) de no dependencia. Es
decir, analizado de este modo no hay dependencia entre ambas variables.
Si se crean dos variables indicadoras (FUMA y EX_FUMA) con el primer esquema

VARIABLES "dummy"
discutido antes la tabla de datos queda
PACIEN PRE_AR FUMADOR FUMA EX_FUMA
1 15.0 0 0 0
2 19.0 2 0 1
3 16.3 1 1 0
4 22.0 1 1 0
5 18.0 2 0 1
6 19.8 0 0 0
7 23.2 1 1 0
8 14.4 0 0 0
9 20.3 2 0 1
10 22.0 1 1 0
11 20.5 2 0 1
12 19.0 2 0 1
13 12.7 0 0 0
14 14.0 0 0 0
15 11.8 0 0 0
16 11.2 2 0 1
17 14.0 0 0 0
18 19.5 1 1 0
19 22.3 1 1 0
20 15.0 0 0 0
21 12.6 2 0 1
22 16.4 0 0 0
23 13.5 2 0 1

VARIABLES "dummy"
24 13.7 1 1 0
y el modelo entre PRE_AR y FUMA y EX_FUMA
Para contrastar si la presión arterial depende del "status" de fumador, deberá

usarse el contraste basado en la F (p=0,018) y por lo tanto al nivel de significación
habitual α=0,05 se rechaza la hipótesis nula de no dependencia. A pesar de que el
coeficiente para EX_FUMA no es significativamente distinto de 0 (p=0,220), se
mantiene en el modelo porque FUMA no tiene sentido por sí sola.
Obsérvese que usando las variables indicadoras se ha encontrado una

dependencia que antes no se había puesto de manifiesto, debido a la falta de
linealidad para los códigos usados.
La estimación puntual de la presión arterial media de los no-fumadores (α0 en el

modelo) es 14,789 con un error estándar estimado de 1,07 y, como t0,025(21) =
2,08, su intervalo de confianza al 95% es 14,789 ± 2,08x1,07 = (12,563 17,014).
La estimación del aumento medio de la presión arterial en los fumadores (α1) es

5,068 que es significativamente distinto de cero (p=0,005) y la estimación del
aumento medio de la presión arterial en los ex-fumadores (α 2) es 1,974 pero no es
significativamente distinto de cero (p=0,220).
Para realizar la estimación por intervalos de la presión media en fumadores (α0 + α

1) y ex-fumadores (α 0 + α2) se necesita estimar sus respectivas varianzas

VARIABLES "dummy"
var(α 0 + α 1) = var( α 0) + var( α 1) + 2cov( α 0 , α 1) = 1,145 + 2,618 - 2 x 1,145 =

1,473
EE(α 0 + α 1) = 1,214
var(α 0 + α 2) = var( α 0) + var( α 2) + 2cov( α 0 , α 2) = 1,145 + 2,434 - 2 x 1,145 =

1,289
EE(α0 + α 2) = 1,135
Por lo tanto los intervalos de confianza al 95% para la presión arterial media de
fumadores y ex-fumadores son
fumadores: (14,789+5,068) ± 2,08x1,214 = (17,332 22,382)
ex-fumad : (14,789+1,974) ± 2,08x1,135 = (14,402 19,124)
recordemos que para no-fumadores se había obtenido
no-fumad : 14,789 ± 2,08x1,07 = (12,563 17,015)
y que la diferencia entre no-fumadores y ex-fumadores no es significativa, mientras

que la diferencia entre no-fumadores y fumadores sí lo es.

Interacción y confusión con los modelos de regresión lineal
Interacción y confusión en la regresión
Los modelos de regresión pueden usarse con dos objetivos:
1) predictivo en el que el interés del investigador es predecir lo mejor posible la

variable dependiente, usando un conjunto de variables independientes y
2) estimativo en el que el interés se centra en estimar la relación de una o más

variables independientes con la variable dependiente. En el ejemplo desarrollado
en los apartados anteriores, el interés podría ser encontrar el modelo que mejor
prediga el nivel de colesterol en sangre, en función de las otras variables (objetivo
1) o simplemente cuantificar la relación entre el consumo de grasas y dicho nivel
de colesterol (objetivo 2).
El resultado de un modelo predictivo es el modelo mismo, mientras que en un

modelo estimativo es la estimación del coeficiente de la variable de interés. El
segundo objetivo es el más frecuente en estudios etiológicos en los que se trata
de encontrar factores determinantes de una enfermedad o un proceso.
La interacción y la confusión son dos conceptos importantes cuando se usan los

modelos de regresión con el segundo objetivo, que tienen que ver con la
interferencia que una o varias variables pueden realizar en la asociación entre
otras.
Existe confusión cuando la asociación entre dos variables difiere

significativamente según que se considere, o no, otra variable, a esta última
variable se le denomina variable de confusión para la asociación.
Existe interacción cuando la asociación entre dos variables varía según los
diferentes niveles de otra u otras variables. Aunque en una primera lectura pueden
parecer similares, conviene distinguir claramente entre ambos fenómenos. En el
ejemplo 5 la edad no presenta una correlación significativa con el nivel de
colesterol si no se considera el consumo de grasas, mientras que si se considera
dicho consumo, sí lo presenta, en este caso el consumo de grasas es una variable
de confusión para la asociación entre colesterol y edad. Para que exista confusión
no es necesario que exista un cambio tan drástico (la correlación es significativa
en un caso y no lo es en el otro), también puede ocurrir que, aún siendo
significativa en ambos casos, cambie el coeficiente de regresión. Evidentemente la
mejor estimación del coeficiente es la que se obtiene del modelo en que figura la
variable de confusión, en el ejemplo, la mejor estimación del coeficiente
correspondiente a la edad es la del modelo con edad y consumo de grasas.
En el mismo ejemplo, si la asociación entre la edad y el nivel de colesterol fuera

diferente para los individuos que realizan ejercicio que para los que no lo realizan,
se diría que, para el nivel de colesterol, existe interacción entre la edad y el
ejercicio realizado. En este caso no existe una única estimación del coeficiente de
la variable de interés, sino que habría una estimación para cada nivel de la otra
variable, es decir y en el ejemplo, una estimación de la relación entre el nivel de
colesterol y la edad para los individuos que realizan ejercicio y otra distinta para

los que no lo realizan.
Veamos estos conceptos sobre los modelos. El modelo más sencillo para estudiar
la asociación entre una variable Y y otra variable X1 es
µY = α0 + α1 X1
donde α1 cuantifica la asociación: es el cambio en µY por unidad de cambio en X1.

Se dice que X2 es una variable de confusión para esta asociación, si el modelo
µY = α0 + α1 X1 + α2 X2
produce una estimación para α 1 diferente del modelo anterior. Evidentemente

esta definición se puede ampliar a un conjunto de variables, se dice que las
variables X2, ..., Xk son variables de confusión si la estimación de α1 obtenida por
el modelo
µY = α0 + α1 X1 + α2 X2 + ... + αk Xk
es diferente de la obtenida en el modelo simple. En ambos casos se dice que la

estimación de α1 obtenida en los modelos múltiples está controlada o ajustada por
X2 o por X2 ,..., Xk
Contrastar la existencia de confusión requiere, por lo tanto, comparar los

coeficientes de regresión obtenidos en dos modelos diferentes y si hay diferencia,
existe la confusión, en cuyo caso la mejor estimación es la ajustada. Para dicha
comparación no se precisa realizar un contraste de hipótesis estadístico ya que
aunque la diferencia encontrada sea debida al azar, representa una distorsión que
la estimación ajustada corrige. Será el investigador quién establezca el criterio
para decidir cuando hay diferencia. Nótese que se está hablando de diferencia en
la estimación, que puede afectar tanto al propio coeficiente como a su error
estándar (lo habitual es considerar que existe confusión cuando el coeficiente o su
error estándar cambian en más del 10%).
El modelo más sencillo que hace explícita la interacción entre dos variables X1 y
X2 es
µY = α0 + α1 X1 + α2 X2 + α3 X1 X2
En este modelo, el valor de µY para unos valores determinados x1, x2 de X1, X2 es
µY = α0 + α1 x1 + α2 x2 + α3 x1 x2
y para los valores x1 + 1 y x2

µY = α0 + α1(x1 + 1) + α2 x2 + α3 (x1 + 1) x2 = α0 + α1 x1 + α1 + α2 x2 + α3 x1 x2
+ α3 x2
restando ambas se encuentra el cambio en µY por una unidad de cambio en X1

manteniendo fijo X2
α1 + α3 x2
que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en µY por
una unidad de cambio en X2 manteniendo fijo X1 es
α2 + α3 x1
Por lo tanto, contrastar la existencia de interacción entre X1 y X2 es contrastar si el

coeficiente α3 es cero (no hay interacción), o distinto de cero (existe interacción).
En caso de que exista interacción los coeficientes α1 y α2 por sí solos no

significan nada y la asociación de las variables X1 y X2 con Y estará cuantificada
por las expresiones anteriores.
Es obvio que primero debe contrastarse la interacción y después, en caso de que

no exista, la confusión.
Ejemplo 8
En un trabajo para estudiar la relación de la presión arterial sistólica con el

consumo de tabaco y café, codificadas ambas como 0: no y 1: sí, se han obtenido
los siguientes datos de una muestra aleatoria hipotética
Paciente Presión arte. Tabaco Café
1 15,0 0 1
2 11,0 1 1
3 26,3 1 0
4 13,0 1 1
5 18,0 0 1
6 19,8 1 1
7 23,2 1 0
8 14,4 0 0

9 13,3 1 1
10 12,0 1 1
11 22,5 1 0
12 23,5 1 0
13 12,7 0 1
14 14,0 0 1
15 11,8 0 0
16 21,2 1 0
17 14,0 0 0
18 15,5 1 1
19 12,3 1 1
20 15,0 0 0
21 22,6 1 0
22 16,4 0 1
23 23,5 1 0
24 13,7 1 1
Contrastar la existencia de interacción y confusión y obtener la mejor estimación

por intervalos para el efecto de ambos factores.
Para contrastar la existencia de interacción se crea una nueva variable (TABXCA)

que sea el producto de la variables TABACO y CAFE y se hace un modelo de
regresión con las 3 variables. El resultado es

Según la tabla de anova, el modelo completo es muy significativo (p=0,000). El

coeficiente de correlación múltiple es muy alto, ya que la proporción de suma de
cuadrados explicada por la regresión (R2) es aproximadamente del 82%. El
coeficiente del término de interacción es significativamente distinto de cero
(p=0,000), y aunque el del término del CAFE no lo sea (p=0,332) se mantiene en
el modelo en aplicación del principio jerárquico.
Hay interacción entre CAFE y TABACO y no puede hablarse, por lo tanto, de un

efecto del tabaco, sino que hay un efecto del tabaco para los consumidores de
café y otro distinto para los no consumidores de café y, del mismo modo, hay un
efecto del café para los consumidores de tabaco y otro efecto para los no
consumidores de tabaco.
Vamos a estimar el efecto del tabaco.
La presión arterial media en la muestra es 16,86 y la estimación de la presión

arterial de los no-fumadores y no consumidores de café (α0) es 13,8.
Según vimos antes la estimación del efecto del tabaco (cambio en la presión
arterial media por ser fumador) es para los no consumidores de café α1 y para los
consumidores de café α1 + α 3. La varianza estimada de esta última estimación es

var(α 1 + α 3) = var(α 1) + var( α 3) + 2cov( α 1 , α 3) = 1,779 + 3,251 + 2x(-1,779)

= 1,472
por lo tanto EE(α 1 + α 3) = 1,213. Como t0,025(20)= 2,086 los intervalos de

confianza estimados al 95% para el efecto del tabaco son
no consumidores de café: 9,457 ± 2,086x1,334 = ( 6,675 12,240)
consumidores: 9,457-10,852 ± 2,086x1,213 = (-3,925 1,135)
para los no consumidores de café, el tabaco aumenta la presión arterial media en

9,457 unidades y este aumento es significativamente distinto de cero, mientras
que para los consumidores de café la disminuye en -1,395 unidades, si bien esta
disminución no es significativamente distinta de cero (su intervalo de confianza
incluye el cero).

Estrategias de modelización
El problema es ¿cómo usamos todo esto? Debido a los dos objetivos distintos
que un análisis de regresión puede tener es difícil establecer una estrategia
general para encontrar el mejor modelo de regresión, es más, el mejor modelo
significa cosas distintas con cada objetivo.
En un análisis predictivo el mejor modelo es el que produce predicciones más

fiables para una nueva observación, mientras que en un análisis estimativo el
mejor modelo es el que produce estimaciones más precisas para el coeficiente
de la variable de interés.
En ambos casos se prefiere el modelo más sencillo posible (a este modo de

seleccionar modelos se le denomina parsimonia), de modo que en un análisis
estimativo, se puede excluir del modelo una variable que tenga un coeficiente
significativamente distinto de cero y que su contribución a la predicción de la
variable dependiente sea importante, porque no sea variable de confusión para
la variable de interés (el coeficiente de dicha variable no cambia), en un análisis
predictivo esa variable no se excluiría.
Sin embargo, hay una serie de pasos que deben realizarse siempre:
i) Especificación del modelo máximo.
ii) Especificación de un criterio de comparación de modelos y definición de una
estrategia para realizarla.
iii) Evaluación de la fiabilidad del modelo.
i) Especificación del modelo máximo
Se trata de establecer todas las variables que van a ser consideradas.

Recuérdese que el modelo saturado (el máximo que se puede considerar) tiene
n - 1 variables pero que, con este modelo, los grados de libertad para SSE son
cero, y R2=1, de modo que, en general, el modelo saturado no tiene interés y el
modelo máximo deberá tener menos variables independientes que el modelo
saturado (un criterio habitual es incluir como máximo una variable cada 10
casos).
El criterio para decidir qué variables forman el modelo máximo lo establece el

investigador en función de sus objetivos y del conocimiento teórico que tenga
sobre el problema, evidentemente cuanto menor sea el conocimiento previo
mayor tenderá a ser el modelo máximo.
Un modelo máximo grande minimiza la probabilidad de error tipo II o infraajuste,

que en un análisis de regresión consiste en no considerar una variable que
realmente tiene un coeficiente de regresión distinto de cero.
Un modelo máximo pequeño minimiza la probabilidad de error tipo I o

sobreajuste (incluir en el modelo una variable independiente cuyo coeficiente de
regresión realmente sea cero).

Debe tenerse en cuenta también que un sobreajuste, en general, no introduce

sesgos en la estimación de los coeficientes (los coeficientes de las otras
variables no cambian), mientras que un infraajuste puede producirlos, pero que
un modelo máximo grande aumenta la probabilidad de problemas de
colinealidad.
En el modelo máximo deben considerarse también los términos de interacción

que se van a introducir (en un modelo estimativo sólo interesan interacciones
entre la variable de interés y las otras) y la posibilidad de incluir términos no
lineales. En Biología son muy frecuentes relaciones no lineales, que pueden
modelizarse con términos cuadráticos o de mayor orden o con transformaciones
tales como la exponencial o el logaritmo.
En el ejemplo 5 podría considerarse que la dependencia del nivel de colesterol

en sangre con las grasas consumidas puede no ser lineal y presentar, por
ejemplo, saturación: por encima de un cierto nivel de grasas ingeridas el
colesterol en sangre ya no sube más, o un punto umbral: las grasas consumidas
elevan el colesterol, sólo si sobrepasan un cierto valor. Cada uno de estos
fenómenos puede modelarse satisfactoriamente con un término cuadrático o
una transformación logarítmica o exponencial (introducir en el modelo junto con,
o en lugar de, la variable GRASAS, la variable (GRASAS)2; o log(GRASAS) o
EXP(GRASAS)) y ambos juntos, con un término cúbico ((GRASAS)3).
ii) Comparación de modelos
Debe establecerse cómo y con qué se comparan los modelos. Si bien hay varios
estadísticos sugeridos para comparar modelos, el más frecuentemente usado es
la F parcial, recordando que cuando los dos modelos sólo difieren en una
variable, el contraste sobre la F parcial es exactamente el mismo que el
realizado con la t sobre el coeficiente de regresión, pero a veces interesa
contrastar varias variables conjuntamente mejor que una a una (por ejemplo
todos los términos no lineales) o, incluso, es necesario hacerlo (por ejemplo
para variables indicadoras).
Hay que hacer notar que en un análisis estimativo el criterio para incluir o excluir
variables distintas a las de interés, es sobre todo los cambios en los coeficientes
y no los cambios en la significación del modelo.
Los distintos modelos a comparar se pueden construir de dos formas: por

eliminación o hacia atrás ("backward") y por inclusión o hacia adelante
("forward").
Con la primera estrategia, se ajusta el modelo máximo y se calcula la F parcial

para cada variable como si fuera la última introducida (que es equivalente a la t
para esa variable), se elige la menor de ellas y se contrasta con el nivel de
significación elegido. Si es mayor o igual que el valor crítico se adopta este

modelo como resultado del análisis y si es menor se elimina esa variable y se

vuelve a repetir todo el proceso hasta que no se pueda eliminar ninguna
variable.
Con la estrategia hacia adelante, se empieza con un modelo de una variable,

aquella que presente el mayor coeficiente de correlación simple. Se calcula la F
parcial para la inclusión de todas las demás, se elige la mayor de ellas y se
contrasta con el nivel de significación elegido. Si es menor que el valor crítico,
se para el proceso y se elige el modelo simple como mejor modelo, y si es
mayor o igual que dicho valor crítico, esa variable se incluye en el modelo y se
vuelve a calcular la F parcial para la inclusión de cada una de todas las
restantes, y así sucesivamente hasta que no se pueda incluir ninguna más.
Una modificación de esta última estrategia es la denominada "stepwise" que

consiste en que, cada vez que con el criterio anterior se incluye una variable, se
calculan las F parciales de todas las incluidas hasta ese momento como si
fueran las últimas y la variable con menor F parcial no significativa, si la hubiera,
se elimina. Se vuelven a calcular las F parciales y se continua añadiendo y
eliminando variables hasta que el modelo sea estable.
Las variaciones a estas estrategias consisten en que, con cualquiera de ellas, se

puede contrastar varias variables en lugar de una sola y que, en aplicación del
principio jerárquico, cuando se contrasta un término de interacción, el modelo
debe incluir todos los términos de orden inferior y, si como resultado del
contraste, dicho término permanece en el modelo, también ellos deben
permanecer en el mismo, aunque no se pueda rechazar que los coeficientes
correspondientes no son distintos de cero.
En cualquier caso, puede ser peligroso aplicar cualquiera de estas estrategias

automáticamente (con un paquete estadístico, por ejemplo) por lo que se ha
comentado más arriba sobre los distintos criterios dependiendo del objetivo del
estudio, los términos de interacción y las variables indicadoras.
Ejemplo 9
Encontrar el mejor modelo para los datos del ejemplo 5, con el objetivo de
estimar el efecto del consumo de grasas sobre el nivel del colesterol y usando la
estrategia hacia atrás.
El modelo máximo estaría formado por EDAD, GRASAS, EJERC (teniendo en

cuenta que está codificado en 3 niveles podría ser conveniente analizarlo a
través de 2 variables indicadoras, pero no se va a hacer por simplicidad del
ejemplo), se considerará también el término (GRASAS)2 para analizar
relaciones no lineales y los términos de interacción entre GRASAS y EDAD y
entre GRASAS y EJERC. La interacción entre EDAD y EJERC en este caso no
interesa, puesto que la variable de interés es GRASAS.
En el archivo de datos, habrá que crear 3 variables nuevas: GRASA2 =

(GRASAS)2, GRAXED = GRASAS x EDAD y GRAXEJ = GRASAS x EJERC y el

resultado del análisis del modelo máximo es
Recordando que la F parcial de una variable dadas todas las demás es el

cuadrado del valor de t para el coeficiente de la misma, la variable que tiene
menor F parcial no significativa es GRAXEJ, por lo tanto esta variable se elimina
y se ajusta ahora un modelo excluyéndola.

Obsérvese que R apenas ha disminuido (R siempre disminuye al quitar variables

y su disminución es otro de los estadísticos propuestos para comparar modelos)
pero la F global ha mejorado (p=0,018 frente a 0,040).
En este modelo la menor F parcial no significativa corresponde a EDAD, sin

embargo, en el modelo todavía está el término de interacción entre EDAD y
GRASAS (GRAXED) en consecuencia EDAD no se puede quitar (principio
jerárquico), la siguiente F parcial corresponde a EJERCI y no es significativa, en
consecuencia se quita EJERCI. El nuevo modelo es

No hay cambios en los coeficientes de GRASAS, ni GRASA2, ni GRAXED

(EJERCI no es variable de confusión, por lo tanto se puede eliminar
definitivamente. Si hubiera habido cambios no se podría eliminar a pesar de no
ser significativa).
La variable con menor F parcial sigue siendo EDAD y la siguiente GRAXED. Se

quita y el nuevo modelo es
La menor F parcial no significativa es, ahora, la de GRASAS, pero GRASA2

debe contrastarse antes y como tampoco es significativa (obsérvese, no
obstante, que está en el borde y podría tratarse de un problema de falta de
potencia) se quitaría GRASA2. El modelo finalmente queda

Donde la F global es significativa siendo también significativas las F parciales de

las dos variables que permanecen, de modo que éste podría ser el modelo final.
No obstante, como el objetivo del estudio es estimar el efecto de las grasas, se

debería probar un modelo sin la edad y si en éste último modelo no hubiera
cambios en la estimación del efecto de las grasas, podría quitarse la edad, en
aplicación del principio de parsimonia.
Como el cambio en el coeficiente es mayor que el 10%, concluimos que EDAD

es variable de confusión y el modelo final es el que comntoene GRASAs y
EDAD.
iii) Evaluación de la fiabilidad del modelo
Una vez encontrado el mejor modelo hay que evaluar su fiabilidad, es decir,
evaluar si se comporta igual en otras muestras extraídas de la misma población.
Evidentemente, el modo más completo de evaluarlo será repetir el estudio con
otra muestra y comprobar que se obtienen los mismos resultados, aunque
generalmente esta aproximación resulta excesivamente costosa.
Otra aproximación alternativa consiste en partir aleatoriamente la muestra en

dos grupos y ajustar el modelo con cada uno de ellos y si se obtienen los
mismos resultados se considera que el modelo es fiable. Esta aproximación es
demasiado estricta ya que, en la práctica, casi nunca se obtienen los mismos
resultados.
Una validación menos estricta consiste en ajustar el modelo sobre uno de los
grupos (grupo de trabajo) y calcular su R2, que se puede interpretar como el
cuadrado del coeficiente de correlación simple entre la variable dependiente y

las estimaciones obtenidas en la regresión.
Después, y con el modelo obtenido en el grupo de trabajo, calcular las

estimaciones de la variable dependiente en el otro grupo (grupo de validación) y
calcular el coeficiente de correlación simple al cuadrado entre estas
estimaciones y la variable dependiente (R2*), a este coeficiente se le denomina
coeficiente de correlación de validación cruzada. A la diferencia R2-R2* se le
denomina reducción en la validación cruzada y, aunque no hay reglas firmes al
respecto, se considera que una reducción superior a 0,90 indica un modelo no
fiable y una reducción inferior a 0,10 indica un modelo muy fiable.
Otras lecturas
Silva Ayçaguer L.C., Barroso Utra I.M. Selección algorítmica de modelos en las
aplicaciones biomédicas de la regresión múltiple. Medicina Clínica.
2001;116:741-745.

El problema de la colinealidad
Es uno de los problemas más desesperantes con que uno se puede encontrar en un
análisis de regresión. Como ya vimos al hablar de la estimación de los coeficientes,
si en un modelo de RLM alguna variable independiente es combinación lineal de
otras, el modelo es irresoluble, debido a que, en ese caso, la matriz X'X es singular,
es decir, su determinante es cero y no se puede invertir.
A este fenómeno se le denomina colinealidad. Que una variable X1 sea combinación

lineal de otra X2, significa que ambas están relacionadas por la expresión X1 = β 1 +
β 2X2, siendo β1 y β2 constantes, por lo tanto el coeficiente de correlación entre
ambas variables será 1.
Del mismo modo, que una variable X1 sea combinación lineal de otras X2, ..., Xi con
i>2, significa que dichas variables están relacionadas por la expresión X1 =β 1 + β
2X2 + ... + β iXi, siendo β1,..., βi constantes y por tanto, el coeficiente de correlación
múltiple RX1|X2,...Xi también será 1.
Otro modo, por tanto, de definir la colinealidad es decir que existe colinealidad
cuando alguno de los coeficientes de correlación simple o múltiple entre algunas de
las variables independientes es 1, es decir, cuando algunas variables
independientes están correlacionadas entre sí.
En la práctica, esta colinealidad exacta raras veces ocurre, pero sí surge con cierta
frecuencia la llamada casi-colinealidad, o por extensión, simplemente colinealidad
en que alguna variable es "casi" combinación lineal de otra u otras, o dicho de otro
modo, algunos coeficientes de correlación simple o múltiple entre las variables
independientes están cercanos a 1, aunque no llegan a dicho valor.
En este caso la matriz X'X es casi-singular, es decir su determinante no es cero

pero es muy pequeño. Como para invertir una matriz hay que dividir por su
determinante, en esta situación surgen problemas de precisión en la estimación de
los coeficientes, ya que los algoritmos de inversión de matrices pierden precisión al
tener que dividir por un número muy pequeño, siendo además inestables.
Además, como la matriz de varianzas de los estimadores es proporcional a X'X,

resulta que en presencia de colinealidad los errores estándar de los coeficientes son
grandes (hay imprecisión también en sentido estadístico).
Por consiguiente, a la hora de plantear modelos de RLM conviene estudiar

previamente la existencia de casi-colinealidad (la colinealidad exacta no es
necesario estudiarla previamente, ya que todos los algoritmos la detectan, de hecho
no pueden acabar la estimación). Como medida de la misma hay varios estadísticos
propuestos, los más sencillos son los coeficientes de determinación de cada variable
independiente con todas las demás, es decir

y, relacionados con ellos, el factor de inflación de la varianza (FIV) y la tolerancia

(T), definidos como
Una regla empírica, citada por Kleinbaum, consiste en considerar que existen
problemas de colinealidad si algún FIV es superior a 10, que corresponde a algún
R2i 0,9 y Ti < 0,1.
Aunque puede existir colinealidad con FIV bajos, además puede haber
colinealidades que no impliquen a todas las variables independientes y que, por
tanto, no son bien detectadas por el FIV.
Otra manera, más completa, de detectar colinealidad es realizar un análisis de

componentes principales de las variables independientes. Esta técnica es
matemáticamente compleja y aquí se hace sólo un resumen de la misma necesario
para entender el diagnóstico de la colinealidad.
Se denominan componentes principales de un conjunto de variables a otras

variables, combinación lineal de las originales y que tienen tres propiedades
características:
i) son mutuamente independientes (no están correlacionadas entre sí)
ii) mantienen la misma información que las variables originales
iii) tienen la máxima varianza posible con las limitaciones anteriores.
De hecho, para modelos predictivos los componentes principales son las variables
independientes ideales.
La varianza de cada componente principal es un autovalor (número asociado a una

matriz) de la matriz de varianzas-covarianzas de las variables originales.
El número de autovalores nulos indica el número de variables que son combinación

lineal de otras (el número de colinealidades exactas) y autovalores próximos a cero
indican problemas graves de colinealidad.
El cálculo de los autovalores permite, por lo tanto, determinar no sólo la existencia

de colinealidad, sino también el número de colinealidades.
Para determinar cuándo un autovalor pequeño está suficientemente próximo a cero

se usa su valor relativo con respecto al mayor, en este sentido, para cada autovalor
se define el índice de condición como la raíz cuadrada del cociente entre el mayor
de ellos y dicho autovalor y se denomina número de condición al mayor de los
índices de condición.

Para Belsley índices de condición entre 5 y 10 están asociados con una colinealidad
débil, mientras que índices de condición entre 30 y 100 señalan una colinealidad
moderada a fuerte.
Una vez determinada la presencia y el número de colinealidades, es conveniente

averiguar qué variables están implicadas en ellas. Usando ciertas propiedades de la
matrices se puede calcular la proporción de la varianza de las variables sobre cada
componente.
Si dos o más variables tienen una proporción de varianza alta en un componente

indica que esas variables están implicadas en la colinealidad y, por tanto, la
estimación de sus coeficientes está degradada por la misma.
Belsley propone usar conjuntamente los índices de condición y la proporción de

descomposición de varianza para realizar el diagnóstico de colinealidad, usando
como umbral de proporción alta 0,5 de modo que, finalmente, dicho diagnóstico se
hará:
Los índices de condición altos (mayores que 30) indican el número de colinealidades
y la magnitud de los mismos mide su importancia relativa.
Si un componente tiene un índice de condición mayor que 30 y dos o más variables

tienen un proporción de varianza alta en el mismo, esas variables son colineales.
Como ya se indicó más arriba, la mejor solución a los problemas de colinealidad

consiste en plantear el modelo de regresión con los componentes principales en
lugar de con las variables originales, si bien esta solución sólo está indicada en los
modelos predictivos.
En los modelos estimativos no tiene sentido, ya que el interés del modelo es,
justamente, estimar el efecto sobre la variable independiente de una variable
determinada y no interesa, por lo tanto, usar otras variables distintas.
Otras soluciones alternativas planteables en ambos tipos de modelos pueden ser:

cambios de escala en las variables, incluyendo el centrado de las mismas (restar a
cada variable su media) o, incluso, eliminar alguna de las variables colineales.
En este mismo sentido hay que tener en cuenta que las variables producto
introducidas para estudiar la interacción pueden dan lugar a problemas de
colinealidad y no se recomienda, por lo tanto, que un modelo contenga muchos
términos de interacción.
Si una variable toma el mismo valor para todas las observaciones (tiene varianza
cero) existe colinealidad exacta con el término independiente, y si una variable tiene
varianza casi cero (toma valores muy próximos para todas las observaciones) existe
casi-colinealidad.
Puede ocurrir que una varianza pequeña sea debida a una escala inapropiada para
la variable, por ejemplo, si la edad de sujetos adultos se mide en décadas se obtiene

una varianza 100 veces menor que si se midiera en años. En este caso un cambio
de escala puede evitar el problema de la colinealidad.
También se puede perder precisión en el cálculo de (X'X)-1 por la existencia de

variables con varianzas excesivamente grandes, en cuyo caso el cambio de escala
aconsejable sería el contrario, por ejemplo, podría dar lugar a problemas de
precisión medir la edad en días.
Ejemplo 10
Realizar el estudio de colinealidad en los datos del ejemplo 5, usando los FIV, los
índices de condición y la matriz de proporción de descomposición de la varianza de
los estimadores.
Realizando los análisis de regresión de cada una de las variables independientes

con todas las demás, se obtienen los siguientes coeficientes de determinación,
tolerancia y factores de inflación de la varianza
que indican problemas graves de colinealidad.
Obsérvese que el factor de inflación mayor corresponde a la variable GRASAS,

resultado esperable debido a que se han creado tres variables más (GRASA2,
GRAXED y GRAXEJ) a partir de ella.
Los autovalores de la matriz X'X y los índices de condición, así como la matriz de
proporción de descomposición de varianza son:

Hay un índice de condición alto (50,781) y asociado con el mismo hay cinco
variables (el término constante, GRASAS, GRASA2, EDAD y GRAXED) con
proporción de varianza alta.
Nos indica, por tanto, que GRASAS es colineal con GRASA2, GRAXED (no nos
sorprende), EDAD y con la constante.
Al existir esta última colinealidad, el centrado de variables podría mejorar el

problema, se podría también renunciar a estudiar los términos no lineales GRASA2
y GRAXED.
Empecemos por centrar las variables continuas.
GRASAC = GRASAS - 39,7

EDADC = EDAD - 36,25
GRASC2 = GRASAC x GRASAC
GRXEDC = GRASAC x EDADC
GRXEJC = GRASAC x EJERC
y, para ellas, el diagnóstico de colinealidad queda:

y tanto los índices de condición como la proporción de varianza, indican que el

centrado ha resuelto los problemas de colinealidad.
Referencias
D.G. Kleinbaum, L.L. Kupper, K.E. Muller

Applied Regression Analysis and Other Multivariables Methods.
PWS-KENT Publishing Company. 1988.
D.A. Belsley
Conditioning Diagnostics: Collinearity and Weak Data in Regression.
John Wiley &Sons. 1991

Análisis de los residuos
Si bien para la estimación por mínimos cuadrados de los coeficientes de un modelo de

regresión, sólo es necesaria la asunción de linealidad, la normalidad de los mismos, en
base a la cual se realizan los contrastes de hipótesis, está basada también en las
asunciones de normalidad y homoscedasticidad. Por consiguiente, conviene asegurar que
dichas asunciones se cumplen en cada caso.
Hay que tener en cuenta que, en caso de que no se cumpla la normalidad, no se puede
utilizar la t ni la F para los contrastes de hipótesis. Puede usarse, sin embargo, la
desigualdad de Tchebysheff, que establece que para cualquier variable aleatoria
siendo k cualquier número real positivo. Otro modo alternativo de escribirlo es
Por lo tanto, un modo de contrastar, sin la asunción de normalidad, la hipótesis nula
H0 : αi = a
es calcular el cociente
y la probabilidad de error tipo I al rechazarla es ≤1/k2
Esta prueba tampoco se puede usar si no se cumple la homoscedasticidad, pues en ese

caso la estimación de EE(αi) no es válida.
Recordando la 2ª formulación del modelo, las asunciones se pueden resumir en que las
variables εx1,...,xk son independientes, distribuidas normalmente con media cero y todas
con la misma varianza σ2
εx1,...,xk es un conjunto de variables, una para cada combinación x1,...,xk de valores de

las variables X1,...,Xk.
denominados residuos, son los valores que en la muestra toman estas variables.
Generalmente, sin embargo, no se tienen suficientes de estos valores muestrales para

cada variable (para el problema del ejemplo 5, por ejemplo, existe una variable εx1,...,xk
para cada valor de la edad, del consumo de grasas y del ejercicio; el residuo para el primer
paciente corresponde a la variable ε80,35,0; el del segundo a la variable ε30,40,2; etc., es

decir, para cada variable sólo se tiene un valor muestral.
Para el problema del ejemplo 8, sin embargo, sólo hay cuatro variables: ε0,0, ε1,0, ε0,1 y
ε1,1 y sí puede haber suficientes valores muestrales para cada una de ellas como para
plantearse pruebas de bondad de ajuste a la distribución normal (ji-cuadrado o Kolmogorov-
Smirnov) y de homoscedasticidad (Bartlett).
El planteamiento habitual es considerar que, como todas ellas son normales con la misma
media (0) y la misma varianza (σ 2), los residuos ( ) también tienen una distribución
normal con media 0 y varianza desconocida σ2 y, simplemente, contrastar este extremo.
Al conjunto de técnicas que se usan para ello se le denomina análisis de los residuos.
El análisis de los residuos consiste, por tanto, en contrastar que , i=1,...,n provienen de
una población normal con media 0 y varianza σ2 con las pruebas habituales de ji-cuadrado,
Kolmogorov-Smirnov.
Hay que tener en cuenta que de este modo se están contrastando globalmente todas las
asunciones y, por consiguiente, una falta de normalidad de los residuos puede ser debida
también a que el modelo sea inapropiado o a existencia de heterocedasticidad.
Teniendo en cuenta que (n-(k+1))s2/σ2 se distribuye como una ji-cuadrado con (n-(k+1))
grados de libertad, la variable
llamada residuo normalizado tendrá una distribución t de Student con (n-(k+1)) grados de
libertad, que para valores de n suficientemente grandes se puede aproximar a una normal
reducida (de media cero y varianza 1) y, a menudo, se contrasta la distribución de esta
variable en lugar de el residuo.
Además de estas pruebas de significación para asegurar que globalmente se cumplen las
asunciones del modelo, es útil realizar un análisis gráfico de los mismos que permite
discriminar entre distintas violaciones de las mismas. Si se representara en una gráfica
bidimensional los residuos observados (eje Y) para cada una de las variables Y|x1,...,xk (eje
X) y se cumplieran las asunciones se observaría una nube de puntos en dirección
horizontal y con anchura constante (la media de cada εx1,...,xk debería ser cero y tener
todas la misma varianza). Como para cada variable Y|x1,...,xk el modelo produce la misma
estimación una gráfica de los residuos contra los valores predichos tendrá el mismo
aspecto (fig. A).
Si se viola la linealidad se observará una falta de linealidad también en los residuos (fig. B),
si se viola la homoscedasticidad, la anchura de la banda no será constante (fig. C), una
relación lineal entre los residuos y las predicciones puede indicar que alguna variable no
incluida en el modelo puede ser significativa (fig. D).


Regrseión lineal con el PRESTA
Regresión lineal con el PRESTA
Con el PRESTA se puede realizar la regresión lineal simple con dos opciones: L
(regresión lineal) o R (regresión múltiple) que tienen diferentes prestaciones.
La opción L puede leer las dos variables de diferentes archivos asumiendo que
están en el mismo orden. Acepta variable de control, es decir permite leer sólo
aquellos casos que cumplan alguna condición con respecto a otra variable, por
ejemplo, si hay un archivo con 3 variables: SEXO, EDAD y PRESIS se pueden
hacer la regresión lineal de PRESIS y EDAD sólo para los varones usando
SEXO como variable de control. Acepta que el archivo tenga datos no
especificados incluso en las variables a analizar (aunque obviamente no los
usa).
Produce también una gráfica con los puntos, la recta de regresión y la banda de
confianza al nivel solicitado. Permite dividir la nube de puntos en varias zonas
(hasta un máximo de 5) y realizar regresiones distintas para cada zona como
una primera aproximación a regresiones no lineales.
La opción R, en cambio, exige que ambas variables estén en el mismo archivo,

no acepta archivos que contengan valores no especificados aunque sea en
otras variables distintas a las del análisis y tampoco acepta variable de control.
No produce gráfica y la salida contiene además de los estadísticos de L, el
análisis de la varianza de la regresión, la matriz de covarianzas de los
coeficientes de regresión y una lista con los residuos que se puede guardar en
otra variable del archivo.
Permite guardar en otra variable del archivo los residuos. Para crear los
residuos normalizados, hay que dividir esta variable por el error estándar de la
estimación (s), con la opción de operar con variables del menú de Entrada y
Edición de Datos.
Con esta misma opción se pueden restar los residuos de la variable dependiente
para obtener los valores predichos y realizar con la opción de gráficas
bivariantes el análisis gráfico.
En el menú de Entrada y Edición de Datos existen las opciones de operar con

variables, que permite la creación de una variable producto de otras dos, para
estudiar las interacciones y los términos no lineales, creación de variables
"dummy" que permite crear variables indicadoras con los tres esquemas
explicados en el texto y transformación de variables que, entre otras, permite el
centrado de variables.
Además, a partir de la versión 2.2, el PRESTA incluye una opción con el

diagnóstico de colinealidad. El programa pregunta el nombre del archivo y las
variables a estudiar.

Regrseión lineal con el PRESTA

Intro_errores
Errores en las mediciones y clasificaciones clínicas: Precisión y validez
V. Abraira
Introducción
Todo proceso de medición (proceso mediante el cual se cuantifica una magnitud) está amenazado por
diversas fuentes de error, derivadas tanto de las limitaciones del instrumento de medida, como de la
naturaleza de la magnitud a medir. Clásicamente se distingue entre el error debido a la precisión limitada
del instrumento que atenta a la reproducibilidad de la medición introduciendo un error aleatorio en la
misma y el debido a la validez, también limitada, que introduce un error sistemático, que en epidemiología
se denomina sesgo. De modo esquemático se puede decir que la validez depende exclusivamente del
instrumento y tiene que ver con la cuestión de si el mismo mide lo que debe medir, mientras que la
precisión depende tanto del instrumento como del proceso de medición y tiene que ver con cuánto se
aproxima la medida al valor real de la magnitud. En ambos casos es siempre cuestión de grado, no
existen instrumentos infinitamente precisos y válidos, hay sólo instrumentos más precisos y/o válidos que
otros. Al modo habitual de controlar la validez de un instrumento de medida se le denomina calibración, y
consiste en comparar las medidas obtenidas con él con unos patrones de referencia (cuanto más se
parezcan estas medidas al patrón, más válido es el instrumento), mientras que la manera de controlar la
precisión de un instrumento es comparar entre sí medidas repetidas de un mismo objeto y evaluar el
grado de acuerdo entre ellas (cuanto más se parezcan estas medidas entre sí, más preciso es).
En ciertas situaciones, en la práctica clínica entre ellas, el proceso de control de la precisión y validez de
una medida es más complejo que el esbozado hasta aquí, debido a dos fenómenos inherentes a las
mismas y que, hasta ahora, no se han considerado. De un lado, las magnitudes a medir son aleatorias, es
decir presentan diversos grados de variabilidad impredecible propia. Si, por ejemplo, se trata de controlar
la precisión de la medición de la presión arterial diastólica habría que repetir la medición en un mismo
individuo varias veces y como la propia presión arterial es variable a lo largo del tiempo, el resultado se
vería afectado simultáneamente por la variabilidad introducida por la precisión limitada del instrumento
(manómetro y observador) y la variabilidad propia de la presión arterial.
Por otro lado, además de magnitudes tales como presión, temperatura, concentración de hemoglobina en
sangre, etc., se trabaja con magnitudes como dolor, mejoría en un proceso patológico, grado pronóstico
de una afección, etc., para las cuales no existe un patrón de referencia claro y objetivo ni escala métrica
apropiada y que, por tanto, suelen describirse en escalas ordinales o, incluso, nominales, cuya
apreciación puede estar muy distorsionada por influencias subjetivas. Estas magnitudes suelen
denominarse variables blandas (véase Feinstein) y dan lugar a clasificaciones mejor que a mediciones en
sentido estricto (que implica la existencia de una escala métrica). Evidentemente, existen también
variables objetivas ("duras" en la jerga) que dan lugar a clasificaciones, por ejemplo muerto/vivo. Los
procesos de clasificación sufren los mismos problemas de validez y precisión que los de medición, pero
con ciertas complicaciones añadidas en el caso de las variables blandas. Para controlar su validez, no
suelen existir patrones de referencia, o no son tan objetivos o accesibles como en el caso de una
magnitud física. Por ejemplo, en la calibración de las imágenes obtenidas por resonancia nuclear
magnética para diagnosticar lesiones de menisco, ¿cuál es el patrón de referencia adecuado? ¿la visión
directa mediante artroscopia? ¿es ésta suficientemente objetiva, o también está influida por factores
subjetivos dependientes de la propia técnica, de la experiencia del médico que la realiza, de la diversidad
de meniscos "normales"? En este sentido se suele distinguir entre dos modos de controlar la validez de
un instrumento de medida (nótese que se está usando el término instrumento de medida en un sentido
muy amplio, en este ejemplo no es sólo el "aparato" usado para obtener la imagen, sino el conjunto
formado por el aparato que produce la imagen y el observador que la interpreta, siendo, además, éste
último más crítico para los errores de medición-clasificación): cuando se hace con patrones objetivos se
habla de exactitud ("accuracy" en la literatura clínico-epidemiológica inglesa), mientras que cuando se
controla comparando simplemente con una referencia considerada mejor ("gold standard") se habla de
conformidad.
En cuanto a la reproducibilidad, sobre todo con métodos de clasificación, se distingue entre la

reproducibilidad del mismo instrumento (típicamente un observador en este caso) en dos instantes de
tiempo diferentes y se habla de concordancia ("agreement" en la literatura en inglés) o consistencia
interna o intraobservador, por ejemplo un radiólogo o un servicio de radiología tomado como unidad,
¿clasifica igual la misma radiografía estudiada hoy y dos meses después? y reproducibilidad del mismo
instrumento usado en diferentes condiciones, por ejemplo dos radiólogos diferentes ¿clasifican del mismo
modo la misma radiografía? se habla entonces de concordancia o consistencia externa o interobservador.
http://www.hrc.es/bioest/Intro_errores.html (1 of 2) [28/12/2002 20:22:46]

Intro_errores
Esquemáticamente
Precisión o concordancia intraobservador
reproducibilidad o
concordancia interobservador
concordancia
exactitud
Validez
conformidad
Referencias
Feinstein A.R. (1987) Clinimetrics. Yale University Press. New Haven.
http://www.hrc.es/bioest/Intro_errores.html (2 of 2) [28/12/2002 20:22:46]

Indices de concordancia
Índices de concordancia
Caso más sencillo: 2 observadores y variable dicotómica.
Ejemplo: dos radiólogos independientes informan como neumonía sí/no 100 radiografías. Los
resultados son
Radiólogo A
Rad. B Pulmonía No pulmonía Total
Pulm. 4 6 10
No 10 80 90
Total 14 86 100
En general
Observador A
Obs. B Positivo Negativo Total
Positivo a b r
Negativo c d s
Total t u N
siendo N el número total de individuos observados, a el número de ellos al que ambos

observadores clasifican como positivo, etc.
Existen varios índices de concordancia propuestos, el más obvio es la proporción de acuerdos

observados, es decir (a + d)/N. Este índice es muy intuitivo y fácilmente interpretable: tomará
valores entre 0 (total desacuerdo) y 1 (máximo acuerdo). Sin embargo como indicador de
reproducibilidad tiene el inconveniente de que aun en el caso de que los dos observadores
clasifiquen con criterios independientes se produciría un cierto grado de acuerdo por azar. Por
ejemplo, si se tiran dos dados y se registra si sale un cierto número, p.e. el dos (resultado
positivo) u otro cualquiera (resultado negativo), en un cierto número de veces (con una
probabilidad de 26/36, para ser más preciso, siguiendo el razonamiento que se hace más
abajo) ambos dados producirán el mismo resultado por azar. Es deseable que un índice de
concordancia tenga en cuenta este hecho y que, de algún modo, indique el grado de acuerdo
que existe por encima del esperado por azar. En este sentido, el índice más usado es el
propuesto por Cohen y denominado índice kappa (κ) que se define como
http://www.hrc.es/bioest/errores_2.html (1 of 3) [28/12/2002 20:23:26]

siendo Po la proporción de acuerdos observados y Pe la proporción de acuerdos esperados en

la hipótesis de independencia entre los observadores, es decir de acuerdos por azar. A partir
de la tabla
para calcular Pe hay recordar que dos sucesos A1, A2 son independientes si p(A1∩
A2)=p(A1)p(A2). En este caso, si llamamos A1 al suceso "el observador A clasifica un individuo
como positivo" y A2 al suceso "el observador B clasifica un individuo como positivo" el suceso
A1∩ A2 será "ambos observadores clasifican un individuo como positivo"; como el observador
A ha clasificado t individuos como positivos y el B ha clasificado r, la mejor estimación de p(A1)
es t/N y la de p(A2) es r/N, por lo tanto la mejor estimación de la probabilidad de que ambos
clasifiquen como positivo a un individuo, en la hipótesis de que ambos son independientes es
su producto, es decir rt/N2; por la misma razón, la probabilidad de que ambos clasifiquen como
negativo a un individuo por azar es su/N2, en consecuencia
Cuando hay acuerdo total b=c=0, por lo tanto el valor de Po es 1 y en consecuencia el índice κ
también vale 1 para el máximo acuerdo; si el acuerdo observado es igual al esperado por azar,
κ vale 0. Obsérvese que si el acuerdo observado es menor que el esperado por azar, el índice
κ toma valores negativos. Un modo intuitivo de interpretar este índice puede hacerse
despejando Po de la definición
si se piensa que la proporción de acuerdos observados (Po) es un valor intermedio entre el

máximo acuerdo posible (1) y la proporción de acuerdos esperados por azar (Pe), κ se puede
interpretar como el peso que el máximo acuerdo posible tiene en los acuerdos observados.
En el ejemplo la proporción de acuerdos observados es
es decir, ambos radiólogos coinciden en un 84% de las radiografías. Ahora bien, el acuerdo
esperado por azar es
por lo tanto

es decir, el grado de acuerdo una vez corregido el debido al azar es mucho más modesto que
lo que indicaba el 84% de acuerdo "crudo". Según la interpretación anterior, el acuerdo
observado está compuesto por un 24,5% del acuerdo máximo y un 75,5% del esperado por
azar.
Landis y Koch propusieron, y desde entonces ha sido ampliamente usada, la siguiente escala
de valoración del κ
kappa grado de acuerdo
< 0,00 sin acuerdo
0,00 - 0,20 insignificante
0,21 - 0,40 discreto
0,41 - 0,60 moderado
0,61 - 0,80 sustancial
0,81 - 1,00 casi perfecto
Referencias
Cohen J. (1960) A coefficient of agreement for nominal scales. Educ Psychol Meas 20:37-46.
Landis J.R., Koch G.G. (1977) The measurement of observer agreement for categorical data.
Biometrics 33:159-174.
Latour J., Abraira V., Cabello J.B., López Sánchez J. (1997) Métodos de investigación en
cardiología clínica (IV). Las mediciones clínicas en cardiología: validez y errores de medición.
Rev Esp Cardiol 50:117-128.

Problemas del índice kappa
Problemas del índice kappa (κ)
No obstante su alto grado de aceptación en la literatura clínico-epidemiológica, debe tenerse en

cuenta que la escala anterior de valoración del índice κ, como los propios autores resaltan, es
arbitraria y que, además, el valor del índice κ no sólo depende de los acuerdos observados, sino
también de los esperados y, en consecuencia, pueden darse diversos efectos poco intuitivos. En
primer lugar, el valor de κ depende de la prevalencia del carácter observado. En el ejemplo, la
prevalencia de pulmonía es baja: el radiólogo A diagnostica un 14% de pulmonías y el B un 10%.
Si los resultados hubieran sido
Rad. A
Rad. B 30 6 36
10 54
40
donde las prevalencias respectivas son 40% para A y 36% para B, con la misma proporción de
acuerdos observados (84%) el índice κ hubiera sido 0,661. En general, cuanto más cercana a 0,5
sea la prevalencia (cuanto más balanceados estén los totales marginales en la tabla) mayor es el
κ para igual proporción de acuerdos observados, dicho de otro modo, prevalencias muy bajas, o
muy altas, penalizan el índice κ , debido a que en ese caso la proporción de acuerdos esperados
por azar es mayor que cuando la prevalencia es cercana a 0,5. Por otro lado, éste también se ve
afectado por la simetría de los totales marginales.
Considerese, por ejemplo, las tablas
Tabla 1 Tabla 2
Rad. A Rad. A
Rad. B 45 15 60 25 35 60
25 15 5 35
70 30
en ambas la proporción de acuerdos observados es la misma (0,60) y también es la misma la

prevalencia observada por el radiólogo B (0,60), sin embargo la del radiólogo A es 0,70 en la tabla
1 y 0,30 en la 2, por lo tanto hay mayor desacuerdo entre las prevalencias observadas en la tabla
2, aunque en ambos casos están igualmente alejadas de 0,5, es decir, tienen la misma falta de
balanceo en los marginales, aunque en la tabla 1 de modo simétrico con respecto a ambos
observadores (en ambos son mayores de 0,5) y asimétricamente en la 2 (para A es menor de 0,5
y para B mayor). El índice κ vale 0,13 en la tabla 1 y 0,26 en la 2. En general, la simetría en la falta
de balanceo en los totales marginales también penaliza el índice κ y tanto más, cuanto más
"perfecta" (la misma diferencia con respecto a 0,5) sea la misma. Dicho de otro modo, en igualdad
de acuerdos observados, cuanto mayor sea la diferencia entre las prevalencias observadas por
cada observador mayor es el índice κ .

Problemas del índice kappa
En consecuencia, para interpretar el índice κ es necesario contar, también con el valor de las
frecuencias marginales de la tabla (prevalencias observadas por cada observador).
El pequeño valor de κ para los datos del ejemplo (mediano en la escala de Landis y Koch) es
"explicado" a la luz de los efectos anteriores por el hecho de que estamos en la peor de las
situaciones posibles: baja prevalencia, y similar, en ambos observadores o, en la terminología
anterior totales marginales "desbalanceados" con casi perfecta simetría.
Referencias
Feinstein A.R., Cicchetti D.V. (1990) High agreement but low kappa: I. The problem of two
paradoxes, J Clin Epidemiol 43: 543-549.

Clasificaciones multinomiales
Si bien las clasificaciones binomiales son muy frecuentes, a menudo en clínica resultan insuficientes. P.e. un
psiquiatra clasifica los trastornos de los pacientes en psicóticos, neuróticos u orgánicos, o un reumatólogo clasifica
las artritis en leves, moderadas o graves. Ambas clasificaciones son multinomiales (tres categorías), no obstante
existe una diferencia entre ellas, las categorías en el caso de la artritis pueden ordenarse de un modo relevante para
el problema: una artritis grave es más que una moderada, y ésta más que una leve, mientras que para la
clasificación psiquiátrica este orden no existe. A las variables multinomiales que tienen implícito un orden se les
denomina ordinales y a las que no, nominales. Para estudiar la precisión de una clasificación multinomial, hay ciertas
diferencias según que ésta sea ordinal o nominal.
Como en las clasificaciones binarias, los resultados de un estudio de concordancia se pueden resumir en una tabla
de doble entrada, aunque ahora con K filas y K columnas, siendo K el número de categorías de la clasificación.
La notación usada en esta tabla es: para identificar una celda se usan dos subíndices: el primero para la fila y el
segundo para la columna, por lo tanto Xij es el número de individuos que el observador B ha clasificado en la
categoría i y el observador A en la j.
Observador A
Obs. B Cat. 1 Cat. 2 ... Cat. K Total
Cat. 1 X11 X12 ... X1K X1.
Cat. 2 X21 X22 ... X2K X2.
. . . ... . .
Cat. K XK1 XK2 ... XKK XK.
Total X.1 X.2 ... X.K N
Para indicar los totales marginales se usa un punto en el lugar del subíndice con respecto al que se ha sumado: Xi.
es la suma de la fila i y X.j es la suma de la columna j. En notación algebraica
Para una clasificación multinomial se puede definir un índice kappa idéntico al anterior, generalizando el cálculo de
Po y Pe como
Ejemplo: Dos reumatólogos clasifican en tres categorías (leve, moderada, grave) 80 enfermos con artritis. Los
resultados son
Reumatólogo A
Reum. B Leve Mode. Grave Total
Leve 9 8 3 20
Moderada 9 29 5 43

Grave 0 3 14 17
Total 18 40 22 80
Otra alternativa para estudiar concordancia entre clasificaciones multinomiales consiste en definir un índice kappa
para cada una de las categorías, colapsando la tabla KxK original en K tablas 2x2 en las que se compara cada
categoría con todas las demás. De este modo se puede estudiar la contribución de cada una de ellas a la
concordancia de la clasificación.
Para los datos del ejemplo, se colapsaría la tabla en 3 tablas: una comparando la categoría leve con las demás, otra
la moderada con las demás y la tercera la grave con las otras.
1 2 3
Obs A Obs A Obs A
L O M O G O
Obs B L 9 11 M 29 14 G 14 3
O 9 51 O 11 26 O 8 55
L: leve, M: moderada, G:grave, O:otra.
calculando en cada una de estas tablas Po, Pe y κ resulta:
tabla Po Pe κ
1 0,75 0,638 0,309
2 0,688 0,5 0,376
3 0,863 0,629 0,631
donde se observa que la clasificación de la categoría grave es la que mayor κ produce (¿Cómo se interpreta?).

Índice kappa con "pesos"
Una solución que puede verse como intermedia entre las anteriores (un único kappa global o K
kappas individuales para cada categoría), pero que, en general, sólo tiene sentido para
variables ordinales, es el denominado kappa ponderado, también propuesto por Cohen, en el
cual se asignan unos pesos para cuantificar la importancia relativa entre los desacuerdos.
Pensando en el ejemplo anterior, no tiene la misma importancia un desacuerdo en la
clasificación entre las categorías leve y moderada que entre leve y grave, obviamente la última
representa un mayor desacuerdo que la primera.
La idea de este índice ponderado es asignar a cada celda de la tabla un peso wij comprendido
entre 0 y 1 que represente la importancia del desacuerdo. Dando el máximo peso al acuerdo
perfecto, y pesos proporcionalmente menores según la importancia del desacuerdo
además, obviamente wij = wji.
Las proporciones ponderadas de acuerdos observados y esperados se definen
y a partir de aquí, el kappa ponderado
Nótese que, en el caso extremo, si se definen los pesos como
el kappa ponderado coincide con el kappa global.
La principal ventaja del kappa ponderado reside en la posibilidad de cuantificar diferentes

grados de desacuerdo. Los valores de los pesos dependerán, en cada caso, de la importancia
que se conceda a cada desacuerdo, hay que tener presente, sin embargo, que ello añade
cierta dificultad a su interpretación: si en dos estudios diferentes, se calcula el kappa
ponderado con dos sistemas de pesos distintos, es difícil realizar comparaciones entre ellos.
Los más usados en este sentido son, por su sencillez, los denominados pesos lineales,
propuestos inicialmente por Cohen
y los denominados pesos bicuadrados, propuestos posteriormente por Fleiss y Cohen

Pesos lineales y bicuadrados para 3 categorías
Peso lineal (wl) bicuadrado (wb)
Obs. A A
Cat 1 2 3 1 2 3
B 1 1 1/2 0 1 3/4 0
2 1/2 1 1/2 3/4 1 3/4
3 0 1/2 1 0 3/4 1
Para los datos del ejemplo de los reumatólogos los kappas usando estos sistemas de pesos
son respectivamente y , más altos que sin pesos.
Múltiples observadores
Este índice se puede extender a múltiples observadores, con lo que las fórmulas se complican
pero sin apenas cambios conceptuales.
Referencias
Cohen J. (1968) Weighted kappa: Nominal scale agreement with provision for scaled
disagreement or parcial credit Psychol Bull 70: 213-220.

Distribución muestral del kappa
Distribución muestral del índice κ
El índice κ se calcula a partir de muestras, por tanto se obtiene sólo una estimación del
verdadero valor del κ en la población. Es necesario estudiar su distribución muestral para
poder construir intervalos de confianza y realizar contrastes de hipótesis.
En el caso de dos observadores clasificando en K categorías, en la hipótesis de

independencia, se puede demostrar que la varianza del kappa estimado es
y si se cumplen las condiciones de aproximación de la binomial a la normal, el estadístico
se distribuye como una normal tipificada y puede usarse para contrastar la H0: κ = 0
con una región crítica para un contraste lateral z > zα
Ejemplo: Realizar el contraste de hipótesis H0: κ = 0 para los datos del ejemplo de los
reumatólogos. Según la tabla
P.1=18/80=0.225 P.2=40/80=0.5
P.3=22/80=0.275 P1.=20/80=0.25
P2.=43/80=0.5375 P3.=17/80=0.2125
Pe=0.383
por lo tanto
y no se puede rechazar la hipótesis nula de κ = 0.
En general, sin embargo, estos contrastes no tienen mucho interés. El objetivo de un estudio
de concordancia no es tanto contrastar si hay más acuerdo que el esperado en la hipótesis de
independencia sino cuantificar el mismo. Si un estudio produce un κ = 0,1 aunque sea
significativamente distinto de 0, revela un acuerdo insignificante. Lo que tiene interés es, por
tanto, la estimación por intervalos. Aquí debe señalarse que la varianza anterior se ha obtenido
en la hipótesis de independencia entre observadores en cuyo caso κ=0, y consecuentemente
no sirve para construir intervalos de confianza en la hipótesis de no independencia. En esta
hipótesis se puede demostrar que

Distribución muestral del kappa
siendo
y a partir de esta varianza, un intervalo de confianza aproximado, usando la normalidad

asintótica de la distribución de , con un nivel de confianza de 100(1 - α)% es
También hay fórmulas, que os ahorro, para la varianza del kappa ponderado. Para el caso de
múltiples observadores, aunque hay algunas aproximaciones parciales, no existe todavía una
fórmula de uso general para la estimación de su varianza, y se suele usar una técnica muy
general para construir intervalos de confianza para estadísticos de distribución muestral
desconocida que es la denominada "técnica jackknife", introducida por Quenouille y que se
puede aplicar al índice kappa.
Referencias
Abraira V., Pérez de Vargas A. (1999). Generalization of the kappa coefficient for ordinal
categorical data, multiple observers and incomplete designs. Qüestiió 23: 561-571

Cálculo del kappa con el PRESTA
Cálculo del kappa con el Presta
El Presta calcula el índice kappa en dos procesamientos: Tablas de contingencia (G) y Análisis
de concordancia (3). En la primera: sólo para dos observadores, no admite pesos, calcula el
error estándar con las fórmulas dadas aquí y se pueden codificar libremente las categorías, en
la segunda: acepta varios observadores, se pueden usar los pesos que se deseen (ofrece por
defecto los bicuadrados), calcula el error estándar por la técnica jackknife y obliga a codificar
las categorías con números enteros consecutivos (1,2,...).
http://www.hrc.es/bioest/errores_7.html [01/01/2003 23:20:29]

Concordancia para variables continuas
Aunque en la literatura clínica hay una gran tradición de usar el coeficiente de correlación lineal (r) para evaluar la
concordancia entre variables continuas, ello es incorrecto: dicho coeficiente mide la correlación y no la
concordancia: si, p.e. un aparato para medir una magnitud produce sistemáticamente el triple de otro aparato que
supuestamente mide la misma magnitud, ambas mediciones están perfectamente correlacionadas (r=1) pero no
son concordantes en absoluto.
Ejemplo: en 1979, en un artículo de gran impacto entre neumólogos (Thorax,34:807-809), se comparaba las
medidas de flujo respiratorio máximo obtenidas por el aparato estándar (Wright) con las obtenidas por otro portátil
(miniWright). Los autores hacen hincapié en que ambas medidas se correlacionaban muy bien (r=0,992) y
proponen el uso alternativo del portátil. Como veremos enseguida las cosas no eran tan claras.
El índice más establecido para variables continuas es el denominado coeficiente de correlación intraclase que se
calcula a partir de los estadísticos que produce un análisis de la varianza y que, por tanto, no estamos en
condiciones de abordar en este curso.
Un procedimiento, gráfico, alternativo propuesto por Altman e ilustrado con datos del estudio anterior es el
siguiente:
Paciente Wright MiniWright Diferencia Media

(l/min) (l/min)
1 494 512 -18 503.0
2 395 430 -35 412.5
3 516 520 -4 518.0
4 434 428 6 431.0
5 476 500 -24 488.0
6 557 600 -43 578.5
7 413 364 49 388.5
8 442 380 62 411.0
9 650 658 -8 654.0
10 433 445 -12 439.0
11 417 432 -15 424.5
12 656 626 30 641.0
13 267 260 7 263.5
14 478 477 1 477.5
15 178 259 -81 218.5
16 423 350 73 386.5
17 427 451 -24 439.0
Si calculamos el coeficiente de correlación lineal
P R E S T A PC V2.2 23-MAR-1995
REGRESION LINEAL
X = wright MWRIGH
Y = wright WRIGHT
NO. DE PUNTOS 17
COEF. CORRELACION .943
COEF. DETERMINACION .890
ERROR ESTANDAR DE LA ESTIMA 39.882

Ecuación de la recta Y = .970 X + 11.482
La propuesta de Altman es presentar las diferencias contra la media.
donde se observa que las mediciones no son tan concordantes como parecía en la gráfica anterior.
La media de las diferencias es de -2.1 l/min, es decir hay un error sistemático "hacia abajo" por parte del
miniWright. Los límites de concordancia son los límites de confianza de esta diferencia, para calcularlos se calcula
la desviación típica de la diferencia, en este caso 38,8 y como t17 =2,11, los límites de concordancia son 79,3 y -
83,5, es decir con un 95% de probabilidad la medición del miniWright puede ser 83,5 por debajo o 79,3 por arriba
de la media de ambas ¿es esto aceptable clínicamente?
Notar que en la gráfica, las diferencias se mantienen homogéneas a lo largo del eje X. Si no fuera así, este método
no se puede usar.
Puesto que estamos trabajando con una muestra, se deben también calcular los límites de confianza para dichos
límites de concordancia. El error estándar para estos límites es aproximadamente
En nuestro caso para el límite inferior serían -114,3 y -45,1 y para el superior 40,9 y 110,1.
Referencias
Bland J.M., Altman D.G. (1986) Statistical methods for assessing agreement between two methods of clinical
measurement. Lancet i: 307-310.

Latour J., Abraira V., Cabello J.B., López Sánchez J. (1997) Métodos de investigación en cardiología clínica (IV).
Las mediciones clínicas en cardiología: validez y errores de medición. Rev Esp Cardiol 50:117-128.

Índices de validez
Índices de validez
Se trata, en esta clase, de procedimientos para evaluar la validez, es decir cuánto se aproxima
una medida al valor real que pretende medir. Son procedimientos muy generales, pero aquí se
van a tratar al hilo del problema de las pruebas diagnósticas (problema muy importante en la
práctica y la investigación clínica): pruebas para determinar si un individuo tiene, o no, una
cierta enfermedad (u otra característica). Hay que resaltar (y no siempre se hace) que si bien
la validez de una prueba depende exclusivamente de la prueba, las estimaciones numéricas
que se obtengan de la misma pueden depender de la prevalencia y de las características
clínicas de los pacientes que se hayan estudiado.
Empezemos por el caso más sencillo: una prueba cuyos resultados posibles son "positivo" o
"negativo". Para evaluar su validez habrá que aplicarla a una muestra de individuos que
sepamos que tienen la enfermedad y a otra que sepamos que no la tiene. Los resultados se
pueden expresar en una tabla como la siguiente:
Estado
Prueba No Enfer. Enfermo Total
Negativo a b r
Positivo c d s
Total t u N
siendo N el número total de individuos observados, t el número de no enfermos, u el de

enfermos, a el número de no enfermos en que la prueba ha dado negativa, etc.
Si la prueba fuera perfectamente válida b=c=0. Como índices de validez se definen:

Sensibilidad o proporción de verdaderos positivos como la probabilidad de que la prueba dé
positivo condicionada a que el individuo esté enfermo y Especificidad o proporción de
verdaderos negativos como la probabilidad de que la prueba dé negativo condicionada a que
el individuo no esté enfermo. También se usan como índices de error sus complementarios, es
decir proporción de falsos positivos y de falsos negativos.
A partir de la tabla, estos índices (que tomarán valores entre 0 y 1) se estiman como:
Sen = d/u
Esp = a/t
PFP = c/t = 1 - Esp
PFN = b/u = 1 - Sen
Como son proporciones, sus I.C. se construyen como tal, es decir, p.e. para la sensibilidad y
asumiendo muestras grandes (0,05 < Sen < 0,95):
Ejemplo: Evaluación de la gammagrafía de perfusión en el diagnóstico de embolismo pulmonar
http://www.hrc.es/bioest/validez_1.html (1 of 3) [01/01/2003 23:23:36]

Índices de validez
(datos tomados de McNeil). Uno de los problemas de estos estudios es la definición del "gold
standard". En éste, se usó la arteriografía pulmonar
Estado
Prueba No Enfermo Enfermo Total
Negativo 2 0 2
Positivo 78 54 132
Total 80 54 134
Sen = 54/54 =1 Esp = 2/80 =0,02
Es una prueba extraordinariamente sensible (en todos los enfermos da positivo) pero muy
inespecífica (también da positivo en muchos individuos no enfermos). Es una situación
extrema de un hecho habitual.
¿Es razonable usar esta prueba? Depende del contexto clínico. Hay otros índices que ayudan
en esta decisión: los llamados valores predictivos:
VP+=p(enfermo|prueba+)=d/s
VP-=p(no enfermo|prueba-)=a/r
Para el ejemplo
VP+=54/132= 0,41 y VP-=2/2=1
que ponen de manifiesto que podría ser una muy buena prueba para descartar un diagnóstico
de EP, pero mala para confirmarlo.
Hay que tener en cuenta que estas probabilidades postprueba corresponden a la probabilidad
preprueba del estudio 54/134=0,40 y no serían aplicables a otras situaciones. Sin embargo, el
teorema de Bayes permite calcular los valores predictivos a partir de la sensibilidad y
especificidad (que sólo dependen de la prueba) para distintas probabilidades preprueba.
siendo p(E) la probabilidad preprueba y similarmente
Ejemplo: Calcular los VP+ y VP- de la gammagrafía de perfusión para un paciente cuya
probabilidad preprueba es de 0,7

Índices de validez
es decir, no obtenemos ninguna información si la prueba da positivo.
sin embargo, si da negativa estamos seguros de que no tiene la enfermedad (porque la prueba
tiene Sen=1). Observar que el VP- es igual que el calculado antes para una probabilidad
preprueba de 0,4 sin embargo el VP+ es distinto.
Referencias
Cabello J.B., Pozo F. (1997) Métodos de investigación en cardiología clínica (X). Estudios de
evaluación de las pruebas diagnósticas en cardiología. Rev Esp Cardiol 50:507-519.
McNeil B.J. (1980) Ventilation-perfusion studies and the diagnosis of pulmonary embolism:
concise communication. J Nucl Med. 21: 319-23.

Cocientes de probabilidades
Cocientes de probabilidades:
Se trata de buscar índices que engloben la sensibilidad y la especificidad. Se definen los

cocientes de probabilidades (likelihood ratio) positivo y negativo como:
¿Qué información dan? Según el teorema de Bayes
dividiendo [1] por [2]
es decir, si la prueba da positivo, el odds postprueba es igual al odds preprueba multiplicado

por el cociente de probabilidades positivo:
Similarmente:
si la prueba da negativo, el odds postprueba es también igual al odds preprueba multiplicado

por el cociente de probabilidades negativo:
si el cociente de probabilidades para un resultado (+ ó -) es 1, dicho resultado no añade

ninguna información y cuanto más alejado esté de 1, más información añade.
Para la gammagrafía de perfusión:
es decir: un resultado positivo apenas añade información, mientras que uno negativo da toda
la información (si el resultado es negativo, la odds postprueba es 0, la probabilidad postprueba
es 0) ¿Cuál sería la probabilidad postprueba de un paciente con una probabilidad prepueba de

Cocientes de probabilidades
0,1 si la prueba es positiva?
No hemos ganado prácticamente nada, como informa el valor de CP+ tan próximo a 1.
Ventajas de usar los CP:
- No cambian con la probabilidad preprueba.

- Permiten calcular la probabilidad postprueba.
- Son fácilmente generalizables.
Ultimamente se ha descrito otro índice denominado efectividad de la prueba, cuya distribución

es aproximadamente normal, que se define como
y que puede interpretarse como la diferencia entre las medias de los resultados entre una
población de enfermos y otra de sanos en una escala normalizada. Si δ=1 la prueba no es
efectiva y si δ=3 es altamente efectiva.
Referencias
Hasselband V., Hedges L. (1995). Meta-analysis of diagnostics test. Psychol Bull 117: 167-178

Intervalos de confianza para los CP
Intervalos de confianza para los CP
¿Cuán fiables son los CP calculados sobre muestras? Necesitamos calcular su intervalo de
confianza que no es fácil para cocientes de probabilidades. Hay varios métodos aproximados
para muestras grandes.
a) Si el CP es próximo a 1 (método de Miettinen)
siendo χ2 el estadístico de asociación de la tabla 2x2
Ejemplo: para el CP+ de los datos de la gammagrafía.
Calculamos el χ2 de la tabla: χ2=0,2 por tanto el intervalo de confianza al 95% es
b) en caso contrario (aproximación de primer orden del desarrollo de Taylor)
siendo a, b, c y d los valores de las celdas de la tabla anterior. Obsérvese que para CP=0 el
intervalo de confianza es siempre 0.
http://www.hrc.es/bioest/validez_3.html [01/01/2003 23:28:14]

Tablas Kx2
Tablas Kx2
Los índices calculados sobre tablas 2x2 tienen la ventaja de su sencillez, sin embargo,
raramente una prueba diagnóstica se puede resumir en sólo dos resultados. Por ejemplo, los
datos originales del ejemplo de la gammagrafía son:
Enfermo
Prueba No Sí Total
Negativo 2 0 2
Indeter. 22 13 35
pulmonar 2 1 3
lobular 2 2 4
Defecto único
segmentario 4 1 5
subsegmentario 6 0 6
pulmonar 2 3 5
Defectos lobular 5 22 27
múltiples (el
mayor) segmetario 16 22 38
subsegmentario 41 3 44
Total 102 67 169
En la tabla presentada antes se habían eliminado los indeterminados (35 casos) y se habían
agrupado todos los defectos de perfusión en la categoría "positivo", lo que parece una
simplificación excesiva.
Se pueden extender, sin dificultad, los índices anteriores a pruebas con varios niveles. Sea,
p.e, una tabla 4x2
Enfermo
Prueba No Sí
Nivel 1 a b

Tablas Kx2
Nivel 2 c d
Nivel 3 e f
Nivel 4 g h
Total t u
Se puede definir una sensibilidad para cada nivel como la probabilidad de que la prueba
resulte en ese nivel condicionada a que el individuo esté enfermo, y especificidad para cada
nivel como la probabilidad de que la prueba no resulte en ese nivel condicionada a que el
individuo no esté enfermo. A partir de la tabla, la estimaciones de la sensibilidad y
especificidad, p.e. para el nivel 2 son
se define también el cociente de probabilidades para cada nivel como la sensibilidad de ese
nivel dividido por uno menos la especificidad, p.e. para el nivel
estos CP se interpretan del mismo modo, es decir el odds postprueba es el odds preprueba
multiplicado por el CP del nivel que resulte y los IC se calculan de la misma manera.
Ejemplo: Para la gammagrafía, agrupando en 4 categorías, calcular la sensibilidad,

especificidad y cociente de probabilidades para cada nivel. Calcular, también, la probabilidad
postprueba para cada uno de los niveles de un paciente cuya probabilidad preprueba sea 0,6.
Enfermo
Prueba No Sí Total
Negativo 2 0 2
Indeterminado 22 13 35
Defecto único 14 4 18
Defectos múltiples 64 50 114
Total 102 67 169

Tablas Kx2
Los índices son:
Nivel Sen Esp CP
Negativo 0/67 = 0 100/102 = 0,980 0
Indeterminado 13/67 = 0,194 80/102 = 0,784 0,900
Defecto único 4/67 = 0,060 88/102 = 0,863 0,435
Defectos múltiples 50/67 = 0,746 38/102 = 0,373 1,189
Para un paciente con una probabilidad preprueba de 0,6, el odds preprueba es 0,6/0,4=1,5.
Nivel Oddspos ppos
Negativo 0 0
Indeterminado 1,347 0,574
Defecto único 0,655 0,396
Defectos múltiples 1,784 0,641
Es decir, dentro de los resultados "positivo" de antes, el defecto único es el de mayor poder
informativo.
Ejemplo: Calcular los IC al 95% para los índices anteriores.
Para la sensibilidad y especificidad usamos la fórmula estándar, aunque para el resultado

negativo estamos fuera de las condiciones de aproximación, por ejemplo para Espneg
los resultados para todos los índices son
Nivel Sen Esp
Negativo 0-0 0,953 - 1,007
Indeterminado 0,099 - 0,289 0,704 - 0,864
Defecto único 0,003 - 0,117 0,796 - 0,930

Tablas Kx2
Defectos múltiples 0,642 - 0,850 0,279 - 0,466
Las fórmulas para los IC de los CP se generalizan, para cada nivel:
por ejemplo, para el nivel indeterminado
y los resultados para todos los niveles
Nivel IC
Negativo 0-0
Indeterminado 0,487 - 1,657
Defecto único 0,150 - 1,265
Defectos múltiples 0,969 - 1,459
Es decir, salvo el del nivel negativo, ninguno de los CP es significativamente distinto de 1.

Más de dos enfermedades
Estos índices se pueden generalizar a pruebas diagnósticas diferenciales de más de 2

enfermedades. Ejemplo: el tacto rectal en caso de dolor abdominal agudo para diferenciar
entre apendicitis, pancreatitis y dolor no específico. Sea la tabla
Desenlace
Tacto rectal Apendicitis Pancreatitis No específico Total
Positivo 200 8 130 338
Negativo 60 30 120 210
Dudoso 40 12 400 452
Total 300 50 650 1000
La sensibilidad del tacto rectal positivo para la apendicitis será 200/300=0,666 y su

especificidad (30+120+12+400)/(50+650) = 0,803 por tanto el cociente de probabilidades del
tacto rectal positivo para la apendicitis es 0,666/(1-0,803)=3,35 y del mismo modo se calculan
para los demás. Se define también, y es más útil, el cociente de probabilidades relativo de una
enfermedad i respecto a otra j para un resultado Rk como el cociente de sus sensibilidades.
Para calcular probabilidades postprueba en un entorno donde las probabilidades preprueba

sean diferentes se usa el Teorema de Bayes
siendo Rk el resultado obtenido en la prueba, Ei las distintas enfermedades y p(Rk|Ei) las

sensibilidades para ese resultado y, a partir de aquí, de un modo similar a como se hizo antes
(el desarrollo completo puede verse en Birkett NJ (1988)).
Ejemplo 5 Con los CP del tacto rectal obtenidos de la tabla anterior, calcular la probabilidad
postprueba de apendicitis para un individuo con tacto rectal positivo y cuyas probabilidades
preprueba son: p(A)=0,30; p(P)=0,05 y p(NE)=0,65
Necesitamos estimar, a partir de la tabla, las sensibilidades de cada enfermedad para el tacto

rectal positivo
los cocientes de probabilidad relativos
y usando la fórmula anterior
por lo tanto
es decir, si el tacto rectal es positivo, hemos pasado de una probabilidad preprueba de 0,30 a
una probabilidad postprueba de 0,59.
El cálculo de los IC para estas probabilidades escapa del objetivo de este curso, pero se
pueden ver en Monsour M.J.; Evans A.T, Kupper L.L. (1991).
Referencias
Birkett N.J. (1988) Evaluation of diagnostic tests with multiple diagnostic categories. J Clin
Epidemiol 41:491-494
Monsour M.J., Evans A.T., Kupper L.L. (1991) Confidence intervals for post-test probability.
Stat Med (1991), 10: 443-456.

Cálculo de sensibilidad y especificidad con el PRESTA
El PRESTA calcula la sensibilidad, la especificidad y los CP con sus IC's para tablas 2xK, en la opción
de "Análisis de validez de pruebas diagnósticas (5)" Calcula también probabilidades postprueba
correspondientes a distintas probabilidades preprueba.
También está disponible una calculadora que hace los mismos cálculos a partir de la tabla, en lugar de
los datos crudos.
La salida para el ejemplo de la gammagrafía con 4 niveles es
P R E S T A PC V2.2 24-MAR-2000
ANALISIS DE VALIDEZ DE PRUEBAS DIAGNOSTICAS
ARCHIVO gamma7
Los números entre paréntesis son porcentajes respecto a la suma de cada columna
Var: ENFER GAMMA
0:0 1:1
2( 2) 0( 0) 1:1
22( 22) 13( 19) 2:2
14( 14) 4( 6) 3:3
64( 63) 50( 75) 4:4
Nivel Sensibilidad Especif. CP
1 .000 .980 .000
2 .194 .784 .900
3 .060 .863 .435
4 .746 .373 1.189
Intervalos de confianza al 95%
Nivel Sensibilidad Especif. CP
1 .000 .054 .931 .995 .000 .000
2 .117 .304 .704 .864 .488 1.660
3 .023 .144 .796 .930 .150 1.265
4 .631 .835 .279 .466 .969 1.459
PROBABILIDADES POSTPRUEBA CORRESPONDIENTES A LA Ppre: .3000
Nivel Probabilidad
1 .0000
2 .2783
3 .1571
4 .3376

Nota: Las diferencias entre las estimaciones de los IC para la Sensibilidad y Especificidad de esta
"salida" y del texto anterior son debidas a que en el texto se usó la aproximación normal y el PRESTA
no la usa si N<100 y los índices <0,05 ó >0,95 en cuyo caso usa la aproximación de Wilxon.

Curvas ROC
Curvas ROC
En la clase anterior se consideró que el resultado de las pruebas diagnósticas era categórico,
sin embargo muchas pruebas producen resultados continuos, p.e. nivel de glucosa en sangre
para diagnosticar la diabetes. El comportamiento de dichas pruebas depende de donde se
ponga el punto de corte y lo habitual es que exista un grado variable de solapamiento en la fdp
de la variable resultado. En el caso de la glucosa la situación se esquematiza en la gráfica
Si se desplaza el punto de corte a la derecha (valores mayores de glucosa) disminuyen los

falsos positivos (región azul) pero aumentan los falsos negativos (región roja) o, en otros
términos, disminuye la sensibilidad y aumenta la especificidad e inversamente si se desplaza a
la izquierda, de modo que un problema en estas pruebas es la selección del punto de corte
óptimo. Para caracterizar su comportamiento se usan las llamadas curvas ROC (Receiver
Operating Characteristic) desarrolladas por los operadores de radar e introducidas en la
investigación clínica por los radiólogos (Hanley y McNeil): son curvas en las que se presenta la
sensibilidad en función de los falsos positivos (complementario de la especificidad) para
distintos puntos de corte.
Información contenida en la curva:
- Si la prueba fuera perfecta, es decir, sin solapamiento, hay una región en la que cualquier
punto de corte tiene sensibilidad y especifidad iguales a 1: la curva sólo tiene el punto (0,1).
http://www.hrc.es/bioest/roc_1.html (1 of 4) [02/01/2003 01:17:56]

Curvas ROC
- Si la prueba fuera inútil: ambas fdp´s coinciden y la sensibilidad (verdaderos positivos) es

igual a la proporción de falsos positivos, la curva sería la diagonal de (0,0) a (1,1).
- Las pruebas habituales tienen curvas intermedias.
Un parámetro para evaluar la bondad de la prueba es el área bajo la curva que tomará valores
entre 1 (prueba perfecta) y 0,5 (prueba inútil). Puede demostrarse, (Hanley y McNeil) que este
área puede interpretarse como la probabilidad de que ante un par de individuos, uno enfermo y
el otro sano, la prueba los clasifique correctamente.
En consecuencia, las curvas ROC son útiles para:

Conocer el rendimiento global de una prueba. Area bajo la curva.
Comparar dos pruebas o dos puntos de corte. Comparación de dos curvas o de dos puntos
sobre una curva.
Elegir el punto de corte apropiado para un determinado paciente.
Limitaciones de su uso: sólo contemplan dos estados clínicos posibles (sano, enfermo) y no
sirven para situaciones en que se trata de discernir entre más de dos enfermedades.
Ejemplo: Evaluación del volúmen corpuscular medio (VCM) en el diagnóstico de anemia

ferropénica. Se usa como "patrón de oro" la existencia de depósitos de hierro en la médula
ósea
Tabla de datos (hipotética):
VCM
Sin Fe (n=34): 52, 58, 62, 65, 67, 68, 69, 71, 72, 72, 73, 73, 74, 75, 76, 77, 77, 78, 79, 80, 80,
81, 81, 81, 82, 83, 84, 85, 85, 86, 88, 88, 90, 92
Con Fe (n=66): 60, 66, 68, 69, 71, 71, 73, 74, 74, 74, 76, 77, 77, 77, 77, 78, 78, 79, 79, 80, 80,
81, 81, 81, 82, 82, 83, 83, 83, 83, 83, 83, 83, 84, 84, 84, 84, 85, 85, 86, 86, 86, 87, 88, 88, 88,
89, 89, 89, 90, 90, 91, 91, 92, 93, 93, 93, 94, 94, 94, 94, 96, 97, 98, 100, 103

Curvas ROC
Donde se observa solapamiento. Para diversos puntos de corte (es decir, decidiendo que hay
anemia cuando el VCM es menor que el punto de corte) las sensibilidad y proporciones de
falsos positivos figuran en la siguiente tabla:
Punto Corte Sensibilidad 1-Especificidad
65 3/34=0,088 1/66=0,015
70 7/34=0,206 4/66=0,061
75 13/34=0,382 10/66=0,152
80 19/34=0,559 19/66=0,288
85 27/34=0,794 37/66=0,561
90 32/34=0,941 49/66=0,742
92 33/34=0,971 53/66=0,803
que producen la siguiente curva ROC

Curvas ROC
cuya área es 0,717 con un EE de 0,05, es decir no es una prueba demasiado buena. Si se
quisiera comparar esta prueba con otra, p.e. niveles séricos de ferritina, se contruiría para ella
otra curva y se calcularía su área. Supongamos A=0,868 y EE(A)=0,04. El estadístico para
compararlas es (si ambas curvas han sido estimadas independientemente, es decir con
distintos sujetos, en caso contrario, véase Hanley J.A., McNeil B.J. (1983)):
que en este ejemplo vale 2,34 que como es mayor que 1,96 ambas pruebas tienen un
rendimiento significativamente distinto.
Referencias
Hanley J.A., McNeil B.J. (1982) The meaning and use of the area under a receiver operating
characteristic (ROC) curve. Radiology. 143: 29-36
Hanley J.A., McNeil B.J. (1983) A method of comparing the areas under receiver operating
characteristic curves derived from the same cases. Radiology. 148: 839-43

Elección del punto de corte óptimo
Esta elección se basa en la importancia relativa que para el paciente tenga hacer un diagnóstico falso positivo o
falso negativo. El diagrama de la decisión es
Representamos por U la utilidad y es un valor normalizado (ver ejemplo) que dependerá de las consecuencias de
la decisión y de las preferencias del paciente. La utilidad esperada de la prueba es el promedio ponderado, por las
respectivas probabilidades, de las diferentes utilidades es decir
que se puede escribir como
La curva ROC describe la relación entre: y . Se trata de elegir un punto de esa curva que
maximize la función de utilidad. Para ello hay que resolver la ecuación que resulta de igualar a 0 la derivada de la
utilidad respecto a . El resultado es
El primer miembro de la igualdad es la pendiente de la curva ROC. La ecuación nos da un criterio para elegir el
punto de corte: de tal modo que la pendiente en él sea la de la expresión. UVN-UFP es la diferencia en beneficio
entre no tratar a VN y tratar FP. Habitualmente se denomina coste neto (C) de tratar pacientes no enfermos. UVP-
UFN es la diferencia en beneficio entre tratar a VP y no tratar FN. Habitualmente se denomina beneficio neto (B)
de tratar sujetos enfermos. Con estas consideraciones la fórmula anterior se puede escribir como
La pendiente de la curva en cada punto se puede

estimar o ajustando los puntos a una curva y calculando
la pendiente (máxima verosimilitud) o, cuando se
analizan polígonos en lugar de curvas ROC (lo más
frecuente), del siguiente modo: la pendiente del primer
tramo (marcado en verde en la gráfica: recuérdese que
la pendiente es la tangente del ángulo, es decir el
cateto opuesto (Sen) dividido por el contiguo (1-Esp))
es el CP del primer punto de corte, para los demás
tramos (marcado en rojo el segundo) el cociente entre
el cambio de la sensibilidad y el cambio de la
especificidad y finalmente a cada punto se le asigna

como pendiente el promedio de los tramos respectivos.
Ejemplo: calcular las pendientes del polígono ROC del ejemplo del VCM.
La pendiente en el primer tramo es 0,088/0,015=5,87; en el segundo tramo (0,206-0,088)/(0,061-0,015)=2,57; por

tanto la pendiente para el primer punto es (5,87+2,57)/2=4,22. Repitiendo el mismo cálculo para todos los puntos
resulta:
Punto Corte Pendiente
65 4,22
70 2,25
75 1,62
80 1,08
85 0,84
90 0,65
92 0,32
Ejemplo: Usando la tabla anterior, decidir el punto de corte óptimo para un paciente con probabilidad preprueba de
0,3 y otro de 0,6.
Hay que establecer también las utilidades:
UVP: El paciente tiene la enfermedad y la prueba lo detecta. Asumiendo que la anemia ferropénica tenga un
tratamiento eficaz y seguro le ponemos 1 (el máximo, si no hubiera tratamiento le pondríamos 0, incluso negativo
si al paciente le causara angustia un diagnóstico fatal).
UFN: El paciente tiene la enfermedad y la prueba no lo detecta. Las consecuencias serían otras pruebas, que
implican gasto y retraso en el verdadero diagnóstico (asumo que pasado un tiempo de no mejoría se replantearía
el problema) UFN=-0,3.
Es decir el beneficio neto B=1-(-0,3)=1,3
UVN: El paciente no tiene la enfermedad y la prueba no la detecta. Asumiendo que la anemia no ferropénica
tenga tratamiento menos eficaz y menos seguro le ponemos 0,7.
UFP: El paciente no tiene la enfermedad pero la prueba la detecta. Las consecuencias serían tratamiento
inadecuado (anemia ferropénica) pero sin efectos adversos, que implica gasto y retraso en el verdadero
diagnóstico (asumo que pasado un tiempo de no mejoría se replantearía el problema) UFN=-0,5. Si el tratamiento
tuviera efectos adversos podría ser -0,8 o menos.

El coste neto C=0,7-(-0,5)=1,2
para ppre=0,3 la pendiente óptima sería
pend = (1,2/1,3) x (0,7/0,3) = 2,15 que según la tabla anterior correspondería a un punto de corte un poco por
encima de 70.
para ppre=0,6 la pendiente óptima sería
pend = (1,2/1,3) x (0,4/0,6) = 0,62 que según la tabla anterior correspondería a un punto de corte un poco por
encima de 90.
Ejemplo: El estudio PIOPED (Prospective Investigation Of Pulmonar Embolism Diagnosis), evaluó la gammagrafía
V/Q para el diagnóstico del EP usando la arteriografía como "gold standar". Los resultados para distintos puntos de
corte fueron:
Arterio
gam. + - Sen 1-Esp Pendiente
alta 102 14 0,41 0,03 7,29
inter 207 231 0,82 0,48 0,65
baja 246 430 0,98 0,90 0,38
norm 251 480
con un área bajo la curva de 0,76 y un EE de 0,019.
Con estos datos los puntos de corte para distintas situaciones clínicas son:
P(E) 1/odds C/B Pendiente Nivel
0,34 1,92 0,5 0,96 inter
0,34 1,92 2 3,84 *
0,15 5,67 0,5 2,84 *
0,15 5,67 2 11,34 >alta
* niveles intermedios entre alta e intermedia que habría que investigar.
Referencias
Metz C.E. (1978) Basic principles of ROC analysis. Semin Nucl Med. 8: 283-298.
The PIOPED Investigators (1990) Value of the ventilation/perfusion scan in acute pulmonary embolism. Results of
the prospective investigation of pulmonary embolism diagnosis (PIOPED). JAMA. 263: 2753-2759.

Sesgos en la evaluación de pruebas diagnósticas
Sesgos en la evaluación de pruebas diagnósticas
Los más frecuentes en este tipo de estudio son:
Sesgo de confirmación diagnóstica al limitar el estudio a los pacientes a quienes se les hizo
en su día el "gold standard" que suelen ser los que más probablemente tengan la enfermedad,
por tanto las pruebas positivas están sobre-representadas (sobreestimación de la sensibilidad)
y las negativas infra-representadas (infraestimación de la especificidad). Frecuentemente es
imposible evitarlo por razones éticas. Hay técnicas matemáticas complejas para controlarlo.
Sesgo de interpretación de las pruebas si no se hacen independientemente.
Sesgo debido a resultados no interpretables de la prueba problema si dicho problema no

tiene la misma frecuencia en ambos grupos.
Ausencia de gold standard definitivo.
Condiciones de generalización
Espectro de la enfermedad ("Case mix") Una prueba puede tener distintos grados de
exactitud para diferentes grados de severidad de la enfermedad. Deben siempre comunicarse
las características clínicas de los pacientes incluidos en el estudio.
Variabilidad interobservador: Todas las pruebas (unas más que otras) requieren cierto
grado de pericia en su realización e interpretación. Dos observadores pueden ser igualmente
exactos pero ser uno más sensible o específico que otro, en otras palabras operar con la
misma curva ROC pero en puntos distintos o pueden tener distinta exactitud (operar en la
misma prueba con distinta curva ROC).
http://www.hrc.es/bioest/roc_3.html [02/01/2003 01:19:27]

Modelos de regresión logística
MODELOS DE REGRESION LOGISTICA
V. Abraira
Bibliografía:
V. Abraira, A.Pérez de Vargas

L.C. Silva Ayçaguer

Excursión a la regresión logística en Ciencias de la Salud
Díaz de Santos. 1995
D.W. Hosmer, S. Lemeshow

Applied Logistic Regression.
John Wiley & Sons. 1989.
Asociación entre variables binomiales
Se dice que un proceso es binomial cuando sólo tiene dos posibles resultados:
"éxito" y "fracaso", siendo la probabilidad de cada uno de ellos constante en una
serie de repeticiones. A la variable número de éxitos en n repeticiones se le
denomina variable binomial. A la variable resultado de un sólo ensayo y, por
tanto, con sólo dos valores: 0 para fracaso y 1 para éxito, se le denomina
binomial puntual.
Un proceso binomial está caracterizado por la probabilidad de éxito,

representada por p (es el único parámetro de su función de probabilidad), la
probabilidad de fracaso se representa por q y, evidentemente, ambas
probabilidades están relacionadas por p+q=1. En ocasiones, se usa el cociente
p/q, denominado "odds", y que indica cuánto más probable es el éxito que el
fracaso, como parámetro característico de la distribución binomial aunque,
evidentemente, ambas representaciones son totalmente equivalentes.
Los modelos de regresión logística son modelos de regresión que permiten

estudiar si una variable binomial depende, o no, de otra u otras variables (no
necesariamente binomiales): Si una variable binomial de parámetro p es
independiente de otra variable X, se cumple p=p|X, por consiguiente, un modelo
de regresión es una función de p en X que a través del coeficiente de X permite
investigar la relación anterior.
Ejemplo 1: Se quiere comparar la eficacia de dos tratamientos alternativos para

una misma enfermedad. Asumiendo que el proceso "curar" sólo tiene dos
resultados: sí o no y que la probabilidad de curación es la misma para todos los
enfermos, se trata de un proceso binomial. Se trata de ver si este proceso está
asociado, o no, con el tratamiento, es decir, si la probabilidad de curación dado
http://www.hrc.es/bioest/Reglog_1.html (1 of 4) [02/01/2003 01:25:57]

el tratamiento A es igual, o distinta, a la probabilidad de curación dado el

tratamiento B. Supóngase que sobre una muestra aleatoria de 40 enfermos,
dividida aleatoriamente en dos grupos de 20, a cada uno de los cuales se le
suministra un tratamiento, se obtienen los siguientes resultados:
tratamiento. A tratamiento. B
(X=1) (X=0)
curación 18 13
no 2 7
Total 20 20
Si se define la variable tratamiento como X=1 para el tratamiento A y X=0 para

el B, a partir de la tabla podemos estimar la probabilidad de curación para el
tratamiento B: p|(X=0)=13/20 y para el tratamiento A: p|(X=1)=18/20 Como
ambas probabilidades son distintas, "parece" que la probabilidad de curación
depende del tratamiento. Las preguntas son: ¿esta dependencia es
generalizable ("estadísticamente significativa")? ¿cuánto depende ("clínicamente
relevante")?
La primera pregunta la podemos resolver mediante la prueba χ2, la segunda

mediante las denominadas "medidas de asociación", o "de fuerza de la
asociación", o "de efecto": diferencia de riesgo (DR), riesgo relativo (RR) y "odds
ratio" (OR). En el ejemplo:
DR: 18/20 - 13/20 = 5/20 =0,25
RR: (18/20)/(13/20) = 18/13 = 1,38
OR: ((18/20)/(2/20))/(13/20)/(7/20) =(18x7)/(13x2) = 4,85
DR es 0 en caso de no diferencia, mientras que RR y OR son ambos 1.

Recordemos que el OR, aunque es la medida menos intuitiva1,2, es la más
extendida por diversas razones y que es conveniente que a estas estimaciones
puntuales las acompañemos de su intervalo de confianza que nos indica la
precisión de la estimación.
Ejemplo 2: Para refrescar los conceptos de odds ratio y riesgo relativo. Sean
dos juegos, en uno (X=0) se apuesta sobre la salida de una cierta cara en una
tirada de un dado, y en otro (X=1) sobre la salida de una cara en la tirada de una
moneda. Evidentemente, la probabilidad de ganar es para el dado p|(X=0)=1/6 y
para la moneda p|(X=1)=1/2 El riesgo relativo es:

que, como es distinto de 1, quiere decir que la probabilidad de ganar está

asociada al tipo de juego, y que es 3 veces más probable ganar con la moneda
que con el dado. El odds ratio para este ejemplo es:
el odds para la moneda es 5 veces el odds del dado, es decir, a la larga la razón
de partidas ganadas/perdidas es 5 veces mayor para la moneda que para el
dado. Para decidir a que juego interesa jugar hay que comparar este odds ratio
con la razón de los cocientes entre lo que se puede ganar y perder en cada
jugada en ambos juegos. El OR está siempre más alejado de 1 que el RR,
aunque cuando las probabilidades son muy pequeñas la diferencia (entre el OR
y el RR) es pequeña.
Se trata, ahora, de comparar el juego de la lotería nacional (X=1) en el que el

premio es para un número extraído de entre 100.000, con el de la lotería
primitiva (X=0) en que se premia una combinación de 6 números de entre las
que se pueden formar con 49 números. Resulta p|(X=1)=1/100.000. El número
de combinaciones de 6 números que se pueden formar con 49 es
C49;6=13.983.816 por lo tanto p|(X=0)=1/13.983.816 y:
es aproximadamente 140 veces más probable ganar en el juego de la lotería

que en el de la lotería primitiva. El odds ratio para este ejemplo es:
que, como era de esperar, debido a los pequeños valores de p|X=1 y p|X=0 es
prácticamente igual que el riesgo relativo (recordar cuando la prevalencia es
baja, el OR estima el RR).
1 Odds ratios should be avoided when events are common. Altman DG et al.
BMJ. 317:1318. 1998

2 When can odds ratios mislead? Davies HTO et al. BMJ. 316:989-991. 1998
3 Medidas del efecto de un tratamiento (I): reducción absoluta del riesgo,

reducción relativa del riesgo y riesgo relativo. Abraira V. SEMERGEN 26: 535-
536. 2000.
4 Medidas del efecto de un tratamiento (II): odds ratio y número necesario para
tratar. Abraira V. SEMERGEN 27: 418-420. 2001.

Modelo de Regresión logística simple
Modelo de regresión logística simple
Para una única variable independiente X, el modelo de regresión logística toma

la forma:
o, para simplificar la notación, simplemente:
donde ln significa logaritmo neperiano, α0 y α1 son constantes y X una variable

que puede ser aleatoria o no, continua o discreta. Este modelo se puede
fácilmente generalizar para k variables independientes:
Por simplicidad, vamos a empezar por el modelo simple, extendiéndonos

después al modelo múltiple.
Hay varias razones para plantear el modelo con el logaritmo del odds, en lugar
de plantearlo simplemente con la probabilidad de éxito o con el odds. En primer
lugar, el campo de variación de ln(p/q) es todo el campo real (de -∞ a ∞),
mientras que, para p el campo es sólo de 0 a 1 y para p/q de 0 a ∞. Por lo tanto,
con el modelo logístico no hay que poner restricciones a los coeficientes que
complicarían su estimación. Por otro lado, y más importante, en el modelo
logístico los coeficientes son, como veremos enseguida, fácilmente
interpretables en términos de independencia o asociación entre las variables.
Hay otras formas equivalentes de poner el modelo, de modo que en diferentes

textos se puede ver de otra forma, que para ciertas aplicaciones son más
cómodas de usar:
Estas dos últimas expresiones, si son conocidos los coeficientes, permiten

calcular directamente la probabilidad del proceso binomial para los distintos
valores de la variable X.
A la función:

que aparece en otros muchos campos de la matemática aplicada, y cuya gráfica

se muestra en la figura, se le denomina función logística. El modelo de regresión
logística, por tanto, modeliza la probabilidad de un proceso binomial como la
función logística de una combinación lineal de la(s) variable(s) dependiente(s).
Veamos, ahora, qué significan los coeficientes en el modelo. Supóngase por el

momento que la variable X sólo puede tomar los valores 0 y 1. Para el valor X=0
el modelo queda:
por tanto α0 es el logaritmo del odds cuando la variable independiente es cero.
Para el valor X=1:
por lo tanto:
es decir α1 es el logaritmo del cociente de los odds para los dos valores de la
variable X, u "odds ratio" (OR), Si la variable binomial es independiente de la
variable X, ambos odds son iguales, por lo tanto el odds ratio es 1 y su logaritmo
será cero. Por lo tanto, para estudiar con un modelo logístico la independencia
de las variables, basta con estudiar si el coeficiente α1 es cero.
En el caso que se está considerando de una variable independiente con sólo

dos valores, el riesgo relativo se puede poner, usando las otras formas del
modelo:

Otro modo de expresar estos resultados es decir que es el odds cuando X=0
y el odds ratio entre X=1 y X=0. Si la variable X puede tomar más valores,
evidentemente sigue siendo el odds cuando X=0 y el odds ratio para el
aumento de una unidad en la variable X. Nótese que, por lo tanto, el modelo
implica que este odds ratio es constante. Del mismo modo que en regresión
lineal, cuando no tiene sentido físico X=0 (por ejemplo edad, presión arterial),
se interpreta como el odds basal, es decir, el odds que no depende de la
variable independiente.
Ejemplo 3: Se trata de estudiar el efecto dosis-respuesta para un tratamiento. A

una muestra aleatoria de enfermos se la divide también aleatoriamente en 4
grupos, al primero no se le administra tratamiento, al segundo se le administra
una cierta dosis, digamos 50 mg, al tercero 100 mg y al cuarto 150 mg y, como
en el ejemplo anterior, se mide la respuesta como curación o no curación. Ahora
la variable X tiene 4 valores que pueden ser, bien los mg de cada dosis (0, 50,
100, 150) o bien un código arbitrario para cada dosis (p.e. 0, 1, 2, 3). Si se
plantea un modelo logístico, α0 será el logaritmo del odds de la dosis 0 (el
logaritmo del odds de la curación para los enfermos no tratados) y α1 el
logaritmo del odds ratio por aumento de unidad de dosis. Conviene tener
presente dos aspectos: 1º la dependencia de α1 de la codificación de la variable
X, si se usan los mg la unidad es 1 mg y si se usan los códigos, la unidad es el
cambio de dosis y 2º el modelo asume que el cambio en el logaritmo del odds es
constante, es decir el logaritmo del odds cambia α1 por pasar de la dosis 0 a la
1, o por pasar de la dosis 2 a la 3. ¿Cuánto cambia por pasar de la dosis 0 a la
2?. Según el modelo:
es decir, el cambio en el logaritmo del odds o, lo que es lo mismo, el logaritmo

del odds ratio de la dosis 2 con respecto al no tratamiento es 2 veces el
logaritmo del odds ratio de la dosis 1, por consiguiente el odds ratio de la dosis 2
es el cuadrado del odds ratio de la dosis 1, o dicho de otro modo, el modelo
asume efectos multiplicativos. (ésta es la única asunción del modelo). En
general, para un aumento de la variable X desde x0 a x1, siendo δ = x0 - x1

Ejemplo 4: Para estudiar la posible asociación entre la tuberculosis pulmonar y

el contacto con el ganado vacuno se eligen aleatoriamente 100 enfermos y,
también aleatoriamente, 100 personas no enfermas y se investiga en ambos
grupos dicho contacto. Obsérvese que el diseño del estudio es diferente al de
los ejemplos anteriores (ahora es un estudio caso-control), ahora se extraen dos
muestras de dos poblaciones diferentes (enfermos y no enfermos). El resultado
del estudio puede presentarse también en forma de tabla de doble entrada
similar a la del ejemplo 1:
sin contacto con contacto

(X=0) (X=1)
enfermos A B
no enfermos C D
A partir de esta tabla no se pueden estimar p|X=0 ni p|X=1 ya que los datos para
X=0 y X=1 no provienen de una única muestra. Dado que se ha muestreado
independientemente en enfermos y no enfermos, las probabilidades que sí se
pueden estimar a partir de la tabla son p(X=0|E), p(X=0|nE), p(X=1|E) y
p(X=1|nE) cuyos estimadores son respectivamente A/(A+B), C/(C+D), B/(A+B) y
D/(C+D).
Para calcular a partir de ellos p(E|X=0), p(nE|X=0), p(E|X=1) y p(nE|X=1),

aplicando el teorema de Bayes, sería necesario conocer p(E) y p(nE), para las
que la tabla no ofrece ningún estimador, por consiguiente no se puede estimar el
odds para X=0 ni para X=1. Sí se puede, sin embargo, (aplicando el teorema de
Bayes) estimar el odds ratio y se obtiene:
Obsérvese que, como en el ejemplo anterior, es también el cociente de los

productos cruzados de los elementos de la tabla.
Es decir, con el esquema de muestreo de este ejemplo se puede estimar el odds

ratio, pero no el odds para X=0, o dicho en términos del modelo logístico, se
puede estimar α1, pero no α0. Sin embargo, el estimador de α1 es el mismo que
en los ejemplos anteriores que corresponden a un único proceso de muestreo o
al muestreo de los estudios de cohorte. Dicho de otro modo, cuando se aplica el
modelo logístico a estudios caso-control, el coeficiente α0 no tiene ningún
significado, sin embargo el coeficiente α1 significa lo mismo (y se estima del

mismo modo) que en estudios de cohortes.

Estimación de los coeficientes
Aunque existen otros métodos, el más extendido es el de máxima verosimilitud,

que consiste en maximizar la función de verosimilitud de la muestra. Este
procedimiento es matemáticamente complejo, pero lo que importa para el
usuario es:
1º El proceso es iterativo, es decir se dan a los coeficientes unos valores

arbitrarios (habitualmente, aunque no necesariamente, el valor 0). Algunos
paquetes estadísticos (p.e. el PRESTA) preguntan por estos valores, otros (p.e.
el SPSS o el SAS) no y asumen 0. La solución final no depende de estos
valores pero sí el tiempo de cálculo y a veces puede ser necesario "jugar" con
ellos (lo veremos más adelante).
2º A partir de estos valores iniciales se construye una matriz Γ con los valores
previstos por el modelo para las observaciones de la variable dependiente.
3º A partir de esta matriz y de la matriz X de diseño (construida igual que en

regresión lineal), se calculan los nuevos estimadores, que se comprueba si son
ya la solución, en cuyo caso se para el proceso y en caso contrario se repite el
proceso. En la práctica, y para evitar convergencias asintóticas, también se para
el proceso si los nuevos estimadores difieren de los anteriores en menos de una
cierta cantidad, llamada límite de convergencia.
En este último paso hay que invertir una matriz y eso puede dar problemas
(colinealidad) que veremos más adelante.
Distribución muestral de los estimadores
Hay un teorema (teorema del límite central en la estimación por máxima

verosimilitud) que dice estos estimadores son asintóticamente normales y su
matriz de varianzas-covarianzas es
Σ = -J -1 = -(X'ΓX) -1
y su estimación se calcula, particularizando Σ para los coeficientes estimados.

Recordar que las varianzas de los coeficientes están en la diagonal principal de
esta matriz.
http://www.hrc.es/bioest/Reglog_3.html [02/01/2003 01:27:17]

Intervalos y contrastes
Estimación por intervalos y contrastes de hipótesis sobre los coeficientes
Teniendo en cuenta lo anterior , un intervalo de confianza al (1- α)% para el

coeficiente αi es:
Hay que tener en cuenta que los estimadores habituales de la asociación no son
los coeficientes αi sino los odds ratio, por lo tanto los intervalos de confianza que
interesan calcular son los de los odds ratio. Evidentemente dichos intervalos
están dados por:
El estadístico para el contraste:
H0: αi = a
H1: α i ≠ a siendo a una constante, es:
y la región crítica: |z| > zα/2
o equivalentemente:
que se distribuye como una ji-cuadrado con 1 grado de libertad y, por tanto, la
región crítica para el contraste es . A estos contrastes se les denominan
contrastes de Wald.
Un contraste que interesa realizar es α1=0; si no se puede rechazar esta

hipótesis indica, salvo problemas de potencia del contraste, que la variable Y no
depende de X.
Ejemplo 5: Estimar por máxima verosimilitud los parámetros del modelo

logístico para los datos del ejemplo 1.
Para realizarlo con un paquete estadístico hay que partir de un archivo en que
los datos estén individualizados, es decir un archivo con 40 casos (los enfermos)
con dos variables una para el tratamiento con los valores 0 y 1 y otra para el
resultado, también con dos valores 0: no curación y 1: curación. Sería, por tanto:

Curación Tratamiento
1 0
. . 13 casos
1 0
0 0
. . 7 casos
0 0
1 1
. . 18 casos
1 1
0 1
0 1 2 casos
y el resultado del procesamiento:
Nótese que la estimación del OR coincide con las obtenidas en el ejemplo 1. El

programa ofrece además de las estimaciones de los coeficientes, sus
exponenciales, es decir, el odds para X=0 (1,857) y el odds ratio (4,846), así
como la ji-cuadrado (prueba de Wald) y su valor p asociado para los contrastes
H0: αi=0. Calcula también el intervalo de confianza con un nivel de confianza del
95% para el odds ratio; el hecho de que el intervalo de confianza incluya el 1 es
un modo de ver que, con ese nivel de confianza, no hay diferencia significativa
entre ambos tratamientos, totalmente equivalente al contraste sobre α1
(p=0,073).
Ejemplo 6: En un estudio para ver la dependencia de la dosis en el efecto de un

veneno, se seleccionan aleatoriamente 4 grupos de 4 animales cada uno a los

que se suministran distintas dosis (0, 1, 2, 3) del mismo y se observan las
muertes provocadas. Los resultados se muestran en la siguiente tabla:
Dosis 0 1 2 3
Muertes 0 1 3 3
El resultado de la estimación para la regresión logística es:
El estimador del odds para la dosis 0 (es decir del cociente de la probabilidad de
que un animal muera y la probabilidad de que no muera, en el tiempo del
experimento, si no se le suministra veneno) es 0,068 (es más probable que
sobreviva) aunque no es significativamente distinto de 1 (p=0,052). El estimador
del odds ratio para el aumento de una dosis es 4,539 (es decir el odds se
multiplica por esa cantidad por cada aumento de dosis) y es significativamente
distinto de 1 (p=0,036).
¿Cuál sería el odds para la dosis 2? Se calcula:
también, evidentemente, se puede calcular como:
(la diferencia en la tercera cifra decimal es debida a problemas de precisión)
Para realizar el contraste de si es significativamente distinto de 1 hay que

estimar su varianza:

y, por tanto el estadístico para el contraste:

Modelo múltiple
Modelo múltiple
Es una generalización del modelo simple:
y la interpretación de los coeficientes es también una generalización, es decir,

es el odds cuando todas las Xi=0 y es el odds ratio por el aumento de una
unidad en la variable Xi manteniendo constantes las otras (controlando por
ellas). Nótese que ahora la asunción de "multiplicatividad" del modelo se refiere
tanto al aumento dentro de cada variable, como a las distintas variables y como
antes, cuando no tiene sentido físico Xi=0, se interpreta como el odds basal,
es decir, el odds que no depende de las variables independientes.
Los coeficientes se estiman y los contrastes de hipótesis se realizan del mismo

modo que en el modelo simple, aunque con el modelo múltiple (igual que en
regresión lineal) se pueden hacer contrastes no sólo sobre cada coeficiente,
sino también sobre el modelo completo o para comparar modelos (equivalentes
a los que en regresión lineal se hacen con la F y la Fpar), que en regresión
logística se hacen con el llamado logaritmo del cociente de verosimilitudes (log.
likelihood ratio)
Ejemplo 7: Estudiar, mediante un modelo de regresión logística, la posible

asociación entre el cáncer de vejiga, el consumo de café y el ambiente de
residencia. Se eligen 50 pacientes con cáncer y 50 individuos sin la enfermedad
y se definen tres variables: CANCER con los valores 0 (no cáncer) y 1 (cáncer),
CAFE con los valores 0 (sin consumo de café) y 1 (consumo de café) y MEDIO
con los valores 0 (medio rural) y 1 (medio urbano).
Los resultados se resumen en la tabla siguiente:
café no café
urbano rural urbano rural
Cáncer 32 1 15 2
no cáncer 15 10 15 10
La salida del programa de ordenador (SPSS) (¿cómo sería el archivo?):

Modelo múltiple
La "Ji-cuadrado del modelo" (19,504 è p=0,000) corresponde al contraste para

el modelo completo. Aunque también se puede hacer la prueba para comparar
un modelo con Café y Medio con otro que sólo contenga Café:
En este caso de un bloque con una sola variable, la prueba sería equivalente a
la de Wald para Medio. El que no coincidan exactamente (12,040 la de Wald y
16,864 la del logaritmo del cociente de verosimilitudes) es debido a que ambas
son aproximadas. Si la discrepancia fuera muy grande indicaría que el tamaño
muestral es pequeño para aplicar estas pruebas.
Prueba de Hosmer-Lemeshow
Es otra prueba para evaluar la bondad del ajuste de un modelo de regresión

logística, aunque su uso está más discutido que la anterior. La idea es si el
ajuste es bueno, un valor alto de la p predicha se asociará (con un frecuencia
parecida a la p) con el resultado 1 de la variable binomial. Se trata de calcular
para cada observación del conjunto de datos las probabilidades de la variable
dependiente que predice el modelo, agruparlas y calcular, a partir de ellas, las
frecuencias esperadas y compararlas con las observadas mediante la prueba
χ2.
Ejemplo 8: La prueba de Hosmer-Lemeshow para el modelo del ejemplo

Modelo múltiple
anterior da como resultado:
Área bajo la curva ROC
La prueba de Hosmer-Lemeshow evalúa un aspecto de la validez del modelo: la

calibración (grado en que la probabilidad predicha coincide con la observada).
El otro aspecto es la discriminación (grado en que el modelo distingue entre

individuos en los que ocurre el evento y los que no).
Como medida de la discriminación se usa el área bajo la curva ROC construida

para la probabilidad predicha por el modelo, que representa, para todos los
pares posibles de individuos formados por un individuo en el que ocurrió el
evento y otro en el que no, la proporción de los que el modelo predice una
mayor probabilidad para el que tuvo el evento.
Para el modelo del ejemplo anterior

Modelo múltiple

Variables "dummy"
Variables indicadoras ("dummy")
En los modelos de regresión logística la "multiplicatividad" se asume. Esto, p.e.

para la variable DOSIS del ejemplo 6, quiere decir que el OR para la muerte
(variable dependiente) de la DOSIS 2 con respecto a la DOSIS 0 es el cuadrado
del OR de la DOSIS 1. ¿Es razonable esta asunción?
La solución es la misma que en regresión lineal; crear tantas variables como

categorías menos 1 denominadas variables indicadoras con el siguiente
esquema
X1 X2 X3
Dosis 0 0 0 0
Dosis 1 1 0 0
Dosis 2 0 1 0
Dosis 3 0 0 1
El modelo quedaría
Por lo tanto, para la dosis 0, como las tres variables son 0
es decir es el odds para la dosis 0
Para la dosis 1 el modelo queda
restando ambas expresiones
por lo tanto es el OR de la dosis 1 con respecto a la dosis 0, del mismo modo

es el OR de la dosis 2 con respecto a la dosis 0, etc. El segundo esquema de
codificación visto en regresión lineal no tienen una clara interpretación en
regresión logística, mientras que el tercero tiene una interpretación similar a la

Variables "dummy"
que tenía allí.
Conviene destacar que estas variables indicadoras no tienen ningún sentido por
sí solas y por, lo tanto, deben figurar en los modelos y se debe contrastar su
inclusión siempre en bloque.
Ejercicio propuesto: Para los datos del Ejemplo 6, crear variables "dummy"
para la dosis e interpretrar los coeficientes y comentar las diferencias.

Interacción y confusión en regresión logística
Interacción y confusión en la regresión logística
Los modelos de regresión, como en el caso lineal, pueden usarse con dos
objetivos: 1) predictivo en el que el interés del investigador es predecir lo mejor
posible la variable dependiente, usando un conjunto de variables independientes
y 2) estimativo en el que el interés se centra en estimar la relación de una o más
variables independientes con la variable dependiente. El segundo objetivo es el
más frecuente en estudios etiológicos en los que se trata de encontrar factores
determinantes de una enfermedad o un proceso.
La interacción y la confusión son dos conceptos importantes cuando se usan los

modelos de regresión con el segundo objetivo, que tienen que ver con la
interferencia que una o varias variables pueden realizar en la asociación entre
otras.
Existe confusión cuando la asociación entre dos variables difiere

significativamente según que se considere, o no, otra variable, a esta última
variable se le denomina variable de confusión para la asociación. Existe
interacción cuando la asociación entre dos variables varía según los diferentes
niveles de otra u otras variables.
Veamos también aquí estos conceptos sobre los modelos. El modelo más
sencillo para estudiar la asociación entre una variable binomial y otra variable X1
es
ln(p/q) = α0 + α1X1
donde α1 cuantifica la asociación: es el odds ratio por unidad de cambio en

X1. Se dice que X2 es una variable de confusión para esta asociación, si el
modelo
ln(p/q) = α0 + α1X1 + α2X2
produce una estimación para α1 diferente del modelo anterior. Evidentemente

esta definición se puede ampliar a un conjunto de variables, se dice que las
variables X2, ..., Xk son variables de confusión si la estimación de α1 obtenida
por el modelo
ln(p/q) = α0 + α1 X1 + α2 X2 + ... + αk Xk
es diferente de la obtenida en el modelo simple. En ambos casos se dice que la

estimación de α1 obtenida en los modelos múltiples está controlada o ajustada
por X2 o por X2 ,..., Xk
Contrastar la existencia de confusión requiere, por lo tanto, comparar los

coeficientes de regresión obtenidos en dos modelos diferentes y si hay

diferencia, existe la confusión, en cuyo caso la mejor estimación es la ajustada.
Para dicha comparación no se precisa realizar un contraste de hipótesis
estadístico ya que aunque la diferencia encontrada sea debida al azar,
representa una distorsión que la estimación ajustada corrige. Será el
investigador quién establezca el criterio para decidir cuando hay diferencia. Lo
habitual es considerar que existe confusión cuando la exponencial del
coeficiente (el OR) cambia en más del 10%.
El modelo más sencillo que hace explícita la interacción entre dos variables X1 y
X2 es
ln(p/q) = α0 + α1 X1 + α2 X2 + α3 X1 X2
En este modelo, el logaritmo del odds para unos valores determinados x1, x2 de
X1, X2 es
ln(p/q) = α0 + α1 x1 + α2 x2 + α3 x1 x2
y para los valores x1 + 1 y x2
ln(p/q) = α0 + α1(x1 + 1) + α2 x2 + α3 (x1 + 1) x2 = α0 + α1 x1 + α1 + α2 x2 + α3

x1 x2 + α3 x2
restando ambas se encuentra el cambio en ln(p/q) por una unidad de cambio en

X1 manteniendo fijo X2
α1 + α3 x2
o dicho de otra manera, el odds ratio por una unidad de cambio en X1

manteniendo fijo X2 es
que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en ln(p/q)
por una unidad de cambio en X2 manteniendo fijo X1 es
α2 + α3 x1, o en términos del OR, el odds ratio por una unidad de cambio en X2
manteniendo fijo X1 es
Por lo tanto, contrastar la existencia de interacción entre X1 y X2 es contrastar si

el coeficiente α3 es cero (no hay interacción), o distinto de cero (existe

interacción). Nótese que para poder interpretar así este contraste es necesario
que en el modelo figuren las variables X1, X2 y X1X2.
En caso de que exista interacción los coeficientes los exponenciales de α1 y α2

por sí solos no significan nada y la asociación de las variables X1 y X2 con la
binomial estará cuantificada por las expresiones anteriores.
Es obvio que primero debe contrastarse la interacción y después, en caso de

que no exista, la confusión.
Ejemplo 9: Estudiar para los datos del ejemplo 7 la posible interacción y/o
confusión.
Para estudiar interacción hay que crear la variable producto CAFXME. El

modelo completo es:
como ya se dijo antes, para este esquema de muestreo el coeficiente α0 no

significa nada, α1 es el aumento del logaritmo del odds por consumir café en un
ambiente rural, α2 es el aumento del logaritmo del odds por vivir en un ambiente
urbano, con respecto al rural, sin consumir café y α3 modeliza la posible
interacción o dicho en otros términos el "sobreaumento" por ambas cosas
(consumir café en un medio urbano). El primer contraste a realizar es sobre la
interacción, es decir, H0: α3=0.
La salida del SPSS para este modelo es:
Con la prueba del logaritmo del cociente de verosimilitudes, el modelo completo

es significativo (p=0,000). Con la prueba de Wald para el término de interacción,

no se puede rechazar (p=0,296) la hipótesis nula de no existencia de interacción
y, por tanto, habría que volver a ajustar a un modelo que tuviera solamente las
variable CAFE y MEDIO (el del ejemplo 7). Sin embargo, y a efectos didácticos,
se va a estudiar el efecto de un error de tipo II en dicho contraste. Supóngase,
por lo tanto, que el coeficiente α3 es realmente distinto de 0. En este caso no
puede hablarse de un odds ratio para el café, sino que habría un odds ratio para
el café en el medio rural y otro distinto en el medio urbano. Según el modelo, el
odds ratio estimado para el café en el medio rural es:
y su intervalo de confianza al 95%:
Nótese que éste es el intervalo de confianza que presenta el programa cuya

salida se está analizando. No presenta, sin embargo, el que se va a calcular
ahora. En general, los paquetes estadísticos calculan los intervalos de confianza
asumiendo que no hay términos de interacción y, por tanto, son sólo
parcialmente válidos cuando existe interacción.
Ahora, el odds ratio estimado para el café en el medio urbano es:
para calcular su intervalo de confianza se necesita estimar la varianza de
y, por tanto, su intervalo de confianza al 95%:
Obsérvese que en el caso de que exista interacción, los resultados son

radicalmente distintos para el medio urbano (el odds ratio para el café es 2,134)
que para el medio rural (el odds ratio para el café es 0,5). Si se comparan estos
resultados con los del modelo sin el término de interacción:
se observa, como era de esperar, un estimador para el odds ratio del café,
intermedio entre los calculados en el supuesto anterior. Conviene, por
consiguiente, calcular la potencia del contraste con el que se rechazó la
existencia de interacción. El contraste fue:
H0: α3 = 0
H1: α3 ≠ 0
y la potencia es: 1 – β = Prob(rechazar H0|H1 verdadera). Con el nivel de

significación α=0,05, se rechaza H0 si
es decir si
Concretando H1, por ejemplo α3=1, se trata de calcular la probabilidad de

encontrar
si α3 fuera 1. Teniendo en cuenta la normalidad de :
es decir, la potencia del contraste es efectivamente muy baja y habría que ser
muy prudente a la hora de comunicar los resultados de este estudio.


Debido a los dos objetivos distintos que un análisis de regresión puede tener es
difícil establecer una estrategia general para encontrar el mejor modelo de
regresión, es más, el mejor modelo significa cosas distintas con cada objetivo.
En un análisis predictivo el mejor modelo es el que produce predicciones más

fiables para una nueva observación, mientras que en un análisis estimativo el
mejor modelo es el que produce estimaciones más precisas para el coeficiente
de la variable de interés.
En ambos casos se prefiere el modelo más sencillo posible (a este modo de

seleccionar modelos se le denomina parsimonia), de modo que en un análisis
estimativo, se puede excluir del modelo una variable que tenga un coeficiente
significativamente distinto de cero y que su contribución a la predicción de la
variable dependiente sea importante, porque no sea variable de confusión para
la variable de interés (el coeficiente de dicha variable no cambia), en un análisis
predictivo esa variable no se excluiría.
Sin embargo, hay una serie de pasos que deben realizarse siempre:
i) Especificación del modelo máximo.
ii) Especificación de un criterio de comparación de modelos y definición de una
estrategia para realizarla.
iii) Evaluación de la fiabilidad del modelo.
i) Especificación del modelo máximo
Se trata de establecer todas las variables que van a ser consideradas.

Recuérdese que el modelo saturado (el máximo que se puede considerar) tiene
n - 1 variables pero que, en general, el modelo saturado no tiene interés y el
modelo máximo deberá tener menos variables independientes que el modelo
saturado (un criterio habitual es incluir como máximo una variable cada 10
eventos).
El criterio para decidir qué variables forman el modelo máximo lo establece el

investigador en función de sus objetivos y del conocimiento teórico que tenga
sobre el problema, evidentemente cuanto menor sea el conocimiento previo
mayor tenderá a ser el modelo máximo.
Un modelo máximo grande minimiza la probabilidad de error tipo II o infraajuste,

que en un análisis de regresión consiste en no considerar una variable que
realmente tiene un coeficiente de regresión distinto de cero.
Un modelo máximo pequeño minimiza la probabilidad de error tipo I o

sobreajuste (incluir en el modelo una variable independiente cuyo coeficiente de
regresión realmente sea cero).
Debe tenerse en cuenta también que un sobreajuste, en general, no introduce

sesgos en la estimación de los coeficientes (los coeficientes de las otras

variables no cambian), mientras que un infraajuste puede producirlos, pero que
un modelo máximo grande aumenta la probabilidad de problemas de
colinealidad.
En el modelo máximo deben considerarse también los términos de interacción

que se van a introducir (en un modelo estimativo sólo interesan interacciones
entre la variable de interés y las otras)
ii) Comparación de modelos
Debe establecerse cómo y con qué se comparan los modelos. Si bien hay varios
estadísticos sugeridos para comparar modelos, el más frecuentemente usado es
el logaritmo del cociente de verosimilitudes, recordando que cuando los dos
modelos sólo difieren en una variable, el contraste con el logaritmo del cociente
de verosimilitudes es equivalente al contraste de Wald, pero a veces interesa
contrastar varias variables conjuntamente mejor que una a una (por ejemplo
todos los términos no lineales) o, incluso, es necesario hacerlo (por ejemplo
para variables indicadoras).
Hay que hacer notar que en un análisis estimativo el criterio para incluir o excluir
variables distintas a las de interés, es sobre todo los cambios en los coeficientes
y no los cambios en la significación del modelo.
Los distintos modelos a comparar se pueden construir de dos formas: por

eliminación o hacia atrás ("backward") y por inclusión o hacia adelante
("forward").
Con la primera estrategia, se ajusta el modelo máximo y se calcula el logaritmo

del cociente de verosimilitudes para cada variable como si fuera la última
introducida (que es equivalente al contraste de Wald para esa variable), se elige
el menor de ellos y se contrasta con el nivel de significación elegido. Si es mayor
o igual que el valor crítico se adopta este modelo como resultado del análisis y si
es menor se elimina esa variable y se vuelve a repetir todo el proceso hasta que
no se pueda eliminar ninguna variable.
Con la estrategia hacia adelante, se empieza con un modelo de una variable,

aquella que presente el mejor logaritmo del cociente de verosimilitudes. Se
calcula el logaritmo del cociente de verosimilitudes para la inclusión de todas las
demás, se elige el menor de ellos y se contrasta con el nivel de significación
elegido. Si es menor que el valor crítico, se para el proceso y se elige el modelo
simple como mejor modelo, y si es mayor o igual que dicho valor crítico, esa
variable se incluye en el modelo y se vuelve a calcular el logaritmo del cociente
de verosimilitudes para la inclusión de cada una de todas las restantes, y así
sucesivamente hasta que no se pueda incluir ninguna más.
Una modificación de esta última estrategia es la denominada "stepwise" que

consiste en que, cada vez que con el criterio anterior se incluye una variable, se
calculan los logaritmos del cociente de verosimilitudes de todas las incluidas
hasta ese momento como si fueran las últimas y la variable con menor logaritmo
del cociente de verosimilitudes no significativo, si la hubiera, se elimina. Se
vuelven a calcular los logaritmos del cociente de verosimilitudes y se continua
añadiendo y eliminando variables hasta que el modelo sea estable.
Las variaciones a estas estrategias consisten en que, con cualquiera de ellas, se

puede contrastar varias variables en lugar de una sola y que, en aplicación del
principio jerárquico, cuando se contrasta un término de interacción, el modelo
debe incluir todos los términos de orden inferior y, si como resultado del
contraste, dicho término permanece en el modelo, también ellos deben
permanecer en el mismo, aunque no se pueda rechazar que los coeficientes
correspondientes no son distintos de cero.
En cualquier caso, puede ser peligroso aplicar cualquiera de estas estrategias

automáticamente (con un paquete estadístico, por ejemplo) por lo que se ha
comentado más arriba sobre los distintos criterios dependiendo del objetivo del
estudio, los términos de interacción y las variables indicadoras.
Ejemplo 10
Estimar el efecto de los receptores de progesterona en la mortalidad de

pacientes operadas de cáncer de mama. Datos: serie de 152 mujeres operadas
entre Oct 89 y Ene 92; 51 de ellas muertas por el tumor. Tenemos: las fechas de
nacimiento y cirugía, grado histológico (1, 2 y 3), tamaño del tumor (en cm),
número de ganglios afectados, y receptores de estrógenos y progesterona.
El modelo máximo estaría formado por las variables: receptores de

progesterona (por ser la variable de interés), estrógenos, edad, tamaño, grado y
número de ganglios (por si son variables de confusión); podemos considerar
también el término de interacción entre los receptores de progesterona y el
tamaño; como grado histológico está codificado en 3 niveles podría ser
conveniente analizarlo a través de 2 variables indicadoras
Para decidir si grado histológico se introduce en el modelo como está o con

variables indicadoras, se compara el modelo que la contenga como está con
otro que tenga las indicadoras.
a) modelo con grado histológico en una sola variable

b) modelo con grado histológico con dos variables indicadoras
De acuerdo a la prueba del logaritmo del cociente de verosimilitudes, el modelo

ajusta ligeramente peor con las variables indicadoras, se observa también que la
variable no cumple la asunción de “multiplicatividad” (el coeficiente de la
indicadora GRADO(2) (1,882) no es el doble del de GRADO(1) (1,398) o,
equivalentemente, el OR correspondiente a GRADO(2) (6,569) no es el
cuadrado del correspondiente a GRADO(1) (4,045), si bien la estimación de
ambos ORs es muy imprecisa (ICs tan amplios que incluyen la desviación de la
multiplicatividad) debido a que sólo hay 10 individuos en la categoría que se
está usando como referencia. En consecuencia, usaremos la variable original.
Hay que resaltar que solo hay 51 eventos, que son insuficientes para estudiar un
modelo máximo de 7 variables
Se ajusta el modelo máximo

La variable menos significativa es EDAD, la eliminamos para evaluar si es

variable de confusión.
Ni el OR de RP, ni el de RP por TAMAÑO han cambiado, por lo tanto EDAD no

es una variable de confusión y puede ser eliminada; la menos significativa ahora
es RP, que no puede ser eliminada en este punto (por el principio jerárquico y
por ser nuestra variable de interés), la siguiente es RE, que la eliminamos

Tampoco ahora han cambiado ni el OR de RP, ni el de RP por TAMAÑO, por lo

tanto RE no es una variable de confusión y puede ser eliminada; la menos
significativa ahora es RP, que por las mismas razones que antes no puede ser
eliminada y la siguiente RP por TAMAÑO, que es la que eliminamos (no existe
interacción entre RP y TAMAÑO).
La menos significativa es GRADO
El OR de RP no ha cambiado, por tanto se puede eliminar GRADO; la menos

significativa ahora es TAMAÑO

que tampoco es variable de confusión y por lo tanto puede ser eliminada. La

variable GANGLIO es significativa, pero en aplicación del principio de
parsimonia podría eliminarse del modelo si no fuera variable de confusión
Efectivamente no es variable de confusión y este último será el modelo final.
iii) Evaluación de la fiabilidad del modelo
Una vez encontrado el mejor modelo hay que evaluar su fiabilidad, es decir,
evaluar si se comporta igual en otras muestras extraídas de la misma población
(reproducibilidad) y/o de otras similares (transportabilidad).
Lo veremos con detalle más adelante
Otras lecturas
aplicaciones biomédicas de la regresión múltiple. Medicina Clínica.
2001;116:741-745.

Reglog
La colinealidad en regresión logística
Observando la fórmula para la estimación de los coeficientes y la de la matriz de

varianzas de los mismos, se comprueba que la matriz J=X’ΓX juega, en la
regresión logística, el mismo papel que la X'X en la regresión lineal, es decir,
hay que invertirla tanto para estimar los coeficientes como sus varianzas. Por
consiguiente, si la matriz J es singular el modelo es irresoluble y si es casi-
singular existen problemas de precisión numérica y estadística, siendo, además,
inestable la estimación.
Aunque, estrictamente, no es un problema de colinealidad (aparece la matriz Γ y

por lo tanto no es la colinealidad entre variables lo que hace que dicha matriz
sea singular) se sigue hablando, por analogía, de colinealidad y, lo que es más
importante, el diagnóstico de la misma se hace de la misma manera, es decir,
calculando los índices de condición para la matriz J, también escalada para que
su diagonal principal esté formada por unos, y calculando a partir de los
autovectores de la misma, la matriz de descomposición de la varianza de los
estimadores. Evidentemente, por no ser un problema de colinealidad, el factor
de inflación de la varianza no es útil ahora.
Una dificultad añadida en la regresión logística es que la matriz J no depende

sólo de los datos, sino también de los coeficientes del modelo (a través de Γ) y
pudiera darse el caso de que, en el proceso iterativo de estimación y para unos
ciertos valores iniciales de los coeficientes, J fuera singular en algún paso del
proceso alejado de la solución final y que, sin embargo, si se partiera de otros
valores iniciales se pudiera acabar la estimación sin problemas. También puede
ocurrir que, debido a la falta de precisión ligada a la casi-colinealidad de algún
paso intermedio, el método de Newton-Raphson no convergiera para unos
valores iniciales y, sin embargo, sí convergiera para otros. En caso de que
aparezcan estos problemas, un modo de minimizarlos es, ayudándose del
diagnóstico de colinealidad, intentar la estimación con distintos valores iniciales,
incluyendo estimaciones aproximadas de los coeficientes.
Ejemplo 10
Realizar el diagnóstico de colinealidad para el modelo del ejemplo 9. El SPSS

(ver 10.0) no realiza el diagnóstico de colinealidad, de modo que la salida que se
presenta aquí es la del PRESTA. Para los coeficientes estimados, los índices de
condición y la matriz de descomposición de varianzas son:
REGRESION LOGISTICA CON LOS COEFICIENTES
Const.: -1.6094 CAFE: -.6932 MEDIO: 1.6094 CAFXME:

1.4508
FACTOR AUTOVALOR INDICE CONDICION

Reglog
1 3.41484 1.00000
2 .47826 2.67211
3 .08687 6.26991
4 .02004 13.05337
PROPORCION DE VARIANZA EN LOS

FACTORES
FACTOR Const. CAFE MEDIO CAFXME
1 .0059 .0039 .0057 .0037
2 .0472 .0273 .0370 .0264
3 .3060 .1064 .3113 .0878
4 .6409 .8624 .6460 .8821
El mayor índice de condición es 13,05; por lo tanto para este modelo no

aparecen problemas de colinealidad.

Regresión logística condicional
La función de verosimilitud a partir de la que se estiman los coeficientes del modelo

logístico, asume que los datos son una muestra aleatoria de una variable binomial
puntual. Es, junto con el modelo, la única asunción para la estimación y los contrastes
de hipótesis realizados. Sin embargo, y como se ha visto en algunos ejemplos,
cuando se estudian variables binomiales con baja probabilidad (por ejemplo,
enfermedades raras) se suelen usar otros esquemas de muestreo. Sería muy poco
eficiente elegir una muestra aleatoria de la población para estudiar, por ejemplo, algún
tipo de cáncer, ya que se necesitaría un gran tamaño muestral para que hubiera
suficientes enfermos en la muestra. Es por ello por lo que se usa el esquema caso-
control o el llamado esquema apareado en el que el muestreo en las dos poblaciones
se hace introduciendo restricciones para que las muestras de ambas queden en
estratos homogéneos con respecto a alguna variable ajena a las variables de interés.
Por ejemplo, y para evitar la posible confusión debida a la edad, en el problema del
ejemplo 7, se muestrearía de tal modo que los enfermos y los no enfermos quedaran
en estratos homogéneos según grupos de edad, es decir, se definirían, por ejemplo, 5
grupos de edad y se muestrearía independientemente para cada uno de ellos 10
enfermos y 10 no enfermos. Evidentemente, el esquema caso-control es un caso
particular del esquema apareado (un sólo estrato) y la función de verosimilitud para
ambos tipos de estudios no es la considerada hasta ahora que se conoce como
función de verosimilitud no condicional y la estimación basada en ella como
estimación no condicional. Existe también la llamada función de verosimilitud
condicional aplicable a los estudios apareados.
Conviene destacar que, no obstante, se puede demostrar que en los diseños caso-
control, si las probabilidades de elegir a los individuos en ambos grupos son
independientes de las variables independientes del modelo, las estimaciones, tanto de
los coeficientes como de su matriz de varianzas, a partir de las funciones de
verosimilitud condicional y no condicional producen los mismos resultados, aunque,
como ya se ha dicho en este caso el coeficiente α0 no tiene ningún significado. Hay
que destacar también el riesgo de sesgo en la estimación si no se cumple la condición
anterior (y no siempre es fácil de cumplir), sobre todo cuando el tamaño muestral es
pequeño.
En la práctica, debido al enorme tiempo de cálculo necesario, la función condicional

sólo se usa para estudios apareados y para estudios caso-control de pequeño tamaño
muestral. Para estudios caso-control de tamaño muestral grande se usa la estimación
no condicional. El límite entre qué se entiende aquí por grande y pequeño lo establece
el tiempo de cálculo.
Ejemplo 11
Un diseño típico de un estudio apareado es el siguiente: para estudiar, p.e., la

asociación entre la hepatitis B y el consumo de alcohol se seleccionan al azar 10
enfermos de hepatitis y para cada uno de ellos se selecciona también al azar 2
personas no enfermas con su mismo sexo y edad (es una manera de evitar que
influyan en el resultado los distintos hábitos alcohólicos de los distintos grupos de
edad y sexo) y para todos ellos se registra el consumo diario de alcohol en gramos y
el consumo de otras drogas como 0: no y 1: sí. Se han creado, por tanto, 10 estratos y

en cada uno de ellos el muestreo es independiente, por tanto la función de

verosimilitud a usar es la condicional. Unos resultados hipotéticos, codificando 0:
hepatitis y 1: no hepatitis, pueden ser:
hepatitis alcohol drogas estrato
0 15 1 1
1 10 0 1
1 0 0 1
0 70 1 2
1 20 0 2
1 30 0 2
0 40 1 3
1 40 0 3
1 0 0 3
0 10 0 4
1 20 1 4
1 50 0 4
0 30 1 5
1 10 0 5
1 20 0 5
0 80 0 6
1 20 0 6
1 30 0 6
0 50 1 7
1 35 0 7
1 10 0 7
0 60 1 8
1 5 0 8
1 10 0 8

0 90 0 9
1 65 0 9
1 5 0 9
0 30 1 10
1 10 0 10
1 40 0 10
Para realizar el análisis de estos datos usando regresión logística condicional (con el
PRESTA) y con una estrategia hacia adelante se empezaría con el modelo simple:
NOMBRE DE LOS DATOS: hepati
VARIABLE DEPENDIENTE: HEPA
NUMERO DE VARIABLES INDEPENDIENTES: 1 A SABER

ALCO
NUMERO DE ESTRATOS: 10 DEFINIDOS POR ESTRA

NUMERO MAXIMO DE ITERACIONES: 20
CONVERGENCIA OBTENIDA EN 6 ITERACIONES
VARIABLE ALFA EXP(ALFA) EE. ALFA Ji2 p
ALCO .06021 1.06206 .02824 4.54553 .03116
LOG. MAX. VEROSIMILITUD= -6.78267

Ji-Cuadrado= 8.40690 G.L.= 1 p= .00387
INTERVALOS DE CONFIANZA AL 95% DE LOS "ODDS RATIO"

ALCO 1.00487 1.12251
Se encuentra una asociación significativa tanto con la prueba de Wald como con la del
logaritmo del cociente de verosimilitudes. Nótese que el odds ratio de 1,06 es por
aumento de 1 gramo en el consumo diario de alcohol.
Se ajusta ahora a un modelo que contenga también el consumo de otras drogas y, en

aplicación del principio jerárquico, el término de interacción (una variable que sea el
producto de las variables drogas y alcohol) entre ambas.

ALCO DROGA ALXDRO

ALCO .04189 1.04278 .03264 1.64746 .19615
DROGA -1.27025 .28076 4.20961 .09105 .76070
ALXDRO .14089 1.15129 .19227 .53691 .52955

Ji-Cuadrado= 14.50229 G.L.= 3 p= .00247
Ji-Cuadrado modelo anterior= 6.09539 G.L.= 2 p= .04620
Comparando ambos modelos con la prueba del logaritmo del cociente de

verosimilitudes, este último modelo es significativamente mejor que el anterior
(p=0,0462) aunque ninguna de las dos nuevas variables por separado lo sea. Como la
variable de interacción no es significativa se quitaría, y se ajustaría este otro modelo:

ALCO DROGA
ALCO .04874 1.04994 .03298 2.18412 .13515
DROGA 2.16908 8.75026 1.12496 3.71771 .05089

Ji-Cuadrado= 13.59144 G.L.= 2 p= .00128
Ji-Cuadrado modelo anterior= .91086 G.L.= 1 p= .65808

ALCO .98423 1.12005
DROGA .96479 79.36140
La significación global del modelo ha mejorado aunque ambos modelos no son

significativamente diferentes (p=0,65808); si se compara este último con el primero
con la prueba del logaritmo del cociente de verosimilitudes W=2(-4,1904-(-
6,78267))=5,18454 ⇒ p=0,02161; por lo tanto este modelo es mejor que el primero
que sólo contenía el alcohol, y aunque la prueba de Wald para DROGA está en el
borde (p=0,05089), se aceptaría éste como mejor modelo. El objetivo del estudio es,
sin embargo, encontrar la asociación con el alcohol, por consiguiente la variable
DROGA sólo interesa como factor de confusión, con independencia de su significación
estadística, en este sentido se aprecia una ligera disminución de la asociación
(OR=1,04994 en el último modelo frente a OR=1,06206 del primero) junto a la
desaparición de su significación estadística (con tan pocos datos puede tratarse de un
problema de potencia). El investigador deberá decidir si este cambio constituye un

efecto de confusión y en caso contrario volver al primer modelo.

Evaluación de los modelos de regresión logística
Evaluación de los modelos de regresión logística (no condicional)
Como en regresión lineal, una vez encontrado el mejor modelo, hay que
validarlo, es decir ver si “trabaja” igual con otros individuos distintos de aquellos
con los que se ha generado (1). Qué significa “trabajar” es diferente según el
objetivo del modelo. En un modelo estimativo se trata de ver si se obtiene el
mismo odds ratio para la variable de interés. Aquí nos vamos a enfocar en los
modelos predictivos en los que validar significa ver si el modelo predice bien la
variable dependiente en un nuevo individuo. Ello implica dos conceptos
relacionados (2), validez (“accuracy”) y generalizabilidad (“generalizability”).
La validez es el grado en que las predicciones coinciden con las observaciones

y tiene dos componentes: calibración y discriminación. La calibración compara el
número predicho de eventos con el número observado en grupos de individuos,
mientras que la discriminación evalúa el grado en que el modelo distingue entre
individuos en los que ocurre el evento y los que no. Por ejemplo, se ha ajustado
un modelo logístico para predecir muerte en la UCI (3), si la mortalidad
observada en la muestra es 27%, el modelo estará perfectamente calibrado si
predice una mortalidad de 27%, sin embargo podría no distinguir entre los
pacientes que mueren y los que sobreviven. A la inversa, si el modelo asignara
una probabilidad de muerte de 2% a todos los pacientes que sobreviven y una
probabilidad de 4% a todos los que mueren, el modelo tendría una perfecta
discriminación, pero estaría pobremente calibrado.
La generalizabilidad es la capacidad del modelo de realizar predicciones válidas

en individuos diferentes de aquellos en los que se ha generado y tiene también
dos componentes: reproducibilidad (capacidad del modelo de realizar
predicciones válidas en individuos no incluidos en la muestra con la que se ha
generado, pero procedentes de la misma población) y transportabilidad
(capacidad de realizar predicciones válidas en pacientes procedentes de una
población distinta pero relacionada).
La reproducibilidad, por tanto, se evaluará en otras muestras obtenidas de la

misma población, o usando técnicas de “re-muestreo” (2) en la misma muestra,
o dividiendo aleatoriamente la muestra en dos grupos: en uno de ellos (grupo de
trabajo) se ajusta el modelo y en el otro (grupo de validación) se valida. La
transportabilidad exigirá una muestra de la otra población.
La prueba estadística que evalúa la calibración es la de Hosmer-Lemeshow,

aplicada sobre la misma muestra de trabajo (validez interna) o sobre la muestra,
o el grupo, de validación (generalizabilidad). Si el modelo no estuviera bien
calibrado puede adaptarse mediante una regresión logística cuya única variable
independiente es el logit, es decir la expresión ln(p/q), del modelo original (3).
Una vez adaptado es preciso evaluar de nuevo su calibración.
Como medida de discriminación se utiliza el área bajo la curva ROC que

representa para todos los pares posibles de individuos formados por un

Evaluación de los modelos de regresión logística
individuo en el que ocurrió el evento y otro en el que no, la proporción de los que
el modelo predice una mayor probabilidad para el que tuvo el evento. A partir de
un área de 0,7 la discriminación del modelo se considera aceptable.
1. What do we mean by validating a prognostic model? Altman DG, Royston P.

Statist Med. 19: 453-473. 2000.
2. Assessing the generalizability of prognostic information. Justice AC. et al. Ann

Intern Med. 130: 515-524. 1999.
3. Utilización de los modelos probabilísticos de mortalidad (MPM II) para evaluar

la efectividad de la atención a pacientes en estado crítico. Rué Monné M. et al.
Med Clin (Barc). 106: 565-570. 1996.

REGRESIÓN DE POISSON
V. Abraira
Bibliografía:
V. Abraira, A.Pérez de Vargas

Variables de Poisson
Una variable es de Poisson cuando es el número de eventos que ocurren en un

intervalo temporal o espacial de tamaño dado (s), cumpliendo las siguientes
condiciones:
Ø el número de eventos que ocurren en el intervalo es independiente del

número de los que ocurren fuera del mismo.
Ø existe un intervalo lo suficientemente pequeño, de tamaño h, para el que
la probabilidad de que en el mismo ocurra un sólo evento es proporcional al
tamaño del intervalo, es decir es λh, siendo por tanto λ (constante) la
probabilidad de que ocurra un evento en un intervalo de tamaño unidad.
Ø la probabilidad de que en cualquier intervalo de tamaño h ocurran dos o
más eventos, es prácticamente 0.
Ejemplos de este tipo de variables, con intervalos temporales, son: número de

llamadas que recibe una central telefónica en una hora, número de accidentes,
durante un año, en un cruce de carreteras, número de mutaciones que perduran en
una especie, durante un milenio. Ejemplos con intervalos espaciales: número de
células en el campo del microscopio; número de bacterias patógenas en un
estanque, etc.
A veces se usan variables de Poisson con "intervalos" que no son espaciales ni

temporales sino de otro tipo. Por ejemplo, para medir la frecuencia de una
enfermedad se puede contar, en un tiempo dado, el número de enfermos en una
cierta población, dividida en "intervalos" de, por ejemplo, 10.000 habitantes. Al
número de personas enfermas en una población de tamaño prefijado, en un
instante de tiempo, se le denomina prevalencia de la enfermedad en ese
instante y es, por tanto, una variable de Poisson. Otra medida para la frecuencia
de una enfermedad, es la incidencia, que es el número de personas que
enferman en una población susceptible de enfermar, en un periodo de tiempo
determinado. En este caso el intervalo es de personas-tiempo, habitualmente
personas-año, y es también una variable de Poisson. Habitualmente ambas
medidas se expresan para intervalos de tamaño unidad, o dicho de otro modo,
http://www.hrc.es/bioest/Poisson_1.html (1 of 2) [02/01/2003 01:34:49]

en lugar de la variable número de enfermos, se usa el parámetro λ (el riesgo, en

el caso de la prevalencia, y la densidad de incidencia, en el de incidencia).
La función densidad de probabilidad para una variable de Poisson es:
siendo s el tamaño del intervalo. La media y la varianza de esta variable son

ambas iguales a λs. La variable está caracterizada por el parámetro λ
(probabilidad de una ocurrencia en la unidad de medida) y por el tamaño del
intervalo s.
Un modelo de regresión para una variable de Poisson es un modelo que permite

estudiar si dicha variable depende, o no, de otra u otras variables. Si una
variable de Poisson de parámetro λ es independiente de otra variable X, se
cumple , por consiguiente, un modelo de regresión es una función de λ
en X que a través del coeficiente de X permite investigar la relación anterior, y
como en los modelos lineal y logístico, fácilmente generalizable a más variables
independientes.

Modelo de regresión de Poisson
Para una única variable independiente X, es un modelo de la forma:
o, para simplificar la notación, simplemente:
donde ln significa logaritmo neperiano, α0 y α1 son constantes y X una variable

que puede ser aleatoria o no, continua o discreta. Este modelo se puede
fácilmente generalizar para k variables independientes:
Por lo tanto α0 es el logaritmo de λ (probabilidad de que ocurra un evento en un

intervalo de tamaño unidad) cuando todas las variables independientes son
cero, y αi es el cambio en el logaritmo de λ (o logaritmo del cociente de λ)
cuando la variable Xi aumenta una unidad, manteniéndose constantes las
demás o, dicho de otro modo, es la probabilidad de que ocurra un evento en
un intervalo unidad cuando todas las variables independientes son cero y el
cociente de dicha probabilidad para un aumento de una unidad en la variable Xi
(riesgo relativo). Obsérvese que, al igual que en la regresión logística, el modelo
supone efectos multiplicativos, es decir, si la variable Xi aumenta n unidades, la
probabilidad para la variable de Poisson se multiplica por es decir,

la potencia n-ésima de
Teniendo en cuenta, que para una variable de Poisson: µ = λs el modelo

también se puede poner en función de µ como:
Ejemplo
Se quiere comparar la incidencia de cáncer de piel en 2 ciudades, para ello se

registran los cánceres de piel aparecidos en el último año, 18 para la ciudad A y
30 para la B, cuyas poblaciones respectivas son 350.000 y 410.000.
Se trata de variables de Poisson con intervalo de personas-tiempo. Asumiendo

que ambas poblaciones se han mantenido constantes a lo largo de ese año y
que todos los individuos eran susceptibles de enfermar, los tamaños de los

intervalos son respectivamente 350.000 y 410.000 personas-año y la mejor

estimación de las densidades de incidencia:
Definiendo la variable X = 0 para la ciudad A y X = 1 para la B, estos resultados

se pueden expresar con un modelo de regresión, siendo:
el logaritmo de la densidad de incidencia en la ciudad A y el logaritmo de la

razón de densidades de incidencia, es decir:
Por lo tanto, la densidad de incidencia en B es 1,423 la de A (42,3% más alta).

Evidentemente, para comparar ambas incidencias, simplemente hay que
comparar con cero o con 1.
Se puede plantear que esta diferencia en las incidencias pueda ser debida,
simplemente, a que ambas ciudades tengan una distinta pirámide de población
(es sabido que la incidencia del cáncer es distinta para distintos grupos de edad)
o quizás, y sería una hipótesis más interesante a investigar, a algún otro factor.
Si se conoce la distribución de las poblaciones para los distintos grupos de
edad, así como el grupo al que pertenece cada enfermo, se puede plantear un
modelo:
siendo X1 la ciudad y X2 el grupo de edad. En este modelo α1 es la razón de

densidades de incidencia para ambas ciudades controlando por la edad. Si α1
es distinto de 0, se puede concluir que existe algún factor, distinto de la edad, en
ambas ciudades que incide en el cáncer de piel.

Estimación de los coeficientes de un modelo de regresión de Poisson
Para estimar los coeficientes de un modelo de Poisson se utiliza el método de

máxima verosimilitud.Este procedimiento es matemáticamente complejo, pero lo
que importa para el usuario es:
1º El proceso es iterativo, es decir se dan a los coeficientes unos valores

arbitrarios (habitualmente, aunque no necesariamente, el valor 0). La solución
final no depende de estos valores
2º A partir de estos valores iniciales se construye una matriz p con los valores
previstos por el modelo para las observaciones de la variable dependiente.
3º A partir de esta matriz y de la matriz X de diseño (construida igual que en

regresión lineal), se calculan los nuevos estimadores, que se comprueba si son
ya la solución, en cuyo caso se para el proceso y en caso contrario se repite el
proceso. En la práctica, y para evitar convergencias asintóticas, también se para
el proceso si los nuevos estimadores difieren de los anteriores en menos de una
cierta cantidad, llamada límite de convergencia.
En este último paso hay que invertir una matriz y eso puede dar problemas de
colinearidad
Distribución muestral de los estimadores
Hay un teorema (teorema del límite central en la estimación por máxima

verosimilitud) que dice estos estimadores son asintóticamente normales y su
matriz de varianzas-covarianzas es
Σ = -J -1 = -(X'pX) -1
y su estimación se calcula, particularizando Σ para los coeficientes estimados.
http://www.hrc.es/bioest/Poisson_3.html [02/01/2003 01:40:34]

Contrastes de hipótesis y estrategias de modelización en modelos de regresión de Poisson
Contrastes de hipótesis y estrategias de modelización
Teniendo en cuenta lo anterior los contrastes de hipótesis sobre cada coeficiente se

hacen con la prueba de Wald y los contrastes de hipótesis sobre el modelo completo,
o sobre un conjunto de coeficientes, con el logaritmo del cociente de verosimilitudes.
Por otro lado las estrategias de modelización son exactamente las mismas que las
vistas en los capítulos previos.
Ejemplo
Supóngase que en las ciudades del ejemplo anterior, la población y los cánceres de
piel aparecidos se distribuyen como sigue para distintos grupos de edad:
Ciudad A Ciudad B
Edad Población Cáncer Población Cáncer

0 – 30 120.000 3 130.000 4
31 – 60 200.000 7 220.000 10
> 60 30.000 8 60.000 16
Estímese, mediante un modelo de Poisson, la razón de densidades de incidencia para

ambas ciudades, controlando por la edad.
Para resolverlo con un paquete estadístico (PRESTA), se crea el siguiente archivo

con cuatro variables:
EDAD CIUDAD POBLACION CANCER

1 0 120.000 3
2 0 200.000 7
3 0 30.000 8
1 1 130.000 4
2 1 220.000 10
3 1 60.000 16
para independizar el resultado de como cambien las densidades de incidencia entre

los distintos grupos de edad, se crean a partir de la variable EDAD dos variables
indicadoras, EDAD1 y EDAD2, con el primer esquema discutido en regresión lineal y
para estudiar la posible interacción entre CIUDAD y EDAD, se crean las variables
CIXED1 y CIXED2 con los productos de CIUDAD×EDAD1 y CIUDAD×EDAD2
respectivamente.
El modelo completo tiene, por lo tanto, cinco variables: CIUDAD, EDAD1, EDAD2,
CIXED1 y CIXED2.
El ajuste para este modelo es:
NOMBRE DE LOS DATOS: eje2pois

VARIABLE DEPENDIENTE: CANCER

VARIABLE TAMAÑO: POBLA

CIUDAD EDAD1 EDAD2 CIXED1 CIXED2
NUMERO DE CASOS: 6

CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO: 0

Const. -10.59663 .00003 .57735 336.86620 .00000
CIUDAD .20764 1.23077 .76376 .07391 .78227
EDAD1 .33647 1.40000 .69007 .23775 .63158
EDAD2 2.36712 10.66666 .67700 12.22533 .00060
CIXED1 .05373 1.05520 .90895 .00349 .95139
CIXED2 -.20764 .81250 .87797 .05593 .80834
LOG. MAX. VEROSIMILITUD CON CONSTANTE SOLA= -32.88131

LOG. MAX. VEROSIMILITUD MODELO COMPLETO= -11.39070
Ji-Cuadrado modelo= 42.98121 GL= 5 p= .00000
El ajuste del modelo, con la prueba del logaritmo del cociente de verosimilitudes es
significativo. El primer contraste a realizar es sobre la interacción. Como las variables
CIXED1 y CIXED2 son indicadoras y no tienen sentido por sí solas, hay que realizarlo
globalmente para las dos con el logaritmo del cociente de verosimilitudes. Se ajusta,
por lo tanto, a un modelo sin ellas. El resultado es:


CIUDAD EDAD1 EDAD2
NUMERO DE CASOS: 6

VARIABLE ALFA EXP(ALFA) EE. Ji2 p

ALFA
Const. -10.55314 .00003 .41299 652.96970 .00000
CIUDAD .13023 1.13909 .30131 .18681 .66947
EDAD1 .36802 1.44486 .44909 .67153 .58226

EDAD2 2.23495 9.34601 .43171 26.80163 .00000

Ji-Cuadrado modelo anterior= .17068 GL= 2 p= .91773
No se puede rechazar la hipótesis nula de no existencia de interacción (p=0,91773),

por lo tanto se eliminan dichas variables del modelo. Para este último modelo la matriz
estimada de covarianzas de los estimadores es:
MATRIZ DE COVARIANZAS
Const. CIUDAD EDAD1 EDAD2

Const. .171
CIUDAD -.050 .091
EDAD1 -.143 -.000 .202
EDAD2 -.136 -.013 .143 .186
El próximo contraste a realizar es para las variables EDAD1 y EDAD2, que también
tiene que ser global. Se ajusta a un modelo sin ellas y el resultado es:


CIUDAD
NUMERO DE CASOS: 6

VARIABLE ALFA EXP(ALFA)EE. ALFA Ji2 p

Const. -9.8753 .00005 .23570 1755.39400 .00000
CIUDAD .3526 1.42276 .29814 1.39869 .23503

Ji-Cuadrado modelo anterior= 41.37708 GL= 2 p= .00000
Obsérvese que esta última estimación coincide con la calculada anteriormente. Con la

prueba del logaritmo del cociente de verosimilitudes no se puede rechazar

(p=0,00000) que no haya efecto de la edad. En el modelo que contiene la edad, la
razón de densidades de incidencia entre las dos ciudades es 1,13909 y no es
significativamente distinta de 1 (p=0,66947 con la prueba de Wald). Nótese que la
edad es una variable de confusión (con el modelo que sólo contiene la ciudad, la
estimación es 1,42276) y por tanto el modelo adecuado para hacer las estimaciones
es el que contiene la edad. El intervalo de confianza al 95%, también calculado por el
programa, aunque en la salida anterior no se presenta, es (0,631, 2,056).
Para estimar, por ejemplo, con ese modelo la densidad de incidencia para el grupo de
mayores de 60 años en la ciudad B, recuérdese que para la ciudad B, CIUDAD=1 y
para ese grupo de edad, EDAD1=0 y EDAD2=1, por lo tanto según el modelo:
obsérvese que, como el ajuste del modelo es muy bueno, coincide con la estimación
que se puede obtener directamente de los datos:
pero el modelo permite, además, calcular un intervalo de confianza para dicha

estimación. Para ello hay que calcular:
su error estándar es
y por lo tanto el intervalo de confianza al 95% es
y del mismo modo para los otros grupos de edad y/o la otra ciudad.
Otras lecturas
aplicaciones biomédicas de la regresión múltiple. Medicina Clínica. 2001;116:741-745.

La colinealidad en la regresión de Poisson
Del mismo modo que en la regresión logística, para estimar los coeficientes hay
que invertir la matriz J = X’pX siendo además la inversa de J la matriz de
varianzas-covarianzas de los mismos. Por consiguiente, si dicha matriz es
singular el modelo es irresoluble y si es casi-singular existen problemas de
precisión numérica y estadística, siendo, además, inestable la estimación. Como
entonces, aunque no es un problema de colinealidad en sentido estricto se sigue
hablando, por analogía, de colinealidad y, también, el diagnóstico de la misma
se hace de análoga manera, es decir, calculando los índices de condición para
la matriz J también escalada para que su diagonal principal esté formada por
unos, y calculando a partir de los autovectores de la misma, la matriz de
descomposición de la varianza de los estimadores. Evidentemente, por no ser
un problema de colinealidad, el factor de inflación de la varianza tampoco es útil
ahora.
También en el caso de la regresión de Poisson, y a diferencia de la regresión

lineal, la matriz J no depende sólo de los datos, sino también de los coeficientes
del modelo (a través de p) y pudiera darse el caso de que, en el proceso
iterativo de estimación y para unos ciertos valores iniciales de los coeficientes, J
fuera singular en algún paso del proceso alejado de la solución final y que, sin
embargo, si se partiera de otros valores iniciales se pudiera acabar la estimación
sin problemas. También puede ocurrir que, debido a la falta de precisión ligada a
la casi-colinealidad de algún paso intermedio, el método de Newton- Raphson
no convergiera para unos valores iniciales y, sin embargo, si convergiera para
otros. En caso de que aparezcan estos problemas, un modo de minimizarlos es,
ayudándose del diagnóstico de colinealidad, intentar la estimación con distintos
valores iniciales, incluyendo estimaciones aproximadas de los coeficientes
(obtenidas, por ejemplo, a partir del método usado en el ejemplo).
Hay que tener en cuenta, también, que debido a los grandes valores que suele
tener la variable s, tamaño del intervalo, en algunos modelos (en el ejemplo
desarrollado en este texto son cientos de miles, pero en problemas de
estimación de tasas de mortalidad por países puede ser de decenas o centenas
de millones) pueden aparecer problemas de precisión o, incluso, desbordes (se
denomina así al hecho de que un número sea mayor que la capacidad de la
porción de memoria reservada en el ordenador para almacenarlo) en los
algoritmos de estimación. En estos casos se puede dividir dicha variable por una
constante adecuada, es decir, se expresa la población en miles de personas o
en centenas de miles, entonces el parámetro λ queda multiplicado por ese
mismo factor, pero en el modelo ese cambio sólo afecta a α0 (se le sumará el
logaritmo de dicha constante) y no al resto de los coeficientes. Si en el ejemplo
anterior se divide la población por 1.000, los modelos encontrados serán
exactamente los mismos excepto el coeficiente α0 al que se le sumará
ln1.000=6,908.
Ejemplo

Los “salida” del PRESTA del diagnóstico de colinealidad para el modelo del
ejemplo anterior en el que se ha dividido la población por 1.000 es:
REGRESION POISSON CON LOS COEFICIENTES:

Const.: -3.6454 CIUDAD: .1302 EDAD1: .3680 EDAD2 : 2.2350
FACTOR AUTOVALOR INDICE

CONDICION
1 2.64356 1.00000
2 1.00497 1.62188
3 .27931 3.07646
4 .07216 6.05269
PROPORCION DE VARIANZA EN LOS FACTORES
FACTOR Const. CIUDAD EDAD1 EDAD2

1 .0163 .0423 .0140 .0182
2 .0003 .0014 .1838 .0802
3 .0375 .8924 .0586 .1435
4 .9459 .0639 .7436 .7581
Donde, con los criterios discutidos regresión lineal, no se aprecian problemas de

colinealidad.

Relación entre los modelos de Poisson y logístico
El intervalo s en el que está definida una variable de Poisson se puede dividir en

un conjunto de n subintervalos de tamaño h, cada uno de los cuales es tan
pequeño que en ellos sólo puede ocurrir, a lo sumo, un evento, y la probabilidad
de que ocurra es la constante λ. Por lo tanto, en cada uno de estos intervalos, el
número de eventos que ocurren es 0 ó 1, con probabilidades 1 - λ y λ
respectivamente, es decir, es una variable binomial puntual. Una variable de
Poisson es, en consecuencia, la suma de n variables binomiales puntuales, es
decir, es una variable binomial de parámetros n y λ. Como no hay una manera
única de elegir los subintervalos, el parámetro n no está bien definido, sin
embargo, el tamaño h tiene que ser suficientemente pequeño, por lo tanto n será
grande.
En consecuencia, todos los problemas que se pueden plantear con un modelo

de Poisson, también se pueden plantear con un modelo logístico, si se dispone
de los datos individualizados y, como era de esperar, se obtiene el mismo
resultado. Hay que tener en cuenta, no obstante, que el modelo logístico
modeliza el odds, mientras que el de Poisson modeliza la probabilidad, por lo
tanto los coeficientes sólo coincidirán cuando la probabilidad sea pequeña.
Nótese que la inversa no siempre es cierta, hay problemas que se pueden
plantear con un modelo logístico y no con un modelo de Poisson, como por
ejemplo, un estudio caso-control, en el que la probabilidad no se puede estimar
(por tanto, tampoco modelizar) y, sin embargo, sí se puede el odds ratio.
Ejemplo
En un estudio para establecer la eficacia de una vacuna contra la gripe en dos

grupos de edad, se mide, durante una semana de invierno, la prevalencia de la
misma en dos muestras aleatorias de individuos vacunados y no vacunados en los
dos grupos de edad. Se obtienen los siguientes resultados:
Vacunados No
vacunados
Edad Total Gripe Total Gripe
20 - 60 80 3 91 5
> 60 50 5 43 10
El número de individuos con gripe en cada una de las situaciones es una variable
de Poisson, para la que se puede plantear un modelo de regresión. Para cada
individuo, el tener, o no, gripe, es una variable binomial puntual para la que se
puede plantear un modelo logístico.

Para ajustar a un modelo Poisson hay que partir de un archivo como el

siguiente:
EDAD VACUNA TOTAL GRIPE

0 1 80 3
1 1 50 5
0 0 91 5
1 0 43 10
Para ajustar a un modelo logístico hay que crear un archivo en que cada
individuo sea una observación. Sería:
EDAD VACUNA GRIPE

0 1 1 3 observaciones: individuos vacunados, edad 20
- 60, con gripe
0 1 0 77 observaciones: individuos vacunados, edad 20
- 60, sin gripe
1 1 1 5 observaciones: individuos vacunados, edad >60,
con gripe
1 1 0 45 observaciones
y los ajustes correspondientes:
REGRESION DE POISSON

VARIABLE DEPENDIENTE: GRIPE
VARIABLE TAMAÑO: TOTAL

EDAD VACUNA
NUMERO DE CASOS: 4


Const. -2.79827 .06092 .37835 54.70174 .00000

EDAD 1.28379 3.61029 .43865 8.56527 .00357

VACUNA -.68495 .50412 .43865 2.43822 .11406

INTERVALOS DE CONFIANZA AL 95% DE LOS EXP(ALFA)

EDAD 1.52810 8.52966
VACUNA .21337 1.19102
El riesgo relativo para la vacuna, controlado por la edad, es 0,50412 (la

probabilidad de que un individuo vacunado contraiga la gripe es
aproximadamente la mitad que la de un individuo sin vacunar) con un intervalo
de confianza de (0,21337, 1,19102), por lo tanto, no es significativamente
distinto de 1.
REGRESION LOGISTICA INCONDICIONAL
NOMBRE DE LOS DATOS: eje52poi

VARIABLE DEPENDIENTE: GRIPE

EDAD VACUNA
NUMERO DE CASOS: 264

VARIABLE ALFA EXP(ALFA)EE. ALFA Ji2 p

Const. -2.71567 .06616 .38959 48.58808 .00000
EDAD 1.43544 4.20149 .46417 9.56352 .00217
VACUNA -.78082 .45803 .46780 2.78598 .09094


EDAD 1.69159 10.43545

VACUNA .18310 1.14577
El odds ratio para la vacuna es 0,45803 y tampoco es significativamente distinto

de 1. En este caso, y como la probabilidad de contraer la gripe no es pequeña,
ambos estimadores no coinciden. Sin embargo, si se calcula por ejemplo, la
probabilidad de que una persona mayor de 60 años y no vacunada contraiga la
gripe con el modelo de Poisson:
y con el modelo logístico:
que como se observa, sí coinciden.

http://www.hrc.es/bioest/Supervivencia_1.html
ANÁLISIS DE SUPERVIVENCIA
V. Abraira
Bibliografía:

E.T.Lee
Statistical Methods for Survival Data Analysis
Lifetime Learning Publications. 1980.
J.D.Kalbfleisch, R.L.Prentice
The Statistical Analysis of Failure Time Data
John Wiley & Sons. 1980.
Introducción
Se denomina análisis de supervivencia al conjunto de técnicas que permiten
estudiar la variable “tiempo hasta que ocurre un evento” y su dependencia de
otras posibles variables explicatorias. Por ejemplo, en el estudio de
enfermedades crónicas o tratamientos muy agresivos, el tiempo hasta que
ocurre la muerte del enfermo (tiempo de supervivencia) y su dependencia de la
aplicación de distintos tratamientos, pero en otras enfermedades, el tiempo
hasta la curación, o el tiempo hasta la aparición de la enfermedad. En procesos
de control de calidad se estudia el tiempo hasta que un cierto producto falla
(tiempo de fallo), o el tiempo de espera hasta recibir un servicio (tiempo de
espera), etc.
Debido a que la variable tiempo es una variable continua podría ser, en

principio, estudiada mediante las técnicas de análisis de la varianza o los
modelos de regresión. Hay, sin embargo, dos dificultades importantes para este
planteamiento. En primer lugar, en la mayor parte de los estudios citados la
variable tiempo no tiene una distribución normal, más bien suele tener una
distribución asimétrica y aunque podrían intentarse transformaciones que la
normalizaran, existe una segunda dificultad que justifica un planteamiento
específico para estas variables, y es que para observarlas se tiene que
prolongar el estudio durante un período de tiempo suficientemente largo, en el
cual suelen ocurrir pérdidas, que imposibilitan la observación del evento.
Existen tres motivos por los que pueden aparecer estas pérdidas, en primer
lugar por fin del estudio. Supóngase, por ejemplo, que para evaluar una
intervención quirúrgica arriesgada se sigue en el tiempo, durante un año, a dos
grupos de pacientes. A los de un grupo se les practicó la intervención y a los de
otro no, y se registró la duración del intervalo de tiempo entre la intervención (o
la entrada en el estudio, para el grupo no intervenido) y la muerte. Al final del
estudio puede haber individuos que no hayan muerto. Otra causa es la pérdida
propiamente dicha, por ejemplo se quiere evaluar la eficacia de un tratamiento
http://www.hrc.es/bioest/Supervivencia_1.html (1 of 3) [02/01/2003 01:50:23]

preventivo para el SIDA, y se sigue durante cinco años a individuos VIH+.

Algunos de los individuos, y puede ser un número importante, desaparecerán
del estudio en algún momento del mismo por diversos motivos: cambio de
domicilio, falta de interés, etc. Una última causa de pérdida es la ocurrencia de
un evento competitivo, en los ejemplos anteriores puede ser muerte por alguna
otra causa ajena al estudio. Aunque los ejemplos anteriores son del ámbito de
Ciencias de la Salud, estos mismos problemas aparecen en cualquier estudio
que necesite un largo tiempo de observación.
Hay que tener en cuenta también que la variable es el tiempo hasta que ocurre
un evento, y está definida por la duración del intervalo temporal entre los
instantes en que empieza la observación y ocurre el evento. En los ejemplos
citados, la observación no comienza en el mismo instante para todos los
individuos. En algunos textos se denomina pérdida por la izquierda a esta no
coincidencia de los tiempos en que comienza la observación, ya que, si el
estudio está diseñado para acabar en un tiempo determinado, el efecto de esta
no coincidencia es reducir, para los que empiezan más tarde, el tiempo de
observación. En el esquema de la figura se detallan todas las posibles pérdidas.
Evidentemente, se pueden evitar las pérdidas por la izquierda diseñando el
estudio para que acabe, no en un tiempo establecido con carácter general, sino,
para cada individuo, en un tiempo determinado después del inicio de la
observación.
Esquema temporal de un estudio para observar tiempos de espera para un evento,

por ejemplo supervivencia en una intervención quirúrgica. Con el círculo se
representan las pérdidas y con el cuadrado las muertes (ocurrencia del evento). El
individuo A desaparece del estudio 3 meses después de la intervención (sería una
pérdida en sentido estricto). El B fallece a los 2,5 meses. El C sigue vivo al
acabar el estudio (sería una pérdida a los 12 meses por fin del estudio). El D, al
que se le interviene en el mes 1, fallece en el 9, el tiempo de supervivencia sería 8
meses (hay 1 mes de pérdida por la izquierda). El E, al que se le interviene en el
mes 2, se pierde en el 7 (sería una pérdida a los 5 meses, ya que hay pérdida en
sentido estricto y pérdida por la izquierda). El F, al que se le interviene en el mes

6, sigue vivo al acabar el estudio, sería una pérdida a los 6 meses (existe pérdida
por fin del estudio y pérdida por la izquierda).
Si se quisiera aplicar un modelo de regresión lineal a un estudio de este tipo,
habría que eliminar del mismo las observaciones perdidas, ya que para ellas no
se conoce el valor de la variable; sin embargo sí se tiene alguna información útil
sobre la misma: se sabe que es mayor que el tiempo en el que se produjo la
pérdida.

Distribución de la variable tiempo de espera
Distribución de la variable tiempo de

espera
La variable tiempo de espera es una variable aleatoria continua y no negativa,

cuya función de probabilidad puede especificarse de varias maneras. La primera
es la habitual función densidad de probabilidad f(t), y relacionadas con ella, la
función de supervivencia S(t) y la función de riesgo h(t).
La función densidad de probabilidad f(t) para una variable continua se define

como una función que permite calcular la probabilidad de que la variable tome
valores en un intervalo a través de la fórmula:
La función de supervivencia S(t) se define como:
Por lo tanto, la función de supervivencia da la probabilidad complementaria de la

habitual función de distribución acumulativa F(t) = P(T ≤ t), es decir S(t) = 1 -
F(t).
Otro modo de expresar la probabilidad para la variable tiempo de espera es por

medio de la función de riesgo h(t) que es la función de densidad de probabilidad
de T, condicionada a que T ≥ t. Por ejemplo, para la supervivencia a una
intervención quirúrgica, la función de riesgo a los 2 años es la de densidad de
probabilidad de morir a los 2 años de la intervención, condicionada a que ya se
ha sobrevivido hasta entonces. Esta probabilidad sería, realmente, la que en
cada momento le importa al enfermo intervenido.
Se puede demostrar que
A veces se usa también la función de riesgo acumulada H(t), más difícil de

interpretar, que se define como

y que verifica
Es decir, las cuatro funciones están relacionadas; si se conoce una cualquiera de

ellas, se pueden obtener las demás.
A pesar de que el tiempo es una variable continua, un observador sólo tiene

acceso a valores discretos de la misma. Los datos observados para cualquiera
de las experiencias descritas en la introducción son una serie de valores
discretos. Conviene, por lo tanto, definir las funciones anteriores en el caso
(práctico) de considerar a la variable tiempo como discreta, es decir, como un
conjunto discreto de valores t1 < t2 < … El suponerlos ordenados de menor a
mayor no representa ninguna pérdida de generalidad, de hecho es así como se
observa el tiempo.
Para una variable discreta, la función densidad de probabilidad f (t) se define

como:
y la función de supervivencia:
La función de supervivencia da, por lo tanto, para cada valor ti de T, la

probabilidad de que la variable T sea mayor o igual que ti (en este caso no es la
complementaria de la función de distribución puesto que la probabilidad de que
T sea igual a ti, que en las variables discretas en general no es cero, está
incluida en ambas funciones), aunque otros textos, justamente para que siga
siendo la complementaria de la función de distribución la definen sin incluir el
igual.
Las funciones de riesgo y riesgo acumulado para una variable discreta también
son:


Estimación de la función de supervivencia (método de Kaplan-Meier)
Estimación de la función de supervivencia (método de Kaplan-Meier).
Es un método no paramétrico (no asume ninguna función de probabilidad) y por

máxima verosimilitud, es decir se basa en maximizar la función de verosimilitud
de la muestra. Una muestra aleatoria de tamaño n, extraída de una población,
estará formada por k (k ≤ n) tiempos t1 < t2 < …< tk en los que se observan
eventos. En cada tiempo ti existen ni "individuos en riesgo" (elementos de la
muestra para los que el evento puede ocurrir, o que T ≥ ti) y se observan di
eventos. Además en el intervalo [ti, ti+1) se producen mi pérdidas.
Se puede demostrar que la función de verosimilitud para toda la muestra es:
Para construir esta función se ha asumido que la información contenida en las

pérdidas es que, para cada una de ellas, el evento ocurre en un tiempo mayor
que el tiempo en que se observa la pérdida. Maximizando esta función se
encuentra que el estimador de la función de riesgo es
y para la función de supervivencia, el denominado estimador producto límite o

de Kaplan-Meier:
Ejemplo 1
Se sigue en el tiempo a 12 individuos con una prótesis cardíaca y se encuentran

los siguientes tiempos de supervivencia en años: 6*, 6, 6, 6, 10, 12*, 12, 15, 15*,
17, 22, 22, donde el asterisco indica pérdida; es decir se perdieron 3 individuos
en los tiempos 6, 12 y 15. La manera más cómoda de calcular los estimadores
anteriores es disponer los datos en una tabla como la que sigue:
tiempo ind. en riesgo eventos F. riesgo F. supervivencia
6 12 3 3/12=0,25 1

10 8 1 1/8=0,125 0,750
12 7 1 1/7=0,143 0,656
15 5 1 1/5=0,2 0,562
17 3 1 1/3=0,333 0,450
22 2 2 2/2=1 0,300
Para analizar estos datos con un paquete estadístico, por ejemplo el SPSS, hay
que introducir dos variables: el tiempo y el “status” con un código que indique si
en ese tiempo se ha producido el evento o es una perdida. La “salida” es
Survival Analysis for TIEMPO
Time Status Cumulative Standard

Cumulative Number
Survival Error
Events Remaining
6 1
1 11
6 1
2 10
6 1 ,7500 ,1250
3 9
6 0
3 8
10 1 ,6563 ,1402
4 7
12 1 ,5625 ,1482
5 6
12 0
5 5
15 1 ,4500 ,1555
6 4
15 0
6 3
17 1 ,3000 ,1605
7 2
22 1
8 1
22 1 ,0000 ,0000
9 0
Number of Cases: 12 Censored: 3 ( 25,00%)

Events: 9
En la tercera columna (“Cumulative Survival”) aparece la función de

supervivencia (S(t)) en todos los tiempos en los que ocurren eventos. Esta
función se suele representar en una gráfica como
El SPSS también calcula y representa la gráfica de la función de riesgo

acumulada (que en su versión en español denomina “Impacto”).

Varianza de los estimadores de las funciones de riesgo y supervivencia
Varianza de los estimadores
Usando resultados asintóticos (para grandes muestras) de la teoría de estimación

por máxima verosimilitud se obtiene que la varianza de los estimadores de la
función de riesgo es
y a partir de aquí, una expresión aproximada para la varianza de la función de

supervivencia es (fórmula de Greenwood)
Teniendo en cuenta la normalidad asintótica de los estimadores de máxima

verosimilitud, se pueden calcular intervalos de confianza al (1 – α )% para estas
estimaciones:
Por ejemplo, para los datos del ejemplo 1, las varianzas de las estimaciones de
la función de supervivencia y los intervalos de confianza al 95% construidos con
ellas son:
Tiempo F. Varianza Intervalo de

superv. confianza
6 0,7500 0,0156 0,9950 0,5050
10 0,6563 0,0197 0,9310 0,3815
12 0,5625 0,0220 0,8530 0,2720
15 0,4500 0,0242 0,7548 0,1452
17 0,3000 0,0257 0,6145 - 0,0145
22 0,0000 - - -
En la “salida” del SPSS figura, en lugar de la varianza, su raíz cuadrada (el error
estándar), que es posible guardar en una nueva variable del archivo para, a
partir de ella y la función de supervivencia construir los intervalos de confianza.

y se obtiene
Una representación gráfica de la función de supervivencia y su intervalo de

confianza (obtenida con el programa AlcEst) es

Obsérvese que cuando para un tiempo ocurre el evento para todos los individuos
en riesgo, como en este caso para 22, la varianza está indeterminada (aunque el
SPSS pone 0) puesto que el denominador es 0. Por otro lado, en los tiempos
extremos el intervalo de confianza puede sobrepasar el intervalo [0,1], en este
caso en el tiempo 17. Ello es debido a que la fórmula de la varianza es sólo
aproximada y a que la normalidad es asintótica. Este problema se puede evitar
usando una transformación logarítmica de de normalidad también asintótica
pero cuyo campo de variación es todo el campo real.
A partir de la función
cuyo varianza es
se construyen los intervalos de confianza para S(ti)
para los datos del ejemplo 1 por este procedimiento se obtienen los intervalos
de confianza al 95% dados en la siguiente tabla:

Tiempo F. superv. Varianza Intervalo de

confianza
6 0,7500 0,0156 0,9117 0,4084
10 0,6563 0,0197 0,8557 0,3204
12 0,5625 0,0220 0,7910 0,2437
15 0,4500 0,0242 0,7104 0,1549
17 0,3000 0,0257 0,6041 0,0564
22 0,0000 - - -

Método actuarial
Método actuarial
Hay ocasiones en que no se dispone de observaciones individuales de los

eventos, sino de observaciones agrupadas por intervalos temporales o, incluso,
aunque se disponga de las mismas se agrupan para compactar su presentación.
Por ejemplo, los datos de mortalidad para un país durante una década se suelen
agrupar en intervalos anuales, en las denominadas tablas de vida o actuariales,
de modo que no se dispone del tiempo de fallecimiento de cada individuo, sino
del número de fallecidos en cada intervalo, en este caso anual.
Supóngase que hay k intervalos, al principio de cada intervalo Ii, existen ni

individuos en riesgo, y durante el mismo se producen mi pérdidas y di eventos.
Por lo tanto, en el conjunto del intervalo el número de individuos en riesgo es
variable, asumiendo que las pérdidas se producen homogéneamente a lo largo
del mismo, su número promedio es ni – mi /2 y, en consecuencia, el estimador
del riesgo para el intervalo será:
sustituyendo este valor en las fórmulas previas, es decir cambiando en las

mismas ni por ni - mi/2 se obtienen los estimadores para la función de
supervivencia y su varianza. A este método se le conoce como método actuarial.
Con los datos del ejemplo 1, definiendo intervalos de 5 años, las tablas de vida,
obtenidas con el SPSS, son
This subfile contains: 12 observations
Life Table
Survival Variable TIEMPO
Number Number Number Number Cumul

Intrvl Entrng Wdrawn Exposd of Propn Propn Propn
Proba-
Start this During to Termnl Termi- Sur- Surv
bility Hazard
Time Intrvl Intrvl Risk Events nating viving at End
Densty Rate
------ ------ ------ ------ ------ ------ ------ ------ ---
--- ------
,0 12,0 ,0 12,0 ,0 ,0000 1,0000 1,0000
,0000 ,0000
5,0 12,0 1,0 11,5 3,0 ,2609 ,7391 ,7391
,0522 ,0600
10,0 8,0 1,0 7,5 2,0 ,2667 ,7333 ,5420
,0394 ,0615
15,0 5,0 1,0 4,5 2,0 ,4444 ,5556 ,3011

Método actuarial
,0482 ,1143
20,0 2,0 ,0 2,0 2,0 1,0000 ,0000 ,0000
,0602 ,4000
The median survival time for these data is 15,87
SE of SE of
Intrvl Cumul Proba- SE of
Start Sur- bility Hazard
Time viving Densty Rate
------- ------ ------ ------
,0 ,0000 ,0000 ,0000
5,0 ,1295 ,0259 ,0342
10,0 ,1525 ,0248 ,0430
15,0 ,1526 ,0288 ,0774
20,0 ,0000 ,0305 ,0000
Donde la primera columna (“Intrvl Start Time”) contiene el tiempo inicial

del intervalo; la segunda (“Number Entrng this Intrvl”) el número de
individuos en riesgo al inicio del intervalo (ni); la siguiente (“Number Wdrawn
this Intrvl”) el número de pérdidas (mi); la siguiente (“Number Exposd to
Risk”) el número de individuos en riesgo en el intervalo (ni – mi /2); la siguiente
(“Number of Termnl Events”) el número de eventos (di); la siguiente
(“Propn Terminating”) la función de riesgo (hi) en el intervalo, la siguiente
(“Propn Surviving”) su complementario (1- hi) que estima la probabilidad de
que no ocurra el evento en el intervalo condicionada a que no ocurrió antes; la
siguiente (“Cumul Propn Surv at End”) la función de supervivencia (Si), la
siguiente (“Probability Densty”) la función densidad de probabilidad (fi) por
unidad de tiempo. Se estima usando las relaciones entre las funciones vistas
anteriormente y dividiendo por la anchura del intervalo, es decir, si la anchura del
intervalo i fuera bi (en el ejemplo bi =5 en todos los intervalos)
La última columna (“Hazard Rate”) es la función de riesgo por unidad de

tiempo, estimada en el punto medio del intervalo por la fórmula

Comparación de funciones de supervivencia
Comparación de funciones de
supervivencia
Como los estimadores de Kaplan-Meier son estimadores de máxima

verosimilitud y la teoría establece que estos estimadores son asintóticamente
normales, una primera aproximación es usar dicha teoría, es decir, si de una
población con función de supervivencia S(t) se extraen dos muestras
independientes, y a partir de las mismas se calculan los estimadores y
debido a su normalidad asintótica, las variables:
son, también asintóticamente, normales de media 0 y varianza 1. Estas

variables se pueden usar para comparar para cada tiempo predeterminado, las
dos estimaciones. Sin embargo, generalmente, no interesa comparar para un
tiempo predeterminado (a veces sí, por ejemplo para tiempos de corte muy
establecidos como supervivencia a los 5 años para el cáncer), sino comparar
globalmente ambas curvas de supervivencia.
Evidentemente, se podrían comparar, por este procedimiento, punto a punto,

pero este modo de proceder es poco eficiente ya que no se usan todos los datos
en cada comparación y aparecen los problemas asociados a las comparaciones
múltiples y, en consecuencia, se han desarrollado pruebas para realizar una
única comparación global. La más popular es la conocida como prueba del log-
rank y puede verse como una aplicación de la prueba de Mantel y Haenszel
para tablas de contingencia estratificadas y que se puede generalizar a la
comparación de r funciones de supervivencia, con un estadístico que se
distribuye como una χ2 con r - 1 grados de libertad.
Ejemplo 2
Compárense las funciones de supervivencia para los datos siguientes; donde,

como en el ejemplo anterior, las pérdidas están indicadas con asteriscos; extraídos
de dos muestras hipotéticas correspondientes a dos tratamientos distintos.
trat. A: 10, 13, 15*, 17, 19*, 20*

trat. B: 8, 10, 11, 11*, 12, 15*

Para hacerlo con el SPSS, se necesita crear un archivo con tres variables: tiempo,
estado (codificado, por ejemplo, 0: pérdida, 1: muerte) y tratamiento (codificado,
por ejemplo, 0: tratamiento A, 1: tratamiento B).
y el resultado
Factor TRATA = A

Cumulative Number
Survival Error
Events Remaining
10 muerte ,8333 ,1521

1 5
13 muerte ,6667 ,1925
2 4
15 pérdida
2 3
17 muerte ,4444 ,2222
3 2
19 pérdida
3 1
20 pérdida
3 0

Events: 3

Survival Time Standard Error 95% Confidence

Interval
Mean: 17 2 ( 13; 20
)
(Limited to 20 )
Median: 17 4 ( 9; 25
)
Factor TRATA = B

Cumulative Number
Survival Error
Events Remaining
8 muerte ,8333 ,1521

1 5
10 muerte ,6667 ,1925
2 4
11 muerte ,5000 ,2041
3 3
11 pérdida
3 2
12 muerte ,2500 ,2041
4 1
15 pérdida
4 0

Events: 4

Interval
Mean: 12 1 ( 10; 14
)
(Limited to 15 )
Median: 11 1 ( 9; 13
)
Total Number
Number Percent
Events
Censored Censored

TRATA A 6 3
3 50,00
TRATA B 6 4
2 33,33
Overall 12 7
5 41,67
Test Statistics for Equality of Survival Distributions for TRATA
Statistic df Significance
Log Rank 2,23 1 ,1352
O con AlcEst para ver los intervalos de confianza

Ejemplo 3
Se quiere comparar la supervivencia a una cierta intervención quirúrgica en 3

hospitales distintos. Para ello se sigue en cada hospital a una muestra aleatoria de
pacientes intervenidos (habitualmente, y para aumentar el tamaño muestral, se
sigue a todos los intervenidos, considerándolos entonces una muestra de todos los
potenciales enfermos) y se obtienen los siguientes tiempos, en meses:
Hosp A: 1, 3, 7, 8*, 12, 12, 15*

Hosp B: 2, 2, 3, 8, 10, 10, 12*, 15
Hosp C: 1, 1, 3, 7, 10*, 12, 12, 14, 15*
El resultado es:
Factor HOSPITAL = A

Cumulative Number
Survival Error

Events Remaining
1 muerte ,8571 ,1323

1 6
3 muerte ,7143 ,1707
2 5
7 muerte ,5714 ,1870
3 4
8 pérdida
3 3
12 muerte
4 2
12 muerte ,1905 ,1676
5 1
15 pérdida
5 0

Events: 5

Interval
Mean: 9 2 ( 5; 13
)
(Limited to 15 )
Median: 12 2 ( 8; 16
)
Factor HOSPITAL = B

Cumulative Number
Survival Error
Events Remaining
2 muerte
1 7
2 muerte ,7500 ,1531
2 6
3 muerte ,6250 ,1712
3 5
8 muerte ,5000 ,1768
4 4
10 muerte
5 3
10 muerte ,2500 ,1531
6 2
12 pérdida

6 1
15 muerte ,0000 ,0000
7 0

Events: 7

Interval
Mean: 8 2 ( 4; 12
)
Median: 8 3 ( 2; 14
)
Factor HOSPITAL = C

Cumulative Number
Survival Error
Events Remaining
1 muerte
1 8
1 muerte ,7778 ,1386
2 7
3 muerte ,6667 ,1571
3 6
7 muerte ,5556 ,1656
4 5
10 pérdida
4 4
12 muerte
5 3
12 muerte ,2778 ,1617 6
2
14 muerte ,1389 ,1272
7 1
15 pérdida
7 0

Events: 7

Interval
Mean: 9 2 ( 5; 12
)

(Limited to 15 )
Median: 12 3 ( 6; 18
)
Total Number
Number Percent
Events
Censored Censored
HOSPITAL A 7 5
2 28,57
HOSPITAL B 8 7
1 12,50
HOSPITAL C 9 7
2 22,22
Overall 24 19
5 20,83
Test Statistics for Equality of Survival Distributions for

HOSPITAL
Statistic df Significance
Log Rank ,41 2 ,8164


Métodos paramétricos de análisis de supervivencia
Alternativa paramétrica
Una alternativa al método de Kaplan-Meier para estimar funciones de

supervivencia y realizar contrastes de hipótesis sobre las mismas, consiste en
asumir ciertas funciones de probabilidad para la variable tiempo de espera. Si
esta asunción es razonable, y para averiguarlo habrá que realizar pruebas de
bondad del ajuste, estos métodos paramétricos son más poderosos que el de
Kaplan-Meier.
El método consiste en estimar, por máxima verosimilitud, los parámetros

característicos de la función, y usar su normalidad asintótica para realizar la
estimación por intervalos y los contrastes de hipótesis.
Las pruebas de bondad de ajuste se realizan con la habitual prueba basada en

la ji-cuadrado, con la del logaritmo del cociente de verosimilitudes (como en
regresión logística) o con métodos gráficos.
La prueba basada en la ji-cuadrado se realiza distribuyendo el periodo de

observación en k intervalos y calculando el estadístico:
siendo Oi los eventos observados en el intervalo i y Ei los esperados en la

hipótesis de que los datos provengan realmente de la distribución considerada.
Este estadístico, como es sabido, se distribuye aproximadamente como una ji-
cuadrado con k - r - 1 grados de libertad, siendo r el número de parámetros de la
distribución estimados a partir de la muestra. Un número razonable para k es
. Esta prueba sólo contempla los eventos, por lo tanto no tiene en cuenta la
información contenida en las pérdidas.
Otro modo de contrastar la bondad del ajuste es usando el logaritmo del

cociente de verosimilitudes. Hay que tener en cuenta que en este contraste la
hipótesis nula es que el modelo no es adecuado, mientras que en el anterior es
que sí lo es.
Un método gráfico complementario de observación de la bondad del ajuste, es

dibujar la función de supervivencia estimada y, en la misma gráfica, las
estimaciones puntuales no paramétricas obtenidas por el método de Kaplan-
Meier, o bien dibujar transformaciones de las funciones de supervivencia o
riesgo cuyas formas sean conocidas.
Las funciones que con más frecuencia se usan se exponen en los apartados
siguientes.

Función exponencial
La función exponencial está definida por:
Usando las relaciones entre las tres funciones las funciones de supervivencia y
riesgo para esta variable son
es decir, el riesgo es constante a lo largo del tiempo. A esta propiedad

característica de la función exponencial se le suele llamar pérdida de memoria, y
es la propiedad que permite evaluar gráficamente si la función exponencial es
un modelo adecuado para unos datos.
Si un proceso es de Poisson (suceso raro y aleatorio en el tiempo), la variable

“tiempo hasta que ocurra el primer suceso” es exponencial, por esta razón esta
función es muy usada en control de calidad donde se puede asumir procesos
Poisson (p.e. la vida de los componentes electrónicos en un aparato, el tiempo
de espera en una consulta sin cita previa, o la vida de los vasos de vidrio en un
bar, siguen esta distribución) y poco en Ciencias de la Salud, aunque se ha
usado, por ejemplo, para estudiar supervivencia a la arteritis(1).
Es útil que señalar que, dentro de esta relación entre las funciones exponencial
y de Poisson, el parámetro es la media de la variable de Poisson “número de
sucesos en la unidad de tiempo”.
El estimador del parámetro de la función y su varianza son
siendo d el número de eventos observados
Ejemplo 4
Calcúlese para los datos del ejemplo 1 la función de supervivencia estimada,

asumiendo un modelo exponencial, y realícese la prueba para la bondad del
ajuste.

La salida de un paquete estadístico (PRESTA), eligiendo 4 intervalos para la

prueba de la bondad de ajuste es:
P R E S T A PC V2.2 19-OCT-2001
ANALISIS DE SUPERVIVENCIA
MODELO EXPONENCIAL : S(t)=exp(-At)
NOMBRE DE LOS DATOS: eje1sup

VARIABLE TIEMPO: TIEMPO
VARIABLE PERDIDAS: PERDID
NUMERO DE CASOS: 12
CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO 0
PARAMETRO ERROR ESTANDAR

A .06040 .02013
LOGARITMO DE MAXIMA VEROSIMILITUD SIN MODELO -17.044550

LOGARITMO DE MAXIMA VEROSIMILITUD DEL MODELO -34.260490
JI-CUADRADO: 34.43188 G.L.: 4 p= .000001
TABLA DE VALORES OBSERVADOS Y ESPERADOS

(SOLO CUENTAN LOS EVENTOS)
INTERVALO OBSERVADOS ESPERADOS CONT. JI2

< 4.76 .00 3.00 3.0000
4.76 - 11.48 4.00 3.00 .3333
11.48 - 22.95 5.00 3.00 1.3333
> 22.95 .00 3.00 3.0000
PRUEBA DE BONDAD DE AJUSTE

JI-CUADRADO: 7.66667 G.L.: 2 p= .021258
Obsérvese la discrepancia entre ambas pruebas de bondad de ajuste, debido al

pequeño tamaño muestral del ejemplo y al hecho de que hay 3 pérdidas cuya
información no se usa en la última prueba.

En la gráfica se muestran las funciones de riesgo y supervivencia asumiendo el

modelo exponencial (línea continua) y las estimaciones puntuales obtenidas por
el método de Kaplan-Meier (aspas). Visualmente se observa que el modelo no
es satisfactorio: las estimaciones puntuales de la función de riesgo están muy
alejadas de la recta horizontal que corresponde al modelo exponencial.
Ejemplo 5
Compárese, usando el modelo exponencial, las funciones de supervivencia

para los datos de la tabla, donde en la columna “Perdida” figura 0 para muerte y
1 para pérdida, en “Trata” 1 y 2 para indicar dos tratamientos distintos y en
“Tiempo” el tiempo en meses. Además figura la edad en años al comienzo del
tratamiento, que se usará más adelante.
La salida del PRESTA para este problema
P R E S T A PC V2.2 19-OCT-2001
MODELO EXPONENCIAL : S(t)=exp(-At)
NOMBRE DE LOS DATOS: super5

VARIABLE DEFINE GRUPOS: TRATA
GRUPO 1 Desde 1.00 Hasta 1.00
GRUPO 2 Desde 2.00 Hasta 2.00

GRUPO 1

A .04826 .00464

JI-CUADRADO: 94.83020 G.L.: 42 p= .000006


< 1.98 5.00 10.64 2.9868
1.98 - 4.16 17.00 10.64 3.8073
4.16 - 6.60 10.00 10.64 .0381
6.60 - 9.37 9.00 10.64 .2517
9.37 - 12.56 13.00 10.64 .5253
12.56 - 16.34 7.00 10.64 1.2432
16.34 - 20.96 10.00 10.64 .0381
20.96 - 26.92 8.00 10.64 .6535
26.92 - 35.33 11.00 10.64 .0124
35.33 - 49.69 9.00 10.64 .2517
> 49.69 9.00 10.64 .2517

JI-CUADRADO: 10.05983 G.L.: 9 p= .345439
GRUPO 2

A .08935 .00876

JI-CUADRADO: 55.42084 G.L.: 30 p= .003227


< 1.07 6.00 10.27 1.7772
1.07 - 2.25 13.00 10.27 .7241

2.25 - 3.56 9.00 10.27 .1577

3.56 - 5.06 12.00 10.27 .2904
5.06 - 6.78 11.00 10.27 .0515
6.78 - 8.82 4.00 10.27 3.8302
8.82 - 11.32 8.00 10.27 .5028
11.32 - 14.54 13.00 10.27 .7241
14.54 - 19.08 12.00 10.27 .2904
19.08 - 26.84 9.00 10.27 .1577
> 26.84 7.00 10.27 1.0426

JI-CUADRADO: 9.54867 G.L.: 9 p= .388265
Ahora, con un tamaño muestral mayor no hay discrepancia entre ambas pruebas
para la bondad del ajuste, las dos indican un buen ajuste. En la figura se presentan
las gráficas (líneas continuas: estimaciones de las funciones usando el modelo
exponencial y aspas y cuadrados: el método de Kaplan-Meier) y se observa que el
ajuste es muy satisfactorio.
Es decir, con ambos tratamientos el modelo exponencial es adecuado, o sea el

riesgo se mantiene constante a lo largo del tiempo, siendo para el
tratamiento 1 y para el 2, dicho de otro modo, con el tratamiento 1 se
producen en promedio 0,048 fallecimientos al mes y con el 2 se producen 0,089.
Para comparar las curvas se puede usar la diferencia de los parámetros
estimados como estadístico para el contraste, ya que su distribución muestral es
asintóticamente normal con media 0 y varianza la suma de varianzas. En este
caso:

que comparándolo con el valor crítico z0,025= 1,96 permite rechazar la hipótesis
nula de igualdad.
Referencias
1 M.A.González-Gay, R.Blanco, V.Abraira, C.García-Porrúa, D.Ibáñez,

M.T.Rigueiro, A.Sánchez-Andrade, J.Guerrero, E.Casariego. Giant cell arteritis in Lugo,
Spain, is associated with low longterm mortality. Journal of Reumathology. 24: 2171-
2176. (1997).

Función de Weibull
Función de Weibull
La función de Weibull está definida por:
Obsérvese que para α=1 esta función es la exponencial, es decir la función

exponencial es una particularización de la función más general de Weibull.
Usando las relaciones entre las tres funciones las funciones de supervivencia y
riesgo para esta variable son
es decir, el riesgo es creciente a lo largo del tiempo para α > 1 (por ejemplo,
supervivencia de pacientes con una enfermedad crónica sin respuesta al
tratamiento, o materiales con fatiga), constante para α = 1 (materiales sin fatiga)
y decreciente para α < 1 (enfermos con cirugía mayor practicada con éxito).
Nótese que calculando dos veces el logaritmo de la función de supervivencia
y calculando el logaritmo de la función de riesgo
es decir las relaciones entre el logaritmo del logaritmo cambiado de signo de la

supervivencia con el logaritmo del tiempo (primera fórmula) y el logaritmo del
riesgo con el logaritmo del tiempo (segunda fórmula) son lineales. A veces se
usan estas relaciones para evaluar la idoneidad del modelo de Weibull.
Se ha usado esta función para estudiar supervivencia a las bacteriemias y al

cáncer gástrico (1).
Ejemplo 6
Ajústese, con las pruebas de bondad de ajuste, la función de Weibull a los datos
de la tabla, donde en la columna “Perdida” figura 0 para muerte y 1 para pérdida
y en “Tiempo” el tiempo en meses.
La grafica de ln[-ln(S(t))] en función de lnt para evaluar la idoneidad del modelo

Función de Weibull
(en un modelo Weibull debe ser una línea recta).
La salida del PRESTA para este problema (nótese que se denomina parámetro A
a τ y parámetro B a α
P R E S T A PC V2.2 25-OCT-2001
MODELO WEIBULL : S(t)=exp[-(At)**B]


A .01778 .00068
B 2.37622 .17212
A B

Función de Weibull
A .00000 -.00001
B -.00001 .02963

JI-CUADRADO: 107.24410 G.L.: 59 p= .000130


< 21.82 20.00 16.10 .9447
21.82 - 29.92 8.00 16.10 4.0752
29.92 - 36.45 10.00 16.10 2.3112
36.45 - 42.40 13.00 16.10 .5969
42.40 - 48.21 17.00 16.10 .0503
48.21 - 54.22 20.00 16.10 .9447
54.22 - 60.82 5.00 16.10 7.6528
60.82 - 68.73 14.00 16.10 .2739
68.73 - 79.91 10.00 16.10 2.3112
> 79.91 5.00 16.10 7.6528

JI-CUADRADO: 26.81367 G.L.: 7 p= .000408
Vuelve a aparecer, como en el ejemplo 4, discrepancias entre ambas pruebas

de bondad de ajuste, debido a que en la última no se usan las pérdidas. En
estos casos resulta útil recurrir a las pruebas gráficas. Tanto en la gráfica
logarítmica como en la comparación de la función de supervivencia con las
estimaciones puntuales que se presenta a continuación el modelo parece
adecuado.

Función de Weibull
Un contraste que también interesa hacer es sí el modelo exponencial es

adecuado, es decir si α =1 contra la hipótesis alternativa α >1. Se hace con el
estadístico
que en este ejemplo es
nula de modelo exponencial.
Referencias
1 Marubini E, Bonfanti G, Bozzetti F, et al. A prognostic score for patients resected for gastric
cancer. Eur J Cancer 29A: 845-850. (1993).

Función lognormal
Función lognormal
La variable T sigue una distribución lognormal si lnT tiene una distribución

normal de media μ y varianza σ². En consecuencia, la variable
es un variable normal reducida, es decir de media igual a 0 y desviación típica

igual a 1. Por lo tanto, la función de supervivencia se puede escribir
siendo la función de distribución acumulativa de la normal reducida. Por lo

tanto un modo gráfico de verificar esta distribución es comparar la función de
supervivencia dibujada en papel lognormal con una recta.
La función están caracterizadas por los dos parámetros μ y σ, que no son su

media y desviación típica. La estimación de estos parámetros sólo es sencilla en
el caso de que no haya pérdidas y ésta es la que implementa el PRESTA.
Se ha usado esta función para estudiar tanto la supervivencia en SIDA (1), como
el tiempo hasta la seroconversión de HIV+ (2).
Ejemplo 7
Estímese las función de supervivencia, asumiendo el modelo lognormal y

realícese la prueba de la bondad de ajuste, para los datos de la tabla.
La salida del PRESTA es (nótese que se denomina parámetro A a µ y parámetro

B a σ2)
P R E S T A PC V2.2 26-OCT-2001
MODELO LOG-NORMAL : f(lnt)=N(A,B)

Función lognormal
VARIABLE PERDIDAS NO SE USA
A 2.32263 .04138
B .20719 .02664
A B
A .00171 .00000
B .00000 .00071
< 5.69 10.00 12.10 .3645

Función lognormal
5.69 - 6.96 9.00 12.10 .7942
6.96 - 8.04 18.00 12.10 2.8769
8.04 - 9.09 12.00 12.10 .0008
9.09 - 10.20 17.00 12.10 1.9843
10.20 - 11.45 12.00 12.10 .0008
11.45 - 12.95 8.00 12.10 1.3893
12.95 - 14.96 9.00 12.10 .7942
14.96 - 18.28 16.00 12.10 1.2570
> 18.28 10.00 12.10 .3645
JI-CUADRADO: 9.82645 G.L.: 7 p= .197686
Con la prueba de bondad de ajuste basada en la ji-cuadrado, que en este caso que
no hay pérdidas “funciona” mejor, no se rechaza la hipótesis nula de modelo
lognormal y en la gráfica también se observa que el modelo es satisfactorio.

Función lognormal
Aceptando que el modelo es bueno, calcúlese la supervivencia a 8 años

(suponiendo los tiempos en años) y la mediana de supervivencia.
En la gráfica se observa que para T=8, S(t) es aproximadamente 0,7 y que

S(t)=0,5 para t=10 aproximadamente. O bien, más laborioso pero más preciso,
usando las fórmulas
y mirando en la tabla de la normal
es decir la probabilidad de supervivencia a los 8 años es 0,7019. La mediana es

el tiempo en el que S(t)=0,5
y mirando en la tabla de la normal
Referencias
1 Veugelers PJ, Cornelisse PG, Craib KJ, et al. Models of survival in HIV infection and their
use in the quantification of treatment benefits. Am J Epidemiol 148: 487-496. (1998).

Función lognormal
2 Muñoz A, Xu J. Models for the incubation of AIDS and variations according to age and
period. Stat Med. 30: 2459-2473. (1996).

Función gamma
Función gamma
El modelo gamma está definido por la función de probabilidad
siendo Γ(α) la función gamma, definida como:
Como Γ(1) = 1, la función de probabilidad gamma cuando α = 1 es la

exponencial. Otro caso particular de esta función es τ = 1/2 y α = r/2, siendo r un
número natural, que recibe el nombre de ji-cuadrado con r grados de libertad.
Del mismo modo que la variable “tiempo hasta que ocurra el primer evento” de
un proceso es de Poisson es exponencial, la variable “tiempo hasta que ocurra el
evento k-ésimo” es gamma con α = k
La estimación de esta función sólo es sencilla en el caso de que no haya

pérdidas y ésta es la que implementa el PRESTA.
Ejemplo 8
Estímese la función de supervivencia, asumiendo el modelo gamma, y realícese la

prueba de la bondad de ajuste, para los datos de la tabla.
La salida del PRESTA es (nótese que se denomina parámetro A a α y parámetro

B a τ)
P R E S T A PC V2.2 27-OCT-2001
MODELO GAMMA : S(t)=1-I(A,Bt)*(Bt)**A/G(A)

VARIABLE PERDIDAS NO SE USA
NUMERO DE CASOS: 95

Función gamma

A 7.81341 .85924
B .08169 .00947
A B
A .73829 .00772
B .00772 .00009

JI-CUADRADO: 143.23240 G.L.: 64 p= .000000


< 17.80 .00 .02 .0182
17.80 - 35.60 1.00 1.15 .0205
35.60 - 53.40 6.00 7.07 .1621
53.40 - 71.20 17.00 15.81 .0901
71.20 - 89.00 19.00 20.45 .1023
89.00 - 106.80 17.00 18.87 .1846
106.80 - 124.60 19.00 13.86 1.9044
124.60 - 142.40 8.00 8.65 .0485
142.40 - 160.20 5.00 4.77 .0110
> 160.20 3.00 4.36 .4233

JI-CUADRADO: 2.96491 G.L.: 7 p= .888640
Con ambas pruebas de bondad de ajuste se acepta el modelo gamma y en la

gráfica también se observa que el modelo es satisfactorio.

Función gamma
Igual que con el modelo de Weibull, un contraste que también interesa hacer es
sí el modelo exponencial es adecuado, es decir si α =1 contra la hipótesis
alternativa α >1. Se hace con el estadístico
que en este ejemplo es
nula de modelo exponencial.

Modelo de riesgo proporcional (Cox)
Hasta aquí se han estudiado métodos que permiten estimar las funciones de riesgo
y supervivencia para una muestra aleatoria y comparar dos o más estimaciones.
El objetivo ahora es plantear un modelo de regresión para el riesgo, o la
supervivencia, en función de variables "explicatorias", que permita comparar
dichas estimaciones, teniendo en cuenta el efecto de otras variables distintas de la
que se utiliza para definir los grupos.
Por ejemplo, la supervivencia a dos tratamientos alternativos puede depender

no sólo del tratamiento, sino también de otras variables como la edad, el sexo, o
la gravedad de la afección de cada paciente. En los métodos previos se asume
que el muestreo aleatorio hace que los distintos grupos sean homogéneos con
respecto a todas las demás variables, sin embargo no siempre es así (el
muestreo aleatorio sólo garantiza que las muestras homogéneas sean las más
probables) y, por otro lado, a veces interesa estimar la supervivencia para
distintos valores de las otras variables. Los modelos de regresión permiten
hacer ambas cosas.
Hay varios modelos de regresión propuestos, como el llamado modelo

acelerado en que se asume que la función de supervivencia es una función del
tiempo y de otras k variables (representadas por el vector, de dimensión k, X) de
la siguiente forma:
siendo Φ(X,α) una función de X con unos coeficientes α, que serían los
coeficientes a estimar para el modelo.
Otros modelos asumen algunas de las funciones de supervivencia vistas antes

planteando el modelo de regresión para los parámetros de las funciones.
Sin embargo, el modelo más popular, por su sencillez y facilidad para interpretar
los coeficientes α, es el denominado modelo de riesgo proporcional o modelo de
Cox que es un modelo de la forma
Es decir, h0(t) es el riesgo cuando todas las variables Xi son 0, o riesgo basal,
que es variable con el tiempo.
Otra manera equivalente de expresarlo es:
es decir, el modelo plantea el logaritmo del riesgo relativo como una función

lineal de las variables independientes. Se supone, por lo tanto, que el riesgo

relativo, a diferencia del riesgo propiamente dicho, no depende del tiempo o,
dicho de otra manera, que es constante a lo largo del tiempo (de ahí el nombre
de modelo de riesgo proporcional).
La forma anterior hace explícita la interpretación de los coeficientes: αi es el

logaritmo del riesgo relativo cuando Xi aumenta una unidad, manteniéndose
constantes las demás variables, y por tanto, exp(αi) es el riesgo relativo cuando
Xi aumenta una unidad, manteniéndose constantes las demás.
Nótese que el modelo no depende de cómo sea h0(t), podría ser de cualquiera
de las formas vistas antes u otras, la única asunción es que el riesgo relativo al
aumentar una unidad cada variable es constante (exp(αi)) en todo tiempo. Hay
que destacar que esta asunción no siempre es razonable y conviene evaluarla
en cada caso, por ejemplo, con gráficas que representen el logaritmo de los
riesgos para distintos valores de las variables Xi en función del tiempo, cuando
el riesgo es proporcional deben ser paralelas.

Estimación y contrastes en el modelo de Cox
Estimación de los coeficientes y

contrastes de hipótesis
Para estimar los coeficientes por el método de máxima verosimilitud es

necesario construir la función de verosimilitud. Para ello hay varios métodos,
pero el primero históricamente y el más general es el debido a Cox y se basa en
la función de verosimilitud parcial: y parte de que dado que el modelo no hace
ninguna asunción sobre h0(t), la única contribución de los datos a la
verosimilitud es en los tiempos en que se observan eventos.
Los cálculos necesarios para la estimación son muy largos, sobre todo cuando
para algún tiempo hay más de un evento. Los paquetes estadísticos suelen usar
una aproximación (aproximación de Peto) que es buena cuando, para cada
tiempo, el número de eventos es pequeño comparado con los individuos en
riesgo.
Teniendo en cuenta que los estimadores lo son por máxima verosimilitud, los
contrastes de hipótesis sobre cada coeficiente se hacen usando su normalidad
asintótica (prueba de Wald) y los contrastes de hipótesis sobre el modelo
completo o sobre un conjunto de coeficientes con el logaritmo del cociente de
verosimilitudes (exactamente igual que en regresión logística).
Es decir y resumiendo un poco, un intervalo de confianza al (1- α)% para el

coeficiente αi es:
En regresión de Cox los estimadores de la asociación no son los coeficientes αi

sino los riesgos relativos, por lo tanto los intervalos de confianza que interesan
calcular son los de los riesgos relativos. Dichos intervalos están dados por:
El estadístico para el contraste:
H0: αi = a
H1: α i ≠ a siendo a una constante, es:

Estimación y contrastes en el modelo de Cox
y la región crítica: |z| > zα/2
o equivalentemente:
que se distribuye como una ji-cuadrado con 1 grado de libertad y, por tanto, la
región crítica para el contraste es . A estos contrastes se les denominan
contrastes de Wald.
Un contraste que interesa realizar es α1=0; el que no se pueda rechazar esta

hipótesis indica que el riesgo no depende de la variable X.

Estrategias de modelización con el modelo de Cox
Las estrategias de modelización son exactamente las mismas que las utilizadas en los otros modelos de regresión,
contrastándose también del mismo modo la interacción y la confusión y pudiéndose usar también las variables
dummy.
Ejemplo 9
Comparar la supervivencia de los tratamientos del ejemplo 5 controlando los posibles efectos de confusión e
interacción de la edad.
En el ejemplo 5 se encontró que la supervivencia con ambos tratamientos ajustaba a un modelo exponencial, es
decir con ambos tratamientos el riesgo es constante (por lo tanto se cumple la asunción de riesgo proporcional):
0,048 para el tratamiento 1 y 0,089 para el tratamiento 2, siendo ambos riesgos significativamente distintos.
Analizado con la regresión de Cox univariante
Se encuentra un resultado prácticamente superponible: hay una diferencia estadísticamente significativa

(p=0.000) y el riesgo relativo es 1,892.
Sin embargo la edad media en ambos grupos es muy distinta (39,8 en los pacientes que reciben el tratamiento 1
y 64,7 en los que reciben el tratamiento 2) por lo tanto podría ser una variable de confusión.
Realizando un análisis multivariante, incluyendo en el modelo máximo: tratamiento, edad y el producto

“tratamiento por edad” para evaluar la interacción y usando la estrategia hacia atrás
El modelo globalmente es significativo, evaluado con la prueba del logaritmo del cociente de verosimilitudes, que
el SPSS denomina “prueba ómnibus”. El coeficiente del termino de interacción no es distinto de 0 (p=0,931) por
lo tanto no se rechaza la hipótesis nula de no existencia de interacción y se elimina esa variable
Obsérvese que la variable EDAD es una variable de confusión: el riesgo relativo ha disminuido desde 1,892
estimado con el modelo simple a 1,449, Además ha dejado de ser significativo.
En consecuencia este sería el modelo final y la conclusión del análisis es que, una vez controlado por la edad,
no hay diferencia significativa entre ambos tratamientos.

Estrategias de modelización con el modelo de Cox

Medidas de frecuencia de la enfermedad. Introducción
MEDIDAS DE FRECUENCIA DE LA ENFERMEDAD
V. Abraira
Bibliografía:
D.G.Kleinbaum, L.L.Kupper, H.Morgenstern

Epidemiologic Research. Principles and Cuantitative Methods
Van Nostrand Reinhold Company. 1982
Introducción
La característica definitoria de la Epidemiología como ciencia es la

cuantificación. Por ejemplo Rothman dice que la Epidemiología no es otra cosa
que un “ejercicio de medición” y Anderson que es “el estudio de la ocurrencia de
los procesos patológicos”. Por ello, ha desarrollado instrumentos para:
Ø Medir la frecuencia de la enfermedad
Ø Medirla en relación con sus supuestos determinantes
La epidemiología clínica aplica el método epidemiológico para producir

conocimiento sobre el proceso de la práctica clínica; aplica por tanto los mismos
instrumentos para medir la frecuencia no sólo de la enfermedad sino también de
otros eventos que ocurren en la práctica clínica: curar, solicitar una prueba
diagnóstica, aplicar un tratamiento. Esto provoca a veces, alguna confusión
terminológica de la que probablemente no estén exentos estos apuntes en los
que se trata de estudiar
Ø las medidas de frecuencia de un evento (en epidemiología suele ser
enfermar, pero en epidemiología clínica también curación, muerte, etc.)
Ø las medidas de asociación entre eventos (factores de riesgo, factores
pronósticos, tratamientos, etc. con enfermar, curar, morir, etc.) y
Ø las llamadas medidas de impacto
Otras lecturas
F.Pozo, J.R.Ricoy, P.Lázaro. Una estrategia de investigación en el Sistema

Nacional de Salud: I. La epidemiología clínica. Medicina Clínica 1994; 102:664-
669.
http://www.hrc.es/bioest/Medidas_frecuencia_1.html [02/01/2003 02:15:54]

Prevalencia
Prevalencia
Es la proporción de individuos de una población que presentan el evento en un

momento, o periodo de tiempo, determinado. Por ejemplo la prevalencia de
diabetes en Madrid en el año 2001 es la proporción de individuos de esa
provincia que en el año 2001 padecían la enfermedad. Se calcula
Características
Ø Es una proporción:
Ø no tiene dimensiones
Ø su valor oscila entre 0 y 1, aunque a veces se expresa como
porcentaje
Ø Es un indicador estático, que se refiere a un momento temporal
Ø Indica la “carga” del evento que soporta la población, tiene su mayor
utilidad en los estudios de planificación de servicios sanitarios
Ø En la prevalencia influye la velocidad de aparición del evento y su
duración; es por ello poco útil en la investigación causal y de medidas
terapéuticas

Incidencia
Incidencia
La incidencia refleja el número de nuevos “casos” en un periodo de tiempo. Es

un índice dinámico que requiere seguimiento en el tiempo de la población de
interés. Cuando la enfermedad es recurrente se suele referir a la primera
aparición.
Se puede medir con dos índices: incidencia acumulada y densidad (o tasa) de
incidencia.
Incidencia acumulada
Es la proporción de individuos que desarrollan el evento durante el periodo de

seguimiento. Se calcula
Características
Ø Es una proporción
Ø no tiene dimensiones.
Ø su valor oscila entre 0 y 1, aunque también se suele expresar como
porcentaje
Ø Depende del tiempo de seguimiento
Ø Se calcula sobre una cohorte fija, es decir no se permiten entradas de
nuevos individuos durante el seguimiento.
La principal limitación de este índice proviene del efecto de cohorte fija, puesto
que a lo largo del seguimiento generalmente se pierden individuos.
Ejemplo 1:
Se sigue durante 12 meses a un grupo de 6 individuos que han sufrido un

accidente cerebro-vascular (ACV), para evaluar la incidencia de recidiva. La
situación se puede esquematizar en la figura
http://www.hrc.es/bioest/Medidas_frecuencia_3.html (1 of 2) [02/01/2003 02:16:41]

Incidencia
Los rombos rojos señalan recidivas mientras que los círculos verdes señalan
pérdidas: el paciente B desapareció del estudio a los 2,5 meses, sin que hasta
ese momento hubiera sufrido una recidiva, el paciente D falleció por otra causa
no relacionada con el ACV, los pacientes C y F acabaron el periodo de estudio
sin recidiva.
La IA en los 2 años de seguimiento es 2/6
Obsérvese la indeterminación de este índice debido a las pérdidas; en este

ejemplo si se hubiera completado el periodo de observación en todos los
individuos, B y D podrían haber tenido un nuevo ACV y la IA sería distinta.

Densidad de incidencia
Densidad (o tasa) de incidencia
Para evitar la limitación de la incidencia acumulada se define este otro índice de

incidencia:
La densidad, o tasa, de incidencia es el cociente entre el número de casos nuevos

ocurridos durante el periodo de seguimiento y la suma de todos los tiempos de
observación. Se calcula
Características:
Ø Tiene dimensión de inversa del tiempo.

Ø Rango ilimitado.
Ø No depende del tiempo de seguimiento, asumiendo estacionareidad, es
decir ritmo constante.
Ø No necesita cohorte fija.
Ejemplo 2
Supóngase para el ejemplo 1, el esquema de seguimiento de la figura:
Es decir, es una cohorte dinámica en la que se permite incorporaciones, por

tanto el seguimiento no empezó al mismo tiempo para todos los individuos.
Como en el ejemplo 1, los rombos rojos señalan recidivas mientras que los
círculos verdes señalan pérdidas: el seguimiento de los pacientes D, E y F
comenzó 1, 2 y 6 meses después de empezado el estudio, el paciente B

Densidad de incidencia
desapareció del estudio a los 2,5 meses, sin que hasta ese momento hubiera
sufrido una recidiva, el D falleció por otra causa no relacionada con el ACV, los
pacientes C y F acabaron el periodo de estudio sin recidiva.
La suma de los tiempos de observación es
y, por tanto, la densidad de incidencia

Intervalos de confianza de los índices de prevalencia e incidencia
Intervalos de confianza de los índices de prevalencia e incidencia
La prevalencia y la incidencia acumulada son proporciones, por tanto sus IC se

calculan como tales, es decir
Ejemplo 3:
En una muestra aleatoria de 500 personas de un área, hay 5 diabéticos. La

prevalencia estimada es
y su intervalo de confianza al 95%:
Para construir el intervalo de confianza de la densidad de incidencia hay que

tener en cuenta que el numerador es una variable de Poisson cuya varianza es
igual a su media, asumiendo que el denominador es constante, una manera
aproximada de calcular el intervalo es:
siendo d el número de eventos y L la suma de los tiempos. El IC para el ejemplo

2 se calcula:
Nótese el valor negativo del límite inferior que indica que para los datos de este
ejemplo la aproximación es mala.

Medidas de asociación o efecto
Medidas de asociación o efecto
Son medidas que se usan para evaluar la asociación entre un evento y un factor
de estudio, por ejemplo: mutación de un gen (factor) y una enfermedad (evento);
tratamiento (factor) y curación (evento). La mayoría de ellas ya han sido
estudiadas en otra parte de estos apuntes y serán repasadas ahora. Comparan
medidas de frecuencia del evento entre dos o más grupos, definidos por
diferentes categorías del factor. En aras de la simplicidad, consideraremos sólo
2 grupos, uno de ellos, usado como referencia, no tiene el factor y el otro sí. La
categoría de referencia debería tener un tamaño grande para obtener
estimaciones precisas y ser suficientemente homogénea para facilitar la
interpretación.
Comparar dos medidas de frecuencia se puede hacer con su cociente (si no son
distintas se obtiene 1) o con la diferencia (si no son distintas se obtiene 0)
Las medidas basadas en el cociente, llamadas medidas de efecto, son:

Ø Razón de tasas de incidencia
Ø Riesgo relativo (cociente de prevalencias o cociente de incidencias
acumuladas)
Ø Odds ratio
Las medidas basadas en la diferencia, llamadas medidas de impacto, son:

Ø Diferencia absoluta (o exceso) de riesgo
Ø Diferencia relativa de riesgo (o fracción atribuible)
Ø Reducción absoluta de riesgo
Ø Reducción relativa de riesgo
Ø Número necesario a tratar
Jaeschke et al Assessing the effects of treatment: measures of association.

CMAJ. 152:351-357. 1995
Abraira Medidas del efecto de un tratamiento (I): reducción absoluta del riesgo,
reducción relativa del riesgo y riesgo relativo. SEMERGEN 26: 535-536. 2000.
Abraira Medidas del efecto de un tratamiento (II): odds ratio y numero necesario
para tratar. SEMERGEN 27: 418-420. 2001.

Razón de tasas de incidencia
También llamada razón de densidades de incidencia (RDI), es el cociente entre

las tasas de incidencia de ambos grupos, poniendo en el denominador la del
grupo de referencia.
En la tabla se representan esquemáticamente los resultados de un estudio que

permita evaluar la RDI, en la columna nF figuran los eventos (d0) y las personas-
tiempo (L0) en la categoría que no tiene el factor y en la columna F los de la
categoría que sí tiene el factor
nF F Total
Eventos d0 d1 d
Personas- L0 L1 L
tiempo
A partir de la tabla
Características
Ø rango de 0 a ∞.
Ø RDI=1 si no hay asociación entre la presencia del factor y el evento.
Ø RDI>1 si la asociación es positiva, es decir si la presencia del factor se
asocia a mayor ocurrencia del evento y RDI <1 si la asociación es negativa.
Ejemplo 4:
En un ensayo clínico para evaluar el efecto del tratamiento con un IECA más un
diurético opcional, en pacientes que habían sufrido un ACV, se estudió como
evento la ocurrencia de otro ACV en los siguientes 4 años, los resultados fueron:
Placebo Tratamiento Total

ACV 420 307 727
Personas-año 11889 11983 23872
A partir de aquí:

que indica que en los pacientes tratados con el tratamiento experimental la tasa
de incidencia de otro ACV es el 73% de la de los pacientes tratados con
placebo.
Referencia
PROGRESS Collaborative Group. Randomised trial of a perindopril-based blood-

pressure-lowering regimen among 6105 individuals with previous stroke or
transient ischaemic attack. Lancet 2001; 358:1033-1041.

Riesgo relativo
Riesgo relativo
En epidemiología se denomina riesgo a la probabilidad de ocurrencia de un

evento, típicamente enfermar, aunque también morir, curar, etc.(en la
terminología anglosajona se usan los términos risk y hazard, este último
especialmente si el evento es morir). Más precisamente (véase el cap 6 de
Kleinbaum et al. para más detalles) se define el riesgo como la probabilidad de
que un individuo, libre de enfermedad y susceptible de ella, la desarrolle en un
periodo determinado, condicionada a que el individuo no muera a causa de otra
enfermedad durante el periodo.
La incidencia acumulada es un estimador de esta definición de riesgo, mientras

que la prevalencia es un estimador de otra posible definición de riesgo:
probabilidad de que un individuo de una determinada población tenga una
enfermedad en un momento o periodo de tiempo determinado.
En ambos casos se usa el cociente entre el riesgo en el grupo con el factor y el

riesgo en el grupo de referencia como índice de asociación y se denomina
riesgo relativo (RR).
En la tabla se representan esquemáticamente los resultados de un estudio que

permita evaluar el RR, en la columna nF figuran los eventos (“casos”: a0) y los
“no casos” (b0) en la categoría que no tiene el factor y en la columna F los de la
categoría que sí tiene el factor
nF F
Casos a0 a1
No casos b0 b1
Total n0 n1
Características
Ø RR=1 si no hay asociación entre la presencia del factor y el evento.
Ø RR>1 si la asociación es positiva, es decir si la presencia del factor se
asocia a mayor ocurrencia del evento y RR<1 si la asociación es negativa.
Ejemplo 5:

Riesgo relativo
Otra forma de resumir los resultados del ensayo clínico del ejemplo 4 es:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
Y a partir de la tabla:

Odds ratio
Odds ratio
Existe otra manera, proveniente del mundo del juego, de representar la

probabilidad de ocurrencia de un evento y es mediante el cociente entre la
probabilidad de que ocurra el evento y la probabilidad de que no ocurra. Este
cociente, que en inglés se denomina odds y para el que no hay una traducción
española comúnmente aceptada, indica cuanto más probable es la ocurrencia
del evento que su no ocurrencia.
El odds ratio (OR) es el cociente entre el odds en el grupo con el factor y el odds
en el grupo sin el factor. A partir de la tabla en la que en la columna nF figuran
los eventos (“casos”: a0) y los “no casos” (b0) en la categoría que no tiene el
factor y en la columna F los de la categoría que sí tiene el factor
nF F
Casos a0 a1
No casos b0 b1
Total n0 n1
El OR se calcula
Características
Ø OR=1 si no hay asociación entre la presencia del factor y el evento.
Ø OR>1 si la asociación es positiva, es decir si la presencia del factor se
asocia a mayor ocurrencia del evento y OR<1 si la asociación es negativa.
Relaciones entre el OR y el RR
Ø RR más intuitivo.
Ø OR se puede estimar siempre y de la misma forma; el RR no se puede
en los diseños casos control.
Ø El OR permite, mediante la regresión logística, ajustar por variables de
confusión.

Odds ratio
Ø El OR está siempre más alejado de 1 que el RR.

Ø Si el riesgo es bajo, son muy parecidos.
Ejemplo 6:
Para la tabla del ejemplo 5:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
El OR se calcula:
Obsérvese que es más distinto de 1 que el RR.

Diferencia absoluta de riesgo
También llamada exceso de riesgo, se calcula como la diferencia entre el riesgo

en el grupo con el factor y el riesgo en el grupo control.
nF F
Casos a0 a1
No casos b0 b1
Total n0 n1
La DAR se calcula
Características
Ø rango de –1 a 1.
Ø DAR=0 si no hay asociación entre la presencia del factor y el evento.
Ø DAR>0 si la asociación es positiva, es decir si la presencia del factor se
asocia a mayor ocurrencia del evento y DAR<0 si la asociación es negativa.
Ejemplo 7:
Para los datos del ejemplo 5:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
La DAR es:
como es negativo indica que el riesgo en el grupo tratado es menor que en el

grupo placebo; por cada 100 pacientes tratados se producen 3,7 ACV menos
respecto a los que se producirían si no se trataran.
En general, se suele usar este índice cuando el riesgo en el grupo expuesto es

mayor que en el grupo control, es decir cuando la DAR es positiva, en caso
contrario (como en el ejemplo) se usa la reducción absoluta de riesgo.


Reducción absoluta de riesgo
Se calcula como la diferencia entre el riesgo en el grupo control y el riesgo en el

grupo con el factor; es, por tanto igual a la diferencia absoluta de riesgo
cambiada de signo.
nF F
Casos a0 a1
No casos b0 b1
Total n0 n1
La RAR se calcula
Características
Ø rango de –1 a 1.
Ø RAR=0 si no hay asociación entre la presencia del factor y el evento.
Ø RAR<0 si la asociación es positiva, es decir si la presencia del factor se
asocia a mayor ocurrencia del evento y RAR>0 si la asociación es negativa.
Ejemplo 8:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
La RAR es:
que, similarmente a la diferencia absoluta de riesgo, se interpreta como que por

cada 100 pacientes tratados se producen 3,7 ACV menos respecto a los que se
producirían si no se trataran.


Diferencia relativa de riesgo
También llamada fracción atribuible, se calcula como el cociente entre la

diferencia absoluta de riesgo y el riesgo en el grupo control.
nF F
Casos a0 a1
No casos b0 b1
Total n0 n1
La DRR se calcula
Reducción relativa de riesgo
De modo similar se define, y se suele usar cuando el riesgo en el grupo

expuesto (con el factor) es menor que el riego del grupo control, la reducción
relativa del riesgo como el cociente entre la reducción absoluta de riesgo y el
riesgo en el grupo control.
Ejemplo 9:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
La DRR es:

y la RRR
que indica que el riesgo del grupo tratado se reduce un 26,8% del riesgo del
grupo control.

Número necesario a tratar
Es el índice más reciente y fue propuesto en el contexto de los ensayos clínicos

para evaluar el impacto del un tratamiento. Cobra, por tanto, todo su sentido
cuando el factor a estudio es un tratamiento. Se define como el número de
individuos que hay que tratar con el tratamiento experimental para producir, o
evitar, un evento adicional respecto a los que se producirían con el tratamiento
control. Se calcula como el inverso de la RAR
nF F
Casos a0 a1
No casos b0 b1
Total n0 n1
El NNT se calcula como
La relacción entre la RAR y el NNT, puede entenderse mediante una simple

“regla de tres”: puesto que la RAR, multiplicada por 100 para expresarla como
porcentaje, se interpreta como que por cada 100 pacientes tratados se producen
RAR eventos menos, para producir 1 menos necesitamos tratar 100/(RARx100)
= 1/RAR
Ejemplo 10:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
El NNT es:
y significa que por cada 27 pacientes tratados con el tratamiento experimental

se evitaría 1 recurrencia de ACV.


Comparación de los distintos índices
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
Hemos encontrado los siguientes índices:
RR=0,73
OR=0,70
NNT=27
RAR=3,7%
RRR=26,8%
Todos ellos calculados con la misma tabla, por lo tanto todos ellos expresan
exactamente el mismo efecto. Hay que notar, sin embargo que las relaciones
entre ellos no se mantienen entre diferentes estudios (es decir, por ejemplo no
siempre un RR=0,73 es equivalente a un OR=0,70 ni a un NNT=27, aunque
siempre RAR=3,7% es equivalente a NNT=27). Existe evidencia empírica1,2 de
que el efecto apreciado por los lectores de la investigación médica depende en
gran medida del índice usado, por lo tanto conviene familiarizarse con ellos y
sus relaciones.
De la experiencia de cientos de meta-análisis se desprende que los índices

relativos (RR y OR) tienden a ser más parecidos entre diferentes ensayos del
mismo tratamiento que los índices absolutos (RAR y NNT), o dicho de otra
manera los índices relativos serían característicos del tratamiento, mientras que
los absolutos dependerían del tratamiento y también del riesgo del grupo control.
Para decidir si el resultado de un estudio, expresado con un índice absoluto
como el NNT, es aplicable en nuestro medio, hay que evaluar si el riesgo basal
del estudio se similar al de nuestro medio y en caso contrario adaptar el índice a
nuestro riesgo basal. Igualmente, en un metanálisis, el cálculo de un NNT global
puede ser poco informativo si en los ensayos individuales hay heterogeneidad
en los riesgos basales.
1. Meneu Ricardo R., Peiró S, Márquez Calderón S. Influencia de la

presentación de los resultados de los ensayos clínicos en la intención de
prescribir: relativizando el riesgo relativo. Aten Primaria 1998; 21:446-450.
2. Bobbio M, Demichelis B, Giustetto G. Completeness of reporting trial results:

effect on physicians' willingness to prescribe. Lancet 1994; 343:1209-1211.

Intervalos de confianza de las medidas de asociación
Los intervalos de confianza aproximados al 95% para todas las medidas que se
han descrito se calculan como:
el estadístico se calcula a partir de la tabla
nF F Total
Eventos d0 d1 d
Personas- L0 L1 L
tiempo
Ejemplo 11:
Para construir el intervalo de confianza de la RDI de la tabla del ejemplo 4,

primero se debe calcular la
Placebo Tratamiento Total

ACV 420 307 727
Personas-año 11889 11983 23872
y como la RDI estimada es igual a 0,73 el intervalo de confianza queda:
Riesgo relativo Para este índice y los siguientes la tabla es
nF F
Casos a0 a1
No casos b0 b1

Total n0 n1
Odds ratio
Reducción absoluta del riesgo (la fórmula es, obviamente, la misma para la
diferencia absoluta de riesgo)
Para la reducción relativa del riesgo se dividen ambos límites del intervalo de la
reducción absoluta por el riesgo en el grupo control y para el número necesario
a tratar se invierten los límites del intervalo de la reducción absoluta del riesgo.
Ejemplo 12:
Los intervalos de todos los índices calculados para los datos del ejemplo 5
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051

Demostraciones de las propiedades de la probabilidad
Demostraciones de las propiedades de la probabilidad
1) p(Ac) = 1 - p(A)
por ii p(Ac) + p(A) = p(Ω) ⇒ p(Ac) = p(Ω) - p(A) y como por iii p(Ω)=1 se obtiene 1)
2) A1 ⊂ A2 ⇒ p(A1) ≤ p(A2)
el suceso B = A1c ∩ A2 cumple A1 ∪ B = A2 y A1 ∩ B = ∅ por lo tanto, según ii) p(A2) = p(A1) + p(B) y según i)
p(A2) ≤ p(A1)
3) p(∅) = 0 por 1) y iii)
4) p(A) ≤ 1 por 2 y iii)
5) p(A ∪ B) = p(A) + p(B) - p(A ∩ B) (Regla general de la adicción)
A ∪ B = A ∪ (Ac ∩B) [1]
En la gráfica se ve claramente, y más generalmente
A ∪ (Ac ∩ B) = (A ∪ Ac) ∩ (A ∪ B) = Ω ∩ (A ∪ B) = A ∪ B
y también A ∩ (Ac ∩B) = ∅, por lo tanto aplicando ii a [1]
p(A ∪ B) = p(A) + p(Ac ∩ B) [2]
si en [1] se hace la intersección con B
B = (A ∩ B) ∪ (Ac ∩ B) [3]
pero A ∩ B y Ac ∩ B son disjuntos
(A ∩ B) ∩ (Ac ∩ B) = A ∩ Ac ∩ B ∩ B = ∅
por lo tanto aplicando ii) a [3]
p(B) = p(A ∩ B) + p(Ac ∩ B) == p(Ac ∩ B) = p(B) - p(A ∩ B)
y sustituyéndolo en [2] se obtiene 5
Volver a propiedades de la probabilidad
http://www.hrc.es/bioest/Probabilidad_14_demo.html [02/01/2003 02:30:48]

Demostración
Demostración de la Regla de la probabilidad total
B=B ∩ Ω = B ∩ (A1 ∪ A2 ∪ ... ∪ An) = (B ∩ A1) ∪ (B ∩ A2) ∪ ... ∪ (B ∩ An)
como los Ai son mutuamente excluyentes, también lo son B ∩ Ai, por lo tanto según el axioma
ii
p(B) = p(B ∩ A1) + p(B ∩ A2) + ... + p(B ∩ An)
y como p(B ∩ Ai) = p(Ai) p(B|Ai) se obtiene la regla de la probabilidad total

Demostración del Teorema de Bayes
Demostración del Teorema de Bayes
Usando en el numerador la regla de la multiplicación y en el denominador la regla de la

probabilidad total
Volver a Teorema de Bayes

Ejemplos de tipos de histograma
Ejemplos de tipos de representaciones gráficas
Histogramas: Se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia absoluta) hay en
cada una de ellas. En algunas variables (variables cualitativas) las clases están definidas de modo natural, p.e
sexo con dos clases: mujer, varón o grupo sanguíneo con cuatro: A, B, AB, O. En las variables cuantitativas, las
clases hay que definirlas explícitamente (intervalos de clase).
Se representan los intervalos de

clase en el eje de abcisas (eje
horizontal) y las frecuencias,
absolutas o relativas, en el de
ordenadas (eje vertical).
A veces es más útil representar

las frecuencias acumuladas.
O representar simultáneamente los

histogramas de una variable en dos
situaciones distintas.
http://www.hrc.es/bioest/Ejemplos_histo.html (1 of 3) [02/01/2003 02:34:30]

Otra forma muy frecuente, de

representar dos histogramas
de la misma variable en dos
situaciones distintas.
Otra más

En las variables cuantitativas o

en las cualitativas ordinales se
pueden representar polígonos
de frecuencia en lugar de
histogramas, cuando se
representa la frecuencia
acumulativa, se denomina
ojiva.

BIOESTADISTICA

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

BIOESTADISTICA

Transféré par

Droits d'auteur :

Formats disponibles

Material docente de la Unidad de Bioestadística Clínica

Material docente de la Unidad de Bioestadística Clínica

http://www.hrc.es/bioest/M_docente.html (1 of 5) [28/12/2002 18:09:39]

2.3.4 Parámetros característicos de una fdp

4. Correlación y Modelos de regresión lineal

http://www.hrc.es/bioest/M_docente.html (2 of 5) [28/12/2002 18:09:39]

4.6 Interpretación del contraste α1=0

5. Errores en las mediciones y clasificaciones clínicas: Precisión y validez

6. Modelos de regresión logística

http://www.hrc.es/bioest/M_docente.html (3 of 5) [28/12/2002 18:09:39]

6.9 Área bajo la curva ROC

7. Modelos de regresión de Poisson

9. Medidas de frecuencia de la enfermedad

http://www.hrc.es/bioest/M_docente.html (4 of 5) [28/12/2002 18:09:39]

9.6 Medidas de asociación o efecto

http://www.hrc.es/bioest/M_docente.html (5 of 5) [28/12/2002 18:09:39]

La gráfica muestra la evolución de la

Se observa que la frecuencia relativa

http://www.hrc.es/bioest/Probabilidad_1.html [28/12/2002 18:09:56]

Convenios: Los textos en color malva corresponden a un mayor nivel de formalización y

Espacio muestral: conjunto de posibles resultados.

Punto muestral: elemento del espacio muestral.

Suceso: cualquier subconjunto del espacio muestral.

Si representamos el espacio muestral por Ω y a los sucesos por A: A ⊂ Ω. Dado que el

Si lo necesita Repaso del álgebra de conjuntos

Un problema a tener en cuenta es que dado un experimento, podemos encontrar más de

Ω1={sss, ssn, sns, nss, snn, nsn, nns, nnn}

http://www.hrc.es/bioest/Probabilidad_12.html [28/12/2002 18:10:24]

Definición axiomática de probabilidad

Convenios: Los textos en color malva corresponden a un mayor nivel de formalización

ii) p(A1 ∪ A2 ∪ A3 ∪ ...) = p(A1) + p(A2) + p(A3) + ...

si Ai ∩ Aj = ∅ ∀i ≠ j (sucesos mutuamente excluyentes)

A la estructura (Ω, P(Ω), p) se le denomina espacio de probabilidad.

Establecer claramente el espacio de probabilidad será el primer paso imprescindible para

Para el experimento aleatorio de tirar un dado, el espacio muestral es Ω = {1, 2, 3, 4, 5, 6}. En

http://www.hrc.es/bioest/Probabilidad_13.html [28/12/2002 18:10:34]

5) p(A ∪ B) = p(A) + p(B) - p(A ∩ B) (Regla general de la adicción)

p(A) = 0,10; p(B) = 0,15; p(A ∩ B) = 0,03

p(A ∪ B) = 0,10 + 0,15 - 0,03 = 0,22

http://www.hrc.es/bioest/Probabilidad_14.html [28/12/2002 18:10:54]

Esta definición es consistente, es decir cumple los axiomas de probabilidad.

Ejemplo 3: Una mujer es portadora de la enfermedad de Duchenne ¿Cuál es la probabilidad

Se define el suceso B = {ser varón} = {xY, XY}

A = {ser hipertenso} B = {ser fumador}

La fórmula anterior se puede poner p(A ∩ B) = p(B) p(A|B) = p(A) p(B|A)

http://www.hrc.es/bioest/Probabilidad_15.html (1 of 2) [28/12/2002 18:11:13]

En general p(A1 ∩ A2 ∩ A3 ...) = p(A1) p(A2|A1) p(A3|A1 ∩ A2) ...

A1 = {problemas vasculares}; A2 = {placas de ateroma}; A3 = {expuesto a muerte súbita por ....}

http://www.hrc.es/bioest/Probabilidad_15.html (2 of 2) [28/12/2002 18:11:13]

Dos sucesos son independientes si y sólo si p(A ∩ B) = p(A) p(B).

y del mismo modo p(B|A) = p(B)

Según vimos en el Ejemplo 3 el espacio muestral es Ω = {xX, xY, XX, XY}

http://www.hrc.es/bioest/Probabilidad_16.html [28/12/2002 18:11:32]

Regla de la probabilidad total

Se llama partición a conjunto de sucesos Ai tales que

Ejemplo 7: La prevalencia de infarto cardíaco para hipertensos es del 0,3% y para no

A1 = {ser hipertenso} A2 = {no serlo} estos sucesos constituyen una partición

evidentemente p(A2) =0,75 por la propiedad 1

http://www.hrc.es/bioest/Probabilidad_17.html [28/12/2002 18:12:21]

Si los sucesos Ai son una partición y B un suceso tal que p(B) ≠ 0

Diagnóstico médico (en general clasificaciones no biunívocas): El diagnóstico consiste en

Llamemos Ei al conjunto de enfermedades

En términos de probabilidad condicionada, esta información es

http://www.hrc.es/bioest/Probabilidad_18.html (1 of 2) [28/12/2002 18:12:55]