Académique Documents
Professionnel Documents
Culture Documents
1
Esquema
• Teoría estadística avanzada:
• Modelos lineales generalizados.
• Función de verosimilitud.
• Prueba de la razón de verosimilitud.
• Aproximaciones cuadráticas: test del "score" y test de Wald.
• Modelos para proporciones. Regresión logística.
• Pruebas de asociación y de tendencia.
• Control de la confusión.
• Exploración de interacciones.
• Bondad de ajuste
• Aplicaciones específicas:
– Análisis de casos y controles.
• Modelo logístico condicional
– Generación de escalas de pronóstico.
• Valoración de la capacidad predictiva.
• Análisis discriminante logístico.
• Regresión logística politómica:
– Regresión multinomial
– Modelos ordinales
2
Modelo lineal de regresión
E (y | x ) = a + b x
y N ( m, s ) 2
3
Análisis de respuesta binaria
• Nos interesa un modelo de regresión:
E (y | x ) = a + b x
• Y: la variable respuesta es binaria:
{ 1 : evento
Y = 0 : no evento
5
Modelos lineales generalizados
• Extensión del modelo lineal para acomodar:
– Respuesta con distribución no normal
– Transformaciones linearizantes
• Componentes del modelo:
– Respuesta (Y) observada en unidades
independientes con valores fijos de variables
explicativas (X)
– Las variables X afectan la respuesta según un
modelo lineal:
h = b1 x1 + ... + b p x p
6
• Puede ser necesario transformar la
respuesta para conseguir linealidad:
h=g(m) m: valor medio de la respuesta
• La distribución de probabilidad de la
respuesta pertenece a la familia exponencial:
Transformación g(m)
– Normal identidad: =
– Binomial logit: log(m/{1- m })
– Poisson log(m)
– Gamma inversa: -1/m
7
Utilidad de cada distribución
• Normal: Cuantitativa continua
> Regresión lineal
{ 1 : evento
Y = 0 : no evento
1.0
0.8
0.6
f(z)
0.4
0.2
0.0
-6 -4 -2 0 2 4 6
z
11
Propiedades
• f(z) siempre entre 0 y 1
=> Útil para modelar proporciones
Y= { 1 : evento
0 : no evento
1
Pr(y=1|x1 ,...,xk )=
1+e -(a +b1 x1 +...+bk xk )
13
Otras transformaciones
• Probit: F-1(p)
• Complementario log-log: log(-log(1-p))
1.0
0.8
logit
cloglog
probit
0.6
Pr(z)
0.4
0.2
0.0
-6 -4 -2 0 2 4 6
z 14
Condiciones para aplicar el modelo
• Observaciones independientes
– si hay dependencia se genera “sobredispersión”
La varianza de p: var(p) = p(1-p)
se puede modelar var(p) = fp(1-p)
18
Hepatitis B * grupo Crosstabulation
grupo
control cirrosis Total
Hepatitis HBsAg - Count 191 149 340
B % within Hepatitis B 56.2% 43.8% 100.0%
% within grupo 95.5% 74.5% 85.0%
HBsAg + Count 9 51 60
% within Hepatitis B 15.0% 85.0% 100.0%
% within grupo 4.5% 25.5% 15.0%
Total Count 200 200 400
% within Hepatitis B 50.0% 50.0% 100.0%
% within grupo 100.0% 100.0% 100.0%
Chi-Square Tests Risk Estimate
Asymp.
Sig. Exact Sig. Exact Sig. 95% Confidence
Value df (2-sided) (2-sided) (1-sided) Interval
Pearson Chi-Square 34.588b 1 .000 Value Lower Upper
Continuity Correctiona 32.961 1 .000 Odds Ratio for Hepatitis B
7.264 3.465 15.229
Likelihood Ratio 37.654 1 .000 (HBsAg - / HBsAg +)
Fisher's Exact Test .000 .000 For cohort grupo = control 3.745 2.036 6.890
Linear-by-Linear For cohort grupo =
34.502 1 .000 .516 .439 .605
Association cirrosis
N of Valid Cases 400 N of Valid Cases 400
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is
30.00.
19
Odds: medida de riesgo
P (suceso ) P (suceso )
odds = =
P (no suceso ) 1 - P (suceso )
P (y = 1) P (y = 1)
odds = =
P (y = 0) 1 - P ( y = 1)
20
Odds-ratio: medida de asociación
odds (enfermedad | expuestos )
OR =
odds (enfermedad | no expuestos )
P (y = 1 | x = 1) / P (y = 0 | x = 1)
OR =
P (y = 1 | x = 0) / P (y = 0 | x = 0)
(1 ) /(1 - 1 - (a + b ) )
OR = 1 + e 1+e
- (a + b )
(1 )/(1 - 1 - (a ) )
1+e - (a )
1+e
OR = e b
21
Odds-ratio
• Por cuánto se multiplica el riesgo de cirrosis
si se está infectado respecto a no estar
infectado
• riesgo relativo: razón de odds
• puede tomar valores de {0,+¥}
P(cirr|+)/P(cont|+)
OR = = e b = e1.98 = 7.26
P(cirr|-)/P(cont|-)
0.850/(1-0.850)
OR = = 7.26
0.438/(1-0.438)
22
Simetria del odds-ratio
P (x = 1 | y = 1) / P (x = 0 | y = 1)
OR =
P (x = 1 | y = 0) / P (x = 0 | y = 0)
OR = e b
23
Modelo logístico
Logit{ P(cirrosis|HBsAg) } = a + bHBsAg
• Variables:
– Respuesta: grupo 1(cirrosis) 0(control)
– independiente: HBsAg 1(+) 0(-)
• Modelo ajustado:
Variable B S.E. Wald df Sig R Exp(B)
24
Verificación
1 1
p(cirrosis | HBsAg = 0) = -a
= = 0.438
1+ e 1+ e -(-0.25)
1 1
p(cirrosis | HBsAg = 1) = -(a + b )
= -(-0.25+1.98)
= 0.850
1+ e 1+ e
p(cirr | +)/p(cont | +) b
OR = = e = e1.98 = 7.26
p(cirr | -)/p(cont | -)
0.850/(1 - 0.850)
OR = = 7.26
0.438/(1 - 0.438) 25
Interpretación de los coeficientes
• Constante: a = logit{P(cirrosis|HBsAg=0)}
– logit de P(evento en los no expuestos)
• En un estudio de casos y controles no tiene interés
pues depende del la relación entre el número de casos
y de controles, que se fija en el diseño, y de los
códigos que se empleen en la variable exposición.
• En un estudio de cohortes es una estimación de interés
• Coeficientes: b = log(OR)
– OR = eb : cuantifica la magnitud de la asociación
entre la respuesta y el factor de interés
• El código de la exposición debe ser exp: 1 + no exp
26
La codificación es esencial para
interpretar los coeficientes
• exp =1 / no exp=0 OR(evento/exp) = eb
27
Estadística en regresión logística
• Ajustar el modelo: estimar los parámetros
• Máxima verosimilitud
– Variable dependiente binaria: distribución
binomial:
L(X | p) = Õ 1 æç yi ö÷ px i (1 - px ) ni - yi
N n y
è iø
h i = a + å b xi
1
px =
1 + e -h
æ ni ö + y η - n log(1 + e η i )
logL(X | p) = åi çè yi ÷ø i i i
log
28
Elementos de interés
• Parámetros: (a,b)
• Matriz de varianza-covarianza:
æ V(a) C(a, b1 ) C(a, b1 ) ö
ç ÷
å = ç C(a, b1 ) V(b1 ) C(b1, b2 ) ÷
ç C(a, b ) C(b , b ) V(b ) ÷
è 1 2 1 2 ø
• Valor de logL cuando es máximo:
– “Likelihood value”
– Tiene asociados unos “grados de libertad”:
g.l. = #observaciones - #parámetros - 1
29
Elementos derivados
• OR = eb
– permite interpretar los coeficientes como
riesgos
• Deviance = -2 * logL
– permite: valorar el ajuste del modelo (datos agrupados)
realizar test de hipótesis (comparando modelos)
30
Análisis de los coeficientes
• {b, eeb}
• Test de Wald: z = b/eeb ~ N(0,1)
– |z| > 1.96 -> b ¹ 0 -> OR ¹ 1
asociación significativa
– p-valor = F-1(z)
a Da g.l. a
a+b Da+b g.l. a+b Da- Da+b gla- gla+b
Chi-Square df Significance
33
Aproximaciones al TRV
• Aproximaciones cuadráticas a la función de
verosimilitud:
• Test de Wald
– aproxima la función de verosimilitud coincidiendo
en el valor del máximo.
34
Aproximaciones cuadráticas a LogL
-5
Wald
-10
logL
-15
score
-20
35
Ajuste del modelo
• Deviance residual. Diferencia con la deviance
de un modelo saturado (tantos coeficientes
como observaciones). Sólo es interpretable si
se trabaja con datos agrupados.
• Criterio de información de Akaike
AIC = -2*logL + 2*#b
• Criterio de Schwarz (SC) o BIC
AIC = -2*logL + #b*log(N)
penalizan el uso de parámetros no informativos.
Son útiles para comparar modelos no anidados.
36
Caso 2. Variable categórica:
Relación entre tabaco y cáncer de
colon en Mallorca
TABAC * GROUP Crosstabulation
GROUP
caso control Total
TABAC No fumador Count 152 164 316
% within GROUP 53.1% 55.6% 54.4%
Ex-fumador Count 37 68 105
% within GROUP 12.9% 23.1% 18.1%
Fumador Count 97 63 160
% within GROUP 33.9% 21.4% 27.5%
Total Count 286 295 581
% within GROUP 100.0% 100.0% 100.0%
37
Codificación con variables auxiliares
TABACO Exfuma Fuma
No fuma 0 0
Categorias
de la
variable
Ex 1 0
original
fumador
Fumador 0 1
...
39
Interpretación del modelo
• logit(Pr(cancer|tabaco) =
a + b1ExFuma + b2Fumador
EDAD N b e OR (IC95%)
20-29 8 - - 1
30-39 250 0.5 3.2 1.6 (0.003;812)
40-49 73 .07 3.1 2.0 (0.004;992)
50-59 32 1.2 3.0 3.3 (0.005;1339)
41
Caso 3. Variable cuantitativa
• Estudio de la relación entre la edad y la
mortalidad por cardiopatía isquémica en
diabéticos:
EDAD Causa de muerte N p
Otra CI
20-29 9 1 10 0.10
30-34 13 2 15 0.13
35-39 9 3 12 0.25
40-44 10 5 15 0.33
45-49 7 6 13 0.46
50-54 3 5 8 0.63
55-59 4 13 17 0.76
60-69 2 8 10 0.80
Total 57 43 100 0.43
42
1.0 2
logit(p)
P(MCI)
.8 1
.6 0
.4 -1
.2 -2
0.0 -3
20 30 40 50 60 70 20 30 40 50 60 70
Edad Edad
43
Ajuste del modelo logístico
• Variables:
– Respuesta: causa muerte 1(ci) 0(otra)
– independiente: edad (en años)
• Modelo ajustado:
44
Interpretación de los coeficientes
1
p(MCI | EDAD) =
1+e -( -5.04 + 0.105 *EDAD)
• Constante: a = logit{P(MCI|EDAD=0)}
P(MCI) .8
.6
.4
.2
0.0
20 30 40 50 60 70
Edad
46
• Coeficientes: b = log(OR)
– OR = eb : cuantifica la magnitud de la asociación
entre la respuesta (mortalidad por CI) y el
cambio factor de interés en una unidad (aumento
de EDAD en 1 año)
E(Y/X) = a + blX + b cX 2
48
Otras opciones con variables
cuantitativas
• Transformaciones
– Log(X)
– potencia: Xr
• Polinomios:
– logit(p) = a + b1X + b2X2 + b3X3 + ... bkXk
• No deben emplearse grados muy elevados, normalmente sólo 2 ó 3
• Los coeficientes son muy difíciles de interpretar, se usan
fundamentalmente para ajustar otras variables de manera fina
• “Splines”
49
Variables cuantitativas categorizadas
• Si la relación “dosis-respuesta” no es lineal
para una variable cuantitativa, ésta se suele
categorizar y modelar como categórica:
50
Caso 4. Energía y cancer colorrectal
GROUP * NTILES of TKCAL Crosstabulation
NTILES of TKCAL
1 2 3 4 5 Total
GROUP control Count 72 60 59 56 48 295
% within NTILES of
62.1% 51.7% 50.4% 48.3% 41.4% 50.8%
TKCAL
caso Count 44 56 58 60 68 286
% within NTILES of
37.9% 48.3% 49.6% 51.7% 58.6% 49.2%
TKCAL
Total Count 116 116 117 116 116 581
% within NTILES of
100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
TKCAL
51
logit(Pr(caso))
-0.4 -0.2 0.0 0.2
1
2
3
Total kcal
4
5
52
1 Modelo de heterogeneidad
(categórico)
Chi-cuadrado gl Sig.
TKCAL 10.436 4 .034
53
2. Test de tendencia para
variables ordinales
• La variable se codifica con valores crecientes
en 1 unidad de categoría en categoría
(1,2,3,...)
• Un único coeficiente, que recoge la variación
promedio
• Test: TRVt (D deviance con 1 g.l.)
Variable B S.E. Wald df Sig R Exp(B)
Desviación de la linealidad:
55
Estrategia de análisis multivariante
• 1º Análisis bivariante
– cada variable por separado
– identificar variables de interés (significativas o
no)
• 2º Análisis combinado de las variables
– equivale a un análisis estratificado
– cada factor está ajustado por los demás del
modelo
• 3º Análisis de interacciones
– modificación del efecto de una variable por otra
56
Caso 5. Energía y ácido fólico
(densidad) en el cáncer colorrectal
Tabla de contingencia GROUP * NTILES of DFOLIC
NTILES of DFOLIC
1 2 3 4 Total
GROUP control Recuento 62 68 80 85 295
% de GROUP 21,0% 23,1% 27,1% 28,8% 100,0%
caso Recuento 83 77 66 60 286
% de GROUP 29,0% 26,9% 23,1% 21,0% 100,0%
Total Recuento 145 145 146 145 581
% de GROUP 25,0% 25,0% 25,1% 25,0% 100,0%
Variables en la ecuación
57
Tendencia
Variables en la ecuación
Tendencia Heterogeneidad
Pruebas omnibus sobre los coeficientes del modelo Pruebas omnibus sobre los coeficientes del modelo
58
Análisis ajustado
• Si en un modelo se incluye más de una
variable, los coeficientes de cada variable se
interpretan como ajustados por las demás
59
Confusión
Exposición Enfermedad
Variable
confusora
Ingesta
calórica
62
Análisis estratificado
Variables en la ecuación
64
Interacción
Pruebas omnibus sobre los coeficientes del modelo
Chi-cuadrado gl Sig.
Paso 1 Paso 1,008 4 ,909
Bloque 1,008 4 ,909
Modelo 16,256 9 ,062
Variables en la ecuación
65
Interpretación de la interacción
• Modificación del efecto (riesgo) de una
variable al ira acompañada de otra
• Cambia la referencia en la comparación:
– Efectos principales:
• riesgo promedio entre categorías de la otra variable
• (Riesgo del a. fólico ajustado por calorías, pero como
promedio entre las diferentes categorías de calorías)
– Interacción:
• Riesgo específico respecto a una categoría de
referencia combinada (consumo bajo fólico y calorías)
66
Caso 6. Alcohol y tabaco
GRUPO * Alcohol * Tabaco Crosstabulation
Count
Alcohol
Tabaco no bebe moderado importante Total
Fuma GRUPO control 55 30 62 147
caso 40 45 96 181
Total 95 75 158 328
No fuma GRUPO control 60 73 52 185
caso 20 91 106 217
Total 80 164 158 402
67
Variable B S.E. Wald df Sig R
1. No fuma No bebe
No fuma
Fuma
No fuma
Fuma
no interaccion
1
70
No bebe moderado intenso
Riesgo para cada combinación
• Modelo efectos principales:
– a + b1F + b2M + b3I NB M I
F eβ1 eβ1 + β2 eβ1 + β3
NF 1 eβ2 eβ3
• Modelo SATURADO
– Tiene tantos parámetros como observaciones
– Todas las variables y sus interacciones
– No explica más que los datos
– Son útiles si se trabaja con datos agrupados
(el SPSS no lo permite)
72
Intervalos de confianza con
interacciones
• Se pueden calcular si se dispone de la matriz
de varianza-covarianza de los parámetros:
V(b1 + b2) = V(b1) + V(b2) -2C(b1,b2)
73
Variable B S.E. Wald df Sig R
1 NF - NB
FUMABEBE(1) 3.7397 2.0681 6.7626 NF - M
FUMABEBE(2) 6.1154 3.3389 11.2005 NF - I
FUMABEBE(3) 2.1818 1.1395 4.1777 F - NB
FUMABEBE(4) 4.5000 2.2679 8.9288 F - M
FUMABEBE(5) 4.6452 2.5534 8.4504 F - I
74
Diagnóstico en Regresión logística
• Verificar que el modelo es adecuado
– Bondad de ajuste
• Con datos agrupados: deviance residual
• Con datos individuales hace falta una
referencia, que puede obtenerse a partir del
modelo saturado, siempre que se trabaje con
pocas variables y éste sea estimable
• Otros estadísticos:
– S(O-E)2/E sobre cada observación
– Hosmer y Lemeshow: S(O-E)2/E sobre 10
categorías de p
75
Residuales
• Diferencia (observado - esperado) para cada
observación
– hay múltiples posibilidades:
• Estandarizados
• Deviance ...
• Se pueden hacer gráficas para intentar
dertectar patrones no aleatorios
– Son poco útiles a no ser que se trabaje con
variables cuantitativas
76
Observaciones influyentes
• Individuos que modifican de manera
importante el ajuste del modelo y la
estimación de los parámetros
• Delta-betas: Db
– Modificación de cada parámetro al eliminar una
observación cada vez
– Si son grandes: modelo inestable (típico de N ¯)
77
.06
.04
.02
0.00
NF-NB
78
Modelos predictivos
• El objetivo del modelo puede ser:
– generar una ecuación con capacidad predictiva,
como una clasificación (análisis discriminante)
– buscar qué factores tienen capacidad predictiva
79
Métodos de selección automática
• Adelante:
1 Se inicia con un modelo vacío (sólo a)
2 Se ajusta un modelo y se calcula el p valor de
incluir cada variable por separado
3 Se selecciona el modelo con la más significativa
4 Se ajusta un modelo con la(s) variable(s)
seleccionada(s) y se calcula el p valor de añadir
cada variable no seleccionada por separado
5 Se selecciona el modelo con la más significativa
6 Se repite 4-5 hasta que no queden variables
significativas para incluir.
80
• Atrás:
1 Se inicia con un modelo con TODAS las variables
candidatas
2 Se eliminanan, una a una, cada variable y se
calcula la pérdida de ajuste al eliminar
3 Se selecciona para eliminar la menos significativa
4 Se repite 2-3 hasta que todas las variables
incluidas sean significativas y no pueda eliminarse
ninguna sin que se pierda ajuste.
81
Stepwise
• Se combinan los métodos adelante y atrás.
• Puede empezarse por el modelo vacío o por el
completo, pero en cada paso se exploran las
variables incluidas, por si deben salir y las no
seleccionadas, por si deben entrar
82
Consideraciones
• Criterio exclusivamente estadístico: no se
tienen en cuenta otros “conocimientos” sobre
las variables más interesantes a incluir
(aunque se puede forzar a que algunas
variables siempre estén en el modelo)
• Si hay un conjunto de variables muy
correlacionadas, sólo 1 será seleccionada
• No es fácil tener en cuenta interacciones
entre variables (los modelos deben ser
jerárquicos)
83
Valoración de la capacidad
predictiva del modelo
• Area bajo la curva ROC construída para
todos los posibles puntos de corte de h para
clasificar los individuos en +/-:
Realidad
+ -
VP FP
+
Modelo
h = b1 x1 + ... + b p x p > k - FN VN
84
Cálculo de área bajo ROC
• Guardar los valores que predice el modelo
(esperados)
• Calcular la U de Mann-Whitney respecto a
los esperados:
U
AUC = 1 -
n +n -
• n+ y n- son el número esperado de + y - resp.
85
Test Statisticsa GROUP
U 26273
AUC = 1 - =1- = 0.69
n+n- 295 ´ 286
89
Ejemplo: Hábito tabáquico
• La variable resultado tiene 3 categorías:
– Fumador
– Ex-fumador
– No fumador (referencia)
• Se modelan 2 logits simultáneamente:
– logit(fumador/No fumador| z) = a1 + b1z
– logit(Ex-fumador/No fumador| z) = a2 + b2z
N Porcentaje marginal
TABAC2 Fumador 160 27.5%
Ex-fumador 105 18.1%
Fumador 316 54.4%
91
Contrastes de la razón de verosimilitud
Intervalo de confianza
al 95% para Exp(B)
Límite Límite
TABAC2(a) B Error típ. Wald gl Sig. Exp(B) inferior superior
Fumador Intersección .347 .434 .639 1 .424
NTFOLIC -.192 .108 3.136 1 .077 .825 .667 1.021
[NTKCAL=1] -1.157 .375 9.515 1 .002 .314 .151 .656
[NTKCAL=2] -.715 .345 4.287 1 .038 .489 .249 .963
[NTKCAL=3] -.712 .331 4.622 1 .032 .491 .256 .939
[NTKCAL=4] -.145 .307 .224 1 .636 .865 .474 1.578
[NTKCAL=5] 0(b) . . 0 . . . .
Ex-fumador Intersección .887 .485 3.339 1 .068
NTFOLIC -.438 .126 12.049 1 .001 .645 .504 .826
[NTKCAL=1] -1.903 .444 18.389 1 .000 .149 .062 .356
[NTKCAL=2] -1.498 .416 12.944 1 .000 .224 .099 .506
[NTKCAL=3] -.707 .358 3.913 1 .048 .493 .245 .994
[NTKCAL=4] -.631 .360 3.071 1 .080 .532 .263 1.078
[NTKCAL=5] 0(b) . . 0 . . . .
a La categoría de referencia es: Fumador.
b Este parámetro se ha establecido a cero porque es redundante.
92
Regresión ordinal
• La variable respuesta tiene más de 2
categorías ordenadas
• Se modela un único logit que recoge la
relación (de tendencia) entre la respuesta y
las covariables
• Hay varios modelos posibles según interese
modelar la tendencia:
– odds proporcionales (acumualado)
– categorías adyacentes (parejas)
93
Odds-proporcionales
• Se compara un promedio de los posibles logit
acumulados (respecto a la 1ª categoría):
Logit Respuesta
Muy Bajo Alto Muy
bajo alto
1
2
3
logitk (y > yk | z) = a k + β z
– y = 1,2, ... C
– k = 2,3, ... C
96
3 categorías: 2 logits
logit(baja / media-alta) = a1 +b REOPER
logit(baja-media / alta) = a2 +b REOPER
Tabla de contingencia Classe funcional * Reoperació
Reoperació
NO SI Total
Classe funcional Classe II Recuento 337 31 368
% de Classe
91.6% 8.4% 100.0%
funcional
Classe III Recuento 533 64 597
% de Classe
89.3% 10.7% 100.0%
funcional
Classe IV Recuento 238 38 276
% de Classe
86.2% 13.8% 100.0%
funcional
Total Recuento 1108 133 1241
% de Classe
89.3% 10.7% 100.0%
funcional
97
Response Profile
Ordered Total
Value CLASEFUN Frequency
1 1-medio-alto 873
2 0-bajo 368
Standard
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Response Profile
Ordered Total
Value CLASEFUN Frequency
1 1-alto 276
2 0-bajo-medio 965
Standard
Parameter DF Estimate Error Chi-Square Pr > ChiSq
98
Response Profile
Ordered Total
Value CLASEFUN Frequency
1 2-alto 276
2 1-medio 597
3 0-bajo 368
0.0047 1 0.9451
Standard
Parameter DF Estimate Error Chi-Square Pr > ChiSq
99
ordinal
Estimaciones de los parámetros
Límite
Estimación Error típ. Wald gl Sig. Límite inferior superior
Umbral [CLASE = 2.00] -.923 .166 30.825 1 .000 -1.249 -.597
[CLASE = 3.00] 1.199 .168 50.976 1 .000 .870 1.528
Ubicación [REOPER=1] .372 .173 4.652 1 .031 .034 .711
[REOPER=2] 0(a) . . 0 . . .
Función de vínculo: Logit.
a Este parámetro se establece en cero porque es redundante.
multinomial
Estimaciones de los parámetros
100
Modelos log-lineales
• Análisis de datos categóricos donde el
objetivo es analizar la relaciones entre
variables
• No hay una respuesta y otras covariables
101
Versión log-lineal del modelo logístico
• Un modelo logístico en el que las covariables
sean categóricas se puede formular como un
modelo Poisson:
102
Ajuste mediante regresión de Poisson
• Respuesta (Y):
• la frecuencia observada en cada celda de
la tabla de clasificación multidimensional
• Transformación: log(Y)
• Distribución de probabilidad: Poisson
• Modelos jerárquicos:
104
Table of NTCARB by NTLIP
NTCARB NTLIP
Frequency‚ 1‚ 2‚ 3‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚ 58 ‚ 31 ‚ 9 ‚ 98
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
2 ‚ 29 ‚ 40 ‚ 30 ‚ 99
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
3 ‚ 11 ‚ 28 ‚ 59 ‚ 98
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Table of NTLIP by NTPROT
Total 98 99 98 295
NTLIP NTPROT
Frequency‚ 1‚ 2‚ 3‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚ 76 ‚ 20 ‚ 2 ‚ 98
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
2 ‚ 19 ‚ 52 ‚ 28 ‚ 99
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Table of NTCARB by NTPROT 3 ‚ 3 ‚ 27 ‚ 68 ‚ 98
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
NTCARB NTPROT Total 98 99 98 295
Frequency‚ 1‚ 2‚ 3‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚ 61 ‚ 27 ‚ 10 ‚ 98
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
2 ‚ 25 ‚ 44 ‚ 30 ‚ 99
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
3 ‚ 12 ‚ 28 ‚ 58 ‚ 98
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total 98 99 98 295
105
proc freq data=glm6.coloncon noprint;
tables ntcarb*ntlip*ntprot/out=dieta sparse; run;
* efectos principales;
proc genmod data=dieta;
class ntcarb ntlip ntprot;
model count= ntcarb ntlip ntprot /dist=p type3; run;
* modelo saturado;
proc genmod data=dieta;
class ntcarb ntlip ntprot;
model count= ntcarb|ntlip|ntprot /dist=p type3;run;
106
Efectos principales: (Categorías según terciles!)
LR Statistics For Type 3 Analysis
Chi-
Source DF Square Pr > ChiSq
Modelo saturado:
LR Statistics For Type 1 Analysis
Chi-
Source Deviance DF Square Pr > ChiSq
Intercept 295.1403
NTCARB 295.1335 2 0.01 0.9966
NTLIP 295.1268 2 0.01 0.9966
NTCARB*NTLIP 215.6327 4 79.49 <.0001
NTPROT 215.6259 2 0.01 0.9966
NTCARB*NTPROT 133.7620 4 81.86 <.0001
NTLIP*NTPROT 6.5854 4 127.18 <.0001
NTCARB*NTLIP*NTPROT 0.0000 8 6.59 0.5820
107
Modelo sin la interacción de 3er nivel
LR Statistics For Type 3 Analysis
Chi-
Source DF Square Pr > ChiSq
108
Modelo con tendencias
data dietat; set dieta;
carb=ntcarb;
prot=ntprot;
lip=ntlip;
proc genmod data=dietat;
class ntcarb ntlip ntprot;
model count= ntcarb ntlip ntprot carb*lip carb*prot lip*prot
/dist=p type3; run;
tendencias DF
Deviance 8 6.5854
Log Likelihood 554.6633
categórico
Deviance 17 14.9648
Log Likelihood 550.4736
Chi-
Source DF Square Pr > ChiSq
111
Modelos para tasas
• Si las unidades de observación donde se ha
realizado el conteo no son comparables por
corresponder a
– diferente tamaño de muestra
– diferente duración del periodo de observación
112
offset
casos y
tasa = =
personas - tiempo a riesgo N ·t
æ y ö
log ç ÷ = a + bX
è N ·t ø
log( y ) = log(N ·t ) + a + b X
114
data mama;
set glm6.mama;
if edat<8 then edat=8;
lpob=log(pob);
per2=per*per;
proc genmod data=mama;
class edat;
model y=edat per/dist=p offset=lpob type1;
run;
Standard Wald 95% Chi-
Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq
Chi-
Source Deviance DF Square Pr > ChiSq
Intercept 4909.2800
EDAT 924.5612 10 3984.72 <.0001
PER 875.5584 1 49.00 <.0001
per2 873.9444 1 1.61 0.2039
116
Estimación del riesgo relativo
• RR: razón de tasas
• Cada año el aumento en log(tasa) = 0.0240
• RR = exp(b)
• Porcentage de incremento anual: (RR -1)*100
117
proc genmod data=mama;
class edat;
model x=edat per /dist=p offset=lpob type1;
ods output ParameterEstimates=Parms;
run;
data Parms;
set Parms;
RR=exp(Estimate);
LCL=exp(LowerCL);
UCL=exp(UpperCL);
PIA=(RR-1)*100;
LCL_PIA=(LCL-1)*100;
UCL_PIA=(UCL-1)*100;
format RR LCL UCL PIA LCL_PIA UCL_PIA f8.3 ;
run;
proc print data=Parms noobs;
var parameter RR LCL UCL PIA LCL_PIA UCL_PIA;
where parameter='PER';
run;
118
Análisis de la supervivencia
Víctor Moreno
2004
Esquema
• Diseño de estudios de seguimiento
• Supervivencia: tiempo hasta un evento
• Censuras
• Funciones estadísticas
• Estimación de la probabilidad de sobrevivir
• Comparación de curvas de supervivencia
Diseño de un estudio prospectivo
– Estudio de cohortes (registros)
– Ensayo clínico
0 t1 t2
Reclutamiento Seguimiento
Variable de interés
• Tiempo hasta que ocurre un suceso
tiempo tiempo
entrada suceso
• Eventos:
• muerte: supervivencia
• recaída/metástasis: “tiempo libre de enfermedad”
• curación
• transplante
40
30
20
10
10
20
30
40
50
60
70
80
90
10
0
0.
0.
0.
0.
0.
0.
0.
0.
0.
00
0
.0
TIEMPO Descriptive Statistics
20
10
LOGT
Descriptive Statistics
10
5
0
0 2 4 6 8 10
calendar time
20
15
patient
10
5
0
0 2 4 6 8 10
survival time
sorted patient
0 5 10 15 20
0
2
4
survival time
6
8
10
Descripción de la supervivencia
• T es cuantitativa continua
• Descripción:
– Supervivencia: Probabilidad de
sobrevivir t o más:
S(t) = Pr (T ³ t)
• Acumulativa
– Percentiles: tiempo que sobrevive
una proporción de la población
Proporción que sobrevive t o más
1.0
0.8
Survival probability
0.6
0.4
S(5)=0.3
0.2
0.0
0 2 4 6 8 10
Survival time
Tiempo mediano de
supervivencia
1.0
0.8
Survival probability
0.6
S(t)=0.5
0.4
0.2
0.0
median
0 2 4 6 8 10
Survival time
Tiempo medio de supervivencia
1.0
• No estimable si S(t)
Survival probability
0.8
no llega a 0
0.6
• Sesgado
0.4
(T asimétrico)
• No es un buen
resumen 0.2
0.0
0 2 4 6 8 10
Survival time
Función de distribución
(de la mortalidad): F(t)
• Pr(morir en t o antes) : acumulada
• Ejemplos:
– Pr(morir a los 65 años o antes)
– Pr(recidivar a los 3 años o antes)
F(t) = Pr(T£ t)
0.4
0.2
0.0
0 2 4 6 8 10 12 14
Tiempo
Función densidad: f(t)
• Tasa de mortalidad instantánea en t
• Tiempo en el denominador (d)
• f(t) ´ d = Pr(morir entre t y t+d)
• Ejemplos:
– Pr(morir a los 65 años)
– Pr(tener un reinfarto a los 2 meses del 1º)
• Estimación:
Pr( t £ T £ t + d)
f( t) = lim
d ®0 d
Función de riesgo (Hazard)
• Tasa de mortalidad en el momento (t a
t+d) condicional a estar vivo en t
Pr(t £ T £ t + d | t £ T)
h(t) = lim
d®0 d
– Es una tasa de mortalidad instantánea:
• Tiempo en el denominador (d)
• h(t)´d = Pr(morir entre t y t+d |vivo en t)
• Ejemplo:
– f(65): Pr(morir a los 65,00-65,99 años)
– h(65): Pr(morir a los 65,00-65,99 años |
vivo a los 65)
• es mayor pues el denominador es menor
densidad: f(t) y riesgo: h(t)
0.13
0.10
0.12
0.08
0.11
f(x)
h(x)
0.06
0.10
0.04
0.09
0.02
0.08
0 5 10 15
Tiempo 0 5 10 15
Tiempo
Relaciones entre funciones
= exp[-H(t)]
Estimación de S(t)
• Si no hay censuras
función de supervivencia empírica:
~ Número de individuos que sobreviven ³ t
S( t ) =
Número de individuos en la muestra
adyacentes
Estimador de Kaplan-Meier de S(t)
• Se divide el tiempo en ‘k’ intervalos de
manera que cada intervalo acaba justo
cuando un paciente (o varios si hay empates)
muere o queda censurado
d d d
1 2 k
n n n
1 2 k
Time ni di ci 1 - di / ni = si S(t)
0 20 - - - 1.00
1 20 1 1 - 1 / 20 = 0.95 0.95
3 19 1 1 1 - 1 / 19 = 0.95 0.90
4 17 2 1 - 2 / 17 = 0.88 0.79
6 15 1 1 - 1 / 15 = 0.93 0.74
7 14 1 1 - 0 / 14 = 1.00 0.74
9 13 1 1 - 1 / 13 = 0.92 0.68
12 12 1 2 1 - 1 / 12 = 0.92 0.63
15 9 2 1 1-2/9 = 0.78 0.49
18 6 1 2 1-1/6 = 0.83 0.41
21 3 1 1-0/3 = 1.00 0.41
25 2 2 1-0/2 = 1.00 0.41
Tiempo mediano de supervivencia
1.0
Survival probability
0.6
0.4 0.8
0.2
median
0.0
0 5 10 15 20 25
Survival time
Precisión de S(t)
• El error estándar de S(t) se puede
calcular para cada tiempo mediante la
fórmula de Greenwood:
1
2
ì ^
ü ^ æ k
di ö
e.e íS( t )ý » S( t )çç å ÷÷
î þ è i=1 ni (ni - di ) ø
1.0
0.8
0.6
0.4
0.2
0.0
0 5 10 15 20 25
IC 95% para S(t)
• Para valores de S(t) cercanos a 1 y 0
el IC podría contener valores no
válidos para una probabilidad (<0 ó >1)
• Se debe calcular el e.e. De una
transformación de S(t)
• logaritmo: log(S) ¬
• logit: log{S/(1-S)}
• log-log: log{-log(S)}
log(S)
• Var{log(S)} ~ Var(S)/{S log(S)}2
IC 95% = Sexp(±1.96f)
Estimación de S(t) para datos
agrupados. Método de la tabla de vida
• El tiempo se divide en bandas amplias,
usualmente de tamaño fijo (3m, 6m, 1a)
• Para cada banda ‘i = 1 · · · k’:
– ni están vivos al inicio
– di mueren en la banda
– ci son censurados en la banda
• Las observaciones censuradas se supone
que se distribuyen de manera uniforme a lo
largo de la banda
• Las personas a riesgo se ajustan para
tener en cuenta las observaciones
censuradas
ni’ = ni - ci / 2
• Probabilidad de morir en la banda,
condicional a estar vivo al inicio
pi = di / ni’
• Probabilidad de sobrevivir la banda,
condicional a estar vivo al inicio
si = 1 - pi = 1 - di / ni’
• Como las bandas son independientes, la
probabilidad acumulada de sobrevivir t
desde el tiempo 0
t t
æ
t
di ö
S(t) =Õ si
i=1
= Õ (1 - p )
i=1
i = Õ çç 1 -
i=1 è
÷÷
ni - ci/2 ø
0
2
4
6
Survival time
8
10
12
14
Comparación de 2 grupos
• El tiempo se divide en intervalos de acuerdo
con los tiempos de los eventos
• Para cada intervalo se crea una tabla de 2x2
dai sigue una distribución
Grupo Muerto Vivo
hipergeométrica
A dai nai Bajo la hipótesis de
independencia, el número
B nbi esperado de muertes es
Test de Wilcoxon
ZW = å ni (dai - eai ) VW = å n v 2
i ai
i 2
i
ZW 2
~c
VW 1
En general
• Log-rank • Wilcoxon
– wi = 1 – wi = ni
– más poder para – Más poder para
detectar diferencias al detectar
final de la curva diferencias al
– Más poder si los riesgos inicio de la curva
son proporcionales:
lb=y la
• Se pueden usar otros pesos
– Tarone-Ware: wi = Öni
– Peto: wi = Si
• Como todos los tests usan (O-E), ninguno es
bueno cuando las curvas se cruzan
Survival probability
1.0
0.8
0.6
0.4
0.2
0.0
0 2 4 6 8 10 12 14
Survival time
Más de 2 grupos
Placebo:
1 2 2 2 3 4 4 5 5 8 8 8 8 11 11 12 12 15 17 22 23
6-MP:
6 6 6 7 10 13 16 22 23 6+ 9+ 10+ 11+ 17+ 19+ 20+ 25+ 32+ 34+ 35+
Placebo
time n.risk n.event survival s.e. 95% CI
1 21 1 0.95 0.046 0.86 1.00
2 20 3 0.81 0.085 0.65 0.99
3 17 1 0.76 0.093 0.59 0.96
4 16 2 0.66 0.103 0.49 0.90
5 14 2 0.57 0.108 0.39 0.82
8 12 4 0.38 0.106 0.22 0.65
11 8 2 0.28 0.098 0.14 0.56
12 6 2 0.19 0.085 0.07 0.46
15 4 1 0.14 0.076 0.05 0.40
17 3 1 0.09 0.064 0.02 0.35
22 2 1 0.04 0.046 0.00 0.32
23 1 1 0.00 - - -
6-MP
time n.risk n.event survival s.e. 95% CI
6 20 3 0.85 0.079 0.70 1.00
7 16 1 0.79 0.090 0.63 0.99
10 14 1 0.74 0.100 0.56 0.96
13 11 1 0.67 0.111 0.48 0.93
16 10 1 0.60 0.119 0.41 0.89
22 6 1 0.50 0.135 0.29 0.85
23 5 1 0.40 0.141 0.20 0.80
Survival description
1.0
0.8
6-MP
0.6
S(t)
0.4
Placebo
0.2
0.0
0 5 10 15 20 25 30 35
weeks
Survival comparison
Statistic df Significance
=================================================
Call:
survdiff(formula = Surv(time, censor) ~ group)
S(t)
.8 Karnofski
<=60%
61_70%
.6
71_80%
81_90%
.4 91+ %
.2
0.0
0 12 24 36 48 60
Time (months)
Statistic df Significance
Log Rank 117.07 1 .0000
Test estratificado
• Ajuste de factores de confusión mediante un
test no paramétrico
• Se comparan grupos controlando el efecto de un
atercera variable. La comparación entre grupos
se realiza dentro de cada categoría (estrato) de
la variable confusora.
• Zk y Vk se calculan para cada estrato y después
se combinan.
åk Zk 2
Para 2 grupos, k estratos: ~ c1
åV
k
k
.9
.8
.7
.6
.5
.4
pO2
.3 > 70
.2
.1 <=70
0.0
0 10 20 30 40 50 60 70
Time (months)
Statistic df Significance
Log Rank 10.12 1 .0015
Survival Functions Survival Functions Survival Functions
KARNOFS = 91 + % KARNOFS = 81_90 % KARNOFS = 71_80 %
1.2 1.2 1.2
.8 .8 .8
.6 .6 .6
pO2 pO2 pO2
.4 .4 .4
> 70 > 70 > 70
Cum Survival
Cum Survival
Cum Survival
.2 .2 .2
> 70-censored > 70-censored > 70-censored
1.0 1.0
.8 .8
.6 .6
pO2 pO2
.4 .4
> 70 > 70
Cum Survival
Cum Survival
.2 .2
> 70-censored > 70-censored
g(m ) = a + β x
• g(m) suele ser log(m)
Variable dependiente
• Tiempo hasta la muerte:
g(T) = a + bX
1.0
2.0
0.8
0.6
1.5
h(t)
S(t)
0.4
1.0
0.2
0.5
0.0
0 1 2 3 4 5 0 1 2 3 4 5
Tiempo Tiempo
1
0.5
0.1
0 1 2 3 4 5
Tiempo
formulación
h(t|x) = j(x)h0(t)
• Para asegurar que j(x) siempre es positivo
j(x) = exp(bx)
h(t | x)
exp(b) =
h0 (t)
0.1
0 1 2 3 4 5
Tiempo
Relaciones entre funciones
f(t) ìf(t) no son fáciles de
h(t) = í estimar por ser
S(t) îh(t) Pr instantáneas
t
S(t) = exp[ - ò h(u)du]
0
= exp[ -H(t)]
Proporcionalidad en h(t) Þ
H(t) = -log[S(t)] proporcionalidad en H(t)
En escala de S(t)
S(t|x) = S0(t)exp(bx) h(t|x) = exp(bx) h0(t)
1.0
1
0.8
0.5
0.6
S(t)
h(t)
0.4
0.2
0.1
0 1 2 3 4 5 0 1 2 3 4 5
Tiempo Tiempo
æ h(t | x) ö
logçç ÷÷ = b1x1 + b 2 x2 + ... + b k xk
è h0 (t) ø
• HR = exp(b)
æ h(t | estadio) ö
logçç ÷÷ = b1e1 + b2e2
è h0 (t) ø
ìe0 : local
ï ì0 : au sen te
estadio : íe1 : regional í
ïe : diseminado î1 : pre sen te
î 2
log(h)
10
diseminado
5
b2
regional
1
b1 local
0.5
0.1
0 1 2 3 4 5
Tiempo
æ h1 ö æ h2 ö
b1 = logçç ÷÷ b2 = logçç ÷÷
è h0 ø è h0 ø
Supervivencia en
cáncer de pulmón
Survival Function
1.0
.8
.6
.4
Cum Survival
.2
Survival Function
0.0 Censored
0 20 40 60 80 100
Supervivencia (mesos)
Life Table
Survival Variable SEGUIM Supervivencia (mesos)
.10
.8
.08
.6 .06
.04
.4
Cum Survival
.02
.2
Hazard
0.00
0.0 -.02
0 10 20 30 40 50 0 10 20 30 40 50
Kaplan-Meier
ESTCLIN
.8
EST IV
.6
EST IIIB
.4
EST IIIA
Cum Survival
.2
EST I/II
0.0
0 20 40 60
Supervivencia (mesos)
2
-1
-2 ESTCLIN
EST IV
Log minus log
-3
EST IIIB
-4
EST IIIA
-5 EST I/II
,4 1 3 5 20 40
,5 2 4 10 30 50
Supervivencia (mesos)
Indicator Parameter Coding
Value Freq (1) (2) (3)
ESTCLIN
EST I/II 129 .000 .000 .000
EST IIIA 135 1.000 .000 .000
EST IIIB 189 .000 1.000 .000
= =
åjÎR h(ti | xj )
i
å jÎRi
h0 (ti )e
β xj
Elementos de interés
• Parámetros: (b)
• Matriz de varianza-covarianza: S=I-1(b)
• Deviance = -2 * logL
– permite: realizar test de hipótesis (comparando modelos)
Diagnóstico en modelos de Cox
• Asumción de proporcionalidad en los riesgos
– Métodos gráficos
– Métodos estadísticos
– Situaciones graves
– Soluciones posibles
• Ajuste del modelo
– Modelos con intención predictiva
– Idoneidad del uso de variables cuantitativas
• Observaciones influyentes
– Delta-betas
Verificación de la
proporcionalidad en los riesgos
• Métodos gráficos
– log{-log(S)} vs log(t)
– log(HR) vs t
• Métodos estadísticos
– Introducir una interacción covariable-tiempo
Quimioterapia en cáncer de pulmón
Descriptiva Kaplan-Meier
n events mean se(mean) median 0.95LCL 0.95UCL
quimio=1 496 390 12.8 1.03 6 6 7
quimio=2 114 84 13.7 1.06 10 9 14
Test de logrank
n Observed Expected (O-E)^2/E (O-E)^2/V
quimio=1 496 390 365 1.75 8.38
quimio=2 114 84 109 5.84 8.38
1.0
0.8
0.6
Quimio
No quimio
0.4
0.2
0.0
0 20 40 60 80
Modelo de Cox
coef exp(coef) se(coef) z p
quimio -0.347 0.707 0.121 -2.88 0.004
rho chisq p
quimio 0.179 15.2 9.9e-05
Gráficas log(-log S) vs log(t)
1
0
log(-log S)
-1
-2
Quimio
No quimio
-3
2
1
Beta(t) for quimio
0
-1
No op
No radical
Radical
-3
-4
Time
5.9 8.1 11
16
28
Beta(t) for as.factor(cirugia)3
-2 -1 0 1
1.4 2.8 4.3
Time
5.9 8.1 11
16
28
No proporcionalidad en los riesgos
• Si es muy evidente: modelo no interpretable
– Las curvas muestran diferencias pero se cruzan
L(X | p) = Õ
s =1
e å bx 0
å e å bxi
iÎR 1
Õ
s =2
e å bx 0
å e å bxi
iÎR 2
Õ
s =3
e å bx0
å e å bxi
iÎR 3
5
10
años
15
20
25
h(t)
años
15
20
25
h(t)
5
10
años
15
20
25
2
-1
-2
Log minus log
GRUP
-3
1.00
-4 .00
.4 1 3 5 20 40
.5 2 4 10 30 50
Supervivencia (mesos)
Modelo ignorando grupo de riesgo
0 1 2 3 4 5
Tiempo
• Es necesario tener en cuenta estos cambios
al calcular la función de verosimilitud
,8
,7
RECIDIVA
,6 1,00
,5 1,00-censurado
,4 ,00
,3 ,00-censurado
0 20 40 60 80 100
TIEMPO
Survival Time Standard Error 95% Confidence Interval
RECIDIVA = ,00
Median: 54,00 8,32 ( 37,70; 70,30 )
RECIDIVA = 1,00
Median: 69,00 7,66 ( 53,99; 84,01 )
Chi-Square df Sig
Change (-2LL) from
Previous Step 2,889 1 ,0892
=====================================================================
Chi-Square df Sig
Change (-2LL) from
Previous Step 16,252 1 ,0001