Regresión Logística

STATGRAPHICS Rev.
4/d/yyyy
Regresin Logstica
Resumen
El procedimiento de Regresin Logstica est diseado para ajustarse a un modelo de regresin
en el que la variable dependiente Y caracteriza un evento con slo dos posibles resultados.
Pueden modelarse dos tipos de datos:
1. Datos en los que Y consiste en un conjunto de 0s y 1s, donde 1 representa la

ocurrencia de uno de los dos resultados.
2. Datos en los que Y representa la proporcin de tiempo de uno de los dos resultados
ocurridos.
El modelo de regresin ajustado relaciona Y con una o ms variables predictoras X, las cuales
pueden ser cuantitativas o categricas. En este procedimiento, se asume que la probabilidad de
un evento est relacionada con los predictores a travs de una funcin logstica. El Anlisis
Probit puede usarse para ajustar el mismo tipo de datos, pero usa una forma funcional distinta.
El procedimiento ajusta un modelo usando mxima verosimilitud o mnimos cuadrados

ponderados. La seleccin de variables por pasos es una opcin. Se realizan pruebas de radio
verosimilitud para probar la importancia de los coeficientes del modelo. El modelo ajustado
puede graficarse y generar predicciones a partir de la grfica. Residuos tipicos son identificados
y graficados.
StatFolio Muestra: logistic.sgp
Datos de Muestra:
Se considerarn dos ejemplos. El primero, de Myers (1990), est contenido en el archivo
fabric.sf3. Describe la falla de especimenes de una fbrica sujetos a diferentes cargas.
Load Specimens Failures

(Carga) (Especimenes) (Fallas)
5 600 13
35 500 95
70 600 189
80 300 95
90 300 130
Para estos datos, la variable dependiente Y es la proporcin de especimenes que fallan en una
carga dada, calculada por Y = fallas / especimenes. Hay una solo variable predictora X = Carga.
Hay un total de n = 2,300 especimenes.
El segundo archivo de datos, collisions.sf6, es de Hrdle y Stoker (1989). Describe n = 58

colisiones de lado de automviles. La variable de respuesta es binaria, cuantificando si la
colisin resulto en una fatalidad o no. Una porcin del archivo se muestra abajo.
2006 by StatPoint, Inc. Regresin Logstica - 1

STATGRAPHICS Rev. 4/d/yyyy
Edad Aceleracin Velocidad Fatalities

(Edad) (Aceleracin) (Velocidad) (Fatalidad)
22 50 98 0
21 49 160 0
40 50 134 1
43 50 142 1
23 51 118 0
58 51 143 1
29 51 77 0
29 51 184 0
47 51 100 1

La variable dependiente Y = Fatalidad es igual a 1 si ocurri una fatalidad y 0 si no. Las

variables predictoras son la Edad de la persona involucrada y la Aceleracin y Velocidad del
objeto que el automvil de la persona golpe.
Datos de Entrada
El cuadro de dilogo de datos de entrada requiere informacin sobre las variables de entrada:
Variable Dependiente: una variable numrica que contiene la variable dependiente Y. Y

puede consistir de un conjunto de s proporciones, cada una entre 0 y 1, o de un conjunto de n
binarias 0s y 1s representando la ocurrencia o la no-ocurrencia de un resultado.
(Tamaos de Muestra): Si Y contiene un conjunto de proporciones, introduzca una columna

con los tamaos de muestra correspondientes a cada proporcin. Si Y contiene un conjunto
de 0s y 1s, deje este campo en blanco.
Factores Cuantitativos: columnas numricas que contienen valores de cualquier factor

cuantitativo a incluirse en el modelo.
Factores Categricos: Columnas numricas o no numricas que contienen los niveles de

cualquier factor categrico que deba incluirse en el modelo.
Seleccionar: Subconjunto a seleccionar.
Para el archivo collisions.sf6, donde los datos son binarios, el cuadro de dilogo de datos de
entrada se muestra abajo:
Modelo Estadstico
El modelo logstico relaciona la probabilidad de ocurrencia P del resultado contado por Y con las
variables predictoras X. El modelo toma la forma

1
P( X ) =
1 + exp[ ( 0 + 1 X 1 + 2 X 2 + ... + k X k )] (1)
Alternativamente, el modelo puede escribirse de la forma
P( X )
log = exp( 0 + 1 X 1 + 2 X 2 + ... + k X k ) (2)
1 P ( X )
Donde el lado izquierdo de la ecuacin de arriba se conoce como la transformacin logit.
Resumen del Anlisis

El Resumen del Anlisis despliega una tabla que muestra el modelo estimado y las pruebas de
significancia para los coeficientes del modelo. El resultado depende del mtodo usado para
estimar el modelo.
Estimacin de Mxima Verosimilitud

La estimacin de mxima verosimilitud puede usarse si Y es binaria o si contiene proporciones.
Un resultado tpico de cuando se usa mxima verosimilitud se muestra abajo
Regresin Logstica - fallas/especimenes

Variable dependiente: fallas/especimenes
Tamaos de muestra: especimenes
Factores:
Carga
Modelo Estimado de Regresin (Mxima Verosimilitud)

Error Razn de Momios
Parmetro Estimado Estndar Estimada
CONSTANTE -2.9949 0.145939
Carga de Desviacin
Anlisis 0.0307699 0.00209432 1.03125
Fuente Desviacin Gl Valor-P
Modelo 283.056 1 0.0000
Residuo 36.2181 3 0.0000
Total (corr.)
Porcentaje 319.274 explicado
de desviacin 4 por el modelo = 88.6561
Porcentaje ajustado = 87.4033
Pruebas de Razn de Verosimilitud

Factor Chi-Cuadrada Gl Valor-P
Carga 283.056 1 0.0000
Anlisis de Residuos
Estimacin Validacin
n 5
CME 0.159284
MAE 0.0299959
MAPE 23.9252
ElMEresultado incluye:
-0.000979783
MPE -10.6729
Resumen de Datos: un resumen de los datos de entrada.

Modelo Estimado de Regresin: estima los coeficientes en el modelo de regresin, con
errores estndar y razones de momios estimadas. Las razones de momios se calculan a partir
de los coeficientes del modelo j por:
Razn de momios = exp j ( ) (3)
La razn de momios representa el incremento porcentual de las probabilidades de un

resultado para cada unidad incrementada en X.
Anlisis de Desviacin: descomposicin de la desviacin de los datos en un componente

explicado (Modelo) y un componente no explicado (Residuo). La desviacin compara la
funcin de verosimilitud de un modelo con el valor ms grande que la funcin de
verosimilitud puede alcanzar, de tal manera que un modelo perfecto tendra desviacin igual
a cero. Hay tres lneas en la tabla:
1. Total (corr.) la desviacin del modelo con slo un trmino constante, (0).
2. Residuo la desviacin restante despus que el modelo ha sido ajustado.
3. Modelo la reduccin en la desviacin debido a las variables predictoras,

(1,2,,k|0), son iguales a la diferencia entre los otros dos componentes.
El P-Valor del Modelo prueba si la adicin de las variables predictoras reduce

significativamente la desviacin, comprndose con un modelo que contenga slo un trmino
constante. Un P-Valor pequeo (menos de 0.05 si se est operando a un nivel de significancia
del 5%) indica que el modelo ha reducido significativamente la desviacin y por lo tanto es
til para predecir la probabilidad del resultado estudiado. El P-Valor para el trmino Residuo
prueba si existe una prdida-de-ajuste significativa; i.e. si sera posible un mejor modelo. Un
P-Valor pequeo indica que desviacin significativa permanece en los residuos, as que sera
posible un mejor modelo.
Porcentaje de Desviacin el porcentaje de desviacin explicado por el modelo, calculado

por
( 1 , 2 ,..., k | 0 )
R2 =
( 0 ) (4)
Es similar a un estadstico R-cuadrado en regresin mltiple, y cuyo rango puede estar desde
0% hasta 100%. Una desviacin ajustada tambin se calcula a partir de
( 1 , 2 ,..., k | 0 ) 2 p
2
Radj =
( 0 ) (5)
donde p es igual al nmero de coeficientes en el modelo ajustado, incluyendo el trmino

constante. Es similar al estadstico R-Cuadrado ajustado en el sentido de que compensa el
nmero de variables en el modelo.

Pruebas de Razn de Verosimilitud Una prueba de significancia para cada efecto en el
modelo ajustado. Estas pruebas comparan la funcin de verosimilitud del modelo completo
con la del modelo en el que solo arroja el efecto indicado. Pequeos P-valores indican que el
modelo se ha mejorado significativamente por el efecto correspondiente.
Anlisis de Residuos si un conjunto de filas en la hoja de datos ha sido excluido del

anlisis usando el campo Seleccionar en el cuadro de dilogo de datos de entrada, el modelo
ajustado es usado para hacer predicciones de los Y valores para esas filas. Esta tabla muestra
estadsticos en los errores de prediccin, definidos por:
ei = y i P ( X i ) (6)
Estn incluidos el error cuadrtico medio (MSE), el error absoluto medio (MAE), el error
porcentual absoluto medio (MAOE), el error medio (ME) y el error porcentual medio (MPE).
Estos estadsticos de validacin pueden compararse con los estadsticos del modelo ajustado
para determinar que tan bien el modelo predice observaciones fuera de los datos usados para
ajustarlo.
El modelo ajustado para los datos muestrales es
1
P ( falla ) =
1 + exp[ (2.9949 + 0.0307699 Load)] (7)
La regresin explica cerca del 88.7% de la desviacin de un modelo sin Carga. El P-valor para
Carga es muy pequeo, que es un estadstico predictor significativo para la proporcin de Fallas.
La razn de momios es aproximadamente 1.03, indicando un incremento del 3% en las
probabilidades de falla para cada unidad de incremento en Carga.
Note que el P-valor de los Residuos tambin es significativo, indicando que una prdida-de-
ajuste significativa permanece sin ser explicada. Esto puede rectificarse regresando al cuadro de
dilogo de datos de entrada e introduciendo LOG(Carga) como variable predoctora en lugar de
Carga. El resultado es un modelo loglogstico , como se muestra abajo:


Factores:
LOG(Carga)

CONSTANTE -5.5784 0.368202
LOG(Carga)
Anlisis 1.13997
de Desviacin 0.0892554 3.12667
Modelo 313.886 1 0.0000
Residuo 5.38828 3 0.1455
Porcentaje de desviacin
Total (corr.) 319.274 explicado
4 por el modelo = 98.3123

LOG(Carga) 313.886 1 0.0000
Note el incremento en el porcentaje de desviacin explicado a ms del 98%. Adems, el P-valor

de los Residuos ya no muestra prdida de juste significativa
Regresin de Mnimos Cuadrados Ponderados

Cuando los datos de entrada Y consisten en un conjunto de proporciones, el modelo puede
estimarse usando mnimos cuadrados ponderados en vez de mxima verosimilitud. El resultado
entonces toma la siguiente forma:


Factores:
Carga
Modelo Estimado de Regresin (Mnimos Cuadrados Ponderados)

Error Estadstico Razn de Momios
Parmetro Estimado Estndar t Valor-P Estimada
CONSTANTE -2.72665 0.525557 -5.18811 0.0139
Carga de Varianza
Anlisis 0.0272839 0.00753311 3.62186 0.0362 1.02766
Fuente Suma de Cuadrados Gl Cuadrado Medio Razn-F Valor-P
Modelo 132.876 1 132.876 13.12 0.0362
Residuo 30.3881 3 10.1294
R-Cuadrada
Total (Corr.)= 81.3871
163.264 porciento 4
R-Cuadrada (ajustada por g.l.) = 75.1828 porciento
Error estndar del est. = 3.18267
Error medio absoluto = 0.168476
Estadstico Durbin-Watson = 2.15796
Autocorrelacin residual de retardo 1 = -0.390383
Suma de Cuadrados Tipo III

Fuente Suma de Cuadrados Gl Cuadrado Medio Razn-F Valor-P
Carga 132.876 1 132.876 13.12 0.0362
Residuo 30.3881 3 10.1294
Anlisis de Residuos
Estimacin Validacin
n 5
CME 10.1294
MAE 0.168476
MAPE 254.223
LaMEtabla difiere del resultado de la opcin del MLE de muchas maneras:
3.19675E-17
MPE -171.933
1. Cada coeficiente se muestra junto a un t-estadstico y un P-valor asociado, que prueban si
un coeficiente especfico puede ser igual a 0.
2. El anlisis de desviacin es remplazado por un anlisis de varianza estndar. La Razn-F
prueba la significancia estadstica del modelo como un todo.
3. El porcentaje de desviacin es reemplazado por un estadstico R-Cuadrado estndar.
4. Las pruebas de radio verosimilitud de los efectos son remplazados por F pruebas
basadas en sumas de cuadrados Tipo III. La misma interpretacin de los P-valores aplica,
sin embargo, con P-valores pequeos correspondientes a efectos significativos.
Para mayor explicacin de los estadsticos de regresin, vea la documentacin sobre Modelos
Lineales Generales.

Opciones de Anlisis
Mtodo: mtodo usado para estimar los coeficientes del modelo. Para Y binarias, la nica
opcin es la Mxima Verosimilitud.
Proporcin Menor: Para datos Y que consistan en proporciones, la proporcin ms pequea

admisible Pmin. Todas las observaciones menores a Pmin se fijan iguales a Pmin, mientras que
todas las observaciones mayores 1- Pmin se fijan iguales a 1- Pmin.
Modelo: orden del modelo a ajustarse. Los modelos de primer orden solamente incluyen
efectos principales. Los de segundo orden incluyen efectos cuadrticos para factores
cuantitativos e interacciones bifactoriales entre todas las variables.
Incluir Constante: Si esta opcin no est seleccionada, el trmino constante 0 ser omitido
en el modelo.
Ajustar: Especifica si todas las variables independientes especificadas en el cuadro de

dilogo de datos de entrada deben incluirse en el modelo final, o si debe aplicarse una
seleccin paso a paso de variables. La seleccin paso a paso de variables intenta encontrar un
modelo parsimonioso que contenga solo variables significativas estadsticamente. Un ajuste
Paso a paso hacia delante comienza sin variables en el modelo. Un ajuste Paso a paso hacia
atrs comienza con todas las variables en el modelo.
P-para-Introducir En un ajuste paso a paso, las variables se introducirn al modelo en un

paso dado si sus P-valores son menores o iguales a al P-para-Introducir valor especificado.
P-para-Eliminar - En un ajuste paso a paso, las variables se removern del modelo en un

paso dado si sus P-valores son mayores que el P-para-Eliminar valor especificado.
Pasos Mximos: nmero mximo de pasos permitidos al hacer un ajuste paso a paso.

Mostrar: Despliega los resultados en cada paso al hacer un ajuste paso a paso.
Excluir: Presione este botn para excluir efectos del modelo. Se desplegar un cuadro de
dialogo.
D doble clic en un efecto para moverlo de la lista Incluir a la lista Excluir o viceversa.
Ejemplo: Ajuste paso a paso usando datos binarios

Los datos de las colisiones de automvil contienen tres posibles variables predictoras: Edad,
Velocidad y Aceleracin. Para seleccionar un modelo que contenga solo predoctores
significativos, se puede usar un ajuste paso a paso. Hay dos algoritmos disponibles:
Seleccin hacia delante Comienza con un modelo que involucra solo un trmino
constante e ingresa una variable a la vez basndose en su relevancia estadstica al
agregarse al modelo actual. A cada paso, el algoritmo aade al modelo la variable
que ser la ms relevante estadsticamente si se introduce. Mientras la variable ms
importante tenga un P-valor menor o igual al especificado en el cuadro de dilogo
Resumen del Anlisis, se aadir al modelo. Cuando ninguna variable tenga un P-
valor suficientemente pequeo, la seleccin de variables se detiene. Adems, las
variables agregadas al modelo al principio del procedimiento pueden removerse
despus si su P-valor cae debajo del criterio P-para-Eliminar.
Seleccin hacia atrs Comienza con un modelo que involucra todas las variables
especificadas en el cuadro de dilogo de datos de entrada y remueve una variable a la
vez basndose en su relevancia estadstica en el modelo actual. A cada paso, el
algoritmo remueve del modelo la variable menos relevante estadsticamente. Si la
variable menos importante tiene un P-valor mayor al especificado en el cuadro de
dilogo Resumen del Anlisis, se remover del modelo. Cuando todas las variables
restantes tengan P-valor pequeos, el procedimiento se detiene. Adems, las variables
removidas del modelo al principio del procedimiento pueden reingresarse despus si
su P-valor alcanza el criterio P-para-Introducir.

El siguiente resultado muestra lo que resulta de un ajuste paso a paso hacia atrs:
Regresin Logstica - Fatalidad

Variable dependiente: Fatalidad
Factores:
Edad
Velocidad
Aceleracin

CONSTANTE -16.9845 5.14861
Edad 0.162501 0.041448 1.17645
Velocidad 0.233906 0.0862681 1.26353
Anlisis de Desviacin
Modelo 33.3408 2 0.0000
Residuo 45.3315 55 0.8206
Total (corr.) 78.6723 57
Porcentaje de desviacin explicado por el modelo = 42.3793


Edad 29.9333 1 0.0000
Velocidad 10.0497 1 0.0015
Anlisis de Residuos
Estimacin Validacin
n 58
CME 0.0221508
MAE 0.340955
MAPE
ME 0.00127246
MPE
Seleccin de factores por etapas

Mtodo: seleccin hacia atrs
P-para-introducir: 0.05
P-para-eliminar: 0.05
Paso 0:
3 factores en el modelo. 54 g.l. para el error.
Porcentaje de desviacin explicada = 44.10% Porcentaje ajustado = 33.93%
Paso 1:
Eliminando el factor Aceleracin con P-para-eliminar = 0.244299
2 factores en el modelo. 55 g.l. para el error.
Porcentaje de desviacin explicada = 42.38% Porcentaje ajustado = 34.75%
Modelo final seleccionado.
El algoritmo comienza con un modelo que contiene los tres predictores. Luego remueve
Aceleracin, ya que su P-valor es grande. El modelo final involucra solo Edad y Velocidad,
cuyos P-valores son mayores o iguales a 0.05.


Grfica del Modelo Ajustado
La Grfica del Modelo Ajustado despliega la probabilidad estimada de un resultado P ( X ) con
cualquier variable predictora, con las otras variables como constantes.
Grfica del Modelo Ajustado

con intervalos de confianza del 95.0%
1
0.8
Failures/Specimens
0.6
0.4
0.2
0
0 20 40 60 80 100
Load
Los lmites de confianza P(X) se incluyen en la grfica
Panel de Opciones

Factor: selecciona el factor a graficar en el eje horizontal.
Bajo y Alto: especifica el rango de valores para el factor seleccionado.
Mantener: selecciona valores en los que los valores no seleccionados se mantendrn.
Nivel de Confianza: porcentaje usado para los lmites de confianza. Deje en 0 para suprimir
los lmites.
Siguiente y Atrs: usados para desplegar otros factores cuando hay ms de 16 presentes.
La probabilidad estimada de falla crece aproximadamente 5% en cargas bajas a casi 50% cuando
Carga = 100.
Grfica Logit
La Grfica Logit es similar a la Grfica del Modelo Ajustado, excepto que el eje vertical se
escala de tal modo que el modelo ajustado sea una lnea recta.
Logit(Failures/Specimens)
con intervalos de confianza del 95.0%
99.9
99.5
99
porcentaje acumulado
95
90
70
50
30
10
5
1
0.5
0.1
0 20 40 60 80 100
Load
Panel de Opciones
Las opciones son las mismas que en la Grfica del Modelo Ajustado.

Observado vs. Predicho
La grfica Observado vs. Predicho muestra los valores observados de Y en el eje vertical y los
valores predichos P ( X ) en el eje horizontal.
Grfica de Failures/Specimens
0.5
0.4
observado
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5
predicho
Si el modelo ajusta bien, los puntos deben estar dispersos aleatoriamente alrededor de la lnea
diagonal.
Observado vs. Log de Probabilidad

El panel Observado vs. Log de Probabilidad grafica los valores observado de Y con los logs de
P ( X )
log
probabilidad predichos, dados por 1 P ( X ) .

Grfica de Failures/Specimens
0.5
0.4
observado
0.3
0.2
0.1
0
-3.9 -2.9 -1.9 -0.9 0.1
Log de momios predichos
Los logs de probabilidad se igualan a la transformacin logstica, que es una funcin

exponencial de las variables predictoras.

Predicciones Inversas
La tabla Predicciones Inversas despliega valores estimados de una variable seleccionada X, cuya
probabilidad P ( X ) es igual a porcentajes establecidos. Las otras variables del modelo se fijan a
valores que el usuario especifique.
Tabla de Predicciones Inversas para Carga

LC Inferior 95.0% LC Superior 95.0%
Porcentaje Carga Lmite Conf. Lmite Conf.
0.1 -127.132 -156.921 -104.304
0.5
Niveles de-74.6964 -96.4948 para los valores
confianza fidedignos -57.9582 de X tambin estn incluidos.
1.0 -52.0059 -70.3688 -37.8809
2.0 -29.1492 -44.0783 -17.6297
Por
3.0 ejemplo, la probabilidad
-15.6385 de falla para -5.6379
-28.5593 el ejemplo de la fbrica est estimada a alcanzar p =
4.0 -5.95227 -17.4486 2.97493
50%
5.0
en la 1.64004
Carga = 97.33.-8.75274
Los lmites de confianza
9.73882
del 95% oscilan entre 92.36 y 103.48.
6.0 7.90927 -1.58389 15.3356
7.0 13.2666 4.53136 20.1292
8.0 17.9577 9.87545 24.3372
9.0 22.1407 14.6304 28.0999
10.0 25.924 18.9204 31.5135
15.0 40.9589 35.8156 45.2329
20.0 52.2786 48.2389 55.8593
25.0 61.6281 58.1385 64.9974
30.0 69.7956 66.4205 73.3465
35.0 77.2138 73.6499 81.2223
40.0 84.1548 80.2174 88.7884
45.0 90.8105 86.3904 96.1679
50.0 97.3322 92.3594 103.479
55.0 103.854 98.275 110.843
60.0 110.509 104.274 118.396
65.0 117.45 110.502 126.302
70.0 124.869 117.134 134.775
75.0 133.036 124.417 144.123
80.0 142.386 132.735 154.843
85.0 153.705 142.788 167.839
90.0 168.74 156.119 185.123
91.0 172.524 159.471 189.474
92.0 176.707 163.176 194.287
93.0 181.398 167.33 199.686
94.0 186.755 172.072 205.852
95.0 193.024 177.62 213.07
96.0 200.617 184.337 221.813
97.0 210.303 192.903 232.97
98.0 223.813 204.848 248.536
99.0 246.67 225.048 274.878
99.5 269.361 245.093 301.036
99.9 321.797 291.4 361.501

Panel de Opciones
Factor: selecciona el factor del que se calcularn las predicciones inversas.
Bajo y Alto: Ignorado.
Mantener: selecciona valores en los que los valores no seleccionados se mantendrn.
Nivel de Confianza: porcentaje usado para los lmites de confianza.
Siguiente y Atrs: usados para desplegar otros factores cuando hay ms de 16 presentes.

Bondad de Ajuste
El panel Bondad-de-ajuste realiza una prueba de Ji-Cuadrada para determinar si el modelo
ajustado describe adecuadamente los datos observados. Lo hace dividiendo los logit valores
ajustados en clases (grupos) y realizando una prueba de ji-cuadrada para comparar los valores
observados con los ajustados en cada intervalo.
Prueba Chi-Cuadrada de Bondad de Ajuste

Intervalo CIERTO CIERTO FALSO FALSO
Clase Logit n Observado Esperado Observado Esperado
1 menor que -2.84105 600 13.0 33.0874 587.0 566.913
2 -2.84105 a -1.91796 500 95.0 64.0449 405.0 435.955
3 -1.91796 a -0.841008 600 189.0 180.793 411.0 419.207
4 -0.841008 o mayor 600 225.0 244.074 375.0 355.926
Total 2300 522.0 1778.0
Chi-cuadrada = 33.1125 con 2 g.l. valor-P = 6.45217E-8

Al crear las clases, el programa trata de crear grupos de ms o menos el mismo tamao.
La tabla muestras la siguiente informacin de cada clase:
P ( X )
log
1. Logit intervalo el rango de los logit valores 1 P ( X ) correspondientes a esa clase.

2. n el nmero total de muestras con valores ajustados en esa clase.
3. CIERTO Observado del nmero de muestras en ese intervalo, cuntas se observ que
fueron VERDAD (1).
4. CIERTO Esperado del nmero de muestras en ese intervalo, cuntas el modelo ajustado
predijo que seran VERDAD.
5. FALSO Observado del nmero de muestras en ese intervalo, cuntas se observ que
fueron FALSO (1).
6. FALSO Esperado del nmero de muestras en ese intervalo, cuntas el modelo ajustado
predijo que seran FALSO.
Por ejemplo, un total de 600 muestras de la fbrica han predicho logit valores menores a
2.84105 (correspondiente a la fila 1 del archivo de datos). 13 fallas fueron observadas y se
predijo un valor de aproximadamente 33.
Para comparar los conteos observados con los esperados, se realiza una prubea ji-cuadrada de
bondad de ajuste. Un P-valor pequeo (menor a 0.05 operando a un nivel de significancia del
5%) lleva a la conclusin de que el modelo ajustado no encaja adecuadamente con los datos. En
el ejemplo, el P-valor es muy pequeo, indicando un pobre ajuste del modelo logstico.
Para propsitos de comparacin, note la prueba para el modelo loglogistico con X =
LOG(Carga):

Prueba Chi-Cuadrada de Bondad de Ajuste

Intervalo CIERTO CIERTO FALSO FALSO
Clase Logit n Observado Esperado Observado Esperado
1 menor que -3.74369 600 13.0 13.8717 587.0 586.128
2 -3.74369 a Chi-cuadrada
-1.52541 =500
0.720702 con 2 g.l. valor-P
95.0 89.333= 0.697432
405.0 410.667
3 -1.52541 a -0.735245 600 189.0 194.427 411.0 405.573
En ese caso, el P-valor no muestra prdida-de-ajuste significativa. 375.632
4 -0.735245 o mayor 600 225.0 224.368 375.0
Total 2300 522.0 1778.0
Panel de Opciones
Nmero de Clases: mximo nmero de clases en los cuales agrupar los datos.
Predicciones
El modelo logstico ajustado puede usarse para predecir el resultado de nuevas muestras cuyas
variables predoctoras estn dadas. Por ejemplo, supongamos que se colecta una nueva muestra a
una Carga igual a 50. Si uno quisiera predecir si el tem va a fallar o no, el modelo ajustado
puede ser evaluado para la nueva muestra y una falla predicha si
P ( X new ) > c
para algn valor de corte c. El valor de c afectara la probabilidad de obtener un resultado falso
positivo o falso negativo.
La tabla al inicio de la seccin Predicciones muestra el porcentaje de tems clasificados

correctamente como funcin de c.

Desempeo de Prediccin Porcentaje Correcto

Punto de Corte CIERTO FALSO Total
0.0 100.00 0.00 22.70
. 0.05 100.00 0.00 22.70
0.1 incluidos en
Estn 97.51
la tabla:33.01 47.65
0.15 79.31 55.79 61.13
0.2 79.31 55.79 61.13
0.25Punto deCorte el valor
79.31 de c.
55.79 61.13
0.3 79.31 55.79 61.13
0.35 43.10 78.91 70.78
0.4CIERTO usando
24.90 el valor
90.44de c indicado,
75.57 el porcentaje de fallas observadas que pudieron ser
predichas correctamente.
0.45 0.00 100.00 77.30
0.5 0.00 100.00 77.30
0.6FALSO usando
0.55 0.00
0.00
100.00
el valor 77.30
de c indicado,
100.00 77.30
el porcentaje de no-fallas observadas que pudieron
ser predichas0.00
0.65 correctamente.
100.00 77.30
0.7 0.00 100.00 77.30
0.75Total - usando
0.00
el valor 100.00 77.30
de c indicado, el porcentaje de todas las muestras que pudieron ser
0.8 0.00 100.00 77.30
predichas
0.85 correctamente.
0.00 100.00 77.30
0.9 0.00 100.00 77.30
0.95ejemplo, usando
Por 0.00 un corte100.00
c = 0.45 77.30
se hubiera predicho correctamente el mayor porcentaje de
1.0 0.00 100.00 77.30
muestras totales (77.3%). Desafortunadamente, hubiese predicho FALSO para todas las muestras
(o sea, una no-falla) que clasifica todas las no-fallas correctamente pero pierde todas las fallas!
Para predecir las fallas con una alta probabilidad, se requerira un valor de c = 0.1, que tambin
resulta en clasificar mal el 33% de las no-fallas. Si el modelo ser usado para ocultar muestras, el
mejor valor de c dependera del costo relativo de fallas perdidas contra el costo de clasificar mal
las no-fallas.
La segunda tabla en el panel evala el modelo ajustado en filas seleccionadas en la hoja de datos.
Pueden hacerse predicciones para todas las filas que tengan infromacin completa en las X
variables o solo aquellas a las que les falten valores de Y. La ltima opcin es til para hacer
predicciones de los valores de X que no se usaron para ajustar el modelo.
Por ejemplo, se puede agregar una sexta fila a la hoja de datos con Carga = 50, dejando la
columna fallas en blanco.
Predicciones para fallas/especimenes

Observado Ajustado LC Inferior 95.0% LC Superior 95.0%
Fila Lmite de Conf. Lmite de Conf.
6 0.189018 0.171239 0.208178
La tabla predice una tasa media de falla de aproximadamente 18.9% a esa carga, con un intervalo
de confianza del 95% para una tasa media que oscile entre el 17.1% y el 20.8%.
Panel de Opciones

Punto de Corte: el rango de valores e incremento para c en la tabla de porcentajes de

prediccin
Mostrar: si despliega o no predicciones para Todos los Valores (filas) en la hoja de datos o
Slo Pronsticos (filas con un valor faltante para Y).
Nivel de Confianza: Porcentaje de confianza para los lmites de confianza.
Capacidad de Prediccin
La grfica Capacidad de Prediccin despliega la misma informacin que la tabla Predicciones.
Grfica de Capabilidad de Prediccin para Failures/Specimens
100
Total
80 Cierto
porcentaje correcto
Falso
60
40
20
0
0 0.2 0.4 0.6 0.8 1
punto de corte
Grafica los porcentajes de prediccin correctos como funcin del valor de corte c.
Histograma de Prediccin
El Histograma de Prediccin ilustra el nmero predicho de muestras totales que fallarn
(VERDAD) y que no fallarn (FALSO) con la probabilidad predicha P ( X ) .

Predicciones del Modelo para Failures/Specimens
800
500
Cierto
frecuencia
200
100
Falso
400
700
0 0.2 0.4 0.6 0.8 1
probabilidad predicha
Panel de Opciones
Nmero de Clases: el nmero total de clases en las que eje horizontal se dividir.
Lmites Superior e Inferior: los lmites del eje horizontal.
Mantener: selecciones para evitar cambios en la escala del histograma si los datos cambian.
Recuentos: Seleccione Relativos para graficar proporciones en el eje vertical en lugar de

conteos. Seleccione Acumulados para graficar conteos acumulativos de izquierda a derecha.
Intervalos de Confianza
El panel Intervalos de Confianza muestra el error potencial de estimacin asociado a cada
coeficiente en el modelo, as como a las razones de momios.
Intervalos de confianza del 95.0% para los estimados de los coeficientes

Error
Parmetro Estimado Estndar Lmite Inferior Lmite Superior
CONSTANTE -2.9949 0.145939 -3.45934 -2.53046
Carga 0.0307699 0.00209432 0.0241049 0.037435
Intervalos de confianza del 95.0% para la razn de momios

Parmetro Estimado Lmite Inferior Lmite Superior
Carga 1.03125 1.0244 1.03814
Panel de Opciones
Nivel de Confianza: Nivel porcentual para los intervalos de confianza.
Matriz de Correlacin
La Matriz de Correlacin despliega estimaciones de la correlacin entre los coeficientes
estimados.
Matriz de correlacin para los coeficientes estimados

CONSTANTE Carga
CONSTANTE 1.0000 -0.9320
Carga -0.9320 1.0000
Esta tabla puede ser de ayuda al determinar qu tan bien se separaron entre s los efectos de
diferentes variables independientes.
Residuos Atpicos
Una vez que el modelo ha sido ajustado, es til estudiar los residuos para determinar si existe
algn outlier que deba removerse de los datos. El panel Residuos Atpicos enlista todas las
observaciones que tienen residuos inusualmente grandes.
Residuos Atpicos para fallas/especimenes

Y Residuo Residuo de
Fila Y Predicha Residuo Pearson Desviacin
1 0.0216667 0.0551456 -0.033479 -3.59 -4.07
2 0.19 0.12809 0.0619103 4.14 3.91
La tabla despliega:
Fila el nmero de fila en la hoja de datos.
Y el valor observado de Y.
Y Predicha el valor ajustado P ( X ) .
Residuo la diferencia entre los valores observados y predichos, definida por
ei = Y P ( X ) (8)
Residuo Pearson un residuo estandarizado en el que cada residuo se divide por un

estimacin de su error estndar.
ei
ri =
(
P ( X i ) 1 P ( X i ) ) (9)
ni
Residuo de Desviacin un residuo que mide la contribucin de cada observacin a la

desviacin residual.
yi 1 y i
d i = sign(ei ) 2ni y i ln + ni (1 y i ) ln
(X ) 1 P ( X ) (10)
P i i
La suma de cuadrados de desviaciones residuos es igual a la desviacin en la lnea

Residuos de la tabla de anlisis de desviacin.
La tabla incluye todas las filas cuyos valores absolutos del residual de Pearson son mayores que
2.0. El ejemplo actual muestra dos residuos muy grandes.
Grficas de Residuos
Como en todos los modelos estadsticos, es buen ejercicio examinar los residuos. El
procedimiento de Regresin Logstica tiene varios tipos de grficas de residuos, dependiendo del
Panel de Opciones.
Grfica de Dispersin vs. Valor Predicho

Esta grfica es de ayuda para visualizar si la variabilidad de los residuos es cantante o depende
de un valor predicho.
Grfica de Residuos
5.9
Residuos de desviacin
3.9
1.9
-0.1
-2.1
-4.1
0 0.1 0.2 0.3 0.4 0.5
predicho Failures/Specimens
Grfica de Probabilidad Normal

Esta grfica puede usarse para determinar si las desviaciones sobre la lnea siguen una
distribucin normal o no.

Grfica de Probabilidad Normal para Failures/Specimens
99.9
99
95
porcentaje
80
50
20
5
1
0.1
-4.1 -2.1 -0.1 1.9 3.9 5.9
Residuos de desviacin
Si las desviaciones siguen una distribucin normal, deben caer aproximadamente sobre un lnea
recta.
Autocorrelaciones de Residuos
Esta grfica calcula la autocorrelacin entre residuos como funcin del nmero de filas entre
ellos en la hoja de datos.
Autocorrelaciones Residuales para Failures/Specimens
0.6
autocorrelacin
0.2
-0.2
-0.6
-1
0 0.5 1 1.5 2 2.5 3
retraso
Esto solo importa si los datos se colectaron secuencialmente. Cualquier barra que se extienda
ms all de los lmites indicara dependencia significativa entre residuos separados por la
demora indicada.
Panel de Opciones

Graficar: el tipo de residuos a graficar:
1. Residuos los valores observados menos los valores ajustados.

2. Residuos Pearson los residuos divididos entre sus errores estndar estimados.
3. Residuos de Desviacin residuos escalados de tal manera que su suma de cuadrados
es igual a la desviacin residual.
Tipo: el tipo de grfica a crearse. Se usa un Diagrama de Dispersin para probar curvatura;
una Grfica de Probabilidad Normal, para determinar si los residuos del modelo vienen de
una distribucin normal; y una Funcin de Autocorrelacin para probar dependencia entre
residuos consecutivos.
Graficar versus: para una Grfica de Dispersin, la cantidad a graficar el eje horizontal.
Nmero de Retrasos: Para una Funcin de Autocorrelacin, el nmero mximo de de

demoras. Para conjuntos pequeos de datos, el nmero de demoras graficadas puede ser
menor a este valor.
Nivel de Confianza: Para una Funcin de Autocorrelacin , el nivel usado para crear los
lmites de probabilidad.
Guardar Resultados
Los siguientes resultados pueden guardarse en la hoja de datos:
1. Valores Predichos los valores ajustados P ( X i ) correspondientes a cada fila de la hoja

de datos.
2. Lmites Inferiores los lmites inferiores de confianza para P ( X i ) .
3. Lmites Superiores los lmites superiores de confianza para P ( X i ) .
4. Residuos los residuos ordinarios.
5. Residuos Pearson los residuos de Pearson estandarizados.
6. Residuos de Desviacin los residuos de desviacin.
7. LeverEdads si el modelo fue ajustado usando mnimos cuadrados ponderados, los
leverEdads de cada fila.
8. Porcentajes los porcentajes a los cuales se hicieron las predicciones inversas.
9. Predicciones Inversas las predicciones inversas.
10. Lmites Fiduciarios Inferiores los lmites de confianza inferiores para las predicciones
inversas.
11. Lmites Fiduciarios Superiores los lmites de confianza superiores para las predicciones
inversas.

Clculos
Funcin de Verosimilitud
Para Y consistente en proporciones: L = [P( X i )] [1 P( X i )]

i r
i n ri
donde ri=nipi (11)
i =1
P( X )
Yi
i
Para Y binaria: L =
i =1
n (12)
[1 + P( X i )]
i =1
Ponderaciones para Mnimos Cuadrados Ponderados
1
wi =
y i (1 y i ) (13)
Desviacin

Para Y consistente en proporciones: ( ) = 2 ln s
L ()
ri ni ri (14)
ri ni ri

i =1 ni ni
Para Y binaria: ( ) = 2 ln

L ()
(15)
(1 y i )
s
( y i ) (1 y i )
yi

i =1

Regresión Logística

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regresión Logística

Transféré par

Droits d'auteur :

Formats disponibles

STATGRAPHICS Rev.

1. Datos en los que Y consiste en un conjunto de 0s y 1s, donde 1 representa la

El procedimiento ajusta un modelo usando mxima verosimilitud o mnimos cuadrados

StatFolio Muestra: logistic.sgp

Load Specimens Failures

El segundo archivo de datos, collisions.sf6, es de Hrdle y Stoker (1989). Describe n = 58

2006 by StatPoint, Inc. Regresin Logstica - 1

Edad Aceleracin Velocidad Fatalities

La variable dependiente Y = Fatalidad es igual a 1 si ocurri una fatalidad y 0 si no. Las

Variable Dependiente: una variable numrica que contiene la variable dependiente Y. Y

(Tamaos de Muestra): Si Y contiene un conjunto de proporciones, introduzca una columna

Factores Cuantitativos: columnas numricas que contienen valores de cualquier factor

Factores Categricos: Columnas numricas o no numricas que contienen los niveles de

Seleccionar: Subconjunto a seleccionar.

2006 by StatPoint, Inc. Regresin Logstica - 3

Alternativamente, el modelo puede escribirse de la forma

Donde el lado izquierdo de la ecuacin de arriba se conoce como la transformacin logit.

Resumen del Anlisis

Estimacin de Mxima Verosimilitud

Regresin Logstica - fallas/especimenes

Modelo Estimado de Regresin (Mxima Verosimilitud)

Pruebas de Razn de Verosimilitud

2006 by StatPoint, Inc. Regresin Logstica - 4

Razn de momios = exp j ( ) (3)

La razn de momios representa el incremento porcentual de las probabilidades de un

Anlisis de Desviacin: descomposicin de la desviacin de los datos en un componente

2. Residuo la desviacin restante despus que el modelo ha sido ajustado.

3. Modelo la reduccin en la desviacin debido a las variables predictoras,

El P-Valor del Modelo prueba si la adicin de las variables predictoras reduce

Porcentaje de Desviacin el porcentaje de desviacin explicado por el modelo, calculado

donde p es igual al nmero de coeficientes en el modelo ajustado, incluyendo el trmino

2006 by StatPoint, Inc. Regresin Logstica - 5

Anlisis de Residuos si un conjunto de filas en la hoja de datos ha sido excluido del

El modelo ajustado para los datos muestrales es

2006 by StatPoint, Inc. Regresin Logstica - 6

Regresin Logstica - fallas/especimenes

Modelo Estimado de Regresin (Mxima Verosimilitud)

Pruebas de Razn de Verosimilitud

Note el incremento en el porcentaje de desviacin explicado a ms del 98%. Adems, el P-valor

Regresin de Mnimos Cuadrados Ponderados

2006 by StatPoint, Inc. Regresin Logstica - 7

Regresin Logstica - fallas/especimenes

Modelo Estimado de Regresin (Mnimos Cuadrados Ponderados)

Suma de Cuadrados Tipo III

2006 by StatPoint, Inc. Regresin Logstica - 8

Proporcin Menor: Para datos Y que consistan en proporciones, la proporcin ms pequea

Ajustar: Especifica si todas las variables independientes especificadas en el cuadro de

P-para-Introducir En un ajuste paso a paso, las variables se introducirn al modelo en un

P-para-Eliminar - En un ajuste paso a paso, las variables se removern del modelo en un

2006 by StatPoint, Inc. Regresin Logstica - 9

Ejemplo: Ajuste paso a paso usando datos binarios

2006 by StatPoint, Inc. Regresin Logstica - 10

Regresin Logstica - Fatalidad

Modelo Estimado de Regresin (Mxima Verosimilitud)

Porcentaje de desviacin explicado por el modelo = 42.3793

Pruebas de Razn de Verosimilitud

2006 by StatPoint, Inc. Regresin Logstica - 11

Seleccin de factores por etapas

Modelo final seleccionado.

2006 by StatPoint, Inc. Regresin Logstica - 12

2006 by StatPoint, Inc. Regresin Logstica - 13

Grfica del Modelo Ajustado

Los lmites de confianza P(X) se incluyen en la grfica

2006 by StatPoint, Inc. Regresin Logstica - 14