Académique Documents
Professionnel Documents
Culture Documents
4/d/yyyy
Regresin Logstica
Resumen
El procedimiento de Regresin Logstica est diseado para ajustarse a un modelo de regresin
en el que la variable dependiente Y caracteriza un evento con slo dos posibles resultados.
Pueden modelarse dos tipos de datos:
El modelo de regresin ajustado relaciona Y con una o ms variables predictoras X, las cuales
pueden ser cuantitativas o categricas. En este procedimiento, se asume que la probabilidad de
un evento est relacionada con los predictores a travs de una funcin logstica. El Anlisis
Probit puede usarse para ajustar el mismo tipo de datos, pero usa una forma funcional distinta.
Datos de Muestra:
Se considerarn dos ejemplos. El primero, de Myers (1990), est contenido en el archivo
fabric.sf3. Describe la falla de especimenes de una fbrica sujetos a diferentes cargas.
Para estos datos, la variable dependiente Y es la proporcin de especimenes que fallan en una
carga dada, calculada por Y = fallas / especimenes. Hay una solo variable predictora X = Carga.
Hay un total de n = 2,300 especimenes.
Datos de Entrada
El cuadro de dilogo de datos de entrada requiere informacin sobre las variables de entrada:
Para el archivo collisions.sf6, donde los datos son binarios, el cuadro de dilogo de datos de
entrada se muestra abajo:
Modelo Estadstico
El modelo logstico relaciona la probabilidad de ocurrencia P del resultado contado por Y con las
variables predictoras X. El modelo toma la forma
P( X )
log = exp( 0 + 1 X 1 + 2 X 2 + ... + k X k ) (2)
1 P ( X )
Anlisis de Residuos
Estimacin Validacin
n 5
CME 0.159284
MAE 0.0299959
MAPE 23.9252
ElMEresultado incluye:
-0.000979783
MPE -10.6729
Resumen de Datos: un resumen de los datos de entrada.
1. Total (corr.) la desviacin del modelo con slo un trmino constante, (0).
( 1 , 2 ,..., k | 0 )
R2 =
( 0 ) (4)
Es similar a un estadstico R-cuadrado en regresin mltiple, y cuyo rango puede estar desde
0% hasta 100%. Una desviacin ajustada tambin se calcula a partir de
( 1 , 2 ,..., k | 0 ) 2 p
2
Radj =
( 0 ) (5)
ei = y i P ( X i ) (6)
Estn incluidos el error cuadrtico medio (MSE), el error absoluto medio (MAE), el error
porcentual absoluto medio (MAOE), el error medio (ME) y el error porcentual medio (MPE).
Estos estadsticos de validacin pueden compararse con los estadsticos del modelo ajustado
para determinar que tan bien el modelo predice observaciones fuera de los datos usados para
ajustarlo.
1
P ( falla ) =
1 + exp[ (2.9949 + 0.0307699 Load)] (7)
La regresin explica cerca del 88.7% de la desviacin de un modelo sin Carga. El P-valor para
Carga es muy pequeo, que es un estadstico predictor significativo para la proporcin de Fallas.
La razn de momios es aproximadamente 1.03, indicando un incremento del 3% en las
probabilidades de falla para cada unidad de incremento en Carga.
Note que el P-valor de los Residuos tambin es significativo, indicando que una prdida-de-
ajuste significativa permanece sin ser explicada. Esto puede rectificarse regresando al cuadro de
dilogo de datos de entrada e introduciendo LOG(Carga) como variable predoctora en lugar de
Carga. El resultado es un modelo loglogstico , como se muestra abajo:
Para mayor explicacin de los estadsticos de regresin, vea la documentacin sobre Modelos
Lineales Generales.
Mtodo: mtodo usado para estimar los coeficientes del modelo. Para Y binarias, la nica
opcin es la Mxima Verosimilitud.
Modelo: orden del modelo a ajustarse. Los modelos de primer orden solamente incluyen
efectos principales. Los de segundo orden incluyen efectos cuadrticos para factores
cuantitativos e interacciones bifactoriales entre todas las variables.
Incluir Constante: Si esta opcin no est seleccionada, el trmino constante 0 ser omitido
en el modelo.
Pasos Mximos: nmero mximo de pasos permitidos al hacer un ajuste paso a paso.
D doble clic en un efecto para moverlo de la lista Incluir a la lista Excluir o viceversa.
Seleccin hacia delante Comienza con un modelo que involucra solo un trmino
constante e ingresa una variable a la vez basndose en su relevancia estadstica al
agregarse al modelo actual. A cada paso, el algoritmo aade al modelo la variable
que ser la ms relevante estadsticamente si se introduce. Mientras la variable ms
importante tenga un P-valor menor o igual al especificado en el cuadro de dilogo
Resumen del Anlisis, se aadir al modelo. Cuando ninguna variable tenga un P-
valor suficientemente pequeo, la seleccin de variables se detiene. Adems, las
variables agregadas al modelo al principio del procedimiento pueden removerse
despus si su P-valor cae debajo del criterio P-para-Eliminar.
Seleccin hacia atrs Comienza con un modelo que involucra todas las variables
especificadas en el cuadro de dilogo de datos de entrada y remueve una variable a la
vez basndose en su relevancia estadstica en el modelo actual. A cada paso, el
algoritmo remueve del modelo la variable menos relevante estadsticamente. Si la
variable menos importante tiene un P-valor mayor al especificado en el cuadro de
dilogo Resumen del Anlisis, se remover del modelo. Cuando todas las variables
restantes tengan P-valor pequeos, el procedimiento se detiene. Adems, las variables
removidas del modelo al principio del procedimiento pueden reingresarse despus si
su P-valor alcanza el criterio P-para-Introducir.
Anlisis de Desviacin
Fuente Desviacin Gl Valor-P
Modelo 33.3408 2 0.0000
Residuo 45.3315 55 0.8206
Total (corr.) 78.6723 57
Anlisis de Residuos
Estimacin Validacin
n 58
CME 0.0221508
MAE 0.340955
MAPE
ME 0.00127246
MPE
Paso 0:
3 factores en el modelo. 54 g.l. para el error.
Porcentaje de desviacin explicada = 44.10% Porcentaje ajustado = 33.93%
Paso 1:
Eliminando el factor Aceleracin con P-para-eliminar = 0.244299
2 factores en el modelo. 55 g.l. para el error.
Porcentaje de desviacin explicada = 42.38% Porcentaje ajustado = 34.75%
El algoritmo comienza con un modelo que contiene los tres predictores. Luego remueve
Aceleracin, ya que su P-valor es grande. El modelo final involucra solo Edad y Velocidad,
cuyos P-valores son mayores o iguales a 0.05.
0.8
Failures/Specimens
0.6
0.4
0.2
0
0 20 40 60 80 100
Load
Panel de Opciones
Nivel de Confianza: porcentaje usado para los lmites de confianza. Deje en 0 para suprimir
los lmites.
Siguiente y Atrs: usados para desplegar otros factores cuando hay ms de 16 presentes.
La probabilidad estimada de falla crece aproximadamente 5% en cargas bajas a casi 50% cuando
Carga = 100.
Grfica Logit
La Grfica Logit es similar a la Grfica del Modelo Ajustado, excepto que el eje vertical se
escala de tal modo que el modelo ajustado sea una lnea recta.
Logit(Failures/Specimens)
con intervalos de confianza del 95.0%
99.9
99.5
99
porcentaje acumulado
95
90
70
50
30
10
5
1
0.5
0.1
0 20 40 60 80 100
Load
Panel de Opciones
Las opciones son las mismas que en la Grfica del Modelo Ajustado.
Grfica de Failures/Specimens
0.5
0.4
observado
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5
predicho
Si el modelo ajusta bien, los puntos deben estar dispersos aleatoriamente alrededor de la lnea
diagonal.
Grfica de Failures/Specimens
0.5
0.4
observado
0.3
0.2
0.1
0
-3.9 -2.9 -1.9 -0.9 0.1
Log de momios predichos
Siguiente y Atrs: usados para desplegar otros factores cuando hay ms de 16 presentes.
P ( X )
log
1. Logit intervalo el rango de los logit valores 1 P ( X ) correspondientes a esa clase.
3. CIERTO Observado del nmero de muestras en ese intervalo, cuntas se observ que
fueron VERDAD (1).
4. CIERTO Esperado del nmero de muestras en ese intervalo, cuntas el modelo ajustado
predijo que seran VERDAD.
5. FALSO Observado del nmero de muestras en ese intervalo, cuntas se observ que
fueron FALSO (1).
2006 by StatPoint, Inc. Regresin Logstica - 19
STATGRAPHICS Rev. 4/d/yyyy
6. FALSO Esperado del nmero de muestras en ese intervalo, cuntas el modelo ajustado
predijo que seran FALSO.
Por ejemplo, un total de 600 muestras de la fbrica han predicho logit valores menores a
2.84105 (correspondiente a la fila 1 del archivo de datos). 13 fallas fueron observadas y se
predijo un valor de aproximadamente 33.
Para comparar los conteos observados con los esperados, se realiza una prubea ji-cuadrada de
bondad de ajuste. Un P-valor pequeo (menor a 0.05 operando a un nivel de significancia del
5%) lleva a la conclusin de que el modelo ajustado no encaja adecuadamente con los datos. En
el ejemplo, el P-valor es muy pequeo, indicando un pobre ajuste del modelo logstico.
Para propsitos de comparacin, note la prueba para el modelo loglogistico con X =
LOG(Carga):
Panel de Opciones
Nmero de Clases: mximo nmero de clases en los cuales agrupar los datos.
Predicciones
El modelo logstico ajustado puede usarse para predecir el resultado de nuevas muestras cuyas
variables predoctoras estn dadas. Por ejemplo, supongamos que se colecta una nueva muestra a
una Carga igual a 50. Si uno quisiera predecir si el tem va a fallar o no, el modelo ajustado
puede ser evaluado para la nueva muestra y una falla predicha si
P ( X new ) > c
para algn valor de corte c. El valor de c afectara la probabilidad de obtener un resultado falso
positivo o falso negativo.
La segunda tabla en el panel evala el modelo ajustado en filas seleccionadas en la hoja de datos.
Pueden hacerse predicciones para todas las filas que tengan infromacin completa en las X
variables o solo aquellas a las que les falten valores de Y. La ltima opcin es til para hacer
predicciones de los valores de X que no se usaron para ajustar el modelo.
Por ejemplo, se puede agregar una sexta fila a la hoja de datos con Carga = 50, dejando la
columna fallas en blanco.
Panel de Opciones
Mostrar: si despliega o no predicciones para Todos los Valores (filas) en la hoja de datos o
Slo Pronsticos (filas con un valor faltante para Y).
Capacidad de Prediccin
La grfica Capacidad de Prediccin despliega la misma informacin que la tabla Predicciones.
100
Total
80 Cierto
porcentaje correcto
Falso
60
40
20
0
0 0.2 0.4 0.6 0.8 1
punto de corte
Grafica los porcentajes de prediccin correctos como funcin del valor de corte c.
Histograma de Prediccin
El Histograma de Prediccin ilustra el nmero predicho de muestras totales que fallarn
(VERDAD) y que no fallarn (FALSO) con la probabilidad predicha P ( X ) .
800
500
Cierto
frecuencia
200
100
Falso
400
700
0 0.2 0.4 0.6 0.8 1
probabilidad predicha
Panel de Opciones
Nmero de Clases: el nmero total de clases en las que eje horizontal se dividir.
Mantener: selecciones para evitar cambios en la escala del histograma si los datos cambian.
Intervalos de Confianza
El panel Intervalos de Confianza muestra el error potencial de estimacin asociado a cada
coeficiente en el modelo, as como a las razones de momios.
Panel de Opciones
Matriz de Correlacin
La Matriz de Correlacin despliega estimaciones de la correlacin entre los coeficientes
estimados.
Esta tabla puede ser de ayuda al determinar qu tan bien se separaron entre s los efectos de
diferentes variables independientes.
Residuos Atpicos
Una vez que el modelo ha sido ajustado, es til estudiar los residuos para determinar si existe
algn outlier que deba removerse de los datos. El panel Residuos Atpicos enlista todas las
observaciones que tienen residuos inusualmente grandes.
La tabla despliega:
Y el valor observado de Y.
ei = Y P ( X ) (8)
ei
ri =
(
P ( X i ) 1 P ( X i ) ) (9)
ni
yi 1 y i
d i = sign(ei ) 2ni y i ln + ni (1 y i ) ln
(X ) 1 P ( X ) (10)
P i i
La tabla incluye todas las filas cuyos valores absolutos del residual de Pearson son mayores que
2.0. El ejemplo actual muestra dos residuos muy grandes.
Grficas de Residuos
Como en todos los modelos estadsticos, es buen ejercicio examinar los residuos. El
procedimiento de Regresin Logstica tiene varios tipos de grficas de residuos, dependiendo del
Panel de Opciones.
Grfica de Residuos
5.9
Residuos de desviacin
3.9
1.9
-0.1
-2.1
-4.1
0 0.1 0.2 0.3 0.4 0.5
predicho Failures/Specimens
99.9
99
95
porcentaje
80
50
20
5
1
0.1
-4.1 -2.1 -0.1 1.9 3.9 5.9
Residuos de desviacin
Si las desviaciones siguen una distribucin normal, deben caer aproximadamente sobre un lnea
recta.
Autocorrelaciones de Residuos
Esta grfica calcula la autocorrelacin entre residuos como funcin del nmero de filas entre
ellos en la hoja de datos.
0.6
autocorrelacin
0.2
-0.2
-0.6
-1
0 0.5 1 1.5 2 2.5 3
retraso
Esto solo importa si los datos se colectaron secuencialmente. Cualquier barra que se extienda
ms all de los lmites indicara dependencia significativa entre residuos separados por la
demora indicada.
Panel de Opciones
Tipo: el tipo de grfica a crearse. Se usa un Diagrama de Dispersin para probar curvatura;
una Grfica de Probabilidad Normal, para determinar si los residuos del modelo vienen de
una distribucin normal; y una Funcin de Autocorrelacin para probar dependencia entre
residuos consecutivos.
Graficar versus: para una Grfica de Dispersin, la cantidad a graficar el eje horizontal.
Nivel de Confianza: Para una Funcin de Autocorrelacin , el nivel usado para crear los
lmites de probabilidad.
Guardar Resultados
Los siguientes resultados pueden guardarse en la hoja de datos:
Funcin de Verosimilitud
P( X )
Yi
i
Para Y binaria: L =
i =1
n (12)
[1 + P( X i )]
i =1
1
wi =
y i (1 y i ) (13)
Desviacin
Para Y consistente en proporciones: ( ) = 2 ln s
L ()
ri ni ri (14)
ri ni ri
i =1 ni ni
Para Y binaria: ( ) = 2 ln
L ()
(15)
(1 y i )
s
( y i ) (1 y i )
yi
i =1