Vous êtes sur la page 1sur 29

ESCUELA DE ESTADISTICA

MODELOS DE REGRESIN
APLICADOS

CAPITULO V REGRESIN
LOGSTICA Y REGRESIN DE
POISSON
Presentado por Gilbert Brenes Camacho
2014
Contenidos

Introduccin a Modelos Lineales


Generalizados
Modelo Lineal Binomial y Regresin
Logstica
Modelo de Poisson
OBJETIVO GENERAL

Comprender en qu casos se
prefiere utilizar un modelo logstico
o un modelo de Poisson
Analizar las medidas de Bondad de
Ajuste para Modelos Lineales
Generalizados (GLM)
INTRODUCCIN A MODELOS
LINEALES GENERALIZADOS
Modelo Lineal Generalizado

Familia de Modelos de Regresin Lineal, descritos


por Nelder & Wedderburn (1972), basados en
distribuciones de la familia exponencial y que
pueden ser estimados utilizando Estimacin por
Mxima Verosimilitud.

Suponga que x es una variable aleatoria con una


distribucin de probabilidad f(x;), donde es un
parmetro desconocido. Sea x1,x2,,xn una
muestra aleatoria de n observaciones. Entonces, la
funcin de verosimilitud de la muestra es:

L()= f(x1;)*f(x2;)*.*f(x;)
Estimacin por Mxima Verosimilitud

La estimacin por Mxima Verosimilitud busca


encontrar los estimadores ^ tales que L() sea
mximo.
Dado que para maximizar se requiere calcular
derivadas parciales con respecto de ^, se
encuentra ms fcil derivar con respecto del
logaritmo de L(), o sea, LL() la funcin de
log-verosimilitud

LL()= ln[f(x1;)] + ln[f(x2;)] +.+ ln[f(x;)]


Medidas de bondad de ajuste
El valor de LL().

El valor de la deviancia D.

Los residuos de deviancia

BIC

AIC

Seudo-R2
Deviancia D

Sea ^max el conjunto de estimaciones de en


el modelo saturado y ^o el conjunto de
estimaciones del modelo observado, entonces
la deviancia D es igual a:

D=-2*[ LL(^o )-LL(^max) ]


Tiene que ser cercano a 0 para que el ajuste sea
bueno, si se aleja mucho no tenemos criterio
para evaluar el desajuste, esta es una ventaja
del p-seudo R2, con n grandes este es pequeo.

El modelo saturado es aquel que tiene un


parmetro por cada observacin en la base de
datos.
Los residuos de deviancia di
Sea yi el valor de la variable dependiente en en
la observacin i, y ^yi el valor predicho del
modelo, el residuo de deviancia di es igual a:
conjunto de estimaciones del modelo
observado, entonces la deviancia D es igual a:

La suma de los di es igual a D. Los residuos de


deviancia tienen una distribucin
aproximadamente normal.
Sin embargo, son ms utilizados para analizar
la existencia de valores extremos
Se analiza los valores extremos como los res
estandarizados
AIC= Criterio de Informacin de Akaike

Sea ^o el conjunto de estimaciones del modelo


observado, entonces el AIC:
AIC=-2*LL(^o ) + 2p
donde p es el nmero de parmetros del
modelo observado

Se prefiere un modelo con menor AIC


EL AIC penaliza por la cantidad de variables
que se usen en el modelo.
Esto quiere decir que el AIC se incrementa
cuanto mayor cantidad de variables
independientes se usen.
BIC=Criterio de Informacin Bayesiano

Sea ^o el conjunto de estimaciones del modelo


observado, entonces el BIC:
BIC=-2*LL(^o ) + p*ln(n)
donde p es el nmero de parmetros del
modelo observado y n es el tamao de la
muestra

Tambin se prefiere un modelo con menor BIC


EL BIC penaliza por la cantidad de variables
que se usen en el modelo y por el tamao de
muestra.
El BIC penaliza mas que el AIC
Seudo R2
Sea ^o el conjunto de estimaciones del modelo
observado y ^nulo el conjunto de estimaciones
del modelo nulo, entonces el seudo R2 es:
Pseudo-R2 =[ LL(^nulo)-LL(^o ) ]/
LL(^nulo)

Trata de reproducir la idea del coeficiente de


determinacin.
En un modelo gaussiano, el seudo R2 es igual al
R 2.
Muy criticado porque no se puede interpretar
como un porcentaje de variabilidad explicada.
Si el P-R2=0.30 //La ll del modelo observado es un 30%
mayor que la del modelo nulo.
Componentes de los GLM
1. El componente sistemtico, que es expresado como una
relacin lineal.
k
El Parmetro =x, lo cual es equivalente a: 1 x1 2 x2 ... k xk
i 1

2. La funcin de enlace (link function) g()= , que especifica la


relacin entre el valor esperado y el vector de covariables x
Es una transformacin para la parte sistemtica(XB)

Por ejemplo, en la regresin lineal mltiple, la funcin de


enlace sencillamente es 1: E(Y|X)=1*

2. El componente aleatorio, que tambin se puede entender como


la especificacin de la distribucin condicional
y|x ~ f(y,),

donde f(.) es un miembro de la familia de distribuciones


exponencial, y es un parmetro adicional de la distribucin
Regresin logstica
En la regresin logstica:
La funcin de enlace es la funcin logito:


ln
1
N es la parte sistemtica, pi es la Propor
La funcin de distribucin de probabilidad es:
Es una Bernoulli
Pi es la probabilidad de xitos: es decir la media de una
variable binaria, proporcin de unos

f yi ; yi 1
1 yi

1
y
1

f yi ; g X ' 1 g X ' 1 y
i i

exp X ' exp X '


yi 1 yi

f yi ; 1 1 exp X '
1 exp X '
Funcin de ll para una observacin, para todos sera la multiplicatoria
Regresin de Poisson
En la regresin Poisson:
La funcin de enlace es la funcin ln:

ln
La funcin de distribucin de probabilidad es:

exp( ) * yi
f yi ;
yi !

f yi ;

exp g 1 X ' * g 1 X ' yi

yi !

exp exp X ' * exp X ' i


y
f yi ;
yi !
Regresin logstica
Regresin logstica

Es el modelo ms usado entre estadsticos y


bioestadsticos para analizar modelos cuya
variable dependiente es binaria.

Tambin existen otros modelos para variables


dependientes binarias:
Probit
Modelo con funcin de enlace log.
Se supone homocedasticidad en el modelo guas xq la variancia no
est en funcin de la media, en cambio en la regresin logstica y
poisson la variancia si depende de la media, por lo que no se
verifica la homocesdas
Sup: linealidad en la parte sistemtica, no colinealidad perfecta, no
autocorrelacin, buscamos un megfono en el grfico de predi
Caractersticas de la regresin logstica
El valor esperado E(Yi |Xi)=i es:

exp X i '
E (Yi | X i ) i
1 exp X i '

El coeficiente de regresin k exponenciado se interpreta como


un OR:
+ 1
1 + 1
OR = exp =

1
Diagnsticos para modelos de regresin logstica
Aparte de LL(), BIC y AIC, en la regresin
logstica se pueden usar los siguientes pruebas
de bondad de ajuste:

Prueba de deviancia

Prueba de Hosmer y Lemeshow

Tabla de clasificacin:
Si el objetivo del modelo es el predecir casos en una u
otra categora, o sea, clasificar.
Prueba de Deviancia

Suponga que las observaciones son


independientes y el tamao de muestra n es
grande, entonces:

El estadstico D (deviancia) tiene una


distribucin chi-cuadrado con n-p grados de
libertad.

La hiptesis nula es que el modelo se ajusta bien


a los datos.
Prueba de Hosmer y Lemeshow

En tamaos de muestra muy grandes con variables


independientes continuas, es relativamente frecuente rechazar la
hiptesis nula de la prueba de Deviancia.
Alternativa: Prueba de Hosmer y Lemeshow:
Estime un modelo y calcule los deciles a los valores predichos.
Con esos deciles, cree 10 categoras
Plantee una tabla de contingencia de las 10 categoras vs. la variable
dependiente.
Las frecuencias esperadas son equivalentes a la suma de los ^i para
las categoras de respuesta=1 y ni menos la suma de estos para la
categora 0.
Utilice el estadstico de prueba, que se distribuye como una chi-
cuadrado con k-categoras menos 2 grados de libertad:

( filas. x .col )
Oi E i 2
2
X HL i 1 Ei
Error estndar de los coeficientes
de una regresin logstica.

Defina como G la matriz de derivadas parciales de


segundo orden de la funcin de log-verosimilitud:
G = [gij]
pxp

Donde:

La matriz G es conocida como la matriz Hessiana.


Error estndar de los coeficientes
de una regresin logstica.

El error estndar de ^, s2(^) sera:

Esto implicara que para hacer una prueba de hiptesis


donde H0: k=M, se puede usar la siguiente frmula
estandarizada:

No se puede usar una t( porque esta surge del cociente de


una normal y una chi, aqu tenemos una Bernoulli)
Esta es la denominada prueba de Wald
Intervalos de confianza para los
coeficientes de regresin.

Siguiendo con la misma lgica de la prueba de Wald, un


intervalo de confianza para la estimacin ^k sera:

Sin embargo, dado que el coeficiente exponeciado es un


Odds Ratio, el Intervalo de Confianza para el Odds Ratio
sera:
Prueba de Razn de
Verosimilitudes LRT

La hiptesis nula H0: k=0 se puede evaluar con una prueba de


razn de verosimilitudes.
Supongamos que M1 es el modelo que incluye la variable Xk y
M2 es el modelo que no incluye la variable Xk.
Entonces, el estadstico:
X2LRT= -2* [ LL(M2) LL(M1) ] ~21gl

Esta prueba tambin se puede usar para contrastar hiptesis


nulas de varios coeficientes en forma simultnea.
Dado H0: q+1== p =0 , esto lo que implica es que M2 no
incluye las variables Xq+1== Xp y por lo tanto tiene q
parmetros y M1 tiene p parmetros.
Entonces, el estadstico:
X2LRT= -2* [ LL(M2) LL(M1) ] ~2p-q gl
La prueba de deviancia es un caso particular de esta
Intervalos de confianza para la
estimacin de la probabilidad

Un valor predicho por una regresin logstica sera:


exp X h '
1 exp X h '
1
( X h )
1 exp X h '

El cuadrado de su error estndar sera:


s 2 X h s 2 X h ' X h ' s 2 X h

Y el intervalo de confianza se hara nuevamente con una


normal.
Regresin de Poisson
Todas las formulas anteriores las puedo utilizar aqu
Regresin de Poisson

Sirve para modelar variables dependientes que son


conteos con distribuciones tpicamente asimtricas.

Su principal supuesto es que:


Supuesto de equidispersin.
E(Yi|Xi) = Var(Yi|Xi)

Los errores estndar de los coeficientes se obtienen


tambin del inverso de la matriz Hessiana . Por esta
razn, las frmulas para los intervalos de confianza
de un modelo Poisson son similares a las de la
regresin logstica.
FIN DE REGRESIN
LOGSTICA Y REGRESIN
DE POISSON