Regresión Logística

REGRESIN BINOMIAL
Edwin Estiven Pulgarin Rodriguez

Jhon Wilmar Vargas Mendez
Modelos Lineales II
02 de Junio de 2016
Edwin Pulgarin -Jhon Vargas
Regresin Binomial
Modelos Lineales II
1 / 35
Contenido
1
Introduccin
Regresion Binomial
Ejercicio de Aplicacin
Conclusin
Referencias Bibliogrficas
Regresin Binomial
Modelos Lineales II
2 / 35
Introduccin
cuando no se satisfacen las hiptesis .acostumbradas"de
normalidad y de varianza constante. Se puede utilizar un metodo
alternativo para transformar datos denominado modelo lineal
generalizado(GLM).
En un modelo lineal generalizado la distribucin de la variable
de respuesta slo necesita ser un miembro de la familia
exponencial.
P[Y = y | ] = y (1 )1y
(1)
ln(P[Y = y | ]) = yln() + (1 y )ln(1 )
(2)
P[Y = y | ] = exp(yln() + ln(1 ) yln(1 ))
(3)
Regresin Binomial
Modelos Lineales II
3 / 35
Introduccin
Se considerar el caso de los modelos de regresin logstica, que
es una situacin en la que la variable de respuesta slo tiene dos
resultados posibles, que se representan por 0 y 1.
Por ejemplo, la respuesta podra ser el resultado de una prueba
de funcionamiento elctrico para un dispositivo semiconductor,
que da como resultado un "xito", que indica que el dispositivo
trabaja bien, o un "fracaso"que podra deberse a un problema de
funcionamiento.
Supngase que el modelo tiene la forma:
yi = xiT + i
(4)
en donde xiT = [1 ,Xi1 ,Xi2 , ...,Xik ], =[0 ,1 ,...,k ] y la variable de

respuesta yi toma los valores 0 o 1.
Regresin Binomial
Modelos Lineales II
4 / 35
Regresin Binomial
Se supondr que la variable de respuesta yi es una variable aleatoria

de Bernoulli, cuya distribucin de probabilidad es la siguiente:
yi
1
0
Probabilidad
P(yi =1)=i
P(yi =0)=1-i
Ahora bien, como E(i )=0,el valor esperado de la variable de respuesta

es:
E(yi ) = 1(i ) + 0(1 i ) = i
(5)
Esto implica que:
E(yi ) = xiT = i
Regresin Binomial
(6)
Modelos Lineales II
5 / 35
Regresin Binomial
Que quiere decir que la respuesta esperada, determinada con la
funcin de respuesta E(yi ) = xiT no es ms que la probabilidad de
que la variable de respuesta tenga el valor de 1.
Hay algunos problemas derivados de el modelo de regresin dado
anteriormente.
El primero es que se observa que si la respuesta es binaria, entonces
los trminos de error . i slo pueden tener dos valores, que son:
i = 1 xiT
i = xiT
cuando yi = 1
(7)
cuando yi = 1
(8)
En consecuencia, no es posible que los errores en este modelo sean

normales.
Regresin Binomial
Modelos Lineales II
6 / 35
Regresin Binomial
En segundo lugar, la varianza del ,error no es constante, ya que:
yi2 = Eyi E(yi )2
(9)
= (1 i )2 i + (O i )2 (1 i )
(10)
= i (1 i )
(11)
Obsrvese que esta ltima expresin equivale a:

yi2 = E(yi )(1 E(yi ))
(12)
porque E(yi )=xiT =i lo que indica que la varianza de las observaciones

(que es igual a la varianza de los errores, porque i =yi -i y i es
constante) es una funcin de la media.
Regresin Binomial
Modelos Lineales II
7 / 35
Regresin Binomial
Por ltimo, hay una restriccin para la funcin de respuesta, ya que:

0 E(yi ) = i 1
(13)
Esta restriccin puede causar graves problemas en la eleccin de una

funcin de respuesta lineal, como se ha supuesto al principio.
Sera posible ajustar un modelo con los datos para los cuales los
valores predichos de la respuesta salen del intervalo 0, 1.
En general, cuando la variable de respuesta es binaria, hay bastantes
pruebas empricas que indican que la forma de la funcin de
respuesta debe ser no lineal. Una funcin montonamente creciente
(o decreciente), en forma de S (o de S invertida).
Regresin Binomial
Modelos Lineales II
8 / 35
Regresin Binomial
Esta funcin se llama funcin de respuesta logstica y tiene la forma:
E(y ) =
exp(x T )
1 + exp(x T )
(14)
Figura 1: Distribucin aposteriori para theta

Regresin Binomial
Modelos Lineales II
9 / 35
Regresin Binomial
La funcin de respuesta logstica se puede linealizar con facilidad.
Un enfoque consiste en definir la porcin estructural del modelo en
trminos de una funcin de la media de la funcin de respuesta. Sea:
= xT
(15)
el predictor lineal, estando definida por la transformacin:

= ln
1
(16)
A esta transformacin se le llama con frecuencia transformacin logit

de la probabilidad , y la relacin /(1-) en la transformacin se
llama ventaja; a veces, a la transformacin logit se le llama ventaja
logartmica.
Regresin Binomial
Modelos Lineales II
10 / 35
Regresin Binomial
Hay otras funciones que tienen la misma forma que la funcin logstica,
y tambin se pueden obtener transformando .
Transformacin probit, obtenida transformando a con la
distribucin normal acumulada. De esta manera se obtiene un
modelo de regresin probit, este modelo es menos flexible que el
de regresin logstica, y es probable que no se use tanto, porque
no puede incorporar con facilidad ms de una variable predictora.
Transformacin log-Iog complementaria de , definida por In
[-ln(1-)], que produce una funcin de respuesta que no es
simtrica respecto al valor = 0.5.
Regresin Binomial
Modelos Lineales II
11 / 35
Regresin Binomial: Estimacin de parmetros en un

modelo de regresin logstica
Para la estimacin de los coeficientes del modelo y de sus

errores estndar se recurre al clculo de estimaciones de mxima
verosimilitud, es decir, estimaciones que hagan mxima la probabilidad
de obtener los valores de la variable dependiente Y proporcionados
por los datos de nuestra muestra. Estas estimaciones no son de
clculo directo, como ocurre en el caso de las estimaciones de los
coeficientes de regresin de la regresin lineal mltiple por el mtodo
de los mnimos cuadrados. Para el clculo de estimaciones mximo
verosmiles se recurre a mtodos iterativos, como el mtodo de Newton
Raphson.
Regresin Binomial
Modelos Lineales II
12 / 35

La forma general del modelo de regresin logstica es:
yi = E(yi ) + i
(17)
donde las observaciones Yi son variables aleatorias independientes de

Bernoulli, cuyos valores esperados son:
E(yi ) = i
=
exp(x T )
1 + exp(x T )
Se usar el mtodo de mxima verosimilitud para estimar los

parmetros del predictor lineal (x T )
Regresin Binomial
Modelos Lineales II
13 / 35

Cada observacin de la muestra sigue la distribucin de Bernoulli, por
lo que la distribucin de probabilidades de cada observacin es:
fi (yi ) = iyi (1 i )1yi ; i = 1, 2, ..., n
y naturalmente, cada observacin Yi toma el valor 0 o 1. Como las
observaciones son independientes,la funcin verosimilitud no es ms
que:
n
Y
L(y1 , y2 , ..., yn , ) =
fi (yi )
i=1
n
Y
iyi (1 i )1yi
i=1
Regresin Binomial
Modelos Lineales II
14 / 35

Es ms cmod trabajar con el logaritmo de la verosimilitud:

lnL(y1 , y2 , ..., yn , ) = ln
n
Y
fi (yi )
i=1
n
X
i=1
X
i
[yi ln(
)] +
ln(1 i )
1 i
i=1
Ahora bien, como 1 i = [1 +
exp((x T )]1
Regresin Binomial
y i =ln[i /(1 i )]= xiT
Modelos Lineales II
15 / 35

el logaritmo de verosimilitud se puede expresar como:
lnL(y , ) =
n
X
yi xiT
i=1
n
X
ln[1 + exp((x T )]
i=1
Con frecuencia, en los modelos de regresin logstica se tienen

observaciones o intentos repetidos en cada nivel de las variables x, sea
yi la cantidad de 1 observado en i y ni la cantidad de intentos en cada
observacin, entonces, el logaritmo de la verosimilitud se transforma
en:
n
n
n
X
X
X
lnL(y , ) =
yi i +
ni ln(1 i )
yi ln(1 i )
i=1
i=1
Regresin Binomial
i=1
Modelos Lineales II
16 / 35

Los estimados de mxima verosimilitud (MLE, de maximum likelihood
estimator o estimate) se pueden calcular con un algoritmo de
mnimos cuadrados iterativamente reponderados (IRLS, de iteratively
reweighted least squares). recurde que los estimados MLE son las
soluciones de:
L
=0
L i
=0
i
Ntese que:
n
L X
=
(yi ni i )xi
i=1
Regresin Binomial
Modelos Lineales II
17 / 35

Por consiguiente, el estimador de mxima verosimilitud resuelve la
ecuacin:
X T [(y )] = 0
donde y=[y1 , y2 , ..., yn ] y =[n1 1 , n2 2 , ..., nn n ]Este conjunto de
ecuaciones se llama con frecuencia ecuaciones de puntuacin de
mxima verosimilitud. Son en realidad de la misma forma de las
ecuaciones normales que se vieron antes para los mnimos cuadrados
lineales, porque en el modelo de regresin lineal,E(y ) = X =
se pueden escribir como sigue:
X T (y X ) = 0
X T (y ) = 0
el mtodo de Newton-Rapbson es el que se usa para resolver las
ecuaciones de puntuacin para el modelo de regresin logstica.
Regresin Binomial
Modelos Lineales II
18 / 35
Regresin Binomial: Mtodo de Newton-Raphson

se observa que en la proximidad de la solucin se puede usar
un desarrollo en serie de Taylor de primer orden para formar la
aproximacin.
i
pi i
( )
donde
pi =
yi
ni
y es el valor de que resuelve las ecuaciones de puntuacin. Ahora

bien,i = xi
exp(i )
i =
1 + exp(i )
Regresin Binomial
Modelos Lineales II
19 / 35

Por lo anterior
pi i
i
( i )
i i
siendo i el valor de i evaluado en Ahora bien, la varianza del

predictor lineal i = xiT es, con una primera aproximacin,
var (i )
1
ni i (1 i )
se pueden expresar las ecuaciones de puntuacin en la forma

n
X
i=1
1
var (i )
(i i ) = 0
en notacin matricial, X T V 1 (i i ) = 0
Regresin Binomial
Modelos Lineales II
20 / 35

siendo V una matriz diagonal de los factores de ponderacin obtenidos
con las varianzas de las i . como i = X las ecuaciones de puntuacin
se pueden escribir como sigue:
X T V 1 ( X ) = 0
y el estimado de mxima verosimilitud de es:
= (X T V 1 X )1 X T V 1
Sin embargo, se presenta el problema que no se conoce
p i i
i
( i )
i i
Regresin Binomial
Modelos Lineales II
21 / 35
se puede despejar i
i i + (pi )
Sean zi = i y z=[z1 , z2 , ..., zn ] Entonces, el estimado de Newton

Raphson de es:
= (X T V 1 X )1 X T V 1 z
Entonces, V es la matriz diagonal de los factores de ponderacin
obtenidos con las varianzas de la parte aleatoria de z.
Regresin Binomial
Modelos Lineales II
22 / 35
Por consiguiente, el algoritmo basado en

Newton-Raphson se puede describir como sigue:
1
mtodo
de
Usar mnimos cuadrados ordinarios para obtener un estimado

inicial de por ejemplo 0 .
usar 0 para estimar V y .
Definir 0 = X 0 .
Basar z1 en 0 .
el
Obtener un nuevo estimado de 1 e iterar, hasta que se satisfaga

un criterio adecuado de convergecnia.
Regresin Binomial
Modelos Lineales II
23 / 35
Regresin Binomial: Interpretacin de los parmetros

en un modelo de regresin logstica
Es relativamente fcil interpretar los parmetros de un modelo de
regresin logstica. Se examinar el caso en el que el predictor lineal
slo tiene un regresar, por lo que el valor ajustado del modelo en
determinado valor de x, por ejemplo xi
(xi ) = 0 + 1 x1
El valor ajustado en xi + 1es
(xi + 1) = 0 + 1 (x1 + 1)
(xi + 1) (xi ) = 1
Regresin Binomial
Modelos Lineales II
24 / 35

Ahora,
(xi ) slo es el logaritmo de la ventaja cuando la variable
regresora es igual a xi y (xi + 1) es el logaritmo de la ventaja cuando
el regresor es igual a xi + 1 por consiguiente la diferencia entre los dos
valores ajustados es
(xi + 1) (xi ) = ln(ventajaxi +1 ) ln(ventajaxi )

ventajaxi+1
= ln
= 1
ventajaxi
Si se sacan antilogaritmos se obtiene el cociente de ventaja
ventajaxi+1
OR =
= exp(1 )
ventajaxi
Regresin Binomial
Modelos Lineales II
25 / 35

Se puede interpretar el cociente de ventaja como el aumento estimado

en la probabilidad de xito asociado con un cambio unitario en el valor
de la variable predictora, en general, el aumento estimado del cociente
de ventaja, asociado con un cambio de d unidades en la variable
predictora, es exp(d ).
Regresin Binomial
Modelos Lineales II
26 / 35

Se pueden presentar tres posibles situaciones o casos:
1
La razn de la ventaja es = 1 (el valor del parmetro = 0). En este

caso la variable independiente no produce ningn efecto sobre la
ventaja de un suceso.
La razn de la ventaja es > 1 (el valor del parmetro > 0). En este
caso cuando aumenta la variable independiente se producen un
aumento de la ventaja de un suceso.
La razn de la ventaja es < 1 (el valor del parmetro < 0). En este
caso cuando aumenta la variable independiente se producen una
disminucin de la ventaja de un suceso.
Regresin Binomial
Modelos Lineales II
27 / 35
Un artculo de la revista Biomtrica en 1959 present datos acerca
de los mineros de carbn que presentan sntomas de neumoconiosis
grave, y de la cantidad de aos de exposicin. La variable de respuesta
de inters, y, es la proporcin de mineros que tienen sntomas graves.
Un modelo razonable de probabilidad de la cantidad de casos graves
es el binomial, por lo que se ajustar un modelo de regresin logstica
a esos datos.
Aos exp
5.8
15
21.5
27.5
33.5
39.5
46
51.5
Casos
0
1
3
8
9
8
10
5
Num mineros
98
54
43
48
51
38
28
11
Regresin Binomial
Proporcin(y)
0
0.0185
0.0698
0.1667
0.1765
0.2105
0.3571
0.4545
Modelos Lineales II
28 / 35
proporcin de casos en funcin de la cantidad de

aos de exposicin
Regresin Binomial
Modelos Lineales II
29 / 35
se muestran los parmetros estimados para el modelo de regresin
logstica por el paquete estadistico R:
Regresin Binomial
Modelos Lineales II
30 / 35
El modelo ajustado de regresin logstica es:

y =
1
1+
e4.7665+0.0935x
donde x es la cantidad de aos de exposicin. el siguiente grafico

presenta una grfica de los valores ajustados de este modelo,
sobrepuesta al diagrama de dispersin de los datos muestrales. Parece
que el modelo de regresin logstica proporciona un ajuste razonable a
esos datos.
Regresin Binomial
Modelos Lineales II
31 / 35
Regresin Binomial
Modelos Lineales II
32 / 35
se ajust el modelo de regresin logstica, como el predictor lineal slo

contiene una variable regresora, 1 = 0.0935 entonces:
OR = exp0.0935 = 1.10
Esto implica que cada ao adicional de exposicin aumenta 10contraer
una neumoconiosis grave; si el tiempo de exposicin aumenta 10 aos,
la relacin de ventaja se transforma en exp(d )=exp(10(0.0935))=2.25.

Eso indica que las probabilidades ms se duplican con una exposicin
de 10 aos.
Regresin Binomial
Modelos Lineales II
33 / 35
Conclusin
El Modelo Lineal de Probabilidad consiste simplemente en

considerar un modelo de regresin lineal en el que la variable
dependiente es binaria.
Los errores de este modelo no son normales y la varianza del
error no es constante.
los odd ratio es el numero de veces que es mas probable que
ocurra el fenmeno o suceso frente a que no ocurra .
el objetivo primordial que resuelve esta tcnica es el de cuantificar
cmo influye en la probabilidad de aparicin de un suceso,
habitualmente dicotmico, la presencia o no de diversos factores
y el valor o nivel de los mismos.
Regresin Binomial
Modelos Lineales II
34 / 35
Referencias Bibliogrficas
M ONTGOMERI , PECK , VINING ., Introduccin al analisis de regresion

lineal. , Mexico, 206.
,.
ALDRICH, John H. y NELSON Forrest D. Linear probability, logit,
and probitmodels,University of California,Lecture Notes for
Statistics. Sage publications, 1984. Berkeley, CA. 1984.
Importance Sampling: A Review, Department of Statistics,
Carnegie Mellon University. Surya T, Robert Kass Pittsburgh ,USA.
Regresin Binomial
Modelos Lineales II
35 / 35

Regresión Logística

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regresión Logística

Transféré par

Droits d'auteur :

Formats disponibles

REGRESIN BINOMIAL

Edwin Estiven Pulgarin Rodriguez

Edwin Pulgarin -Jhon Vargas

Edwin Pulgarin -Jhon Vargas

P[Y = y | ] = exp(yln() + ln(1 ) yln(1 ))

Edwin Pulgarin -Jhon Vargas

en donde xiT = [1 ,Xi1 ,Xi2 , ...,Xik ], =[0 ,1 ,...,k ] y la variable de

Se supondr que la variable de respuesta yi es una variable aleatoria

Ahora bien, como E(i )=0,el valor esperado de la variable de respuesta

Edwin Pulgarin -Jhon Vargas

En consecuencia, no es posible que los errores en este modelo sean

Edwin Pulgarin -Jhon Vargas

Obsrvese que esta ltima expresin equivale a:

porque E(yi )=xiT =i lo que indica que la varianza de las observaciones

Edwin Pulgarin -Jhon Vargas

Por ltimo, hay una restriccin para la funcin de respuesta, ya que:

Esta restriccin puede causar graves problemas en la eleccin de una

Edwin Pulgarin -Jhon Vargas

Figura 1: Distribucin aposteriori para theta

el predictor lineal, estando definida por la transformacin:

A esta transformacin se le llama con frecuencia transformacin logit

Edwin Pulgarin -Jhon Vargas

Edwin Pulgarin -Jhon Vargas

Regresin Binomial: Estimacin de parmetros en un

Para la estimacin de los coeficientes del modelo y de sus

Edwin Pulgarin -Jhon Vargas

Regresin Binomial: Estimacin de parmetros en un

donde las observaciones Yi son variables aleatorias independientes de

Se usar el mtodo de mxima verosimilitud para estimar los

Regresin Binomial: Estimacin de parmetros en un

Edwin Pulgarin -Jhon Vargas

Regresin Binomial: Estimacin de parmetros en un

Es ms cmod trabajar con el logaritmo de la verosimilitud:

Ahora bien, como 1 i = [1 +

Edwin Pulgarin -Jhon Vargas

y i =ln[i /(1 i )]= xiT

Regresin Binomial: Estimacin de parmetros en un

Con frecuencia, en los modelos de regresin logstica se tienen

Edwin Pulgarin -Jhon Vargas

Regresin Binomial: Estimacin de parmetros en un

Edwin Pulgarin -Jhon Vargas

Regresin Binomial: Estimacin de parmetros en un

Regresin Binomial: Mtodo de Newton-Raphson

y es el valor de que resuelve las ecuaciones de puntuacin. Ahora

Edwin Pulgarin -Jhon Vargas

Regresin Binomial: Mtodo de Newton-Raphson

siendo i el valor de i evaluado en Ahora bien, la varianza del

se pueden expresar las ecuaciones de puntuacin en la forma

Regresin Binomial: Mtodo de Newton-Raphson

Edwin Pulgarin -Jhon Vargas

Regresin Binomial: Mtodo de Newton-Raphson

Sean zi = i y z=[z1 , z2 , ..., zn ] Entonces, el estimado de Newton

Edwin Pulgarin -Jhon Vargas

Regresin Binomial: Mtodo de Newton-Raphson

Por consiguiente, el algoritmo basado en

Usar mnimos cuadrados ordinarios para obtener un estimado

Obtener un nuevo estimado de 1 e iterar, hasta que se satisfaga

Edwin Pulgarin -Jhon Vargas

Regresin Binomial: Interpretacin de los parmetros

Edwin Pulgarin -Jhon Vargas

Regresin Binomial: Interpretacin de los parmetros

Edwin Pulgarin -Jhon Vargas

Regresin Binomial: Interpretacin de los parmetros