Vous êtes sur la page 1sur 29

Regresión

Logística Binaria
Alimar Benitez M.
UIS-Especialización en Estadística
Métodos Multivariantes
Regresión logística Binaria
Problema
•Hasta el momento se han trabajado técnicas de
interdependencia
•Además en e caso de independencia sólo se han
considerado variables dependientes cuantitativas.

•La regresión logística aborda el pronóstico de una


variable independiente con opciones de respuesta
categóricas

•Multinomial
•Binaria •Multinomial con orden
“Si/no” “maestra, “bajo, medio alto”
cantante,
estudiante”
Regresión logística
•Mantiene cierta analogía con el análisis de
regresión múltiple excepto que la variable
dependiente es dicotómica.

Las variables independientes: no presentan


restricciones distribucionales, pueden ser con escala
numérica o categórica.
Regresión logística
•El objetivo de esta técnica es estimar la
probabilidad de pertenencia a un grupo o categoría
de la variable dependiente.

•Ejemplo: un persona sufre un evento


traumático(catástrofe natura, robo, asalto, accidente)
y posteriormente al evento puede ser diagnosticada
con presencia o ausencia de Estrés Postraumático.

•La regresión logística binaria permite identificar


bajo que condiciones, el sujeto que sea expuesto a
este tipo de eventos, es más propenso a desarrollar
Estrés Postraumático.
Regresión logística binaria
Sea Y una variable aleatoria binaria que toma los
valores 0 ó 1, el modelo para el logaritmo de la
ventaja de respuesta Y=1 en cada valor
observado de X
p x
•Ln =∝ +βX
1−p x

• Se puede expresar también en términos de


probabilidades de respuesta 1 en x:
e∝+βx
•p x =
1+eα+βx
• Siendo p(x) una curva de respuesta estrictamente
creciente si β> 0 y estrictamente decreciente para β< 0.
Regresión logística
 La ecuación anterior ajusta el Ln neperiano de las odds como
una función lineal de las variables independientes y es
equivalente a una ecuación de regresión múltiple con el Ln de
las odds como variable dependiente.

 El ln de las odds se conoce como logit. De ahí viene el nombre


de regresión logística múltiple.
•http://www.seh-lelha.org/rlogis1.htm
Interpretación de lo parámetros
𝑒∝
•Si β= 0 entonces 𝑝 𝑥 = ,lo que indica
1+𝑒 𝛼
que la variable X no aporta información en la
explicación de Y.

•α es el valor común del logaritmo de las ventajas de


respuesta Y = 1 frente a respuesta Y = 0 cuando β = 0,
es decir cuando la respuesta es independiente de la
variable explicativa.

•La exponencial del parámetro β es el cociente


de ventajas de respuesta 1 para dos valores de X
que se diferencien en una unidad
Interpretación de lo parámetros
•La fórmula general del modelo logit simple
implica que por cada unidad de incremento en
X, el logit de respuesta 1 aumenta
aditivamente en β unidades

•𝐸𝑥𝑝(𝛽) = 1 si y solo si 𝑝 𝑥1 = 𝑝 𝑥2

•𝑬𝒙𝒑(𝜷) > 1 si y solo si 𝑝 𝑥1 > 𝑝 𝑥2 . Aquí la ventaja de


respuesta 1 será 𝑒 𝛽(𝑥1−𝑥2) veces mayor para 𝑋 = 𝑥1 que para
𝑋 = 𝑥2 .
Interpretación de lo parámetros
•𝑬𝒙𝒑(𝜷) < 1 si y solo si 𝑝 𝑥1 < 𝑝 𝑥2 . Aquí la
ventaja de respuesta 1 es 1/𝑒 𝛽 veces mayor para
𝑋 = 𝑥2 que para 𝑋 = 𝑥1 .

•Ejemplo
 p ( x) 
Ln   2.023  0.714 * sexo( F )  0.695 * ansiedad  0.703 * fobia
1  p( x) 

•EXP(-2,023)=0.132,. Esto indica que cuando no se tiene


ansiedad ni fobia y se es del sexo masculino, la probabilidad a
favor de no padecer PTSD es (1/0.132)=7.57 veces mayor a
padecer estrés
•Ejemplo: Interpretación de los resultados

 p ( x) 
Ln   2.023  0.714 * sexo( F )  0.695 * ansiedad  0.703 * fobia
1  p( x) 
Contrastes de Hipótesis sobre los coeficientes
•Contrastar la hipótesis nula de que un coeficiente de
regresión es cero

𝐻𝑜 : 𝛽 = 0 𝑉𝑠. 𝐻1 : 𝛽 ≠ 0
Este se basa en el estadístico W de Wald, 𝑊 =
2
𝛽𝑖
el cual se distribuye Ji-cuadrado
𝑆𝐸(𝛽𝑖 )

•Contrastar la significación global de los coeficientes de


regresión o Bondad de ajuste
•𝐻𝑜 : 𝛽0 = 𝛽1 = ⋯ = 𝛽𝑅 = 0 Vs. 𝐻1 : 𝛽𝑖 ≠ 0 𝑝𝑎𝑟𝑎 𝑎𝑙𝑔𝑢𝑛 𝑖
test G o prueba de razón de verosimilitud
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠ó𝑙𝑜 𝑐𝑜𝑛 𝑙𝑎 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒
𝐺 = −2𝑙𝑛
𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑑𝑜
G sigue una distribución ji-cuadrado
•Supuestos del modelo:

•Se espera que el tamaño de muestra sea


suficiente para que la tabla de contingencia
generada por el modelo de forma interna, tenga
menos del 20% de sus casillas con frecuencia
esperada inferior a 5.

Disponer de al menos 10 * (k + 1) casos para


estimar un modelo con k variables independientes;
es decir, al menos 10 casos por cada variable que
interviene en el modelo, considerando también la
variable dependiente (la probabilidad del suceso).

•Se aconseja evitar la colinealidad para garantizar la


parsimonia del modelo y mejorar el poder de predicción
•Ejemplo:

•Nota: el 14,3% de las casillas tienen frecuencia esperada inferior a 5.


•Ejemplo:

•En un grupo de 289 sujetos afectados por la


vaguada en el Valle del Mocotíes del Estado Mérida
(2005), se estudió la presencia del Síndrome de
Estrés Post-Traumático (PTSD por sus siglas en
inglés) y su relación con el género, ansiedad,
depresión y fobia de persona expuesta al
fenómeno natural.
•Para medir los niveles de intensidad de los
síntomas depresión, ansiedad, fobia se usaron las
escalas de Trauma de Davidson DTS y componentes
de la escala SCL-90 de Leonard Derogatis.
•Ejemplo:

•Entre las personas afectadas se encontraban 83


(28.72%) hombre y 206 (71.28%) mujeres con
edades promedio de 26 años (±10.864) y 23 años
(±6.096) respectivamente. El porcentaje de
personas con el trastorno de PTSD clínico es de
27.3, contra un 72.7 que no presentan estrés
clínico.
Ejemplo: Medidas de adecuación del modelo y
pruebas de hipótesis

•Para establecer la bondad de ajuste (adecuación) del


modelo se verifican los contrastes de Chi-cuadrado de
Pearson, Test de Chi-cuadrado de razón de verosimilitud,
test de Hosmer y Lemeshow y algunas medias globales del
ajuste del modelo (Tasa de clasificación correcta). La
aplicación de una u otra depende del tipo de modelo que
se esté estudiando, en este caso se verifica el modelo a
través del Test de Hosmer y Lemeshow, el cual se aplica
cuando el 80% de las frecuencias esperadas bajo el modelo
son mayores a 5 y todas mayores a 1, lo cual es frecuente
cuando se introducen variables cuantitativas, las cuales
son clasificadas según los deciles en 10 grupos.
Ejemplo: Medidas de adecuación del modelo y
pruebas de hipótesis

•Según el test de Hosmer y Lemeshow el modelo se ajusta


satisfactoriamente χ2(g.l=8)=9.388; p=0.311, ya que no hay
evidencia suficiente para rechazar el modelo planteado con
un nivel de significación de 0.05

•Nota: la prueba chi-cuadrado de ajuste global se usa


cuando las variables independientes son dotas de tipo
cualitativas. El estadístico Hosmer y Lemeshow se usa
cuando las variables independientes incluyen cuantitativas.
•Ejemplo:
•Tabla 1: Estimación de los parámetros introducidos en el modelo
de regresión logística.
Variables en la IC del 95% para Exp(B)
B Wald Exp(B)
ecuación Límite Inferior Límite Superior

Sexo (F) -0,714 4,826 0,49 0,259 0,926

Ansiedad 0,695 7,084 2,003 1,201 3,341

Fobia 0,703 6,689 2,020 1,186 3,44

Constante -2,023 37,949 0,123 0,07 0,25

•Al revisar la prueba de Wald para determinar la significación de los


parámetros del modelo al nivel 0.05, se observa que deberían ser
eliminadas los parámetros estimados que tengan valores Wald  1.96
•Tal como se aprecia en el cuadro 1, ninguno de los parámetros debe
ser eliminado, ya que todos tienen un Coeficiente de ventajas distinto
de 1, incrementando o disminuyendo el riesgo de presentar PTSD
clínico, según sea el signo de B.
•Medidas de bondad de ajuste
•Ecuación para estimar la probabilidad:
•Otra medida e
bondad de ajuste
global y de
validación cruzada

•Las áreas de la
curva COR mas
cercanas a cero
mejor
Bondad de ajuste

 BONDAD DEL AJUSTE R2 de COX Y SNELL


Se utiliza –2 logaritmo del valor de Similar al R2 de la regresión
verosimilitud y se representa por –
2LL. lineal.

Un modelo con un buen ajuste tendrá


un valor pequeño para –2LL.

El contraste Chi cuadrado para la


reducción en el logaritmo del valor R2 de NAGELKERKE
de verosimilitud proporciona una
medida de mejora debida a la Corrección del anterior.
introducción de variables
independientes.
Análisis discriminante

 se utiliza para clasificar a distintos individuos en grupos,


o poblaciones

•Las varíales predictores se denominas


clasificadoras, criterio o predictoras.

•En la clasificación discriminante hay dos enfoques:


Basado en la obtención de funciones discriminantes de
cálculo, similar a las ecuaciones de regresión lineal
múltiple. Empleando técnicas de correlación
canónica y de componentes principales, denominado
análisis discriminante canónico.
Análisis discriminante

•El primer enfoque es el más común y su


fundamento matemático está en conseguir,
a partir de las variables explicativas, unas
funciones lineales de éstas con capacidad
para clasificar otros individuos. A cada
nuevo caso se aplican dichas ecuaciones, y
la función de mayor valor define el grupo
a que pertenece

Supuestos: normal multivariante y las


matrices de covarianzas deben de ser
iguales en todos los grupo
Análisis de correlación canónica

•El análisis de correlación Canónica es


un modelo estadístico multivariante que
facilita el estudio de las
interrelaciones entre múltiples variables
dependientes y
múltiples variables independientes
Correlación canónica
 Correlación Canónica
predice
simultáneamente
múltiples variables
dependientes a partir
de múltiples variables Objetivo:
independientes.
cuantificar la validez de la
relación, en este caso entre
los dos conjuntos de
variables: dependientes e
Independientes
Correlación canónica

 Supuestos:
 Linealidad de correlaciones.
 Linealidad de relación.
 Normalidad multivariante
Correlación canónica

•Se asemeja al análisis factorial en


la creación de compuestos de
variables

 Reduce la dimensionalidad de cada


conjunto de variables, de tal
manera que maximice la
correlación existente entre el
conjunto de variables.
Ponderación de las calificaciones

Evaluación %
Exposición 15%
Taller 1 (Taller en clase) 15%
Taller 2 (ACS) 15%
Taller 3 (valores extremos) 15%
Examen 15%
Trabajo final 25%

Vous aimerez peut-être aussi