Vous êtes sur la page 1sur 4

Contraste de hipótesis vía bootstrap

Javier Santibánez
10 de octubre de 2018

Planteamiento

En el conjunto de datos wtloss del paquete MASS, se tienen observaciones de un paciente sometido
a un tratamiento de pérdida de peso. En la siguiente gráfica se representan las observaciones.
170
Peso

150
130
110

0 50 100 150 200 250

Días

A los datos anteriores se les puede ajustar un modelo de decaímiento exponencial

Yi = θ1 + θ2 e−θ3 xi + i , i = 1, . . . , n.

con 1 , . . . , n ∼⊥ N (0, σ 2 ) y θ1 , θ2 , θ3 > 0.

En este caso, los parámetros del modelo tiene una interpretación relevante:

• θ1 es el peso final de paciente.


• θ2 es el peso perdido.
• θ3 es la tasa de pérdida de peso.

Se puede tener interés en contrastar si después del tratamiento, el paciente alcanzará un peso final
menor a cierto umbral, por ejemplo, 75 kg. Esto se puede plantear como un contraste de hipótesis
estadísticas como sigue:
H0 : θ1 = 75 vs. H1 : θ1 < 75

1
El objetivo del ejemplo contrastar las hipótesis anteriores utilizando simulación (bootstrap).

Solución

Se propone utilizar como estadístico de prueba el estadístico t de las pruebas para la media de una
población normal:
θ̂1 − θ10
T =q .
V̂ (θ̂1 )
Esto se puede justificar a partir del hecho que T cuantifica la distancia que hay entre la estimación
de θ1 y el valor propuesto en la hipótesis nula, tomando en cuenta la varianza del estimador θ̂1 .

Si H0 es verdadera, se espera que T sea pequeño en valor absoluto, mientras que si H1 es verdadera,
se espera que T sea pequeño en magnitud.

Con el siguiente código se ajusta el modelo exponencial al conjunto de datos y se calcula el estadístico
T.

model.fit <- nls(Weight ~ theta1 + theta2*exp(-theta3*Days), data = wtloss,


start = list(theta1 = 60, theta2 = 90, theta3 = 0.5))
theta1_h <- coefficients(model.fit)[1]
var.theta1_h <- vcov(model.fit)[1,1]
t.obs <- (theta1_h - 75)/sqrt(var.theta1_h)

Por lo tanto, t = 2.81. Para decidir si este valor es extremo (muy pequeño o muy grande), se
debe comparar con la distribución de T bajo el supuesto que H0 es verdadera. En el caso de los
modelos no lineales, no es posible saber con exactitud cuál es la distribución de T , pero esta se
puede aproximar, con resultados asintóticos o bien con simulación.

Bootstrap

Bajo H0 , el modelo es
Yi = 75 + θ2 e−θ3 xi + i , i = 1, . . . , n,

con 1 , . . . , n ∼⊥ N (0, σ 2 ).

El primer paso es estimar el modelo bajo H0 , calcular los valores ajustados ŷ0 y σ̂ 2 .

model.fit2 <- nls(Weight ~ 75 + theta2*exp(-theta3*Days), data = wtloss,


start = list(theta2 = 90, theta3 = 0.5))
y_h0 <- fitted(model.fit2)
sh2 <- sum(residuals(model.fit2)^2)/50

2
El segundo paso es generar una muestra de la distribución de T bajo H0 . Con el siguiente código
se generan m = 5, 000 muestras boostrap de Yi según el modelo bajo H0 y con cada una de ellas se
calcula la realización de T .

x <- wtloss$Days
t.sim <- rep(0, 5000)
for(i in 1:5000)
{
y <- y_h0 + rnorm(52, 0, sqrt(sh2))
model.aux <- nls(y ~ theta1 + theta2*exp(-theta3*x),
start = list(theta1 = 80, theta2 = 90, theta3 = 0.5))
theta1_h.aux <- coefficients(model.aux)[1]
var.theta1_h.aux <- vcov(model.aux)[1,1]
t.sim[i] <- (theta1_h.aux - 75)/sqrt(var.theta1_h.aux)
}

El vector t.sim contiene una muestra de valores de la distribución nula de T . A continuación se


muestra un histograma de los valores simulados.
0.4
0.2
0.0

−4 −2 0 2 4

En el histograma anterior se muestra en rojo la densidad de la distribución t(n−3) , la distribución


exacta del estadístico T en el caso de los modelos de regresión lineal. Como se puede ver, ambas
aproximaciones coinciden. También se muestra t.obs como una recta vertical en azul. Como se
puede apreciar, t.obs se ubica en la cola derecha de la distribución nula de T .

Como H1 : θ1 < 75 es de cola izquierda, H0 se rechaza a favor de H1 si T es extremo ubicado en la


cola izquierda de la distribución de referencia. Como punto de corte se puede tomar el cuantil 0.05
de la distribución nula de T .

3
t1 <- quantile(t.sim, 0.05)
t2 <- qt(0.05, 49)

El cuantil aproximado con simulación es -1.6 y el cuantil aproximado con la distribución tn−3 es
-1.68. En ambos casos t.obs es mayor que los cuantiles, por lo que la conclusión es no rechazar
H0 . Es decir, no hay evidencia suficiente para rechazar que θ1 = 75.

Usualmente se utiliza el p-value para cuantificar la evidencia en contra de H0 . En este caso, el


p-value es la probabilidad del evento {T < tobs }. Esta probabilidad se puede aproximar con la
proporción de valores simulados que son menores que t.obs y también calculándola directamente
con la distribución t(n−3) .

p1 <- mean(t.sim < t.obs)


p2 <- pt(t.obs, 49)

El p-value aproximado con simulación es 0.993 y el p-value aproximado con la distribución t(n−3) es
0.996. Estos valores indican que es altamente probable observar valores de T , más extremos que el
actual, que estén en contra de H0 (a favor de H1 ). De nuevo, la conclusión es no rechazar H0 .

Vous aimerez peut-être aussi