Académique Documents
Professionnel Documents
Culture Documents
SIMPLE
M.SC. ING. ALFREDO GAMARRA
PREDICCIÓN DE NUEVAS OBSERVACIONES
Una aplicación importante del modelo de regresión es predecir nuevas
observaciones 𝑦 que correspondan a un nivel especificado de la variable
regresora 𝑥. Si 𝑥0 es el valor de interés de la variable regresora, entonces
𝑦ො0 = 𝛽መ0 + 𝛽መ1 𝑥0 (2.44)
es el estimado puntual del nuevo valor respuesta 𝑦0 .
A continuación se obtendrá un estimado de intervalo para esta observación
futura 𝑦0 . El intervalo de confianza para la respuesta media en 𝑥 = 𝑥0 [Ec.
(2.43)] es inadecuado para este problema, porque es un estimado de
intervalo para la media de 𝑦, un parámetro, y no es una declaración de
probabilidad sobre futuras observaciones a partir de distribución. Se
desarrollará un intervalo de prediceión para la observación futura 𝑦0 .
Nótese que la variable aleatoria
𝜓 = 𝑦0 − 𝑦ො0
PREDICCIÓN DE NUEVAS OBSERVACIONES
tiene distribución normal, con media 0 y varianza
1 𝑥0 − 𝑥ҧ 2
𝑉𝑎𝑟 𝜓 = 𝑉𝑎𝑟(𝑦0 − 𝑦ො0 ) = 𝜎 2 1+ +
𝑛 𝑆𝑥𝑥
porque la observación futura 𝑦0 es independiente de 𝑦ො0 . Si se usa 𝑦ො0 para predecir 𝑦0 ,
entonces el error estándar de 𝜓 = 𝑦0 − 𝑦ො0 es el estadístico adecuado sobre el cual
basar un intervalo de predicción. Así, el intervalo de predicción de 100 (1 − 𝛼)% de
confianza para una observación futura en 𝑥0 es
1 𝑥0 −𝑥ҧ 2 1 𝑥0 −𝑥ҧ 2
𝑦ො0 − 𝑡𝛼Τ2,𝑛−2 𝑀𝑆𝑅𝑒𝑠 1 + + ≤ 𝑦0 ≤ 𝑦ො0 + 𝑡𝛼Τ2,𝑛−2 𝑀𝑆𝑅𝑒𝑠 1 + + (2.45)
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥
1 10 − 13.3625 2
2256.32 − 2101 9244.59 1 + + ≤ 𝑦0
20 1106.56
1 10 − 13.3625 2
≤ 2256.32 + (21019) 9244.59 1 + +
20 1106.56
PREDICCIÓN DE NUEVAS OBSERVACIONES
Ejemplo 2.7 Datos del propelente de reacción
se simplifica a
2048.32 ≤ 𝑦0 ≤ 2464.32
Figura 2.5 Intervalos de 95% de confianza y de predicción para los datos del propelente.
PREDICCIÓN DE NUEVAS OBSERVACIONES
Ejemplo 2.7 Datos del propelente de reacción
Así, cabría esperar que un motor nuevo hecho con un lote de propelente de
sustentación de 10 semanas de antigüedad tuviera una resistencia al corte entre
2048.32 y 2464.32 psi. La figura 2.5 muestra el 95% del intervalo de predicción
calculado con la ecuación (2.45), para el modelo de regresión del propelente de
reacción. También en esa gráfica se indica el intervalo de confianza de 95% para
la media, esto es 𝐸(𝑦ȁ𝑥), de acuerdo con la ecuación (2.43). Esta gráfica ilustra
muy bien que el intervalo de predicción es más ancho que el intervalo
correspondiente de confianza. Se puede generalizar algo la ecuación (2.45) para
determinar un intervalo de predicción de 100(1 − 𝛼) por ciento para la media de
𝑚 observaciones futuras de la respuesta en 𝑥 = 𝑥0 . Sea 𝑦ത0 la media de 𝑚
observaciones futuras en 𝑥 = 𝑥0 . Un estimador puntual de 𝑦ത0 es 𝑦ො0 = 𝛽መ0 + 𝛽መ1 𝑥0 . El
intervalo de predicción de 100(1 − 𝛼) por ciento para 𝑦ത0 es
1 1 𝑥0 −𝑥ҧ 2 1 1 𝑥0 −𝑥ҧ 2
𝑦ො0 − 𝑡𝛼Τ2,𝑛−2 𝑀𝑆𝑅𝑒𝑠 + + ≤ 𝑦ത0 ≤ 𝑦ො0 + 𝑡𝛼Τ2,𝑛−2 𝑀𝑆𝑅𝑒𝑠 + + (2.46)
𝑚 𝑛 𝑆𝑥𝑥 𝑚 𝑛 𝑆𝑥𝑥
COEFICIENTE DE DETERMINACIÓN
La cantidad
𝑆𝑆𝑅 𝑆𝑆𝑅𝑒𝑠
𝑅2 = =1− (2.47)
𝑆𝑆𝑇 𝑆𝑆𝑇
En la figura 2.7 se ve un caso algo diferente, en el que una de las 18 observaciones está
muy alejada en el espacio de 𝑥. En este ejemplo, la pendiente queda muy determinada
por el punto extremo. Si se omite ese punto, es probable que el estimado de la pendiente
sea cero. Debido al espacio entre los dos grupos de puntos, en realidad sólo se tienen dos
unidades de información con las cuales ajustar el modelo. Así, en realidad hay mucho
menos grados de libertad para el error que los 16 aparentes.
ALGUNAS CONSIDERACIONES SOBRE EL USO DE LA
REGRESIÓN
Casos como éstos parecen presentarse con bastante
frecuencia en la práctica. En general, se debe uno percatar
que en algunos conjuntos de datos un solo punto (o un
conglomerado pequeño de puntos), pueden controlar las
propiedades clave del modelo.
3. Los valores atípicos o los valores erróneos pueden afectar el
ajuste por mínimos cuadrados. Por ejemplo, se tienen los datos
de la figura 2.8. Parece que la observación A es un dato atípico
o "malo", porque queda lejos de la recta definida por el resto
de los datos. Si en realidad ese punto es atípico, el estimado de
la ordenada al origen puede ser incorrecto, y el cuadrado
medio residual puede ser un valor inflado de 𝜎 2 . Por otro lado,
los datos de ese punto pueden ser correctos, y pueden ser una
evidencia muy útil acerca del proceso que se investiga.
ALGUNAS CONSIDERACIONES SOBRE EL USO DE LA REGRESIÓN