Vous êtes sur la page 1sur 32

REGRESIÓN LINEAL

SIMPLE
M.SC. ING. ALFREDO GAMARRA
PREDICCIÓN DE NUEVAS OBSERVACIONES
Una aplicación importante del modelo de regresión es predecir nuevas
observaciones 𝑦 que correspondan a un nivel especificado de la variable
regresora 𝑥. Si 𝑥0 es el valor de interés de la variable regresora, entonces
𝑦ො0 = 𝛽መ0 + 𝛽መ1 𝑥0 (2.44)
es el estimado puntual del nuevo valor respuesta 𝑦0 .
A continuación se obtendrá un estimado de intervalo para esta observación
futura 𝑦0 . El intervalo de confianza para la respuesta media en 𝑥 = 𝑥0 [Ec.
(2.43)] es inadecuado para este problema, porque es un estimado de
intervalo para la media de 𝑦, un parámetro, y no es una declaración de
probabilidad sobre futuras observaciones a partir de distribución. Se
desarrollará un intervalo de prediceión para la observación futura 𝑦0 .
Nótese que la variable aleatoria
𝜓 = 𝑦0 − 𝑦ො0
PREDICCIÓN DE NUEVAS OBSERVACIONES
tiene distribución normal, con media 0 y varianza
1 𝑥0 − 𝑥ҧ 2
𝑉𝑎𝑟 𝜓 = 𝑉𝑎𝑟(𝑦0 − 𝑦ො0 ) = 𝜎 2 1+ +
𝑛 𝑆𝑥𝑥
porque la observación futura 𝑦0 es independiente de 𝑦ො0 . Si se usa 𝑦ො0 para predecir 𝑦0 ,
entonces el error estándar de 𝜓 = 𝑦0 − 𝑦ො0 es el estadístico adecuado sobre el cual
basar un intervalo de predicción. Así, el intervalo de predicción de 100 (1 − 𝛼)% de
confianza para una observación futura en 𝑥0 es
1 𝑥0 −𝑥ҧ 2 1 𝑥0 −𝑥ҧ 2
𝑦ො0 − 𝑡𝛼Τ2,𝑛−2 𝑀𝑆𝑅𝑒𝑠 1 + + ≤ 𝑦0 ≤ 𝑦ො0 + 𝑡𝛼Τ2,𝑛−2 𝑀𝑆𝑅𝑒𝑠 1 + + (2.45)
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥

El intervalo de predicción de la ecuación (2.45) es de ancho mínimo en 𝑥0 = −𝑥 y se


ensancha a medida que aumenta 𝑥0 − 𝑥ҧ . Al comparar las ecuaciones (2.45) y (2.43)
se observa que el intervalo de predicción en 𝑥0 siempre es más ancho que el intervalo
de confianza en 𝑥0 , porque el intervalo de predicción depende tanto del error del
modelo ajustado como del error asociado con observaciones futuras.
PREDICCIÓN DE NUEVAS OBSERVACIONES
Ejemplo 2.7 Datos del propelente de reacción
Se determinará un intervalo de predicción de 95% para el valor futuro de la
resistencia al corte del propelente, en un motor fabricado con un lote de
propelente que tiene 10 semanas de edad. Al aplicar la ecuación (2.45) se
encuentra que el intervalo de predicción es
1 𝑥0 − 𝑥ҧ 2 1 𝑥0 − 𝑥ҧ 2
𝑦ො0 − 𝑡𝛼Τ2,𝑛−2 𝑀𝑆𝑅𝑒𝑠 1+ + ≤ 𝑦0 ≤ 𝑦ො0 + 𝑡𝛼Τ2,𝑛−2 𝑀𝑆𝑅𝑒𝑠 1+ +
𝑛 𝑆𝑥𝑥 𝑛 𝑆𝑥𝑥

1 10 − 13.3625 2
2256.32 − 2101 9244.59 1 + + ≤ 𝑦0
20 1106.56

1 10 − 13.3625 2
≤ 2256.32 + (21019) 9244.59 1 + +
20 1106.56
PREDICCIÓN DE NUEVAS OBSERVACIONES
Ejemplo 2.7 Datos del propelente de reacción
se simplifica a
2048.32 ≤ 𝑦0 ≤ 2464.32

Figura 2.5 Intervalos de 95% de confianza y de predicción para los datos del propelente.
PREDICCIÓN DE NUEVAS OBSERVACIONES
Ejemplo 2.7 Datos del propelente de reacción
Así, cabría esperar que un motor nuevo hecho con un lote de propelente de
sustentación de 10 semanas de antigüedad tuviera una resistencia al corte entre
2048.32 y 2464.32 psi. La figura 2.5 muestra el 95% del intervalo de predicción
calculado con la ecuación (2.45), para el modelo de regresión del propelente de
reacción. También en esa gráfica se indica el intervalo de confianza de 95% para
la media, esto es 𝐸(𝑦ȁ𝑥), de acuerdo con la ecuación (2.43). Esta gráfica ilustra
muy bien que el intervalo de predicción es más ancho que el intervalo
correspondiente de confianza. Se puede generalizar algo la ecuación (2.45) para
determinar un intervalo de predicción de 100(1 − 𝛼) por ciento para la media de
𝑚 observaciones futuras de la respuesta en 𝑥 = 𝑥0 . Sea 𝑦ത0 la media de 𝑚
observaciones futuras en 𝑥 = 𝑥0 . Un estimador puntual de 𝑦ത0 es 𝑦ො0 = 𝛽መ0 + 𝛽መ1 𝑥0 . El
intervalo de predicción de 100(1 − 𝛼) por ciento para 𝑦ത0 es
1 1 𝑥0 −𝑥ҧ 2 1 1 𝑥0 −𝑥ҧ 2
𝑦ො0 − 𝑡𝛼Τ2,𝑛−2 𝑀𝑆𝑅𝑒𝑠 + + ≤ 𝑦ത0 ≤ 𝑦ො0 + 𝑡𝛼Τ2,𝑛−2 𝑀𝑆𝑅𝑒𝑠 + + (2.46)
𝑚 𝑛 𝑆𝑥𝑥 𝑚 𝑛 𝑆𝑥𝑥
COEFICIENTE DE DETERMINACIÓN
La cantidad
𝑆𝑆𝑅 𝑆𝑆𝑅𝑒𝑠
𝑅2 = =1− (2.47)
𝑆𝑆𝑇 𝑆𝑆𝑇

se llama coeficiente de determinación. Como 𝑆𝑆𝑇 es una medida de la


variabilidad de 𝑦 sin considerar el efecto de la variable regresora 𝑥 y 𝑆𝑆𝑅𝑒𝑠 es
una medida de la variabilidad de 𝑦 que queda después de haber tenido en
consideración a 𝑥, 𝑅2 se llama, con frecuencia, la proporción de la variación
explicada por el regresor 𝑥. Ya que 0 ≤ 𝑆𝑆𝑅𝑒𝑠 ≤ 𝑆𝑆𝑇 , entonces 0 ≤ 𝑅2 ≤ 1. Los
valores de 𝑅2 cercanos a 1 implican que la mayor parte de la variabilidad de
𝑦 está explicada por el modelo de regresión. Para el modelo de regresión con
los datos del propelente de reacción, en el ejemplo 2.1, sucede que
2
𝑆𝑆𝑅 1527334.95
𝑅 = = = 0.9018
𝑆𝑆𝑇 1693737.60
COEFICIENTE DE DETERMINACIÓN
por tanto , el 90.18% de la variabilidad de la resistencia queda explicada por el modelo
de regresión. El estadístico 𝑅 2 se debe usar con precaución, porque siempre es posible
conseguir que 𝑅 2 sea grande agregando términos suficientes al modelo. Por ejemplo, si
no hay puntos repetidos (más de un valor de 𝑦 con el mismo valor de 𝑥), un polinomio
de grado 𝑛 − 1 producirá un ajuste “perfecto", con 𝑅 2 = 1, de los 𝑛 puntos de datos.
Cuando hay puntos repetidos, 𝑅 2 nunca puede ser exactamente igual a 1, porque el
modelo no puede explicar la variabilidad relacionada con el error "puro".
Aunque 𝑅 2 no puede disminuir si se agrega al modelo una nueva variable regresora,
eso no quiere decir necesariamente que el nuevo modelo sea mejor que el anterior. A
menos que la suma de cuadrados en el nuevo modelo se reduzca en una cantidad
igual al error cuadrático medio original, el nuevo modelo tendrá un mayor error
cuadrático medio que el anterior, por la pérdida de un grado de libertad en el error.
Así, en realidad el nuevo modelo será peor que el anterior. La magnitud de 𝑅 2 también
depende del intervalo de variabilidad de la variable regresora.
COEFICIENTE DE DETERMINACIÓN
En general, 𝑅2 aumenta a medida que aumenta la dispersión de las 𝑥 y disminuye
cuando disminuye la dispersión de las 𝑥 , siempre y cuando sea correcta la forma
supuesta del modelo. Hahn [1973] observa que el valor esperado de 𝑅2 en una regresión
rectilínea es, aproximadamente,
𝛽መ12 𝑆𝑥𝑥
𝐸 𝑅2 = 2
𝛽መ1 𝑆𝑥𝑥 + 𝜎 2
Es claro que el valor esperado de 𝑅2 aumentará (disminuirá) cuando aumente (o
disminuya) 𝑆𝑥𝑥 , que es una medida de la dispersión de las 𝑥. Así, un valor grande de 𝑅2
puede ser tan solo el resultado de que 𝑥 se haya variado en forma no realista dentro de
un intervalo grande. Por otro lado, 𝑅2 puede ser pequeña porque el intervalo de las 𝑥 sea
demasiado pequeño como para permitir detectar su relación con 𝑦. Hay otras ideas
erróneas acerca de 𝑅2 . En general, 𝑅2 no mide la magnitud de la pendiente de la línea
de regresión. Un valor grande de 𝑅2 no implica que la pendiente sea grande, además, 𝑅2
no mide la adecuación del modelo lineal, porque con frecuencia 𝑅2 es grande aunque 𝑥
y 𝑦 no tengan relación lineal. Por ejemplo, 𝑅2 de la ecuación de regresión en la figura
2.3b es relativamente grande, aunque el comportamiento lineal sea pobre. Recuérdese
que aunque 𝑅2 es grande, eso no necesariamente implica que el modelo de regresión
sea un predictor exacto.
ALGUNAS CONSIDERACIONES SOBRE EL USO DE LA REGRESIÓN
El análisis de regresión se usa mucho y, desafortunadamente, se usa mal. Hay varios
abusos comunes de la regresión, que se deben mencionar:
1. Los modelos de regresión tienen por objeto servir de ecuaciones de interpolación
dentro del intervalo de la o las variables regresoras que se usan para ajustarlos. Como
se dijo antes, se debe tener cuidado al extrapolar fuera de ese intervalo. Véase la
figura 1.5.
2. La disposición de los valores de 𝑥 juega un papel importante en el ajuste por
mínimos cuadrados. Si bien todos los puntos tienen peso igual para determinar la altura
de la recta, la pendiente queda más influenciada por los valores remotos de 𝑥. Como
ejemplo, véanse los datos de la figura 2.6. La pendiente, en el ajuste por mínimos
cuadrados, depende mucho de uno o ambos puntos A y B, así como los datos
restantes producirían una estimación muy diferente de la pendiente, si se omitieran A y
B. Casos como éste requieren con frecuencia acciones correctivas, como por
ejemplo, análisis más detallado y omisión posible de los puntos atípicos, estimación de
los parámetros del modelo con alguna técnica que sea influida con menos intensidad
por esos puntos que los mínimos cuadrados, o reestructurar el modelo posiblemente
introduciendo más regresores.
ALGUNAS CONSIDERACIONES SOBRE EL USO DE LA REGRESIÓN

Figura 2.6 Dos observaciones influyentes.

En la figura 2.7 se ve un caso algo diferente, en el que una de las 18 observaciones está
muy alejada en el espacio de 𝑥. En este ejemplo, la pendiente queda muy determinada
por el punto extremo. Si se omite ese punto, es probable que el estimado de la pendiente
sea cero. Debido al espacio entre los dos grupos de puntos, en realidad sólo se tienen dos
unidades de información con las cuales ajustar el modelo. Así, en realidad hay mucho
menos grados de libertad para el error que los 16 aparentes.
ALGUNAS CONSIDERACIONES SOBRE EL USO DE LA
REGRESIÓN
Casos como éstos parecen presentarse con bastante
frecuencia en la práctica. En general, se debe uno percatar
que en algunos conjuntos de datos un solo punto (o un
conglomerado pequeño de puntos), pueden controlar las
propiedades clave del modelo.
3. Los valores atípicos o los valores erróneos pueden afectar el
ajuste por mínimos cuadrados. Por ejemplo, se tienen los datos
de la figura 2.8. Parece que la observación A es un dato atípico
o "malo", porque queda lejos de la recta definida por el resto
de los datos. Si en realidad ese punto es atípico, el estimado de
la ordenada al origen puede ser incorrecto, y el cuadrado
medio residual puede ser un valor inflado de 𝜎 2 . Por otro lado,
los datos de ese punto pueden ser correctos, y pueden ser una
evidencia muy útil acerca del proceso que se investiga.
ALGUNAS CONSIDERACIONES SOBRE EL USO DE LA REGRESIÓN

Figura 2.7 Punto remoto en el espacio 𝑥

Figura 2.8 Un valor atípico


ALGUNAS CONSIDERACIONES SOBRE EL USO DE LA REGRESIÓN
4. Como se dijo en el capítulo 1, en el que tan sólo porque un análisis
de regresión baya indicado que hay una fuerte relación entre dos
variables, no implica que éstas tengan relación alguna en el sentido
causal, la causalidad implica, necesariamente, la correlación. El
análisis de regresión sólo puede examinar los asuntos de regresión. No
puede manejar el asunto de la necesidad. Así, las expectativas de
descubrir relaciones de causa-efecto por medio de la regresión no
deben ser muchas. Como ejemplo de una relación "sin sentido" entre
dos variables, se presentar los datos de la tabla 2.7. En ella se ve la
cantidad de débiles mentales en el Reino Unido por 10000 personas de
la población estimada ( 𝑦 ), la cantidad de licencias de
radiorrecepción otorgadas (𝑥1 ) y el primer nombre del presidente de
Estados Unidos (𝑥2 ), durante los años 1924 a 1937. Se puede demostrar
que la ecuación de regresión que relaciona a 𝑦 con 𝑥 es
𝑦ො = 4.582 + 2.204𝑥1
ALGUNAS CONSIDERACIONES SOBRE EL USO DE LA REGRESIÓN
TABLA 2.7 Datos para ilustrar relaciones absurdas entre variables
Cantidad de débiles
Cantidad de licencias de Primer nombre
mentales certificados por
receptor de radio del presidente de
Año 10000 de población
otorgadas (millones) en Estados Unidos
estimada en el Reino
el Reino Unido (𝑥1 ) (𝑥2 )
Unido (𝑦)
1924 8 1,350 Calvin
1925 8 1,960 Calvin
1926 9 2,270 Calvin
1927 10 2,483 Calvin
1928 11 2,730 Calvin
1929 11 3,091 Calvin
1930 12 3,647 Herbet
1931 16 4,620 Herbet
1932 18 5,497 Herbet
1933 19 6,260 Herbet
1934 20 7,012 Franklin
1935 21 7,618 Franklin
1936 22 8,131 Franklin
1937 23 8,593 Franklin
Fuente: Kendall y Yule [1950] y Tufte [1974]
ALGUNAS CONSIDERACIONES SOBRE EL USO DE LA REGRESIÓN

El estadístico 𝑡 para estimar 𝐻0 : 𝛽1 = 0 para este modelo es 𝑡0 = 27.312


(el valor 𝑃 es 3.58𝐸 − 12), y el coeficiente de determinación es 𝑅2 =
0.9342 . Esto es, el 98.42% de la variabilidad de los datos queda
explicado por la cantidad de licencias de radiorrecepción otorgadas.
Es claro que se trata de una relación absurda, y es muy improbable
que la cantidad de débiles mentales tenga una relación funcional
con la cantidad de licencias de radiorrecepción otorgadas. La razón
de esta fuerte relación estadística es que 𝑦 y 𝑥1 tienen relación
monótona (dos series de números tienen relación monótona si, por
ejemplo, al aumentar una siempre aumenta o disminuye la otra). En
este ejemplo, 𝑦 es creciente porque se refinan más los procedimientos
para diagnosticar las afecciones mentales, al paso de los años
durante el estudio, y 𝑥1 aumenta por la disponibilidad y bajo costo de
la tecnología de la radio, también durante esos años.
ALGUNAS CONSIDERACIONES SOBRE EL USO DE LA REGRESIÓN

Dos secuencias cualesquiera de números, relacionadas monótonamente, tendrán


propiedades semejantes. Para ilustrar más este ejemplo, supóngase que se hace la
regresión y de la cantidad de letras en el nombre del presidente de Estados Unidos en
el año correspondiente. El modelo es
𝑦ො = −26.442 5.900𝑥2 ,
con 𝑡0 = 8.996 (el valor de 𝑃 es 1.11𝐸 − 6) y 𝑅 2 = 0.8709. Es claro que también se trata
de un relación absurda.
5. En algunas aplicaciones de la regresión, se desconoce el valor de la variable
regresora 𝑥 necesario para determinar 𝑦. Por ejemplo, supóngase que se trata de
predecir la carga diaria máxima en un sistema de generación eléctrica a partir de un
modelo de regresión que relacione la carga con la temperatura diaria máxima. Para
pronosticar la carga máxima de mañana primero habrá que producir la temperatura
máxima de mañana. En consecuencia, la predicción de la carga máxima es
condicional respecto al pronóstico de temperatura. La exactitud del pronóstico de
carga máxima depende de la exactitud del pronóstico de temperatura. Esto debe
tenerse en cuenta al evaluar el desempeño del modelo
REGRESIÓN POR EL ORIGEN
Algunos casos de regresión parecen implicar que una recta que pase por el origen
debe ajustarse a los datos. Con frecuencia, parece adecuado un modelo de
regresión sin ordenada al origen para analizar datos de procesos químicos y de
manufactura. Por ejemplo el rendimiento de un proceso químico es cero cuando
la temperatura de operación del proceso es cero.
El modelo sin ordenada al origen es
𝑦 = 𝛽1 𝑥 + 𝜀 (2.48)
Dadas 𝑛 observaciones 𝑦𝑖 , 𝑥𝑖 , 𝑖 = 1, 2, . . . , 𝑛 , la función de mínimos cuadrados
es𝑆 𝛽1 = σ𝑛𝑖=1 𝑦𝑖 − 𝛽1 𝑥𝑖 2
La única ecuación normal es
𝛽መ1 σ𝑛𝑖=1 𝑥𝑖2 = σ𝑛𝑖=1 𝑦𝑖 𝑥1 (2.49)
y el estimador de la pendiente por mínimos cuadrados es
σ𝑛
𝑖=1 𝑦𝑖 𝑥1
𝛽መ1 = σ𝑛 2 (2.50)
𝑖=1 𝑥𝑖
REGRESIÓN POR EL ORIGEN
El estimador 𝛽መ1 es insesgado para 𝛽1 y el modelo de regresión ajustado es
𝑦ො = 𝛽መ1 𝑥 (2.51)
El estimador de 𝜎 2 es
σ𝑛 ො1 2
𝑖=1 𝑦𝑖 −𝑦 σ𝑛 2 ෡ 𝑛
𝑖=1 𝑦𝑖 −𝛽1 σ𝑖=1 𝑦𝑖 𝑥1
𝜎2 = 𝑀𝑆𝑅𝑒𝑠 = = (2.52)
𝑛−1 𝑛−1
con 𝑛 − 1 grados de libertad.
Con la hipótesis de normalidad de los errores, se pueden probar hipótesis y
establece intervalos de confianza y de predicción para el modelo sin
ordenada al origen. El intervalo de confianza de 100(1 − 𝛼) por ciento para
𝛽1 es
𝑀𝑆𝑅𝑒𝑠 𝑀𝑆𝑅𝑒𝑠
𝛽መ1 − 𝑡𝛼Τ2,𝑛−1 σ𝑛 2 ≤ 𝛽1 ≤ 𝛽መ1 + 𝑡𝛼Τ2,𝑛−1 σ𝑛 2 (2.53)
𝑖=1 𝑥𝑖 𝑖=1 𝑥𝑖
REGRESIÓN POR EL ORIGEN

Un intervalo de confianza de 100(1 − 𝛼) por ciento para 𝐸(𝑦ȁ𝑥0 ), la


respuesta media en 𝑥 = 𝑥0 , es
𝑥02 𝑀𝑆𝑅𝑒𝑠 𝑥02 𝑀𝑆𝑅𝑒𝑠
𝜇Ƹ 𝑦ȁ𝑥0 − 𝑡𝛼Τ2,𝑛−2 σ𝑛 2 ≤ 𝐸 𝑦ȁ𝑥0 ≤ 𝜇Ƹ 𝑦ȁ𝑥0 + 𝑡𝛼/2,𝑛−2 σ𝑛 2 (2.54)
𝑖=1 𝑥𝑖 𝑖=1 𝑥𝑖

El intervalo de predicción de 100(1 − 𝛼) por ciento para una


observación futura en 𝑥 = 𝑥0 por ejemplo 𝑦0 , es
𝑥02 𝑥02
𝑦ො0 − 𝑡𝛼Τ2,𝑛−2 𝑀𝑆𝑅𝑒𝑠 1 + σ𝑛 2 ≤ 𝑦0 ≤ 𝑦ො0 + 𝑡𝛼Τ2,𝑛−2 𝑀𝑆𝑅𝑒𝑠 1 + σ𝑛 2
𝑖=1 𝑥𝑖 𝑖=1 𝑥𝑖
(2.55)
REGRESIÓN POR EL ORIGEN

Figura 2.9 Diagramas de dispensión y líneas de regresión para el rendimiento y la temperatura de


operación en un proceso químico: a) modelo ordenada al origen; b) modelo con origen.

El intervalo de confianza (2.54) y el intervalo de predicción (2.55) se ensanchan al


aumentar 𝑥0 . Además, la longitud del intervalo de confianza (2.54) en 𝑥 = 0 es cero,
porque el modelo supone conocido con certidumbre que la media de 𝑦 es cero
cuando 𝑥 = 0. Este comportamiento es muy distinto del observado en el modelo con
ordenada al origen. El intervalo de predicción (2.55) tiene longitud distinta de cero en
𝑥0 = 0, porque se debe tener en cuenta el error aleatorio en observaciones futuras.
REGRESIÓN POR EL ORIGEN

Es relativamente fácil usar mal el modelo sin ordenada al origen, en


especial en casos los datos están en una región del espacio 𝑥
alejada del origen. Por ejemplo, examinemos el ajuste sin ordenada
al origen para el diagrama de dispersión de rendimiento de un
proceso químico (𝑦) y la temperatura de operación (𝑥), en la figura
2.9a. Aunque dentro del intervalo de 100°𝐹 ≤ 𝑥 ≤ 200°𝐹 de la variable
regresora parece que el rendimiento y la temperatura parecen tener
relación lineal, al forzar al modelo a que pase por el origen se
produce un mal ajuste apreciable. Un modelo con ordenada al
origen, como el de la figura 2.9b, tiene un ajuste mucho mejor, en la
región del espacio de 𝑥 donde se recolectaron los datos.
Con frecuencia, la relación entre 𝑦 y 𝑥 es muy distinta cerca del
origen que en la región del espacio de 𝑥 que contiene los datos. Esto
se ilustra en la figura 2.10, para los datos del proceso químico.
REGRESIÓN POR EL ORIGEN
En este caso parecería que se necesita un modelo cuadrático, o uno no
lineal complicado, para expresar la relación entre 𝑦 y 𝑥 en todo el intervalo
de valores de 𝑥. Ese modelo sólo se manejaría si el margen de 𝑥 en los
datos está suficientemente cercano al origen.

Figura 2.10 Relación real entre el rendimiento y la temperatura.


REGRESIÓN POR EL ORIGEN
A veces, el diagrama de dispersión proporciona una guía para decidir si
se ajusta el modelo sin ordenada al origen. También, se pueden ajustar
ambos modelos, y escoger entre ellos de acuerdo con la calidad del
ajuste obtenido. Si no se puede rechazar la hipótesis 𝛽0 = 0 en el modelo
sin ordenada al origen, quiere decir que se puede mejorar el ajuste si se
usa ese modelo. El cuadrado medio de residuales es una forma útil de
comparar la calidad del ajuste. El modelo que tenga el cuadrado medio
residual menor es el mejor ajuste, en el sentido que minimiza el estimado
de la varianza de 𝑦 respecto a la línea de regresión. En general, 𝑅2 no es
un buen estadístico para comparar los dos modelos. Para el modelo con
ordenada al origen,
σ 𝑛 2
2
𝑦

𝑖=1 1 − 𝑦
ത variacion de 𝑦 explicada por la regresion
𝑅 = 𝑛 2
=
σ𝑖=1 𝑦𝑖 − 𝑦ത variacion total observada en 𝑦
REGRESIÓN POR EL ORIGEN

Nótese que 𝑅2 indica la proporción de variabilidad respecto a 𝑦ത


explicada por la regresión. En el caso sin ordenada al origen, la
identidad fundamental del análisis de varianza, ecuación (2.32), se
transforma en
𝑛 𝑛 𝑛

෍ 𝑦𝑖2 = ෍ 𝑦ො𝑖2 + ෍ 𝑦𝑖 − 𝑦ො𝑖 2

𝑖=1 𝑖=1 𝑖=1


por lo que el análogo de 𝑅2 en el modelo sin ordenada al origen sería
σ 𝑛 2
𝑦

𝑖=1 𝑖
𝑅2 0 = 𝑛
σ𝑖=1 𝑦𝑖2
El estadístico 𝑅2 0 , indica la proporción de variabilidad respecto al origen
(cero) que explica la regresión.
REGRESIÓN POR EL ORIGEN
A veces se encuentra que 𝑅2 0 es mayor que 𝑅2 , aun cuando el cuadrado
medio residual (que es una medida razonable de la calidad general del ajuste)
para el modelo con ordenada al origen es menor que el cuadrado medio
residual para el modelo sin ordenada al origen. Esto se debe a que 𝑅2 0 se
calcula con valores de sumas de cuadrados no corregidas.
Hay otras formas de definir 𝑅2 para el modelo sin ordenada al origen. Una
posibilidad es
𝑛 2
σ 𝑖=1 𝑦𝑖 − 𝑦
ො𝑖
𝑅2 0 = 1 − 𝑛
σ𝑖=1 𝑦𝑖 − 𝑦ො𝑖 2
Sin embargo, en los casos donde σ𝑛𝑖=1 𝑦𝑖 − 𝑦ො𝑖 2 es grande, 𝑅2 0 puede ser
negativa. Se prefiere usar 𝑀𝑆𝑅𝑒𝑠 como base de comparación entre los modelos
con y sin ordenada al origen. Un buen artículo sobre modelos de regresión sin
ordenada al origen es el de Halin [1979].
REGRESIÓN POR EL ORIGEN

Figura 2.11 Diagrama de dispersión de los datos almacenamiento.


REGRESIÓN POR EL ORIGEN

Ejemplo 2.8 Datos de almacenamiento en la vitrina


El tiempo necesario para que un vendedor abastezca de sodas una
vitrina en una tienda, y las cajas de producto abastecido se ven en la
tabla 2.8. El diagrama de dispersión está en la figura 2.11, y parece
indicar que se podría usar una recta que pase por el origen, para
expresar la relación entre el tiempo y la cantidad de cajas abastecidas,
ya que si la cantidad de cajas 𝑥 = 0, el tiempo de abastecimiento 𝑦 = 0,
este modelo parece razonable a la intuición. Nótese también que el
margen de 𝑥 se acerca al origen. La pendiente, en el modelo sin
ordenada al origen, se calcula con la ecuación (2.50)
σ𝑛𝑖=1 𝑦𝑖 𝑥1 1841.98
𝛽መ1 = 𝑛 2 = = 0.4026
σ𝑖=1 𝑥𝑖 4575.00
REGRESIÓN POR EL ORIGEN
Ejemplo 2.8 Datos de almacenamiento en la vitrina
TABLA 2.8 Datos de abastecimiento de máquina para el ejemplo 2.8
Tiempo 𝑦 (minutos) Cajas almacenadas 𝑥
10,15 25
2,96 6
3,00 8
6,88 17
0,28 2
5,06 13
9,14 23
11,86 30
11,69 28
6,04 14
7,57 19
1,74 4
9,38 24
0,16 1
1,84 5
REGRESIÓN POR EL ORIGEN

Figura 2.12 Bandas de confianza y de predicción para los datos de almacenamiento.

Por consiguiente, la ecuación ajustada es


𝑦ො = 0.4026𝑥
Esta recta de regresión se muestra en la figura 2.12. El cuadrado medio
residual para esa modelo es 𝑀𝑆𝑅𝑒𝑠 = 0.0893 y 𝑅02 = 0.9883, así como, el
estadístico 𝑡 para probar 𝐻𝑜: 𝛽1 = 0 es 𝑡0 = 91.13. y con ella el valor 𝑃 es
8.02𝐸 − 21.
REGRESIÓN POR EL ORIGEN

Estos estadísticos de resumen no indican alguna inadecuación notable


en el modelo sin ordenada al origen. Para fines comparativos también se
puede intentar el ajuste con el modelo con ordenada al origen. Eso da
como resultado
𝑦ො = −0.0938 + 0.4071𝑥
El estadístico 𝑡 para probar 𝐻𝑜: 𝛽1 = 0 es 𝑡0 = −0.65, que no es significativa
e implica que puede ser que el modelo sin ordenada al origen produzca
un ajuste mejor. El cuadrado medio residual para el modelo con
ordenada al origen es 𝑀𝑆𝑅𝑒𝑠 = 0.0931 y 𝑅2 = 0.9997. Como 𝑀𝑆𝑅𝑒𝑠 para el
modelo sin ordenada al origen es menor que 𝑀𝑆𝑅𝑒𝑠 para el modelo con
origen, se llega a la conclusión que el modelo sin ordenada al origen es
mejor. Como se dijo antes, los estadísticos 𝑅2 no son directamente
comparables.
REGRESIÓN POR EL ORIGEN
Estos estadísticos de resumen no indican alguna inadecuación notable en el
modelo sin ordenada al origen. Para fines comparativos también se puede intentar
el ajuste con el modelo con ordenada al origen. Eso da como resultado
𝑦ො = −0.0938 + 0.4071𝑥
El estadístico 𝑡 para probar 𝐻𝑜: 𝛽1 = 0 es 𝑡0 = −0.65, que no es significativa e implica
que puede ser que el modelo sin ordenada al origen produzca un ajuste mejor. El
cuadrado medio residual para el modelo con ordenada al origen es 𝑀𝑆𝑅𝑒𝑠 = 0.0931
y 𝑅 2 = 0.9997. Como 𝑀𝑆𝑅𝑒𝑠 para el modelo sin ordenada al origen es menor que
𝑀𝑆𝑅𝑒𝑠 para el modelo con origen, se llega a la conclusión que el modelo sin
ordenada al origen es mejor. Como se dijo antes, los estadísticos 𝑅 2 no son
directamente comparables.
También, en la figura 2.12 se ve el intervalo de confianza de 95% para 𝐸(𝑦ȁ𝑥0 )
calculada con la ecuación (2.54), y el intervalo de predicción de 95% para una
sola observación futura 𝑦0 en 𝑥 = 𝑥0 , calculado con la ecuación (2.55). Obsérvese
que la longitud del intervalo de confianza para 𝑥0 = 0 es cero.

Vous aimerez peut-être aussi