Vous êtes sur la page 1sur 29

¿Qué es la regresión?

El termino regresión fue acuñado por Francis Galton en el siglo XIX para referirse a
fenómenos biológicos: los descendientes de progenitores excepcionales son, en promedio,
menos excepcionales que los progenitores, y mas parecidos a sus ancestros más distantes
(Galton utilizó el término reversión al hablar de guisantes en 1877, y regresiones al referirse
a la altura de humanos en 1885).

La relación matemática (determinística) mas sencilla entre dos variables x, y es una relación
lineal 𝑦 = 𝛽0 + 𝛽1 𝑥 esto es, el conjunto de parejas (x,y) para la cual la ecuación determina
una línea recta con pendiente 𝛽1 e intercepto en el eje 𝑌 = 𝛽0 . El objetivo de este capitulo
consiste en desarrollar un modelo probabilístico lineal. Para ello, debemos partir del hecho
en general que la variable cuyo valor es fijado por el investigador estará representada por x
y se llamara VARIABLE INDEPENDIENTE (PREDICTORA O EXPLICATIVA). Para x fija, la segunda
variable será aleatoria (representaremos la variable aleatoria por Y y su valor observado
será y). A esta variable Y, la llamaremos VARIABLE DEPENDIENTE O DE RESPUESTA
Regresión lineal simple y correlación

El concepto de análisis de regresión se refiere a encontrar la mejor relación entre Y y x cuantificando la


fuerza de esa relación, y empleando métodos que permitan predecir los valores de la respuesta dados los
valores del regresor x. En muchas aplicaciones habrá más de un regresor, es decir, más de una variable
independiente que ayude a explicar a Y.

Modelo de regresión lineal simple

En la cual β0 y β1 son los parámetros desconocidos de la


intersección y la pendiente, respectivamente, y ɛ es una
variable aleatoria que se supone está distribuida con E(ɛ) = 0
y Var(ɛ) = σ2. Es frecuente que a la cantidad σ2 se le
denomine varianza del error o varianza residual.
En el modelo anterior hay varias cuestiones evidentes. La
cantidad Y es una variable aleatoria, ya que ɛ es aleatoria. El
valor x de la variable regresora no es aleatorio y, de hecho,
se mide con un error despreciable. La cantidad ɛ, que a
menudo recibe el nombre de error aleatorio o alteración
aleatoria, tiene varianza constante
Estimación de los parámetros por mínimos cuadrados.
Sea la ecuación de 𝑌 = 𝛽0 + 𝛽1 𝑥 + 𝜀, la estimación de los parámetros de 𝛽0 y 𝛽1 viene dado por :
𝑛

1 𝑆𝑥𝑥 = ෍ 𝑥𝑖2 − 𝑛𝑥ҧ 2


𝑖
𝑛

2 𝑆𝑦𝑦 = ෍ 𝑦𝑖2 − 𝑛𝑦ത 2


𝑖
𝑛

3 𝑆𝑥𝑦 = ෍ 𝑥𝑖 𝑦𝑖 − 𝑛𝑥ҧ 𝑦ത
𝑖

Una vez realizados estos cálculos de procede a estimar los parámetros de la regresión
𝑆𝑥𝑦
𝑏1 = , 𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ
𝑆𝑥𝑥

Por tanto la recta de regresión muestral (Estimada por mínimos cuadrados) es entonces aquella ecuación:

ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙
𝒚
Ejercicio

Un estudio efectuado por VPI&SU para determinar si la Temperatura (x) tienen influencia sobre el
volumen de Sulfuro de Plata (Ag2S) en Mol% (Y). Trece muestras fueron tomadas en pruebas. A
continuación se presentan los datos.

No Muestra 1 2 3 4 5 6 7 8 9 10 11 12 13
Temperatura (X) 398 262 352 575 568 450 550 408 484 350 503 600 600
Ag2S%Mol (Y) 0,15 0,05 0,23 0,43 0,23 0,4 0,44 0,44 0,45 0,09 0,59 0,63 0,6

a) Realice el grafico de dispersión.


b) Estime los valores de β෢0 y β
෢1 para la curva de regresión lineal (Modelo de regresión ajustado)
c) Realice la prueba ANOVA y pruebe la hipótesis para la beta.
d) Realice la prueba de hipótesis para el intercepto
e) Encuentre los coeficientes de correlación y determinación entre las variables.
Ejercicio

Un estudio efectuado por VPI&SU para determinar si la cantidad de días en las que promueve un
articulo determinado (publicidad) tienen influencia sobre el volumen de ventas del mismo.
Veinticinco muestras fueron tomadas en diferentes épocas del año. A continuación se presentan los
datos.
1 2 3 4 5 6 7 8 9 10 11 12 13
Dias de Publicidad 2 4 10 1 2 15 8 6 12 2 11 20 4
Ventas en Miles de $ 9,95 21,65 35 10,3 14,38 44,88 27,5 22,13 41,95 11,66 31,75 69 16,86
14 15 16 17 18 19 20 21 22 23 24 25
Dias de Publicidad 15 9 17 11 8 4 8 10 2 16 4 5
Ventas en Miles de $ 46,59 24,35 56,63 37 24,45 17,89 25,02 34,93 9,6 54,12 17,08 21,15

a) Realice el grafico de dispersión.


b) Estime los valores de β෢0 y β
෢1 para la curva de regresión lineal (Modelo de regresión ajustado)
c) Realice la prueba ANOVA y pruebe la hipótesis para la beta.
d) Realice la prueba de hipótesis para el intercepto
e) Encuentre los coeficientes de correlación y determinación entre las variables.
Teorema de descomposición de la suma de cuadrados
Una ecuación de regresión pueda considerarse como un intento de emplear la información proporcionada
por una variable independiente X, para explicar el comportamiento de una variable dependiente Y. Como las
observaciones exhibirán cierta variabilidad en la muestra. Para lograr esto, recordemos que, para los valores
muestrales, la recta de regresión estimada puede escribirse como:

ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙 + 𝜺
𝒚

Donde 𝒃𝟎 y 𝒃𝟏 son las estimaciones de mínimos cuadrados del intercepto y de la pendiente de la regresión
poblacional, y 𝜺 son los residuos de la recta de regresión ajustada. Sean además 𝑆𝑥𝑥 y 𝑆𝑦𝑦 como en las
ecuaciones (1) y (2) y definamos las siguientes expresiones:

SUMA DE CUADRADOS TOTAL: 𝑆𝑆𝑇 = σ𝑛𝑖=1 𝑦𝑖 − 𝑦ത 2 = σ𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦ത 2 = 𝑆𝑦𝑦


SUMA DE CUADRADOS DE LA REGRESIÓN: 𝑆𝑆𝑅 = σ𝑛𝑖=1 𝑦ෝ𝑖 − 𝑦ത 2

SUMA DE CUADRADOS RESIDUAL (O DEL ERROR): 𝑆𝑆𝐸 = σ𝑛


𝑖=1 𝑦𝑖 − 𝑦
ෝ𝑖
2 = σ𝑛 𝜀 2
𝑖=1 𝑖

Entonces, 𝑆𝑆𝑅 = 𝑏1 𝑆𝑥𝑦 y siempre se cumple que 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑅 = 𝑆𝑦𝑦 − 𝑏1 𝑆𝑥𝑦
Estimación de σ2
Un estimador insesgado de σ2 es
𝑛 2
2
𝑆𝑆𝐸 𝑦𝑖 − 𝑦ො𝑖 𝑆𝑦𝑦 − 𝑏1 𝑆𝑥𝑦
𝑆 = =෍ =
𝑛−2 𝑛−2 𝑛−2
𝑖=1

Intervalos de confianza en el modelo de regresión


Intervalo de confianza para 𝜷𝟏 : Un intervalo de confianza de 100 1 − 𝛼 % para el parámetro 𝛽1 en la recta de
regresión 𝜇𝑌/𝑥 = 𝛽0 + 𝛽1 𝑥 es
𝑆 𝑆
𝑏1 − 𝑡𝛼Τ2 < 𝛽1 < 𝑏1 + 𝑡𝛼Τ2
𝑛𝑆𝑥𝑥 𝑛𝑆𝑥𝑥
Donde 𝑡𝛼Τ2 es un valor de la distribución 𝑡 con 𝑛 − 2 grados de libertad.

Intervalo de confianza para 𝜷𝟎 : Un intervalo de confianza de 100 1 − 𝛼 % para el parámetro 𝛽0 en la recta de


regresión 𝜇𝑌/𝑥 = 𝛽0 + 𝛽1 𝑥 es
𝑛 𝑛
𝑆 𝑆
𝑏0 − 𝑡𝛼Τ2 ෍ 𝑥𝑖2 < 𝛽0 < 𝑏0 + 𝑡𝛼Τ2 ෍ 𝑥𝑖2
𝑛𝑆𝑥𝑥 𝑖=1
𝑛𝑆𝑥𝑥 𝑖=1

Donde 𝑡𝛼Τ2 es un valor de la distribución 𝑡 con 𝑛 − 2 grados de libertad.


Pruebas de hipótesis en el modelo de regresión

Contraste para la pendiente de la regresión poblacional usando la prueba 𝒕

𝑏1 −𝛽1(0)
Estadístico de prueba: 𝑡 = . Con 𝑛 − 2 grados de libertad
𝑆Τ 𝑆𝑥𝑥

Tipo de hipótesis Regla de decisión


𝐻0 : 𝛽1 ≥ 𝛽1(0) Si 𝑡 ≤ −𝑡𝛼 , entonces se rechaza 𝐻0 ;
𝐻1 : 𝛽1 < 𝛽1(0) de lo contrario no se rechaza 𝐻0
Cola a la izquierda
𝐻0 : 𝛽1 ≤ 𝛽1(0) Si 𝑡 ≥ 𝑡𝛼 , entonces se rechaza 𝐻0 ; de
𝐻1 : 𝛽1 > 𝛽1(0) lo contrario no se rechaza 𝐻0
Cola a la derecha
𝐻0 : 𝛽1 = 𝛽1(0) Si 𝑡 ≤ −𝑡𝛼/2 o 𝑡 ≥ 𝑡𝛼/2 , entonces se
𝐻1 : 𝛽1 ≠ 𝛽1(0) rechaza 𝐻0 ; de lo contrario no se
Dos colas rechaza 𝐻0
Pruebas de hipótesis en el modelo de regresión

Contraste para la pendiente de la regresión poblacional usando la prueba 𝑭

𝑆𝑆𝑅/1 𝑆𝑆𝑅
Estadístico de prueba: 𝐹 = = . Con 𝑣1 = 1 y 𝑣2 = 𝑛 − 2 grados de libertad
𝑆𝑆𝐸 Τ 𝑛−2 𝑆2

Tipo de hipótesis Regla de decisión


𝐻0 : 𝛽1 = 0 Si 𝐹 > 𝐹𝛼 (1, 𝑛 − 2) entonces se
𝐻1 : 𝛽1 ≠ 0 rechaza 𝐻0 ; de lo contrario no se
Dos colas rechaza 𝐻0
Pruebas de hipótesis en el modelo de regresión

Contraste para el intercepto de la regresión poblacional

𝑏0 −𝛽0(0)
Estadístico de prueba: 𝑡 = . Con 𝑛 − 2 grados de libertad
𝑆ൗ σ𝑛 2
𝑖=1 𝑥𝑖 /(𝑛𝑆𝑥𝑥 )

Tipo de hipótesis Regla de decisión


𝐻0 : 𝛽0 ≥ 𝛽0(0) Si 𝑡 ≤ −𝑡𝛼 , entonces se rechaza 𝐻0 ;
𝐻1 : 𝛽0 < 𝛽0(0) de lo contrario no se rechaza 𝐻0
Cola a la izquierda
𝐻0 : 𝛽0 ≤ 𝛽0(0) Si 𝑡 ≥ 𝑡𝛼 , entonces se rechaza 𝐻0 ; de
𝐻1 : 𝛽0 > 𝛽0(0) lo contrario no se rechaza 𝐻0
Cola a la derecha
𝐻0 : 𝛽0 = 𝛽0(0) Si 𝑡 ≤ −𝑡𝛼/2 o 𝑡 ≥ 𝑡𝛼/2 , entonces se
𝐻1 : 𝛽0 ≠ 𝛽0(0) rechaza 𝐻0 ; de lo contrario no se
Dos colas rechaza 𝐻0
COVARIANZA Y COEFICIENTE DE CORRELACION

Supongamos que X y Y son un par de variables aleatorias dependientes, Seria deseable disponer, en tal caso, de una medida para la
naturaleza de la relación entre ellas. Esto es difícil de conseguir, puesto que pueden estar relacionadas de maneras muy distintas (por
ejemplo, lineal, cuadrática, exponencial, etc.) Para simplificar, limitaremos nuestra atención a la posibilidad de una relación lineal.

Teorema: sea X, Y dos variables aleatorias cualesquiera con varianzas finitas


𝑆𝑥𝑥 𝑆𝑥𝑦
𝐶𝑜𝑟𝑟 𝑋, 𝑌 = 𝛽መ1 =
𝑆𝑦𝑦 𝑆𝑥𝑥 𝑆𝑦𝑦
a) −1 ≤ 𝐶𝑜𝑟𝑟(𝑋, 𝑌) ≤ 1

b) Si X, Y son independientes, entonces 𝐶𝑜𝑟𝑟 𝑋, 𝑌 = 0, el reciproco no es cierto.

c) Para fines descriptivos, la relación se propone como fuerte si 𝐶𝑜𝑟𝑟(𝑋, 𝑌 ≥ 0,8 moderada si
0,5< 𝐶𝑜𝑟𝑟(𝑋, 𝑌) < 0,8 y débil si 𝐶𝑜𝑟𝑟(𝑋, 𝑌 < 0,5

Coeficiente de determinación
El coeficiente de correlación representa la proporción de la variación explicada por el modelo de regresión, es decir, 𝑟 2
Expresa la proporción de la variación total en los valores de la variable Y que pueden explicar mediante la relación lineal con los valores
de la variable aleatoria X.

𝑆 2
2 𝑥𝑦 𝑆𝑆𝑅
𝑟 = =
𝑆𝑥𝑥 𝑆𝑦𝑦 𝑆𝑦𝑦
Ejemplo de regresión simple: Relación entre la presión atmosférica y la temperatura de ebullición del agua
Durante las décadas de los cuarenta y cincuenta del siglo pasado, el físico escocés J.D. Forbes realizó estudios con los que
pretendía estimar la altitud sobre el nivel del mar mediante la temperatura de ebullición del agua. Para realizar este estudio,
Forbes tomó medidas de la presión y la temperatura de ebullición del agua en diferentes ubicaciones de los Alpes y Escocia.
Las medidas de presión fueron registradas en milímetros de mercurio, mientras que las medidas de temperatura se
registraron en grados Fahrenheit.
El procedimiento habitual para determinar la altitud de un punto en una cordillera consistía en medir la presión atmosférica
en dicha posición y utilizar la relación conocida entre una y otra variable, pero el inconveniente de este procedimiento residía
en los problemas que acarreaba el transporte por lugares montañosos de los frágiles barómetros de la época . Por eso fue que
Forbes decidió estimar la presión barométrica a partir de la temperatura de ebullición del agua, la cual es sencilla de medir.
Los datos obtenidos por Forbes están disponibles en el archivo de datos Forbes.SF3, en donde T y P representan temperatura
y presión respectivamente.
El estadístico R-Cuadrada indica que el modelo ajustado explica 99,4428% de la variabilidad en P. El coeficiente de correlación es igual a
0,99721, indicando una relación relativamente fuerte entre las variables. El error estándar del estimado indica que la desviación estándar de
los residuos es 0,232829. Este valor puede usarse para construir límites de predicción para nuevas observaciones, seleccionando la opción de
Pronósticos del menú de texto.
El error absoluto medio (MAE) de 0,161575 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW) examina los residuos
para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el valor-
P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un nivel de confianza del 95,0%.
Gráfico del Modelo Ajustado
P = -81,0637 + 0,522892*T

32

30

28
P

26

24

22

20
190 194 198 202 206 210 214
T
Gráfico de Residuos
P = -81,0637 + 0,522892*T

Rediduo Estudentizado
1

-1

-3

-5
20 22 24 26 28 30
predicho P
Eliminación de datos atípicos y transformación de los datos

Vous aimerez peut-être aussi