Académique Documents
Professionnel Documents
Culture Documents
El termino regresión fue acuñado por Francis Galton en el siglo XIX para referirse a
fenómenos biológicos: los descendientes de progenitores excepcionales son, en promedio,
menos excepcionales que los progenitores, y mas parecidos a sus ancestros más distantes
(Galton utilizó el término reversión al hablar de guisantes en 1877, y regresiones al referirse
a la altura de humanos en 1885).
La relación matemática (determinística) mas sencilla entre dos variables x, y es una relación
lineal 𝑦 = 𝛽0 + 𝛽1 𝑥 esto es, el conjunto de parejas (x,y) para la cual la ecuación determina
una línea recta con pendiente 𝛽1 e intercepto en el eje 𝑌 = 𝛽0 . El objetivo de este capitulo
consiste en desarrollar un modelo probabilístico lineal. Para ello, debemos partir del hecho
en general que la variable cuyo valor es fijado por el investigador estará representada por x
y se llamara VARIABLE INDEPENDIENTE (PREDICTORA O EXPLICATIVA). Para x fija, la segunda
variable será aleatoria (representaremos la variable aleatoria por Y y su valor observado
será y). A esta variable Y, la llamaremos VARIABLE DEPENDIENTE O DE RESPUESTA
Regresión lineal simple y correlación
3 𝑆𝑥𝑦 = 𝑥𝑖 𝑦𝑖 − 𝑛𝑥ҧ 𝑦ത
𝑖
Una vez realizados estos cálculos de procede a estimar los parámetros de la regresión
𝑆𝑥𝑦
𝑏1 = , 𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ
𝑆𝑥𝑥
Por tanto la recta de regresión muestral (Estimada por mínimos cuadrados) es entonces aquella ecuación:
ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙
𝒚
Ejercicio
Un estudio efectuado por VPI&SU para determinar si la Temperatura (x) tienen influencia sobre el
volumen de Sulfuro de Plata (Ag2S) en Mol% (Y). Trece muestras fueron tomadas en pruebas. A
continuación se presentan los datos.
No Muestra 1 2 3 4 5 6 7 8 9 10 11 12 13
Temperatura (X) 398 262 352 575 568 450 550 408 484 350 503 600 600
Ag2S%Mol (Y) 0,15 0,05 0,23 0,43 0,23 0,4 0,44 0,44 0,45 0,09 0,59 0,63 0,6
Un estudio efectuado por VPI&SU para determinar si la cantidad de días en las que promueve un
articulo determinado (publicidad) tienen influencia sobre el volumen de ventas del mismo.
Veinticinco muestras fueron tomadas en diferentes épocas del año. A continuación se presentan los
datos.
1 2 3 4 5 6 7 8 9 10 11 12 13
Dias de Publicidad 2 4 10 1 2 15 8 6 12 2 11 20 4
Ventas en Miles de $ 9,95 21,65 35 10,3 14,38 44,88 27,5 22,13 41,95 11,66 31,75 69 16,86
14 15 16 17 18 19 20 21 22 23 24 25
Dias de Publicidad 15 9 17 11 8 4 8 10 2 16 4 5
Ventas en Miles de $ 46,59 24,35 56,63 37 24,45 17,89 25,02 34,93 9,6 54,12 17,08 21,15
ෝ = 𝒃𝟎 + 𝒃𝟏 𝒙 + 𝜺
𝒚
Donde 𝒃𝟎 y 𝒃𝟏 son las estimaciones de mínimos cuadrados del intercepto y de la pendiente de la regresión
poblacional, y 𝜺 son los residuos de la recta de regresión ajustada. Sean además 𝑆𝑥𝑥 y 𝑆𝑦𝑦 como en las
ecuaciones (1) y (2) y definamos las siguientes expresiones:
Entonces, 𝑆𝑆𝑅 = 𝑏1 𝑆𝑥𝑦 y siempre se cumple que 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑅 = 𝑆𝑦𝑦 − 𝑏1 𝑆𝑥𝑦
Estimación de σ2
Un estimador insesgado de σ2 es
𝑛 2
2
𝑆𝑆𝐸 𝑦𝑖 − 𝑦ො𝑖 𝑆𝑦𝑦 − 𝑏1 𝑆𝑥𝑦
𝑆 = = =
𝑛−2 𝑛−2 𝑛−2
𝑖=1
𝑏1 −𝛽1(0)
Estadístico de prueba: 𝑡 = . Con 𝑛 − 2 grados de libertad
𝑆Τ 𝑆𝑥𝑥
𝑆𝑆𝑅/1 𝑆𝑆𝑅
Estadístico de prueba: 𝐹 = = . Con 𝑣1 = 1 y 𝑣2 = 𝑛 − 2 grados de libertad
𝑆𝑆𝐸 Τ 𝑛−2 𝑆2
𝑏0 −𝛽0(0)
Estadístico de prueba: 𝑡 = . Con 𝑛 − 2 grados de libertad
𝑆ൗ σ𝑛 2
𝑖=1 𝑥𝑖 /(𝑛𝑆𝑥𝑥 )
Supongamos que X y Y son un par de variables aleatorias dependientes, Seria deseable disponer, en tal caso, de una medida para la
naturaleza de la relación entre ellas. Esto es difícil de conseguir, puesto que pueden estar relacionadas de maneras muy distintas (por
ejemplo, lineal, cuadrática, exponencial, etc.) Para simplificar, limitaremos nuestra atención a la posibilidad de una relación lineal.
c) Para fines descriptivos, la relación se propone como fuerte si 𝐶𝑜𝑟𝑟(𝑋, 𝑌 ≥ 0,8 moderada si
0,5< 𝐶𝑜𝑟𝑟(𝑋, 𝑌) < 0,8 y débil si 𝐶𝑜𝑟𝑟(𝑋, 𝑌 < 0,5
Coeficiente de determinación
El coeficiente de correlación representa la proporción de la variación explicada por el modelo de regresión, es decir, 𝑟 2
Expresa la proporción de la variación total en los valores de la variable Y que pueden explicar mediante la relación lineal con los valores
de la variable aleatoria X.
𝑆 2
2 𝑥𝑦 𝑆𝑆𝑅
𝑟 = =
𝑆𝑥𝑥 𝑆𝑦𝑦 𝑆𝑦𝑦
Ejemplo de regresión simple: Relación entre la presión atmosférica y la temperatura de ebullición del agua
Durante las décadas de los cuarenta y cincuenta del siglo pasado, el físico escocés J.D. Forbes realizó estudios con los que
pretendía estimar la altitud sobre el nivel del mar mediante la temperatura de ebullición del agua. Para realizar este estudio,
Forbes tomó medidas de la presión y la temperatura de ebullición del agua en diferentes ubicaciones de los Alpes y Escocia.
Las medidas de presión fueron registradas en milímetros de mercurio, mientras que las medidas de temperatura se
registraron en grados Fahrenheit.
El procedimiento habitual para determinar la altitud de un punto en una cordillera consistía en medir la presión atmosférica
en dicha posición y utilizar la relación conocida entre una y otra variable, pero el inconveniente de este procedimiento residía
en los problemas que acarreaba el transporte por lugares montañosos de los frágiles barómetros de la época . Por eso fue que
Forbes decidió estimar la presión barométrica a partir de la temperatura de ebullición del agua, la cual es sencilla de medir.
Los datos obtenidos por Forbes están disponibles en el archivo de datos Forbes.SF3, en donde T y P representan temperatura
y presión respectivamente.
El estadístico R-Cuadrada indica que el modelo ajustado explica 99,4428% de la variabilidad en P. El coeficiente de correlación es igual a
0,99721, indicando una relación relativamente fuerte entre las variables. El error estándar del estimado indica que la desviación estándar de
los residuos es 0,232829. Este valor puede usarse para construir límites de predicción para nuevas observaciones, seleccionando la opción de
Pronósticos del menú de texto.
El error absoluto medio (MAE) de 0,161575 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW) examina los residuos
para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el valor-
P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un nivel de confianza del 95,0%.
Gráfico del Modelo Ajustado
P = -81,0637 + 0,522892*T
32
30
28
P
26
24
22
20
190 194 198 202 206 210 214
T
Gráfico de Residuos
P = -81,0637 + 0,522892*T
Rediduo Estudentizado
1
-1
-3
-5
20 22 24 26 28 30
predicho P
Eliminación de datos atípicos y transformación de los datos