Vous êtes sur la page 1sur 8

UNIVERSIDAD NACIONAL DE TRUJILLO

Docente: Dra. María T. Rojas García

Regresión Lineal Simple


Se dispone de una muestra de observaciones formadas por pares de variables: (x1,
y1), (x2, y2), .., (xn, yn)

A través de esta muestra, se desea estudiar la relación existente entre las dos variables X e Y.
Ahora asumiremos que si hay una relación de causalidad de la variable X (causa) hacia la variable
Y (efecto). Además, se sabe que esa relación es de tipo lineal, dentro del rango de los datos.
Estableceremos un modelo para explicar la causa (Y) en términos del efecto (X), del tipo
siguiente:

+ ei ; con el menor error posible entre e Y,


Donde:
Y: Variable dependiente (explicada, pronosticada, regresando o variable respuesta)
X: Variable independiente (explicativa, predictora o regresora)
a : Ordenada en el origen (punto en que la línea intercepta o corta al eje y)
b : Pendiente de la Ecuación ( magnitud de cambio del incremento o decremento de la variable Y por
cada unidad de incremento de X)
e: Error aleatorio: con E(e)= O ; V( e) = σ2
Los errores aleatorios u observaciones diferentes son v.a. no correlacinadas
a y b son los parámetros de la ecuación de regresión

La regresión también puede ser de la forma:

+ ei

1
de forma que sea una variable que toma valores próximos a cero.

Por tanto:

 Si b>0, las dos variables aumentan o disminuyen a la vez; R.L.Positiva o Directa


 Si b<0, cuando una variable aumenta, la otra disminuye; R.L. Negativa o inversa
 Si b = 0, no existe relación lineal entre las variables.

b>0 b<0

b=0

El problema que se plantea es entonces el de cómo calcular las cantidades a y b a partir de un


conjunto de n observaciones

de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar son
de forma esquemática, las que siguen:

1. Regresión Lineal de Dadas dos variables X, Y, sobre las que definimos:

medimos el error que se comete al aproximar Y mediante calculando la suma de las diferencias
entre los valores reales y los aproximados al cuadrado (para que sean positivas y no se compensen
los errores):

2
2. Una aproximación de Y, se define a partir de dos cantidades a y b. Vamos a calcular
aquellas que minimizan la función por el Método de Mínimos Cuadrados

3. Posteriormente encontraremos fórmulas para el cálculo directo de a y b que sirvan para cualquier
problema.

1. Regresión de Y sobre X : + ei

Para calcular la recta de regresión de Y sobre X nos basamos en la figura 3.9.

Figura : Los errores a minimizar son las cantidades

Estimación de los Parámetros:

Una vez que tenemos definido el error de aproximación mediante la relación , las cantidades que lo
minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los
mínimos cuadrados:

3
Las ecuaciones normales. La primera se escribe como

Sustituyendo se tiene que

Lo que nos da las relaciones buscadas, determinándose los parámetros de la ecuación de regresión:

La cantidad b se denomina coeficiente de regresión de Y sobre X.

Donde:

 Sxy = ΣYi X i - (Σ Y i ) (Σ X i )
n

 Sx2 = Sxx = Σ X i ² - (Σ X i )²
n

3. Supuestos del modelo

 Supuesto 1: E(e ) = 0
4
Es decir la media de lso errores a lo largo de una serie infinitamente larga de
experimentos es 0 para cada valor de xi

 Supuesto 2: V( e ) = σ2 para todo valor de x


 Supuesto 3: Los errores asociados a cualquiera de dos observaciones distintas son
independientes.

4. Error estándar de Estimación (Se)

Medida de error “típico” que expresa el grado de dispersión de los valores de Yi


alrededor de la recta de regresión.

Se = √ CME …(1)

Pero: Donde: SCE = Syy – (Sxy)² …..(3)

CME = SCE …(2) Sxx

n -2

Si Se = 0; indica que existe una relación lineal perfecta entre las variables.

5. Estimación de la varianza del error

𝑺𝑪𝑴
̂𝟐 =
𝝈
𝒏−𝟐
6. Error estándar estimado de la pendiente

̂𝟐
𝝈
𝑺𝒆(𝒃) = √
𝑺𝒙𝒙

7. Error Estándar estimado de la ordenada al origen

𝟏 𝒙̅𝟐
̂) =
𝑺𝒆(𝒂 ̂𝟐 [
√𝝈 + ]
𝒏 𝑺𝒙𝒙

8. Coeficiente de Correlación Muestral

Mide el grado de asociación lineal entre las variables x, y en la muestra.

Donde:
5
Nos gustaría tener que r=1, pues en ese caso ambas variables tendrían la misma varianza, pero
esto no es cierto en general. Todo lo que se puede afirmar, como sabemos, es que

Por ello:

 Si el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir


de X y viceversa).
 Si el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de X y
viceversa).
 │r│≈ -1 el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de
X y viceversa).

 Si las variables X e Y no están relacionadas (linealmente al menos), por tanto no


tiene sentido hacer un ajuste lineal. Sin embargo no es seguro que las dos variables no
posean ninguna relación en el caso r=0, ya que si bien el ajuste lineal puede no ser
procentente, tal vez otro tipo de ajuste sí lo sea.

r ≈1 r ≈ -1 r≈0 r≈0

 Ahora si

Figura: es lo mismo que decir que las observaciones de ambas variables

están perfectamente alineadas. El signo de r, es el mismo que el de , por


tanto nos indica el crecimiento o decrecimiento de la recta.

6
9. Coeficiente de Determinación ( R2 )

Sirve para determinar la bondad del ajuste de Y en función de X o viceversa), representan


además la proporción de varianza explicada por la regresión lineal.

lo que resumimos en la siguiente proposición:

Donde: 0 < R2 < 1

 Propiedades del coeficiente de Correlación

7
Ejemplo 1:

En el proceso de lixiviación del cobre contenido en un mineral mixto de cobre.


Se tomó una muestra de 7 procesos con las variables:
X: Temperatura en o F Y: % de extraccion de cobre
X: 20 35 28 40 23 38 36
Y: 65 76 68 89 66 85 82
a) Determine el modelo de regresión lineal
b) Grafique los datos “nube de puntos” y la ecuación de regresión.
c) Determine como es la relación entre latemperatura y el % de extraccion de cobre?
d) Estime el % de extraccion de cobre para una temperatura de 34 y 42 grados

2. Se lleva a cabo un estudio acerca de la cantidad de azúcar refinada mediante cierto proceso a varias
mperaturas diferentes como se indica a continuación.

X: Temperatura o C Y: Cantidad de azúcar transformada grs.


X: 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
Y: 8.1 7.8 8.5 9.8 9.5 8.9 8.6 10.2 9.3 9.2 10.5

a) Determine el modelo de regresión lineal


b) Grafique los datos “nube de puntos” y la ecuación de regresión.
c) Determine como es la relación entre la temperatura y la cantidad de azúcar refinada
d) Estime la cantidad de azúcar refinada para una temperatura de 2.5 grados
e) Halle el error estándar de estimación
f) Halle el coeficiente de correlación
g) Halle el coeficiente de determinación.

3. Se prepararon 9 muestras de suelo con cantidades variables de fósforo. Las plantas de maíz que se
cultivaron en cada suelo fueron cosechadas al término de 38 días y se analizaron para determinar su
contenido de fósforo.
X: Fósforo orgánico en suelo (ppm) ; Y: Fósforo aprovechable por la planta (ppm)

X: 1 4 5 9 13 11 23 23 28
Y: 64 71 54 81 93 76 77 95 109

Vous aimerez peut-être aussi