Académique Documents
Professionnel Documents
Culture Documents
ANÁLISIS DE REGRESIÓN
¿Qué es el análisis de regresión?.
El análisis de regresión es una técnica estadística que consiste en modelar e
investigar la relación entre dos o más variables.
¿Qué representa ?
es una variable aleatoria que representa a:
otras variables que no se consideran en el modelo
errores de medición
error de especificación de no considerar el modelo correcto
otros factores que no se consideren en el modelo.
La función µ(X1, X2, X3,..., Xk) puede asumir diversas formas. La que se estudia en
este curso es:
donde las Zi pueden ser funciones de las Xi. Los valores 0, 1, 2, ..., k son
denominados coeficientes de regresión poblacionales o parámetros.
Estadística – Ingeniería de Sistemas - Chué 84
0 + 1x1 (3)
El término lineal en la expresión (1) se refiere a los parámetros 0, 1, 2, ... ,
k y no a las variables. Un modelo que no es de la forma (1) se denomina no
lineal.
Ejemplos:
Y = 0 + 1 x + (lineal)
Y = 0 + 1 x1 + 2 x2 + 2 x3 + (lineal múltiple)
Y = 0 + 1 x + 2 x² + (lineal múltiple cuadrática)
Y = x + (no lineal simple exponencial)
Y = x + (no lineal simple exponencial)
Y = log x + (no lineal simple logarítmica)
Y = exp ( 1 + 2 t2 + ) (no lineal simple)
Y
1
1 2
e 2 t
e
1 t
(no lineal simple)
Las variables X1, X2, X3,...,Xk son variables matemáticas, es decir, han sido
registradas sin error.
OBJETIVOS DE LA REGRESIÓN
X Y
a. Tiempo de estudio Calificaciones
b. Publicidad Ventas
c. Km. recorridos en un negocio de mensajería Ingresos brutos
d. Horas de cómputo Cansancio visual
DIAGRAMA DE DISPERSION
a. Relación directa
16
14
12
10
0
0 2 4 6 8 10 12 14
b. Relación inversa
20
18
16
14
12
10
0
0 2 4 6 8 10 12 14
Estadística – Ingeniería de Sistemas - Chué 87
20
15
10
0
0 2 4 6 8 10 12 14
Y = 0 + 1 x +
donde :
¿Qué es el ajuste de una línea?. Como nuestro deseo es pronosticar una valor de y
basados en el conocimiento de un valor de x y observar la dirección de la relación
(positiva o negativa) entre x e y. Esta tarea requiere el ajuste de una ecuación
matemática lineal a los datos. Luego, el ajuste de una línea recta consiste en
obtener la ecuación de la recta específica que proporcione en algún sentido el
mejor ajuste posible a los datos observados.
Un buen ajuste podría ser uno que minimice el error o la desviación no explicada
y i - ŷ i . En términos formales, el método de mínimos cuadrados requiere que se
n
encuentren constantes b0 y b1, tales que la suma
i =1
y i - ŷ i 2 sea tan
Es decir:
yi = 0 + 1 xi + i para i=1,2,...,n
i = yi – ( 0 + 1 xi )
n n
Q( 0 , 1 )
i 1
i2
i 1
y i 0 1x i 2
n
Q( 0 , 1 )
1
2
i 1
x i y i 0 1x i
i 1
y i b 0 b1x i 0
Ecuaciones Normales
n
i 1
x i y i b 0 b1x i 0
b 0 y b1 x
Estadística – Ingeniería de Sistemas - Chué 89
n n
n
x
i
y
i
i 1
x i yi i 1 i 1
n
b1
n
n
xi
2
i 1
x i2 i 1
n
Ŷ b 0 b1 x
ˆ
Los estimadores de los parámetros 0 y 1 también son denotados por ˆ
0 y 1 ,
respectivamente.
yi = b0 + b1 xi + ei i=1,2,...,n
i=1
i
2
2. El estimador b1 tiene E(b1) = 1 y 2b = Var (b1) =
n
(x
i 1
i x) 2
2 x
n
3. Cov (b0, b1) =
(x
i 1
i x) 2
Número de errores 8 6 8 14 16
6 10 14 20 12
Número de horas sin sueño 8 12 16 20 24
x
i =1
i yi = 2008 x
i =1
i = 160
i =1
x i2 =2880
n n
y
i =1
i = 114 y
i =1
2
i = 1492
Luego, se aplican las fórmulas de b0 y b1: b1= 0.575 y b0= 2.2. Finalmente:
ŷ 2.2 .575x
Regression Analysis
Analysis of Variance
Source DF SS MS F P
Regression 1 105.80 105.80 9.77 0.014
Error 8 86.60 10.82
Total 9 192.40
Unusual Observations
Obs X Y Fit StDev Fit Residual St Resid
8 20.0 20.00 13.70 1.27 6.30 2.08R
Estadística – Ingeniería de Sistemas - Chué 92
y
*
Residual
Observado
Predecido
100
Residuos
0
0 2 4 6 8 10 12
-100
Variable X 1
El método de regresión puede ser usado para predecir Y usando x. Sin embargo,
los valores actuales Y difieren de los valores predecidos y . Luego es necesario
tener una medida del tamaño global de las diferencias. Esta medida es el error
estándar de estimación y es definido por
Estadística – Ingeniería de Sistemas - Chué 93
i =1
y i - ŷ i 2
se =
n-2
Syy - b1 Sxy
se =
n-2
n n n
2
donde : SXY= n
x i
yi
, SYY = n
y i
i 1
x i yi i 1 i 1
n
i 1
y i2 i 1
n
Nótese que Se tiene las mismas unidades que los datos originales. El valor de Se es
también conocido como la raíz del cuadrado medio del error (rcme) de la
regresión.
Recuérdese que el residual es la distancia por encima (+) o por debajo (-) de la
línea de regresión. Cada punto en el diagrama de dispersión tiene un residual,
representando el error que se comete por el método de regresión.
Se 2 Se
Estadística – Ingeniería de Sistemas - Chué 94
68% 95%
II) Se mide la distancia por encima o por debajo de la línea de regresión. S e será
menor, debido a que la línea de regresión puede ubicarse más cerca a los
puntos siguiendo la tendencia de los mismos. La relación entre S e y S de las y
es :
1 r 2 S Se
S
Se
PRUEBA DE HIPÓTESIS DE 0 Y 1
Estadística – Ingeniería de Sistemas - Chué 95
i 1
(x i x) 2
2 2
1 x 1 x
ˆ 0 t / 2, n 2 Se 0 ˆ 0 t / 2, n 2 Se
n n n n
i 1
(x i x)2
i 1
(x i x) 2
1 1
ˆ 1 t / 2, n 2 Se n
1 ˆ 1 t / 2, n 2 Se n
i 1
(x i x) 2
i 1
(x i x)2
Estadística – Ingeniería de Sistemas - Chué 96
i 1
( yi y) 2 =
i 1
( ŷ i y) 2 +
i 1
( y i ŷ i ) 2
n-1 = 1 + n-2
CM Re gresión
Fo
CM Error
Total n-1 n
i 1
( yi y) 2
Recuérdese que:
n n n
2
SXY= n
x i
y i
SXX= n
xi
i 1
x i yi i 1 i 1
n i 1
x i2 i 1
n
2
n
SYY = n
yi
i 1
y i2 i 1
n
Entonces,
Y
Valor Observado de Y
Y- Y Línea de regresión
Estadística – Ingeniería de Sistemas - Chué 98
Desviación
respecto a
Y
Y - Y
Y
Nota Importante. La prueba del ANVA se conoce como la prueba global del
modelo de regresión y las pruebas de 0 y 1 son conocidas como pruebas
individuales.
Un intervalo de confianza para un valor medio µy/x del 100(1-) por ciento para
un valor x=x0 es:
1 (x 0 x) 2 1 (x 0 x) 2
ŷ 0 t ( / 2,n 2) Se n ŷ 0 t ( / 2,n 2) Se n
n µy/x n
(x i x) 2
i 1
(x i x) 2
i 1
Un intervalo de confianza para un valor individual del 100(1-) por ciento para
un valor x= x0 es:
1 (x x) 2
ŷ 0 t ( / 2,n 2) Se 1 n 0
n y0
(x i x) 2
i 1
Estadística – Ingeniería de Sistemas - Chué 99
1 (x x) 2
ŷ 0 t ( / 2,n 2) Se 1 n 0
n
(x i x) 2
i 1
CORRELACION LINEAL
1.- Si r < 0, esto indicará que hay una relación lineal inversa entre las dos
variables en estudio. Si r=-1, entonces hay una relación perfecta lineal
inversa.
Ejemplos:
45
40
35
30
25 r<0
20
15
10
5
0
0 2 4 6 8 10
Estadística – Ingeniería de Sistemas - Chué 100
40
35
30
25 r = -1
20
15
10
0
0 2 4 6 8 10
2.- Si r > 0, esto indicará que hay una relación lineal directa entre las dos
variables en estudio. Si r=1, entonces hay una relación perfecta lineal
directa.
Ejemplos:
50
45
40
35
30
r>0
25
20
15
10
5
0
0 2 4 6 8 10
25
20
15
r=1
10
0
0 2 4 6 8 10
Estadística – Ingeniería de Sistemas - Chué 101
3.- Si r=0, esto indicará que no hay una relación lineal directa entre las dos
variables en estudio. Pero si puede existir algún otro tipo de relación no
lineal.
Ejemplos:
40
35
30
25
r=0
20
15
10
0
0 2 4 6 8 10
40
35
30
25
No existe correlación
20
15
10
0
0 2 4 6 8 10
30
25
No existe correlación
20
15
10
0
0 10 20 30 40
Estadística – Ingeniería de Sistemas - Chué 102
n n
n xi yi
xi yi - i=1 n i=1
i=1
r =
2 2
n n
xi yi
i=1
2
2
xi - yi - i=1
i=1 n i=1 n
Los conceptos de correlación y regresión lineales son muy diferentes, ya que cada
uno mide características distintas. Es posible tener datos que produzcan una
marcada correlación, y que tengan el modelo incorrecto. Por ejemplo, si el
intervalo del dominio se restringe lo suficiente, puede utilizarse una recta para
aproximar casi cualquier línea curva. En este caso el valor de r puede ser grande,
pero aún así la gráfica no será una línea recta perfecta. Ver gráfico siguiente.
Estadística – Ingeniería de Sistemas - Chué 103
100
90
80
70
60
50
40
30
20
10
0
0 20 40 60 80 100 120
2
n
x i
n
xi - i=1n
2
r= b i=1 2
n
yi
n
yi - i=1 n
2
i=1
Nota Importante.- Si Ud. extrapola más allá de los datos o usa la línea de
regresión para obtener estimados de Y usando valores de x que no fueron
considerados en el estudio, Se no podrá indicarle qué tan lejos es su estimación.
Estadística – Ingeniería de Sistemas - Chué 104
COEFICIENTE DE DETERMINACION R2
SC regresión
R2 = SC total
R2 mide o juzga la idoneidad del modelo de regresión 0 + 1x. Nótese que R2 = r2.
Regression Analysis
Analysis of Variance
Source DF SS MS F P
Regression 1 105.80 105.80 9.77 0.014
Error 8 86.60 10.82
Total 9 192.40
Unusual Observations
Obs X Y Fit StDev Fit Residual St Resid
Estadística – Ingeniería de Sistemas - Chué 105
8 20.0 20.0 13.70 1.27 6.30 2.08R