Académique Documents
Professionnel Documents
Culture Documents
0 ordenada
Donde 1 Pendiente
E ( y ) Media ó Valor esperado de " y"
E(y)
β1>0
β0
β0
β1<0
β1=0
β0
x
“y” no se relaciona con “x”
x x y y
i i
manera y b0 b1 x donde b1 i 1
2
; b0 y b1 . x
n
x x
i 1
i
n n
n xi . yi
x .y i i i 1 i 1
n
Una fórmula alternativa para b1 es: b1 i 1
2
n
n xi
xi i 1
2
i 1 n
La ecuación de regresión es
Venta-trimestral = 60.0 + 5.00 Pobla-estudiantes
Coef.
Predictor Coef de EE T P
Constante 60.000 9.226 6.50 0.000
Pobla-estudiantes 5.0000 0.5803 8.62 0.000
Restaurante i xi yi xi x yi y x x y y
i i x x
i
2
n
xi
140
media x i 1 14
n 10
n
i 1
yi
1300
media y 130
n 10
La ecuación de regresión lineal es: y b0 b1 x
n
x x y y
i 1
i i
donde: b1 2
; b0 y b1 . x
n
x x
i 1
i
n n
n x . y i i
x .y i i i 1 i 1
n
Una fórmula alternativa para b1 es: b1 i 1
2
n
n xi
xi2 i 1
i 1 n
n
x x y y
i 1
i i
2840
b1 2
5
n 568
x x
i 1
i
Restaurante i xi yi ^ ^
^
2
y i 60 5 x i
yi y i
yi
y i
1 2 58 70 -12 144
2 6 105 90 15 225
3 8 88 100 -12 144
4 8 118 100 18 324
5 12 117 120 -3 9
6 16 137 140 -3 9
7 20 157 160 -3 9
8 20 169 160 9 81
9 22 149 170 -21 441
10 26 202 190 12 144
Totales ∑= 140 ∑= 1300 ∑= 1530
2
^
10
Suma de cuadrados debida al error: SSE y i y i 1530
i 1
Restaurante i xi yi 2
xi x yi y y y
i
n 2
n 2
^
SSR y i y i 14200
i 1
n 2
^
Suma de cuadrados debida a la Regresión: SSR y i y i 14200
i 1
4) COEFICIENTE DE DETERMINACIÓN
Este coeficiente asume valores entre 0 y 1. Está definido por:
SSR
r2
SST
SSR 14200
Para nuestro ejemplo: r 2 0.9027 90.27 %
SST 15730
7) DISTRIBUCIÓN MUESTRAL DE b1
Valor esperado : E (b1 ) 1
Desviación estándar : b1 2
n
i 1
xi x
Forma de la distribución : Normal
x x
i 1
i
s 13.829
Para nuestro ejemplo: sb1 0.5803
n 2 568
x x
i 1
i
Con 0.01 ; gl n 2 10 2 8
Gráfica de distribución
T, df=8
0.4
0.3
Densidad
0.2
Rechazo Rechazo
Aceptación
0.1
0.005 0.005
0.0
-3.355 0 3.355
X
t=8.62
Interpretación
Como t t0.005 entonces rechazamos la hipótesis nula Ho y llegamos a la conclusión, de que con un
nivel de significancia de 1%, 1 no es igual a cero (0). La evidencia estadística es suficiente para
concluir que tenemos una relación importante entre la población de estudiantes y las ventas
trimestrales.
n2 10 2
Calculamos: t rxy . 2
0.9501. 8.61
1 rxy 1 (0.9501) 2
Con 0.01 ; gl n 2 10 2 8
Gráfica de distribución
T, df=8
0.4
0.3
Densidad
0.2
Rechazo Rechazo
Aceptación
0.1
0.005 0.005
0.0
-3.355 0 3.355
X
t=8.61
Interpretación
Como t t0.005 entonces rechazamos la hipótesis nula Ho y llegamos a la conclusión, de que con un
nivel de significancia de 1%, 1 no es igual a cero (0). La evidencia estadística es suficiente para
concluir que tenemos una relación importante entre la población de estudiantes y las ventas
trimestrales.
Usamos una prueba F, basada en la distribución F de probabilidad, para probar si la regresión es significativa.
Como sólo hay una variable independiente, la prueba F debe indicar la misma conclusión que la prueba t;
esto es, si la prueba t indica que β1≠ 0 y que en consecuencia hay una relación significativa, la prueba F
también indicará una relación significativa. Pero cuando hay más de una variable independiente, sólo se
puede usar la prueba F para ver si hay una relación significativa general.
Estadístico de prueba
MSR
F
MSE
Regla de rechazo
Donde Fα se basa en una distribución F con u grado de libertad en el numerador y n-2 grados de libertad en
el denominador.
EJEMPLO
H : 0
Planteamiento de hipótesis 1 1
H 0 : 1 0
Se tiene:
SSR 14200
MSR 14 200
1 1
SSE 1530 1530
MSE 191.25
n 2 10 2 8
Gráfica de distribución
F, df1=1, df2=8
0.4
0.3
Densidad
Rechazo
0.2
Aceptación
0.1
0.01
0.0
0 11.26
X
F=74.25
Interpretación
Como F 74.25 F 11.26 entonces rechazamos la hipótesis nula Ho y aceptamos la hipótesis
alterna H1 llegando a la conclusión, de que con un nivel de significancia de 1%, 1 no es igual a cero
(0). La evidencia estadística es suficiente para concluir que tenemos una relación importante entre la
población de estudiantes y las ventas trimestrales.
EJERCICIOS DE APLICACIÓN
1. Los siguientes datos corresponden a la altura (pulgadas) y peso (libras) de nadadoras:
Altura 68 64 62 65 66
Peso 132 108 102 115 128
a) Trace un diagrama de dispersión para esos datos, con la altura como variable independiente
b) ¿Qué indica el diagrama de dispersión que trazó en el inciso a) acerca de la relación entre las dos
variables?
c) Plantee la ecuación de regresión estimada calculando los valores de b0 y b1.
d) Si la altura de una nadadora es 63 pulgadas, ¿Cuál sería el peso que usted le estimaría?
2. Un gerente de ventas reunión los datos siguientes relacionados con las ventas anuales y en años de
experiencia.
Vendedores Años de experiencia Ventas anuales(miles dólares)
1 1 80
2 3 97
3 4 92
4 4 102
5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136
a) Forme una ecuación de regresión estimada con la que se puedan predecir las ventas anuales,
dados los años de experiencia.
b) Use la ecuación de regresión estimada para predecir las ventas anuales de un vendedor con 9 años
de experiencia.
c) Con un nivel de significancia del 5%, determine si se relacionan los años de experiencia con las
ventas anuales.
4. Un hospital de una gran ciudad contrató a un sociólogo para investigar la relación entre el número de
días que faltan sin permiso los empleados, por año, y la distancia, (en millas), de su hogar a su
trabajo. Se eligió una muestra de 10 empleados y se reunieron los siguientes datos
Distancia al trabajo Número de días ausente
1 8
3 5
4 8
6 7
8 6
10 3
12 5
14 2
14 4
18 2
a) Trace un diagrama de dispersión para estos datos. ¿Parece razonable una relación lineal? Explique
porque.
b) Desarrolle la ecuación de regresión estimada con cuadrados mínimos.
c) ¿Existe una relación significativa entre las dos variables? Use α=0.05
5. Un profesor de mercadotecnia se interesa en la relación entre las horas de estudio y los puntos totales
obtenidos en su curso. A continuación vemos los datos reunidos con 10 alumnos que acaban de tomar
el curso.
a) Desarrolle una ecuación de regresión que muestre cómo se relaciona el total de puntos obtenidos
con las horas de estudio.
b) Pruebe la significancia del modelo con α=0.05
c) Prediga los puntos totales que obtendrá Marcos Gonzales si pasó 95 horas estudiando.
Tabla2: Gastos por alumno y por estado que no participaron en el programa NAEP
i
a. x b. x i c. x i xi yi
i 1 i 1 i 1 i 1
n 2 n
3
n
4
n
2
a xi b. xi c. xi xi yi
i 1 i 1 i 1 i 1
Ejemplo
Restaurantes(i) Población estudiantil Ventas trimestrales
miles (xi ) (miles de dólares) (yi)
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
Análisis de varianza
Fuente GL SC MC F P
Regresión 2 14200.0 7100.01 32.48 0.000
Error 7 1530.0 218.57
Total 9 15730.0
Fuente GL SC F P
Lineal 1 14200.0 74.25 0.000
Cuadrática 1 0.0 0.00 0.992
EJERCICIOS DE APLICACIÓN
1) Se tiene los siguientes datos para dos variables, x e y.
x 22 24 26 30 35 40
y 12 21 33 35 40 36
a) Obtenga una ecuación de regresión estimada para los datos, que tenga la forma
^
y b0 b1 x b2 x 2 .
b) En cuento al inciso a), ¿Tiene significancia la relación entre x, x2 y y ? Use α=0.05
c) Prediga el valor de y cuando x=25
d) Prediga el valor de x cuando y=28
El ajuste se realiza mediante una función polinómica de tercer grado. Esta puede escribirse como
f ( x) a bx cx 2 dx3 . Por tanto hay que buscar el mínimo de la función:
n 2
f ( a, b, c, d ) yi a bxi cxi 2 dxi 3 y resulta que el mínimo (a,b,c,d) se obtiene resolviendo el
i 1
sistema:
n n n n
2 3
na b .i 1
x i c.
i 1
x i d .i 1
xi
i 1
yi
n n
2
n
3
n
4
n
i
a. x b. x i c. xi d . xi xi yi
i 1 i 1 i 1 i 1 i 1
n n n n n
a x 2 b. x3 c. x 4 d . x 5 x 2 y
i 1 i i 1
i i 1
i i 1
i i 1
i i
n n n n n
a x 3 b. x 4 c. x 5 d . x 6 x 3 y
i 1
i i 1
i i 1
i i 1
i i 1
i i
Ejemplo
Restaurantes(i) Población estudiantil Ventas trimestrales
miles (xi ) (miles de dólares) (yi)
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
Fuente GL SC MC F P
Regresión 3 14584.5 4861.52 25.47 0.001
Error 6 1145.5 190.91
Total 9 15730.0
Fuente GL SC F P
Lineal 1 14200.0 74.25 0.000
Cuadrática 1 0.0 0.00 0.992
Cúbico 1 384.5 2.01 0.206