Unidad 5

Estadstica inferencial
Estadstica Inferencial 1.
Docente: MED. Ariana Lizet Garca Soto.
Unidad 5. Regresin Simple.

Especialidad: Ingeniera Industrial.
Semestre: 3ro B.
Presentado por:
ALUMNO: ANA LAURA VAZQUEZ ULLOA.
Cd. Acua, Coahuila 07 Septiembre 2016.
INDICE:
Introduccin.... 3
Desarrollo . 4 22
Conclusin.23
Bibliografa.24
INTRODUCCION:
La primera forma de regresin lineal documentada fue el mtodo de los mnimos
cuadrados que fue publicada por Legendre en 1805, Gauss public un trabajo en
donde desarrollaba de manera ms profunda el mtodo de los mnimos
cuadrados, y en dnde se inclua una versin del teorema de Gauss-Mrkov.
El trmino regresin se utiliz por primera vez en el estudio de variables
antropomtricas: al comparar la estatura de padres e hijos, donde result que los
hijos cuyos padres tenan una estatura muy superior al valor medio, tendan a
igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a
reducir su diferencia respecto a la estatura media; es decir, "regresaban" al
promedio.
La constatacin emprica de esta propiedad se vio reforzada ms tarde con la
justificacin terica de ese fenmeno.
El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin,
que emplean modelos basados en cualquier clase de funcin matemtica. Los
modelos lineales son una explicacin simplificada de la realidad, mucho ms
giles y con un soporte terico mucho ms extenso por parte de la matemtica y la
estadstica.
Pero bien, como se ha dicho, se puede usar el trmino lineal para distinguir
modelos basados en cualquier clase de aplicacin.REGRESIN LINEAL SIMPLE.
En muchos problemas hay dos o ms variables inherentes relacionados, y es
necesario explorar la naturaleza de esta relacin. El anlisis de regresin es una
tcnica estadstica para modelar e investigar la relacin entre dos o ms variables.
Deseamos determinar la relacin entre una sola variable regresiva X y una
variable de repuesto Y. La variable regresiva X se supone como una variable
matemtica continua, controlable por el experimentador. Supngase que la
verdadera relacin entre Y y X es una lnea recta, y que la observacin Y en cada
nivel de X es una variable aleatoria. Luego, el valor esperado de Y para cada valor
de X es:
E Y X
1X
EC.1
Donde:
La ordenada de origen 0 y la pendiente 1 son constantes desconocidas.
Suponemos que cada observacin Y, puede describirse mediante el modelo
siguiente:
Y 0 1X E
EC.2
Donde:
E = error aleatorio con media cero y varianza 2.
Por medio del mtodo de mnimos cuadrados estimaremos 0 y 1 de manera que
la suma de los cuadrados de las desviaciones entre las observaciones y la lnea
de regresin sean mnimas.
Empleando la EC. 2, podemos escribir:
Yi 0 1 Xi Ei
i=1,2,3,,n
EC.3
Y la suma de los cuadrados de las desviaciones de las observaciones respecto a

la lnea de regresin verdadera es:
n
L Ei 2
i 1
(Y
i
i 1
1X 1)
2
EC.4
Los estimadores de mnimos cuadrados de 0 y 1, digamos deben satisfacer:

n
L
| 0 1 2 (Y 1 0 i X i ) 0
0
i 1
L
| 0 1 2 (Y 1 0 i X i ) X 1 0
0
i 1
EC.5
La simplificacin de estas dos ecuaciones produce:
n 0 X i
i 1
EC.6
0 X 1 1 x1
i 1
i 1
yx
i
Las ecuaciones 6 se denominan ecuaciones normales de mnimos cuadrados.

La solucin para la ecuacin normal es:
0 y 1 x
EC.7
Y X
I 1
X
i 1
Y X
i
i 1
i 1
2
i
i 1
EC.8
Donde:
5
1
n
Y Y
i
i 1
1
n
i 1
Por lo tanto, las ecuaciones 7 y 8 son los estimadores por mnimos cuadrados, de
la ordenada al origen y la pendiente, respectivamente. El modelo de regresin
lineal simple ajustado es:
y 0 1 X
EC.9
DIAGRAMA DE DISPERSIN
120
100
80
60
RENDIMIENTO
40
20
0
80
100
120
140
160
180
200
TEMPERATURA
Respecto a la notacin, es conveniente dar smbolos especiales al numerador y al

denominador de la ecuacin 8, esto es:
Sxx X i X
i 1
Xi
Sxy Yi ( Xi X ) XiYi
i 1
Xi
i 1
i 1
EC.10
Xi Yi
i 1
i 1
i 1
EC.11
Llamaremos a Sxx la suma corregidora de cuadrados de x y a Sxy la suma

corregida de productos cruzados de x y y. Los datos del extremo derecho
de las ecuaciones 10 y 11 son las frmulas de cmputo usuales.
Al emplear esta nueva notacin, el estimador de mnimos cuadrados de la
pendiente es:
Sxy
Sxx
EC.12
Ejemplo 1:
Un ingeniero qumico est investigando el efecto de la temperatura de
operacin de proceso en el rendimiento del producto. El estudio da como
resultado los siguientes datos:
Temperatura
C X
100
110
120
Rendimiento
% Y
45
51
54
XjYj
4500
5610
6480
Xj2
10000
12100
14400
Yj2
2025
2601
2916
7
130
140
150
160
170
180
190
1450
61
66
70
74
78
85
89
673
7930
9240
10500
11840
13260
15300
16910
101570
16900
19600
22500
25600
28900
32400
36100
218500
3721
4356
4900
5476
6084
7225
7921
47225
El examen de este diagrama de dispersin indica que hay una fuerte relacin entre
el rendimiento y la temperatura, y la suposicin tentativa del modelo de lnea recta
y 0 1X E
parece razonable.
n = 10
10
10
Xj 1450
Y 673
j 1
j
j 1
y 67.3 x 145
10
X
j 1
10
218500
2
j
j 1
10
XY
j j
2
j
47225
101570
j 1
Sustituyendo en EC.10 y EC.11
10
Sxx X
j 1
2
j
10
X
j
j 1
10
1450
Sxx 218500
10
218500 210250 8250
10
Yj
X
j

10
j 1
j 1
Sxy XjYj
10
j 1
Sxy 101570
10
1450 673
10
101570 97585 3985
Los estimadores de mnimos cuadrados de la pendiente y la ordenada al origen

son:
Sxy 3985
1
0.483030303
Sxx
8250
0 y 1 x 67.3 (0.483030303)(145) 67.3 70.03935 2.73939
El modelo de regresin lineal simple ajustado es:
y 0 1 X 2.73939 0.48303 X
Suele ser necesario obtener una estimacin de . La diferencia entre la
observacin Yj y el correspondiente valor predicho
Yj
, la diferencia digamos e j =
Yj -
Yj
, se denomina un residuo. La suma de los cuadrados de los residuos, o
la suma de cuadrados del error, sera:

9
n
j 1
SSE =
j 1
ej2
SSE
(Yj
Yj
)2
EC. 14
Y 0 1 X j
Una frmula de clculo ms conveniente para SSE puede
encontrarse sustituyendo el modelo ajustado
en la EC. 14 y
j 1
simplificando considerando que
(Yj
Yj
)2
entonces podemos escribir SSE
como:
SSE = Syy -
Sxy
EC. 15
El valor esperado de la suma de cuadrados del error E(SSE) = (n-2), por lo

tanto:
2
SS E
MS E
n2
el cual es un estimador de .
PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL SIMPLE.

Una parte importante de la evaluacin de la suficiencia del modelo de regresin
lineal simple es la prueba de hiptesis estadstica en torno a los parmetros del
modelo y la construccin de ciertos intervalos de confianza. Para probar la
hiptesis con respecto a la pendiente y la ordenada al origen del modelo de
regresin, debemos de hacer la suposicin adicional de que la componente del
error ej se distribuye normalmente. Por consiguiente, las suposiciones completas
son que los errores son NIP (0, 2). Despus analizaremos como pueden
verificarse estas suposiciones mediante el ANLISIS RESIDUAL.
10
Supngase que deseamos probar la hiptesis de que la pendiente es igual a una
constante, digamos
(1, 0)
, las hiptesis apropiadas son:
H 0 : 1 (1, 0)
EC. 16
H 1 : 1 (1,0 )
Donde hemos supuesto una alternativa de dos lados (bilateral). Como resultado de
la suposicin de normalidad, el estadstico es:
t0
1 (1, 0)
MS E
Sxx
EC. 17
Sigue la distribucin t con n-2 grados de libertad bajo
Rechazaramos H0 s:
Donde
t0
t 0 t / 2,n2
H 0 : 1 (1, 0)
EC. 18
se calcula a partir de la EC. 17 puede emplearse un procedimiento
similar para probar la hiptesis respecto a la ordenada al origen. Para probar

H 0 : 0 (0,0)
EC. 19
H 1 : 0 ( 0,0)
Usaramos el estadstico:
t0
1 ( 0,0 )
1 x2
MS E
n Sxx
Y se rechaza la hiptesis nula si
EC. 20
t 0 t / 2 , n 2
; un caso especial muy importante
de la hiptesis de la ecuacin es:

H 0 : 1 0
H1 : 1 0
EC. 21
11
Esta hiptesis se relaciona con la significacin de la regresin. El procedimiento

de prueba para
H 0 : 1 0
puede desarrollarse a partir de desplazamientos. El
primer planteamiento se inicio con la siguiente divisin.

n
Syy (Y j Y j ) 2
j 1
(Y j Y j )2
j 1
(Y j Y j )2
+
j 1
EC. 22
Las dos componentes Syy miden, respectivamente, el tamao de la variabilidad

en la yj, explicada por la lnea de regresin y la variacin residual dejada sin
explicar por la lnea de regresin, solemos llamar a:
n
SSE = (Yj
Y
j
)2 la suma de los cuadrados del error,
j =1
SSR = (Yj Yj)2 la suma de regresin de cuadrados.

j =1
Por consiguiente la EC. 22 puede escribirse como: Syy = SSR + SSE
EC. 23
Al comparar la EC. 23 con la EC. 15, notaremos que la suma de regresin de

cuadrados SSR es :
SSR =
Sxy
EC. 24
Syy tiene n-1 grados de libertad, y SS R y SSE tiene 1 y n-2 grados de libertad
respectivamente. Podemos mostrar que:
E SSE = 2
(n-2)
E(SSR)= 2 + 12Sxx
Y que SSE y SSR son independientes. Por tanto, si H o: 1 = 0; es verdadera,

entonces el estadstico:
SSR
12
F0 =
= MSR
SSE
MSE
EC. 25
(n-2)
Sigue la distribucin F1, n-2, y rechazaramos H0 si F0 >
F , 1, n 2
El procedimiento de prueba suele arreglarse en una tabla de anlisis de varianza,

tal como la tabla 1.
Anlisis de varianza para probar la significancia de la regresin:
Fuente
de Suma
Variacin
Regresin
de Grados
cuadrados
Libertad
1
SSR = 1Sxy
SSE = Syy - n-2
Error
Residual
de Media
F0
cuadrtica
MSR
MSR / MSE
MSE
1Sxy
de Syy
Total
n-1
Grados
La prueba para la significancia de la regresin puede desarrollarse tambin a partir
de la EC. 17 con B1,0 = 0, digamos:
1
MS E
Sxx
t0
EC. 26
Al elevar al cuadrado ambos lados de la Ec. 26, obtenemos:
t02 =
Sxx =
MSE
Sxy = MSR
MSE
EC. 27
MSE
Ntese que t02 en la Ec. 27 es idntico a F0 en la EC. 25, es cierto en general, que
el cuadrado de una variable aleatoria t con f grados de libertad es una variable
aleatoria F, con uno y f grados de libertad en el numerador y el denominador,
13
respectivamente. En consecuencia, la prueba que utiliza t 0 es equivalente a la

prueba basada en F0.
Ejemplo 2: Probablemente el modelo desarrollado en el ejemplo 1 en lo que
se refiere a la significacin de regresin. El modelo ajustado es:
= -2.73939 + 0.480303X, y Syy se calcula como:
Syy Yj 2
j 1
j 1
Yj
n
47225
673 2 1932.10
10
Tabla 2: Prueba para la significancia de la regresin, ejemplo 2.

Fuente
de Suma de los Grados
de Media
variacin
Regresin
cuadrados
1924.87
libertad
1
cuadrtica
1924.87
Error
7.23
0.90
Total
1932.10
F01, 1, 8 = 11.26
Fo
2138.74
F0.025, 8, 1 = 7.57 Tabla 5
La suma de regresin de cuadrados es: SS R =
Sxy = (0.4830303)(3,985) =
1924.87
Y la suma de cuadrados de 1 error es: SSE = Syy-SSR = 1932.10-1924.87 = 7.23
El anlisis de varianza para probar H 0 = B1 = 0 se resume en la tabla 2. Al notar
que F0 = 2138.74 > F01,1,8 = 11.26, rechazamos Ho y concluimos que H1: B1 0.
ESTIMACIN DE INTERVALOS EN LA REGRESIN LINEAL SIMPLE.
14
Adems de la estimacin puntual de la pendiente y la ordenada al origen, es

posible obtener estimaciones del intervalo de confianza de estos parmetros. El
ancho de estos intervalos de confianza es una media de calidad total de la lnea
de regresin. Si las ej se distribuyen normal e independientemente, entonces:
1 1
MS E / Sxx
1
x
MS E
n
Sxx
0 0
Se distribuye como t con n-2 grados de libertad, en consecuencia, un

intervalo de confianza del 100% (1-) por ciento en la pendiente B 1 esta dada
por:
B1 t / 2,n 2
MS E
Sxx
B1 B1 t / 2,n 2
MS E
Sxx
EC.28
De manera que similar a un intervalo de confianza del 100% (1-) en la
ordenada del origen es:
0 t / 2, n 2
1 x2
MS E
n Sxx
0
0
/ 2, n 2
1 x2
MS E
n Sxx
EC.29
Ejemplo 3: Determinemos un intervalo de confianza del 95% en la pendiente
de la lnea de regresin empleando los datos en el ejemplo 1. Recurdese
que
=0.48303, Sxx =8250 y MSE =0.90 de la tabla 2. Sustituyendo
obtenemos:
15
MS E
MS E
1 1 t 0.025, 8
Sxx
Sxx
1 p 1 0.95 0.05; t / 2 t 0.025 2.306v.t.
1 t 0.025, 8
0.90
0.90
1 0.48303 2.306
8250
8250
0.48303 2.306(0.010444659) 1 0.48303 2.306(0.010444659)
0.48303 2.306
0.48303 0.024085384 1 0.48303 0.024085384

0.458944616 B1 0.507115384
Puede construirse un intervalo de confianza del 100% (1-) alrededor de la lnea

de regresin verdadera de X = Xo puede calcularse a partir de:
(
X
X
)
1
1
(
Xo
X
)2
0
MS E
E (Y / X 0 ) Y0 t / 2,n2 MS E
n
Sxx
n
Sxx
Y 0 t / 2, n2
EC.30
El intervalo de confianza para E (y / X 0) es una funcin de X0. El ancho de un
intervalo es un mnimo para Xo = X y se ensancha conforme l X 0-X l aumenta.
e yj y j
yj
LIMITES
X0
100
110
120
130
140
150
160
170
180
190
Y0
45
51
54
61
66
70
74
78
85
89
45.56
50.39
55.22
60.05
64.88
69.72
74.55
79.38
84.21
89.04
DE
INTERVALO
INTERVALO
95%
-1.29
1.09
0.92
0.78
0.7
0.7
0.78
0.92
1.09
1.29
E(Y/X0)
44.27 A 46.84
49.29 A 51.48
54.30 A 56.14
59.27 A 60.83
64.18 A 65.58
69.02 A 70.42
73.77 A 75.33
78.46 A 80.30
83.12 A 85.30
87.75 A 90.33
1.29
1.09
0.92
0.78
0.7
0.7
0.78
0.92
1.09
1.29
e yj y j
-0.56
0.61
-1.22
0.95
1.12
0.28
-0.55
-1.38
0.79
-0.04
0.00
0.3136
0.3721
1.4884
0.9025
1.2544
0.0784
0.3025
1.9044
0.6241
0.0016
7.2420
16
Ejemplo 4: Construimos un intervalo de confianza del 95% en torno a la lnea

de regresin
para los datos en el ejemplo 1. El modelo ajustado es
Y0 = - 2.73939 + 0.48303 X. X0 y el intervalo de confianza en E (y/X0).
1 ( Xo X ) 2
MS E
n
Sxx
Y0 t / 2, n2
1 ( Xo 145) 2
y0 2.306 0.90
8250
10
Los valores ajustados de
Y0
y los correspondientes limites de confianza del 95%
para los puntos Xo = Xj, j = 1, 2, . . . ,10, se representan en la tabla 3, podemos

encontrar el intervalo de confianza del 95% en la media real del proceso en Xo =
140 C.
Y 0 2.73939 0.48303 X 0 2.73939 0.48303(140) 0.73939 67.6242 64.88

64.88 2.306 0.901 / 10 (140 145)2 / 8250 64.88 2.306 0.90 0.103030303
64.88 2.306 0.092727272 64.88 2.303(0.304511531) 64.88 0.7022003
64.88 0.70 E y / x 0 140) (64.88 0.70
64.18 E y / x 0 140 65.58
TAREA: Calcular todas las
Y0
PREDICCIN DE NUEVAS OBSERVACIONES.

Una aplicacin importante del anlisis de regresin es predecir nuevas y futuras
observaciones y correspondientes a un nivel especifico de la nueva variable
regresiva X. Si X0 es el valor de la variable regresiva de inters entonces:
Y 0 0 1 X0
EC. 31
El intervalo de prediccin de (1-) 100% respecto a las observaciones

futuras en X0 es: EC. 32
17
Y 0 t / 2, n2
(
X
X
)
1
1
(
Xo
X
)2
0
E (Y / X 0 ) Y0 t / 2, n2 MS E 1
MS E 1
n
Sxx
n
Sxx
Al comparar la Ecuacin 32, con la Ecuacin 30, observamos que el intervalo de

prediccin X0 siempre es ms ancho que el intervalo de confianza en X0. Esto
resulta por que el intervalo de prediccin depende tanto del modelo estimado
como del error asociado con las predicciones futuras (2).
Para ilustrar la construccin de un intervalo de prediccin, supngase que usamos
los datos del ejemplo 1 y encontramos un intervalo de prediccin del 95% en la
siguiente observacin respecto al rendimiento del proceso en X0 = 160 C
1
(
160
145
)2
1 (160 145) 2
74.55 2.306 0.90 1

E (Y / 160) 74.55 2.306 0.90 1
10
8250
10
8250
74.55 2.306 0.901.127272727 E (Y / 160) 74.55 2.306 0.901.127272727

74.55 2.306 1.014545455 E (Y / 160) 74.55 2.306 1.014545455
74.55 2.3061.007246472 E (Y / 160) 74.55 2.3061.007246472
74.55 2.322710364 E (Y / 160) 74.55 2.322710364

72.22728964 E (Y / 160) 76.87271036
72.23 E (Y / 160) 76.87
MEDIDA DE ADECUACIN DEL MODELO DE REGRESIN.

El analista siempre debe considerar dudosa la validez de ciertas suposiciones y
conducir los anlisis para examinar la adecuacin del modelo que se ha
considerado en forma tentativa. Definimos los residuos como ej = yj - j, j = 1,2,...,
n, donde yj es una observacin en el valor estimado correspondiente a partir del
modelo de regresin. El anlisis de los
residuos es con frecuencia til en la
18
confirmacin de la suposicin de que los errores son NIP(0, 2) y
en la
determinacin de si los trminos adicionales en los modelos seran de utilidad.

Con frecuencia es til graficar los residuos, en secuencia del tiempo (si se
conoce), contra j, y contra la variable independiente X, estas grficas se
representan como una de los cuatro patrones generales que se, muestran a
continuacin: El patrn a) representa la situacin normal, los patrones b), c), y d)
representan anomalas, s una grafica de los residuos con el tiempo tiene la
apariencia de b), entonces la varianza de las observaciones se incrementa con el
tiempo. Las graficas contra Xj y j que se observa en los diagramas; c) indica
tambin desigualdad de varianza. Las graficas de residuos que se observan como
d) indican la insuficiencia del modelo; esto es, trminos de mayor orden que deben
ser aadidos al modelo.
Ejemplo 5: Los residuos para el modelo de regresin en el ejemplo 1 se
calcularn como sigue:
ej = yj - j
e1 = 45.00 45.56 = -0.56

e2 = 51.00 50.39 = 0.61
e3 = 54.00 - 55.22 = -1.22
e4 = 61.00 - 60.05 = 0.95
e5 = 66.00 - 64.88 = 1.12
e6 = 70.00 - 69.72 = 0.28
a) Satisfactorio
b) Embudo
c) Doble arco
d) No lineal
e7 = 74.00 - 74.55 = -0.55

e8 = 78.00 - 79.38 = -1.38
e9 = 85.00 - 84.21 = 0.79
e10 = 89.00 - 89.04 = -0.04
Solucin del ejemplo 5.
19
Yj
(Yj- j)2
100 45
0.3136
110 51
0.3721
120 54
1.4884
130 61
0.9025
140 66
1.2544
150 70
0.0784
160 74
0.3025
170 78
1.9044
180 85
0.6241
190 89
0.0016
Xj
Syy = 1,932.10.........................................Y = 67.3

Sxy = 3,985.................................X = 145
Sxx = 8,250
El modelo de regresin simple es........................... = -2.73939 0.48303 X
SSR = 1 Sxy
SSR = (0.48303)(3.985) = 1,984.87
20
PRUEBA DE LA FALTA DE AJUSTE.

Los modelos de regresin a menudo se ajustan a los datos cuando la verdadera
relacin funcional se desconoce. Es importante conocer si el orden del modelo
asumido en forma tentativa es correcto. La prueba implica dividir la suma de
cuadrados del error o del residuo de los siguientes dos componentes: la suma de
cuadrados total para el error puro sobre los niveles de X como:
m
SSPE Yju Y j
j 1 u 1
ne
Hay
EC. 33
nj 1
j 1
= n - m; nmero de grados de libertad asociados con la
suma de cuadrados de error puro.

La suma de cuadrados para la falta de ajuste es simplemente:
SSLOF SSE SSPE

n 2 ne m 2
Con
EC. 34
grados de libertad
La estadstica de prueba para la falta de ajuste seria entonces:
Fo
SSLOF m 2 MSLOF
SSPE n m
MSPE
EC. 35
Y la rechazamos si F0 > F, m-2, n-m
Ejemplo 6:
Xj
1
1
2
3.3
3.3
4
4
4
4.7
5
Yj
2.3
1.8
2.8
1.8
3.7
2.6
2.6
2.2
3.2
2
Xj Yj
2.3
1.8
5.6
5.94
12.21
10.4
10.4
8.8
15.04
10
Xj 2
1
1
4
10.89
10.89
16
16
16
22.09
25
Yj 2
5.29
3.24
7.84
3.24
13.69
6.76
6.76
4.84
10.24
4
(Yj - Y)2
0.29927336
1.09633218
0.00221453
1.09633218
0.72750865
0.06103806
0.06103806
0.41868512
0.12456747
0.71750865
0
11 5.6
3.5
19.6
31.36
12.25
1.42633218
n
1
2
3
4
5
6
7
8
9
1
21
5.6
2.8
15.68
31.36
7.84
0.00221453
2
1
5.6
2.1
11.76
31.36
4.41
0.55809689
3
1
3.4
20.4
36
11.56
0.30574394
4
1
3.2
19.2
36
10.24
0.12456747
5
1
6.5
3.4
22.1
42.25
11.56
0.30574394
6
1
6.9
34.5
47.61
25
4.63515571
74.
48.
225.7
378.8
148.7
10.9623529
5
4
3
1
6
Realizando las pruebas de falta de ajuste obtenemos la siguiente tabla:
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Xj
1
1
2
3.3
3.3
4
4
4
4.7
5
5.6
5.6
5.6
6
6
6.5
6.9
74.5
Yj
2.3
1.8
2.8
1.8
3.7
2.6
2.6
2.2
3.2
2
3.5
2.8
2.1
3.4
3.2
3.4
5
48.4
Nivel de X
1
1
2.05
2.05
(yj )2
0.0625
0.0625
3.3
3.3
4
4
4
2.75
2.75
2.47
2.47
2.47
0.9025
0.9025
0.0169
0.0169
0.0729
5.6
5.6
5.6
6
6
2.8
2.8
2.8
3.3
3.3
0.49
0
0.49
0.01
0.01
m =5
(Yj 0.125
1.805
)2
0.1067
0.98
0.02
SSPE=3.0367
22
X 4.38235294
Y 2.84705882
Sxx 52.53
Sxy 13.6241176
1 0.26037638
0 1.70899762
SS E 7.4288
EL
modelo
de
regresin
simple
es
Y 0 1 x 1.70899762 0.26037638 x
n 17
Syy 10.97
SSLOF SSE - SSPE
SSLOF 7.4288 - 3.0367 4.3921
SSR 1Sxy
SSR 0.260 13.62 3.5412
Puesto que
F0 F , m 2, n m
es
igual
F0.025, 5 2, 175 4.47

V.T.
23
F0
F0
SS LOF / m 2
MS LOF
SS PE / n m
MS PE
4.3921 / 5 2
1.4640
5.78
3.0367 / 17 5 0.2530
Puesto que 5.78 > 1.56 la hiptesis se rechaza

COEFICIENTE DE DETERMINACIN.
R2
La cantidad de
SS R
SS E
1
Ecuacin 36
SS yy
SS yy
Se denomina el coeficiente de determinacin y se emplea para juzgar la

suficiencia de un nmero regresin.
R2
3.5412
7.4288
1
0.3228
10.97
10.97
CORRELACIN
La mxima verosimilitud de las variables.
r
r
S xy
xx
S yy
1/ 2
Ecuacin 37
3985
3985
0.998128718
82501932.10 1/ 2 3992.471039
Conclusin:
La regresin lineal se emplea en estadstica para analizar la relacin o
dependencia que hay entre las variables estudiadas. Nos interesar cuantificar la
intensidad de dicha relacin lineal entre las variables a travs de un coeficiente de
correlacin lineal que designaremos por la letra r tambin conocido como
coeficiente de Pearson. Grficamente todo esto se puede plasmar mediante un
diagrama de dispersin (nube de puntos) con su correspondiente recta ajustada.
En este post acotaremos este anlisis a la correlacin entre dos variables x e y
nicamente, es decir, haremos un anlisis exclusivamente bidimensional ya que el
abordaje multivariante es ms complejo. No obstante, ser de vital importancia
tambin determinar el coeficiente de determinacin (R2) o bondad del ajuste. Este
nos indica el porcentaje del ajuste que se ha conseguido con el modelo lineal. A
mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la
variable y. De modo que se trata de una medida de la proximidad o de ajuste de la
recta de regresin a la nube de puntos.
Bibliografa
https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal

Unidad 5

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Unidad 5

Transféré par

Droits d'auteur :

Formats disponibles

Estadstica inferencial

Unidad 5. Regresin Simple.

Cd. Acua, Coahuila 07 Septiembre 2016.

Y la suma de los cuadrados de las desviaciones de las observaciones respecto a

Los estimadores de mnimos cuadrados de 0 y 1, digamos deben satisfacer:

La simplificacin de estas dos ecuaciones produce:

Las ecuaciones 6 se denominan ecuaciones normales de mnimos cuadrados.

Respecto a la notacin, es conveniente dar smbolos especiales al numerador y al

Llamaremos a Sxx la suma corregidora de cuadrados de x y a Sxy la suma

Sustituyendo en EC.10 y EC.11

218500 210250 8250

101570 97585 3985

Los estimadores de mnimos cuadrados de la pendiente y la ordenada al origen

0 y 1 x 67.3 (0.483030303)(145) 67.3 70.03935 2.73939

El modelo de regresin lineal simple ajustado es:

Suele ser necesario obtener una estimacin de . La diferencia entre la

observacin Yj y el correspondiente valor predicho

, se denomina un residuo. La suma de los cuadrados de los residuos, o

la suma de cuadrados del error, sera:

Una frmula de clculo ms conveniente para SSE puede

encontrarse sustituyendo el modelo ajustado

simplificando considerando que

entonces podemos escribir SSE

El valor esperado de la suma de cuadrados del error E(SSE) = (n-2), por lo

PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL SIMPLE.

Supngase que deseamos probar la hiptesis de que la pendiente es igual a una

, las hiptesis apropiadas son:

Sigue la distribucin t con n-2 grados de libertad bajo

se calcula a partir de la EC. 17 puede emplearse un procedimiento

similar para probar la hiptesis respecto a la ordenada al origen. Para probar

Y se rechaza la hiptesis nula si

; un caso especial muy importante

de la hiptesis de la ecuacin es:

Esta hiptesis se relaciona con la significacin de la regresin. El procedimiento

puede desarrollarse a partir de desplazamientos. El

primer planteamiento se inicio con la siguiente divisin.

Las dos componentes Syy miden, respectivamente, el tamao de la variabilidad

)2 la suma de los cuadrados del error,

SSR = (Yj Yj)2 la suma de regresin de cuadrados.

Por consiguiente la EC. 22 puede escribirse como: Syy = SSR + SSE

Al comparar la EC. 23 con la EC. 15, notaremos que la suma de regresin de

Y que SSE y SSR son independientes. Por tanto, si H o: 1 = 0; es verdadera,

Sigue la distribucin F1, n-2, y rechazaramos H0 si F0 >

El procedimiento de prueba suele arreglarse en una tabla de anlisis de varianza,

Al elevar al cuadrado ambos lados de la Ec. 26, obtenemos:

respectivamente. En consecuencia, la prueba que utiliza t 0 es equivalente a la

= -2.73939 + 0.480303X, y Syy se calcula como:

Tabla 2: Prueba para la significancia de la regresin, ejemplo 2.

de Suma de los Grados

F0.025, 8, 1 = 7.57 Tabla 5

La suma de regresin de cuadrados es: SS R =

Adems de la estimacin puntual de la pendiente y la ordenada al origen, es

Se distribuye como t con n-2 grados de libertad, en consecuencia, un

=0.48303, Sxx =8250 y MSE =0.90 de la tabla 2. Sustituyendo

0.48303 0.024085384 1 0.48303 0.024085384

Puede construirse un intervalo de confianza del 100% (1-) alrededor de la lnea

Ejemplo 4: Construimos un intervalo de confianza del 95% en torno a la lnea

para los datos en el ejemplo 1. El modelo ajustado es

Y0 = - 2.73939 + 0.48303 X. X0 y el intervalo de confianza en E (y/X0).

Los valores ajustados de

y los correspondientes limites de confianza del 95%

para los puntos Xo = Xj, j = 1, 2, . . . ,10, se representan en la tabla 3, podemos

Y 0 2.73939 0.48303 X 0 2.73939 0.48303(140) 0.73939 67.6242 64.88