Académique Documents
Professionnel Documents
Culture Documents
Estadstica Inferencial 1.
Docente: MED. Ariana Lizet Garca Soto.
Estadstica inferencial
INDICE:
Introduccin.... 3
Desarrollo . 4 22
Conclusin.23
Bibliografa.24
Estadstica inferencial
INTRODUCCION:
La primera forma de regresin lineal documentada fue el mtodo de los mnimos
cuadrados que fue publicada por Legendre en 1805, Gauss public un trabajo en
donde desarrollaba de manera ms profunda el mtodo de los mnimos
cuadrados, y en dnde se inclua una versin del teorema de Gauss-Mrkov.
El trmino regresin se utiliz por primera vez en el estudio de variables
antropomtricas: al comparar la estatura de padres e hijos, donde result que los
hijos cuyos padres tenan una estatura muy superior al valor medio, tendan a
igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a
reducir su diferencia respecto a la estatura media; es decir, "regresaban" al
promedio.
La constatacin emprica de esta propiedad se vio reforzada ms tarde con la
justificacin terica de ese fenmeno.
El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin,
que emplean modelos basados en cualquier clase de funcin matemtica. Los
modelos lineales son una explicacin simplificada de la realidad, mucho ms
giles y con un soporte terico mucho ms extenso por parte de la matemtica y la
estadstica.
Estadstica inferencial
Pero bien, como se ha dicho, se puede usar el trmino lineal para distinguir
modelos basados en cualquier clase de aplicacin.REGRESIN LINEAL SIMPLE.
En muchos problemas hay dos o ms variables inherentes relacionados, y es
necesario explorar la naturaleza de esta relacin. El anlisis de regresin es una
tcnica estadstica para modelar e investigar la relacin entre dos o ms variables.
Deseamos determinar la relacin entre una sola variable regresiva X y una
variable de repuesto Y. La variable regresiva X se supone como una variable
matemtica continua, controlable por el experimentador. Supngase que la
verdadera relacin entre Y y X es una lnea recta, y que la observacin Y en cada
nivel de X es una variable aleatoria. Luego, el valor esperado de Y para cada valor
de X es:
E Y X
1X
EC.1
Donde:
La ordenada de origen 0 y la pendiente 1 son constantes desconocidas.
Suponemos que cada observacin Y, puede describirse mediante el modelo
siguiente:
Y 0 1X E
EC.2
Donde:
E = error aleatorio con media cero y varianza 2.
Por medio del mtodo de mnimos cuadrados estimaremos 0 y 1 de manera que
la suma de los cuadrados de las desviaciones entre las observaciones y la lnea
de regresin sean mnimas.
Empleando la EC. 2, podemos escribir:
Yi 0 1 Xi Ei
i=1,2,3,,n
EC.3
Estadstica inferencial
L Ei 2
i 1
(Y
i
i 1
1X 1)
2
EC.4
L
| 0 1 2 (Y 1 0 i X i ) 0
0
i 1
L
| 0 1 2 (Y 1 0 i X i ) X 1 0
0
i 1
EC.5
n 0 X i
i 1
EC.6
0 X 1 1 x1
i 1
i 1
yx
i
0 y 1 x
EC.7
Y X
I 1
X
i 1
Y X
i
i 1
i 1
2
i
i 1
EC.8
Donde:
5
Estadstica inferencial
1
n
Y Y
i
i 1
1
n
i 1
Por lo tanto, las ecuaciones 7 y 8 son los estimadores por mnimos cuadrados, de
la ordenada al origen y la pendiente, respectivamente. El modelo de regresin
lineal simple ajustado es:
y 0 1 X
EC.9
DIAGRAMA DE DISPERSIN
120
100
80
60
RENDIMIENTO
40
20
0
80
100
120
140
160
180
200
TEMPERATURA
Estadstica inferencial
Sxx X i X
i 1
Xi
Sxy Yi ( Xi X ) XiYi
i 1
Xi
i 1
i 1
EC.10
Xi Yi
i 1
i 1
i 1
EC.11
Sxy
Sxx
EC.12
Ejemplo 1:
Un ingeniero qumico est investigando el efecto de la temperatura de
operacin de proceso en el rendimiento del producto. El estudio da como
resultado los siguientes datos:
Temperatura
C X
100
110
120
Rendimiento
% Y
45
51
54
XjYj
4500
5610
6480
Xj2
10000
12100
14400
Yj2
2025
2601
2916
7
Estadstica inferencial
130
140
150
160
170
180
190
1450
61
66
70
74
78
85
89
673
7930
9240
10500
11840
13260
15300
16910
101570
16900
19600
22500
25600
28900
32400
36100
218500
3721
4356
4900
5476
6084
7225
7921
47225
El examen de este diagrama de dispersin indica que hay una fuerte relacin entre
el rendimiento y la temperatura, y la suposicin tentativa del modelo de lnea recta
y 0 1X E
parece razonable.
n = 10
10
10
Xj 1450
Y 673
j 1
j
j 1
y 67.3 x 145
10
X
j 1
10
218500
2
j
j 1
10
XY
j j
2
j
47225
101570
j 1
10
Sxx X
j 1
2
j
10
X
j
j 1
10
Estadstica inferencial
1450
Sxx 218500
10
10
Yj
X
j
10
j 1
j 1
Sxy XjYj
10
j 1
Sxy 101570
10
1450 673
10
Sxy 3985
1
0.483030303
Sxx
8250
y 0 1 X 2.73939 0.48303 X
Yj
, la diferencia digamos e j =
Yj -
Yj
Estadstica inferencial
n
j 1
SSE =
j 1
ej2
SSE
(Yj
Yj
)2
EC. 14
Y 0 1 X j
en la EC. 14 y
j 1
(Yj
Yj
)2
como:
SSE = Syy -
Sxy
EC. 15
SS E
MS E
n2
el cual es un estimador de .
10
Estadstica inferencial
constante, digamos
(1, 0)
H 0 : 1 (1, 0)
EC. 16
H 1 : 1 (1,0 )
Donde hemos supuesto una alternativa de dos lados (bilateral). Como resultado de
la suposicin de normalidad, el estadstico es:
t0
1 (1, 0)
MS E
Sxx
EC. 17
Rechazaramos H0 s:
Donde
t0
t 0 t / 2,n2
H 0 : 1 (1, 0)
EC. 18
EC. 19
H 1 : 0 ( 0,0)
Usaramos el estadstico:
t0
1 ( 0,0 )
1 x2
MS E
n Sxx
EC. 20
t 0 t / 2 , n 2
H1 : 1 0
EC. 21
11
Estadstica inferencial
H 0 : 1 0
Syy (Y j Y j ) 2
j 1
(Y j Y j )2
j 1
(Y j Y j )2
+
j 1
EC. 22
SSE = (Yj
Y
j
j =1
EC. 23
SSR =
Sxy
EC. 24
Syy tiene n-1 grados de libertad, y SS R y SSE tiene 1 y n-2 grados de libertad
respectivamente. Podemos mostrar que:
E SSE = 2
(n-2)
E(SSR)= 2 + 12Sxx
Estadstica inferencial
F0 =
= MSR
SSE
MSE
EC. 25
(n-2)
F , 1, n 2
de Suma
Variacin
Regresin
de Grados
cuadrados
Libertad
1
SSR = 1Sxy
SSE = Syy - n-2
Error
Residual
de Media
F0
cuadrtica
MSR
MSR / MSE
MSE
1Sxy
de Syy
Total
n-1
Grados
La prueba para la significancia de la regresin puede desarrollarse tambin a partir
de la EC. 17 con B1,0 = 0, digamos:
1
MS E
Sxx
t0
EC. 26
t02 =
Sxx =
MSE
Sxy = MSR
MSE
EC. 27
MSE
Ntese que t02 en la Ec. 27 es idntico a F0 en la EC. 25, es cierto en general, que
el cuadrado de una variable aleatoria t con f grados de libertad es una variable
aleatoria F, con uno y f grados de libertad en el numerador y el denominador,
13
Estadstica inferencial
Syy Yj 2
j 1
j 1
Yj
n
47225
673 2 1932.10
10
de Media
variacin
Regresin
cuadrados
1924.87
libertad
1
cuadrtica
1924.87
Error
7.23
0.90
Total
1932.10
F01, 1, 8 = 11.26
Fo
2138.74
Sxy = (0.4830303)(3,985) =
1924.87
Y la suma de cuadrados de 1 error es: SSE = Syy-SSR = 1932.10-1924.87 = 7.23
El anlisis de varianza para probar H 0 = B1 = 0 se resume en la tabla 2. Al notar
que F0 = 2138.74 > F01,1,8 = 11.26, rechazamos Ho y concluimos que H1: B1 0.
ESTIMACIN DE INTERVALOS EN LA REGRESIN LINEAL SIMPLE.
14
Estadstica inferencial
1 1
MS E / Sxx
1
x
MS E
n
Sxx
0 0
B1 t / 2,n 2
MS E
Sxx
B1 B1 t / 2,n 2
MS E
Sxx
EC.28
De manera que similar a un intervalo de confianza del 100% (1-) en la
ordenada del origen es:
0 t / 2, n 2
1 x2
MS E
n Sxx
0
0
/ 2, n 2
1 x2
MS E
n Sxx
EC.29
Ejemplo 3: Determinemos un intervalo de confianza del 95% en la pendiente
de la lnea de regresin empleando los datos en el ejemplo 1. Recurdese
que
obtenemos:
15
Estadstica inferencial
MS E
MS E
1 1 t 0.025, 8
Sxx
Sxx
1 p 1 0.95 0.05; t / 2 t 0.025 2.306v.t.
1 t 0.025, 8
0.90
0.90
1 0.48303 2.306
8250
8250
0.48303 2.306(0.010444659) 1 0.48303 2.306(0.010444659)
0.48303 2.306
(
X
X
)
1
1
(
Xo
X
)2
0
MS E
E (Y / X 0 ) Y0 t / 2,n2 MS E
n
Sxx
n
Sxx
Y 0 t / 2, n2
EC.30
El intervalo de confianza para E (y / X 0) es una funcin de X0. El ancho de un
intervalo es un mnimo para Xo = X y se ensancha conforme l X 0-X l aumenta.
e yj y j
yj
LIMITES
X0
100
110
120
130
140
150
160
170
180
190
Y0
45
51
54
61
66
70
74
78
85
89
45.56
50.39
55.22
60.05
64.88
69.72
74.55
79.38
84.21
89.04
DE
INTERVALO
INTERVALO
95%
-1.29
1.09
0.92
0.78
0.7
0.7
0.78
0.92
1.09
1.29
E(Y/X0)
44.27 A 46.84
49.29 A 51.48
54.30 A 56.14
59.27 A 60.83
64.18 A 65.58
69.02 A 70.42
73.77 A 75.33
78.46 A 80.30
83.12 A 85.30
87.75 A 90.33
1.29
1.09
0.92
0.78
0.7
0.7
0.78
0.92
1.09
1.29
e yj y j
-0.56
0.61
-1.22
0.95
1.12
0.28
-0.55
-1.38
0.79
-0.04
0.00
0.3136
0.3721
1.4884
0.9025
1.2544
0.0784
0.3025
1.9044
0.6241
0.0016
7.2420
16
Estadstica inferencial
1 ( Xo X ) 2
MS E
n
Sxx
Y0 t / 2, n2
1 ( Xo 145) 2
y0 2.306 0.90
8250
10
Y0
Y0
Y 0 0 1 X0
EC. 31
Estadstica inferencial
Y 0 t / 2, n2
(
X
X
)
1
1
(
Xo
X
)2
0
E (Y / X 0 ) Y0 t / 2, n2 MS E 1
MS E 1
n
Sxx
n
Sxx
1
(
160
145
)2
1 (160 145) 2
10
8250
10
8250
18
Estadstica inferencial
en la
ej = yj - j
a) Satisfactorio
b) Embudo
c) Doble arco
d) No lineal
19
Estadstica inferencial
Yj
(Yj- j)2
100 45
0.3136
110 51
0.3721
120 54
1.4884
130 61
0.9025
140 66
1.2544
150 70
0.0784
160 74
0.3025
170 78
1.9044
180 85
0.6241
190 89
0.0016
Xj
Estadstica inferencial
SSPE Yju Y j
j 1 u 1
ne
Hay
EC. 33
nj 1
j 1
Con
EC. 34
grados de libertad
Fo
SSLOF m 2 MSLOF
SSPE n m
MSPE
EC. 35
Ejemplo 6:
Xj
1
1
2
3.3
3.3
4
4
4
4.7
5
Yj
2.3
1.8
2.8
1.8
3.7
2.6
2.6
2.2
3.2
2
Xj Yj
2.3
1.8
5.6
5.94
12.21
10.4
10.4
8.8
15.04
10
Xj 2
1
1
4
10.89
10.89
16
16
16
22.09
25
Yj 2
5.29
3.24
7.84
3.24
13.69
6.76
6.76
4.84
10.24
4
(Yj - Y)2
0.29927336
1.09633218
0.00221453
1.09633218
0.72750865
0.06103806
0.06103806
0.41868512
0.12456747
0.71750865
0
11 5.6
3.5
19.6
31.36
12.25
1.42633218
n
1
2
3
4
5
6
7
8
9
1
21
Estadstica inferencial
5.6
2.8
15.68
31.36
7.84
0.00221453
2
1
5.6
2.1
11.76
31.36
4.41
0.55809689
3
1
3.4
20.4
36
11.56
0.30574394
4
1
3.2
19.2
36
10.24
0.12456747
5
1
6.5
3.4
22.1
42.25
11.56
0.30574394
6
1
6.9
34.5
47.61
25
4.63515571
74.
48.
225.7
378.8
148.7
10.9623529
5
4
3
1
6
Realizando las pruebas de falta de ajuste obtenemos la siguiente tabla:
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Xj
1
1
2
3.3
3.3
4
4
4
4.7
5
5.6
5.6
5.6
6
6
6.5
6.9
74.5
Yj
2.3
1.8
2.8
1.8
3.7
2.6
2.6
2.2
3.2
2
3.5
2.8
2.1
3.4
3.2
3.4
5
48.4
Nivel de X
1
1
2.05
2.05
(yj )2
0.0625
0.0625
3.3
3.3
4
4
4
2.75
2.75
2.47
2.47
2.47
0.9025
0.9025
0.0169
0.0169
0.0729
5.6
5.6
5.6
6
6
2.8
2.8
2.8
3.3
3.3
0.49
0
0.49
0.01
0.01
m =5
(Yj 0.125
1.805
)2
0.1067
0.98
0.02
SSPE=3.0367
22
Estadstica inferencial
X 4.38235294
Y 2.84705882
Sxx 52.53
Sxy 13.6241176
1 0.26037638
0 1.70899762
SS E 7.4288
EL
modelo
de
regresin
simple
es
Y 0 1 x 1.70899762 0.26037638 x
n 17
Syy 10.97
SSLOF SSE - SSPE
SSLOF 7.4288 - 3.0367 4.3921
SSR 1Sxy
Puesto que
F0 F , m 2, n m
es
igual
23
F0
F0
SS LOF / m 2
MS LOF
SS PE / n m
MS PE
4.3921 / 5 2
1.4640
5.78
3.0367 / 17 5 0.2530
R2
La cantidad de
SS R
SS E
1
Ecuacin 36
SS yy
SS yy
R2
3.5412
7.4288
1
0.3228
10.97
10.97
CORRELACIN
La mxima verosimilitud de las variables.
r
r
S xy
xx
S yy
1/ 2
Ecuacin 37
3985
3985
0.998128718
82501932.10 1/ 2 3992.471039
Conclusin:
La regresin lineal se emplea en estadstica para analizar la relacin o
dependencia que hay entre las variables estudiadas. Nos interesar cuantificar la
intensidad de dicha relacin lineal entre las variables a travs de un coeficiente de
correlacin lineal que designaremos por la letra r tambin conocido como
coeficiente de Pearson. Grficamente todo esto se puede plasmar mediante un
diagrama de dispersin (nube de puntos) con su correspondiente recta ajustada.
En este post acotaremos este anlisis a la correlacin entre dos variables x e y
nicamente, es decir, haremos un anlisis exclusivamente bidimensional ya que el
abordaje multivariante es ms complejo. No obstante, ser de vital importancia
tambin determinar el coeficiente de determinacin (R2) o bondad del ajuste. Este
nos indica el porcentaje del ajuste que se ha conseguido con el modelo lineal. A
mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la
variable y. De modo que se trata de una medida de la proximidad o de ajuste de la
recta de regresin a la nube de puntos.
Bibliografa
https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal