Académique Documents
Professionnel Documents
Culture Documents
REGRESIN
LINEAL SIMPLE
Dr Carlos Tapia Snchez
1 El diagrama de dispersin
Es un grfico que permite detectar la
existencia de una relacin entre dos
variables.
Visualmente se puede buscar patrones que
indiquen el tipo de relacin que se da entre
las variables.
X
Y
X
(d) Curvilinea inversa
X
(e) Lineal inversa
con ms dispersin
Relaciones posibles
entre X y Y vistos
en diagramas de
dispersin
X
(d) Ninguna relacin
A) Tipos de Variables
En una ecuacin como Y = 30 + 3X, el valor de Y
depende del valor que toma X, por eso a Y se le
llama variable dependiente, y a X se le llama
variable independiente.
Y = b0 + b1 X
Variable
Dependiente
Variable
Independiente
E) Forma general:
La ecuacin simple de primer grado tiene la
siguiente forma general
Y = b0 + b 1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando X = 1.
b0: el valor autnomo, es decir, Y = b0 cuando X = 0.
En la grfica es la interseccin con el eje Y
Ejemplo:
Y
Y = 3 + 1.5X
b0 = 3
X
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
= b + b X se llama
La ecuacin general Y
0
1
ecuacin de regresin y permite estimar o
predecir los valores de Y.
= error
Yi - Y
10
8
Lnea de
estimacin
Min Y - Y
i
4
2
Error= -6
Error= 2
X
2
10
12
14
Y nb + b X
XY b X b X
0
XY
Aplicacin
Los datos siguientes muestran las cantidades
consumidas de complemento nutricional (en Kg.) y
el aumento de peso de nios con signos de
desnutricin.
PACIENTE
COMPLEMENTO
10
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
10
12
14
13
15
17
14
14
EN Kg: X
AUMENTO DE
PESO : Y
X2
XY
1.0
8.0
1.0
8.0
1.5
10.0
2.3
15.0
2.0
9.0
4.0
18.0
2.5
12.0
6.3
30.0
3.0
14.0
9.0
42.0
3.5
13.0
12.3
45.5
16.0
60.0
4.0
15.0
4.5
17.0
20.3
76.5
5.0
14.0
25.0
70.0
5.5
14.0
30.3
77.0
32.5
126.0
126.3
X Y
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
442.0
XY
4
42
X
126,3
y
,en las ecuaciones normales,
obtenemos el siguiente sistema de ecuaciones.
126 = 10b0 + 32,5b1
442 = 32,5b0 + 126,3b1
Resolviendo el sistema tenemos: b0 = 7,479
b1= 1,576 ,por lo tanto,
7,479 1,576X
Y
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
c) Interpretacin
b0 = 7,478 : Es probable que un paciente desnutrido
que no sea considerado dentro del
Programa de Alimentacin Complementaria
tenga un peso de 7,478 Kg.
b1 = 1,576:Por cada Kg. del alimento complementario,
se espera que probablemente el nio
aumento su peso en 1,576 Kg.
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
Syx =
n2
14
Y Y
Y Y
1.0
8.0
9.055
-1.1
1.112181
1.5
10.0
9.843
0.2
0.024806
2.0
9.0
10.630
-1.6
2.658204
2.5
12.0
11.418
0.6
0.338375
3.0
14.0
12.206
1.8
3.217718
3.5
13.0
12.994
0.0
3.48E-05
4.0
15.0
13.782
1.2
1.483524
4.5
17.0
14.570
2.4
5.905386
5.0
14.0
15.358
-1.4
1.843621
5.5
14.0
46
-2.1
4.604028
32.5
126.0
126.0
0.0
21.2
Reemplazando en la formula
S yx =
21,20
21,20
2,65
10 2
8
Syx = 1,628
Tema
CORRELACIN
SIMPLE
Dr Carlos Tapia Snchez
r2
2
Y - Y
i
-Y
Y
Y - Y 0
Y Y
Y Y2
8.0
12.6
-4.6
21.16
10.0
12.6
-2.6
6.76
9.0
12.6
-3.6
12.96
12.0
12.6
-0.6
0.36
14.0
12.6
1.4
1.96
13.0
12.6
0.4
0.16
15.0
12.6
2.4
5.76
17.0
12.6
4.4
19.36
14.0
12.6
1.4
1.96
14.0
12.6
1.4
1.96
126.0
126.0
Y
0.0
Y Y
72.4
2
Y Y
9.055
12.6
-3.545
12.5699
9.843
12.6
-2.758
7.6038
10.630
12.6
-1.970
3.8793
11.418
12.6
-1.182
1.3964
12.206
12.6
-0.394
0.1551
12.994
12.6
0.394
0.1553
13.782
12.6
1.182
1.3971
14.570
12.6
1.970
3.8805
15.358
12.6
2.758
7.6055
16.146
12.6
3.546
12.5720
126.0
126.0
0.0
Y Y
51.2
2
r2
Y-Y
Yi - Y
51,2
0,707
72,4
Valores posibles de r2
Si r2 = 1 : Correlacin perfecta, es decir, toda
variacin de Y puede explicarse por X
Si r2 = 0 : no existe correlacin entre X e Y. La
variacin explicada es 0. La variable X
no explica nada de los cambios en Y
Resumen
2
0 r 1
Cuanto ms cerca a uno, las variables tendrn
mayor correlacin.
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
B) El coeficiente de correlacin
Es la raz cuadrada del coeficiente de
determinacin.
r = r2
Sus valores oscilan entre -1 y 1
Cuando r es positivo, indica que X e Y
estn directamente relacionados.
Fuerte Moderada
Negativa Negativa
-1 -0,9
Perfecta
Negativa
-0,5
Dbil
Negativa
Dbil
Positiva
0
Moderada
Positiva
0,5
No existe
correlacin
Fuerte
Positiva
0,9
Perfecta
Positiva
Ejemplo:
r2= 0,707
r = 0,707
r = 0,84
el signo es positivo ya que X e Y estn
relacionados directamente como lo indica el
signo del coeficiente b1 en la ecuacin de
regresin Y 7,479 1,576X
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
= Yi - Yi
i
1
hi
n
Xi X 2
Xi2 nX
i1
Pronstico para Y
Residuos
Residuos estndares
9.138461538
-0.138461538
-0.101107641
3.276923077
1.723076923
1.258228423
6.207692308
0.792307692
0.578560391
15
-1
-0.730221853
12.06923077
-2.069230769
-1.510997526
44.30769231
0.692307692
0.505538206
El estadstico D (Durbin-Watson)
n
i i1
i 2
i
i 1
Interpretacin de D:
Cuando residuos sucesivos estn correlacionados
positivamente, el valor de D se aproximar a cero.
Si los resultados no estn correlacionados, el valor D
estar cercano a 2.
Si se presentase una autocorrelacin negativa, lo
cual rara vez sucede, de valor D tomar un valor
mayor a 2 e, incluso podra aproximarse a su valor
mximo que es 4.
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
R Square
Change
F Change
.707a
19.336
df1
df2
1
Sig. F Change
.002
Durbin-Watson
1.517
b1 N
1,
SC x
b1 1 b1 1
t
S
Sb1
yx
SC x
2
Lo que se va hacer es estimar SC x
desconocido
conocido
S 2yx
Y
i 1
n2
b 2SC
1
x
-t0
t0
Pr( t 0 t t 0 )
b1 1
Pr t 0
t0 1
S
yx
SC x
S yx
Pr b1 t 0
1 b1 t 0
SC x
S yx
1
SC x
b0
b0 0
Sb0
2
2 1
x
0 ,
n SC x
b0 0
2
donde:
S yx
S 2yx
1
x
n SC x
t n2
n2
b 2 SC
x
0
-t0
t0
Pr( t 0 t t 0 )
Pr
b0 0
t0
t0 1
Sb0
Pr b0 t 0Sb0 0 b0 t 0Sb0 1
Y/X 0
2 1 X0 X 2
N y / X ,
Y
0
n
SC x
Pr y t 0S y y / X0 y t 0S y 1
donde:
1
X
x
S y S 2yx 0
n
SC x
2
X
X
1
N y / X , 1 0
Y
0
n
SC x
Pr y t 0S y Y / X0 y t 0S y 1
donde:
1 X0 x
2
S y S yx 1
n
SC x
SCtotal =
SCerror + SCregresin
(SCresidual)
Suma de
Cuadrados
Debido a la
Regresin
Error
Experimental
Total
b SC X
Y2
Y
n
GL
b12SC x n 2
SC total
Cuadrado
Medio
2
1
b SC x
F
calculado
b12SC x
S 2yx
S 2yx
n 1
E(CMe)
2 12SC x
Solucin
Primero se realizan los clculos necesarios:
n 10
Xi 32,5
Yi 126
Xi2 126,25
Yi2 1660
Xi Yi 442
A.
Clculo de los
coeficientes de regresin:
Y b0 b1X
b0 Y b1 X
X Y
XY
i
b1
n
2
i
2
X
i
n
442
32,5126
10
32,5
126,25
10
32,5
1,57
20,62
Interpretacin:
b0= Se espera que el peso que un nio que no
consume este complemento nutricional sea 7,49
Kg.
b1= Por cada Kg. de complemento nutricional, el
peso del nio se incrementar en 1,57 Kg.
B.
S yx
Pr 1,57 t 0,10 8
SC x
1 1,57 t 0,10 8
S yx
1 0,10
SC x
S yx
Pr 1,57 1,86
1 1,57 1,86
0,90
4,54
4,54
2
yx
S yx
126
2
1660
1,57 20,62
10
72,7 50,82
2,69
8
S yx 1,642
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
1,642
1,642
Pr 1,57 1,86
1 1,57 1,86
0,90
4,54
4,54
10
20,62
2
Interpretacin
C.
Anlisis de Varianza
Fuentes de
variabilidad
Suma de
Cuadrados
Debido a la
Regresin
Error
Experimental
Total
GL
Cuadrado
Medio
F
calculado
50,82
50,82
18,84
21,58
2,697
72,40
E(CMe)
D.
Si X = 5,1
Y 7,49 1,57(5,51)
Y 16,14
E. Prueba de Hiptesis acerca de 1
1. Hp: 1= 0
Ha: 1 0
2. = 0,10
CMeregresin
3. Fc
CMe error
Supuestos
- La muestra seleccionada al azar
- La poblacin se distribuye al azar
- Los valores de X fijas y de Y variables (o
aleatorias)
- Asunciones de la regresin lineal simple
4. Criterios de decisin
F1-/2
F/2
0,0041
5,32
5. Clculos
50,82
Fc
18,84
2,697
6. Conclusiones
La variable complemento nutricional es
apropiada para explicar el comportamiento
del aumento de peso en nios desnutridos.
Adems, la ecuacin de regresin puede ser
usada con fines de prediccin hasta cierto
lmite.
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
F.
0.99167236
R^2 ajustado
0.98959045
Error tpico
1.5310881
Observaciones
6
ANLISIS DE VARIANZA
GL
SC
CMe
Regresin
1116.62308
1116.62308
Residuos
9.37692308
2.34423077
Total
1126
F cal
P-valor
476.328138
2.60786E-05
Superior
95%
Inferior
95.0%
Superior
95.0%
Coefic
ientes
Error
tpico
Estadst
ico t
P-valor
Inferior
95%
Intercepcin
0.346154
0.9173433
0.37734384
0.72508508
-2.200804756
2.893112448
-2.200804756
2.893112448
Variable X 1
2.930769
0.13428531
21.824943
2.6079E-05
2.557932668
3.303605794
2.557932668
3.303605794
Ejemplo:
En la Farmacia Santa Rita, se desea determinar
la relacin lineal simple entre la experiencia del
vendedor y las ventas durante un mes. Se
seleccionan 5 vendedores, los datos registrados
se presentan a continuacin:
VENDEDOR
CARLOS PEDRO JOSE JUAN MANUEL
EXPERIENCIA
(aos):X
3
1
2
5
4
VENTAS
(unidades) : Y
9
5
7
14
10
Caso 1
Un equipo de profesionales en salud mental de un
hospital psiquitrico donde el tiempo de
permanencia es largo, quiere medir el nivel de
respuesta de pacientes retrados mediante un
programa de terapia de remotivacin. Para este
propsito
se
contaba
con
una
prueba
estandarizada, que era costosa y su aplicacin
tomaba mucho tiempo. Para salvar este obstculo,
el equipo cre una prueba ms fcil de aplicar.
Material de Clases Jorge Crdova Egocheaga. Febrero 2003
10
11
Prueba nueva
50
55
60
65
70
75
80
85
90
95
100
Prueba estandar 61
61
59
71
80
76
90
106
98
100
114
Caso 2
Se llevo a cabo un experimento para estudiar el
efecto de cierto medicamento para disminuir la
frecuencia cardiaca en adultos. Se reunieron los
siguientes datos: dosis en miligramos del
medicamento y la diferencia entre la frecuencia
cardiaca mas baja despus de la administracin
del medicamento y un control antes de
administrarlo.
Hoja de Comprobacin
entre X y Y
19. Una ecuacin de regresin no puede ser vlida al ampliarse fuera del
intervalo de muestra de la variable independiente
20. Un valor r2 implica que no existe una relacin de causa-efecto
significativa entre X y Y
21. Una valor pequeo de r2 implica que no existe una relacin de causaefecto significativa entre X y Y