Académique Documents
Professionnel Documents
Culture Documents
Dpto. de Estad
Estadstica e Inform
Informtica
Captulo VIII
Regresin a la media
Su trabajo se centraba en la descripcin de los
rasgos fsicos de los descendientes (una variable) a
partir de los de sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms
de 1000 registros de grupos familiares observando
una relacin del tipo:
Anlisis de Regresin
Francis Galton
Primo de Darwin
Estadstico y aventurero
Fundador (con otros) de
la estadstica moderna
para explicar las teoras
de Darwin.
jsalinas@lamolina.edu.pe
Regresin
Altura del hijo = 85cm + 0,5 altura del padre (Y= 85 + 0.5 X)
Si el padre mide 190cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x190=180 cm.
Alto, pero no tanto como el padre. Regresa a la media.
Si el padre mide 160cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x160=165 cm.
Bajo, pero no tanto como el padre. Regresa a la media.
Conclusin: los padres muy altos tienen tendencia a tener hijos
que heredan parte de esta altura, aunque tienen tendencia a
acercarse (regresar) a la media. Lo mismo puede decirse de los
padres muy bajos.
Galton encontr que la estatura de los hijos bajos y altos
regresaban a la estatura promedio de la poblacin.
En la terminologa de Galton, esto era la regresin a la
mediocridad
3
Altura
en cm.
Peso
en Kg.
162
61
154
60
180
78
158
62
171
66
169
60
166
54
176
84
163
68
...
...
100
100
90
90
80
Pesa 76 kg.
80
70
70
Mide 187 cm.
60
Pesa 50 kg.
50
Mide 161 cm.
40
e
rec
Pa
60
50
qu
so
l pe
e
e
e
aum
nta
la a
con
a
ltur
40
30
30
140
150
160
170
180
190
200
160
170
180
190
200
6
Regresin
El anlisis de regresin sirve para predecir una
medida en funcin de otra medida (o varias).
predecida
explicada
90
80
X = Variable independiente
70
predictora
explicativa
10 kg.
50
Y = f(X) + error
10 cm.
40
30
140
150
Y = Variable dependiente
100
60
140
150
160
170
180
190
200
8
Y (dependiente)
X (independiente, explicativa, predictora)
120
90
60
b1=0,5
150
= b 0 + b 1X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)
b0=85 cm
30
180
b1=0,5
150
120
220
210
200
190
180
170
160
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
10
, i = 1,2,3, , n
Donde:
La parte sistemtica o no aleatoria es : 0 + 1 X i
La parte aleatoria o estocstica es
: i
Adems:
Y es la variable dependiente o variable respuesta.
X es la variable independiente, explicativa o de
prediccin.
0 es el coeficiente de interseccin paramtrico.
1 es el coeficiente de regresin paramtrico.
i es el error o residual.
90
60
b0=85 cm
30
0
220
210
200
190
180
170
160
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
11
12
1.
2.
3.
El
4.
i ~ N (0,2)
para
i=1,2,3,...,n
13
Yi = b0 + b1 X i
i = Yi 0 1 X i
n
i =1
i =1
Q = i2 = (Yi 0 1 X i )
14
ei = Yi Yi
estima a
y estima a
Y.X = 0 + 1 X i
i = Yi Y . X
550
500
Yi = Yi + ei = b0 + b1 X i + ei
450
b0 = y b1 x
x y nx y = ( x x )( y y )
x nx
( x x)
i
2
i
Precio
xi yi
SP ( XY ) xi yi
n
b1 =
=
=
2
SC ( X )
x
(
i)
2
xi n
400
350
Yi
300
250
Yi = 0 + 1 X i + i
ei
200
Yi
150
100
0
10
Captura
15
16
SC (T ) = SC (Y ) = yi y
i =1
SC(Total)
( )
SC ( R) = (Y y )
Prueba de Hiptesis
SC(Error)
SC(Regresin)
SC ( R) = Yi y
= y ny
2
i
) (
yi y = Yi y + yi Yi
( ) = b SC ( X )
= b ( x x )( y y ) = b SP( XY )
= b12 xi x
1
2
1
Fuente de
variacin
F. De V.
REGRESIN
Grados de
libertad
G.L
1
Suma de
cuadrados
SC
SC(R)
Cuadrado
medio
CM=SC/G.L
CM(R)
ERROR
n-2
SC(E)
CME
TOTAL
n-1
SC(T)
18
Coeficiente de determinaci
determinacin y de no determinaci
determinacin
19
Propiedades de r
Es adimensional
Slo toma valores en [-1,1]
Las variables son incorrelacionadas r=0
Relacin lineal perfecta entre dos variables
r=+1 o r=-1
Cuanto ms cerca est r de +1 o -1 mejor ser
el grado de asociacin lineal.
Relacin
inversa
perfecta
-1
21
230
180
130
80
30
140
r=0,1
150
160
170
180
190
200
130
120
110
100
90
80
70
60
50
40
30
140
100
100
90
90
80
80
70
70
60
60
50
50
40
30
140
150
160
170
180
190
r=0,4
150
160
170
180
200
30
140
190
200
Y
X
190 160 134 129 172 197 167 239 542 372
7.23 8.53 9.82 10.3 8.96 12.3 10.3 4.45 1.78 4
245
3.3
376
4.3
454
0.8
550
500
450
400
40
r=0,8
22
Precio
280
+1
Ejemplo
Relacin
directa
casi
perfecta
Variables
incorrelacionadas
350
300
250
r=0,99
200
150
160
170
180
190
200
150
100
23
10
Captura
24
Clculos previos
13
x
i =1
13
x
i =1
= 85.98,
13
x
i =1
2
i
= 732.2376,
13
y
i =1
= 3377,
13
y
i =1
2
i
= 1089365
b1 =
yi = 17357.8
SC ( X ) = xi2
SC (Y ) = yi2
SP ( XY )
= 30.4266
SC ( X )
13
xi
i =1
b0 = y b1 x =
( b1 ) i =1 = 461.0062
13
13
( x )
n
( y i ) 2
SP ( XY ) = xi yi
yi
= 163.5791
= 212124.3077
x y
i
= 4977.1585
Yi = 461.0062 30.4266 X i
25
26
Prueba de Hiptesis
SC ( R ) = b12 SC ( X ) = b1 SP ( XY ) = 151438.075
SC ( Error ) = SC (Y ) SC ( R ) = 60686.2327
Tabla de ANVA
Fuente de
variacin
Grados
de
libertad
Suma de
cuadrados
Cuadrado
medio
F calculado
F. De V.
G.L
SC
CM=SC/G.L
Fc
REGRESIN
ERROR
TOTAL
1
11
12
151438.0750
60686.2327
212124.3077
151438.075
5516.9302
27.45
Se rechaza Hp
Coeficiente de Determinacin
SC ( R )
( SP ( XY ) ) = 0.7139 71.39%
r =
=
(
)
SC (Y ) SC ( X ) SC (Y )
2
27