Capitulo VIII. Analisis de Regresion

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estad
Estadstica e Inform
Informtica
Relaciones entre variables y regresin

El trmino regresin fue introducido por Galton en su
libro Natural inheritance (1889) refirindose a la
ley de la regresin universal:
Cada peculiaridad en un hombre es compartida por
sus descendientes, pero en promedio, en un grado
menor.
Captulo VIII
Regresin a la media
Su trabajo se centraba en la descripcin de los
rasgos fsicos de los descendientes (una variable) a
partir de los de sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms
de 1000 registros de grupos familiares observando
una relacin del tipo:
Anlisis de Regresin
Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

Mg.
Mg. Jes
Jess Salinas Flores
Francis Galton
Primo de Darwin
Estadstico y aventurero
Fundador (con otros) de
la estadstica moderna
para explicar las teoras
de Darwin.
jsalinas@lamolina.edu.pe
Regresin
Estudio conjunto de dos variables
Altura del hijo = 85cm + 0,5 altura del padre (Y= 85 + 0.5 X)
Si el padre mide 190cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x190=180 cm.
Alto, pero no tanto como el padre. Regresa a la media.
Si el padre mide 160cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x160=165 cm.
Bajo, pero no tanto como el padre. Regresa a la media.
Conclusin: los padres muy altos tienen tendencia a tener hijos
que heredan parte de esta altura, aunque tienen tendencia a
acercarse (regresar) a la media. Lo mismo puede decirse de los
padres muy bajos.
Galton encontr que la estatura de los hijos bajos y altos
regresaban a la estatura promedio de la poblacin.
En la terminologa de Galton, esto era la regresin a la
mediocridad
3
A la derecha tenemos una posible manera de

recoger los datos obtenidos observando dos
variables en varios individuos de una muestra.
En cada fila tenemos los datos de un individuo
Cada columna representa los valores que toma
una variable sobre los mismos.
Las individuos no se muestran en ningn orden
particular.
Dichas observaciones pueden ser representadas

en un diagrama de dispersin (scatterplot).
En ellos, cada individuos es un punto cuyas
coordenadas son los valores de las variables.
Nuestro objetivo ser intentar reconocer a partir
del mismo si hay relacin entre las variables, de
qu tipo, y si es posible predecir el valor de una
de ellas en funcin de la otra.
Altura
en cm.
Peso
en Kg.
162
61
154
60
180
78
158
62
171
66
169
60
166
54
176
84
163
68
...
...
Diagramas de dispersin o nube de

puntos (scatterplot)
Relacin entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en

un diagrama de dispersin.
100
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de

dispersin.
100
90
90
80
Pesa 76 kg.
80
70
70
Mide 187 cm.
60
Pesa 50 kg.
50
Mide 161 cm.
40
e
rec
Pa
60
50
qu
so
l pe
e
e
e
aum
nta
la a
con
a
ltur
40
30
30
140
150
160
170
180
190
200
Prediccin de una variable en funcin de la otra

Aparentemente el peso aumenta 10 Kg. por cada 10 cm. de
altura... o sea, el peso aumenta en una unidad por cada unidad de
altura.
160
170
180
190
200
6
Regresin
El anlisis de regresin sirve para predecir una
medida en funcin de otra medida (o varias).
predecida
explicada
90
80
X = Variable independiente
70
predictora
explicativa
10 kg.
Es posible descubrir una relacin?
50
Y = f(X) + error
10 cm.
40
30
140
150
Y = Variable dependiente
100
60
140
150
160
f es una funcin de un tipo determinado

el error es aleatorio, pequeo, y no depende de X
170
180
190
200
8
En el ejemplo de Pearson y las alturas, l encontr:

= b0 + b1X
Modelo de regresin lineal simple
En el modelo de regresin lineal simple, dado dos

variables
Y (dependiente)
X (independiente, explicativa, predictora)
buscamos encontrar una funcin de X muy simple

(lineal) que nos permita aproximar Y mediante
b0=85 cm (No interpretar como altura de un hijo cuyo

padre mide 0 cm
b1=0,5 (En promedio el hijo gana 0,5 cm por cada cm del
padre.)
180
120
90
60
Y e rara vez coincidirn por muy bueno que sea el

modelo de regresin. A la cantidad
b1=0,5
150
= b 0 + b 1X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)
b0=85 cm
30
e=Y- se le denomina residuo o error residual.
180
b1=0,5
150
120
220
La relacin entre las variables no es exacta. Es

natural preguntarse entonces:
Cul es la mejor recta que sirve para predecir los
valores de Y en funcin de los de X?
Qu error cometemos con dicha aproximacin
(residual)?
210
200
190
180
170
160
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
10
Modelo de Regresin Lineal Simple

Yi = 0 + 1 X i + i
, i = 1,2,3, , n
Donde:
La parte sistemtica o no aleatoria es : 0 + 1 X i
La parte aleatoria o estocstica es
: i
Adems:
Y es la variable dependiente o variable respuesta.
X es la variable independiente, explicativa o de
prediccin.
0 es el coeficiente de interseccin paramtrico.
1 es el coeficiente de regresin paramtrico.
i es el error o residual.
90
60
b0=85 cm
30
0
220
210
200
190
180
170
160
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
11
12
Causas de Error o Residual

1.
2.
3.
Supuestos del ARLS
No se consideran otras variables que

afectan a Y.
Errores en la medicin de X o Y.
La relacin entre X y Y no es lineal.
La variable independiente X es fija

(no aleatoria ).
La variable dependiente Y es aleatoria.
Para cada valor de X existe una distribucin
normal de Y.
1.
2.
3.
El
4.
i ~ N (0,2)
para
i=1,2,3,...,n
13
Recta de regresin estimada
Estimacin por el mtodo de mnimos

cuadrados
Yi = b0 + b1 X i
i = Yi 0 1 X i
n
i =1
i =1
Q = i2 = (Yi 0 1 X i )
14
ei = Yi Yi
estima a
y estima a
Y.X = 0 + 1 X i
i = Yi Y . X
550
500
Yi = Yi + ei = b0 + b1 X i + ei
450
b0 = y b1 x
x y nx y = ( x x )( y y )
x nx
( x x)
i
2
i
Precio
xi yi
SP ( XY ) xi yi
n
b1 =
=
=
2
SC ( X )
x
(
i)
2
xi n
400
350
Yi
300
250
Yi = 0 + 1 X i + i
ei
200
Yi
150
100
0
10
Captura
15
16
Anlisis de Variancia en el ARLS
El Anlisis de la variancia (ANVA) consiste en

la descomposicin de la variacin total o
suma de cuadrados total
SC (T ) = SC (Y ) = yi y
i =1
SC(Total)
( )
SC ( R) = (Y y )
en sus fuentes de variacin que en este caso

son la suma de cuadrados de la regresin y la
suma de cuadrados del error.
17
Prueba de Hiptesis
SC(Error)
SC(Regresin)
SC ( R) = Yi y
= y ny
2
i
) (
yi y = Yi y + yi Yi
( ) = b SC ( X )
= b ( x x )( y y ) = b SP( XY )
= b12 xi x
1
2
1
Fuente de
variacin
F. De V.
REGRESIN
Grados de
libertad
G.L
1
Suma de
cuadrados
SC
SC(R)
Cuadrado
medio
CM=SC/G.L
CM(R)
ERROR
n-2
SC(E)
CME
TOTAL
n-1
SC(T)
18
Coeficiente de determinaci
determinacin y de no determinaci
determinacin
Hp: 12 = 0 (no hay relacin lineal entre X e Y)

Ha: 12 > 0 (si hay relacin lineal entre X e Y)
2 (1)
SC ( R) / 2
CM ( R)
1
Fc =
= 2 1
=
CME
( n 2)
SCE / 2
n2
n2
19
El coeficiente de determinacin (r2) mide la

proporcin o porcentaje de la variacin total
de Y que es explicada por el modelo de
regresin.
El coeficiente de no determinacin (1 - r2)
mide la proporcin o porcentaje de la
variacin total de Y que no es explicada por el
modelo de regresin.
2
SC( R )
( SP( XY )) , 0 r 2 1
r2 =
=
SC(Y ) SC( X ) SC(Y )
SC( R )
SCE
1 r2 = 1
=
, 0 1 r2 1
20
SC(Y ) SC(Y )
Propiedades de r
Coeficiente de correlacin lineal simple
Es adimensional
Slo toma valores en [-1,1]
Las variables son incorrelacionadas r=0
Relacin lineal perfecta entre dos variables
r=+1 o r=-1
Cuanto ms cerca est r de +1 o -1 mejor ser
el grado de asociacin lineal.
El coeficiente de correlacin lineal de

Pearson mide el grado de asociacin de
dos variables X e Y.
Si r es positiva la asociacin es positiva
(si una aumenta (o disminuye) la otra
tambin aumenta (o disminuye).
Si r es negativa la asociacin es
negativa (si una aumenta (o disminuye)
la otra disminuye (o aumenta).
r es til para determinar si hay relacin
lineal entre dos variables, pero no
servir para otro tipo de relaciones
(cuadrtica, logartmica,...)
Relacin
inversa
perfecta
-1
21
230
180
130
80
30
140
r=0,1
150
160
170
180
190
200
130
120
110
100
90
80
70
60
50
40
30
140
100
100
90
90
80
80
70
70
60
60
50
50
40
30
140
150
160
170
180
190
r=0,4
150
160
170
180
200
30
140
190
200
Y
X
190 160 134 129 172 197 167 239 542 372
7.23 8.53 9.82 10.3 8.96 12.3 10.3 4.45 1.78 4
245
3.3
376
4.3
454
0.8
550
500
450
400
40
r=0,8
22
En cierto pas se estudi la captura de anchoas,

en millones de toneladas mtricas, (X), y los
precios de harina de pescado, en dlares por
tonelada, (Y) para los ltimos 13 aos.
Precio
280
+1
Ejemplo
Entrenando el ojo: correlaciones positivas

330
Relacin
directa
casi
perfecta
Variables
incorrelacionadas
350
300
250
r=0,99
200
150
160
170
180
190
200
150
100
23
10
Captura
24
Clculos previos
13
x
i =1
13
x
i =1
= 85.98,
13
x
i =1
2
i
= 732.2376,
Lnea de regresin estimada
13
y
i =1
= 3377,
13
y
i =1
2
i
= 1089365
b1 =
yi = 17357.8
SC ( X ) = xi2
SC (Y ) = yi2
SP ( XY )
= 30.4266
SC ( X )
13
xi
i =1
b0 = y b1 x =
( b1 ) i =1 = 461.0062
13
13
La lnea de regresin estimada es:

13
( x )
n
( y i ) 2
SP ( XY ) = xi yi
yi
= 163.5791
= 212124.3077
x y
i
= 4977.1585
Yi = 461.0062 30.4266 X i
25
Verificando si hay relacin lineal entre X e Y
26
Prueba de Hiptesis
SC ( R ) = b12 SC ( X ) = b1 SP ( XY ) = 151438.075
Hp : 12 = 0 (no hay relacin lineal entre X e Y)
SC ( Error ) = SC (Y ) SC ( R ) = 60686.2327
Ha : 12 > 0 (si hay relacin lineal entre X e Y)

( Fc = 27.45) > ( F0.01,1,11 = 9.65 )
Tabla de ANVA
Fuente de
variacin
Grados
de
libertad
Suma de
cuadrados
Cuadrado
medio
F calculado
F. De V.
G.L
SC
CM=SC/G.L
Fc
REGRESIN
ERROR
TOTAL
1
11
12
151438.0750
60686.2327
212124.3077
151438.075
5516.9302
27.45
Se rechaza Hp
Coeficiente de Determinacin
SC ( R )
( SP ( XY ) ) = 0.7139 71.39%
r =
=
(
)
SC (Y ) SC ( X ) SC (Y )
2
27
Indica que el 71.39% de la variacin de los precios es

explicada por la regresin.
28

Capitulo VIII. Analisis de Regresion

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Capitulo VIII. Analisis de Regresion

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Relaciones entre variables y regresin

Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

Estudio conjunto de dos variables

A la derecha tenemos una posible manera de

Dichas observaciones pueden ser representadas

Diagramas de dispersin o nube de

Relacin entre variables.

Tenemos las alturas y los pesos de 30 individuos representados en

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de

Prediccin de una variable en funcin de la otra

Es posible descubrir una relacin?

f es una funcin de un tipo determinado

En el ejemplo de Pearson y las alturas, l encontr:

Modelo de regresin lineal simple

En el modelo de regresin lineal simple, dado dos

buscamos encontrar una funcin de X muy simple

b0=85 cm (No interpretar como altura de un hijo cuyo

Y e rara vez coincidirn por muy bueno que sea el

e=Y- se le denomina residuo o error residual.

La relacin entre las variables no es exacta. Es

Modelo de Regresin Lineal Simple

Causas de Error o Residual

Supuestos del ARLS

No se consideran otras variables que

La variable independiente X es fija

Recta de regresin estimada

Estimacin por el mtodo de mnimos

Anlisis de Variancia en el ARLS

El Anlisis de la variancia (ANVA) consiste en

en sus fuentes de variacin que en este caso

Hp: 12 = 0 (no hay relacin lineal entre X e Y)

El coeficiente de determinacin (r2) mide la

Coeficiente de correlacin lineal simple

El coeficiente de correlacin lineal de

En cierto pas se estudi la captura de anchoas,

Entrenando el ojo: correlaciones positivas

Lnea de regresin estimada

La lnea de regresin estimada es:

Verificando si hay relacin lineal entre X e Y

Hp : 12 = 0 (no hay relacin lineal entre X e Y)

Ha : 12 > 0 (si hay relacin lineal entre X e Y)

Indica que el 71.39% de la variacin de los precios es

Vous aimerez peut-être aussi