Vous êtes sur la page 1sur 7

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Dpto. de Estad
Estadstica e Inform
Informtica

Relaciones entre variables y regresin


El trmino regresin fue introducido por Galton en su
libro Natural inheritance (1889) refirindose a la
ley de la regresin universal:
Cada peculiaridad en un hombre es compartida por
sus descendientes, pero en promedio, en un grado
menor.

Captulo VIII

Regresin a la media
Su trabajo se centraba en la descripcin de los
rasgos fsicos de los descendientes (una variable) a
partir de los de sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms
de 1000 registros de grupos familiares observando
una relacin del tipo:

Anlisis de Regresin

Altura del hijo = 85cm + 0,5 altura del padre (aprox.)


Mg.
Mg. Jes
Jess Salinas Flores

Francis Galton
Primo de Darwin
Estadstico y aventurero
Fundador (con otros) de
la estadstica moderna
para explicar las teoras
de Darwin.

jsalinas@lamolina.edu.pe

Regresin

Estudio conjunto de dos variables

Altura del hijo = 85cm + 0,5 altura del padre (Y= 85 + 0.5 X)
Si el padre mide 190cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x190=180 cm.
Alto, pero no tanto como el padre. Regresa a la media.
Si el padre mide 160cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x160=165 cm.
Bajo, pero no tanto como el padre. Regresa a la media.
Conclusin: los padres muy altos tienen tendencia a tener hijos
que heredan parte de esta altura, aunque tienen tendencia a
acercarse (regresar) a la media. Lo mismo puede decirse de los
padres muy bajos.
Galton encontr que la estatura de los hijos bajos y altos
regresaban a la estatura promedio de la poblacin.
En la terminologa de Galton, esto era la regresin a la
mediocridad
3

A la derecha tenemos una posible manera de


recoger los datos obtenidos observando dos
variables en varios individuos de una muestra.
En cada fila tenemos los datos de un individuo
Cada columna representa los valores que toma
una variable sobre los mismos.
Las individuos no se muestran en ningn orden
particular.

Dichas observaciones pueden ser representadas


en un diagrama de dispersin (scatterplot).
En ellos, cada individuos es un punto cuyas
coordenadas son los valores de las variables.
Nuestro objetivo ser intentar reconocer a partir
del mismo si hay relacin entre las variables, de
qu tipo, y si es posible predecir el valor de una
de ellas en funcin de la otra.

Altura
en cm.

Peso
en Kg.

162

61

154

60

180

78

158

62

171

66

169

60

166

54

176

84

163

68

...

...

Diagramas de dispersin o nube de


puntos (scatterplot)

Relacin entre variables.

Tenemos las alturas y los pesos de 30 individuos representados en


un diagrama de dispersin.

100

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de


dispersin.

100
90

90

80

Pesa 76 kg.

80

70

70
Mide 187 cm.

60

Pesa 50 kg.

50
Mide 161 cm.

40

e
rec
Pa

60
50

qu

so
l pe
e
e

e
aum

nta

la a
con

a
ltur

40
30

30
140

150

160

170

180

190

200

Prediccin de una variable en funcin de la otra


Aparentemente el peso aumenta 10 Kg. por cada 10 cm. de
altura... o sea, el peso aumenta en una unidad por cada unidad de
altura.

160

170

180

190

200
6

Regresin
El anlisis de regresin sirve para predecir una
medida en funcin de otra medida (o varias).
predecida
explicada

90
80

X = Variable independiente

70

predictora
explicativa

10 kg.

Es posible descubrir una relacin?

50

Y = f(X) + error

10 cm.

40
30
140

150

Y = Variable dependiente

100

60

140

150

160

f es una funcin de un tipo determinado


el error es aleatorio, pequeo, y no depende de X

170

180

190

200
8

En el ejemplo de Pearson y las alturas, l encontr:


= b0 + b1X

Modelo de regresin lineal simple

En el modelo de regresin lineal simple, dado dos


variables

Y (dependiente)
X (independiente, explicativa, predictora)

buscamos encontrar una funcin de X muy simple


(lineal) que nos permita aproximar Y mediante

b0=85 cm (No interpretar como altura de un hijo cuyo


padre mide 0 cm
b1=0,5 (En promedio el hijo gana 0,5 cm por cada cm del
padre.)
180

120
90
60

Y e rara vez coincidirn por muy bueno que sea el


modelo de regresin. A la cantidad

b1=0,5

150

= b 0 + b 1X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)

b0=85 cm

30

e=Y- se le denomina residuo o error residual.

180
b1=0,5

150
120

220

La relacin entre las variables no es exacta. Es


natural preguntarse entonces:
Cul es la mejor recta que sirve para predecir los
valores de Y en funcin de los de X?
Qu error cometemos con dicha aproximacin
(residual)?

210

200

190

180

170

160

150

140

130

120

110

100

90

80

70

60

50

40

30

20

10

10

Modelo de Regresin Lineal Simple


Yi = 0 + 1 X i + i

, i = 1,2,3, , n

Donde:
La parte sistemtica o no aleatoria es : 0 + 1 X i
La parte aleatoria o estocstica es
: i
Adems:
Y es la variable dependiente o variable respuesta.
X es la variable independiente, explicativa o de
prediccin.
0 es el coeficiente de interseccin paramtrico.
1 es el coeficiente de regresin paramtrico.
i es el error o residual.

90
60

b0=85 cm

30
0

220

210

200

190

180

170

160

150

140

130

120

110

100

90

80

70

60

50

40

30

20

10

11

12

Causas de Error o Residual


1.
2.
3.

Supuestos del ARLS

No se consideran otras variables que


afectan a Y.
Errores en la medicin de X o Y.
La relacin entre X y Y no es lineal.

La variable independiente X es fija


(no aleatoria ).
La variable dependiente Y es aleatoria.
Para cada valor de X existe una distribucin
normal de Y.

1.
2.
3.

El

4.

i ~ N (0,2)

para

i=1,2,3,...,n

13

Recta de regresin estimada

Estimacin por el mtodo de mnimos


cuadrados

Yi = b0 + b1 X i

i = Yi 0 1 X i
n

i =1

i =1

Q = i2 = (Yi 0 1 X i )

14

ei = Yi Yi

estima a

y estima a

Y.X = 0 + 1 X i

i = Yi Y . X

550
500

Yi = Yi + ei = b0 + b1 X i + ei

450

b0 = y b1 x

x y nx y = ( x x )( y y )
x nx
( x x)
i

2
i

Precio

xi yi
SP ( XY ) xi yi
n
b1 =
=
=
2
SC ( X )
x
(

i)
2
xi n

400
350

Yi

300
250

Yi = 0 + 1 X i + i

ei

200

Yi

150
100
0

10

Captura
15

16

Anlisis de Variancia en el ARLS

El Anlisis de la variancia (ANVA) consiste en


la descomposicin de la variacin total o
suma de cuadrados total

SC (T ) = SC (Y ) = yi y
i =1

SC(Total)

( )
SC ( R) = (Y y )

en sus fuentes de variacin que en este caso


son la suma de cuadrados de la regresin y la
suma de cuadrados del error.
17

Prueba de Hiptesis

SC(Error)

SC(Regresin)

SC ( R) = Yi y

= y ny

2
i

) (

yi y = Yi y + yi Yi

( ) = b SC ( X )
= b ( x x )( y y ) = b SP( XY )
= b12 xi x
1

2
1

Fuente de
variacin
F. De V.
REGRESIN

Grados de
libertad
G.L
1

Suma de
cuadrados
SC
SC(R)

Cuadrado
medio
CM=SC/G.L
CM(R)

ERROR

n-2

SC(E)

CME

TOTAL

n-1

SC(T)
18

Coeficiente de determinaci
determinacin y de no determinaci
determinacin

Hp: 12 = 0 (no hay relacin lineal entre X e Y)


Ha: 12 > 0 (si hay relacin lineal entre X e Y)
2 (1)
SC ( R) / 2
CM ( R)
1
Fc =
= 2 1
=
CME
( n 2)
SCE / 2
n2
n2

19

El coeficiente de determinacin (r2) mide la


proporcin o porcentaje de la variacin total
de Y que es explicada por el modelo de
regresin.
El coeficiente de no determinacin (1 - r2)
mide la proporcin o porcentaje de la
variacin total de Y que no es explicada por el
modelo de regresin.
2
SC( R )
( SP( XY )) , 0 r 2 1
r2 =
=
SC(Y ) SC( X ) SC(Y )
SC( R )
SCE
1 r2 = 1
=
, 0 1 r2 1
20
SC(Y ) SC(Y )

Propiedades de r

Coeficiente de correlacin lineal simple

Es adimensional
Slo toma valores en [-1,1]
Las variables son incorrelacionadas r=0
Relacin lineal perfecta entre dos variables
r=+1 o r=-1
Cuanto ms cerca est r de +1 o -1 mejor ser
el grado de asociacin lineal.

El coeficiente de correlacin lineal de


Pearson mide el grado de asociacin de
dos variables X e Y.
Si r es positiva la asociacin es positiva
(si una aumenta (o disminuye) la otra
tambin aumenta (o disminuye).
Si r es negativa la asociacin es
negativa (si una aumenta (o disminuye)
la otra disminuye (o aumenta).
r es til para determinar si hay relacin
lineal entre dos variables, pero no
servir para otro tipo de relaciones
(cuadrtica, logartmica,...)

Relacin
inversa
perfecta

-1

21

230
180
130
80
30
140

r=0,1
150

160

170

180

190

200

130
120
110
100
90
80
70
60
50
40
30
140

100

100

90

90

80

80

70

70

60

60

50

50

40
30
140

150

160

170

180

190

r=0,4
150

160

170

180

200

30
140

190

200

Y
X

190 160 134 129 172 197 167 239 542 372
7.23 8.53 9.82 10.3 8.96 12.3 10.3 4.45 1.78 4

245
3.3

376
4.3

454
0.8

550
500
450
400

40

r=0,8

22

En cierto pas se estudi la captura de anchoas,


en millones de toneladas mtricas, (X), y los
precios de harina de pescado, en dlares por
tonelada, (Y) para los ltimos 13 aos.

Precio

280

+1

Ejemplo

Entrenando el ojo: correlaciones positivas


330

Relacin
directa
casi
perfecta

Variables
incorrelacionadas

350
300
250

r=0,99

200

150

160

170

180

190

200

150
100

23

10

Captura

24

Clculos previos
13

x
i =1

13

x
i =1

= 85.98,

13

x
i =1

2
i

= 732.2376,

Lnea de regresin estimada

13

y
i =1

= 3377,

13

y
i =1

2
i

= 1089365

b1 =

yi = 17357.8

SC ( X ) = xi2
SC (Y ) = yi2

SP ( XY )
= 30.4266
SC ( X )

13
xi
i =1
b0 = y b1 x =
( b1 ) i =1 = 461.0062
13
13

La lnea de regresin estimada es:


13

( x )

n
( y i ) 2

SP ( XY ) = xi yi

yi

= 163.5791
= 212124.3077

x y
i

= 4977.1585

Yi = 461.0062 30.4266 X i
25

Verificando si hay relacin lineal entre X e Y

26

Prueba de Hiptesis

SC ( R ) = b12 SC ( X ) = b1 SP ( XY ) = 151438.075

Hp : 12 = 0 (no hay relacin lineal entre X e Y)

SC ( Error ) = SC (Y ) SC ( R ) = 60686.2327

Ha : 12 > 0 (si hay relacin lineal entre X e Y)


( Fc = 27.45) > ( F0.01,1,11 = 9.65 )

Tabla de ANVA
Fuente de
variacin

Grados
de
libertad

Suma de
cuadrados

Cuadrado
medio

F calculado

F. De V.

G.L

SC

CM=SC/G.L

Fc

REGRESIN
ERROR
TOTAL

1
11
12

151438.0750
60686.2327
212124.3077

151438.075
5516.9302

27.45

Se rechaza Hp

Coeficiente de Determinacin
SC ( R )
( SP ( XY ) ) = 0.7139 71.39%
r =
=
(
)
SC (Y ) SC ( X ) SC (Y )
2

27

Indica que el 71.39% de la variacin de los precios es


explicada por la regresin.
28

Vous aimerez peut-être aussi