Vous êtes sur la page 1sur 39

39 1

Tema 23 Regresin y Correlacin:


ajuste descriptivo de datos
39 2
El trmino regresin fue introducido por Galton
en su libro Natural inheritance (1889)
refirindose a la ley de la regresin universal:
Cada peculiaridad en un hombre es compartida
por sus descendientes, pero en media, en un
grado menor.
Pearson, sobre una muestra de ms de
1000 familias observ una relacin
aproximada (en cms):
Regresin a la media
padre del Altura
2
1
85 hijo del Altura + =
Estudio descriptivo de la regresin
Francis Galton
39 3
Altura
en cm.
Peso
en Kg.
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
... ...
PROBLEMA INICIAL: A partir de la
distribucin bidimensional del peso y
la estatura de una muestra de 30
individuos, nos planteamos:
Existe relacin lineal entre las
variables?
En caso afirmativo, encontrar la recta
que mejor describe la relacin
39 4
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Diagramas de dispersin o nube de
puntos
M
i
d
e

1
8
7

c
m
.
Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.
39 5
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Relacin entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.
39 6
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Prediccin de una variable en
funcin de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.
10 cm.
10 kg.
39 7
x x
i

( )
i i
y x ,
y
y y
i

x
) )( (
1
y y x x
n
S
i
i
i xy
=

COVARIANZA
Indicador del tipo de relacin
(directa o inversa) entre dos
variables
La Covarianza
39 8
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Tipos de relacin
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Incorrelacin
Relacin inversa
Relacin directa
0
xy
S 0 >
xy
S
0 <
xy
S
39 9
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Problema del AJUSTE LINEAL: Encontrar la recta que mejor se
ajusta a la nube de puntos
39 10
x
bx a y + =
RESIDUOS DEL AJUSTE
i
bx a +
i
y
i
e
i
x
Y
( )
i i i
bx a y e + =
39 11
Criterio de mnimos
cuadrados
( ) ( )
mnima sea
suma la que tales y siendo
1
2

=
+
n
i
i i
bx a y
b a
bx a y + =
recta una de ecuacin la Hallar
( )

=
=
2
1
2
residuos
n
i
i
e
39 12
Ecuaciones normales
Solucin al problema del ajuste

= =
+ =
n
i
i
n
i
i
x b na y
1 1

= = =
+ =
n
i
i
n
i
n
i
i i i
x b x a y x
1
2
1 1
( ) ( ) 0
1
2
= +

=
n
i
i i
bx a y
a
x
S
S
x
S
S
y bx a y
x
xy
x
xy
2 2
+ = + =
( ) ( ) 0
1
2
= +

=
n
i
i i
bx a y
b

2
X
xy
S
S
b =
x b y a =
) (
2
x x
S
S
y y
x
xy
+ =
) (
2
x x
S
S
y y
x
xy
=
39 13
Cmo medir la bondad de una regresin?
Imaginemos un diagrama de dispersin, y vamos
a tratar de comprender en primer lugar qu es
el error residual, su relacin con la varianza de Y,
y de ah, cmo medir la bondad de un ajuste.
39 14
Interpretacin de la variabilidad en Y
Y En primer lugar olvidemos que existe
la variable X. Veamos cul es la
variabilidad en el eje Y.
La franja sombreada indica la zona
donde varan los valores de Y.
Proyeccin sobre el eje Y =olvidar X
39 15
Interpretacin del residuo
Y
Fijmonos ahora en los errores de prediccin
(lneas verticales). Los proyectamos sobre el
eje Y.
Se observa que los errores de prediccin,
residuos, estn menos dispersos que la
variable Y original.
Cuanto menos dispersos sean los
residuos, mejor ser la bondad
del ajuste.
39 16
Resumiendo:
La dispersin del error residual ser una
fraccin de la dispersin original de Y
Cuanto menor sea la dispersin del error
residual mejor ser el ajuste de regresin.
Eso hace que definamos como medida de
bondad de un ajuste de regresin,
o coeficiente de determinacin a:
Bondad de un ajuste
2
2
2
1
Y
e
S
S
R =
Y
2 2

Y e
S S <
39 17
Analticamente
( ) ( ) ( )

= = =
+ =
n
i
i
n
i
i i
n
i
i
y y y y y y
1
2
1
2
1
2

DESCOMPOSICIN DE LA VARIABILIDAD
SCT
SCR SCM
Suma de
cuadrados
total
Suma de
cuadrados
residual
Suma de
cuadrados
del modelo
2
Y
nS
2
e
nS
39 18
( )

= =
= =

+ = =
n
i
X
XY
i
X
XY
n
i
i
S
nS
operando y x x
S
S
y y y SCM
1
2
2
2
2
1
2
) ( ) (
DESARROLLANDO E INTERPRETANDO
2 2
2
2 2
2
2
2 2
2
2
2
1
Y X
XY
y x
xy
y
e y
y
e
S S
S
nS S
nS
SCT
SCM
S
S S
S
S
R = = =

= =
Es adimensional
Por construccin toma valores entre 0 y 1.
R
2
100% Tanto por ciento de la variabilidad total explicada por el
modelo. Generalmente el software lo indica en tanto por ciento-.
Si R
2
= 0 El modelo explica el 0% de la variabilidad, el error explica
el 100%S
XY
= 0 Variables Incorreladas.
Si R
2
= 1 El modelo explica el 100% de la variabilidad, el error
explica el 0%La recta pasa por todos los puntos del diagrama de
dispersin.
Propiedades de R
2
2 2
2
2
y x
xy
S S
S
R =
39 19
Es adimensional
R
2
toma valores en [0,1] r toma valores en [-1,1]
R
2
=0 r =0 S
XY
=0
R
2
=1 r =+1 r =-1
Signo (r) =Signo (S
XY
) =Signo (b)
r >0 Correlacin positiva o directa, r <0 Correlacin negativa o inversa
Propiedades
-1 +1
0
Relacin
inversa
perfecta
Relacin
directa
perfecta
Variables
incorreladas
y x
xy
S S
S
r =
Sentido de la asociacin: coeficiente de correlacin
lineal de Pearson.
2
2 2
2
2
R Observamos

= =
Y X
XY
Y X
XY
S S
S
S S
S
39 20
Algunas correlaciones positivas
r=0,1
30
80
130
180
230
280
330
140 150 160 170 180 190 200
r=0,4
30
40
50
60
70
80
90
100
110
120
130
140 150 160 170 180 190 200
r=0,8
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=0,99
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
39 21
r=-0,5
0
10
20
30
40
50
60
70
80
90
140 150 160 170 180 190 200
r=-0,7
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,95
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,999
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Algunas correlaciones negativas
39 22
Independencia Dependencia NO LINEAL
0 = r
Independencia
0 = r 0 = r
39 23
Animacin: Descomposicin de la varianza
39 24
Animacin: Residuos del modelo de
regresin
39 25
Algunos detalles para tener en cuenta
La recta calculada siempre pasa por el par
Si estuvisemos interesados en calcular la recta de regresin donde X e Y
intercambian sus papeles, es decir ahora queremos que X sea explicada
por Y, qu deberamos hacer?
Error Grave! La recta de X sobre Y no se obtendra de despejar la xen la
recta de Y sobre X, Por qu? Porque no estamos teniendo en cuenta el
residuo
La solucin sera calcular una nueva recta intercambiando los papeles:
Observamos que b
1
(Y|x)b
2
(X|y) =r
2
Qu las rectas sean distintas significa que la relacin de dependencia
cambia cuando intercambiamos los papeles de variable explicada y
explicativa?
El medidor de la dependencia es el mismo. Lo que cambia es la capacidad
de predecir
) , ( y x
2
X
1 1 1
S
Sxy
b x b y a x | Y Recta = =
2
Y
2 2 2
S
Sxy
b y b x a : y | X Recta = =
39 26
Campus Virtual Recursos Didcticos
Cambia el coeficiente de regresin.
Efecto de jalonamiento
39 27
Ejemplo con Statgraphics
A continuacin vamos a analizar un ejemplo realizado
con datos simulados, de lo que podra parecer el estudio
sobre alturas de hijos y padres, realizado con
Statgraphics.
Suponemos que hemos recogido la altura de 70
varones, junto a las de su padre.
El estudio descriptivo univariante de ambas variables
por separado no revela nada sobre una posible relacin.
Histograma
150 155 160 165 170 175 180
Padre
0
10
20
30
40
50
f
r
e
c
u
e
n
c
i
a
Histograma
Hijo
f
r
e
c
u
e
n
c
i
a
93 96 99 102 105 108 111
0
10
20
30
40
50
39 28
Grfico de Hijo frente a Padre
150 155 160 165 170 175 180
Padre
94
98
102
106
110
H
i
j
o
Salida de Statgraphics
Grfico del Modelo Ajustado
Padre
H
i
j
o
150 155 160 165 170 175 180
94
98
102
106
110
39 29
Grfico de Hijo frente a Padre
150 155 160 165 170 175 180
Padre
94
98
102
106
110
H
i
j
o
Diagramas de dispersin
Grfico del Modelo Ajustado
Padre
H
i
j
o
150 155 160 165 170 175 180
94
98
102
106
110
En el diagrama de dispersin se aprecia una clara
relacin lineal directa.
Aprecias regresin a la media en el sentido
de Galton en la grfica?
39 30
Grfico de Hijo frente a Padre
150 155 160 165 170 175 180
Padre
94
98
102
106
110
H
i
j
o
Anlisis de la correlacin
Grfico del Modelo Ajustado
Padre
H
i
j
o
150 155 160 165 170 175 180
94
98
102
106
110
Coeficiente alto o bajo?
Se confirma la relacin directa?
39 31
Grfico de Hijo frente a Padre
150 155 160 165 170 175 180
Padre
94
98
102
106
110
H
i
j
o
El modelo
Grfico del Modelo Ajustado
Padre
H
i
j
o
150 155 160 165 170 175 180
94
98
102
106
110
El modelo de regresin lineal simple es
Altura hijo =a +b Altura del padre
a =34,681 b =0,39691
Aprecias regresin a la media?
39 32
Grfico de Hijo frente a Padre
150 155 160 165 170 175 180
Padre
94
98
102
106
110
H
i
j
o
Bondad del ajuste
Grfico del Modelo Ajustado
Padre
H
i
j
o
150 155 160 165 170 175 180
94
98
102
106
110
La bondad del ajuste viene dada por R
2
=0,440218
Significa eso que el 44,0218 % de las predicciones
del modelo son correctas?
Cmo lo interpretas?
39 33
Grfico de Hijo frente a Padre
150 155 160 165 170 175 180
Padre
94
98
102
106
110
H
i
j
o
Anlisis de la varianza
Grfico del Modelo Ajustado
Padre
H
i
j
o
150 155 160 165 170 175 180
94
98
102
106
110
( ) ( ) ( )

= = =
+ =
n
i
i
n
i
i i
n
i
i
y y y y y y
1
2
1
2
1
2

Total C S . . residual C S . . Modelo C S . .
39 34
Grfico de Hijo frente a Padre
150 155 160 165 170 175 180
Padre
94
98
102
106
110
H
i
j
o
Anlisis de la varianza
Grfico del Modelo Ajustado
Padre
H
i
j
o
150 155 160 165 170 175 180
94
98
102
106
110
( ) ( ) ( )

= = =
+ =
n
i
i
n
i
i i
n
i
i
y y y y y y
1
2
1
2
1
2

Total C S . . residual C S . . Modelo C S . .
39 35
Grfico de Hijo frente a Padre
150 155 160 165 170 175 180
Padre
94
98
102
106
110
H
i
j
o
Anlisis de la varianza
Grfico del Modelo Ajustado
Padre
H
i
j
o
150 155 160 165 170 175 180
94
98
102
106
110
( ) ( ) ( )

= = =
+ =
n
i
i
n
i
i i
n
i
i
y y y y y y
1
2
1
2
1
2

Total C S . . residual C S . . Modelo C S . .
39 36
Grfico de Hijo frente a Padre
150 155 160 165 170 175 180
Padre
94
98
102
106
110
H
i
j
o
Anlisis de la varianza
Qu significa el p-valor de la
tabla ANOVA?
39 37
Grfico de Hijo frente a Padre
150 155 160 165 170 175 180
Padre
94
98
102
106
110
H
i
j
o
Predicciones
Altura hijo =34,681 +0,39691 (Altura del padre)
39 38
Otros modelos de regresin
Se pueden considerar otros
tipos de modelos, en funcin
del aspecto que presente el
diagrama de dispersin
(regresin no lineal)
Incluso se puede considerar el
que una variable dependa de
varias (regresin mltiple).
recta o parbola?
140 150 160 170 180 190 200
recta o cbica?
140 150 160 170 180 190 200

39 39
Modelos alternativos al lineal.
Hay que tener muy claro que
se puedan aplicar con
sentidoen el contexto real
Cmo se ajusta con otro
modelo? Todos estos modelos
sontransformables en lineal
Ejemplo1. Modelo Exponencial:
El programa calcula el ajuste lineal entre ln(y) y x.
Ejemplo2. Modelo Multiplicativo:
El programa calcula el ajuste lineal entre ln(y) y ln(x)
bx a
e y curva la Ajustar
+
=
bx a ln(y) Lineal + =
b
ax y curva la Ajustar =
bln(x) a) ln( ln(y) Lineal + =

Vous aimerez peut-être aussi