Vous êtes sur la page 1sur 29

ANALISIS DE REGRESION LINEAL

Estudiar la asociacin entre las variables X e


Y, mediante el anlisis de correlacin
Encontrar un modelo de regresin con el
fin de que se pueda predecir el valor
de una variable en base a la otra.
ANALISIS DE REGRESION
En muchas aplicaciones estadstica se debe
resolver problemas que contiene un conjunto
de variables y que se sabe existe alguna
asociacin entre ellas. En este conjunto de
variables muy a menudo se tiene una sola
variable dependiente (Y), que depende de una
o ms variable independiente (X).

La primera forma del estudio de la
asociacin entre las variables X e Y, es
denominada correlacin, que consiste en
determinar la variacin conjunta de las dos
variables, su grado de relacin y su sentido.
La medida del grado de la relacin se
denomina coeficiente de correlacin (r). El
cuadrado del ndice de correlacin se
denomina coeficiente de determinacin (r
2
).

La segunda forma del estudio de la
asociacin entre las variables X e Y es
encontrar un modelo de regresin, que
consiste en determinar una relacin
funcional entre ellas, con el fin de que se
pueda predecir el valor de una variable en
base a la otra.
Si el modelo de regresin es simple:

Si el modelo de regresin es mltiple:




x b b Y
1 0
* + =
3 3 2 2 1 1 0
* x b x b x b b Y + + + =
DIAGRAMA DE DISPERSION
Se denomina diagrama de dispersin o nube de
puntos a la grafica de los valores (x
i
, y
i
) de las
variables X e Y en el sistema cartesiano. En el
diagrama de dispersin se visualiza el tipo de
relacin existente entre dos variables.

Los datos visualizan una relacin lineal positiva entre
las variables X e Y
Regresin lineal
30 35 40 45
Edad de trabajadores
5
10
15
20
T
i
e
m
p
o

d
e

S
e
r
v
i
c
i
o

Los datos visualizan una relacin lineal negativa entre


las variables X e Y

Regresin lineal
4 6 8 10
Cantidad de Unidades
5
10
15
P
r
e
c
i
o

Los datos visualizan una relacin no lineal entre las


variables X e Y

10 20 30 40
Precios
5
10
15
20
U
n
i
d
a
d
e
s

Los datos no visualizan ninguna relacin entre las


variables X e Y

2.00 4.00 6.00 8.00
Servicio
2.50
5.00
7.50
10.00
I
n
g
r
e
s
o

COVARIANZA
La covarianza es una estadstica que mide el grado
de dispersin conjunta de dos variables X e Y.
Las covarianzas de n valores (x
1
, y
1
), (x
2
, y
2
),..., (x
n
,
y
n
) de una variable bidimensional (X, Y) que
denotaremos por Cov(X, Y) o S
XY
se define como la
media aritmtica de los productos de la diferencia
de los datos con respecto a su correspondientes
medias. Esto es:



y x xy
n
y x
n
Y X Cov
n
i
n
i
i
i XY
y
x S
= = =

= = 1 1
1
) )( (
1
) , (

COEFICIENTE DE CORRELACION

El coeficiente de correlacin mide el grado de
afinidad entre dos o ms variables. En tanto que
el coeficiente de correlacin rectilnea (r), es el
estadgrafo que expresa el grado de afinidad o
asociacin entre dos variables cuando ellas estn
relacionadas mediante una lnea recta.
El coeficiente de correlacin r es un numero
comprendido entre -1 y 1, esto es
El coeficiente de correlacin lineal de Pearson:

2 2 2 2 2 2
) ( ) ( ) ( ) (
) )( (
) , (




=


= =
Y Y n X X n
Y X XY n
Y y X x
Y y X x
S S
Y X Cov
r
Y X
1 1 s s r
PROPIEDADES DEL COEFICIENTE DE CORRELACION:
Si r > 0; existe correlacin directa positiva, ambas
variables aumentan (o disminuyen)
simultneamente.
Si r < 0; existe correlacin inversa negativa, mientras
los valores de una variable aumenta, los de la otra
disminuyen y viceversa.
Si r = 1; hay una correlacin perfecta positiva entre X
e Y, si todos los puntos de la muestra se encuentran
sobre la recta de regresin
Si r = -1; hay una correlacin perfecta negativa entre
X e Y, si todos los puntos de la muestra se encuentran
sobre la recta de regresin.
Si r = 0; Los datos son incorrelacionados.

En el coeficiente de correlacin se sostiene que:





iva significat no n correlaci existe r a ; 20 . 0 00 . 0 ) < s
baja n correlaci una existe r b ; 40 . 0 20 . 0 ) < s
iva significat n correlaci existe r c ; 70 . 0 40 . 0 ) < s
asociacion de grado alto existe r d ; 00 . 1 70 . 0 ) s s
COEFICIENTE DE DETERMINACION
El coeficiente de determinacin mide la
variacin de Y que se explica por la variable
independiente X en el modelo de regresin.

2
2
2
1 0 2
Y n Y
Y n XY b Y b
r

+
=



AJUSTE DE UNA FUNCION DE REGRESION

Ajustar una funcin de regresin significa buscar o
definir la funcin que exprese con mayor precisin la
relacin entre variables. Grficamente ser aquella
funcin que mejor se adecu a la nube de puntos.
En el ajuste de funciones de regresin simple, se pueden
utilizar diversas funciones matemticas conocidas, tales
como:
Lnea Recta:
Parbola:
Curva Exponencial:
Curva Potencial

x b b Y
1 0
* + =
2
2 1 0
* x b x b b Y + + =
x b a Y ab Y
x
) (log log * log * + = =
x b a Y ax Y
b
log log * log * + = =
REGRESION LINEAL SIMPLE
El objetivo de la regresin simple es estimar la
relacin que existe entre dos variables X e Y.
El modelo de regresin es:


Esto expresa Y
*
es un valor estimado a partir de
valores reales de X, que sera un modelo de
regresin de Y sobre X, donde:
Y = Variable dependiente o explicada
X = Variable independiente o explicativa

x b b Y
1 0
* + =
Los parmetros de la funcin de regresin se obtienen a
partir de las Ecuaciones Normales obtenida por el
Mtodo de los Mnimos Cuadrados



Tambin los parmetros de la funcin de regresin se
encuentran resolviendo el sistema de ecuaciones
normales para b y dividiendo por n la primera
ecuacin normal:




= =
= = =
+ =
+ =
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
X n Y
X X Y X
b b
b b
1
1 0
1
1
2
1
1
0
1
( )
X Y
S
S
b o
X X n
Y X XY n
b
b b
X
XY
1 0
2
1
2
2
1
=
=

=


Si b
1
> 0, entonces, la tendencia lineal es
creciente, es decir a mayores valores de X
corresponden mayores valores de Y.
Si b
1
< 0, entonces, la tendencia lineal es
decreciente, es decir a mayores valores de X
corresponden menores valores de Y.
Si b
1
= 0, entonces, Y = b
0
; Y permanece
estacionario para cualquier valor de X.

NOTAS:
De:
La recta de regresin de X en Y, es decir X
variable dependiente de Y esta dada por:

Esta recta de regresin de X en Y se puede
escribir tambin como:

Los coeficientes de regresin b y d verifican el
valor r
2


S
S
S S
S
S
S
X
XY
Y X
XY
X
XY
r b r y b = = =
1 2 1
dY c X = y d x c y d
S
S
Y
XY
= =
2
) (
1
) ( x X
d
y Y o y Y d x X = =
r
S S S S
S S
S S
S S
rr bd
Y X Y X
XY XY
Y X
XY XY
2
2 2
= = = =
ERROR ESTANDAR DE ESTIMACION
El error estndar de estimacin llamado tambin
desviacin estndar es una medida de dispersin
alrededor de una lnea de regresin.
Es una medida de dispersin de los valores observados,
con respecto a la lnea de regresin (valores estimados).
Entre el valor observado y el valor estimado Y
*
existe
una diferencia o sesgo, que puede ser menor o mayor
en la medida que los n-puntos del diagrama de
dispersin estn ms o menos cerca de la lnea de
regresin.

2 2
1 0
2

=

n
XY b Y b Y
n
SCE
S
Ejemplo: Analizar la relacin entre la edad y el tiempo
efectivo de servicio de los trabajadores, para el efecto
se consider una muestra de 15 trabajadores:



a) Hallar un modelo de regresin adecuado
b) Hallar el error estndar
c) Hallar el coeficiente de correlacin
d) Hallar el coeficiente de determinacin


Edad 48 40 30 39 46 42 27 36 34 46 32 42 40 32 27
Tiempo de Servicio 24 18 9 14 22 22 4 13 10 20 12 18 16 8 6
PASO 1: Definir las variables:
Definir en primer lugar: Cul ser la variable
dependiente e independiente?
Y: Tiempo de Servicio (Variable Dependiente)
X: Edad (Variable Independiente)

PASO 2: Diagrama de dispersin
En el grafico se observa que la nube de puntos tiene una
forma alargada, con una relacin positiva en donde es
posible ajustar o representar por una lnea recta, la cual
ser:

30 35 40 45
Edad de trabajadores
5
10
15
20
T
i
e
m
p
o

d
e

S
e
r
v
i
c
i
o

x b b Y
1 0
* + =
Edad X Tiempo de
Servicio Y XY X
2
Y
2
Y*
48 24 1152 2304 576 23.685
40 18 720 1600 324 16.677
30 9 270 900 81 7.917
39 14 546 1521 196 15.801
46 22 1012 2116 484 21.933
42 22 924 1764 484 18.429
27 4 108 729 16 5.289
36 13 468 1296 169 13.173
34 10 340 1156 100 11.421
46 20 920 2116 400 21.933
32 12 384 1024 144 9.669
42 18 756 1764 324 18.429
40 16 640 1600 256 16.677
32 8 256 1024 64 9.669
27 6 162 729 36 5.289
561 216 8658 21643 3654 215.991
El coeficiente de correlacin es:





Interpretacin: Hay un alto grado de asociacin entre la edad
y el tiempo de servicio
El coeficiente de determinacin es:

Interpretacin: El 93.37% dela variacin en el tiempo de
servicio se explica por la variacin en la edad de los
trabajadores

9337 . 0 ) 9663 . 0 (
2 2
= = r
( ) ( )
( ) ( )
9663 . 0
216 ) 3654 ( 15 561 ) 21643 ( 15
) 216 ( 561 ) 8658 ( 15
) , (
2 2
2
2
2
2
=


=


= =


r
r
Y Y n X X n
Y X XY n
S S
Y X Cov
r
Y X
PASO 3: Hallar el Modelo de Regresin
Los parmetros: b
0
,

b
1








Por sistema de ecuaciones el modelo es:
b
0
= -18.363 b
1
= 0.876

Casi siempre b
0
no tiene interpretacin
b
1
= 0.876; Significa que por cada edad adicional de
los trabajadores puede esperarse aumentar casi 1
ao de tiempo de servicio


x b b Y
1 0
* + =
1 0
1
1 0
1
1 0
1
2
1
1
0
1
561 15 216
21643 561 8658
b b X b n b Y
b b X b X b Y X
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
+ = + =
+ = + =


= =
= = =
x Y 876 . 0 363 . 18 * + =
Cul es el tiempo de servicio estimado Y
*
para un
trabajador de 35 aos de edad?
Y
*
= -18.363 + 0.876(35) = 12.3 aos
Aproximadamente tendra 12 aos de tiempo de
servicio efectivo

En el grafico se observa la lnea de regresin
(Y
*
= Tiempo de Servicio y X = Edad)

Regresin lineal
30 35 40 45
Edad de trabajadores
5
10
15
20
T
i
e
m
p
o

d
e

S
e
r
v
i
c
i
o

1Tiempo de Servicio = -18,36 + 0,88 * Edad


El error estndar es:



Interpretacin: El error estndar es 1.6641,
indica que las observaciones reales estn
bastante cerca de la lnea de regresin, esto se
puede verificar con el coeficiente de correlacin
como tambin observando el grafico.



6641 . 1
13
) 8658 ( 876 . 0 ) 216 )( 363 . 18 ( 3654
2 2
2
=

=

=

S
n
XY b Y a Y
n
SCE
S

Vous aimerez peut-être aussi