Vous êtes sur la page 1sur 34

UNIVERSIDAD NACIONAL DE HUANCAVELICA

INGENIERA CIVIL - LIRCAY

REGRESION y
CORRELACION
CURSO DE ESTADISTICA Y
PROBABILIDADES

ING. CARLOS POMA RAMOS


REGRESION y
CORRELACION

Y = f (X)
REGRESION
Expresin cuantitativa de la naturaleza
bsica de la relacin entre las variables
dependiente e independiente.

Determina si X e Y presentan una relacin


positiva, es decir, si crecen o decrecen a la
vez, o si la relacin es negativa porque se
desplazan en sentidos opuestos.
CORRELACION

Mide la solidez de la relacin


entre X e Y.
REGRESION
REGRESION SIMPLE:
establece que la variable dependiente Y es
funcin de una sola variable independiente.
Y = f (X)

REGRESION MULTIPLE:
abarca dos o ms variables independientes.
Y = f (X, W, Z)
REGRESION
REGRESION LINEAL:
intenta reflejar la relacin entre X e Y
por medio de una recta.

REGRESION CURVILINEAL:
cuando la relacin se puede describir
mejor por medio de una curva.
ANALISIS DE REGRESION
Las relaciones entre variables son
deterministas o estocsticas (aleatorias).
Y 0 1 X

(Componente (Componente
Determinista) Aleatorio)
REGRESION y CORRELACION
DATOS DE PRODUCCION DE HARDWARE
PARA COMPUTADORAS
DIA N UNIDADES DE DISCO COSTO
1 50 $450
2 40 380
3 65 540
4 55 500
5 45 420
ANALISIS DE REGRESION
MODELO DETERMINISTA:
se expresa con
Y 0 1 X
Dado un valor cualquiera de X, el valor
de Y se puede determinar con precisin.
ANALISIS DE REGRESION

MODELO ESTOCASTICO:
Contiene dos o ms componentes
aleatorios que conducen al error de
prediccin. Se expresa as:

Y 0 1 X
ANALISIS DE REGRESION
Estimacin de la recta verdadera de regresin de
la poblacin:
Y b0 b1 X e
b0 y b1 son estimaciones de los parmetros
poblacionales 0 y 1
Se denominan constante de regresin y coeficiente
de regresin respectivamente. El ltimo trmino,
e, es el componente de error, el cual es necesario
porque no todas las observaciones de X e Y estn
en lnea recta.
ANALISIS DE REGRESION

Estimacin de la relacin entre X e Y ,


mediante la recta de regresin:
Y b0 b1 X

Y : valor estimado de la variable


dependiente, representado por un punto
sobre la recta de regresin.
METODO DE LOS MINIMOS CUADRADOS

Costos Valor observado de Y


cuando X = 55
Yi
550

500 Error
Error Y
450 Error
Valor estimado de Y
400 Error
Error Y cuando X = 55

350

40 45 50 55 60 65 70
Unidades de disco
METODO DE LOS MINIMOS CUADRADOS
El mtodo de los mnimos cuadrados para hallar la
recta de ajuste ptimo hace mnima la suma de
cuadrado de errores.

(Y i

Y) 2
min
Se puede demostrar mediante el clculo diferencial
que esta suma de errores al cuadrado ser mnima
si se calculan las sumas de los cuadrados
cruzados y de los productos cruzados.
METODO DE LOS MINIMOS CUADRADOS
Sumas de los cuadrados de X(SSx):

SSx ( X i X ) X
2 2 ( X ) 2

Sumas de los cuadrados de Y(SSy):

( Y ) 2

SSy (Yi Y ) Y
2 2

n
METODO DE LOS MINIMOS CUADRADOS

Sumas de los productos cruzados (SSxy)

SSxy ( X i X )(Yi Y )
( X )( Y )
SSxy XY
n
METODO DE LOS MINIMOS CUADRADOS

Una vez obtenidas las sumas de los cuadrados y de


los productos cruzados, calculamos el coeficiente
de regresin y la ordenada en el origen con las
siguientes frmulas:

SSxy
b1 y b0 Y b1 X
SSx
DATOS DE REGRESION DE LAN
Meses Publicidad(X) Pasajeros(Y) XY X2 Y2
En miles de N So les En miles de personas

1 10 15 150 100 225


2 12 17 204 144 289
3 8 13 104 64 169
4 17 23 391 289 529
5 10 16 160 100 256
6 15 21 315 225 441
7 10 14 140 100 196
8 14 20 280 196 400
9 19 24 456 361 576
10 10 17 170 100 289
11 11 16 176 121 256
12 13 18 234 169 324
13 16 23 368 256 529
14 10 15 150 100 225
15 12 16 192 144 256
187 268 3490 2469 4960
DATOS DE REGRESION DE LAN
Determinar el modelo de regresin mediante el clculo de
la constante de regresin y del coeficiente de regresin.

Y b0 b1 X
SSx = 137.7333333
SSy = 171.733333
SSxy = 148.933333
b1= 1.0813166 o 1.08; b0= 4.3865 o 4.4

Y 4.40 1.08 X
DATOS DE REGRESION DE LAN

El modelo nos dice que si se gastan, por ejemplo,


10,000 nuevos soles en publicidad (X = 10), se
tendr:
Y 4.40 1.08(10) 15.2
Si se multiplica 15.2 por 1,000, puesto que los
valores de Y se han expresado en millares,
predecimos a partir de nuestro modelo que 15,200
pasajeros elegirn volar con LAN cuando sta
gaste 10,000 nuevos soles en publicidad.
Efecto de un cambio de publicidad sobre
el nmero de pasajeros
El director de publicidad de LAN desea
determinar cmo afectar al N de pasajeros una
variacin de la cantidad que se gasta en
publicidad. LAN gasta en la actualidad 10,000
nuevos soles en publicidad y duda si gastar 1,000
nuevos soles ms. La decisin final depende de la
respuesta en N de pasajeros que prevea el depto.
De publicidad si se gastan esos 1,000 nuevos soles
adicionales.
Efecto de un cambio de publicidad sobre
el nmero de pasajeros
Solucin: Y 4.40 1.08 X
El gasto de 10,000 nuevos soles (X=10) va asociado a
15,200 pasajeros. Es decir:
Y 4.40 1.08(10) 15.2
Si la publicidad se aumenta en una unidad hasta 11,000
nuevos soles, la estimacin de los pasajeros totales se
convierte en:
Y 4.40 1.08(11) 16.28
Equivalente a 16,280 pasajeros.
Efecto de un cambio de publicidad sobre
el nmero de pasajeros

Interpretacin: Si X se incrementa
de 10 a 11, el nmero de pasajeros predicho
es de 16,280, es decir, 1,080 ms que los
15,200 pasajeros predichos si X=10. Esta
informacin es til para determinar si est
justificado un aumento del presupuesto de
publicidad.
ANALISIS DE CORRELACION
Mide la fuerza de la relacin, que viene
dada por el coeficiente de determinacin.
El coeficiente de determinacin es una de las
medidas de bondad de ajuste. Para ello
debemos considerar la desviacin total de Y.
La desviacin total es la cantidad en que un
valor real de Y, Yi difiere de Y ,media de
todos los valores de la variable dependiente.
ANALISIS DE CORRELACION
Desviacin explicada es la diferencia
entre el valor predicho por el modelo (Y )
y el valor medio de Y(Y ) : Y Y

La desviacin no explicada es la diferencia


entre el valor real de (Yi ) y el valor predicho
por el modelo (Y ) : Yi Y
ANALISIS DE CORRELACION

Desviacin total = desviacin explicada +


desviacin no explicada
(Yi Y ) (Y Y ) (Yi Y )
ANALISIS DE CORRELACION
Y
Yi 23
Desviacin Y 4.4 1.08 x

no explicada
Desviacin total (Yi Y ) 1.32
(Yi Y ) 5.13 Y 21.68

Y 17.87
Desviacin explicada
(Y Y ) 3.81
4.4

JCM X
ANALISIS DE CORRELACION
Suma total de cuadrados (o suma cuadrtica
de la desviacin total, SST) es:
SST (Yi Y ) 2

Suma de cuadrados de la regresin (o suma


cuadrtica de la regresin, SSR) es:
SSR (Y Y ) 2
Suma de cuadrados de error (o suma de
errores cuadrticos, SSE) es:
SSE (Yi Y ) 2
ANALISIS DE CORRELACION
Coeficiente de determinacin, r2, mide la
parte de la desviacin total de Y que es
explicada por nuestro modelo. Es una medida
del poder explicativo del modelo de regresin.
Desviacin exp licada SSR
r
2

Variacin total SST
En funcin de las sumas de cuadrados y
productos cruzados se puede calcular as:
2
( SSxy)
r
2

( SSx)( SSy)
ANALISIS DE CORRELACION

Coeficiente de determinacin, mide el poder


explicativo del modelo de regresin, es decir, la
parte de la variacin de Y explicad por la
variacin de X.

El valor de r2 se encuentra entre 0 y 1, puesto


que es imposible explicar ms del 100% de
variacin de Y.
ANALISIS DE CORRELACION
Si r2 =70%, significa que el 70% de la
variacin de Y est explicada por las
variaciones de X.
Cuanto mayor sea r2, mayor poder explicativo
tiene el modelo.
De esta forma r2 mide la fuerza de la relacin
lineal entre X e Y.
R2 slo tiene significado para relaciones
lineales.
ANALISIS DE CORRELACION
Conocer la solidez de la relacin entre publicidad
y pasajeros de LAN, es decir hasta que punto puede
confiar en ella para tomar decisiones.
2 2
( SSxy) (148. 9333)
r2
( SSx)( SSy ) (137.73333)(171.73333)
r 2 0.93776 0.94

Interpretacin: El coeficiente de determinacin


revela que el 94% de la variacin del N de
pasajeros es explicado (no causado) por las
variaciones de gasto en publicidad.
ANALISIS DE CORRELACION
La correlacin no implica causalidad. Una
variacin de X no es la causa de una
variacin de Y.

Como r2 = 94%, nuestro modelo explica el


94% de la variacin de Y. El otro 6% puede
ser explicado por alguna otra variable o
variables distintas de la publicidad. Este 6%
se denomina a veces coeficiente de no
determinacin, k2
ANALISIS DE CORRELACION
Coeficiente de correlacin (r) denominado
coeficiente de correlacin producto-momento de
Pearson, es igual a la raz cuadrada del coeficiente
de determinacin:
r r 0.93776 0.96838
2

El valor de r se sita en el intervalo de +1 y 1.


Si r > 0, b1 ser positivo y la recta tendr
pendiente ascendente.
Si r < 0, b1 ser negativo y la recta tendr
pendiente negativa.