Regresion y Correlacion 2017

ESTADÍSTICA
APLICADA
PRONOSTICOS
ANTECEDENTES
En este punto hemos analizado pruebas que implicaron sólo

una variable de intervalo (o de razón).
• Estadística descriptiva: distribución de frecuencias,
calculo de medidas de ubicación y de dispersión para
describir las características de la distribución.
• Probabilidad y distribuciones de probabilidad
• Inferencia estadística: utilizamos una muestra para
estimar un parámetro poblacional.
• Pruebas de hipótesis: utilizamos los datos de la muestra
para probar una inferencia.
El foco de interés cambia hacia el estudio de la relación
entre dos variables de intervalo (o de razón).
ANÁLISIS DE REGRESION Y CORRELACION
• El ANÁLISIS DE REGRESIÓN es un método estadístico

que permite explicar el comportamiento de una variable Y,
llamada VARIABLE EXPLICADA, a partir del
comportamiento de otra u otras variables X, llamadas
VARIABLES EXPLICATIVAS, que puedan estar
relacionadas, estableciendo la expresión funcional del
modelo matemático que describa dicho comportamiento.
• El análisis de Regresión se utiliza principalmente con el
propósito de hacer predicciones.
• El análisis de Correlación, se utiliza para medir la
intensidad entre las variables numéricas.
Las relaciones entre dos variables se pueden

estudiar dibujando sobre una gráfica los
pares de medidas y representando cada par
ordenado de observaciones mediante un
punto. Tales representaciones se denominan
diagramas de dispersión. Si los observamos
podemos tener una cierta idea sobre el
grado de relación entre las dos variables.
DIAGRAMA DE DISPERSIÓN
EJEMPLO
Almacenes Clientes Ventas

1 907 11.20
2 926 11.05 Diagram a de dispersión de las
3 506 6.84 ventas sem anales y núm ero de
4 741 9.21 clientes
5 789 9.42
6 889 10.08 15
Ventas semanales
7 874 9.45
8 510 6.73 10
9 529 7.24
10 420 6.12
11 679 7.63 5
12 872 9.43
13 924 9.46 0
14 607 7.64
500 700 900 1100
15 452 6.92
16 729 8.95 Núm ero de clientes
17 794 9.33
18 844 10.23
19 1010 11.77
20 621 7.41
METODO DE MINIMOS CUADRADOS
Determina una ecuación de regresión al

minimizar la suma de los cuadrados de
las distancias verticales entre los
valores reales de Y y los valores
pronosticados de Y
Consideremos los puntos representativos de los

datos dados por (x1, y1), (x2, y2)... (xn, yn). Para un
valor de xi, existirá una diferencia di entre yi y el
valor que da la ecuación de ajuste.
Cada diferencia se conoce como desviación o
error, el cual puede ser positivo, negativo o cero.
De todas las curvas de aproximación a una serie de
datos puntuales, la curva que tiene la propiedad
de:
d12 + d22 + ... + dn2 = un mínimo
se conoce como la mejor curva de ajuste.
Para ilustrar este concepto, se trazan los datos en

las tres gráficas siguientes.
Los puntos son los valores reales de Y, y los
asteriscos son los valores predichos de Y para un
valor dado de X.
La recta de regresión de la gráfica 1 se determinó
con el método de los mínimos cuadrados.
Es la recta de mejor ajuste porque la suma de los
cuadrados de las desviaciones verticales respecto
de sí misma es mínima.
La primera gráfica (X=3, Y=8) se desvía 2 unidades
de la recta, calculada como 10-8. Entonces d12 es 4;
d22 de X=4, Y=18 es 16 y d32 de X=5, Y=16 es 4.
La suma de las desviaciones al cuadrado es 24,
calculado 4+16+4. Suponga que las otras dos
rectas se trazaron con una regla:
4+16+4 4+36+4 64+4+64

• Una curva con esta propiedad se dice que ajusta

los datos en el sentido de mínimos cuadrados y se
llama curva de regresión de mínimos cuadrados.
Por tanto una recta con esta propiedad se llama
recta de mínimos cuadrados una parábola con esta
propiedad se llama parábola de mínimos
cuadrados, etc.
• El Tipo mas simple de curva de regresión es el de
la línea recta (Y=a+bX). Con las siguientes
fórmulas encontraremos la pendiente (b) y la
ordenada al origen de la recta de regresión
muestral (a).
n xy  ( x)( y )
b
n x2  ( x)2
a
 y b x

n n
Donde:
 x = suma de valores de x.
 y = suma de valores y
 x^2 = suma de los cuadrados de los valores de x
(x)^2= cuadrado de la suma de los valores de x
xy = suma de productos de x e y para cada observación pareada
n = número de observaciones x-y
EJEMPLO
x y xy x^2 y^2 20(134127 .9)  (14623)(176.1)
1 907 11.2 10158.4 822649 125.44 b 
20(11306209 )  (14623) 2
2 926 11.05 10232.3 857476 122.1025
3 506 6.84 3461.04 256036 46.7856
4 741 9.21 6824.61 549081 84.8241 b = 0.00873
5 789 9.42 7432.38 622521 88.7364
6 889 10.08 8961.12 790321 101.6064
7 874 9.45 8259.3 763876 89.3025
8 510 6.73 3432.3 260100 45.2929 a  176 .11  0.00873 (14623 )  2.423
9 529 7.24 3829.96 279841 52.4176 20 20
10 420 6.12 2570.4 176400 37.4544
11 679 7.63 5180.77 461041 58.2169
12 872 9.43 8222.96 760384 88.9249
13 924 9.46 8741.04 853776 89.4916
La ecuación para la mejor
14 607 7.64 4637.48 368449 58.3696
15 452 6.92 3127.84 204304 47.8864 línea recta que se ajusta a
16 729 8.95 6524.55 531441 80.1025 estos datos es:
17 794 9.33 7408.02 630436 87.0489
18 844 10.23 8634.12 712336 104.6529 Y = 2.423 + .00873 x
19 1010 11.77 11887.7 1020100 138.5329
20 621 7.41 4601.61 385641 54.9081
14623 176.11 134127.9 11306209 1602.0971
COEFICIENTE DE CORRELACION
El coeficiente de correlación es un valor entre –1 y

+1 que indica la fuerza de la relación lineal. Para
una población se identifica como  (la letra griega
rho) y para una muestra se identifica como r.
El valor de –1 indica una relación lineal negativa

perfecta, +1 una relación lineal positiva perfecta y
0 indica que no hay relación lineal. La siguiente
ecuación se usa para calcular este coeficiente:
n xy  ( x)( y )
r
n x 2  ( x)2 n y 2  ( y )2
En el ejemplo que venimos desarrollando:
20(134127 .9)  (14623 )(176 .11)

r  0.9555
20(11306209 )  14623 2
20(1602 .0971)  (176 .11) 2
Esto indica un grado de correlación bastante

aceptable
MEDICIONES DE VARIACION EN
REGRESION Y CORRELACION
Con el fin de examinar que tan bien una

variable independiente predice a la variable
dependiente en nuestro modelo estadístico,
necesitamos desarrollar algunas medidas de
variación. La primera de ellas es la SUMA
TOTAL DE CUADRADOS (SST), que es
una medida de la variación de los valores Yi
alrededor de su media, Y.
MEDICIONES DE VARIACION EN
Esta se divide en: VARIACION

EXPLICADA ó SUMA DE CUADRADOS
DEBIDA A LA REGRESION (SSR) que se
puede atribuir a la relación entre X y Y; y la
VARIACION NO EXPLICADA Ó SUMA
DE CUADRADOS DEL ERROR (SSE),
que se puede atribuir a factores diferentes a
la relación entre X y Y.
MEDICIONES DE VARIACION EN REGRESION
Y CORRELACION
 2
SST = SSR + SSE SST   (Y  Y )2  Y 2  n Y
SSE  (Y  Y )2  Y 2  aY  b XY

SSR  a y  b xy  n y 2
En el ejemplo:
SSE=1602.0971-(2.423)(176.11)-
(0.00873)(134127.90)=4.446
SST = 1602.0971-20(8.8055)^2 = 51.3605
SSR=(2.423)(176.11)+(0.00873)(134127.90)-
20(8.8055)^2=46.9145
SST = SSR + SSE
51.3605 = 46.9145 + 4.446
COEFICIENTE DE DETERMINACIÓN
El coeficiente de determinación mide la porción de

variación que es explicada por la variable
independiente del modelo de regresión, puede
definirse como:
suma cuadrados debido regresiòn SSR 46.9145
r 
2
   0.913
suma total cuadrados SST 51.3605
Por lo tanto 91.3% de la variación de las ventas

semanales puede explicarse mediante la
variabilidad en el numero de clientes de una tienda
a otra.
EL ERROR ESTANDAR DE LA ESTIMACIÓN
La ecuación de regresión no es un pronosticador
perfecto, en realidad es un pronosticador aproximado.
La medida de la variabilidad alrededor de la línea de
regresión (su variación estándar) se conoce como error
estándar de la estimación. La forma de calcular este
error estándar es:
S yx 
  a y  b xy
y 2
n2
En el ejemplo:
1602 .0971  (2.423)(176.11)  (0.00873)(134127 .90)
S yx   0.497
20  2
INFERENCIAS RESPECTO A LOS
PARAMETROS DE POBLACION
Cuando se realizan análisis de regresión y
correlación es necesario contar con cierto grado
de confiabilidad de que las predicciones y las
relaciones entre “X y Y” sean estadísticamente
aceptables y para ello se usa la inferencia
estadística para llegar a conclusiones acerca de la
pendiente “b” y del coeficiente de correlación de
la población, “r”. Analizaremos tres tipos de
pruebas para este fín.
PENDIENTE VERDADERA IGUA A CERO
Podemos determinar si existe una relación significativa

entre las variables X y Y al probar si “b” (pendiente de la
ecuación lineal) es igual a cero. Si esta hipótesis es
rechazada se puede llegar a la conclusión de que existe
evidencia de una relación lineal. Las hipótesis nula y
alternativa se pueden establecer de la manera siguiente:
Ho : 1 = 0 ( No hay relación )
Ha : 1  0 ( Hay relación )
PENDIENTE VERDADERA IGUA A CERO
Y el estadístico de prueba para probar la

hipótesis está dada por:
b1   1
t
Sb1
En donde:
S yx
Sb1  
x 2
nx2
PENDIENTE VERDADERA IGUAL A CERO
Del ejemplo:
0.497 0.497
Sb1    0.000634
11,306 ,209  20(731 .15) 2
614 ,603
y, bajo la hipótesis nula, 1 = 0 :
b1 0.00873
t   13.77
S1 0.000634
PENDIENTE VERDADERA IGUAL A CERO
Regla de Decisión: Si t calculado  t tabla

se rechaza la hipótesis y como 13.77 
2.101 rechazamos la hipótesis nula y por
tanto indicamos que si existe relación entre
las dos variables ya que 1 no es igual a 0,
por tanto la pendiente es mayor que 0.
• Nivel de significación de 0.05 con n-2
grados de libertad.
Establecer un intervalo de confianza para 1 y
determinar si el valor 1 está incluido en este intervalo
La estimación de intervalo de confianza se

obtendría mediante la siguiente fórmula:
b1  t Sb1
Si se deseara una estimación de intervalo de
confianza del 95% tendríamos b1= 0.00873, t18 =
2.1009, Sb1 = 0.000634
1 = 0.00873  2.1009 (0.000634)

= .00873  0.00133
0.0074  1  0.01006
Establecer un intervalo de confianza para 1 y
determinar si el valor 1 está incluido en este intervalo
REGLA DE DECISION. Los valores del

intervalo de 1 están por arriba de 0, esto
hace concluir que existe relación lineal
significativa, por tanto podemos llegar a la
conclusión de que existe una relación lineal
significativa entre las ventas semanales y el
número de clientes.
Determinar si existe alguna correlación significativa entre las variables
haciendo la Hipótesis que el coeficiente de correlación de la población “p”
Es igual a cero:
Ho : p = 0 (no hay correlación)
H1 : p  0 ( hay correlación )
El estadístico de prueba para determinar la
existencia de una correlación significativa esta
dada por:
r p
t 
1 r 2
n2
Determinar si existe alguna correlación significativa entre las variables
haciendo la Hipótesis que el coeficiente de correlación de la población “p”
En el ejemplo de los almacenes:

0.956 0.956
t   13.75
1  0.913 0.0695
20  2
El t de student de la tabla con n-2 gl y a un 95%

= 2.101
Regla de decisión: Si t calculado es mayor que
el t de la tabla se rechaza la hipótesis nula.
13.75  2.1009 Se rechaza la hipótesis nula
Se concluye que si existe correlación.
REGRESION
REGRESION
a = 2.4230
b1= 0.008729
REGRESION
Syx = 0.501495
REGRESION
SS total = 51.3605
SS error = 4.2570
SS regresión = 46.8335
REGRESION
R2 = 0.91185
REGRESION
R = 0.9549
REGRESION
Tc = 2.109 LI = 0.0074
95 % confianza LS = 0.10007
Se rechaza Ho
b1 = 0.008 Sb1 = 0.0006 t = 13.64612

CORRELACIÓN
MULTIPLE
MODELO DE REGRESIÓN MULTIPLE
➢ Algunas veces se da el caso de que se puede desarrollar

un modelo que se ajusta mejor si se toma en cuenta más
de una variable explicatoria en cuyo caso estaríamos
desarrollando un modelo de Regresión múltiple.
➢ En un análisis de correlación múltiple se pueden tomar
en consideración muchas variables explicatorias.
➢ El modelo de regresión lineal múltiple pude expresarse

así:
Y = o + 1X1 + 2 X2 + 3X3 +........... + pXp
En la que:
o = Intersección con el eje Y
1 = Pendiente de Y respecto a la variable X1,

manteniendo constantes X2, X3,....Xp
2 = Pendiente de Y respecto a la variable X2,

manteniendo constantes X1, X3,....Xp
p = Pendiente de Y respecto a la variable Xp,

manteniendo constante X1, X2,...Xp-1
Ejemplo: Amy Green presidenta de la compañía

Green Garden quiere ver si el volumen semanal
de ventas de su empresa se relaciona con algunas
variables. Primero las ventas con el número de
anuncios semanales en televisión de la compañía,
y luego analiza la temperatura promedio semanal
como otra variable los resultados son:
Las ecuaciones serían:
y = nbo + b1x1 + b2 X2

x1y= box 1+ b1x12 + b2 X1X2
x2y= boX2 + b1 x1x2 + b2 x22
En el ejemplo:
1089 = 8 bo + b1 33 + b2 432
4608 = bo 33 + b1 145 + b2 1928
61088 = bo 432+ b1 1928 + b2 27036
Resolviendo este sistema de ecuaciones de tres

incógnitas tendremos que:
bo = 86.255 b1 = 8.324 y b2 = 0.2877
y el modelo de regresión quedaría así:
y = 86.255 + 8.324 X1 + 0.2877 X2

Cuales son las ventas semanales con un número de

comerciales de 4 (X1) y la temperatura ambiental
promedio de la semana es de 70 (X2).
El pronóstico de ventas semanales es:
y = 86.255 + 8.324 (4) + 0.2877 (70)
y = 139.688 (miles de dólares)

EJEMPLO
La Empresa Casa Fácil vende casas en la costa de Estados Unidos. Una de

las preguntas que los posibles compradores hacen con más frecuencia es: Si
adquirimos esta casa, cuánto tendremos que pagar por la calefacción en
invierno. Se le pidió al departamento de investigaciones de la compañía que
elabore unos lineamientos relacionados con los costos de calefacción para
casas unifamiliares. Se considero que el costo incluye tres variables: 1) la
temperatura media diaria en el exterior, 2) el espesor en pulgadas del
material de aislamiento térmico, y 3) la antigüedad del calefactor. Para
realizar esta investigación, el departamento en cuestión seleccionó una
muestra aleatoria de 20 casas vendidas recientemente. Determinó el costo
de la calefacción de cada casa en el mes de enero, la temperatura exterior en
el la región, el espesor en pulgadas del material aislante, y la antigüedad del
calefactor.
EJEMPLO
ECUACIÓN DE REGRESIÓN MÚLTIPLE
Forma general:
Y´ = a + b1X1 + b2X2 + b3X3
Donde:
X1 = Temperatura media en el exterior
X2 = Aislante térmico en el desván
X3 = Antigüedad del calefactor

a = 427
b1= - 4.58
b2= -14.83
b3= 6.10
Ecuación de regresión múltiple:
Y´ = 417 - 4.58X1 – 14.8X2 + 6.10X3

ERROR ESTÁNDAR MÚLTIPLE
S y.12...K 
 (Y  Y´) 2
n  ( K  1)
Donde:
Sy.123 = Tres variables
Y = Valor observado
Y´ = Valor estimado mediante la ecuación
n = Número de observaciones de la muestra
k = Número de variables independientes

ERROR ESTÁNDAR MÚLTIPLE
Sy.123 = 51.05
MEDICION DE VARIACIÓN
SS total = 212916
SS error = 41695
SS regresión = 171220
COEFICIENTE DE DETERMINACIÓN
R2 = 0.8047
COEFICIENTE DE CORRELACIÓN
R = 0.89
MATRIZ DE CORRELACIÓN
Marcar títulos
en primera fila
PRUEBA
Temperatura Material aislante Calefactor
Ho: 1 = 0 Ho: 2 = 0 Ho: 3 = 0
Ha: 1  0 Ha: 2  0 Ha: 3  0
Nivel de significancia 0.05
El estadístico de prueba es la distribución t con n – (k + 1) grados de

libertad.
K = Número de variables independientes b1   1

t
Tc = menor que -2.120 o mayor que 2.120 Sb1
PRUEBA PARA LA TEMPERATURA
Se rechaza la
hipótesis nula
b1 = - 4.58 Sb1 = 0.7723 t = - 5.93

PRUEBA PARA EL MATERIAL AISLANTE
Se rechaza la
hipótesis nula
b2 = - 14.83 Sb2 = 4.7544 t = - 3.12

PRUEBA PARA LA ANTIGÜEDAD DEL CALEFACTOR
No se rechaza la
hipótesis nula
b3 = 6.10 Sb3 = 4.0121 t = 1.52

Regresion y Correlacion 2017

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regresion y Correlacion 2017

Transféré par

Droits d'auteur :

Formats disponibles

ESTADÍSTICA

En este punto hemos analizado pruebas que implicaron sólo

• El ANÁLISIS DE REGRESIÓN es un método estadístico

Las relaciones entre dos variables se pueden

Almacenes Clientes Ventas

Determina una ecuación de regresión al

Consideremos los puntos representativos de los

Para ilustrar este concepto, se trazan los datos en

4+16+4 4+36+4 64+4+64

• Una curva con esta propiedad se dice que ajusta

El coeficiente de correlación es un valor entre –1 y

El valor de –1 indica una relación lineal negativa

En el ejemplo que venimos desarrollando:

20(134127 .9)  (14623 )(176 .11)

Esto indica un grado de correlación bastante

Con el fin de examinar que tan bien una

Esta se divide en: VARIACION

El coeficiente de determinación mide la porción de

Por lo tanto 91.3% de la variación de las ventas

Podemos determinar si existe una relación significativa

Y el estadístico de prueba para probar la

y, bajo la hipótesis nula, 1 = 0 :

Regla de Decisión: Si t calculado  t tabla

La estimación de intervalo de confianza se

1 = 0.00873  2.1009 (0.000634)

REGLA DE DECISION. Los valores del

En el ejemplo de los almacenes:

El t de student de la tabla con n-2 gl y a un 95%

b1 = 0.008 Sb1 = 0.0006 t = 13.64612

➢ Algunas veces se da el caso de que se puede desarrollar

➢ El modelo de regresión lineal múltiple pude expresarse

Y = o + 1X1 + 2 X2 + 3X3 +........... + pXp

o = Intersección con el eje Y

1 = Pendiente de Y respecto a la variable X1,

2 = Pendiente de Y respecto a la variable X2,

p = Pendiente de Y respecto a la variable Xp,

Ejemplo: Amy Green presidenta de la compañía

Las ecuaciones serían:

y = nbo + b1x1 + b2 X2

Resolviendo este sistema de ecuaciones de tres

y el modelo de regresión quedaría así:

y = 86.255 + 8.324 X1 + 0.2877 X2

Cuales son las ventas semanales con un número de

El pronóstico de ventas semanales es:

y = 86.255 + 8.324 (4) + 0.2877 (70)

y = 139.688 (miles de dólares)

La Empresa Casa Fácil vende casas en la costa de Estados Unidos. Una de

Y´ = a + b1X1 + b2X2 + b3X3

X1 = Temperatura media en el exterior

X2 = Aislante térmico en el desván

X3 = Antigüedad del calefactor

Ecuación de regresión múltiple:

Y´ = 417 - 4.58X1 – 14.8X2 + 6.10X3

Sy.123 = Tres variables

Y´ = Valor estimado mediante la ecuación

n = Número de observaciones de la muestra

k = Número de variables independientes

Temperatura Material aislante Calefactor

Ho: 1 = 0 Ho: 2 = 0 Ho: 3 = 0

Ha: 1  0 Ha: 2  0 Ha: 3  0

Nivel de significancia 0.05

El estadístico de prueba es la distribución t con n – (k + 1) grados de

K = Número de variables independientes b1   1

b1 = - 4.58 Sb1 = 0.7723 t = - 5.93