Vous êtes sur la page 1sur 44

CORRELACIÓN Y REGRESIÓN

Plan de Clases
• Motivación.
• Competencias
Inicio
• Conocimientos previos.
• Regresión lineal simple:
•Estimación de los coeficientes.
•Análisis de Varianza. Análisis de Residuales
• Regresión Lineal Múltiple.
Construcción
•Estimación de los coeficientes.
•Análisis de Varianza. Multicolinealidad.
•Análisis de Residuales.
• Retroalimentación.
Cierre
• Autoevaluación

2 miércoles, 16 de marzo
de 2016
CASO PRÁCTICO
En la empresa QUIETSA el ingeniero de control de calidad desea estudiar si existe relación
entre la diferencia de temperatura en °C (temperatura de la calle con la oficina) y el consumo
de energía del aire acondicionado (KW). El objetivo del estudio es proporcionar un modelo de
predicción para el consumo de energía, que sirva para mejorar el uso adecuado de
ventilación de los ambientes. En la siguiente tabla, se muestran los datos obtenidos en el
estudio:

Diferencia 3.5 3.6 3.8 3.9 4.2 4.3 4.6 4.7 4.9 5 5.3 5.6

Consumo 73.54 78.42 80.64 83.55 86.47 88.61 95.45 98.89 99.34 99.2 99.34 104.45

a) Muestre el modelo de regresión e interprete la pendiente.


b) Construya el ANOVA correspondiente y diga si el modelo propuesto es significativo,
utilice un nivel de significación del 5%.
c) Calcule e interprete el coeficiente de correlación.

3 miércoles, 16 de marzo
de 2016
Competencias
Al termino de la sesión, el
estudiante estará en capacidad de:
 Estimar el modelo de regresión lineal
simple y múltiple.
 Calcular e interpretar los
coeficientes de los modelos de
regresión lineal simple y múltiple
 Analizar la significancia de las
variables independientes que son
parte del modelo de regresión lineal
simple y múltiple.
 Realizar el análisis de residuales del
modelo estimado.
 Utilizar software estadístico.

4 miércoles, 16 de marzo
de 2016
Análisis de regresión lineal simple
El modelo poblacional de regresión lineal y la ecuación de regresión
estimada a partir de una muestra, con el objetivo de realizar
predicción, esta dada por:
y     x  e (modelo de regresión )
i 0 1 i i

Yˆ  b0  b1 X (ecuación de regresión estimada)


Donde:
b0: Intercepto con el eje de las ordenadas (eje Y).
b1: Coeficiente de regresión o pendiente de la recta.
e: Efecto del error Y  Yˆ 
Yˆ : Valor estimado por la ecuación de regresión muestral.

5 miércoles, 16 de marzo
de 2016
Supuestos del modelo de regresión
1. Los valores de la variable independiente X se consideran como fijos (no
aleatorios), medida sin error.
2. La variable Y es aleatoria.
3. Para cada valor de X, existe una distribución normal de valores de Y
(sub-poblaciones).
4. Los errores son aleatorios y se distribuyen normalmente con media
cero y varianza 𝜎 2
Es decir:
 Las varianzas de las subpoblaciones Y son todas iguales.
 Todas las medias de las subpoblaciones de Y están sobre la recta.
 Los valores de Y están normalmente distribuidas y son
estadísticamente independientes.

6 miércoles, 16 de marzo
de 2016
Estimación de los parámetros

El método de mínimos cuadrados, el cual minimiza la suma de cuadrados


del error se utiliza para calcular los parámetros mediante las siguientes
igualdades:

 n  n 
  X i   Yi 
 X   X iYi   i 1  i 1 
n n

i  X Yi  Y  n SP( XY )
b1  i 1
 i 1

 X 
n 2
X
2
 n  SC ( X )
i 1
i
n


 X i


i 1
X i2  i 1

b0  Y  b1 X

7 miércoles, 16 de marzo
de 2016
Ejemplo 1
Para estudiar la relación que existe entre la cantidad del material de estampado
(en Kilos) utilizado para la fabricación de prendas de vestir y el rendimiento en
cientos de unidades se ha tomado una muestra de 10 lotes de producción, estos
son:

Lote 1 2 3 4 5 6 7 8 9 10
Material 3,4 1,9 6,4 5,56 2,5 3,59 1,5 4,57 4,3 2,9
Rendimiento 3 1,6 5,87 4,6 2 3,67 1,25 4,5 4 2,7

8 miércoles, 16 de marzo
de 2016
Diagrama de dispersión:

Gráfica que presenta la relación entre dos variables de interés.

Gráfico de dispersión entre Rendimiento vs Material


6

5
Rendimiento

1
1 2 3 4 5 6 7
Material

9 miércoles, 16 de marzo
de 2016
Cálculos previos

10 miércoles, 16 de marzo


de 2016
Coeficientes de regresión

A,

Rendimiento = - 0.074 + 0.926 Material

Interpretación del coeficiente de regresión:

Si el material de estampado aumenta en un kilo, entonces el rendimiento en la


producción de prendas de vestir aumenta, en promedio, en 926.4 unidades.

11 miércoles, 16 de marzo


de 2016
Sumas de Cuadrados

  n

2

   xi  
 
SSR   ( yˆ i  y ) 2  ˆ 12  ( xi  x ) 2  ˆ 12   xi2   i 1 
n n n


i 1 i 1  i 1 n 
 
 
2
 n 
  yi 
  ( y i  y ) 2   y i2   i 1 
n n
SST
i 1 i 1 n

n
SSE   ( y i  yˆ i ) 2  SST  SSR
i 1

12 miércoles, 16 de marzo


de 2016
Análisis of Varianza

Source DF SS MS F P
Regression 1 18.981 18.981 248.86 0.000
Residual Error 8 0.610 0.076
Total 9 19.591

H0: 1 = 0 (El modelo no es significativo)


H1: 1 es diferente de cero. (El modelo si es significativo)
Nivel de significancia 0.05
Decisión
Como el p_value = 0 es menor al nivel de significancia, se
rechaza H0, por tanto, se puede afirmar que el modelo de
regresión lineal es significativo.
13 miércoles, 16 de marzo
de 2016
Error estándar de la estimación

Mide la variabilidad de los puntos alrededor de la línea de regresión


estimada.

Se 
  b0  y  b1  xy
y 2

 CME
n2

Se puede obtener de manera directa del análisis de varianza


Se = 𝐶𝑀𝐸 = 0.076= 0.275

14 miércoles, 16 de marzo


de 2016
COEFICIENTE DE CORRELACIÓN LINEAL
(PEARSON)
El coeficiente de correlación de Pearson mide el grado de asociación entre
dos variables y su rango de valores esta entre -1 y 1.

r
 xy  nxy Donde:
  x  nx   y
2 2 2
 ny 2
 1  r  1
SCX   x 2  nx 2
SPXY SCY   y 2  ny 2
r
SCX SCY SPXY   xy  nyx
Interpretación
Si 1  r  0.8 , Correlación negativa intensa
Si 0.8  r  0.2 , Correlación negativa normal
Si 0.2  r  0 , Correlación negativa débil
Si 0  r  0.2 , Correlación positiva débil
Si 0.2  r  0.8 , Correlación positiva normal
Si 0.8  r  1 , Correlación positiva intensa
Si r = -1, Correlación negativa perfecta
Si r= 1, Correlación positiva perfecta
15 miércoles, 16 de marzo
de 2016
Coeficiente de Determinación

 Mide el porcentaje de variación de la variable Y


(dependiente) explicado por la variable X (variable
independiente).

0 ≤ R2 ≤ 1
SC Re g
R 
2

SCT

16 miércoles, 16 de marzo


de 2016
Coeficiente de correlación de Pearson

r
 xy  nxy
= 0.984
  x  nx   y
2 2 2
 ny 2

La Correlación entre el material de estampado y el rendimiento en
producción de prendas de vestir es positiva intensa.

Coeficiente de Determinación

R2 = 0.969
El 96.9% de la variabilidad del rendimiento en la producción de prendas de
vestir es explicado por su relación lineal con la cantidad de material para
estampado.

17 miércoles, 16 de marzo


de 2016
Prueba de significancia del modelo o
validación del modelo
 ¿Es el modelo significativo?, ¿El modelo es válido?, ¿X influye en Y?

1. Hipótesis: II. Estadístico de Prueba:

H o : 1  0 b1 Se
tc  ~ tn  2  Sb1 
H1 : 1  0 Sb1 SCX
III. Decisión:

 t tab  t c  t tab No Rechazar Ho: El modelo no es significativo.


No hay relación lineal entre X e Y.

t c  t tab ó t tab  t c Rechazar Ho: El modelo es significativo.


Hay relación lineal entre X e Y.

18 miércoles, 16 de marzo


de 2016
Prueba de validez de la pendiente del modelo

H 0 : 1  0(no existe relación entreY , X )


H a : 1  0( existe relación entreY , X )
  0.05
se 0.2774
Sb1    0.0590
SCX 22.1142
b 0.9264
tc  1   15.7017
Sb1 0.0590
Se Re chaza H 0 , por lo tan to
existe relación entreY , X
El mod eloes significativo.

19 miércoles, 16 de marzo


de 2016
Intervalo de confianza para la
Estimación Media de Y dado X=x0
El propósito del intervalo de confianza para el valor medio de
predicción es ubicar entre qué valores se encuentra el valor
promedio poblacional de Y respecto a un valor dado de X,
considerando un nivel de confianza o seguridad
1 (x 0  x ) 2
IC(μ y/x0 )  (b 0  b1x 0 )  t 0Se 
n  x2  n x2

Intervalo de Predicción para X=x0

20 miércoles, 16 de marzo


de 2016
Ejemplo 2
Para un 95% de confianza, estime el rendimiento promedio
cuando el material de estampado es de 1.5 Kilos.
Utilice:
1 (x 0  x ) 2
IC(μ y/x0 )  (b 0  b1x 0 )  t 0Se 
n  x2  n x2

Para un 95% de confianza, el rendimiento promedio cuando


el material de estampado es de 1.5 Kilos se encuentra entre
0.587 y 2.04 cientos de prendas de vestir.

21 miércoles, 16 de marzo


de 2016
Análisis de Residuales
El análisis de residuales permite verificar que los residuales:
 Tengan media cero. Residual Plots for Rendimiento
Normal Probability Plot Versus Fits

 Varianza constante. 99

90
0.50

0.25

Se distribuyan normalmente.

Residual
Percent
 50 0.00

10 -0.25

 Sean independientes. 1
-0.50 -0.25 0.00 0.25 0.50
-0.50
2 3 4 5 6
Residual Fitted Value

Histogram Versus Order


0.50
6.0

4.5 0.25

Frequency

Residual
3.0 0.00

1.5 -0.25

 Interpretacion 0.0
-0.4 -0.2 0.0
Residual
0.2 0.4
-0.50
1 2 3 4 5 6 7
Observation Order
8 9 10

De las gráficas se pueden apreciar que todos los supuestos a


cerca de los residuales se cumplen satisfactoriamente, esto
valida la ejecución del modelo de regresion utilizado.
22 miércoles, 16 de marzo
de 2016
Regresión lineal múltiple

 El objetivo básico del análisis de regresión lineal múltiple es


el de construir un modelo que permita predecir o estimar
el valor de una variable Y, en base a un conjunto de variables
X1, X2,....,Xk.

 A la variable Y se le llama variable dependiente, y es la que


se quiere estimar o predecir.

 Las variables X1, X2,....,Xk son las variables


independientes o variables predictoras.

23 miércoles, 16 de marzo


de 2016
MODELO ESTADÍSTICO
El modelo poblacional de regresión lineal múltiple con k
variables independientes es el siguiente:

Yi  β0  β1X1  β 2 X 2  ...  β k X k  ε i
Donde:
β i : Son parámetros desconocidos, llamados coeficientes
de regresión, (i =0,1,2,3,...,k)

ε1 : Son los errores del modelo y se suponen independientes y


normalmente distribuidos con media 0 y varianza σ 2

24 miércoles, 16 de marzo


de 2016
Modelo de Regresión Lineal Múltiple

 El modelo de regresión lineal múltiple es:

Yi  0  1 X i1   2 X i 2   k X i k  i i  1, 2, ,n

 En términos matriciales:
Y  Xβ  ε

 Y1  1 X 11 X 12 X 1k   0   1 
Y       
 1 X 21 X 22 X 2k 
Y  2
X β   1 ε   2
       
       
Yn  1 X n1 X n2 X nk  
 k  n 

25 miércoles, 16 de marzo


de 2016
Método de Mínimos Cuadrados
 El método de mínimos cuadrados permite encontrar la
estimación del vector de parámetros β tal que se
minimice la suma de cuadrados de los errores.
n
Q  β      ε ε   Y  Xβ   Y  Xβ 
2 / /
i
i 1
 Las ecuaciones normales son:

X/ Xβˆ  X/ Y
 Resolviendo se obtiene el estimador mínimo cuadrático
βˆ   X X  X/ Y
/ 1

26 miércoles, 16 de marzo


de 2016
Modelo de Regresión Múltiple Estimado

Dada una muestra aleatoria de n observaciones multivariadas


(yi ,xi1, xi2 ,...,xik ), se puede hallar el modelo de regresión
estimado que tiene la siguiente forma:

Ŷi  b0  b1X1  b 2 X 2  ...  b k X k


donde:
b i : Son los estimadores de los coeficientes de regresión
β i , i = 0,1,2,3,...,k
Estos coeficientes son calculados a partir del método de
mínimos cuadrados.

27 miércoles, 16 de marzo


de 2016
Prueba de hipótesis para la
significancia del modelo
Esta prueba permite determinar si el modelo es significativo o
no, para esto se realiza una prueba de análisis de varianza.
Las hipótesis a plantear son las siguientes:

H0: 1 = 2 = .... = k = 0 (El modelo no es significativo)


H1: Al menos un i es diferente de cero. (El modelo si es significativo)

Estadístico de Prueba:
El estadístico de prueba es el estadístico F del análisis de
varianza ( ANOVA).

28 miércoles, 16 de marzo


de 2016
TABLA ANOVA

Suma de Grados Cuadrado


Fuente de Valor
Cuadrados de Libertad Medio
Variación F
(SC) (GL) (CM)
Debido a la
SCReg k CMReg FC
Regresión

Debido al
SCE n-k-1 CME
Error

Total SCT n-1


𝐶𝑀𝑅𝑒𝑔
Donde: F = 𝐶𝑀𝐸 se distribuye con una F y α, k,n-k-1 grados de libertad.
c 𝒆𝑮
Regla de decisión
Al nivel de significancia α, si Fc > F(α, k,n-k-1) se rechaza Ho.

29 miércoles, 16 de marzo


de 2016
MULTICOLINEALIDAD: Factor de
Inflación de Varianza (VIF)
El problema de Multicolinealidad esta relacionado a la alta
correlación que podría existir entre algunas variables
independientes. El Factor de Influencia VIF, es un índice que
se usa para este propósito.
Si VIFj > 10, indica la presencia de multicolinealidad y que la
variable independiente Xj deberá ser eliminada del análisis.

1
VIFj 
1  R 2j
Donde, R2j es el coeficiente de determinación, donde la variable
independiente seleccionada sirve como una variable
dependiente, y las variables independientes restantes, como
variables independientes.
30 miércoles, 16 de marzo
de 2016
Ejemplo 3
Un artículo de investigación realizado por una entidad encargada de
monitorear el clima en el área de California publicó información sobre: la
precipitación anual en pulgadas de lluvia, la altura sobre el nivel del mar
en pies, la latitud en grados, y la distancia desde la costa del Océano
Pacífico en millas de 30 estaciones meteorológicas en California. Se pide:

a.- Estime el modelo de regresión Múltiple.


b.- Analice la significancia del modelo.
c.- Analice la significancia de cada una de las variables predictoras.
d.- Realice el análisis de Residuales.

Los datos se muestra en la siguiente tabla de datos:

31 miércoles, 16 de marzo


de 2016
Estación Precipitacion Altura Latitud Distancia
1 Eureka 39.57 43 40.8 1
2 Red 23.27 341 40.2 97
3 Thermal 18.2 4152 33.8 70
4 Fort 37.48 74 39.4 1
5 Soda Springs 49.26 6752 39.3 150
6 San Francisco 21.82 52 37.8 5
7 Sacramento 18.07 25 38.5 80
8 San Jose 14.17 95 37.4 28
9 Giant Forest 42.63 6360 36.6 145
10 Salinas 13.85 74 36.7 12
11 Fresno 9.44 331 36.7 114
12 Pt Piedras 19.33 57 35.7 1
13 Paso Robles 15.67 740 35.7 31
14 Bakersfield 6 489 35.4 75
15 Bishop 5.73 4108 37.3 198
16 Mineral 47.82 4850 40.4 142
17 Santa Barbara 17.95 120 34.4 1
18 Susanville 18.2 4152 40.3 198
19 Tule Lake 10.03 4036 41.9 140
20 Needles 4.63 913 34.8 192
21 Burbank 14.74 699 34.2 47
22 Los Angeles 15.02 312 34.1 16
23 Long Beach 12.36 50 33.8 12
24 Los Banos 8.26 125 37.8 74
25 Blythe 4.05 268 33.6 155
26 San Diego 9.94 19 32.7 5
27 Daggett 4.25 2105 34.1 85
28 Death 1.66 -178 36.5 194
29 Crescent City 74.87 35 41.7 1
30 Colusa 15.95 60 39.2 91
32 miércoles, 16 de marzo
de 2016
Modelo estimado

 a.- Estime el modelo de regresión múltiple.

Precipitacion = - 102 + 0.00409 Altura + 3.45 Latitud - 0.143 Distancia

 Este es un primer calculo del modelo, queda por verificar la


significancia del modelo y la significancia de cada una de las variables
predictoras que son consideradas, además de descartar el problema
de multicolinealidad. Para finalmente conseguir un modelo significativo
para poder realizar predicciones y pronósticos.

33 miércoles, 16 de marzo


de 2016
Análisis de Varianza
Source DF SS MS F P
Regression 3 4809.4 1603.1 13.02 0.000
Residual Error 26 3202.3 123.2
Total 29 8011.7

H :  =  = .... =  = 0 (El modelo no es significativo)


0 1 2 k

H : Al menos un  es diferente de cero. (El modelo si es significativo)


1 i

Para un nivel de significancia de 0.05


Decisión: Como el p_value = 0.000 es menor al nivel de significancia, se
rechaza H0. Por lo tanto, existe evidencia estadística para pensar que el
modelo es significativo.

34 miércoles, 16 de marzo


de 2016
Significancia de las variables predictoras
Predictor Coef SE Coef T P VIF
Constant -102.36 29.21 -3.50 0.002
Altura 0.004091 0.001218 3.36 0.002 1.536
Latitud 3.4511 0.7949 4.34 0.000 1.058
Distancia -0.14286 0.03634 -3.93 0.001 1.493

Análisis
 A un nivel de significancia de 0.05 todas las variables predictoras son
significativas.
 El factor de influencia VIF de las variables predictoras son inferiores a 10,
por lo tanto no hay presencia de multicolienalidad.
35 miércoles, 16 de marzo
de 2016
Análisis de residuales
Residual Plots for Precipitacion
Normal Probability Plot Versus Fits
De las gráficas de los 99 40

90
20

residuales se puede ver que:

Residual
Percent
50
0

 Tienen media cero.


10
-20
1
-20 0 20 40 0 12 24 36 48

 Tienen varianza constante. Residual Fitted Value

Histogram Versus Order

 Se distribuyen 16 40

12

normalmente.
20

Frequency

Residual
8 0

 Son independientes. 4
-20
0
-30 -20 -10 0 10 20 30 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Residual Observation Order

36 miércoles, 16 de marzo


de 2016
EJERCICIO RESUELTO

En la empresa de aceros SERRET, se está estudiando un nuevo


tratamiento al acero; y para probar su efectividad, el jefe de control de
calidad obtuvo información sobre la tasa de respiración del acero (en
número de moles de 02) en función de goteos de: potasio (ppm) y zinc
(ppm). Los resultados obtenidos son los siguientes:
Análisis de regresión: tasa vs. potasio, zinc
Predictor Coef. Coef. de EE T P
Constante 101.09 18.87 5.36 0.002
potasio -0.0403 0.0342 -1.18 0.283
zinc -0.0039 0.0010 -3.87 0.008

S = 8.17212 R-cuad. = 84.8%


Análisis de varianza
Fuente GL SC MC F
Regresión 2 2243.3 1121.6 16.80
Error residual 6 400.7 66.8
Total 8 2644.0

37
miércoles, 16 de marzo de 2016
EJERCICIO RESUELTO
Con un nivel de significancia del 5%, responda:
a) Estime el modelo de regresión lineal múltiple.
tasa = 101.09 - 0.0403 potasio - 0.0039 zinc

b) Analice la significancia del modelo.


H : El modelo es significativo.
0
H : El modelo no es significativo.
1

Estadístico Fc= 16.80 F(2,6,0.95) =5.14

Se rechaza H , el modelo es significativo.


0

c) Analice la significancia de cada una de las variables predictoras.


H : B1=0 H : B2=0
0 0
H : B1≠0 H : B2≠0
1 1
Con α=0.05, la variable potasio no es significativa en el modelo

38
miércoles, 16 de marzo de 2016
EJERCICIO PROPUESTO
Un gerente de ventas de la cadena AUTOMILENIUM dedicado a la comercialización
de autopartes de vehículos motorizados desea encontrar un modelo que le permita
pronosticar las ventas anuales totales de la empresa (en decenas de miles de
dólares) en una región del país. La experiencia indica que son varios los factores
que están relacionados con las ventas, entre ellos: X1 = Número de tiendas de
venta al menudeo de la región. X2 = Número de automóviles registrados en la
región (miles de unidades). X3 = Costos administrativos (miles de dólares). Los
resultados obtenidos con Minitab son:
Análisis de regresión: ventas vs. n° de tiendas, n° de automóviles, costos
Predictor Coef SE Coef T P
Constante -7.420 2.965 -2.50 0.046
X1 0.00890 0.04303 0.21 0.843
X2 1.2662 0.6197 2.04 0.087
X3 0.37800 0.06151 6.15 0.001
S = 2.09780 R-cuad. = 98.4%
Análisis de varianza
Fuente GL SC CM F
Regresión 3 1576.49 525.50 119.41
Error residual 6 26.40 4.40
Total 9 1602.89
39
miércoles, 16 de marzo de 2016
EJERCICIO PROPUESTO
a) Estime el modelo de regresión lineal múltiple.

b) Analice la significancia del modelo

c) Analice la significancia de cada una de las variables predictoras

d) Calcule e interprete el coeficiente de determinación.

40
miércoles, 16 de marzo de 2016
SÍNTESIS
 Correlación
 Medida de asociación entre dos variables aleatorias. -1 r  1
 Regresión Lineal Simple
 Técnica estadística para estudiar la relación funcional entre dos variables. Útil para
realizar pronósticos.
 Una sola variable independiente.
 Error estándar de estimación. Coeficiente de determinación.
 Prueba F para el modelo. Prueba t para cada variable.
 Regresión Lineal Múltiple
 Dos o más variables independientes.
 Idem a la regresión lineal simple.
 Multicolinealidad.

41 miércoles, 16 de marzo


de 2016
METACOGNICIÓN

 ¿Qué aspectos te han parecido interesantes?


 ¿Qué contenido consideras más importante del tema trabajado?
 ¿Qué competencias del tema podrías aplicar en tu vida diaria?

42 miércoles, 16 de marzo


de 2016
PARA REFORZAR LO APRENDIDO

RESOLVER LOS PROBLEMAS DE LA GUÍA DE


TRABAJO.

43 miércoles, 16 de marzo


de 2016
REFERENCIAS BIBLIOGRÁFICAS

1. Referencias básicas:
• Anderson, D. (2012) Estadística para Negocios y Economía.
México: CENGAGE Learning.
• Chue, J. (2012) Estadística Descriptiva y Probabilidades. Lima:
Universidad de Lima.
2. Referencias de lectura obligatoria:
• Lind, D. (2012) Estadística Aplicada a los Negocios y la
Economía. México: Mc Graw Hill.
• Pérez, C. (2013) Diseño de experimentos: técnicas y
herramientas. Madrid: Garceta.

44 miércoles, 16 de marzo


de 2016

Vous aimerez peut-être aussi