Académique Documents
Professionnel Documents
Culture Documents
Plan de Clases
• Motivación.
• Competencias
Inicio
• Conocimientos previos.
• Regresión lineal simple:
•Estimación de los coeficientes.
•Análisis de Varianza. Análisis de Residuales
• Regresión Lineal Múltiple.
Construcción
•Estimación de los coeficientes.
•Análisis de Varianza. Multicolinealidad.
•Análisis de Residuales.
• Retroalimentación.
Cierre
• Autoevaluación
2 miércoles, 16 de marzo
de 2016
CASO PRÁCTICO
En la empresa QUIETSA el ingeniero de control de calidad desea estudiar si existe relación
entre la diferencia de temperatura en °C (temperatura de la calle con la oficina) y el consumo
de energía del aire acondicionado (KW). El objetivo del estudio es proporcionar un modelo de
predicción para el consumo de energía, que sirva para mejorar el uso adecuado de
ventilación de los ambientes. En la siguiente tabla, se muestran los datos obtenidos en el
estudio:
Diferencia 3.5 3.6 3.8 3.9 4.2 4.3 4.6 4.7 4.9 5 5.3 5.6
Consumo 73.54 78.42 80.64 83.55 86.47 88.61 95.45 98.89 99.34 99.2 99.34 104.45
3 miércoles, 16 de marzo
de 2016
Competencias
Al termino de la sesión, el
estudiante estará en capacidad de:
Estimar el modelo de regresión lineal
simple y múltiple.
Calcular e interpretar los
coeficientes de los modelos de
regresión lineal simple y múltiple
Analizar la significancia de las
variables independientes que son
parte del modelo de regresión lineal
simple y múltiple.
Realizar el análisis de residuales del
modelo estimado.
Utilizar software estadístico.
4 miércoles, 16 de marzo
de 2016
Análisis de regresión lineal simple
El modelo poblacional de regresión lineal y la ecuación de regresión
estimada a partir de una muestra, con el objetivo de realizar
predicción, esta dada por:
y x e (modelo de regresión )
i 0 1 i i
5 miércoles, 16 de marzo
de 2016
Supuestos del modelo de regresión
1. Los valores de la variable independiente X se consideran como fijos (no
aleatorios), medida sin error.
2. La variable Y es aleatoria.
3. Para cada valor de X, existe una distribución normal de valores de Y
(sub-poblaciones).
4. Los errores son aleatorios y se distribuyen normalmente con media
cero y varianza 𝜎 2
Es decir:
Las varianzas de las subpoblaciones Y son todas iguales.
Todas las medias de las subpoblaciones de Y están sobre la recta.
Los valores de Y están normalmente distribuidas y son
estadísticamente independientes.
6 miércoles, 16 de marzo
de 2016
Estimación de los parámetros
n n
X i Yi
X X iYi i 1 i 1
n n
i X Yi Y n SP( XY )
b1 i 1
i 1
X
n 2
X
2
n SC ( X )
i 1
i
n
X i
i 1
X i2 i 1
b0 Y b1 X
7 miércoles, 16 de marzo
de 2016
Ejemplo 1
Para estudiar la relación que existe entre la cantidad del material de estampado
(en Kilos) utilizado para la fabricación de prendas de vestir y el rendimiento en
cientos de unidades se ha tomado una muestra de 10 lotes de producción, estos
son:
Lote 1 2 3 4 5 6 7 8 9 10
Material 3,4 1,9 6,4 5,56 2,5 3,59 1,5 4,57 4,3 2,9
Rendimiento 3 1,6 5,87 4,6 2 3,67 1,25 4,5 4 2,7
8 miércoles, 16 de marzo
de 2016
Diagrama de dispersión:
5
Rendimiento
1
1 2 3 4 5 6 7
Material
9 miércoles, 16 de marzo
de 2016
Cálculos previos
A,
n
2
xi
SSR ( yˆ i y ) 2 ˆ 12 ( xi x ) 2 ˆ 12 xi2 i 1
n n n
i 1 i 1 i 1 n
2
n
yi
( y i y ) 2 y i2 i 1
n n
SST
i 1 i 1 n
n
SSE ( y i yˆ i ) 2 SST SSR
i 1
Source DF SS MS F P
Regression 1 18.981 18.981 248.86 0.000
Residual Error 8 0.610 0.076
Total 9 19.591
Se
b0 y b1 xy
y 2
CME
n2
r
xy nxy Donde:
x nx y
2 2 2
ny 2
1 r 1
SCX x 2 nx 2
SPXY SCY y 2 ny 2
r
SCX SCY SPXY xy nyx
Interpretación
Si 1 r 0.8 , Correlación negativa intensa
Si 0.8 r 0.2 , Correlación negativa normal
Si 0.2 r 0 , Correlación negativa débil
Si 0 r 0.2 , Correlación positiva débil
Si 0.2 r 0.8 , Correlación positiva normal
Si 0.8 r 1 , Correlación positiva intensa
Si r = -1, Correlación negativa perfecta
Si r= 1, Correlación positiva perfecta
15 miércoles, 16 de marzo
de 2016
Coeficiente de Determinación
0 ≤ R2 ≤ 1
SC Re g
R
2
SCT
r
xy nxy
= 0.984
x nx y
2 2 2
ny 2
La Correlación entre el material de estampado y el rendimiento en
producción de prendas de vestir es positiva intensa.
Coeficiente de Determinación
R2 = 0.969
El 96.9% de la variabilidad del rendimiento en la producción de prendas de
vestir es explicado por su relación lineal con la cantidad de material para
estampado.
H o : 1 0 b1 Se
tc ~ tn 2 Sb1
H1 : 1 0 Sb1 SCX
III. Decisión:
Varianza constante. 99
90
0.50
0.25
Se distribuyan normalmente.
Residual
Percent
50 0.00
10 -0.25
Sean independientes. 1
-0.50 -0.25 0.00 0.25 0.50
-0.50
2 3 4 5 6
Residual Fitted Value
4.5 0.25
Frequency
Residual
3.0 0.00
1.5 -0.25
Interpretacion 0.0
-0.4 -0.2 0.0
Residual
0.2 0.4
-0.50
1 2 3 4 5 6 7
Observation Order
8 9 10
Yi β0 β1X1 β 2 X 2 ... β k X k ε i
Donde:
β i : Son parámetros desconocidos, llamados coeficientes
de regresión, (i =0,1,2,3,...,k)
Yi 0 1 X i1 2 X i 2 k X i k i i 1, 2, ,n
En términos matriciales:
Y Xβ ε
Y1 1 X 11 X 12 X 1k 0 1
Y
1 X 21 X 22 X 2k
Y 2
X β 1 ε 2
Yn 1 X n1 X n2 X nk
k n
X/ Xβˆ X/ Y
Resolviendo se obtiene el estimador mínimo cuadrático
βˆ X X X/ Y
/ 1
Estadístico de Prueba:
El estadístico de prueba es el estadístico F del análisis de
varianza ( ANOVA).
Debido al
SCE n-k-1 CME
Error
1
VIFj
1 R 2j
Donde, R2j es el coeficiente de determinación, donde la variable
independiente seleccionada sirve como una variable
dependiente, y las variables independientes restantes, como
variables independientes.
30 miércoles, 16 de marzo
de 2016
Ejemplo 3
Un artículo de investigación realizado por una entidad encargada de
monitorear el clima en el área de California publicó información sobre: la
precipitación anual en pulgadas de lluvia, la altura sobre el nivel del mar
en pies, la latitud en grados, y la distancia desde la costa del Océano
Pacífico en millas de 30 estaciones meteorológicas en California. Se pide:
Análisis
A un nivel de significancia de 0.05 todas las variables predictoras son
significativas.
El factor de influencia VIF de las variables predictoras son inferiores a 10,
por lo tanto no hay presencia de multicolienalidad.
35 miércoles, 16 de marzo
de 2016
Análisis de residuales
Residual Plots for Precipitacion
Normal Probability Plot Versus Fits
De las gráficas de los 99 40
90
20
Residual
Percent
50
0
Se distribuyen 16 40
12
normalmente.
20
Frequency
Residual
8 0
Son independientes. 4
-20
0
-30 -20 -10 0 10 20 30 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Residual Observation Order
37
miércoles, 16 de marzo de 2016
EJERCICIO RESUELTO
Con un nivel de significancia del 5%, responda:
a) Estime el modelo de regresión lineal múltiple.
tasa = 101.09 - 0.0403 potasio - 0.0039 zinc
38
miércoles, 16 de marzo de 2016
EJERCICIO PROPUESTO
Un gerente de ventas de la cadena AUTOMILENIUM dedicado a la comercialización
de autopartes de vehículos motorizados desea encontrar un modelo que le permita
pronosticar las ventas anuales totales de la empresa (en decenas de miles de
dólares) en una región del país. La experiencia indica que son varios los factores
que están relacionados con las ventas, entre ellos: X1 = Número de tiendas de
venta al menudeo de la región. X2 = Número de automóviles registrados en la
región (miles de unidades). X3 = Costos administrativos (miles de dólares). Los
resultados obtenidos con Minitab son:
Análisis de regresión: ventas vs. n° de tiendas, n° de automóviles, costos
Predictor Coef SE Coef T P
Constante -7.420 2.965 -2.50 0.046
X1 0.00890 0.04303 0.21 0.843
X2 1.2662 0.6197 2.04 0.087
X3 0.37800 0.06151 6.15 0.001
S = 2.09780 R-cuad. = 98.4%
Análisis de varianza
Fuente GL SC CM F
Regresión 3 1576.49 525.50 119.41
Error residual 6 26.40 4.40
Total 9 1602.89
39
miércoles, 16 de marzo de 2016
EJERCICIO PROPUESTO
a) Estime el modelo de regresión lineal múltiple.
40
miércoles, 16 de marzo de 2016
SÍNTESIS
Correlación
Medida de asociación entre dos variables aleatorias. -1 r 1
Regresión Lineal Simple
Técnica estadística para estudiar la relación funcional entre dos variables. Útil para
realizar pronósticos.
Una sola variable independiente.
Error estándar de estimación. Coeficiente de determinación.
Prueba F para el modelo. Prueba t para cada variable.
Regresión Lineal Múltiple
Dos o más variables independientes.
Idem a la regresión lineal simple.
Multicolinealidad.
1. Referencias básicas:
• Anderson, D. (2012) Estadística para Negocios y Economía.
México: CENGAGE Learning.
• Chue, J. (2012) Estadística Descriptiva y Probabilidades. Lima:
Universidad de Lima.
2. Referencias de lectura obligatoria:
• Lind, D. (2012) Estadística Aplicada a los Negocios y la
Economía. México: Mc Graw Hill.
• Pérez, C. (2013) Diseño de experimentos: técnicas y
herramientas. Madrid: Garceta.