Académique Documents
Professionnel Documents
Culture Documents
15-1
Concepto
El establecimiento de una correlacin entre
dos variables es importante, pero esto se
considera un primer paso para predecir una
variable a partir de la otra. (U otras, en el
caso de la regresin mltiple.)
Claro est, si sabemos que la variable X est
muy relacionada con Y, ello quiere decir que
podemos predecir Y a partir de X. Estamos ya
en el terreno de la prediccin.
(Evidentemente si, X no est relacionada con
Y, X no sirve como predictor de Y.)
rendimiento
Repaso de la ecuacin de
una recta
Y=A+BX
rendimiento
Rendimiento (Y)
Y Y
i 1
Inteligencia (X)
'
sea mnimo
10
9
4
6
11
10
9
8
7
6
RENDIM
5
4
3
80
INTELIG
90
100
110
120
130
'
Y
Y
i i
es mnimo
i 1
Ordenada
origen
Pendiente
A Y BX
XY nXY
B
X nX
2
X
120
100
90
110
Y
10
9
4
6
XY
1200
900
360
660
X2
14400
10000
8100
12100
SUMA
3120
SUMA
44600
PROMEDIO PROMEDIO
105
7.25
N
4
Luego
Y=-85+015X
Ordenada
origen
Pendiente
a0
xy
b
x
2
IMPORTANTE: B=b
Es decir, la pendiente en
puntuaciones diferenciales es la
MISMA que en puntuaciones
directas
a 0
Ordenada
origen
Pendiente
z z
z
x
2
x
zy
IMPORTANTE: Como
veremos, la pendiente en
puntuaciones tpicas
COINCIDE con el ndice de
correlacin de Pearson
xy
Bb
x
2
Y por el tema
anterior
Y por el tema de
variabilidad
sxy
xy
sx2
sx s y
xy
Bb
x x
2
rxy
2
x
xy
Se deduce
que
sxy
n sxy rxy sx s y r s y
xy
2
sx2
sx2
sx
n
B b rxy
b rxy
sy
sx
sy
1
rxy rxy
sx
1
A Y rxy
sy
sx
Yi
Puntuaciones observadas
Puntuaciones predichas
Error de prediccin
con la recta de
regresin de Y sobre X
Yi
Yi Yi
2
y
(Y Y )
2
(
Y
Y
)
es mnimo
s y2
2
(
Y
Y
)
s y2. x
(
Y
Y
)
i i
Que despejando
sale
rxy2 1
s y2. x
s y2
2
xy
r 1
2
xy
s y.x
s y2
Yi Yi (Yi Yi )
Esta expresin indica que la puntuacin observada por el sujeto isimo es igual a la puntuacin predicha para dicho sujeto ms un
error de prediccin.
Se puede demostrar que las puntuaciones predichas y los errores de
prediccin son independientes, con lo que podemos sealar
s y2 s 2y ' s y2. x
s y2
Varianza total de Y
s y2 '
s y2. x
sy
De la transparencia anterior, tenemos
Y sabamos que
luego
rxy2 1
rxy2
s y2. x
s y2
s y2 s y2. x
s
s y2 ' s y2. x
2
y
s y2
s y2
15-21
15-22
Objetivos
Objetivos
(continuacin)
15-24
y-intercepto
estimado
Pendientes estimadas
Error muestral
y i b 0 b1x1i b 2 x 2i b k x ki ei
15-25
Conceptos Bsicos
para la
Construccin de Modelos
15-26
15-30
15-31
Ejemplo
Un distribuidor de pies (postres) desea evaluar
los factores que se cree influyen en la demanda
15-32
Diagramas de Dispersin
15-33
Variable dependiente:
15-35
Interpretacin de los
Coeficientes Estimados
Pendientes (bi)
y-intercepto (b0)
15-37
Venta
de pies
Precio
($)
Publicidad
($100s)
350
5.50
3.3
460
7.50
3.3
350
8.00
3.0
430
8.00
4.5
350
6.80
3.0
380
7.50
4.0
430
4.50
3.0
470
6.40
3.7
450
7.00
3.5
10
490
5.00
4.0
11
340
7.20
3.5
12
300
7.90
3.2
13
440
5.90
4.0
Precio
14
450
5.00
3.5
Publicidad
15
300
7.00
2.7
Ventas = b0 + b1 (Precio)
+ b2 (Publicidad)
Matriz de correlacin:
Venta de
pies
Venta de Pies
Precio
Publicidad
1
-0.44327
0.55632
0.03044
15-38
Matriz de Correlacin
15-39
Matriz de Correlacin:
Ventas de Pies
Ventas de
pies
Ventas de pies
Precio
Publicidad
Precio
Publicidad
1
-0.44327
0.55632
0.03044
Estimacin de la Ecuacin de
Regresin Lineal Mltiple
Excel:
15-41
Estimacin de la Ecuacin de
Regresin Lineal Mltiple
Excel:
(continuacin
)
15-42
15-43
(continuacin)
b2 = 74.131: Las
ventas crecern en
promedio 74.131 pies
por semana por cada
$100 incrementado
en publicidad,
manteniendo constante el precio
15-44
La venta predecida es
428.62 pies
Nota: La publicidad
est en $100s,
entonces x2 = 3.5
significa $350
15-45
Coeficiente de Determinacin
Mltiple (R2)
SST
Suma total de cuadrados
2
15-46
Coeficiente de Determinacin
Mltiple (R2)
(continuacin)
SSR 29460.0
R
0.52148
SST 56493.3
2
15-47
R2 Ajustado
R2 Ajustado
(continuacin)
n 1
R 1 (1 R )
n k 1
2
A
Coeficiente de Determinacin
Mltiple: Excel (Resultado)
R 2A 0.44172
El 44.2% de la variacin en las ventas es
explicada por la variacin en los precios y
la publicidad, tomando en cuenta la
relacin entre el tamao de muestra y el
nmero de variables independientes
15-50
Hiptesis:
15-51
(continuacin)
Estadstico de prueba:
SSR
MSR
k
F
SSE
MSE
n k 1
Donde: Los grados de libertad de F son:
glnumerador = k
gldenominador = (n k 1)
15-52
(continuacin)
MSR 14730.0
F
6.5386
MSE
2252.8
Con 2 y 12 grados de
libertad
Valor P para
la prueba
15-53
(continuacin)
Valor crtico:
F0.05 = 3.885
= 0.05
0
Estadstico de prueba:
No rechazar H0
Rechazar H0
MSR
6.5386
MSE
Hiptesis:
15-55
Estadstico de prueba:
bi b0
t
sbi
(gl = n k 1)
15-56
(continuacin)
15-57
(continuacin)
H0: i = 0; HA: i 0
g.l. = 15-2-1 = 12
/2=0.025
/2=0.025
= 0.05
t/2 = 2.1788
Rechazar H0
Excel (Resultado):
No rechazar H0
-t/2
t/2
Rechazar H0
2.1788
-2.1788
Coeficientes
Errortpico
Estadstico t
Valorp
Precio
-24.97509
10.83213
-2.30565
0.03979
Publicidad
74.13096
25.96732
2.85478
0.01449
b i t / 2 sbi
Donde t tiene
(n k 1) g.l.
SSE
s
MSE
n k 1
15-60
(continuacin)
15-61
(continuacin)
Variables Dummy
El modelo de regresin requiere el uso de variables cuantitativas de
ratio
Variables Dummy
15-63
Variables Dummies
15-64
Variables Dummies
y b0 b1x1 b 2 x 2
x1 = Precio
x2 = Feriado (X2 = 1 si hay feriado en una semana)
(X2 = 0 si no hay feriado en una semana)
15-66
b0
No Feriado
Interceptos Misma
diferentes pendiente
y (Ventas)
b0 + b2
Feriado
Feri
ado
No F
eriad
o
Si H0: 2 = 0 es
rechazada, entonces
Feriado tiene un
efecto significativo
sobre las ventas
x1 (Precio)
15-67
15-69
(continuacin)
15-70
Problemas e Indicios de
Multicolinealidad Severa
15-71
Deteccin de Multicolinealidad
(Factor de Inflacin de Varianza)
VIFj es usado para medir la colinealidad:
1
VIF j
2
1 Rj
Colinealidad Moderada
Colinealidad Severa
15-72
Deteccin de Multicolinealidad
(Indice de tolerancia)
VIFj es usado para medir la colinealidad:
1
TOL j
VIF j
Colinealidad Moderada
Colinealidad Severa
15-73
Deteccin de Multicolinealidad
(ndice de condicion)
IC es usado para medir la colinealidad:
Se define como la raz cuadrada
del cociente entre el mnimo valor
propio y el mximo valor propio
Si ICj < 10, entonces xj est muy poco
correlacionado con las otras variables
explicativas
Colinealidad Baja
Colinealidad Moderada
Colinealidad Severa
15-74
15-75
Consecuencias de la falta de
normalidad.
Este es un problema que afecta especialmente a la
estimacin de la varianza del modelo y no se obtendrn
intervalos de confianza correctos del error.
Sin embargo, por el Teorema Central del Lmite, la falta
de normalidad tiene poca influencia en el F-test de la
tabla ANOVA.
La hiptesis de que los errores siguen una distribucin
normal puede chequearse de forma grfica y de forma
analtica.
15-76
Diagnostico de normalidad
15-78
15-79
15-80
Diagnostico de independencia
de los errores
15-81
Diagnostico de independencia
de los errores
15-82
Homocedasticidad de los
residuos
Es necesario contrastar la hiptesis de
homocedasticidad, esto es, la varianza de
los residuos es constante y no vara en los
diferentes niveles de las variables
dependientes e independientes. La falta de
homocedasticidad
se
denomina
heterocedasticidad.
15-83
Consecuencias de la falta
de homocedasticidad
Se ha demostrado que si el tamao de muestra
es grande los niveles de significacin de los
pruebas de hiptesis y los niveles de confianza
de los intervalos apenas se ven afectados por la
existencia de heterocedasticidad, a no ser que la
varianza de la respuesta para algn tratamiento
particular sea considerablemente mayor que para
otros.
15-84
Diagnostico de homocedasticidad
La hiptesis contrastar
es que la varianza en
todos los grupos es la
misma.
15-85
Diagnostico de homocedasticidad: el
test de Bartlett
Regin de no rechazo
Regin de rechazo
15-86
Refrencias
15-88