Vous êtes sur la page 1sur 88

Anlisis de Regresin

15-1

Concepto
El establecimiento de una correlacin entre
dos variables es importante, pero esto se
considera un primer paso para predecir una
variable a partir de la otra. (U otras, en el
caso de la regresin mltiple.)
Claro est, si sabemos que la variable X est
muy relacionada con Y, ello quiere decir que
podemos predecir Y a partir de X. Estamos ya
en el terreno de la prediccin.
(Evidentemente si, X no est relacionada con
Y, X no sirve como predictor de Y.)

rendimiento

ConceptoEl tema bsico en


regresin (con 2
variables) es ajustar
los puntos del
diagrama de
dispersin de las
variables X e Y. Para
simplificar, nos
inteligencia
centraremos
especialmente (por
simplicidad) en el
Criterio de mnimos cuadrados: Es aquel que minimiza las
caso de que la relacin
distancias cuadrticas de los puntos con la lnea.
entre X e Y sea lineal.

Repaso de la ecuacin de
una recta

Y=A+BX

rendimiento

A: es la ordenada en el origen (es


donde la recta corta el eje Y)

B: es la pendiente (observad que en


inteligencia

el caso de las relaciones positivas, B


ser positivo; en el caso de las
relacin negativas, B ser negativo; si
no hay relacin, B ser
aproximadamente 0)

Si queremos predecir Y a partir de X, necesitamos calcular (en el caso de


relacin lineal) la recta de regresin de Y sobre (a partir de) X.

Clculo de la ecuacin de regresin lineal


(de Y sobre X)

Rendimiento (Y)

El criterio de mnimos cuadrados nos


proporciona un valor de A y uno de B,
tal que

Y Y
i 1

Inteligencia (X)

'

sea mnimo

Clculo de la ecuacin de regresin lineal


(de Y sobre X)
CI (X)
Rendim (Y)
120
100
90
110

10
9
4
6

11
10
9
8
7
6

RENDIM

5
4
3
80

INTELIG

90

100

110

120

130

Clculo de la ecuacin de regresin lineal


(de Y sobre X)
La recta por mnimos
cuadrados es:
Y=-85+015X
n

'
Y

Y
i i

es mnimo

i 1

Esa expresin vale 11.5


en nuestro caso
Observa....
-Cada unidad de CI hace
aumentar 015 la nota.
-Aunque en este caso, lo
siguiente no tiene sentido, una
persona con CI de 0, sacara
un -8.5

Clculo de la ecuacin de regresin


lineal (de Y sobre X)
Las frmulas.... En puntuaciones directas

Ordenada
origen

Pendiente

A Y BX
XY nXY

B
X nX
2

Nota: Tanto A como B se pueden obtener fcilmente en cualquier


calculadora con opcin LR (Linear Regression)

Clculo de la ecuacin de regresin lineal


(de Y sobre X)
suj1
suj2
suj3
suj4

X
120
100
90
110

Y
10
9
4
6

XY
1200
900
360
660

X2
14400
10000
8100
12100

SUMA
3120

SUMA
44600

PROMEDIO PROMEDIO
105
7.25
N
4

3120 4 105 7 ' 25


0 '15
2
44600 4 105

A 7 ' 25 0 '15 105 8'5

Luego
Y=-85+015X

Clculo de la ecuacin de regresin lineal


(de Y sobre X)
Las frmulas en puntuaciones diferenciales

Ordenada
origen

Pendiente

a0
xy

b
x
2

Fijaros que la media de X y la media


de Y sern 0 en puntuacin tpicas

IMPORTANTE: B=b
Es decir, la pendiente en
puntuaciones diferenciales es la
MISMA que en puntuaciones
directas

Por tanto, la recta de regresin en puntuaciones diferenciales es en


nuestro caso: y=015x

Clculo de la ecuacin de regresin lineal


(de Y sobre X)
Las frmulas en puntuaciones tpicas

a 0

Ordenada
origen

Pendiente

z z

z
x

2
x

Al igual que en las puntuaciones


diferenciales

zy

IMPORTANTE: Como
veremos, la pendiente en
puntuaciones tpicas
COINCIDE con el ndice de
correlacin de Pearson

Por tanto, la recta de regresin en puntuaciones tpicas es en


nuestro caso: zy =0703zx

Clculo de la ecuacin de regresin lineal


(de Y sobre X)
Sabemos que

xy

Bb
x
2

Y por el tema
anterior
Y por el tema de
variabilidad

sxy

xy

sx2

sx s y

xy

Bb

x x
2

rxy

2
x

xy

Se deduce
que

sxy

n sxy rxy sx s y r s y
xy
2
sx2
sx2
sx
n

Clculo de la ecuacin de regresin lineal


(de Y sobre X)
En definitiva,

B b rxy

b rxy

sy
sx

sy

1
rxy rxy
sx
1

A Y rxy

sy
sx

Evidentemente, la ordenada en el origen de la recta de


regresin de Y sobre X ser 0 para puntuaciones
diferenciales y tpicas (dado que las medias para las
respectivas puntuaciones tanto en X como en Y sern 0 en
tales casos).

Los errores de prediccin en la recta de


regresin de Y sobre X

Yi

Puntuaciones observadas
Puntuaciones predichas

Error de prediccin
con la recta de
regresin de Y sobre X

Yi
Yi Yi

La cuestin ahora en cunto se reduce la varianza al emplear la


recta de regresin de Y sobre X (es decir, teniendo X como
predictor) en comparacin con el caso en que no tuviramos la
recta de regresin
2

2
y

(Y Y )

Los errores de prediccin en la recta


de regresin de Y sobre X
Si no tuviramos el predictor X, qu puntuacin prediramos
para las puntuaciones de Y?

En tal caso, dado el criterio de mnimos cuadrados, si tenemos


datos en Y y

carecemos de datos en X, nuestra mejor estimacin de Y ser su


media

Recordemos que la media minimiza el sumatorio de las diferencias


Cuadrticas

2
(
Y

Y
)

es mnimo

Si empleamos la media como predictor, la varianza de las predicciones


ser

s y2

2
(
Y

Y
)

Los errores de prediccin en la recta


de regresin de Y sobre X
Pero si tenemos un predictor X, la varianza ser

s y2. x

(
Y

Y
)
i i

Esta es la varianza de Y no explicada por X


Se puede demostrar ques y2. x s y2 (1 rxy2 )

Que despejando
sale

rxy2 1

s y2. x
s y2

Cun buena es la prediccin de la recta de


regresin? El coeficiente de determinacin como
ndice de la bondad de ajuste de nuestro modelo (la
recta de regresin)
2
Acabamos de mostrar que

2
xy

r 1
2
xy

s y.x
s y2

Es el llamado coeficiente de determinacin y permite


conocer cun bueno es el ajuste de la recta de regresin (o
en general del modelo lineal). Est acotado entre 0 y 1.

Si todos los puntos del diagrama de dispersin estn sobre la recta


2
(con pendiente diferente sde
entonces ser 0, y el
y . x 0),
coeficiente de determinacin ser 1
Cuanto ms se alejen los puntos de la recta de regresin, mayor
2
ser sel
el valor del coeficiente de determinacin
y . xvalor de
ser menor y menor.

El coeficiente de determinacin y la proporcin de


varianza asociada/explicada/comn (1)
Empecemos con una tautologa

Yi Yi (Yi Yi )
Esta expresin indica que la puntuacin observada por el sujeto isimo es igual a la puntuacin predicha para dicho sujeto ms un
error de prediccin.
Se puede demostrar que las puntuaciones predichas y los errores de
prediccin son independientes, con lo que podemos sealar

s y2 s 2y ' s y2. x

s y2

Varianza total de Y

s y2 '

Varianza de las puntuaciones de Y predichas por el predictor X

s y2. x

Varianza de los errores de prediccin (varianza no explicada por


X)

El coeficiente de determinacin y la proporcin de


varianza asociada/explicada/comn (2)
2

sy
De la transparencia anterior, tenemos
Y sabamos que

luego

rxy2 1

rxy2

s y2. x
s y2

s y2 s y2. x
s

s y2 ' s y2. x

2
y

s y2
s y2

En definitiva, el coeficiente de determinacin mide la proporcin


de la varianza de Y que est asociada/explicada por el predictor X

Dado el modelo de regresin simple:


Precio de la casa = 0 + 1(rea de la casa) +

Pero en general, una variable dependiente depende de ms de una


variable independiente:
Precio de la casa puede depender de:
rea
Antigedad
Nmero de baos
rea del garaje
Etc.
15-20

Anlisis de Regresin Mltiple

15-21

Para tratar este tipo de problemas se requiere


expandir el anlisis de regresin:
Regresin Lineal Simple

Regresin Lineal Mltiple

15-22

Objetivos

Explicar la construccin de modelos usando el


anlisis de regresin mltiple.

Aplicar el anlisis de regresin mltiple en la toma


de decisiones de negocios.

Analizar e interpretar los resultados de programas


estadsticos para un modelo de regresin
mltiple.

Evaluar la significancia de las variables independientes en un modelo de regresin mltiple.


15-23

Objetivos
(continuacin)

Reconocer problemas potenciales en el anlisis de


regresin mltiple y tomar acciones para corregirlos.

Incorporar variables cualitativas en el modelo de


regresin usando variables dummies.

15-24

Modelo de Regresin Mltiple


Objetivo: Examinar la relacin lineal entre
una variable dependiente (y) y
dos o ms variables independientes (xi)

Modelo de regresin mltiple muestral:


Valor de y

y-intercepto
estimado

Pendientes estimadas

Error muestral

y i b 0 b1x1i b 2 x 2i b k x ki ei
15-25

Conceptos Bsicos
para la
Construccin de Modelos

15-26

Conceptos Bsicos para la


Construccin de Modelos

Los modelos son usados para evaluar cambios


sin implementarlos en el sistema real.

Los modelos pueden ser usados para predecir


outputs basados en inputs especficos.

El proceso de construccin de modelos


consiste de 3 etapas:

Especificacin del modelo


Ajuste del modelo
Diagnstico del modelo
15-27

Conceptos Bsicos para la


Construccin de Modelos
Las 3 etapas:

Especificacin del modelo

Especificacin del modelo de regresin poblacional.

Recoleccin de la data muestral.

Formulacin o construccin del modelo


Clculo de los coeficientes de correlacin entre las distintas variables,
dependientes e independientes.
Ajuste del modelo a la data. Estimacin de la ecuacin de regresin
mltiple.

Diagnstico del modelo


Pruebas estadsticas para determinar la bondad de ajuste del modelo a
la data.
Verificacin de los supuestos de regresin mltiple.
15-28

Especificacin del Modelo

A veces referido como identificacin del modelo

Es un proceso para establecer la estructura del


modelo

Decidir qu se quiere hacer y seleccionar la variable


dependiente (y).

Determinar las potenciales variables independientes


(x) para el modelo.

Recolectar los datos muestrales (observaciones) para


todas las variables. Sugerencia: Tamao muestral de al
menos 4 veces el nmero de variables independientes.
15-29

Construccin del Modelo

Es el proceso de construir la ecuacin para los


datos.

Puede incluir todas o algunas de las variables


independientes (x).

El objetivo es explicar la variacin en la variable


dependiente (y) a travs de la relacin lineal con
las variables independientes seleccionadas (x).

15-30

Diagnstico del Modelo

Analizar la calidad del modelo (efectuar las pruebas de


diagnstico).

Evaluar el grado en que los supuestos se satisfacen.

Si el modelo es inaceptable, iniciar el proceso de


construccin del modelo nuevamente.

Usar el modelo ms simple que satisfaga las


necesidades.
El objetivo es ayudar a tomar mejores decisiones.

15-31

Ejemplo
Un distribuidor de pies (postres) desea evaluar
los factores que se cree influyen en la demanda

15-32

Diagramas de Dispersin

15-33

Ejemplo: Especificacin del Modelo


Un distribuidor de pies (postres) desea evaluar los
factores que se cree influyen en la demanda

Variable dependiente:

Ventas (unidades / semana)

Variables independientes: Precio ($) y Publicidad ($100)

Modelo de Regresin mltiple Poblacional:


Ventas = 0 + 1(Precio) + 2(Publicidad) +
15-34

Ejemplo: Construccin o Formulacin del Modelo

Modelo de Regresin Mltiple (Muestral):


Ventasj = b0 + b1(Precioj) + b2(Publicidadj) + errorj
Modelo de Regresin Mltiple Lineal
Ventas = b0 + b1(Precio) + b2(Publicidad)

15-35

Interpretacin de los
Coeficientes Estimados

Pendientes (bi)

Estiman el cambio en el valor promedio de y como bi


unidades por cada unidad de incremento en xi manteniendo las
otras variables constantes.
Ejemplo: Si b1 = -20, entonces se espera que las ventas
promedio (y) se reduzcan en 20 pies por semana por cada $1
en que se incremente el precio (x1), manteniendo constante la
variable publicidad (x2).

y-intercepto (b0)

Estima el valor promedio de y cuando todas las variables xi


son iguales a cero (suponiendo que el valor cero est dentro de
los rangos de valores que pueden tomar los xi).
15-36

Formulacin del Modelo

Los datos de 15 semanas son recolectados.

15-37

Formulacin del Modelo


Semana

Venta
de pies

Precio
($)

Publicidad
($100s)

350

5.50

3.3

460

7.50

3.3

350

8.00

3.0

430

8.00

4.5

350

6.80

3.0

380

7.50

4.0

430

4.50

3.0

470

6.40

3.7

450

7.00

3.5

10

490

5.00

4.0

11

340

7.20

3.5

12

300

7.90

3.2

13

440

5.90

4.0

Precio

14

450

5.00

3.5

Publicidad

15

300

7.00

2.7

Modelo de Regresin Mltiple:

Ventas = b0 + b1 (Precio)
+ b2 (Publicidad)
Matriz de correlacin:
Venta de
pies
Venta de Pies

Precio

Publicidad

1
-0.44327

0.55632

0.03044

15-38

Matriz de Correlacin

Las correlaciones entre la variable dependiente


y las variables independientes seleccionadas
pueden obtenerse usando Excel:

Datos / Anlisis de datos / Coeficiente de correlacin

Puede evaluar la significancia estadstica de la


correlacin con una prueba t

15-39

Matriz de Correlacin:
Ventas de Pies
Ventas de
pies
Ventas de pies
Precio
Publicidad

Precio

Publicidad

1
-0.44327

0.55632

0.03044

Ventas vs. Precio : r = -0.44327

Hay una asociacin lineal negativa entre las


ventas y el precio

Ventas vs. Publicidad : r = 0.55632

Hay una asociacin lineal positiva entre las


ventas y la publicidad
15-40

Estimacin de la Ecuacin de
Regresin Lineal Mltiple

Programas estadsticos (computadora) son


generalmente usados para generar estimados
de los coeficientes y medidas de bondad de
ajuste de la regresin mltiple

Excel:

Datos / Anlisis de datos / Regresin

15-41

Estimacin de la Ecuacin de
Regresin Lineal Mltiple

Excel:

(continuacin
)

Datos / Anlisis de datos / Regresin

15-42

Regresin Mltiple: Excel


(Resultado)
Ventas 306.526 - 24.975(Precio) 74.131(Pub licidad)

15-43

Regresin Mltiple: Excel


(Resultado)

(continuacin)

Ecuacin estimada de regresin mltiple:

Ventas 306.526 - 24.975(Precio) 74.131(Pub licidad)


Donde:
Ventas (nmero de pies por semana)
Precio ($)
Publicidad ($100s)

b1 = -24.975: Las ventas decrecern en


promedio 24.975 pies
por semana por cada
$1 incrementado en el
precio, manteniendo
constante la publicidad

b2 = 74.131: Las
ventas crecern en
promedio 74.131 pies
por semana por cada
$100 incrementado
en publicidad,
manteniendo constante el precio
15-44

Usando el Modelo para hacer


Predicciones
Predecir las ventas de una semana en la cual
el precio es $5.50 y la publicidad es $350.
Ventas 306.526 - 24.975(Precio) 74.131(Pub licidad)
306.526 - 24.975 (5.50) 74.131 (3.5)
428.62

La venta predecida es
428.62 pies

Nota: La publicidad
est en $100s,
entonces x2 = 3.5
significa $350
15-45

Coeficiente de Determinacin
Mltiple (R2)

Reporta la proporcin de la variacin total en y


que es explicada por todas las variables (juntas)
x consideradas en el modelo

SSR Suma de cuadrados de regresin


R

SST
Suma total de cuadrados
2

15-46

Coeficiente de Determinacin
Mltiple (R2)

(continuacin)

SSR 29460.0
R

0.52148
SST 56493.3
2

El 52.1% de la variacin en las


ventas es explicada por la variacin en los precios y la publicidad

15-47

R2 Ajustado

R2 nunca decrece cuando una nueva variable x


es aadida al modelo
Esto puede ser una desventaja cuando se
compara modelos
Cul es el efecto neto de agregar una nueva
variable?
Se pierde un grado de libertad cuando una
nueva variable x es aadida
La nueva variable x aporta suficiente poder
explicativo para compensar la prdida de un
grado de libertad?
15-48

R2 Ajustado
(continuacin)

Muestra la proporcin explicada de la variacin en y por las


variables xs tomando en cuenta la relacin entre el tamao
de muestra y el nmero de variables independientes

n 1
R 1 (1 R )

n k 1
2
A

(Donde n = Tamao muestral, k = Nmero de variables independientes)

Penaliza el uso excesivo de variables independientes no


importantes
Es ms pequea que el R2
til en la comparacin entre modelos
15-49

Coeficiente de Determinacin
Mltiple: Excel (Resultado)
R 2A 0.44172
El 44.2% de la variacin en las ventas es
explicada por la variacin en los precios y
la publicidad, tomando en cuenta la
relacin entre el tamao de muestra y el
nmero de variables independientes

15-50

Diagnstico del Modelo: Prueba F


(Significancia General)
Prueba F para la significancia del modelo (general)

Muestra si hay una relacin lineal entre todas las


variables x (consideradas en forma conjunta) e y

Usa el estadstico de prueba F

Hiptesis:

H0: 1 = 2 = = k = 0 (No hay relacin lineal)

HA: Al menos un i 0 (Existe relacin lineal entre (y)


y al menos un xi)

15-51

Diagnstico del Modelo: Prueba F


(Significancia General)

(continuacin)

Estadstico de prueba:

SSR
MSR
k
F

SSE
MSE
n k 1
Donde: Los grados de libertad de F son:
glnumerador = k
gldenominador = (n k 1)
15-52

Diagnstico del Modelo: Prueba F


(Significancia General)

(continuacin)

MSR 14730.0
F

6.5386
MSE
2252.8
Con 2 y 12 grados de
libertad

Valor P para
la prueba

15-53

Diagnstico del Modelo: Prueba F


(Significancia General)

(continuacin)

H0: 1 = 2 = 0; HA: 1 o 2 es diferente de cero


= 0.05
glnumerador= 2
gldenominador = 12

Valor crtico:
F0.05 = 3.885
= 0.05

0
Estadstico de prueba:

No rechazar H0

Rechazar H0

MSR
6.5386
MSE

Decisin: Como F = 6.53 > 3.89 = F0.05 , entonces se rechaza H0


Conclusin: Hay suficiente evidencia para concluir que el modelo de regresin
explica parte de la variacin en la venta de pies
(al menos una de las pendientes de regresin no es cero)
15-54

Diagnstico del Modelo:

Las Variables Individuales son Significativas?

Usar la prueba t para evaluar la significancia de


cada pendiente

Muestra si hay una relacin lineal entre la variable


xi e y

Hiptesis:

H0: i = 0 (No hay relacin lineal)

HA: i 0 (Existe relacin lineal entre xi e y)

15-55

Diagnstico del Modelo:

Las Variables Individuales son Significativas?


(continuacin)

H0: i = 0 (No hay relacin lineal)


HA: i 0 (Existe relacin lineal entre xi e y)

Estadstico de prueba:

bi b0
t
sbi

(gl = n k 1)
15-56

Diagnstico del Modelo:

Las Variables Individuales son Significativas?

(continuacin)

El estadstico de prueba t para el


Precio es -2.306 (valor p = 0.0398)
El estadstico de prueba t para la
Publicidad es 2.855 (valor p = 0.0145)

15-57

Diagnstico del Modelo:

Las Variables Individuales son Significativas?

(continuacin)

H0: i = 0; HA: i 0

g.l. = 15-2-1 = 12

/2=0.025

/2=0.025

= 0.05
t/2 = 2.1788

Rechazar H0

Excel (Resultado):

No rechazar H0

-t/2

t/2

Rechazar H0

2.1788

-2.1788

Coeficientes

Errortpico

Estadstico t

Valorp

Precio

-24.97509

10.83213

-2.30565

0.03979

Publicidad

74.13096

25.96732

2.85478

0.01449

Decisin: Para cada variable se rechaza H0


Conclusin: Hay evidencia suficiente para concluir que cada variable individual (Precio y Publicidad) afecta a la venta de pies, dada
la presencia de la otra para =0.05
15-58

Intervalos de Confianza para las


Pendientes
El intervalo de confianza para la pendiente poblacional
1 (efecto sobre las ventas de pie respecto a cambios
en el precio):

b i t / 2 sbi

Donde t tiene
(n k 1) g.l.

Ejemplo: Las ventas semanales de pies se reducirn


entre 1.37 a 48.58 pies por cada incremento de $1 en
el precio
15-59

Desviacin Estndar del Modelo


de Regresin

La estimacin de la desviacin estndar del


modelo de regresin est dada por:

SSE
s
MSE
n k 1

Este valor es grande o pequeo? Para evaluarlo


se debe comparar con el promedio de y

15-60

Desviacin Estndar del Modelo


de Regresin

(continuacin)

La desviacin estndar del


modelo de regresin es 47.46

15-61

Desviacin Estndar del Modelo


de Regresin

(continuacin)

La desviacin estndar del modelo de regresin


es 47.46

Un rango de prediccin para las ventas de pies en


una semana se puede aproximar por 2(47.46) 94.2

Considerando que el promedio muestral de pies


por semana es 399.3, un error de 94.2 pies es
problablemente grande para ser aceptado. El distribuidor podra querer buscar variables adicionales que puedan explicar ms de la variacin en las
ventas.
15-62

Variables Dummy
El modelo de regresin requiere el uso de variables cuantitativas de
ratio

Cmo manejar posibles variables categricas que frecuentemente


se presentan en la explicacin de una variable dependiente?
Ejemplo: Gnero, estado civil, grado de instruccin, tipo de
vecindario, etc.

Variables Dummy

15-63

Variables Dummies

Son usadas para incorporar variables explicativas categricas al modelo de regresin:

Si o no, masculino o femenino, etc.(variable


dummy: 0, 1)

Casado o divorciado o viudo o soltero (variables


dummies: 0, 0, 1; 0, 1, 0; 1, 0, 0)

15-64

Variables Dummies

El nmero de variables dummies requerido es


(categoras 1) por cada variable cualitativa.

A veces llamadas variables indicadoras.

Los interceptos de regresin son diferentes si


la variable es significativa.

Asume igual pendiente para las otras


variables.
15-65

Variable Dummy (Dos Niveles) en


un Modelo de Regresin: Ejemplo
Sea:
= Ventas de pies

y b0 b1x1 b 2 x 2

x1 = Precio
x2 = Feriado (X2 = 1 si hay feriado en una semana)
(X2 = 0 si no hay feriado en una semana)

15-66

Variable Dummy (Dos Niveles) en


un Modelo de Regresin: Ejemplo
(continuacin)

y b0 b1x1 b 2 (1) (b 0 b 2 ) b1x1


y b0 b1x1 b 2 (0)
b 0 b1 x 1

b0

No Feriado

Interceptos Misma
diferentes pendiente

y (Ventas)

b0 + b2

Feriado

Feri

ado

No F
eriad
o

Si H0: 2 = 0 es
rechazada, entonces
Feriado tiene un
efecto significativo
sobre las ventas
x1 (Precio)

15-67

Regresin, Variable Dummy (Dos


Niveles): Interpretacin de Coeficientes
Ejemplo:

Ventas 300 - 30(Precio) 15(Feriado )

Ventas: Nmero de pies vendidos por semana


Precio: Precio del pie en dlares
1 Si hay feriado en una semana
Feriado:
0 Si no hay feriado en una semana
b2 = 15: En promedio, las ventas en una
semana con feriado son de 15 pies ms
que en una sin feriado, manteniendo el
mismo precio
15-68

Diagnstico del Modelo:


Multicolinealidad

Multicolinealidad: Es la presencia de correlacin entre


dos variables independientes y, por lo tanto, se
traslapan.

Es decir, las dos variables contribuyen con


informacin redundante al modelo de regresin
mltiple.

15-69

Diagnstico del Modelo:


Multicolinealidad

(continuacin)

Incluir dos variables independientes altamente


correlacionadas puede afectar adversamente los
resultados de regresin:

No proporciona nueva informacin.

Puede llevar a coeficientes inestables (error estndar


grande y valores t bajos).

Los signos de los coeficientes podran no ser


coherentes con nuestras expectativas iniciales y con
la matriz de correlacin.

15-70

Problemas e Indicios de
Multicolinealidad Severa

Signos incorrectos en los coeficientes.

Cambio grande en el valor de un coeficiente como


resultado de agregar una nueva variable al modelo.

Una variable anteriormente significativa se vuelve no


significativa cuando una nueva variable independiente
es agregada.

El estimado de la desviacin estndar del modelo se


incrementa cuando una variable es agregada al
modelo.

15-71

Deteccin de Multicolinealidad
(Factor de Inflacin de Varianza)
VIFj es usado para medir la colinealidad:

1
VIF j
2
1 Rj

R2j es el coeficiente de determinacin de


la regresin de la jma variable
independiente contra las restantes k 1
variables independientes
Si VIFj < 5, entonces xj est muy poco
correlacionado con las otras variables
Colinealidad Baja
explicativas
Si 10>VIFj 5, entonces xj est
moderadamente correlacionado con las
otras variables explicativas

Colinealidad Moderada

Si VIFj 10, entonces xj est altamente


correlacionado con las otras variables
explicativas

Colinealidad Severa
15-72

Deteccin de Multicolinealidad
(Indice de tolerancia)
VIFj es usado para medir la colinealidad:

1
TOL j
VIF j

R2j es el coeficiente de determinacin de


la regresin de la jma variable
independiente contra las restantes k 1
variables independientes
Si VIFj > 0.2, entonces xj est muy
poco correlacionado con las otras
Colinealidad Baja
variables explicativas

Si 0.2>VIFj 0.1, entonces xj est


moderadamente correlacionado con las
otras variables explicativas

Colinealidad Moderada

Si 0.1 VIFj, entonces xj est altamente


correlacionado con las otras variables
explicativas

Colinealidad Severa
15-73

Deteccin de Multicolinealidad
(ndice de condicion)
IC es usado para medir la colinealidad:
Se define como la raz cuadrada
del cociente entre el mnimo valor
propio y el mximo valor propio
Si ICj < 10, entonces xj est muy poco
correlacionado con las otras variables
explicativas

Colinealidad Baja

Si 30 ICj 10, entonces xj est


moderadamente correlacionado con las
otras variables explicativas

Colinealidad Moderada

Si ICj >30, entonces xj est altamente


correlacionado con las otras variables
explicativas

Colinealidad Severa
15-74

Normalidad de los residuos

Una de las hiptesis bsicas


del modelo de regresin es que
los errores del modelo siguen
una distribucin normal, con
media =0 y varianza=1.
Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall

15-75

Consecuencias de la falta de
normalidad.
Este es un problema que afecta especialmente a la
estimacin de la varianza del modelo y no se obtendrn
intervalos de confianza correctos del error.
Sin embargo, por el Teorema Central del Lmite, la falta
de normalidad tiene poca influencia en el F-test de la
tabla ANOVA.
La hiptesis de que los errores siguen una distribucin
normal puede chequearse de forma grfica y de forma
analtica.

Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall

15-76

Diagnostico de normalidad

El Test de ShapiroWilk se usa


para contrastar la normalidad de
un conjunto de datos.
Test de Kolmogorov-Smirnov con
correccin de Lilliefors.
Ambos se utilizan para contrastar
la hiptesis nula de que los
datos
provienen
de
una
distribucin normal.
Grafico QQ plot o PP plot, se usa
para un diagnostico grafico de la
posible normalidad de los datos.

Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall

Diagnostico de normalidad: test de


ShapiroWilk

Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall

15-78

Independencia de los errores


La hiptesis de que las observaciones muestrales son
independientes es una hiptesis bsica en el estudio de
los modelos de regresin lineal.
Con ello se entiende que los errores {ei}i = 1n son
variables aleatorias independientes.
La falta de independencia, se produce fundamentalmente
cuando se trabaja con variables aleatorias que se
observan a lo largo del tiempo, esto es, cuando se trabaja
con series temporales.
Por ello, una primera medida para tratar de evitar la
dependencia de las observaciones consiste en aleatorizar
la recoleccin de la muestra.
Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall

15-79

Consecuencias que tiene la falta de


independencia de los errores.

La ausencia de aleatoriedad entre las observaciones es


muy difcil de corregir y es especialmente grave ya que
puede invalidar por completo las conclusiones del
anlisis estadstico (obteniendo conclusiones errneas).

Todas las expresiones utilizadas para las varianzas son


incorrectas y, por tanto, los intervalos de confianza y las
pruebas de hiptesis deducidos a partir de ellas,
tendrn una confianza o una potencia distinta a la
supuesta.

Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall

15-80

Diagnostico de independencia
de los errores

El test de Durbin-Watson, es una estadstica de


prueba que se utiliza para detectar la presencia
de auto correlacin (Dependencia).
La razn de Von Neumann.
La prueba de Berenblut & Webb.
Grafico de los residuos vs cada una de las
variables xi y la y

Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall

15-81

Diagnostico de independencia
de los errores

Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall

15-82

Homocedasticidad de los
residuos
Es necesario contrastar la hiptesis de
homocedasticidad, esto es, la varianza de
los residuos es constante y no vara en los
diferentes niveles de las variables
dependientes e independientes. La falta de
homocedasticidad
se
denomina
heterocedasticidad.

Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall

15-83

Consecuencias de la falta
de homocedasticidad
Se ha demostrado que si el tamao de muestra
es grande los niveles de significacin de los
pruebas de hiptesis y los niveles de confianza
de los intervalos apenas se ven afectados por la
existencia de heterocedasticidad, a no ser que la
varianza de la respuesta para algn tratamiento
particular sea considerablemente mayor que para
otros.

Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall

15-84

Diagnostico de homocedasticidad

El contraste de Bartlett o el Contraste de


Hartley son ms generales y ms utilizados.
Estos contrastes son muy conservadores y
muy sensibles a la ausencia de normalidad.
El contraste de Levene es muy utilizado, en
esencia, consiste en efectuar un anlisis de la
varianza sobre las diferencias en valor
absoluto entre las observaciones y la mediana
(u otra medida de tendencia central)
manteniendo el diseo original.
El contraste de Romero y Znica, se basa en
una idea anloga, se realiza un anlisis de la
varianza sobre los cuadrados de los residuos
del modelo ajustado con el mismo factor en
estudio.
El grafico de los residuos vs cada una de las
variables del modelo (Inclusive la Y).

Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall

La hiptesis contrastar
es que la varianza en
todos los grupos es la
misma.
15-85

Diagnostico de homocedasticidad: el
test de Bartlett

Regin de no rechazo

Regin de rechazo

Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall

15-86

APLICACIN: Algunas Sugerencias Bsicas

La regresin mltiple es un herramienta importante en la modelacin de la realidad,


pero es un arte y una ciencia.
Modelacin: definir variable dependiente y potenciales variables independientes.
Generar matriz de correlaciones de las variables.
Efectuar la estimacin bsica del modelo de regresin mltiple.
Verificar R2, a travs de prueba F comprobar si por lo menos una variable ayuda a
explicar la variabilidad de y.
Verificar significancia individual de las variables.
Eliminar variables sin significancia estadstica y volver a verificar R2.
Si todas las variables muestran significancia estadstica, ver problemas de
multicolinealidad con VIF, eliminar variables con VIF de 5 o superior.
Si todas las variables muestran significancia estadstica y VIF < 5, seguir
analizando multicolinealidad (ejemplo signo contrario al de la matriz de
correlaciones). Tomar decisin.
Analizar el tamao del error estndar de la regresin y considerar la necesidad de
aadir un mayor nmero de variables explicativas, cuidado con el R2 ajustado.
Verificar los otros supuestos del modelo de regresin mltiple.
15-87

Refrencias

Etxeberria J. Regresin mltiple. Cuadernos de estadstica. 1999


Vol 4.
Martinez MA. Bioestadstica amigable. Captulos 10, 12 y 13.
Madrid; Diaz de Santos. P 551-618, 688-698 y 753 a 773.
Abun, J. R. (2007). Regresin lineal mltiple. IdEyGdM-Ld
Estadstica,Editor
Patrick Royston (1982) Algorithm AS 181: The W test for
Normality. AppliedStatistics, 31, 176180.
Patrick Royston (1995) Remark AS R94: A remark on Algorithm AS
181: The W test for normality. AppliedStatistics, 44, 547551., 32.

Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall

15-88

Vous aimerez peut-être aussi