Vous êtes sur la page 1sur 34

El Anlisis de la Regresin a travs de SPSS

M . D olores M artnez M iranda


Profesora del D pto. E stadstica e I.O. U niversidad de G ranada

Referencias bibliogrficas
1. 2. Hair, J.F., Anderson, R.E., Tatham, R.L. y Black, W.C. (1999) Anlisis Multivariante (5 edicin). Ed. Prentice Hall. Prez, C. (2001) Tcnicas estadsticas con SPSS. Ed. Prentice Hall.

INTRODUCCIN
El Anlisis de Regresin tiene como objetivo estudiar la relacin entre variables. Permite expresar dicha relacin en trminos de una ecuacin que conecta una variable de respuesta Y, con una o ms variables explicativas X1,X2,,Xk. Finalidad:
Determinacin explcita del funcional que relaciona las variables. (Prediccin) Comprensin por parte del analista de las interrelaciones entre las variables que intervienen en el anlisis.

PLANTEAMIENTO GENERAL
Notacin: Y variable de respuesta (dependiente, endgena, explicada) X1,X2,,Xk variables explicativas (independientes, exgenas,
regresores)

Modelo general de Regresin: Y = m (X1,X2,,Xk ) + m funcin de regresin


residuos del modelo (errores de observacin, inadecuacin del modelo)

Variantes del Anlisis de Regresin en SPSS


Segn el nmero de v. explicativas: Simple o Mltiple. Supuestos sobre la funcin de regresin
Regresin lineal

Y=

0+

1 X1+

2 X2 ++

k Xk +

Estimacin curvilnea (Potencial, exponencial, hiperblica, etc.) Y = exp (a + b X)


Linealizacin

ln Y = a + b X

Regresin no lineal (Algoritmos de estimacin iterativos)

Variantes del Anlisis de Regresin en SPSS


Tipo de datos
Regresin logstica, Modelos Probit (La variable de respuesta es binaria) Regresin ordinal (La variable de respuesta es de tipo ordinal) Escalamiento ptimo o regresin categrica (Las variables explicativas y/o explicada, pueden ser nominales)

Situaciones especiales en la estimacin del modelo lineal: Mnimos cuadrados en dos fases (correlacin entre residuos y v. explicativas), estimacion ponderada (situacin de heterocedasticidad)

Submen REGRESIN
Regresin lineal mltiple Ajuste de curvas mediante linealizacin

Modelos de regresin con respuestas binarias u ordinales

Modelos de regresin no lineales Modelos de regresin con variables categricas

Correcciones en el modelo lineal

Contenidos: Aplicaciones con SPSS


Regresin lineal (mltiple) Estimacin ponderada Mnimos cuadrados en dos fases Escalamiento ptimo Regresin curvilnea Regresin no lineal

Regresin lineal mltiple


-Modelo tericoModelo lineal Parmetros
j

Y=

0+

1 X1+

2 X2 ++

k Xk +

(1)

magnitud del efecto que Xj tienen sobre Y (incremento en la media de Y cuando Xj aumenta una unidad) trmino constante (promedio de Y cuando las v. explicativas valen 0) residuos (perturbaciones aleatorias, error del modelo)

Datos (observaciones, muestra) { (Yi, X1i,,Xki) : i = 1,,n } PROBLEMA Suponiendo que la relacin entre las variables es como en (1), estimar los coeficientes ( j ) utilizando la informacin proporcionada por la muestra

Regresin lineal mltiple


-Modelo tericoExpresin matricial
Y X 1 11 Y2 X12 M = M Y n X1n X 21 L Xk1 0 1 X 22 L Xk 2 1 2 + M O M M M X 2n L Xkn k n

Y=X
HIPTESIS
j

son v.v.a.a. con media 0 e independientes de las Xj


j j

Homocedasticidad: No autocorrelacin:
j

tienen varianzas iguales ( son incorreladas entre s

2)

son normales e independientes (Inferencia sobre el modelo)

No multicolinealidad: Las columnas de X son linealmente


independientes ( rango(X) = k+1 )

Estimacin del modelo


^

Problema de mnimos cuadrados


Minimizar
Solucin ( n > k+1 )
0 , 1,..., k

Yi valor predicho

{ Yi (
i=1

1X i1

+ ... +

k X ik

)}

Suma residual de cuadrados

Residuo estimado :

i i = Yi Y

= 0

T T X)-1 XT Y (X L = 1 k

Estimacin de los coeficientes

Ejemplo con SPSS


funcin de motor, cv, peso y acel
Variable dependiente

(Coches.sav)

Objetivo: Ajustar un modelo lineal que permita predecir el consumo en

CONSUMO MOTOR CV PESO ACEL

Consumo (l/100Km) Cilindrada en cc Potencia (CV) Peso total (kg) Aceleracin 0 a 100 km/h (segundos)

Variables independientes

Analizar Regresin Lineal


Coeficientesa Coeficientes estandarizad os Beta ,134 ,424 ,355 ,018

Modelo 1

(Constante) Cilindrada en cc Potencia (CV) Peso total (kg) Aceleracin 0 a 100 km/h (segundos)

Coeficientes no estandarizados B Error tp. ,432 1,166 3,093E-04 ,000 4,386E-02 ,008 4,948E-03 ,001 2,504E-02 ,059

Coeficientes tipificados
t ,370 1,612 5,582 4,404 ,424 Sig. ,711 ,108 ,000 ,000 ,672

Comparacin de los efectos

b = j

Xj Y

a. Variable dependiente: Consumo (l/100Km)

(0

T L k 2

Consumo = 0.432 + 3.093E-04 Motor + 4.386E-02 CV + + 4.948E-03 Peso + 2.504E-02 Acel

Significacin individual de las variables y de la constante (Inferencia)

Inferencia sobre el modelo


Significacin individual de las variables
Utilidad: Verficar si cada variable aporta informacin significativa al anlisis Nota:
Depende de las interrelaciones entre las variables, no es concluyente
Aceptar H0 significa que la variable no aporta informacin significativa en el anlisis de regresin realizado

Contraste de hiptesis ( Xj )
H0 : H1 : Resolucin
T=
j j

=0 0
j

SE( j )

t n-k -1 Bajo H
0

Inferencia sobre el modelo


Significacin de la constante
Utilidad: Verficar si la v.dependiente tiene media 0 cuando las v.explicativas se anulan

Contraste de hiptesis
Aceptar H0 significa que no es conveniente incluir un trmino constante en el anlisis de regresin realizado

H0 : H1 : Resolucin

0 0

=0 0

0 T= t n- 2 Bajo H0 SE( 0 )

Ejemplo (Coches.sav)
Interpretacin del p-valor
(en un contraste al nivel de significacin )

Si p-valor <
Coeficientesa Coeficientes estandarizad os Beta ,134 ,424 ,355 ,018

entonces se rechaza la hiptesis nula


H0 : H1 :
t ,370 1,612 5,582 4,404 ,424 Sig. ,711 ,108 ,000 ,000 ,672

0 0

=0 0

Modelo 1

(Constante) Cilindrada en cc Potencia (CV) Peso total (kg) Aceleracin 0 a 100 km/h (segundos)

Coeficientes no estandarizados B Error tp. ,432 1,166 3,093E-04 ,000 4,386E-02 ,008 4,948E-03 ,001 2,504E-02 ,059

Al 5% se puede no incluir constante en el modelo

a. Variable dependiente: Consumo (l/100Km)

H0 :

j j

=0 0

Al nivel de significacin del 5%:

H1 :

Motor (0.108) y Acel (0.672) no son significativas CV (0.000) y Peso (0.000) s son significativas

Inferencia sobre el modelo


Bondad de ajuste
Descomposicin de la variabilidad

( Yi y )
VT

i y ) + i2 = (Y i=14 i=14 i=1 1 4 244 3 1 4 244 3 1 2 3


2 2 VE VNE

Coeficiente de determinacin
R2 = VE VNE = 1VT VT

R: Coeficiente correlacin lineal mltiple Indica la mayor correlacin entre Y y las c.l. de las v. explicativas

Inconveniente: Sobrevalora la bondad del ajuste Coeficiente de determinacin corregido


R = 12

n -1 2 R n - k -1

Ejemplo (Coches.sav)
b Resumen del modelo

Modelo 1

R R cuadrado ,869a ,755

R cuadrado corregida ,752

Error tp. de la estimacin 1,970

a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cc b. Variable dependiente: Consumo (l/100Km)

R2 = 0.755

Consumo queda explicada en un 75.5% por las variables explicativas segn el modelo lineal considerado (siempre algo menor que R2)

R2 corregido = 0.752

Inferencia sobre el modelo


Contraste de regresin (ANOVA)
Utilidad: Verificar que (de forma conjunta) las v.explicativas aportan informacin en la explicacin de la variable de respuesta Contraste: H0 :
1

= =
j

=0

H0 : R = 0 H1 : R 0

H1 : Algn

Aceptar H0 significa que las v.explicativas no estn relacionadas linealmente con Y

Resolucin (ANOVA)
F= VE / k H Fk, n-k -1 Bajo 0 VNE / (n - k - 1)

Ejemplo (Coches.sav)
Contraste de regresin
ANOVAb Suma de cuadrados 4626,220 1502,188 6128,408 Media cuadrtica 1156,555 3,882 Modelo 1 gl 4 387 391 F 297,956 Sig. ,000a

Regresin Residual Total

Al 5% se rechaza H0 (las variables explicativas influyen de forma conjunta y lineal sobre Y)

a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cc b. Variable dependiente: Consumo (l/100Km)

Fuente de variabilidad Modelo Residual Total

Suma de cuadrados VE VNE VT

Grados de libertad k n-k-1 n-1

Media cuadrtica VE / k VNE / (n-k-1)

F exp. VE / k VNE / (n-k-1)

Prediccin
Bandas de confianza
Predicciones para Y
Regresin Valor pronosticado tipificado

Grfico de dispersin Variable dependiente: Consumo (l/100Km)


3

(dentro del rango de prediccin)


( x1, x 2 ,..., x k ) = Y
0

1x 1

+ ... +

k xk

I.C. para los valores predichos de Y I.C. para la media de Y

-1

-2 0 10 20 30

R = 0.7549

Consumo (l/100Km)

El anlisis de los residuos


Objetivo: Verificar que no se violan las hiptesis sobre las que se estima el modelo y se realiza la inferencia

1. Normalidad de los residuos 2. No autocorrelacin 3. Homocedasticidad 4. Falta de linealidad 5. No multicolinealidad


Posibles correcciones:
Deteccin de atpicos y puntos influyentes Transformaciones Variables ficticias Ajustes polinomiales Trminos de interaccin

1.1. Normalidad de los residuos


Herramientas disponibles en SPSS Grficos: Histograma, grfico probabilstico normal
Histograma
100

Grfico P-P normal de regresin Residuo tipificado


1.00

80

.75

60

.50

40

Prob acum esperada

.25

Frecuencia

20 Desv. tp. = ,99 Media = 0,00 0 N = 392,00

0.00 0.00 .25 .50 .75 1.00

Residuo tipificado

Prob acum observada

Contrastes: Kolmogorov-Smirknov, Shapiro-Wilks,

1.2. No autocorrelacin
Hace referencia a los efectos de la inercia de una observacin a otra que pueda indicar la no independencia entre los residuos. Se trata de buscar modelos o pautas en los grficos residuales frente al nmero de caso (incluso con cada variable independiente).

Herramientas disponibles en SPSS: Grficos residuales y el


estadstico de Durbin-Watson
4 3

Error tp. de la estimacin 1,970

Durbin-W atson 1,228

Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos),

H0: No hay autocorrelacin


Standardized Residual
0

Si d<1.18 rechazar,
-1

Si d>1.4 no rechazar. Si 1.18<d<1.4 no es concluyente


0 100 200 300 400 500

-2

-3 -100

Nmero de orden de las observaciones

Posibles soluciones: - Transformaciones - Aadir variables

1.3. Homocedasticidad
Hace referencia a la constancia de los residuos para los valores que van tomando las variables independientes.

Herramientas disponibles en SPSS: Grficos residuales


4 4

30

Standardized Residual

20

-1

Standardized Residual
0 100 200 300

-1

-2

-2

-3

-3 1000 2000 3000 4000 5000 6000 7000 8000

Potencia (CV)

Cilindrada en cc

Consumo (l/100Km)

10
4 4

0
Standardized Residual

Regresin Valor pronosticado tipificado

-1

Standardized Residual
600 800 1000 1200 1400 1600 1800

-2

-1

-1

-2

-2

-3 400

-3 0 10 20 30

Peso total (kg)

Aceleracin 0 a 100 km/h (segundos)

1.4. Falta de linealidad


Hace referencia a las posibles desviaciones de los datos desde el modelo lineal que se est ajustando.

Herramientas disponibles en SPSS:


Grfico de regresin parcial
Variable dependiente: Consumo (l/100Km)
30 20

Grficos de regresin parcial y grficos residuales

Grfico de regresin parcial


Variable dependiente: Consumo (l/100Km)

20 10

10

Consumo (l/100Km)

Consumo (l/100Km)

-10 -2000 -1000 0 1000 2000 3000

-10 -800 -600 -400 -200 0 200 400

Cilindrada en cc

Peso total (kg)

Grfico de regresin parcial


Variable dependiente: Consumo (l/100Km)
30

Grfico de regresin parcial


Variable dependiente: Consumo (l/100Km)
30

Son diagramas de dispersin de los residuos de cada v. independiente y los residuos de la v. dependiente cuando se regresan ambas por separado sobre las restantes v. independientes.

20

20

Consumo (l/100Km)

10

10

Consumo (l/100Km)
-20 0 20 40 60 80

-10 -40

-10 -6 -4 -2 0 2 4 6 8

Potencia (CV)

Aceleracin 0 a 100 km/h (segundos)

1.5. No multicolinealidad
Colinealidad es la asociacin, medida como correlacin, entre dos variables explicativas (el trmino multicolinealidad se utiliza para tres o ms variables explicativas). Impacto de la multicolinealidad Reduccin del poder explicativo de cualquier v. explicativa individual en la medida en que est correlada con las otras v. explicativas presentes en el modelo.

Herramientas disponibles en SPSS: ndices de condicionamiento, FIV


a Diagnsticos de colinealidad

1.
Aceleracin 0 a 100 km/h (segundos) ,00 ,02 ,06 ,00 ,92

Proporciones de la varianza Indice de condicin 1,000 4,454 14,440 27,474 36,185 Cilindrada en cc ,00 ,03 ,22 ,75 ,01 Peso total (kg) ,00 ,00 ,01 ,70 ,29

Identificar los ndices que estn por encima del umbral: 30 Para los ndices identificados, identificar las variables con proporciones de varianza por encima del 90%: Habr multicolinealidad si ocurre con dos o ms coeficientes.

Modelo 1

Dimensin 1 2 3 4 5

Autovalor 4,729 ,238 2,268E-02 6,265E-03 3,612E-03

(Constante) ,00 ,00 ,03 ,20 ,76

Potencia (CV) ,00 ,00 ,29 ,02 ,69

2.

a. Variable dependiente: Consumo (l/100Km)

Posibles soluciones: - ACP y utilizar las componentes principales como regresores. - A la vista de las correlaciones eliminar variables redundantes.

Datos anmalos Medidas de influencia


Objetivo: Detectar datos anmalos y datos influyentes Datos anmalos (atpicos)
Individuos cuyo residuos tipificado es superior a 3 (en valor absoluto)

Datos influyentes
Individuos cuya omisin produce cambios notables en los resultados del anlisis

Herramientas estadsticas (medidas de influencia) Identificacin de puntos de apalancamiento (observaciones


aisladas del resto sobre una o ms v.independientes)

Observaciones influyentes: influencias sobre coeficientes individuales,


medidas globales de influencia.

Medidas para identificar puntos de apalancamiento: Leverage o medida de influencia: Lmite: 2(k+1) / n (Si n>50, 3(k+1) / n) Distancia de Mahalanobis: Considera la distancia de cada observacin
desde los valores medios de las v.independientes. Existen tablas para contrastar, pero en general se procede a identificar valores considerablemente altos respecto al resto.

Medidas para identificar observaciones influyentes: Influencias sobre coeficientes individuales: DFBETA
Mide el efecto del dato i-simo ejerce sobre j. Lmites para la versin estandarizada: 2 n
- 1 / 2 (si

n<50 usar los lmites de la normal)

Medidas globales de influencia: DFITTS


Mide el efecto del dato i-simo ejerce en su propia prediccin. Lmites para la versin estandarizada: 2 [ (k+2) / (n-k-2) ]1 / 2

COVRATIO Representa el grado al que una observacin tiene impacto sobe los errores
estndar de los coeficientes. Lmites: 1 3(k+1) / n

Distancia de Cook:

Localizar valores que exceden a 4 / (n-k-1)

Deteccin de residuos atpicos: Los valores tipificados deben estar entre -3 y 3


a Diagnsticos por caso

SPSS

Nmero de caso 35

Residuo tip. 10,176

Consumo (l/100Km) 26

Valor pronosticado 5,95

Residuo bruto 20,05

a. Variable dependiente: Consumo (l/100Km)

Deteccin de puntos influyentes: Dist. De Mahalanobis, Cook, valor de influencia


a Estadsticos sobre los residuos

Valor pronosticado Valor pronosticado tip. Error tpico del valor pronosticado Valor pronosticado corregido Residuo bruto Residuo tip. Residuo estud. Residuo eliminado Residuo eliminado estud. Dist. de Mahalanobis Distancia de Cook Valor de influencia centrado

Mnimo 5,95 -1,545 ,107 4,57 -5,16 -2,618 -2,641 -5,25 -2,661 ,166 ,000 ,000

Mximo 21,05 2,843 ,831 21,08 20,05 10,176 10,520 21,43 12,433 68,628 1,520 ,176

Media 11,27 ,000 ,210 11,26 ,00 ,000 ,001 ,00 ,006 3,990 ,007 ,010

Desviacin tp. 3,440 1,000 ,075 3,447 1,960 ,995 1,011 2,024 1,067 4,866 ,077 ,012

N 392 392 392 392 392 392 392 392 392 392 392 392

El rango de valores para la distancia de Mahalanobis es elevado Hay valores de la distancia de Cook superiores a 4 / (n-k-1) = 0.010 Medida de influencia. Lmite (k=4): 0.038

a. Variable dependiente: Consumo (l/100Km)

Posible solucin: Eliminar observaciones

Seleccin de un subconjunto ptimo de variables independientes


Objetivo: Seleccionar aquellas variables que sin ser redundantes
proporcionen la mejor explicacin de la v. dependiente.

Mtodos secuenciales en SPSS:

Hacia atrs, Hacia delante, Pasos sucesivos

En trminos muy muy generales


Evalan estadsticos F que controlan la entrada y salida de variables, adems de las correlaciones parciales de la v. dependiente con cada regresor.

Mtodo forward (hacia delante)


Inicialmente no hay regresores, se van introduciendo uno a uno aquellos que tienen alta correlacin parcial con la v. dependiente y que son significativos (valor F-entrar).
a Variables introducidas/eliminadas

Modelo 1 2

Variables introducidas Peso total (kg) Potencia (CV)

Variables eliminadas , ,

Mtodo Hacia adelante (criterio: Prob. de F para entrar <= ,050) Hacia adelante (criterio: Prob. de F para entrar <= ,050)

a. Variable dependiente: Consumo (l/100Km)

Resumen del modelo

Estadsticos de cambio Modelo 1 2 R R cuadrado ,837a ,700 ,868b ,753 R cuadrado corregida ,699 ,752 Error tp. de la estimacin 2,172 1,972 Cambio en R cuadrado ,700 ,053 Cambio en F 909,085 84,214 gl1 1 1 gl2 390 389 Sig. del cambio en F ,000 ,000

a. Variables predictoras: (Constante), Peso total (kg) b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)

Mtodo backward (hacia atrs)


Inicialmente se incluyen todos las v. independientes, se van eliminando una a una las que van resultando significativas (valor F-salir).

b Variables introducidas/eliminadas

Modelo 1

Variables introducidas Aceleracin 0 a 100 km/h (segundos), Peso total (kg), a Potencia (CV), Cilindrada en cc , ,

Variables eliminadas , Aceleracin 0 a 100 km/h (segundos) Cilindrada en cc Introducir

Mtodo

2 3

Hacia atrs (criterio: Prob. de F para eliminar >= ,100). Hacia atrs (criterio: Prob. de F para eliminar >= ,100).

a. Todas las variables solicitadas introducidas b. Variable dependiente: Consumo (l/100Km)

Resumen del modelo

Estadsticos de cambio Modelo 1 2 3 R R cuadrado ,869a ,755 b ,869 ,755 ,868c ,753 R cuadrado corregida ,752 ,753 ,752 Error tp. de la estimacin 1,970 1,968 1,972 Cambio en R cuadrado ,755 ,000 -,002 Cambio en F 297,956 ,180 2,456 gl1 4 1 1 gl2 387 389 390 Sig. del cambio en F ,000 ,672 ,118

a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cc b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV), Cilindrada en cc c. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)

Mtodo Stepwise (pasos sucesivos)


Combina los dos mtodos anteriores definiendo un procedimiento en el que las variables independientes entran o salen del modelo dependiendo de su significacin (valores F-entrar y F-salir).

a Variables introducidas/eliminadas

Modelo 1 2

Variables introducidas Peso total (kg) Potencia (CV)

Variables eliminadas , ,

Mtodo Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).

a. Variable dependiente: Consumo (l/100Km)

Resumen del modelo

Estadsticos de cambio Modelo 1 2 R R cuadrado ,837a ,700 ,868b ,753 R cuadrado corregida ,699 ,752 Error tp. de la estimacin 2,172 1,972 Cambio en R cuadrado ,700 ,053 Cambio en F 909,085 84,214 gl1 1 1 gl2 390 389 Sig. del cambio en F ,000 ,000

a. Variables predictoras: (Constante), Peso total (kg) b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)

Resumen
Pasos a seguir en un anlisis de regresin

Paso 1. Objetivos del anlisis Paso 2. Diseo de la investigacin mediante regresin mltiple Paso 3. Supuestos del anlisis Paso 4. Estimacin del modelo de regresin y valoracin global del ajuste Paso 5. Interpretacin y validacin de los resultados.