Vous êtes sur la page 1sur 23

15-09-2016

Giorgio Boccardo

REGRESIN LINEAL MLTIPLE

Contenidos
1. El anlisis multivariante
La lgica del anlisis multivariante
Distribucin de una variable multivariante

2. Regresin lineal mltiple


Definicin de los modelos de regresin
Supuestos y condiciones de aplicacin de regresin
lineal mltiple
Estimacin de la ecuacin de regresin
La evaluacin del modelo de regresin

15-09-2016

1.1. La lgica del anlisis multivariante

1. ANLISIS MULTIVARIANTE

La lgica del anlisis multivariante en


ciencias sociales
Qu ajusto?

Modelo
Estadstico

Modelo
Terico

Realidad

15-09-2016

Anlisis multivariante: el modelo terico


1. Conjunto de relaciones de dependencia, explicativas
o causales, de estructuras latentes o modos de
agrupamiento, a partir de distintos constructos con
sentido terico que permiten responder una
interrogante referida a un fenmeno social

2. Deben poder formularse como hiptesis, es decir,


como una respuesta tentativa a la pregunta de
investigacin.

3. Los modelos tericos se formula en trminos lgicosustantivos, esto es, deben tener capacidad explicativa
de la realidad social.

Anlisis multivariante: el modelo estadstico


1. El modelo estadstico debe expresar por
medio de agrupamientos, diagramas o
ecuaciones las relaciones entre las
variables del modelo terico.

2. Los modelos estadsticos se ajustan


para que sean confiables, tengan
significatividad y capacidad predictora.

3. El valor terico (estadstico) es una


combinacin lineal de variables con
ponderaciones
determinadas
empricamente (Hair, et al).

15-09-2016

Modelo estadstico: ejemplos

1.2. Distribucin de una variable multivariante

1. EL ANLISIS MULTIVARIANTE

15-09-2016

Qu es una variable?
Es una forma de representar ordenadamente la
distribucin de una caracterstica de los miembros de un
grupo.

Esto supone que es posible asignar un nico nmero


para representar esa propiedad (nivel de medicin), es
decir, se puede medir.

En trminos multivariados nos va a interesar la distancia


multivariante entre cada miembro del grupo con el fin de
clasificar.
En trminos multivariados nos va a interesar saber cmo
se distribuyen conjuntamente esas variables del grupo
(convarianza), con el propsito de establecer relaciones
de asociacin, dependencia o causalidad.

Distribucin lineal multivariada


Distribucin lineal bivariada

Distribucin lineal

15-09-2016

Distribucin no lineal multivariada


Curva de Lorentz

Curva de Phillips

2.1. Definicin de los modelos de regresin

2. REGRESIN LINEAL MLTIPLE

15-09-2016

Para qu utilizar una regresin lineal


mltiple?
Para confirmar estadsticamente una hiptesis
terica
Para herramienta para comprender la distribucin
multivariante efectiva de una variable en una
poblacin.
Como llave para introducirse en tcnicas de
anlisis confirmatorio multivariante de orden ms
complejo

Tipos de regresin mltiples


Simple
Lineal
Interaccin
Regresin
Mltiple

Logstica
Exponencial,
raz
No lineal
Polinmica
de grado n
Otros

15-09-2016

Definicin del modelo terico


Es posible establecer relaciones de dependencia
entre los valores de una nica variable dependiente
y 2 o ms variables independientes (predictoras y/o
explicativas).

Es plausible establecer una hiptesis terica de


dependencia lineal del fenmeno a estudiar.

Deben estar todas las variables relevantes.

Definicin del modelo estadstico


El propsito es el anlisis de relaciones de asociacin lineal entre
los valores de una nica variable dependiente (variabilidad) y dos
o ms variables independientes (variabilidad conjunta y parcial).

Ese modelo debe poder ser expresado en un modelo


compuesto por una ecuacin lineal de n variables de grado 1 y
un error asociado.

De momento trabajaremos en el modelo simple en que se


pueden tambin incluir variables dummy, asumimos que no
existe efecto de interaccin y el mtodo de estimacin de
parmetros es el de mnimos cuadrados ordinarios (OLS:
Ordinal Least Square)

15-09-2016

La ecuacin regresin lineal mltiple


En su forma simple se escribe:

Yi: variable dependiente


Xip: variables independientes
0: intercepto en el eje Y (se denota tambin con un )
p: coeficientes de pendiente parcial
i: el trmino de error aleatorio (de prediccin)
p: nmero de variables independientes
i: nmero de variables dependientes

15-09-2016

Las etapas de la regresin lineal mltiple


F1: Diseo del modelo

F2: Preparacin de los datos para


el anlisis

Modelo terico

Comprobacin de supuestos

Definicin de variables

Eleccin de variables

La ecuacin de la recta

Depuracin de datos

F3: Estimacin ecuacin de regresin


Coeficientes de regresin
Error tpico de los coeficientes
Significatividad de coeficientes

F4: Evaluacin del modelo


Ajuste del modelo de regresin
El error de prediccin

Evaluacin
positiva:
Significatividad: estadstica y lgicoConclusiones
sustantiva
Residuos

Casos atpicos

Evaluacin negativa:
modificaciones

2.2. Supuestos y condiciones de aplicacin de regresin lineal mltiple

2. REGRESIN LINEAL MLTIPLE

10

15-09-2016

Condiciones de aplicacin
Tamao muestral
Nivel de medicin de las variables
Linealidad
Ausencia de colinealidad
Aditividad
Homocedasticidad
Normalidad
Independencia de los trminos del error

Supuesto 1: Tamao muestral elevado


Tamao muestral elevado que incide en el error de estimacin y mejora la
significacin.

Criterios para determinar el n mnimo: variables Xip


5 a 10 casos por cada Xip mnimo en la literatura
20 casos por cada Xip(Tabacknick y Fidell, 1989)
40 casos por cada Xip si el modelo es secuencial
Sacar variables Xip?

Considerar casos perdidos (missing values) y casos atpicos (outliers)


Trabajar con casos en que alguna variable tiene un valor perdido (parwise) en ves de
casos completos en trminos multivariantes (listwise) .

Pero si se valida el modelo en la muestra se debe aumentar el n


(60/40%)

11

15-09-2016

Supuesto 2: Variables del modelo


Qu nivel de medicin? Qu tipo de variable?

Variable dependiente (Yi):


intervalar o de razn y potencialmente continua.
En caso contrario elegir otro modelo de regresin
(logstica, por ejemplo).

Variables independientes (Xip):


Mtrica intervalar o de razn y potencialmente continua.
Variable dummy (1: variable ficticia/ 0: grupo de
referencia) originalmente ordinal o nominal

Supuesto 3: Linealidad
La relacin entre la variable Yi y cada variable Xip ha de ser lineal
El efecto de cada variable Yi es el mismo, cualquiera que sea la Xip
Bajas correlaciones parciales indican que es improbable que para
cada Xip, la cantidad de cambio en el valor medio de Yi este asociado
con el cambio en una unidad en Xip, manteniendo el resto de las Xip
constantes.

Cmo establecer linealidad entre Yi y cada Xip


Forma grafica
Matriz de correlacin lineal

12

15-09-2016

Forma grfica
Grficos de regresin

Grficos de residuos

Fuerza de una asociacin


A nivel general, la fuerza de una asociacin va de 0 a
1 o de -1 a 0.
Valores cerca de 1 son asociacin mxima y cercano
a cero asociacin mnima (o independencia)
0,3

13

15-09-2016

Sentido de una asociacin


Asociacin directa
Cuando el signo es positivo
expresa una correlacin
directa.

Asociacin inversa
Cuando el signo es negativo
expresa una correlacin
inversa.

Coeficiente de correlacin lineal de


Pearson (r)
 r nos proporciona una medida del grado de
aproximacin de la recta de regresin de la nube de
puntos.
 Es una prueba paramtrica.
 Mide asociacin o correlacin entre dos variables
cuando se trabaja con:
Variables intervalares continuas (supuesto: distribucin
normal).
Intervalares discretas (supuesto= asimetra moderada +2.0) y con 5 o ms valores.

 Se calcula a partir de la varianza residual.


 Es sensible a los casos extremos.

14

15-09-2016

Coeficiente de correlacin de Pearson


r=+-1 indica que la varianza residual es 0, por
lo que hay asociacin directa
0<r<1 asociacin directa
-1<r<0 asociacin inversa
En el caso de un modelo de dependencia, R^2
es la proporcin de variabilidad de la
dependiente explicada por la variabilidad de la
independiente.

Coeficiente de correlacin policrico


(rho)
Permite calcular la asociacin entre dos variables
ordinales observadas.
Supone que la variable ordinal es tericamente
continua y normal.
Establece un coeficiente de asociacin en base a
una tabla de frecuencia absoluta y la estimacin
es en base a funciones trigonomtricas.
Se recomienda un mnimo de 50 observaciones.
Slo se interpreta sentido y fuerza, no un p de
significacin.
Fuente: Uebersax, J. S. (2006)

15

15-09-2016

Coeficiente de correlacin Tetracrico


Es un caso especia de coeficiente policlrico.
Permite calcular la asociacin entre variables dicotmicas dummy
(ausencia o presencia de atributos).
Supone que la variable ordinal es tericamente continua y normal.
Establece un coeficiente de asociacin (tau) en base a una tabla de
frecuencia absoluta que utiliza funciones trigonomtricas.
Slo se interpreta sentido y fuerza, no un p de significacin.
50 observaciones mnimo
Nota: variables ordinales y dummy requieren
el uso de correlaciones biserales.

Fuente: Uebersax, J. S. (2006)

Supuesto 4: Ausencia de colinealidad en las Xip


Se espera que las Xip sean independientes entre s en
trminos multivariados.
Aumenta los errores tpicos y de los intervalos de confianza

Metodos para establecer multicolinealidad


Matriz de correlacin (bivariado)
La tolerancia (multivariado): cantidad de variabilidad de a
variable independiente que no es explicada por otras
variables independientes (se esperan valores cercanos a 1 y
superiores a 0,2)
El factor de inflacin de la varianza (multivariado): es el
reverso de la tolerancia. De 1 a . Se esperan valores
cercanos a 0.

16

15-09-2016

Supuesto 5: Aditividad
La prediccin de la Yi exige que los efectos
de las distintas Xip puedan sumarse entre s.
Cada Xip incluida en el modelo provoca la
misma cantidad de cambio,
indistintamente de los valores de las otras
Xip incluidas.
Si se ve influenciada por los valores que
presentan las otras Xip, el modelo de
regresin no ser aditivo(interactivo).

Supuesto 6: Homocedasticidad
Igualdad de varianza de los valores de las Xip o
igualdad de las varianzas de los trminos de error
residual en la serie de variables Xip

Comprobacin
Test de Levane: se rechaza con p0,05
La d de Durbin-Watson: se acepta con valores entre
1,5 y 2,5.

17

15-09-2016

Forma grfica de los grficos de


residuos

Supuesto 7: Normalidad
Se espera que la distribucin de los residuos sea
normal (no confundir los residuos con el error de
prediccin (i)).
Residuo: diferencia entre valor observado de Yi y sus
correspondientes valores predichos, a partir de la
ecuacin de regresin.
i: diferencia entre el valor poblacional de Yi y el valor
predicho por la ecuacin.

Algunos autores sealan que adems debe haber


distribucin normal de cada variable.
F de Fisher y T Student
Puede utilizarse la desigualdad de Tchebysheff,

18

15-09-2016

Comprobacin visual de normalidad


Histograma

Grfico de distribucin normal

Fuente: Elaboracin propia

Prueba de normalidad (simetra/curtosis)


Z de simetra

Z de curtosis

Clculo:

Clculo:

-1,96
-2,54

+1,96 con un =0,05


+2,54 con un =0,01

-1,96
-2,54

+1,96 con un =0,05


+2,54 con un =0,01

Fuente: Hair et.al. (2009)

19

15-09-2016

Hiptesis nula y alternativa


La hiptesis nula (H0):
En trminos investigativos es aquella que se quiere contrastar. Se
formula con el determinado propsito de ser rechazada. En otras
palabras, es aquella situacin en la que la intuicin inicial de los
investigadores no se ve respaldada por los datos.
En trminos estadsticos la H0 asume igualdad de parmetros o
estadsticos.

La hiptesis alternativa (Ha):


En trminos investigativos, si se rechaza la H0 se acepta la hiptesis del
investigador (Ha). Es una respuesta tentativa, basada en la evidencia o
teora, a la pregunta de investigacin. Se confirma la intuicin inicial
de los investigadores.
En trminos estadsticos, Ha es aquella segn la cual s hay diferencias
estadsticas significativas entre los estadsticos comparados.

Test de Kolmogorov-Smirnov-Lilliefors
(prueba hiptesis)
Se basa en el clculo de la mxima diferencia (D) entre
las frecuencias acumuladas observadas (AOi) y las
frecuencias acumuladas esperadas (AEi)

La hiptesis nula (Ho): que la diferencia (D) es mnima


Se utiliza cuando la muestra n: 50 n 1000 (aprox)
Se busca un p>0,05 (ms robusta la prueba)
Se busca un p>0,01

20

15-09-2016

Test de Shapiro-Wilk (prueba hiptesis)


Se basa en medir el ajuste de los datos a una recta
probabilstica Normal

La hiptesis nula (Ho): que el valor W ->1, es decir se


aproxima a una lnea recta.
Se utiliza cuando la muestra n < 50
Se busca un p>0,05 (ms robusta la prueba)
Se busca un p>0,01

Test de distribucin multivariante

Fuente: Elaboracin propia

21

15-09-2016

Supuesto 8: Independencia de los trminos


del error
Los trminos de error no deben estar correlacionados.
Afecta la significatividad de los coeficientes de
regresin.
Subestima el error tpico.

Detectar correlacin
Forma Grfica
Coeficiente Durbin-Watson

Forma grfica y coeficiente DW


d: entre 1,5 y 2,5.
Ho= no existe autocorrelacin (se rechaza p0,05)
Hi: existencia correlacin
Solucin: aplicar
mnimos cuadrados
generalizados

22

15-09-2016

Bibliografa
Cea, M. A. (2004). Anlisis Multivariable.
Teora y Prctica de la Investigacin Social.
Captulo 1: Regresin mltiple.
Hair, J. F. (1999). Anlisis multivariante (Vol.
491). Madrid: Prentice Hall.
Uebersax, J. S. (2006). Introduction to the
tetrachoric and polychoric correlation
coefficients. Obtenido de http://www. johnuebersax. com/stat/tetra. htm

23

Vous aimerez peut-être aussi