Vous êtes sur la page 1sur 9

Modelos de análisis de regresión

Técnicas de 1 variable explicativa Modelos de regresión 2 o + variables explicativas

Producción y Simple Múltiple

Análisis de Datos III Lineal No lineal Lineal No lineal

Regresión lineal

1 2

Relaciones entre variables y regresión Estudio conjunto de dos variables cuantitativas


 A la derecha tenemos una posible manera de recoger los
 Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos datos obtenidos observando dos variables en varios
familiares observando una relación del tipo: individuos de una muestra.
Altura Peso
en cm. en Kg.
 En cada fila tenemos los datos de un individuo
 Altura del hijo = 85cm + 0,5 altura del padre (aprox.) 162 61
 Cada columna representa los valores que toma una variable 154 60
sobre los mismos. 180 78
158 62
 Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan  Las individuos no se muestran en ningún orden particular.
parte de esta altura, aunque tienen tendencia a acercarse (regresar) a la 171 66
media. Lo mismo puede decirse de los padres muy bajos.  Dichas observaciones pueden ser representadas en un 169 60
diagrama de dispersión (‘scatterplot’). En ellos, cada 166 54
individuos es un punto cuyas coordenadas son los valores 176 84
 Hoy en día el sentido de regresión es el de predicción de una medida basándonos en de las variables. 163 68
el conocimiento de otra.
... ...
 Nuestro objetivo será intentar reconocer a partir del
mismo si hay relación (principalmente lineal) entre las
variables, de qué tipo (directa o inversa) , y si es posible
predecir el valor de una de ellas en función de la otra.

3 4
Diagramas de dispersión o nube de puntos Relación entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de
dispersión. dispersión.

100 100
90 90
80 Pesa 76 kg. 80
70 70

Mide 187 cm.


60 60
Pesa 50 kg.
50 50
40 Mide 161 cm. 40
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
5 6

Predicción de una variable en función de la otra. Cómo reconocer relación directa e inversa.
330 100
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea, 280 Incorrelación 90 Fuerte relación
directa.
el peso aumenta en una unidad por cada unidad de altura. 230
80
70
180
60

100 130
50
80 40

90 30
140 150 160 170 180 190 200
30
140 150 160 170 180 190 200

Para valores de X por encima de la media


80 tenemos valores de Y por encima y por debajo
•Para los valores de X mayores que la
media le corresponden valores de Y
en proporciones similares. Incorrelación. mayores también.
70
10 kg.
•Para los valores de X menores que la
60 media le corresponden valores de Y
80 menores también.
50 70 Cierta relación

10 cm.
60 inversa •Esto se llama relación directa o
40 50
creciente entre X e Y.
40
30
30 20
Para los valores de X mayores que la media
10
140 150 160 170 180 190 200 0
le corresponden valores de Y menores. Esto
140 150 160 170 180 190 200 es relación inversa o decreciente.
7 8
Cómo reconocer buena o mala relación
330 100
Coef. de correlación lineal de Pearson
280 Poca relación 90 Fuerte relación

230
80 directa.
 La coeficiente de correlación lineal de Pearson de
70
180
60
dos variables, R, nos indica si los puntos tienen
130
50 una tendencia a disponerse alineadamente
80 40 (excluyendo rectas horizontales y verticales).
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Dado un valor de X no podemos decir gran • Conocido X sabemos que Y se mueve por  Tiene el mismo signo que Sxy por tanto de su signo
cosa sobre Y. Mala relación. Independencia. una horquilla estrecha. Buena relación. obtenemos el que la posible relación sea directa o
inversa.
• Lo de “horquilla estrecha” hay que
entenderlo con respecto a la dispersión que S xy
R
80
70 Cierta relación tiene la variable Y por si sola, cuando no se  R es útil para determinar si hay relación lineal
60 inversa considera X. entre dos variables, pero no servirá para otro tipo SxS y
50
40
de relaciones (cuadrática, logarítmica,...)
30
20
10
0
140 150 160 170 180 190 200

9 10

Propiedades de R Otros coeficientes de correlación: Charles Edward Spearman


 Es adimensional
 El coeficiente de correlación de Spearman: ρ (ro)
 Sólo toma valores en [-1,1] es una medida de la correlación (la asociación o
 Las variables son incorreladas  R=0 interdependencia) entre dos variables aleatorias
continuas.
 Relación lineal perfecta entre dos variables  R=+1 o R=-1
 Es apropiado para datos ordinales o los de intervalo
 Cuanto más cerca esté R de +1 o -1 mejor será el grado de que no satisfagan el supuesto de normalidad
relación lineal.  Es la versión no paramétrica del coeficiente de
 Siempre que no existan observaciones anómalas. correlación de Pearson. Para calcular ρ, los datos
son ordenados y reemplazados por su respectivo
Relación
inversa
orden.
Relación
perfecta
Variables
directa  Se interpreta igual que R y sus límites son los
incorreladas
casi
perfecta
mismos
 El coeficiente de correlación de Spearman es
menos sensible que el de Pearson para los valores
-1 0 +1 muy lejos de lo esperado.
11 12
Otros coeficientes de correlación Regresión
 El análisis de regresión sirve para predecir una medida
El COEFICIENTE TAU-b DE KENDALL cuantitativa en función de otra medida cuantitativa (o varias).
 Es una medida no paramétrica de asociación
de variables ordinales o de rangos (teniendo  Y = Variable dependiente o variable a predecir
en cuenta los empates)  También de le llama variable predicha o explicada
Maurice George Kendall  X = Variable independiente o conocida.
 El signo del coeficiente indica la dirección de la
 También se le llama predictora o explicativa
relación y su valor absoluto la magnitud o
fuerza de la relación  ¿Es posible descubrir una relación?
 Varía al igual que los dos coeficientes  Y = f(X) + error

anteriores entre -1 y 1  f es una función de un tipo determinado


 Los valores -1 y 1 solo se pueden obtener a
 Si la función es una recta se denomina REGRESIÓN
LINEAL
partir de tablas cuadradas.
 el error es aleatorio, pequeño, y no depende de X

13 14

Modelo de regresión lineal simple  En el ejemplo de Pearson y las alturas, él encontró:


 Ŷ = b0 + b1X= 85+0.5X
 En el modelo de regresión lineal simple, dado dos  b0=85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm
variables ¡Extrapolación salvaje!
 Y (dependiente)  b1=0,5 (En media el hijo gana 0,5 cm por cada cm del padre=pendiente
de la recta de regresión)
 X (independiente, explicativa)

 Buscamos encontrar una función de X muy simple 180


(lineal) que nos permita aproximar Y mediante 150 b1=0,5
 Ŷ = b0 + b1X
120
 b0 (ordenada en el origen, constante)

 b1 (pendiente de la recta) 90
60
b0=85 cm
 Y e Ŷ rara vez coincidirán por muy bueno que sea el 30
modelo de regresión. A la cantidad
0
 e=Y-Ŷ se le denomina residuo o error residual.
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
15 16
 La relación entre las variables no es exacta. Es natural  El modelo lineal de regresión se construye utilizando la técnica de
preguntarse entonces: estimación mínimo cuadrática:
 Buscar b0, b1 de tal manera que se minimice la cantidad
 ¿Cuál es la mejor recta que sirve para predecir los valores de
Y en función de los de X? e  (y
2
i i  yˆ i ) 2
 ¿Qué error cometemos con dicha aproximación (residual)?. i i

 Se comprueba que para lograr dicho resultado basta con elegir:


180 SY S XY
b1  r  2 b0  y  b1 x
150 b1=0,5 SX Sx
120
 Se obtiene además unas ventajas “de regalo”
90  El error residual medio es nulo
 La varianza del error residual es mínima para dicha estimación.
60
b0=85 cm
30  Traducido: En término medio no nos equivocamos. Cualquier otra
estimación que no cometa error en término medio, si es de tipo lineal,
0 será peor por presentar mayor variabilidad con respecto al error
medio (que es cero).
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
17 18

Bondad de un ajuste Resumen sobre bondad de un ajuste


 La bondad de un ajuste de un modelo de regresión se mide
Resumiendo: Y usando el coeficiente de determinación R2
• La dispersión del error residual será una fracción  R2 es una cantidad adimensional que sólo puede tomar valores
de la dispersión original de Y en [0, 1]

•Cuanto menor sea la dispersión del error residual  Cuando un ajuste es bueno, R2 será cercano a uno.
mejor será el ajuste de regresión.

Eso hace que definamos como medida de  Cuando un ajuste es malo R2 será cercano a cero.
bondad de un ajuste de regresión,
o coeficiente de determinación a:
 A R2 también se le denomina porcentaje de variabilidad explicado
2 por el modelo de regresión.
S
R2  1 e
2 R2 puede ser pesado de calcular en modelos de regresión
S Y

general, pero en el modelo lineal simple, la expresión es sencilla.

Se2  SY2 NOTA: En los modelos de regresión general R2 no coincide con el


cuadrado del coeficiente de correlación lineal.
19 20
Hipótesis previas de la Regresión: Otros modelos de regresión
 Se pueden considerar otros tipos ¿recta o parábola?
 Los errores son aleatorios y siguen una distribución normal: de modelos, en función del
Los residuos ei siguen una distribución Normal de media 0 y aspecto que presente el diagrama
varianza S2. de dispersión (regresión no lineal)
 Esperanza matemática de los residuos nula E(ei)=0 (los
errores de una misma magnitud y distinto signo son  Incluso se puede considerar el
equiprobables). que una variable dependa de 140 150 160 170 180 190 200
varias (regresión múltiple).
 Homocedasticidad: Var(et)=S2 Los residuos tienen igual
varianza que es desconocida, es decir, varianza constante. Yˆ  bo b1 X  b2 Z ¿recta o cúbica?

 Los errores en la medición de las variables explicativas son


independientes entre sí o ausencia de autocorrelación.
 Los errores deben ser independientes de los valores de la
variable Xi.
No siempre se cumplen todas las Cuando el tamaño de muestra es
140 150 160 170 180 190 200
hipótesis iniciales, pero el método de grande el teorema central del
regresión es muy ROBUSTO. límite permite relajar las hipótesis.
22

 En el diagrama de dispersión se aprecie una clara relación lineal directa.


Ejemplo con SPSS  ¿Aprecias regresión lineal en la gráfica? 190

 A continuación vamos a analizar un ejemplo realizado con


datos simulados, de lo que podría parecer el estudio  La tabla de correlaciones nos muestra que R=0,759
¿Por qué se ven algunos R=1?
180
sobre alturas de hijos y padres, realizado con SPSS. 

 El modelo de regresión lineal simple es 170


 Suponemos que hemos recogido la altura de 60 varones,  Altura hijo = b0 + b1 Altura del padre
junto a las de su padre.
 b0=89,985

Altura del hijo


160

 b1=0,466
 El estudio descriptivo univariante de ambas variables por
separado no revela nada sobre una posible relación.  ¿Aprecias regresión a la media? 150
150 160 170 180 190 200

16 12  La bondad del ajuste es de R2=0,577= 57,7% Altura del Padre

14
10
 ¿Eso significa que el 57% de las predicciones del modelo son correctas?
12
 ¿Cómo lo interpretas?
8
10

Correlaciones
8 6

6 Altura del Coeficientesa


4 Altura del hijo Padre
4 Correlación de Pearson Altura del hijo 1,000 ,759 Coeficientes no
Desv. típ. = 8,64 2 estandarizados
2
Desv. típ. = 5,30 Altura del Padre ,759 1,000
Media = 173,3 Media = 170,8
N = 59,00
Modelo B Error típ.
0 0 N = 59,00 Resumen del modelo
155,0 165,0 175,0 185,0 195,0 160,0 165,0 170,0 175,0 180,0
1 (Constante) 89,985 9,180
160,0 170,0 180,0 190,0 162,5 167,5 172,5 177,5 182,5 R cuadrado Error típ. de la Altura del Padre ,466 ,053
Altura del Padre
Modelo R R cuadrado corregida estimación a. Variable dependiente: Altura del hijo
Altura del hijo
1 ,759a ,577 ,569 3,480
23 a. Variables predictoras: (Constante), Altura del Padre 24
Modelo de regresión lineal múltiple
 Es el método de análisis multivariante apropiado cuando se dispone de una sola variable
dependiente y métrica (Y), que se supone es una función lineal de otra serie de variables
independientes (Xi con i=1, …, k), todas ellas correlacionadas entre sí y cuyos efectos
conjuntos es preciso conocer.
 Su objetivo es predecir las variaciones en la variable dependiente en función de su
covarianza con todas las variables independientes.

Regresión Múltiple  En el modelo se supone que la variable dependiente Y se puede expresar de la forma
siguiente:

Y   0  1·x1   2 ·x2  ... k ·xk  


donde:
Y=variable dependiente o explicada
X1, X2, .. Xk son las variables independientes o explicativas
0, 1, 2, ... k parámetros que miden la influencia de las variables explicativas sobre la
variable explicada
ε son los errores, es decir, las diferencias entre la variable dependiente Y con su estimada.

26

Modelo de regresión lineal múltiple Modelo de regresión lineal múltiple


SUPOSICIONES O HIPÓTESIS
 Nuestra intención es estimar 0 1, 2, …, k, para poder hacer una  E[]=0
estimación de la variable dependiente Y.  V[]=2
 Esta estimación la realizaremos mediante el método de mínimos  NO AUTOCORRELACIÓN: Covar[ij]=0
cuadrados.  LA HOMOCEDASTICIDAD: V[i]=E[i2]=2
 Aunque es una técnica sencilla y una de las más utilizada al ser de las  Cov(, X)=0
más antiguas, no hay que olvidar que para aplicarla se han de cumplir
 Rango(X)=p con p<n. NO MULTICOLINEALIDAD
una serie de suposiciones previas (hipótesis).
 i~N1(0, 2) y ~Nn(0,2I)
 Estas condiciones han de ser comprobadas cada vez que se realiza un
análisis de Regresión Múltiple, puesto que de lo contrario las
conclusiones extraídas del estudio no serán válidas. Este es un fallo muy  Asumiendo que estas condiciones se cumplen en nuestros datos, la
frecuente a la hora de realizar este tipo de análisis. estimación del vector  por mínimos cuadrados se calcula de la forma
siguiente:
1
ˆ   ( X' X) X' Y
27 28
Modelo de regresión lineal múltiple Modelo de regresión lineal múltiple
 Ejemplo: Coeficiente de determinación múltiple
varianza explicada
Una empresa quieres llevar a cabo un estudio sobre el grado de satisfacción de los R2 
varianza total
empleados con sus superiores.
Para ello cada trabajador rellenó un cuestionario donde aparecían las siguientes variables  Existe el coeficiente de determinación múltiple ajustado, que intenta corregir el
puntuadas de 1(mejor) a 5 (peor):
efecto de que hubiese muchas variables en una muestra muy pequeña. Se utiliza
Variable Dependiente: Puntuación global que alcanza el supervisor.
cuando queramos comparar varios modelos de regresión, ya que puede ocurrir
Variables Independientes: que unos tengan más variables que otros.
Trato que el supervisor da a los empleados.
Oportunidad de aprender que da el supervisor (n  1)
Ra2  1  (1  R 2 )·
Rendimiento personal que considera el supervisor (n  p)
Medida en que el supervisor es crítico con los bajos rendimientos del personal.
Valoración personal del empleado respecto a conseguir ascensos  Ra2  1 .
Una vez calculados los coeficientes i, nos preguntamos: ¿QUÉ CALIDAD TIENE EL  En nuestro análisis nos quedaremos con el modelo cuyo coeficiente múltiple de
AJUSTE HALLADO? determinación ajustado sea más próximo a 1.

29 30

Modelo de regresión lineal múltiple Modelo de regresión lineal múltiple


Autocorrelación Homocedasticidad
Una de las hipótesis del modelo de regresión hace referencia a la varianza
La hipótesis mantenida en el modelo de regresión lineal básico (no autocorrelación) de la
se define de la forma siguiente: Covar (t  t-h) = 0. distribución de las perturbaciones. Se da la homocedasticidad cuando estas
La hipótesis contraria (autocorrelación) es de la forma: Covar (t  t-h) ≠ 0. Varianzas son constantes, Var (ui) = σ2.
Siendo t= 1,2…n-h; con h =1,2,…n-1. La situación contraria, heterocedasticidad, refleja el hecho por el que las
varianzas
Para comprobar si existe autocorrelación se utilizar el contraste de Durbin-Watson. de los términos de perturbación del modelo son distintos, Var (ui) = σi2, i
distinta para
cada i=1,2,…,n.
n 2

  i   i 1  DW toma valores entre 0 y 4. En general para


Valores comprendidos entre 1,5 y 2,5 no existe motivo Para comprobar si se cumple el supuesto de homocedasticidad se suele
DW  i 1
n 2
de preocupación. utilizar el test de Levene. Este test aplica un análisis de varianza sobre el
  
i2
i valor absoluto de los errores obtenidos en la regresión.

31 32
Modelo de regresión lineal múltiple
Multicolinealidad
La No Multicolinealidad es otra de las hipótesis básicas del modelo. Este término hace
referencia a la correlación existente entre las variables explicativas del modelo de regresión.
Pueden ocurrir dos situaciones extremas:

• Multicolinealidad perfecta o exacta: la correlación lineal entre dos, o más variables, es


perfecta. En este caso, la estimación por MCO de los parámetros del modelo no puede llevar a
cabo puesto que la matriz (X’X) es una matriz singular que no admite matriz inversa.
• Ausencia de multicolinealidad: es la situación provocada por el hecho que las variables
explicativas son ortogonales entre sí (correlaciones lineales iguales a cero). En este caso, la
regresión múltiple no añade prácticamente nada a la regresión simple.

EL grado de multicolinealidad puede medirse con el factor de la inflación de la varianza (FIV) del
estimador de cada parámetro β del modelo. FIV (bj) = 1/(1-R2j)
Soluciones:
 Incorporar más información; aumentando el tamaño de la muestra, añadiendo información a
priori sobre valor de alguno de los parámetros, etc…
 Cambios en la estructura del modelo; cambios en las variables explicativas, transformación
en las variables explicativas, etc…
33

Vous aimerez peut-être aussi