Académique Documents
Professionnel Documents
Culture Documents
2
Regresión Lineal
La regresión lineal simple examina la relación lineal entre dos variables continuas: una respuesta (Y) y un
predictor (X). Cuando las dos variables están relacionadas, es posible predecir un valor de respuesta a partir
de un valor predictor con una exactitud mayor que la asociada únicamente a las probabilidades.
El modelo matemático de regresión lineal se emplea continuamente en disciplinas como la sociología, la
biomedicina, la economía, en las ingenierías, etc. A priori el abordaje analítico para encontrar relación lineal
entre dos variables aleatorias es infinito, es decir todo es relacionable.
Ejemplos:
• Estudiar cómo influye la estatura del padre sobre la estatura del hijo.
• Estimar el precio de una vivienda en función de su superficie.
Tipos de Relación
• Determinista: Conocido el valor de X, el valor de Y queda perfectamente establecido. Son del tipo:
y = f (x)
Ejemplo: La relación existente entre la temperatura en grados centígrados (X) y grados Fahrenheit (Y)
es:
y = 1,8x + 32
Ejemplo: Se tiene una muestra del volumen de producción (X) y el costo total (Y) asociado a un producto
en un grupo de empresas.
• Lineal: Cuando la función f (x) es lineal,
f (x) = β0 + β1x
• Si β1 > 0 hay relación lineal positiva.
• Si β1 < 0 hay relación lineal negativa.
donde
donde:
• β0: Intercepto
• β1: Pendiente
• Linealidad: Establece la linealidad en los parámetros en la relación entre la variable endógena (a explicar)
y las exógenas (explicativas). Por ejemplo, en la relación entre Consumo y Renta. f (x) = β0 + β1x. Los
datos deben ser razonablemente rectos.
• Homogeneidad: El valor promedio del error es cero. Ya que el error es tratado como la suma de muchos
efectos individuales sobre la endógena, donde el signo de cada uno es desconocido, no existe ninguna
razón para esperar cualquier valor distinto de cero. Una situación en la que se incumple esta hipótesis es
cuando a su vez, se incumple otra, como es omitir en el modelo una variable explicativa relevante. E [ui] =
0.
• Homocedasticidad: Una hipótesis del modelo de regresión es la homocedasticidad y todo lo comentado
sobre este problema en el modelo de regresión lineal simple sigue siendo válido en el modelo de regresión
lineal múltiple. La falta de homocedasticidad influye en el modelo de regresión lineal, los
estimadores mínimo-cuadráticos siguen siendo centrados, pero no son eficientes y las fórmulas de las
varianzas de los estimadores de los parámetros no son correctas. Por tanto, no pueden aplicarse los
contrastes de significación. Var(ui) = σ2
• Independencia: La independencia de los errores es una hipótesis básica en el estudio de un modelo de
regresión lineal. La falta de cumplimiento de la hipótesis de independencia tiene efectos graves sobre los
resultados del estudio. Influye en: Los estimadores son centrados pero ineficientes (no son de varianza
mínima). El estimador R2 normalmente subestima el parámetro 2, lo que hace que los contrastes de
significación (contrastes individuales de la t) no sean válidos y tienden a detectar relaciones inexistentes,
denominadas relaciones espúreas, que son relaciones falsas entre variables independientes que siguen una
evolución análoga en el tiempo y tienen un R2 alto. Las predicciones son ineficientes. E [ui uj] = 0
• Normalidad: Los errores siguen una distribución normal. La hipótesis de normalidad afirma que los errores
del modelo siguen una distribución normal. Esta hipótesis se contrasta a partir de los residuos
n
estandarizados i = 1 .
ui ∼ N (0, σ)
Mínimos Cuadrados
Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de la optimización matemática, en
la que, dados un conjunto de pares ordenados —variable independiente, variable dependiente— y una familia
de funciones, se intenta encontrar la función continua, dentro de dicha familia, que mejor se aproxime a los
datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático.
En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias en las ordenadas (llamadas
residuos) entre los puntos generados por la función elegida y los correspondientes valores en los datos.
Específicamente, se llama mínimos cuadrados promedio (LMS) cuando el número de datos medidos es 1 y se
usa el método de descenso por gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS
minimiza el residuo cuadrado esperado, con el mínimo de operaciones (por iteración), pero requiere un gran
número de iteraciones para converger.
Estimadores de Mínimos Cuadrados
El método consiste en minimizar la suma de los cuadrados de las distancias verticales entre los datos y las
estimaciones, es decir, minimizar la suma de los residuos al cuadrado.
Hasta ahora el único modelo probabilista que hemos considerado para datos observados, suponía que estos
eran realizaciones de variables
independientes de una misma ley. Esto
equivale a decir que los individuos en los
cuales se tomaron los datos son
intercambiables y que las
diferencias observadas entre ellos son
imputables solamente al azar. En
numerosas situaciones, se busca
explicar estas diferencias, es decir,
atribuirlas a los efectos de otros
caracteres medidos en los mismos
individuos.
Estimación de la Varianza
Un estimador es un estadístico (una función de la muestra) utilizado para estimar un parámetro desconocido de
la población.
Para estimar la varianza de los errores, σ^2, podemos utilizar,
donde yi = β0 + β1xi + ui, que cumple que yi ∼ N β0 + β1xi, σ2. Además, βˆ1 es un estimador insesgado de
β1,
y su varianza es,
Por lo tanto,
Intervalo de Confianza para la Pendiente
Queremos ahora obtener el intervalo de confianza para β1 de nivel 1 − α. Como σ^2 es desconocida, la
estimamos con s^2R. El resultado básico cuando la varianza es desconocida es: