Vous êtes sur la page 1sur 9

Resumen Grupo No.

2
Regresión Lineal
La regresión lineal simple examina la relación lineal entre dos variables continuas: una respuesta (Y) y un
predictor (X). Cuando las dos variables están relacionadas, es posible predecir un valor de respuesta a partir
de un valor predictor con una exactitud mayor que la asociada únicamente a las probabilidades.
El modelo matemático de regresión lineal se emplea continuamente en disciplinas como la sociología, la
biomedicina, la economía, en las ingenierías, etc. A priori el abordaje analítico para encontrar relación lineal
entre dos variables aleatorias es infinito, es decir todo es relacionable.
Ejemplos:

• Estudiar cómo influye la estatura del padre sobre la estatura del hijo.
• Estimar el precio de una vivienda en función de su superficie.
Tipos de Relación

• Determinista: Conocido el valor de X, el valor de Y queda perfectamente establecido. Son del tipo:
y = f (x)
Ejemplo: La relación existente entre la temperatura en grados centígrados (X) y grados Fahrenheit (Y)
es:
y = 1,8x + 32

• No Determinista: Conocido el valor de X, el valor de Y no queda perfectamente. Son del tipo:


y = f (x) + u
donde u es una perturbación desconocida (variable aleatoria).

Ejemplo: Se tiene una muestra del volumen de producción (X) y el costo total (Y) asociado a un producto
en un grupo de empresas.
• Lineal: Cuando la función f (x) es lineal,

f (x) = β0 + β1x
• Si β1 > 0 hay relación lineal positiva.
• Si β1 < 0 hay relación lineal negativa.

• No Lineal: Cuando la función f (x) no es lineal. Por ejemplo,

f (x) = log(x), f (x) = x^2 + 3, . . .

Los datos no tienen un aspecto recto.

• Ausencia de Relación: Cuando f (x) = 0.


Intercepto
Es la coordenada de un punto donde una gráfica interseca un eje.
Correlación Lineal
La finalidad de la correlación es examinar la dirección y la fuerza de la asociación entre dos variables
cuantitativas. Así conoceremos la intensidad de la relación entre ellas y si, al aumentar el valor de una variable,
aumenta o disminuye el valor de la otra variable. Para valorar la asociación entre dos variables, la primera
aproximación suele hacerse mediante un diagrama de dispersión.
Hay dos coeficientes de correlación que se usan frecuentemente: el de Pearson (paramétrico) y el de Spearman
(no paramétrico, se utiliza en aquellos casos donde las variables examinadas no cumplen criterios de
normalidad o cuando las variables son ordinales).
El coeficiente de correlación de Pearson evalúa específicamente la adecuación a la recta lineal que defina la
relación entre dos variables cuantitativas. El coeficiente no paramétrico de Spearman mide cualquier tipo de
asociación, no necesariamente lineal.
Medidas de Dependencia Lineal
La Covarianza
En probabilidad y estadística, la covarianza es un valor que indica el grado de variación conjunta de
dos variables aleatorias respecto a sus medias. Es el dato básico para determinar si existe una dependencia
entre ambas variables y además es el dato necesario para estimar otros parámetros básicos, como
el coeficiente de correlación lineal o la recta de regresión.

Coeficiente de Correlación lineal de Pearson


El estimador muestral más utilizado para evaluar la asociación lineal entre dos variables X e Y es el
coeficiente de correlación de Pearson (r). Se trata de un índice que mide si los puntos tienen tendencia a
disponerse en una línea recta. Puede tomar valores entre -1 y +1. Es un método estadístico paramétrico, ya
que utiliza la media, la varianza, y, por tanto, requiere criterios de normalidad para las variables analizadas.
Se define como la covarianza muestral entre X e Y dividida por el producto de las desviaciones típicas de
cada variable:

Cov (x,y) = la covarianza entre el valor <x> e <y>.


r(x) = desviación típica de <x>.
El Coeficiente de Correlación Lineal
Una medida de la dependencia lineal que no depende de las unidades de
medida es el coeficiente de correlación lineal:

donde

Modelo de Regresión Lineal Simple


El Modelo de Regresión Lineal Simple Supone Que,

donde:

• yi representa el valor de la variable respuesta para la observación i-ésima.


• xi representa el valor de la variable explicativa para la observación i-ésima.
• ui representa el error para la observación i-ésima que se asume normal,

β0 y β1 son los coeficientes de regresión:

• β0: Intercepto
• β1: Pendiente

Los parámetros que hay que estimar son: β0, β1 y σ.


El objetivo es obtener estimaciones βˆ0 y βˆ1 de β0 y β1 para calcular la recta de regresión: yˆ = βˆ0 + βˆ1x
que se ajuste lo mejor posible a los datos.
La diferencia entre cada valor yi de la variable respuesta y su estimación
yˆi se llama residuo:
Hipótesis del Modelo de Regresión Lineal Simple

• Linealidad: Establece la linealidad en los parámetros en la relación entre la variable endógena (a explicar)
y las exógenas (explicativas). Por ejemplo, en la relación entre Consumo y Renta. f (x) = β0 + β1x. Los
datos deben ser razonablemente rectos.
• Homogeneidad: El valor promedio del error es cero. Ya que el error es tratado como la suma de muchos
efectos individuales sobre la endógena, donde el signo de cada uno es desconocido, no existe ninguna
razón para esperar cualquier valor distinto de cero. Una situación en la que se incumple esta hipótesis es
cuando a su vez, se incumple otra, como es omitir en el modelo una variable explicativa relevante. E [ui] =
0.
• Homocedasticidad: Una hipótesis del modelo de regresión es la homocedasticidad y todo lo comentado
sobre este problema en el modelo de regresión lineal simple sigue siendo válido en el modelo de regresión
lineal múltiple. La falta de homocedasticidad influye en el modelo de regresión lineal, los
estimadores mínimo-cuadráticos siguen siendo centrados, pero no son eficientes y las fórmulas de las
varianzas de los estimadores de los parámetros no son correctas. Por tanto, no pueden aplicarse los
contrastes de significación. Var(ui) = σ2
• Independencia: La independencia de los errores es una hipótesis básica en el estudio de un modelo de
regresión lineal. La falta de cumplimiento de la hipótesis de independencia tiene efectos graves sobre los
resultados del estudio. Influye en: Los estimadores son centrados pero ineficientes (no son de varianza
mínima). El estimador R2 normalmente subestima el parámetro 2, lo que hace que los contrastes de
significación (contrastes individuales de la t) no sean válidos y tienden a detectar relaciones inexistentes,
denominadas relaciones espúreas, que son relaciones falsas entre variables independientes que siguen una
evolución análoga en el tiempo y tienen un R2 alto. Las predicciones son ineficientes. E [ui uj] = 0
• Normalidad: Los errores siguen una distribución normal. La hipótesis de normalidad afirma que los errores
del modelo siguen una distribución normal. Esta hipótesis se contrasta a partir de los residuos
n
estandarizados i = 1 .
ui ∼ N (0, σ)

Mínimos Cuadrados
Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de la optimización matemática, en
la que, dados un conjunto de pares ordenados —variable independiente, variable dependiente— y una familia
de funciones, se intenta encontrar la función continua, dentro de dicha familia, que mejor se aproxime a los
datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático.

En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias en las ordenadas (llamadas
residuos) entre los puntos generados por la función elegida y los correspondientes valores en los datos.
Específicamente, se llama mínimos cuadrados promedio (LMS) cuando el número de datos medidos es 1 y se
usa el método de descenso por gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS
minimiza el residuo cuadrado esperado, con el mínimo de operaciones (por iteración), pero requiere un gran
número de iteraciones para converger.
Estimadores de Mínimos Cuadrados
El método consiste en minimizar la suma de los cuadrados de las distancias verticales entre los datos y las
estimaciones, es decir, minimizar la suma de los residuos al cuadrado.
Hasta ahora el único modelo probabilista que hemos considerado para datos observados, suponía que estos
eran realizaciones de variables
independientes de una misma ley. Esto
equivale a decir que los individuos en los
cuales se tomaron los datos son
intercambiables y que las
diferencias observadas entre ellos son
imputables solamente al azar. En
numerosas situaciones, se busca
explicar estas diferencias, es decir,
atribuirlas a los efectos de otros
caracteres medidos en los mismos
individuos.

Mínimos Cuadrados Ordinarios


El objetivo será obtener las estimaciones de los coeficientes del modelo utilizando la información muestral
disponible de tal forma que se cometan los menores errores posibles.
En estadística, los mínimos cuadrados ordinarios (MCO) o mínimos cuadrados lineales es el nombre de un
método para encontrar los parámetros poblacionales en un modelo de regresión lineal. Este método minimiza
la suma de las distancias verticales entre las respuestas observadas en la muestra y las respuestas del modelo.
El parámetro resultante puede expresarse a través de una fórmula sencilla, especialmente en el caso de un
único regresionador.
Los errores, conocidos como residuos, se calculan como la diferencia entre los valores observados y los valores
estimados de la variable dependiente:

Mínimos Cuadrados Generalizados


El objetivo será transformar el modelo original en otro que tenga los mismos parámetros y un término de error
con una matriz de varianzas y covarianzas escalar.
En estadística, los mínimos cuadrados generalizados es una técnica para la estimación de los parámetros
desconocidos en un modelo de regresión lineal. El GLS se aplica cuando las varianzas de las observaciones
son desiguales, es decir, cuando se presenta heterocedasticidad, o cuando existe un cierto grado de correlación
entre las observaciones. En estos casos los mínimos cuadrados ordinarios pueden ser estadísticamente
ineficaces o incluso dar inferencias engañosas.
Para conseguirlo hay que tener en cuenta que, si la matriz Σ es simétrica y definida positiva, entonces existe
una matriz cuadrada, no singular P tal que Σ=PP´. Así, si se premultipica en ambos lados de la ecuación por P-
1 y se posmultiplica (P-1) ´ obtenemos la matriz identidad del siguiente modo:
P-1Σ (P-1) ´ =I

Estimación de la Varianza
Un estimador es un estadístico (una función de la muestra) utilizado para estimar un parámetro desconocido de
la población.
Para estimar la varianza de los errores, σ^2, podemos utilizar,

que es el estimador máximo verosímil de σ^2, pero es un estimador sesgado.


Un estimador insesgado de σ^2 es la varianza residual,

Inferencia para la Pendiente


El estimador βˆ1 sigue una distribución normal porque es una combinación Lineal de normales,

donde yi = β0 + β1xi + ui, que cumple que yi ∼ N β0 + β1xi, σ2. Además, βˆ1 es un estimador insesgado de
β1,

y su varianza es,

Por lo tanto,
Intervalo de Confianza para la Pendiente
Queremos ahora obtener el intervalo de confianza para β1 de nivel 1 − α. Como σ^2 es desconocida, la
estimamos con s^2R. El resultado básico cuando la varianza es desconocida es:

que nos permite obtener el intervalo de confianza para β1:

Vous aimerez peut-être aussi