Vous êtes sur la page 1sur 3

REGRESIÓN LINEAL

El análisis de regresión involucra el estudio la relación entre dos variables cuantitativas.


 Investigar si existe una asociación entre las dos variables testeando la hipótesis de
independencia estadística.
 Estudiar la fuerza de la asociación a través de una medida de asociación
denominada coeficiente de correlación.
 Estudiar la forma de la relación. Usando los datos propondremos un modelo para la
relación y a partir de ella será posible predecir el valor de una variable a partir de la
otra.
Para ello proponemos un modelo que relaciona una variable dependiente (y) con una
variable independiente (x).
La decisión sobre que análisis usar en una situación particular, depende de la naturaleza
del OUTCOME y el tipo de función que se propone para relacionar el outcome y la
variable dependiente.

Modelos
Llamaremos modelo matemático a la función matemática que proponemos como forma
de relación entre la variable dependiente (y) y las variables independientes.
La función más simple para la relación entre dos variables es la función lineal.
Y=a+bX

 Esta expresión es una aproximación de la verdadera relación entre X e Y


 Para un dato valor de X el modelo predice un cierto valor para Y.
 Mientras mejor sea la predicción, mejor es el modelo para explicar el fenómeno.
Interpretación de los coeficientes
 El coeficiente a es la pendiente de la recta, mide el cambio en Y por cada unidad de
cambio en X.
 El coeficiente b es la ordenada al origen, el punto donde la recta intercepta el eje Y.
Consideremos el modelo Y=aX+b

 Este modelo es una aproximación de la verdadera relación entre X e Y.


 Para un dato valor de X el modelo predice un cierto valor para X.
 Mientras mejor sea la predicción, mejor es el modelo.

UN MODELO DETERMINÍSTICO
supone qué bajo condiciones ideales, el comportamiento de la variable dependiente
puede ser totalmente descripto por una función matemática de las variables
independientes (o por un conjunto de ecuaciones que relacionen las variables). Es decir,
en condiciones ideales el modelo permite predecir sin error el valor de la variable
dependiente.
Ejemplo:
Ley de la Gravedad. Podemos predecir exactamente la posición de un objeto que cae
en caída libre y en el vacío para cada instante de tiempo.
UN MODELO ESTADÍSTICO
permite la incorporación de un componente matemático en la relación. En consecuencia,
las predicciones obtenidas a través de modelos estadísticos tendrán asociado un error
de predicción.
Ejemplo:
Relación de la altura con la edad en niños. Niños de la misma edad seguramente no
tendrán la misma altura. Sin embargo, a través de un modelo estadístico es posible
concluir que la altura aumenta con la edad. Es más, podríamos predecir la altura de un
niño de cierta edad y asociarle un ERROR DE PREDICCIÓN que tiene en cuenta:
ERRORES DE MEDICIÓN y VARIABILIDAD ENTRE INDIVIDUOS. En problemas
biológicos, trabajando en “condiciones ideales” es posible evitar los errores de medición,
pero no la variabilidad individual, por eso es indispensable incluir el componente
aleatorio en los modelos estadísticos
En este curso trataremos sobre Regresión Lineal. Haremos énfasis en este tipo de
modelos porque
♦ son de amplia aplicación,
♦ son más simples de implementar,
♦ otros procedimientos estadísticos más complejos pueden ser mejor comprendidos
luego de estudiar regresión lineal.
El coeficiente de correlación lineal y el coeficiente de determinación
Nuestro objetivo en adelante será medir la bondad del ajuste de la recta de regresión a
los datos observados y cuantificar al mismo tiempo el grado de asociación lineal
existente entre las variables en cuestión. A mejor ajuste, mejores serán las predicciones
realizadas con el modelo. La evaluación global de una recta de regresión puede hacerse
mediante la varianza residual, que como sabemos es un índice de la precisión del
modelo. Sin embargo, esta medida no es útil para comparar rectas de regresión de
variables distintas, o comparar el grado de asociación lineal entre distintos pares de
variables, ya que depende de las unidades de medida de las variables. El coeficiente de
correlación lineal Como solución al inconveniente planteado, para medir la asociación
lineal entre dos variables X e Y se utiliza una medida adimensional denominada
coeficiente de correlación lineal, dado por:
r = E [(X − E(X)) (Y – E ( Y )] p V AR(X)V AR(Y ) = p V AR(X) p V AR(Y ) β1
y su estimación a partir de datos de una muestra resulta: ˆ
r = p SSxy SSxxSSyy = √ p SSxx SSyy ˆ
β1 El coeficiente de correlación lineal toma valores entre -1 y 1 y su interpretación es
la siguiente:
• Un valor cercano o igual a 0 indica respectivamente poca o ninguna relación lineal
entre las variables.
• Cuanto más se acerque en valor absoluto a 1 mayor será el grado de asociación lineal
entre las variables. Un coeficiente igual a 1 en valor absoluto indica una dependencia
lineal exacta entre las variables.
• Un coeficiente positivo indica asociación lineal positiva, es decir, tienden a variar en el
mismo sentido.
• Un coeficiente negativo indica asociación lineal negativa, es decir, tienden a variar en
sentido opuesto. Nótese que si β1 = 0 entonces r = 0 en cuyo caso hay ausencia de
linealidad. Por lo tanto, contrastar si el coeficiente de correlación lineal es
significativamente distinto de 0 sería equivalente a contrastar si β1 es significativamente
distinto de cero, contraste que ya vimos en la sección anterior.
Tipos de relación

 Determinista: Conocido el valor de X, el valor de Y queda perfectamente


establecido. Son del tipo:
y = f (x)

 No determinista: Conocido el valor de X, el valor de Y no queda perfectamente


establecido. Son del tipo: y = f (x) + u
donde u es una perturbación desconocida (variable aleatoria).

 Lineal: Cuando la función f (x) es lineal, f (x) = β0 + β1x


Si β1 > 0 hay relación lineal positiva.
Si β1 < 0 hay relación lineal negativa.

 No lineal: Cuando la función f (x) no es lineal.


Por ejemplo, f (x) = log(x), f (x) = x 2 + 3 …
Estimadores de mínimos cuadrados:
Gauss propuso en 1809 el método de mínimos cuadrados para obtener los valores βˆ 0
y βˆ 1 que mejor se ajustan a los datos:
yˆ i = βˆ 0 + βˆ 1xi
El método consiste en minimizar la suma de los cuadrados de las distancias verticales
entre los datos y las estimaciones, es decir, minimizar la suma de los residuos al
cuadrado.
Estimación de una respuesta promedio y predicción de una nueva respuesta Se
distinguen dos tipos de problemas:
1. Estimar el valor medio de la variable Y para cierto valor X = x0.
2. Predecir el valor que tomará la variable Y para cierto valor X = x0. Por ejemplo, en el
ejercicio 4.1: 1. Cuál será el precio medio del kg. de harina para los años en que se
producen 30 ton. de trigo? 2. Si un determinado año se producen 30 ton. de trigo, ¿cuál
será el precio del kg. de harina? En ambos casos el valor estimado es: yˆ0 = βˆ 0 + βˆ
1x0 = ¯y + βˆ 1 (x0 − x¯) Pero la precisión de las estimaciones es diferente.

Vous aimerez peut-être aussi