Este documento describe métodos para evaluar la calidad del ajuste en un modelo de regresión lineal simple, incluyendo el coeficiente de determinación (R2), el coeficiente de correlación (r), y el error estándar de estimación. También discute cómo construir intervalos de confianza para estimar parámetros poblacionales basados en datos de muestra, y cómo los gráficos de residuos pueden usarse para verificar los supuestos del modelo.
Este documento describe métodos para evaluar la calidad del ajuste en un modelo de regresión lineal simple, incluyendo el coeficiente de determinación (R2), el coeficiente de correlación (r), y el error estándar de estimación. También discute cómo construir intervalos de confianza para estimar parámetros poblacionales basados en datos de muestra, y cómo los gráficos de residuos pueden usarse para verificar los supuestos del modelo.
Este documento describe métodos para evaluar la calidad del ajuste en un modelo de regresión lineal simple, incluyendo el coeficiente de determinación (R2), el coeficiente de correlación (r), y el error estándar de estimación. También discute cómo construir intervalos de confianza para estimar parámetros poblacionales basados en datos de muestra, y cómo los gráficos de residuos pueden usarse para verificar los supuestos del modelo.
En la seccin anterior estudiamos pruebas de hiptesis para verificar que hay una relacin significativa entre y; sin embargo, no hemos visto si tal relacin permite hacer estimaciones con una precisin aceptable. Por ejemplo, es de inters saber qu tanta de la variabilidad presente en fue explicada por el modelo, adems si se cumplen los supuestos de los residuos
Coeficiente de determinacin Una vez ajustada la recta de regresin a la nube de observaciones es importante disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinacinn, definido como sigue
O bien
Como scE < scG, se verifica que 0 < R 2 < 1. El coeficiente de determinacin mide la proporcin de variabilidad total de la variable dependiente respecto a su media que es explicada por el modelo de regresin. Es usual expresar esta medida en tanto por ciento, multiplicndola por cien. Por otra parte, teniendo en cuenta que i - = 1 , se obtiene
Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relacin lineal que hay entre ambas variables es el coeficiente de correlacin definido por
Donde representa la desviacin tpica de la variable X (anlogamente para ). Un buen estimador de este parmetro es el coeficiente de correlacin lineal muestral (o coeficiente de correlacin de Pearson), definido por
Por tanto, r . Este coeficiente es una buena medida de la bondad del ajuste de la recta de regresin. Evidentemente, existe una estrecha relacin entre r y 1aunque estos estimadores proporcionan diferentes interpretaciones del modelo: * r es una medida de la relacin lineal entre las variables X e Y. * 1 mide el cambio producido en la variable Y al realizarse un cambio de una unidad en la variable X. De las definiciones anteriores se deduce que:
Es importante estudiar si r es significativo (distinto de cero) ya que ello implica que el modelo de regresin lineal es significativo. Desafortunadamente la distribucin de r es complicada pero para tamaos muestrales mayores que 30 su desviacin tpica es 1/ , y puede utilizarse la siguiente regla
En la interpretacin del coeficiente de correlacin se debe tener en cuenta que: r = 1 indica una relacin lineal exacta positiva (creciente) o negativa (decreciente), r = 0 indica la no existencia de relacin lineal estocstica, pero no indica independencia de las variables ya que puede existir una relacin no lineal incluso exacta, valores intermedios de r (0 < r < 1 -1 < r < 0) indican la existencia de una relacin lineal estocstica, ms fuerte cuanto ms prximo a +1 ( -1) sea el valor de r. Para poder interpretar con mayor facilidad el coeficiente de correlacin muestral se exponen varias nubes de observaciones y el ajuste lineal obtenido: Figura 6.7. Existe una dependencia funcional lineal, las observaciones estn sobre la recta de regresin. r = R 2 = 1, recta de regresin
Dependencia funcional lineal Coeficiente de determinacin ajustado El coeficiente de determinacin o coeficiente de correlacin mltiple al cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el cociente entre la variabilidad explicada por la regresin y la variabilidad total, esto es:
algunas otras formas de presentar el coeficiente de determinacin son:
Algunas de las equivalencias anteriores pueden verse a partir de la demostracin de . Coeficiente de correlacin . Es bien conocido que el coeficiente de correlacin, , mide la intensidad de la relacin lineal entre dos variables Si se tiene pares de datos de la forma ( , entonces este coeficiente se obtiene de la siguiente manera
Se puede ver que ; si es prximo a , entonces tendremos una relacin lineal negativa fuerte, y si es prximo a cero, entonces diremos que no hay correlacin lineal, y finalmente se es prximo a , entonces tendremos una relacin lineal positiva fuerte. Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.1), el coeficiente de correlacin es; Error estndar de estimacin El error estndar cuantifica 4 las oscilaciones de la media muestral (media obtenida en los datos) alrededor de la media poblacional (verdadero valor de la media). El EEM o SEM se estima generalmente dividiendo la desviacin estndar de la poblacin entre la raz cuadrada del tamao de la muestra (asumiendo independencia estadstica de los valores en la muestra):
Donde s es la desviacin estndar (es decir, la estimacin basada en la muestra de la desviacin estndar de la poblacin). n es el tamao (nmero de individuos de la muestra) Esta estimacin puede ser comparada con la frmula de la verdadera desviacin estndar de la media de la muestra:
donde es la verdadera desviacin estndar de la poblacin. Esta frmula puede alcanzarse desde lo que ya conocemos sobre la varianza de la suma de variables independientes aleatorias. 5
Si son observaciones independientes de una poblacin que tiene una media y una desviacin estndar , entonces la varianza del total is La varianza de debe ser Y la desviacin estndar de debe ser .
Anlisis de residuos. Grficos. Como se ha indicado anteriormente, el anlisis de los residuos es bsico para chequear si se verifican las hiptesis del modelo de regresin. Por ello, a continuacin se exponen las propiedades matemticas de los mismos. Considrese el modelo de regresin lineal mltiple
Los residuos mnimo-cuadrticos vienen dados por
o en forma matricial
Como = H , siendo H = X -1 X t la matriz de proyeccin ortogonal. Es fcil probar que la matriz H es idempotente y simtrica . En base a esto El grfico de dispersin matricial, de todas las variables del modelo (respuesta y regresoras). En el estudio de un modelo de regresin lineal mltiple es el primer grfico que se debe observar. Proporciona una primera idea de la existencia de relacin lineal o de otro tipo entre la respuesta y las regresoras y tambin da una idea de posibles relaciones lineales entre las variables regresoras, lo que crea problemas de multicolinealidad.
1.1.3 Intervalo de confianza
En estadstica, se llama a un par o varios pares de nmeros entre los cuales se estima que estar cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos nmeros determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parmetro poblacional. La probabilidad de xito en la estimacin se representa con 1 - y se denomina nivel de confianza. En estas circunstancias, es el llamado error aleatorio o nivel de significacin, esto es, una medida de las posibilidades de fallar en la estimacin mediante tal intervalo. 1
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un intervalo ms amplio tendr ms probabilidad de acierto (mayor nivel de confianza), mientras que para un intervalo ms pequeo, que ofrece una estimacin ms precisa, aumenta su probabilidad de error. Para la construccin de un determinado intervalo de confianza es necesario conocer la distribucin terica que sigue el parmetro a estimar, . 2 Es habitual que el parmetro presente una distribucin normal. Tambin pueden construirse intervalos de confianza con la desigualdad de Chebyshev. En definitiva, un intervalo de confianza al 1 - por ciento para la estimacin de un parmetro poblacional que sigue una determinada distribucin de probabilidad, es una expresin del tipo [1, 2] tal que P[1 2] = 1 - , donde P es la funcin de distribucin de probabilidad de . De una poblacin de media y desviacin tpica se pueden tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media ( ). Se puede demostrar que la media de todas las medias muestrales coincide con la media poblacional: 3
Pero adems, si el tamao de las muestras es lo suficientemente grande, 4 la distribucin de medias muestrales es, prcticamente, una distribucin normal (o gaussiana) con media y una desviacin tpica dada por la siguiente expresin: . Esto se representa como sigue: . Si estandarizamos, se sigue que: En una distribucin Z ~ N(0, 1) puede calcularse fcilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2tales que P[z1 z z2] = 1 - , donde (1 - )100 es el porcentaje deseado (vase el uso de las tablas en una distribucin normal). Se desea obtener una expresin tal que En esta distribucin normal de medias se puede calcular el intervalo de confianza donde se encontrar la media poblacional si slo se conoce una media muestral ( ), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le llamar (debido a que es el error que se cometer, un trmino opuesto). Para ello se necesita calcular el punto o, mejor dicho, su versin estandarizada o valor crtico junto con su "opuesto en la distribucin" . Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:
Dicho punto es el nmero tal que:
Y en la versin estandarizada se cumple que:
As:
Haciendo operaciones es posible despejar para obtener el intervalo:
De lo cual se obtendr el intervalo de confianza:
Obsrvese que el intervalo de confianza viene dado por la media muestral el producto del valor crtico por el error estndar . Si no se conoce y n es grande (habitualmente se toma n 30): 5
, donde s es la desviacin tpica de una muestra. Aproximaciones para el valor para los niveles de confianza estndar son 1,96 para y 2,576 para . 6