Vous êtes sur la page 1sur 5

REGRESIN LINEAL POR MNIMOS

CUADRADOS
La dependencia entre dos (o ms) variables puede ser tal que se base
en una relacin funcional (matemtica) exacta, como la existente entre
la velocidad y la distancia recorrida por un mvil; o puede
ser estadstica. La dependencia estadstica es un tipo de relacin entre
variables tal que conocidos los valores de la (las) variable (variables)
independiente(s) no puede determinarse con exactitud el valor de la
variable dependiente, aunque si se puede llegar a determinar un cierto
comportamiento (global) de la misma. (Ej. la relacin existente entre el
peso y la estatura de los individuos de una poblacin es una relacin
estadstica) .
Pues bien, el anlisis de la dependencia estadstica admite dos
planteamientos (aunque ntimamente relacionados):
El estudio del grado de dependencia existente entre las variables que
queda recogido en la teora de la correlacin.
La determinacin de la estructura de dependencia que mejor exprese la
relacin, lo que es analizado a travs de la regresin.
Una vez determinada la estructura de esta dependencia la finalidad
ltima de la regresin es llegar a poder asignar el valor que toma la
variable Y en un individuo del que conocemos que toma un determinado
valor para la variable X (para las variablesX1, X2,..., Xn ).
En el caso bidimensional, dadas dos variables X e Y con una distribucin
conjunta de frecuencias ( xi, yj ,nij ), llamaremos regresin de Y sobre X (
Y/X) a una funcin que explique la variable Y para cada valor de X, y
llamaremos regresin de X sobre Y (X/Y) a una funcin que nos explique
la variable X para cada valor de Y.(Hay que llamar la atencin, como se
ver ms adelante, que estas dos funciones, en general, no tienen por
qu coincidir).

MTODO DE CUADRADOS MNIMOS REGRESIN LINEAL.


Hemos enfatizado sobre la importancia de las representaciones grficas
y hemos visto la utilidad de las versiones linealizadas de los grficos (X,
Y) junto a las distintas maneras de llevar a cabo la linealizacin. A
menudo nos confrontamos con situaciones en las que existe o

suponemos que existe una relacin lineal entre las variables X e Y.


Surge de modo natural la pregunta: cul es la relacin analtica que
mejor se ajusta a nuestros datos? El mtodo de cuadrados mnimos es
un procedimiento general que nos permite responder esta pregunta.
Cuando la relacin entre las variables X e Y es lineal, el mtodo de
ajuste por cuadrados mnimos se denomina tambin mtodo de
regresin lineal.
Observamos o suponemos una tendencia lineal entre las variables y nos
preguntamos sobre cul es la mejor recta:
y(x) = a x + b
Que representa este caso de inters. Es til definir la funcin:

Que es una medida de la desviacin total de los valores


observados yi respecto de los predichos por el modelo lineal a x + b. Los
mejores valores de la pendiente a y la ordenada al origen b son aquellos
que minimizan esta desviacin total, o sea, son los valores que
remplazados en la Ec.(1) minimizan la funcinc2. Ec.(2). Los
parmetros a y b pueden obtenerse usando tcnicas matemticas que
hacen uso del clculo diferencial. Aplicando estas tcnicas, el problema
de minimizacin se reduce al de resolver el par de ecuaciones:

promedio de valores de y.

promedio de los valores de x

Actualmente, la mayora de los programas de anlisis de datos y


planillas de clculo, realizan el proceso de minimizacin en forma
automtica y dan los resultados de los mejores valores de a y b, o sea
los valores indicados por las ecuaciones.

Grfico de datos asociados a un modelo lineal. La cantidad yi - y(xi)


representa la desviacin de cada observacin de yi respecto del valor
predicho
por
el modelo y(x).
El criterio de mnimos cuadrados reemplaza el juicio personal de quien
mire los grficos y defina cul es la mejor recta. En los programas como
Excel, se realiza usando la herramienta regresin lineal o ajuste
lineal. Los resultados se aplican en el caso lineal cuando todos los datos
de la variable dependiente tienen la misma incertidumbre absoluta y la
incertidumbre de la variable independiente se considera despreciable.
BONDAD DEL AJUSTE (Varianza residual, varianza de la regresin
y coeficiente de determinacin)
Por bondad del ajuste hay que entender el grado de acoplamiento que
existe entre los datos originales y los valores tericos que se obtienen de
la regresin. Obviamente cuanto mejor sea el ajuste, ms til ser la
regresin a la pretensin de obtener los valores de la variable.
Obtener indicadores de esta bondad de ajuste es fundamental a la hora
de optar por una regresin de un determinado tipo u otro.
Puesto que la media de los residuos se anula, el primer indicador de la
bondad del ajuste (no puede ser el error medio) ser el error cuadrtico
medio, o varianza del residuo, o varianza residual :
Considerando la regresin Y/X:

Que ser una cantidad mayor o igual que cero. De forma que cuanto
ms baja sea mejor ser el grado de ajuste. Si la varianza residual
vale cero el ajuste ser perfecto (ya que no existir ningn error ).
Del hecho de que yi=y*i+ei ,y de que las variables y* e estn
incorrelacionadas se tiene que:

Donde S2y* es la llamada varianza de la regresin y supone la


varianza de la variable regresin:

Igualdad fundamental anterior de la que se deduce que la varianza total


de la variable y puede descomponerse en dos partes una parte
explicada por la regresin (la varianza de la regresin) y otra parte no
explicada (la varianza residual).
Considerando que la varianza nos mide la dispersin de los datos este
hecho hay que entenderlo como que la dispersin total inicial queda, en
parte explicada por la regresin y en parte no. Cuanto mayor sea la
proporcin de varianza explicada (y menor la no explicada) tanto mejor
ser el ajuste y tanto ms til la regresin.
A la proporcin de varianza explicada por la regresin se le
llama coeficiente de determinacin ( en nuestro caso lineal):

que evidentemente estar siempre comprendido entre 0 y 1 y, en


consecuencia, da cuenta del tanto por uno explicado por la regresin.
Una consecuencia importante en la prctica es que la varianza residual
ser obviamente:

Es sencillo probar que en el caso lineal que nos ocupa el coeficiente de


determinacin coincide con el cuadrado del coeficiente de correlacin:

R2 = r2
Con lo cual la varianza residual y la varianza debida a la regresin
pueden calcularse a partir del coeficiente de correlacin:

Vous aimerez peut-être aussi