Vous êtes sur la page 1sur 17

REGRESION LINEAL

En estadstica la regresin lineal o ajuste lineal es un mtodo


matemtico que modela la relacin entre una variable
dependiente Y, las variables independientes Xi y un trmino
aleatorio . Este modelo puede ser expresado como:
Yt = 0 + 1 X1 + 2 X2 + ... + p Xp + donde
Yt : variable dependiente, explicada o regresando.
X1 , X2 ,...,Xp variables explicativas, independientes o
regresores.
0, 1 , 2,..., p : parmetros, miden la influencia que las
variables explicativas tienen sobre el regresando.
Donde 0 es la interseccin o trmino "constante", las i (i0)
son los parmetros respectivos a cada variable independiente,
y p es el nmero de parmetros independientes a tener en
cuenta en la regresin.
HISTORIA:
La primera forma de regresin lineal
documentada fue el mtodo de los mnimos
cuadrados, el cual fue publicado por Legendre en
1805, y en dnde se inclua una versin del
teorema de Gauss-Mrkov.
El trmino regresin se utiliz por primera vez en
el estudio de variables antropomtricas: al
comparar la estatura de padres e hijos, result
que los hijos cuyos padres tenan una estatura
muy superior al valor medio tendan a igualarse a
ste, mientras que aquellos cuyos padres eran
muy bajos tendan a reducir su diferencia
respecto a la estatura media; es decir,
"regresaban" al promedio.
APLICACIONES DE LA REGRESION
LINEAL:
Lneas de tendencia:
Una lnea de tendencia representa una tendencia en una
serie de datos obtenidos a travs de un largo perodo. Este
tipo de lneas puede decirnos si un conjunto de datos en
particular (como por ejemplo, el PBI, el precio del petrleo
o el valor de las acciones) han aumentado o decrementado
en un determinado perodo. Se puede dibujar una lnea de
tendencia a simple vista fcilmente a partir de un grupo de
puntos, pero su posicin y pendiente se calcula de manera
ms precisa utilizando tcnicas estadsticas como las
regresiones lineales. Las lneas de tendencia son
generalmente lneas rectas, aunque algunas variaciones
utilizan polinomios de mayor grado dependiendo de la
curvatura deseada en la lnea.
MEDICINA:
En medicina, las primeras evidencias relacionando la
mortalidad con el fumar tabaco, vinieron de estudios que
utilizaban la regresin lineal. Los investigadores incluyen
una gran cantidad de variables en su anlisis de regresin
en un esfuerzo por eliminar factores que pudieran producir
correlaciones espurias. En el caso del tabaquismo, los
investigadores incluyeron el estado socio-econmico para
asegurarse que los efectos de mortalidad por tabaquismo
no sean un efecto de su educacin o posicin econmica.
No obstante, es imposible incluir todas las variables
posibles en un estudio de regresin. En el ejemplo del
tabaquismo, un hipottico gen podra aumentar la
mortalidad y aumentar la propensin a adquirir
enfermedades relacionadas con el consumo de tabaco. Por
esta razn, en la actualidad las pruebas controladas
aleatorias son consideradas mucho ms confiables que los
anlisis de regresin.
INFORMATICA:
Ejemplo de una rutina que utiliza una recta de regresin lineal para proyectar un valor futuro: Cdigo escrito en PHP
<?php
//Licencia: GNU/GPL
$xarray=array(1, 2, 3, 4, 5 ); //Dias
$yarray=array(5, 5, 5, 6.8, 9); //Porcentaje de ejecucion
$pm=100; //Valor futuro
$x2=0;
$y=0;
$x=0;
$xy=0;
$cantidad=count($xarray);
for($i=0;$i<$cantidad;$i++){
//Tabla de datos
print ($xarray[$i]." ---- ".$yarray[$i]."<br>");
//Calculo de terminos
$x2 += $xarray[$i]*$xarray[$i]; $y += $yarray[$i];
$x += $xarray[$i];
$xy += $xarray[$i]*$yarray[$i];
}
//Coeficiente parcial de regresion
$b=($cantidad*$xy-$x*$y)/($cantidad*$x2-$x*$x);
//Calculo del intercepto $a=($y-$b*$x)/$cantidad;
//Recta tendencial //y=a+bx
//Proyeccion en dias para un 100% de la ejecucion:
if ($b!=0) $dias_proyectados=($pm-$a)/$b;
else $dias_proyectados=999999; //Infinitos
$dp=round($dias_proyectados,0);
if($dp<=$pm) print $dp."---> Culmina antes de los $pm dias <br>";
if($dp >$pm) print $dp ."---> ALARMA: No culmina antes de los $pm dias <br>";
?>
La regresin es muy utilizada para interpretar
situaciones reales, pero comnmente se hace de
mala forma, por lo cual es necesario realizar
una seleccin adecuada de las variables que van a
construir las ecuaciones de la regresin, ya que
tomar variables que no tengan relacin en la
prctica, nos arrojar un modelo carente de
sentido, es decir ilgico.
Segn sea la dispersin de los datos (nube de
puntos) en el plano cartesiano, pueden darse
alguna de las siguientes relaciones, Lineal,
Logartmica, Exponencial, Cuadrtica, entre otras.
Las ecuaciones de cada relacin se presentan en
la siguiente tabla.
ECUACIONES DE REGRESION:
REGRESIN ECUACIN

Lineal y = A + Bx

Logartmica y = A + BLn(x)

Exponencial y = Ae(Bx)

Cuadrtica y = A + Bx +Cx2
Sin embargo obtener el modelo de regresin no
es suficiente para establecer la regresin, ya que
es necesario evaluar que tan adecuado es el
modelo de regresin obtenido. Para esto se hace
uso del coeficiente de correlacin R, el cual mide
el grado de relacin existente entre las variables.
El valor de R varia entre -1 y 1, pero en la prctica
se trabaja con el valor absoluto de R, entonces, a
medida que R se aproxime a 1, ms grande es el
grado de correlacin entre los datos, de acuerdo
con esto el coeficiente de correlacin se puede
clasificar de varias formas, como se observa en la
Tabla 2.
Clasificacin del grado de correlacin.
CORRELACIN VALOR O RANGO
Perfecta |R| = 1
Excelente 0.9 <= |R| < 1
Buena 0.8 <= |R| < 0.9
Regular 0.5 <= |R| <0.8
Mala |R|< 0.5

Por lo tanto el anlisis de regresin es una herramienta estadstica que


permite analizar y predecir o estimar observaciones futuras de dos o ms
variables relacionadas entre s, es decir una herramienta til para
la planeacin.
Representamos en un grfico los pares de valores de una distribucin bidimensional: la variable "x"
en el eje horizontal o eje de abcisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos
que la nube de puntos sigue una tendencia lineal:
El coeficiente de correlacin lineal nos
permite determinar si, efectivamente, existe
relacin entre las dos variables. Una vez que
se concluye que s existe relacin,
la regresin nos permite definir la recta que
mejor se ajusta a esta nube de puntos.
Una recta viene definida por la siguiente frmula:

y = a + bx

Donde "y" sera la variable dependiente, es decir, aquella


que viene definida a partir de la otra variable "x" (variable
independiente). Para definir la recta hay que determinar
los valores de los parmetros "a" y "b":
El parmetro "a" es el valor que toma la variable
dependiente "y", cuando la variable independiente "x"
vale 0, y es el punto donde la recta cruza el eje vertical.
El parmetro "b" determina la pendiente de la recta, su
grado de inclinacin.
La regresin lineal nos permite calcular el valor de estos
dos parmetros, definiendo la recta que mejor se ajusta a
esta nube de puntos.
El parmetro a" viene determinado por la
siguiente frmula:

a=
2

Es la covarianza de las dos variables, dividida


por la varianza de la variable "x".
El parmetro b" viene determinado por:

b = y - (a * x)

Es la media de la variable "y", menos la


media de la variable "x" multiplicada por el
parmetro a" que hemos calculado.
METODO DE LOS MINIMOS CUADRADOS:

Mnimos cuadrados es una tcnica de anlisis numrico


enmarcada dentro de la optimizacin matemtica, en la
que, dados un conjunto de pares ordenados: variable
independiente, variable dependiente, y una familia de
funciones, se intenta encontrar la funcin continua,
dentro de dicha familia, que mejor se aproxime a los
datos (un "mejor ajuste"), de acuerdo con el criterio de
mnimo error cuadrtico.
APLICACIN DE REGRESION LINEAL:




() 2
b= =1 =1 =1
(=1 ) 2 ()2
=1



=1
a= =1 =1
2

=1()2 ( )
=1

Vous aimerez peut-être aussi