Vous êtes sur la page 1sur 17

CLASE: REGRESIN LINEAL

DOCENTE M.E. MARCO ANTONIO SSOL MORGADO

REGRESIN LINEAL
Antes de definir el trmino de regresin, revisaremos la notacin matemtica elemental para describir la relacin entre dos variables x y y. La expresin: y = f(x) (1) Indica que la variable y es funcin de la variable x. Se entiende por funcin una regla que asocia cada posible valor de x con un solo valor de y. Una vez que se especifica la naturaleza de la funcin, se puede calcular el valor de y para cualquier valor dado de x. Como la funcin describe a y en trmino de x, se dice que y es la variable dependiente, y x, la independiente. As, se puede escribir en (1) como sigue: Variable dependiente = f (variable independiente) En este tipo de funcin se considera que el valor de la variable dependiente y depende del valor de la otra variable X.

Cuando una funcin toma la forma: y = bx + a (2)

Tenemos la ecuacin de una recta bajo la forma pendiente-intercepcin con Y, donde y es la variable dependiente (la caracterstica que se describir a partir de x); x, la variable independiente (la caracterstica con base en la cual se describir y); b es la pendiente de la recta e indica el promedio de unidades que cambia la variable dependiente por cada unidad que vara la independiente; y a es la intercepcin con Y (el valor de y en que la recta intercepta al eje Y); se trata de un valor contante que dista a unidades del origen.

Ejemplo: Sea la ecuacin lineal y = 3x 2 Por convencin, para representar grficamente una ecuacin como esta se destina al eje X para los valores de la variable independiente, y el Y para los de la dependiente. Recordemos que para que una recta quede definida en el plano, son suficientes dos puntos cualesquiera de ella. As en nuestro ejemplo, cuando x = 0, y = -2; y cuando x = 2, y = 4. La recta aparece a continuacin:
Observando la figura 4.1.1, se comprueba que la recta y = 3x 2 tiene una pendiente b = 3, lo que significa que aumenta 3 unidades por cada unidad que aumenta x, y una intercepcin con Y igual a -2 (a = -2), es decir, la recta intercepta al eje vertical a una distancia de -2 unidades del origen. Una recta como y = -x + 5 tiene pendiente igual a -1 (b=-1) y corta al eje Y a 5 unidades por arriba del origen (a=5). El valor negativo de la pendiente quiere decir que la variable dependiente y va a caer o disminuir una unidad por cada unidad que aumenta la variable independiente x.

Figura 4.1.1

El breve anlisis del ejemplo 4.1 evidencia que la ecuacin de una recta es un modo sencillo de expresar la relacin entre dos variables. De su lectura se puede concluir lo siguiente: 1. La relacin puede ser directa o inversa. Directa, si la pendiente es positiva; inversa, si la pendiente es negativa. 2. La pendiente de la recta seala el nmero de unidades en que se modifica la variable dependiente por cada unidad que vara la independiente. 3. Tiene un significado en el que la variable independiente sea nula. Dicho significado est dado por el valor de la intercepcin con Y Concluido lo anterior, debe quedar claro que las relaciones que se dan en la sociedad y en la naturaleza no tienen la sencillez de una recta lineal. Sin embargo, la ecuacin lineal simple y = bx + a encuentran muchas aplicaciones, por lo siguiente: a) Muchas de las relaciones observadas son, en esencia, lineales. b) Ecuaciones como la descrita dan una buena aproximacin, dentro de ciertos rangos, de relaciones complejas. c) Muchas relaciones complejas pueden describirse mediante ecuaciones lineales, despus de redefinir las variables, por ejemplo, tomando logaritmos de una de las variables o de ambas.

El estudio de la relacin observada entre variables recibe el nombre de anlisis de regresin.

Cabe aclarar que la relacin entre variables, cuando se da, puede ser curvilnea. Sin embargo, nos limitaremos al anlisis de la relacin descriptible por la ecuacin de la lnea recta bajo la forma y=bx + a. Este tipo de anlisis se conoce como regresin lineal simple. Su objetivo se puede enunciar as: dado un conjunto de datos pertenecientes a dos variables, determinar los mejores valores de b y a que describan y como una funcin lineal de x.
Ahora bien, la relacin entre dos variables da origen a datos bivariados, cada uno de los cuales se representa por un punto en el plano.

Consideremos ahora esta cuestin: Se podra predecir la calificacin de un estudiante en cierta asignatura a partir de la calificacin que l hubiese alcanzado previamente en otra asignatura afn? Predecir, digamos, la calificacin en estadstica a partir de la obtenida en matemticas? Esta pregunta requiere de un anlisis que lleve a una expresin que relacione la calificacin en estadstica en funcin de las matemticas: Calificacin en estadstica = f(calificacin en matemticas)

Lo primero que necesitamos es una muestra de estudiantes con calificaciones en ambas asignaturas.

El primer paso hacia el anlisis de regresin de estas variables es trazar unos ejes coordenados y hacer la representacin de los puntos formados por cada pareja de datos bivariados (xi, yi). El diagrama resultante forma un diagrama de dispersin.
La tendencia general del diagrama (fig.4.1.2) pone de manifiesto que cuantos mayores son las calificaciones en matemticas, tambin son mayores las de estadstica, pero, siendo datos reales, de ninguna manera guardan una relacin perfecta. Se puede, sin embargo, pensar que los puntos se dispersan alrededor de una recta imaginaria que va del extremo inferior izquierdo al extremo superior derecho. Este tipo de descripcin mediante una lnea recta se conoce como regresin lineal simple de las calificaciones de estadstica sobre la base de las matemticas.
FIG. 4.1.2

El anlisis de regresin lineal simple es un mtodo para determinar los valores de b y a, es decir, de la pendiente de la recta y de intercepcin con Y, de modo que se pueda plantear la ecuacin de la recta que describa mejor los datos y trazarla en el plano.
Para obtener la recta del mejor ajuste, llamada as por lo dicho en el prrafo anterior, se cuenta con varios procedimientos, desde el visual hasta los del clculo, pero el mejor es el de los cuadrados mnimos.

Se dice que el valor y descrito por la recta del mejor ajuste, conocida tambin como recta de los cuadrados mnimos, en virtud del mtodo utilizado, es el valor ajustado , de modo que para cada elemento de la muestra el valor observado de la variable dependiente es yi y el valor ajustado, . El valor ajustado , que corresponde a un valor particular de x, representa el valor promedio de y para ese valor de x, segn la ecuacin de regresin. Cualquier dato particular (xi, yi) puede tener un valor observado yi que est por arriba o por debajo del promedio de los datos en ese valor particular de x. La diferencia entre el valor observado yi y el ajustado , descrito por la recta recibe el nombre de error de estimacin.

Error de estimacin = valor observado valor ajustad

yi

Lo anterior se ilustra en la figura 4.1.3 para dos puntos de un diagrama de dispersin.

FIG.4.1.3

As cada valor observado YI est formado por un valor ajustado por va de clculo ms de un error de estimacin.
Ahora bien, el criterio que conduce a la recta del mejor ajuste usa la sumatoria de los errores cuadrticos de la estimacin:
D = (3)

Que se llama criterio de los cuadrados mnimos. La esencia de este mtodo consiste en elegir la recta de valores ajustado que minimice el criterio de los cuadrados mnimos. Para el caso de regresin lineal simple se elige la recta de valores ajustados.
= bx + a (4)
De manera de resultado de la expresin (3) sea el ms pequeo posible. En trminos de la figura 4.1.3, el mtodo mencionado implica hallar una recta tal que la sumatoria de los cuadrados de las desviaciones de los valores observados de y, desde los puntos hasta la recta (distancia vertical), sea la mnima posible. Es decir, se

trata de que D =

sea mnimo.

Si sustituimos (4) en (3) tendremos:


D= (5)

La ecuacin (5) pone de manifiesto que la sumatoria de los errores cuadrticos, D, depende de los nmeros a y b que definen la recta. Ntese que xi y yi son nmeros conocidos, es decir, son los datos observados; en consecuencia, (5) solo depende de a y b. Por lo tanto, la recta del mejor ajuste o resta de los cuadrados mnimos se limita a encontrar los valores de a y b para los cuales D sea mnimo.

Mediante mtodo de clculo diferencial, o de lgebra elemental inclusive, se puede probar que los valores que satisfacen esa condicin estn dados por

(6)

(7) a= Calculados los valores de a y b, se sustituyen en (4), resultando con ello la ecuacin buscada. Comprendida la explicacin del mtodo de los cuadrados mnimos para la obtencin de la recta del mejor ajuste, su aplicacin resulta relativamente sencilla. Vemoslo con un ejemplo.

Comprendida la explicacin del mtodo de los cuadrados mnimos para la obtencin de la recta del mejor ajuste, su aplicacin resulta relativamente sencilla. Vemoslo con un ejemplo. Efectuemos el anlisis de regresin lineal simple para los datos de calificaciones de estadstica (Y) y de matemticas (x) dados en la tabla 4.1.1 Solucin: Observando las expresiones (6) Y (7) nos damos cuenta que lo conveniente es llenar primero una tabla con los datos y operaciones que produzcan los trminos que aparecen en (6) y (7). Esa tabla puede ser lo siguiente:

INTREPRETACIN DE LA ECUACIN DE REGRESIN LINEAL SIMPLE Una ecuacin de regresin lineal simple sirve para predecir, con cierta aproximacin, los valores de la variable dependiente en funcin de la independiente. En otras palabras, sirve para estimar los valores reales de y. Qu calificaciones en estadstica esperaramos obtener de los estudiantes que en matemticas hubiesen sacado 8? La respuesta se obtiene sustituyendo x = 8 en la ecuacin de regresin hallada en el ejemplo.

y = 0.63x + 1.9 = 0.63 (8) + 1.9 = 5.04 + 1.9 = 6.94 y=7


FIGURA 4.1.4

Vous aimerez peut-être aussi