Vous êtes sur la page 1sur 16

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES

ESTADISTICA

REGRESIÓN Y CORRELACIÓN LINEAL

AUTOR: Camilo H. Cohecha Torres. Licenciado en Matemáticas. Ingeniero de


Sistemas.

TEMA: Regresión y correlación lineal.

LOGROS:

Determinar y aplicar el modelo de regresión lineal en la predicción de valores.


Aplicar la regresión lineal para el pronóstico en series de tiempo.
Usar Excel en el modelo de regresión y correlación lineal.

CONDUCTA DE ENTRADA:

1. Dada la función f(x) = 8 – 5 x


a. Identificar la pendiente.
b. Identificar el intercepto con el eje y.
c. Realizar la gráfica.

2. Realizar un gráfico de una función lineal para cada una de las siguientes
condiciones:
a. Pendiente positiva.
b. Pendiente negativa.
c. Pendiente igual a cero.

CRITERIOS DE EVALUACIÓN:

En la parte final de la guía encuentras una serie de ejercicios, los cuales se evalúan por parte del
docente junto con la temática, a la semana siguiente de la realización de esta en una estructura
similar a la presentada.

TIEMPO DE EJECUCIÓN:

La guía se realiza en una sesión de clase. En la siguiente clase entregará al docente los ejercicios
propuestos y en la clase de la semana siguiente el docente la evalúa.

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

TEMATICA:

REGRESIÓN Y CORRELACIÓN LINEAL

Si se dispone de dos series de datos emparejadas, con frecuencia se desea


conocer si ambas variables están relacionadas o si son independientes. Por
ejemplo, ¿en qué medida, un aumento de los gastos en publicidad hace aumentar
las ventas de un determinado producto? ó ¿será que existe alguna relación entre
la talla y el peso de una persona?

A continuación, representaremos la relación entre dos variables mediante una


gráfica llamada diagrama de dispersión, luego, estableceremos un modelo
matemático para estimar el valor de una variable basándonos en el valor de otra,
en lo que llamaremos análisis de regresión y finalmente estudiaremos el grado de
relación existente entre las variables en lo que llamaremos análisis de correlación.

La relación existente entre dos variables puede ser lineal, cuadrática,


exponencial, logarítmica, etc. En este documento vamos a centrarnos en la
posible relación lineal entre dos variables.

DIAGRAMA DE DISPERSIÓN

En un plano cartesiano se representan tantos


puntos como pares de observaciones se tengan,
correspondiendo cada punto a un par de
observaciones; a esta representación gráfica se le
denomina indistintamente diagrama de
esparcimiento o nube de puntos.
RECTA DE REGRESIÓN

Se llama así a la recta que atraviesa la nube de puntos y que mejor se ajusta a
ellos. El modelo matemático que describe una relación lineal cuando se estima el
valor de Y en función de x esta dada así, Y = bx + c ó Y = 1x + 0, o Y = Bx
+ A. (Esta última notación es la empleada en las calculadoras CASIO)

Donde:

Y es la variable que se va a estimar en función de otra variable (x) que se supone


conocida. Se le denomina también como variable dependiente, explicada o
predictando.

x es la variable cuyo valor supuestamente se conoce, se le denomina variable


independiente, predictor o explicativa.
¡Toma el camino de los mejores, toma el camino de los Libertadores!
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

b = 1 es la pendiente o sea la que determina el ángulo de inclinación de la recta.


Denominada coeficiente angular, cuantificando la cantidad que aumenta o decrece
Y por cada unidad que aumente o disminuya la variable independiente x.

El coeficiente angular puede representarse así:

b>0 b < 0 b=0

EJEMPLOS:

Si b es positivo indica que la recta es ascendente. Si b es negativo la recta será


descendente y si b es igual a cero será una paralela al eje horizontal.

c = 0, corresponde al coeficiente de posición. Es el valor donde la recta


intercepta al eje Y. Puede ser mayor, menor o igual a 0.

Se debe encontrar la línea que represente al conjunto de puntos, para lograr esto
se deben determinar los coeficientes de regresión muestrales (Coeficiente angular
y de posición) que son estimadores de los parámetros o coeficientes de regresión
poblacional. Los valores de b y c corresponden a aquellos que hacen que los Yi
sean lo más cercanos posibles a los valores observados yi, para determinarlos lo
más indicado es aplicar el método de los mínimos cuadrados.

CRITERIO DE LOS MÍNIMOS CUADRADOS:

En el método de los mínimos cuadrados se emplean los datos de la muestra para


determinar los valores de b y c que minimizan la suma de los cuadrados de las
desviaciones entre los valores observados de la variable dependiente yi, y los
valores estimados de la variable dependiente, Yi. Este criterio se puede expresar
así:

Mín ( yi – Yi)2
Siendo
yi = valor observado de la variable dependiente para la i-ésima observación.
Yi = valor estimado de la variable dependiente para la i-ésima observación.

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

Aplicando el cálculo diferencial se puede demostrar que los valores de b y c que


minimizan la anterior expresión se pueden determinar con las siguientes
ecuaciones:

x y
x y 
i i
i i
b n
 xi 2
 xi  n
2

c  y  bx

El valor de b, se puede obtener mediante otras fórmulas, la consulta de las cuales se deja como ejercicio.

PREDICCIÓN:

Uno de los fines al obtener la ecuación de regresión es el poder emplearla para


predecir el valor de y para determinado valor de x. Se debe tener precaución al
aplicar la ecuación de regresión para hacer predicciones fuera del intervalo de
valores de la variable independiente, porque fuera de él no se puede asegurar que
sea válida la misma relación.

En el análisis de correlación, se determina el grado de relación que puede haber


entre dos variables. Este grado de correlación lo obtenemos mediante el cálculo
del Coeficiente de correlación.

COEFICIENTE DE CORRELACIÓN:

Denominado coeficiente de correlación lineal de Pearson y simbolizado por r o R,


es una medida de interdependencia de dos variables aleatorias, y su valor oscila
entre –1 y +1.

Su cálculo se puede realizar mediante la aplicación de la siguiente fórmula:

m xy
r
sx s y

Donde:

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

m xy  cov arianza 
 xy  x y
n

sx 
 x2 i
x
2
n

sy 
 y2 i
y
2
n

El valor de r se aproxima a +1 cuando la correlación tiende a ser lineal directa


(mayores valores de x, significan mayores valores de y) y se aproxima a –1 cuando
la relación tiende a ser lineal inversa.

Si no hay correlación de ningún tipo entre dos variables aleatorias, entonces


tampoco habrá correlación lineal, por lo que r = 0. Sin embargo el que ocurra que
r= 0, sólo nos dice que no hay correlación lineal, pero puede que la haya de otro
tipo.

El siguiente diagrama resume el análisis del coeficiente de correlación entre dos


variables:

Correlación Correlación Ninguna Correlación Correlación


negativa negativa correlación positiva positiva
perfecta moderada moderada perfecta

0.5 1
–1 – 0.5 0

Correlación Correlación Correlación Correlación


negativa negativa positiva positiva
fuerte débil débil fuerte

COEFICIENTE DE DETERMINACIÓN:

Denominamos coeficiente de determinación R2 como el coeficiente que nos indica


el porcentaje del ajuste que se ha conseguido con el modelo lineal, es decir el
porcentaje de la variación de Y que se explica a través del modelo lineal que se ha
estimado, es decir a través del comportamiento de X. A mayor porcentaje mejor es
nuestro modelo para predecir el comportamiento de la variable Y.

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

También se puede entender este coeficiente de determinación como el porcentaje


de varianza explicada por la recta de regresión y su valor siempre estará entre 0 y
1 y es igual al cuadrado del coeficiente de correlación (r).

R2 = r2

Es una medida de la proximidad o de ajuste de la recta de regresión a la nube de


puntos. También se le denomina bondad del ajuste.

1 - R2 nos indica qué porcentaje de las variaciones no se explica a través del


modelo de regresión, es como si fuera la varianza inexplicada que es la varianza de
los residuos.

EJEMPLO:

Los siguientes datos fueron recopilados por un gerente de ventas y corresponden a


los años de experiencia y las ventas anuales de 5 de sus empleados:

Años de experiencia 6 12 15 21 24
Ventas anuales ($ 3 68 83 11 12
millones) 8 3 8

Tomamos los años de experiencia como variable independiente.


A continuación se presentan los cálculos necesarios para determinar la ecuación de regresión con
cuadrados mínimos.

vendedor i xi yi x i yi xi2 Yi2


1 6 38 228 36 1444
2 12 68 816 144 4624
3 15 83 1245 225 6889
4 21 113 2373 441 12769
5 24 128 3072 576 16384
Totales 78 430 7734 1422 42110

Aplicando la fórmula:

x y
x y 
i i
i i
b n
 xi 2
 xi  n
2

Se obtiene

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

(78)(430 )
7734 
b 5
(78) 2
1422 
5

b = 5.

El cálculo de la ordenada al origen (c) es el siguiente:

x
x i

78
 15.6
n 5

y
y i

430
 86
n 5

c  y  bx
= 86 – 5(15.6)
= 8.

Por lo anterior, la función estimada de regresión, deducida con el método de los


mínimos cuadrados, es
Y = 5X + 8

La pendiente de la función de regresión (b = 5) es positiva, lo cual implica que al


aumentar los años de experiencia, las ventas también aumentan. De hecho, en
este ejemplo, posemos llegar a la conclusión que las ventas aumenten en $ 5
millones por cada año de experiencia.

Si quisiéramos predecir el valor de las ventas anuales para un empleado que tiene
20 años de experiencia, el resultado sería:

Y = 5(20) + 8 = 108

En consecuencia, predeciríamos ventas anuales de 108 millones de pesos para este


empleado.

A continuación, se analizará si el modelo desarrollado si es el adecuado para


estimar y predecir.

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

Para hallar el coeficiente de correlación, se determinará primero la covarianza:

m xy  cov arianza 
 xy  x y
n

7734
mxy  cov arianza   (15.6)(86)  205.2
5

Se hallan las desviaciones típicas:

sx 
 x2 i
x
2

1422
 (15.6) 2  41.04
n 5

sy 
 y2 i 42110
y
2
 (86) 2  1026

n 5
Luego el coeficiente de correlación es

m xy 205 .2
r  1
sx s y 41.04 1026

En este caso se tiene que las dos variables x (años de experiencia) y y (Ventas
anuales) una relación lineal positiva perfecta. Esto es, todos los puntos de datos
están en una recta con pendiente positiva (5).

El coeficiente de determinación en este caso también es igual a 1. Expresándolo


de manera porcentual se tiene el 100%, lo cual significa que el 100% de la
variación en las ventas se puede explicar con la relación lineal entre la experiencia
y las ventas.

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

USO DE LA CALCULADORA EN LA REGRESIÓN LINEAL

Si se dispone de una calculadora casio fx-3500p ó fx-3600p se pueden ejecutar los


siguientes pasos, los cuales se van explicando tomando como modelo el ejemplo
resuelto:

1. Oprimir las teclas mode 2 y en la pantalla debe aparecer LR (Regresión


Lineal).

2. Con las teclas INV AC se borra la información que puede haber de trabajos
anteriores. Para constatar el borrado, oprimir las teclas KOUT 3 y debe
aparecer 0 en la pantalla. Si aparece otro número se repite el procedimiento.

3. Se introduce la información con la tecla [(... para la variable X, y con RUN


para la variable Y. Teniendo en cuenta que primero es X1, luego [(..., a
continuación Y1 RUN. Luego X2 [(... , Y2 RUN, y así sucesivamente. No debe
haber equivocación al introducir los datos.

4. Introducida la información se comprueba, en parte, si la operación fue


realizada correctamente oprimiendo KOUT 3, debe aparecer el número de
parejas introducidas, en este caso 5.

5. Con la tecla KOUT y las teclas (1, 2, 3, 4, 5, 6) se obtiene lo que aparece en


negrilla debajo de cada una de las teclas, así:
KOUT 1 = xi2 = 1422.
KOUT 2 = xi = 78.
KOUT 3 = n = 5.
KOUT 4 = yi2 = 42110.
KOUT 5 = yi = 430.
KOUT 6 =  xi yi = 7734.

6. Con la tecla INV y las teclas del 1 al 9 se obtiene lo que aparece señalado en rojo o
anaranjado debajo de cada tecla.
INV 1 = media de X = 15.6
INV 2 = nx = nS x = 6.41 (6.406246951). Corresponde a la desviación
típica, elevando al cuadrado se obtiene la varianza Sx2 = 41.04
INV 3 = n-1x = n-1S x = 7.16 (7.162401832)
INV 4 = media de Y = 86
INV 5 = ny = nS y = 32.03 (32.03123476). La varianza Sy2= 1026
INV 6 = n-1y = n-1S y = 35.81 (35.81200916).

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

El coeficiente de posición c se obtiene con INV 7 siendo igual a 8 y el


coeficiente angular b con INV 8 igual a 5, con lo cual se tiene la función
estimada de regresión Y = 5x + 8.

El coeficiente de correlación se obtiene con INV 9 siendo igual a 1.

APLICACIÓN DE EXCEL EN LA REGRESIÓN LINEAL

Excel dispone de funciones que permiten trabajar con coeficientes correlación, regresión y otros conceptos sobre variables
multidimensionales.

Para ver las funciones de la categoría Estadística, se hace clic sobre el icono
insertar función, fx, de la barra de fórmulas (o se elige la opción Insetar función
del menu Insertar), en la opción categoría de la función se elige Estadísticas,
presentándose todas las funciones de dicha categoría en el cuadro Nombre de la
función.

Para el ejemplo que venimos trabajando:

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

A B
1 xi yi
2 6 38
3 12 68
4 15 83
5 21 113
6 24 128

Si en el cuadro Nombre de la función hacemos clic sobre una función, por ejemplo
la función COEF.DE.CORREL, se obtiene el siguiente cuadro. Una vez completados
los argumentos (Variables X e Y) se obtiene el resultado en la parte inferior. Al
pulsar Aceptar, la fórmula y su resultado se insertan en la celda activa de la hoja
de cálculo.

A continuación, se presenta una relación de las funciones de Excel para correlación


y regresión, acompañada de los resultados para el ejemplo que venimos
trabajando para las variables X e Y de la hoja de cálculo cuyos valores ocupan los
rangos A2:A6 y B2:B6. Para algunas funciones se presenta la caja correspondiente.

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

FUNCIÓN VALOR QUE DEVUELVE RESULTADO EN EL


EJEMPLO
COVAR(X;Y) Devuelve la covarianza de x e y definida 205.2
por
COEF.DECORREL(X; Devuelve el coeficiente de correlación de 1
Y) x e y.

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

COEFICIENTE.R2(Y; Da el coeficnete de determinación de y en 1


X) x.
PENDIENTE(Y;X) Da la pendiente de la línea de regresión 5
de y sobre x. (Coeficiente angular)
INTERSECCION.EJE( Da la ordenada en el origen de la línea de 8
Y;X) regresión de y sobre x. (Coeficiente de
posición)
PRONOSTICO(x; Halla la predicción según la línea de Si x=20 entonces
Y;X) regresión de y sobre x para el valor k de y = 108
la variable independiente.

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

EJERCICIOS:

1. A continuación se presentan cinco observaciones de dos variables, X y Y.

xi 2 4 7 9 11
yi 24 30 31 36 40

a. Trace un diagrama de dispersión de datos.


b. ¿Que indica el diagrama trazado en el inciso a acerca de la relación entre
las dos variables?
c. Trate de aproximar la relación entre x y y.trazando una recta que pase por
los datos.
d. Forme la ecuación estimada de regresión calculando los valores de b y c.
e. Aplique la ecuación estimada de regresión para predecir el valor de y
cuando x = 6.

2. Se ha realizado una observación a cinco familias respecto a el número de


integrantes (x) y sus gastos mensuales (y) en agua en miles de pesos:

xi 2 5 7 8 10
yi 30 42 55 75 97

a. Hallar la recta de regresión.


b. ¿Cuanto se espera que gaste una familia si esta constituida por 6 personas?
c. Hallar el coeficiente de correlación y concluir.
d. Hallar el coeficiente de determinación y concluir.

3. Se dispone de 7 parejas de datos para los cuales se sabe:

n = 7
 x = 420,6
 y = 5958,7
 x y = 500073,09
 x 2 = 35119,7
 y 2 = 7213831,23

a. Hallar la recta de regresión.


b. Hallar el coeficiente de correlación y concluir.
c. Hallar el coeficiente de determinación y concluir.

4. En el semestre inmediatamente anterior el profesor de Estadística registro los


puntajes obtenidos por sus estudiantes en una prueba inicial (de conocimientos
elementales) y la nota definitiva en la materia en dicho semestre. Los
resultados fueron los siguientes

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

Estudiante 1 2 3 4 5 6 7 8 9 1
0
Puntaje Prueba inicial 3 4 2 4 2 2 3 3 4 1
9 3 1 7 5 2 5
Definitiva 3 3 2 4 2 3 3 3 3 2
5 7 9 2 9 1 3 2 6 5

a. Elabore el diagrama de dispersión.


b. Obtenga la ecuación de la recta de regresión.
c. Si un estudiante obtuvo en la prueba inicial 45, ¿cuál sería la nota
definitiva que se espera obtenga al final del semestre?
d. Si un estudiante obtuvo en definitiva 4.0, ¿qué edad puntaje habría
obtenido en la prueba inicial?

5. Nota: Use Excel o una calculadora para resolver el siguiente problema:


Una compañía que fabrica partes para maquinaria quiere desarrollar un modelo para estimar el
número de horas - trabajador requeridas para corridas de producción de lotes de diversos
tamaños. Se selecciona una muestra aleatoria de 18 corridas de producción (2 para cada
tamaño de lote de 10, 20, 30, 40, 50, 60, 70, 80 y 90) y se obtienen los siguientes resultados:

TAMAÑO DEL LOTE HORAS – TRABAJADOR TAMAÑO DEL LOTE HORAS – TRABAJADOR
10 30 50 112
10 40 60 128
20 50 60 135
20 55 70 148
30 73 70 160
30 67 80 170
40 87 80 162
40 95 90 180
50 108 90 190

a. Grafique el diagrama de dispersión.


b. Suponga una relación lineal y utilice al método de mínimos cuadrados para encontrar los
coeficientes de regresión A y B.
c. Interprete el significado de la ordenada A y la pendiente B en este problema.
d. Pronostique el número promedio de horas – trabajador requeridas para una corrida de
producción con un tamaño de lote de 45.
e. ¿Por qué no es adecuado predecir el número promedio de horas – trabajador para una
corrida de producción de un lote de tamaño 100? Explique.
f. Suponga que las horas – trabajador para el lote de tamaño 60 son 117 y 119. Resuelva
los incisos a. y d. con estos valores y compare los resultados.

¡Toma el camino de los mejores, toma el camino de los Libertadores!


FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
ESTADISTICA

BIBLIOGRAFIA:

ANDERSON, David. SWEENEY, Dennis. WILLIAMS, Thomas. Estadística para administración y


economía. México: Thomson, séptima edición. 1999.

BERENSON Mark. LEVINE David. KREHBIEL Timothy. Estadística para administración. México:
Prentice Hall, Segunda edición. 2000.

CHAO LINCOLN. Estadística para ciencias administrativas. Bogotá: Mc Graw Hill, tercera edición.
1993.

MARTINEZ Bencardino Ciro. Estadística y Muestreo. Bogotá: Ecoe ediciones,


décima edición. 2000.

SPIEGEK, Murray R. Teoría y problemas de Estadística. Bogotá: Mc Graw Hill.

MASSON y LIND. Estadística para administración y economía. Alfaomega.

PORTUS, Lincoyan. Curso práctico de estadística. Ed. Mc Graw Hill.

FREUND, John. Estadística Elemental. Ed Prentice Hall.

WALPONE y MYERS. Probabilidad y estadística. Ed. Mc Graw Hill.

¡Toma el camino de los mejores, toma el camino de los Libertadores!

Vous aimerez peut-être aussi