Vous êtes sur la page 1sur 16

REGRESIÓN LINEAL

El Análisis de Regresión, en una versión simple, es una metodología estadística que


permite analizar la relación entre una variable Y (dependiente, explicada, respuesta ó
endógena) y otra variable X (independiente, explicativa , factor ó exógena). El objetivo
del análisis es obtener un modelo apropiado para pronosticar la variable Y a partir del
valor que toma la variable X o simplemente demostrar una relación propuesta entre
ellas. Así es posible hacer un:
• Análisis confirmatorio. Demostrar la validez de una relación previamente
estipulada y, eventualmente, estimar algunas constantes involucradas en la
relación -los parámetros del modelo-.
• Análisis exploratorio. Encontrar entre las muchas relaciones posibles que
pueden vincular a las variables la que resulte satisfactoria para el problema en
estudio.

La razón que lleva a explicar una variable mediante otra es que una de ellas puede ser
de fácil observación o controlable, por lo que resultaría sencillo obtener alguno de sus
valores, en tanto que para la otra la obtención de observaciones puede ser una tarea más
compleja o económicamente desventajosa. Los siguientes ejemplos ilustran estas ideas.

Variable dependiente Y Variable independiente X


Días de ausentismo por año de un empleado Edad en años del empleado
Ventas mensuales de un producto Precio del producto cada mes
Nivel de estrés de un gerente Cantidad de empleados que supervisa
Demanda diaria de gas en una ciudad Pronóstico de la temperatura
Precio valor

En la mayoría de los casos la relación entre las variables es mutua y es difícil saber qué
variable influye sobre la otra. Por ejemplo a un viaje poco valorado le supondremos
menor precio y a uno de mayor precio lo supondremos más valorado. Es decir, se puede
admitir que cada variable influye sobre la otra de forma natural y por igual .Un ejemplo
más claro donde distinguir entre variable explicativa y explicada es aquel donde se sabe
cuál es la variable Causa y cuál es la variable Efecto. Por ejemplo, el gasto en
publicidad que hace una red hotelera autónoma en promoción turística y la demanda
turística que finalmente tiene. En este caso, un pequeño gasto en publicidad tenderá a
obtener una demanda más baja, y una demanda más alta nos indicará que tal vez la red
hotelera, de la cual hablamos, ha gastado mucho.
Para este tipo de análisis la información disponible es un conjunto de pares de valores.
La primera componente de cada par es un valor de la variable independiente y la
segunda es la correspondiente observación de la variable dependiente. El siguiente
ejemplo es susceptible de ser tratado con esta metodología.

Ejemplo. La adquisición de un determinado conocimiento se logra por la realización


de una tarea especialmente diseñada a ese efecto. Un alumno puede repetir la tarea una
o más veces. Cada repetición constituye un ensayo. Luego del período de aprendizaje el
alumno es evaluado por medio de una prueba estándar. Un investigador sostiene que el
rendimiento mejora con la repetición de la tarea. Para verificarlo solicitó a cada uno de
cinco alumnos que hiciera un número dado de ensayos. Los resultados se muestran en la
tabla que sigue. X es el número de ensayos e Y, la respuesta, es la puntuación obtenida
en la prueba, cuyos valores no necesariamente son enteros.

X 2 3 4 5 6
Y 3 3 4 6 6

Siempre es conveniente graficar la información disponible. Cada par de valores se


considera que son las coordenadas de un punto en un sistema de ejes cartesianos
ortogonales. Los puntos así determinados conforman una nube denominada diagrama
de dispersión. Con los datos del ejemplo se obtiene el siguiente diagrama:

Evaluación del aprendizaje

7
6
5
Rendimiento

4
3
2
1
0
0 2 4 6 8
Número de ensayos

Si hubiera razones previas para suponer que la relación entre las variable es
lineal, los puntos del diagrama aparecerían cerca de una recta. Si se trata de
explorar para encontrar un tipo de relación el diagrama de dispersión hace un
primer aporte a la búsqueda. En ambos casos habrá que determinar la ecuación
de una curva Y = f(X) que describa de la mejor manera posible la relación entre
las variables. El gráfico siguiente, que corresponde a los datos del ejemplo,
muestra los puntos próximos a una recta.
Evaluación del aprendizaje

7
6
5
Rendimiento
4
3
2
1
0
0 2 4 6 8
Número de ensayos

El hecho de que los puntos no estén alineados indica que la relación lineal no es
perfecta. Pero esto no es un inconveniente; la relación que buscamos no es
determinista, es decir, el valor de X no determina unívocamente a Y sino que
habrá una componente aleatoria, llamada perturbación y designada por la letra
griega ε. La expresión del modelo, en el caso de elegir una recta para describir la
relación, será entonces:
Y = A + BX + ε

La naturaleza de ambas variables involucradas no es la misma. En muchos casos la


variable X no es aleatoria, sus valores son seleccionados ex profeso. En otros ocasiones,
si bien X puede ser aleatoria, el valor de Y se considera dado X. Esto significa que
como el valor observado de X se conoce, se lo trata como un parámetro y se pronostica
Y como variable aleatoria con distribución condicional al valor de X observado. Se
denomina a X variable controlada. La variable Y es aleatoria, este carácter se reconoce
en el modelo dado por la perturbación ε.
La relación entre las variables se describe con dos componentes, una de ellas expresada
por la relación funcional (en el caso del ejemplo la ecuación de la recta) y otra es la
componente aleatoria llamada perturbación.

Relación funcional :Y = A + BX
Componente aleatoria: ε

La recta de ecuación Y = A + BX se denomina recta de regresión poblacional.


Forma parte del modelo que pretende describir a la totalidad de los pares de
valores de las variables (X;Y). Se interpreta que esta relación funcional provee la
media de la variable Y para cada valor de X o esperanza de Y dado X que se
designa también E(Y/X).
En el ejemplo la esperanza de Y dado X es la puntuación media que obtendrían
en la prueba todos alumnos si realizaran la misma cantidad X de ensayos. El
modelo supone que la esperanza de Y dado X es una función lineal de la variable
X, o sea

E(Y/X) = A + BX

Se designa con a al estimador de A y con b al de B. Estos estimadores intervienen en la


formulación de la función predictora

Ŷ = a + bX

La expresión anterior es la ecuación de una recta. Como se indicará los coeficientes se


obtienen a partir de los valores observados de ambas variables, es decir a partir de la
muestra. Esta recta se denomina recta de regresión muestral. Sobre un punto muestral
de coordenadas (x;y) se tiene

ŷ = a + bx

La diferencia ε̂ = y - ŷ se denomina residuo y es la estimación de la perturbación ε


correspondiente al valor x.
Para calcular la ordenada al origen a y la pendiente b de la recta de regresión muestral
se pueden utilizar las fórmulas siguientes:

n. ∑ x . y − ∑ x . ∑ y − −
b= a = y - bx
n. ∑ x 2 − (∑ x ) 2

− −
donde x es el promedio de los valores de X utilizados e y es la media de las
observaciones de Y

El siguiente cuadro facilita los cálculos e ilustra el uso de las fórmulas:

X Y X2 XY Y²
2 3 4 6 9
3 3 9 9 9
4 4 16 16 16
5 6 25 30 36
6 6 36 36 36
20 22 90 97 106

− −
20 22
Es x = =4 , y= = 4,4 luego
5 5
n. ∑ x . y − ∑ x . ∑ y 5 * 97 - 20 * 22
b= = = 0,9
n. ∑ x 2 − (∑ x ) 2
5 * 90 - 20 2

− −
a = y - b x = 4,4 - 0,9*4 =0,8

La ecuación de la recta de regresión muestral es entonces Ŷ = 0,8 + 0,9X. Los valores


de Ŷ calculados con esta ecuación para cada valor de X dado aparecen en el cuadro
siguiente.

Rendimiento Predicción Residuo Residuo


N° de ensayos cuadrático
X Y Ŷ ε̂ = Y - Ŷ ε̂ ²
2 3 0,8+0.9*2 = 2,6 3 - 2,6 = 0,4 0,16
3 3 0,8+0.9*3 = 3,5 3 - 3,5 = - 0,5 0,25
4 4 0,8+0.9*4 = 4,4 4 - 4,4 = - 0,4 0,16
5 6 0,8+0.9*5 = 5,3 6 - 5,3 = 0,7 0,49
6 6 0,8+0.9*6 = 6,2 6 - 6,2 = - 0,2 0,04
20 22 0 1,10

Cabe preguntarse sobre el criterio usado para obtener las fórmulas de cálculo de los
coeficientes de la recta de regresión muestral. El criterio utilizado es el de los mínimos
cuadrados. De acuerdo con este criterio la suma de los residuos cuadráticos respecto de
la recta de regresión muestral es menor que la suma de los residuos cuadráticos respecto
de cualquier otra recta. Ese mínimo para el ejemplo desarrollado es 1,10 como se puede
apreciar en el cuadro anterior. Esta suma mínima de residuos cuadráticos tiene cierta
importancia en el análisis por lo que se la destaca con un nombre propio. Es la suma de
cuadrados residual y se nota SC res .

SC res = ∑ (Y − Yˆ )²

La SCres refleja la dispersión de los valores observados de la variable Y respecto de la


recta de regresión. En cambio la suma de cuadrados total, denotada por SCtot , refleja la

dispersión de los valores observados de la variable Y respecto de su media Y .
.
SC tot = ∑ ( Y − Y )²

La suma de cuadrados explicada por la regresión, simbolizada con SC exp , se obtiene


reemplazando en la SC tot los valores observados de Y por los valores de Ŷ producidos
por la ecuación de regresión. Luego esta suma de cuadrados da cuenta de la dispersión

de los valores de Ŷ respecto de la media Y .

SC exp = ∑ (Yˆ − Y)²


Con alguna habilidad algebraica es posible llegar a la siguiente igualdad:

SC tot = SC exp + SC res

Así se tiene que la dispersión total de los valores de Y alrededor de su media es la suma
de dos componentes. La fracción de la dispersión total explicada por el modelo está
dada por el cociente

SC exp
r² =
SCtot

El coeficiente r² se denomina coeficiente de determinación y su valor siempre estará


comprendido entre 0 y 1. Cuanto más cercano a 1 esté r² mejor será el ajuste del
modelo a los datos.
Un valor alto de r² implica la existencia de una relación entre X e Y, pero no
demuestra que haya una relación causa-efecto. Este análisis sólo prueba que hay una
relación entre las variables que incluso puede obedecer a razones ajenas a ellas pero no
puede asegurar que X es causa de Y o que Y es causa de X.

El coeficiente de determinación del ejemplo es:

r2 = 0.88

Preguntar “¿por qué los alumnos evaluados muestran diferentes rendimientos?” es


preguntar sobre la dispersión de los valores observados de la variable Y. El 88 % de
esa dispersión se explica por la relación con X. Hay diferentes valores de Y porque se
corresponden con diferentes valores de X (número de ensayos). Pero esto no explica
todo, el 12 % de la dispersión que la regresión no alcanza a explicar es debido a la
componente aleatoria.

Una medida de dispersión que puede interesar para el análisis es el desvío estándar
residual. Se define como:
SCres
S res =
n−2
Esta medida se interpreta como una suerte de promedio de las diferencias Y - Ŷ en valor
absoluto. Un buen ajuste del modelo a los datos producirá diferencias pequeñas y por lo
tanto un S res pequeño que indicará poca dispersión de los valores observados de Y
respecto de la recta de regresión.
Realizando los cálculos matemáticos del álgebra, se llega a la siguiente fórmula:

∑Y − a ∑ Yi − b∑ X i Yi
2
i
S res = i i i

n−2

En el ejemplo tratado resulta:


1.10
S res = = 0.606
3
El coeficiente r de correlación es una medida de la asociación lineal entre las dos
variables. Su cálculo se hace mediante la fórmula:

r=
(∑ x).(∑ y)
n. ∑ ( x. y ) −

n∑ x − (∑ x ) . n. ∑ y − (∑ y )
2 2
2 2

Su valor está comprendido entre -1 y 1 (-1 ≤ r ≤ 1). El signo de r coincide con el signo
de b y el cuadrado de r es el coeficiente de determinación. Los valores extremos indican
asociación perfecta. Un r positivo (r>0) es signo de asociación directa, esto es que
valores bajos de X se asocian con valores bajos de Y y valores altos de X se asocian con
valores altos de Y. Un r negativo (r<0) es signo de asociación inversa, esto es que
valores bajos de X se asocian con valores altos de Y y valores altos de X se asocian con
valores bajos de Y. Un r = 0 indica ausencia de asociación lineal entre las variables.
Cuanto más cerca este r de los valores extremos (-1 y 1) más intensa es la asociación.

En el ejemplo desarrollado el coeficiente de correlación es

5*97 − 20 *22
r= = 0,938
5 * 9 − 20 2 . 5 * 106 − 22 2 .

Este r = 0,938 indica que hay una fuerte asociación lineal directa entre el número de
ensayos y el rendimiento en la prueba.

Obtenida la ecuación de la recta de regresión muestral se puede proceder a hacer


predicciones. Si con los datos del ejemplo quisiéramos predecir el rendimiento en la
prueba de un alumno que hizo 7 ensayos calcularíamos el valor de Ŷ haciendo X = 7 en
la ecuación.

ŷ = 0,8 + 0,9*7 = 7,1

Esperamos de este alumno un rendimiento de 7,1 puntos.

Otros modelos pueden ser útiles para predecir el valor de una variable Y a partir de una
variable controlada X. Se deja constancia de dos de ellos. En uno de ellos la relación
funcional es una función exponencial,
Y = K AX
En el otro es una función cuadrática,

Y = AX2 + BX + C

El lector podrá imaginar algunos más.


Análisis de Regresión y Correlación con Excel.

Paso 1: Ingrese los datos de las variables en la planilla de cálculo excel, por ejemplo
X: (supongamos en el rango:A2.: A15)
Y: (supongamos en el rango:B2.: B15
Paso 2: Seleccione del menú desplegable Herramientas
Paso 3: Seleccione la opción Análisis de datos
Paso 4:Cuando aparezca el cuadro de diálogo Regresión:

Teclee B2 : B15 en el cuadro Rango Y de entrada


Teclee A2 : A15 en el cuadro Rango X de entrada
Teclee A18 en el cuadro Rango de salida
(También se puede aceptar cualquier celda que vaya a ser la superior izquierda donde
comiencen los resultados)
Seleccione Aceptar para obtener el análisis de regresión.

A B
1 Nro de latas Tiempo de entrega
2 2 9.95
3 8 24.2
4 11 31.75
5 10 30
6 8 25.02
7 4 16.86
8 2 14.38
9 2 9.6
10 9 24.35
11 7 22
12 8 18
13 9 20
14 11 30
15 10 25

Ejemplo:
Un ingeniero investiga la distribución de latas de cerveza y las operaciones del servicio
de ruta para máquinas expendedoras. Se supone que el tiempo requerido para cargar una
máquina expendedora se relaciona con el número de latas entregadas del producto. Se
selecciona una muestra aleatoria de 14 entregas y se dispone de los datos de tiempo de
entrega en minutos (Y) y el número de latas entregadas (X)

X 2 8 11 10 8 4 2 2 9 7 8 9 11 10
Y 9.95 24.2 31.7 35 25.0 16.8 14.3 9.6 24.3 22 18 20 30 25
5 2 6 8 5

a)Dibuje un diagrama de dispersión apropiado a este modelo.


b)Estime el coeficiente de correlación muestral
c)¿Qué porcentaje de la variabilidad total del tiempo de entrega está explicado
por el número de latas.
d)Realice un pequeño informe con los resultados obtenidos.
TRABAJO PRÁCTICO Nº2

REGRESIÓN
LINEAL
1.A partir de los siguientes datos que hacen referencia al precio del billete de ida y
vuelta y la valoración del vuelo que han realizado un conjunto de pasajeros que
tomaron el vuelo a Bariloche – Buenos aires un mismo día , calcular :
a) La recta de regresión. B) el coeficiente de correlación. c) Interpretar los resultados
obtenidos.
Precio 175 180 162 157 180 173 171 168 165 165
Valor 80 82 57 63 78 65 66 67 62 58
2
Rta;a) Y=-102,71+1,005x b)r=0,8456; r =0,715
2. Supongamos que la siguiente tabla indica el precio por noche de una habitación
individual y la puntuación recibida por seis hoteles de Córdoba durante el mes de enero
de 2006:
Precio 36 48 51 54 57 60
Puntuación 86 90 91 93 94 95
a)Encontrar la recta de regresión.
b)Calcular el coeficiente de determinación e interpretar el resultado .c) Interpretar los
resultados obtenidos.
Rta:a)Y=71,95 +0,383 x b)r2 =0,99
3- Una importante agencia de viajes quiere realizar un estudio entre el aumento en sus
gastos de publicidad y el incremento en sus ventas, La siguiente tabla muestra los
resultados obtenidos mediante una muestra:
%Aumento 0 11 9 8 6 7 10
en
publicidad
%Aumento 2 8 7 9 3 5 11
en ventas
a)Dibuje la nube de puntos ó diagrama de dispersión.. b) Encuentre el coeficiente de
correlación lineal e interprete el resultado. c)Calcule la recta de regresión lineal.
Interprete el resultado.
d)Haga una previsión sobre el aumento de las ventas en el caso de que la publicidad se
aumente un 15%. e)Encuentre el coeficiente de determinación e interprete el resultado
obtenido.
Rta: b)r=0,817; r2=0,668; c)Y=1,095+0,73x ;e) yˆ = 12,075%
4- Los siguientes datos reflejan la relación entre el precio de la habitación diaria en
euros y el número de estrellas de varios hoteles de una determinada cadena hotelera en
el verano:

Y=Precio 120 90 40 20
X=Número 5 4 2 1
de estrellas
a) Determine la recata de regresión lineal. b)Encuentre el coeficiente de correlación
lineal.
c)Estime el valor del precio para un hotel de 3 estrellas .d)Interprete los resultados
obtenidos.
Rta. a) yˆ = −7,5 + 25 x ;b) r = 0,998; r 2 = 0,996 ;c) yˆ = 67,5
5-Las calificaciones obtenidas por nueve alumnos de Administración Hotelera, en la
primera (X) y en la segunda (Y) evaluación de Empleo aparecen en la siguiente tabla.

X 4 6 8 5 6 2 5 7 6
Y 5 4 6 7 5 3 7 8 7

a)Represente gráficamente estos datos.


b)Halle la ecuación de la recta de regresión muestral de Y sobre X.
c)Exprese el grado de correlación entre las notas de las dos evaluaciones con un
coeficiente adecuado.
d) ¿Cuál será la calificación. en la segunda evaluación de los alumnos que obtuvieron
en la primera las notas 7.8 6.3 4.0 5.5 8.1?

6- Para determinar la relación entre las horas de estudio y el rendimiento en un examen se llevó a cabo un experimento con los
siguientes resultados:

Cantidad de horas de estudio 2 3 5 8 10 11


Nota obtenida en el examen 1 3 4 6 7 8

a)Halle la ecuación de la recta de regresión muestral y dibuje la recta sobre el diagrama


de dispersión. En el mismo gráfico muestre la ecuación de regresión lineal. Encuentre el
coeficiente de determinación, e interprete los resultados obtenidos.
b)¿Qué calificaciones predice el modelo para alumnos que estudian 4, 6, 7, 9 y 10
horas?
c)¿Qué el sugiere el valor de r² obtenido?

7-.Las cifras siguientes son datos sobre el porcentaje de las llantas radiales producidas
por cierto fabricante que aún pueden usarse después de recorrer cierto número de
kilómetros.

Kilómetros recorridos (miles) 1.6 3.2 8.0 16.0 32.0 48.0 64.0 80.0
Porcentaje útil 98.2 91.7 81.3 64.0 36.4 32.6 17.1 11.3
a)Obtenga el diagrama de dispersión
b)Suponga que el porcentaje útil decrece exponencialmente con el aumento del
kilometraje recorrido y obtenga la expresión de la función que expresa esa relación.
c)Estime, para los valores que se indican a continuación, qué porcentaje de las llantas
radiales durarán al menos esa cantidad de kilómetros.

11,2 40,0 51,2 73,6


8. Una aplicación importante del análisis de regresión en contabilidad es para estimar
los costos. Se tienen los datos sobre el volumen de producción y el costo total para una
operación de manufactura.

Volumen de producción (unidades) 400 450 550 600 700 750


Costo total (dólares) 4000 5000 5400 5900 6400 7000

a) Utilice estos datos para obtener una ecuación de regresión lineal con la que se
pueda predecir el costo total para determinado volumen de producción.
b) Realice el diagrama de dispersión correspondiente.
c) ¿Cuál es el costo variable, o costo adicional, por una unidad producida?
d) Calcule el coeficiente de determinación. ¿Qué porcentaje de la variación en el
costo total puede explicar la variación en el volumen de producción?
e) ¿Cuál es el valor del costo estimado para un volumen de producción de 500
unidades?
f) Analice los resultados obtenidos en los ítems anteriores para explicar el tipo de
relación que hay entre las variables consideradas.

9. Los siguientes datos corresponden a los sueldos mensuales en dólares, Y, y


promedios de calificaciones, X para estudiantes que obtuvieron su licenciatura en
administración, con especializaciones en Sistemas de Información: Nota: La nota
máxima es 5(cinco).

Calificación 2,6 3,4 3,6 3,2 3,5 2,9


Sueldo mensual 3300 3600 4000 3500 3900 3600

a) Obtenga la recta de regresión y exprese el significado de sus parámetros.


b) Realice el diagrama de dispersión correspondiente.
c) Estime el sueldo correspondiente a una calificación de 3 puntos.
d) Calcule el coeficiente de determinación. ¿Qué porcentaje de la variación en el
sueldo promedio está explicada por la variación en la calificación?
e) Obtenga el error residual y explique su significado.
f) Explique el significado del coeficiente de correlación lineal en el contexto del análisis
de correlación. Tenga en cuenta tanto su valor absoluto como su signo
g) Analice los resultados obtenidos en los ítems anteriores para explicar el tipo de
relación que hay entre las variables consideradas.

10- Una empresa determinada reúne datos acerca de la cantidad de familias que
sintonizan un determinado anuncio de publicidad.
Los siguientes datos muestran la cantidad de familias espectadoras en millones y la
cantidad de veces que se pasó el anuncio durante una semana del 27 de octubre al 2
de noviembre.
Veces que 49 42 30 26 31 20 21 24 1 19
se pasó el
anuncio 5
359,6 296,1 271,6 251,1 229,2 186,9 186,3 172,7 166 162,1
Familias
espectadoras

a)Halle los coeficientes de la recta de regresión muestral y explique el significado de los


valores obtenidos.
b)Realice el diagrama de dispersión.
c)¿ Se obtuvo un buen ajuste con la ecuación de regresión? Explique Por qué?
d)Determine la cantidad promedio de las familias espectadoras para un anuncio que se
pasó 35 veces.
e) Calcule el coeficiente de determinación y exprese su significado en función de las
variables elegidas.
f)Obtenga el error residual y explique su significado.
g)Analice los resultados obtenidos en los ítems anteriores para explicar el tipo de
relación que hay entre las variables consideradas.
11- Un gerente de una empresa de venta de paquetes turísticos llevó a cabo un estudio
para determinar la relación entre los gastos de publicidad semanal y las ventas. Obtuvo
los siguientes datos:

G: 40 20 25 20 30 50 40 20 50 40 25 50
V: 385 400 395 365 475 440 490 420 560 525 480 510

a)Encuentre la ecuación de la recta de regresión para predecir las ventas semanales


resultantes de los gastos de publicidad.
b)Estime las ventas semanales esperadas cuando los gastos de publicidad ascienden a
$35.
c)Calcule el coeficiente de determinación e interprételo en términos del problema.
d)Explique el significado del coeficiente de correlación lineal en el contexto del
análisis de correlación. Tenga en cuenta tanto su valor absoluto como su signo.

Vous aimerez peut-être aussi