Académique Documents
Professionnel Documents
Culture Documents
La razón que lleva a explicar una variable mediante otra es que una de ellas puede ser
de fácil observación o controlable, por lo que resultaría sencillo obtener alguno de sus
valores, en tanto que para la otra la obtención de observaciones puede ser una tarea más
compleja o económicamente desventajosa. Los siguientes ejemplos ilustran estas ideas.
En la mayoría de los casos la relación entre las variables es mutua y es difícil saber qué
variable influye sobre la otra. Por ejemplo a un viaje poco valorado le supondremos
menor precio y a uno de mayor precio lo supondremos más valorado. Es decir, se puede
admitir que cada variable influye sobre la otra de forma natural y por igual .Un ejemplo
más claro donde distinguir entre variable explicativa y explicada es aquel donde se sabe
cuál es la variable Causa y cuál es la variable Efecto. Por ejemplo, el gasto en
publicidad que hace una red hotelera autónoma en promoción turística y la demanda
turística que finalmente tiene. En este caso, un pequeño gasto en publicidad tenderá a
obtener una demanda más baja, y una demanda más alta nos indicará que tal vez la red
hotelera, de la cual hablamos, ha gastado mucho.
Para este tipo de análisis la información disponible es un conjunto de pares de valores.
La primera componente de cada par es un valor de la variable independiente y la
segunda es la correspondiente observación de la variable dependiente. El siguiente
ejemplo es susceptible de ser tratado con esta metodología.
X 2 3 4 5 6
Y 3 3 4 6 6
7
6
5
Rendimiento
4
3
2
1
0
0 2 4 6 8
Número de ensayos
Si hubiera razones previas para suponer que la relación entre las variable es
lineal, los puntos del diagrama aparecerían cerca de una recta. Si se trata de
explorar para encontrar un tipo de relación el diagrama de dispersión hace un
primer aporte a la búsqueda. En ambos casos habrá que determinar la ecuación
de una curva Y = f(X) que describa de la mejor manera posible la relación entre
las variables. El gráfico siguiente, que corresponde a los datos del ejemplo,
muestra los puntos próximos a una recta.
Evaluación del aprendizaje
7
6
5
Rendimiento
4
3
2
1
0
0 2 4 6 8
Número de ensayos
El hecho de que los puntos no estén alineados indica que la relación lineal no es
perfecta. Pero esto no es un inconveniente; la relación que buscamos no es
determinista, es decir, el valor de X no determina unívocamente a Y sino que
habrá una componente aleatoria, llamada perturbación y designada por la letra
griega ε. La expresión del modelo, en el caso de elegir una recta para describir la
relación, será entonces:
Y = A + BX + ε
Relación funcional :Y = A + BX
Componente aleatoria: ε
E(Y/X) = A + BX
Ŷ = a + bX
ŷ = a + bx
n. ∑ x . y − ∑ x . ∑ y − −
b= a = y - bx
n. ∑ x 2 − (∑ x ) 2
− −
donde x es el promedio de los valores de X utilizados e y es la media de las
observaciones de Y
X Y X2 XY Y²
2 3 4 6 9
3 3 9 9 9
4 4 16 16 16
5 6 25 30 36
6 6 36 36 36
20 22 90 97 106
− −
20 22
Es x = =4 , y= = 4,4 luego
5 5
n. ∑ x . y − ∑ x . ∑ y 5 * 97 - 20 * 22
b= = = 0,9
n. ∑ x 2 − (∑ x ) 2
5 * 90 - 20 2
− −
a = y - b x = 4,4 - 0,9*4 =0,8
Cabe preguntarse sobre el criterio usado para obtener las fórmulas de cálculo de los
coeficientes de la recta de regresión muestral. El criterio utilizado es el de los mínimos
cuadrados. De acuerdo con este criterio la suma de los residuos cuadráticos respecto de
la recta de regresión muestral es menor que la suma de los residuos cuadráticos respecto
de cualquier otra recta. Ese mínimo para el ejemplo desarrollado es 1,10 como se puede
apreciar en el cuadro anterior. Esta suma mínima de residuos cuadráticos tiene cierta
importancia en el análisis por lo que se la destaca con un nombre propio. Es la suma de
cuadrados residual y se nota SC res .
SC res = ∑ (Y − Yˆ )²
Así se tiene que la dispersión total de los valores de Y alrededor de su media es la suma
de dos componentes. La fracción de la dispersión total explicada por el modelo está
dada por el cociente
SC exp
r² =
SCtot
r2 = 0.88
Una medida de dispersión que puede interesar para el análisis es el desvío estándar
residual. Se define como:
SCres
S res =
n−2
Esta medida se interpreta como una suerte de promedio de las diferencias Y - Ŷ en valor
absoluto. Un buen ajuste del modelo a los datos producirá diferencias pequeñas y por lo
tanto un S res pequeño que indicará poca dispersión de los valores observados de Y
respecto de la recta de regresión.
Realizando los cálculos matemáticos del álgebra, se llega a la siguiente fórmula:
∑Y − a ∑ Yi − b∑ X i Yi
2
i
S res = i i i
n−2
r=
(∑ x).(∑ y)
n. ∑ ( x. y ) −
n∑ x − (∑ x ) . n. ∑ y − (∑ y )
2 2
2 2
Su valor está comprendido entre -1 y 1 (-1 ≤ r ≤ 1). El signo de r coincide con el signo
de b y el cuadrado de r es el coeficiente de determinación. Los valores extremos indican
asociación perfecta. Un r positivo (r>0) es signo de asociación directa, esto es que
valores bajos de X se asocian con valores bajos de Y y valores altos de X se asocian con
valores altos de Y. Un r negativo (r<0) es signo de asociación inversa, esto es que
valores bajos de X se asocian con valores altos de Y y valores altos de X se asocian con
valores bajos de Y. Un r = 0 indica ausencia de asociación lineal entre las variables.
Cuanto más cerca este r de los valores extremos (-1 y 1) más intensa es la asociación.
5*97 − 20 *22
r= = 0,938
5 * 9 − 20 2 . 5 * 106 − 22 2 .
Este r = 0,938 indica que hay una fuerte asociación lineal directa entre el número de
ensayos y el rendimiento en la prueba.
Otros modelos pueden ser útiles para predecir el valor de una variable Y a partir de una
variable controlada X. Se deja constancia de dos de ellos. En uno de ellos la relación
funcional es una función exponencial,
Y = K AX
En el otro es una función cuadrática,
Y = AX2 + BX + C
Paso 1: Ingrese los datos de las variables en la planilla de cálculo excel, por ejemplo
X: (supongamos en el rango:A2.: A15)
Y: (supongamos en el rango:B2.: B15
Paso 2: Seleccione del menú desplegable Herramientas
Paso 3: Seleccione la opción Análisis de datos
Paso 4:Cuando aparezca el cuadro de diálogo Regresión:
A B
1 Nro de latas Tiempo de entrega
2 2 9.95
3 8 24.2
4 11 31.75
5 10 30
6 8 25.02
7 4 16.86
8 2 14.38
9 2 9.6
10 9 24.35
11 7 22
12 8 18
13 9 20
14 11 30
15 10 25
Ejemplo:
Un ingeniero investiga la distribución de latas de cerveza y las operaciones del servicio
de ruta para máquinas expendedoras. Se supone que el tiempo requerido para cargar una
máquina expendedora se relaciona con el número de latas entregadas del producto. Se
selecciona una muestra aleatoria de 14 entregas y se dispone de los datos de tiempo de
entrega en minutos (Y) y el número de latas entregadas (X)
X 2 8 11 10 8 4 2 2 9 7 8 9 11 10
Y 9.95 24.2 31.7 35 25.0 16.8 14.3 9.6 24.3 22 18 20 30 25
5 2 6 8 5
REGRESIÓN
LINEAL
1.A partir de los siguientes datos que hacen referencia al precio del billete de ida y
vuelta y la valoración del vuelo que han realizado un conjunto de pasajeros que
tomaron el vuelo a Bariloche – Buenos aires un mismo día , calcular :
a) La recta de regresión. B) el coeficiente de correlación. c) Interpretar los resultados
obtenidos.
Precio 175 180 162 157 180 173 171 168 165 165
Valor 80 82 57 63 78 65 66 67 62 58
2
Rta;a) Y=-102,71+1,005x b)r=0,8456; r =0,715
2. Supongamos que la siguiente tabla indica el precio por noche de una habitación
individual y la puntuación recibida por seis hoteles de Córdoba durante el mes de enero
de 2006:
Precio 36 48 51 54 57 60
Puntuación 86 90 91 93 94 95
a)Encontrar la recta de regresión.
b)Calcular el coeficiente de determinación e interpretar el resultado .c) Interpretar los
resultados obtenidos.
Rta:a)Y=71,95 +0,383 x b)r2 =0,99
3- Una importante agencia de viajes quiere realizar un estudio entre el aumento en sus
gastos de publicidad y el incremento en sus ventas, La siguiente tabla muestra los
resultados obtenidos mediante una muestra:
%Aumento 0 11 9 8 6 7 10
en
publicidad
%Aumento 2 8 7 9 3 5 11
en ventas
a)Dibuje la nube de puntos ó diagrama de dispersión.. b) Encuentre el coeficiente de
correlación lineal e interprete el resultado. c)Calcule la recta de regresión lineal.
Interprete el resultado.
d)Haga una previsión sobre el aumento de las ventas en el caso de que la publicidad se
aumente un 15%. e)Encuentre el coeficiente de determinación e interprete el resultado
obtenido.
Rta: b)r=0,817; r2=0,668; c)Y=1,095+0,73x ;e) yˆ = 12,075%
4- Los siguientes datos reflejan la relación entre el precio de la habitación diaria en
euros y el número de estrellas de varios hoteles de una determinada cadena hotelera en
el verano:
Y=Precio 120 90 40 20
X=Número 5 4 2 1
de estrellas
a) Determine la recata de regresión lineal. b)Encuentre el coeficiente de correlación
lineal.
c)Estime el valor del precio para un hotel de 3 estrellas .d)Interprete los resultados
obtenidos.
Rta. a) yˆ = −7,5 + 25 x ;b) r = 0,998; r 2 = 0,996 ;c) yˆ = 67,5
5-Las calificaciones obtenidas por nueve alumnos de Administración Hotelera, en la
primera (X) y en la segunda (Y) evaluación de Empleo aparecen en la siguiente tabla.
X 4 6 8 5 6 2 5 7 6
Y 5 4 6 7 5 3 7 8 7
6- Para determinar la relación entre las horas de estudio y el rendimiento en un examen se llevó a cabo un experimento con los
siguientes resultados:
7-.Las cifras siguientes son datos sobre el porcentaje de las llantas radiales producidas
por cierto fabricante que aún pueden usarse después de recorrer cierto número de
kilómetros.
Kilómetros recorridos (miles) 1.6 3.2 8.0 16.0 32.0 48.0 64.0 80.0
Porcentaje útil 98.2 91.7 81.3 64.0 36.4 32.6 17.1 11.3
a)Obtenga el diagrama de dispersión
b)Suponga que el porcentaje útil decrece exponencialmente con el aumento del
kilometraje recorrido y obtenga la expresión de la función que expresa esa relación.
c)Estime, para los valores que se indican a continuación, qué porcentaje de las llantas
radiales durarán al menos esa cantidad de kilómetros.
a) Utilice estos datos para obtener una ecuación de regresión lineal con la que se
pueda predecir el costo total para determinado volumen de producción.
b) Realice el diagrama de dispersión correspondiente.
c) ¿Cuál es el costo variable, o costo adicional, por una unidad producida?
d) Calcule el coeficiente de determinación. ¿Qué porcentaje de la variación en el
costo total puede explicar la variación en el volumen de producción?
e) ¿Cuál es el valor del costo estimado para un volumen de producción de 500
unidades?
f) Analice los resultados obtenidos en los ítems anteriores para explicar el tipo de
relación que hay entre las variables consideradas.
10- Una empresa determinada reúne datos acerca de la cantidad de familias que
sintonizan un determinado anuncio de publicidad.
Los siguientes datos muestran la cantidad de familias espectadoras en millones y la
cantidad de veces que se pasó el anuncio durante una semana del 27 de octubre al 2
de noviembre.
Veces que 49 42 30 26 31 20 21 24 1 19
se pasó el
anuncio 5
359,6 296,1 271,6 251,1 229,2 186,9 186,3 172,7 166 162,1
Familias
espectadoras
G: 40 20 25 20 30 50 40 20 50 40 25 50
V: 385 400 395 365 475 440 490 420 560 525 480 510