Académique Documents
Professionnel Documents
Culture Documents
1.1 La regresin y
Introduccin La correlacin.
Analizan las relaciones entre dos variables para predecir eventos futuros. que se pueden utilizar para solucionar problemas comunes en los negocios. Y depende de X En el modelo de regresin.
Y = f(X)
[1.1]
Variable dependiente Y.
Es la variable que se desea explicar o predecir, variable de respuesta. La variable que se pronostica o estima. La variable independiente X.
Tambin se le denomina variable explicativa
Proporciona la base para estimacin. Es la variable preeditora .se utiliza para explicar Y. Diagrama de dispersin: grfica que describe la relacin entre las dos variables de inters.
Se desea analizar la relacin entre las notas de los estudiantes y el tiempo que pasan estudiando. Se recolectaron datos sobre ambas variables.
Es lgico presumir que las notas dependen de la cantidad de tiempo que los estudiantes pasan estudiando.
Se le denomina regresin bivariada porque slo hay dos variables, una dependiente y una independiente,
[1.2]
En donde (X1, X2, X3, ., Xk son variables independientes que permiten explicar Y.
Diagramas de dispersin
Los diagramas de dispersin ayudan a ilustrar lo que muestran los datos sin procesar.
Muestran la apariencia de una relacin entre X y Y
10 9 8 7 6 5 4 3 2 1 0
0 1 2 3 4 5 X 6 7 8 9 10
Relacin Curvilnea
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 X 6 7 8 9 10
Sin Relacin
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 X 6 7 8 9 10
1.2
Ecuacin de la recta
En donde b0 es el intercepto y b1 es la pendiente de la recta. Una relacin como esta es una descripcin inadecuada de la realidad. Es decir no cabe esperar una relacin lineal perfecta entre las variables X e Y, por lo que introducimos una variable aleatoria (la letra griega epsilon)
Y 0 1 X
Ello modificacin la naturaleza del modelo Por tanto mientras que Y = b0+ 1 X era determinista El modelo (1.4) es de naturaleza probabilstica
[1. 4]
Los parmetros 0 y 1, permanecern desconocidos y se pueden estimar slo con los datos mustrales.
Un modelo lineal con base en datos muestrales
Y = b0 + b1 X +
[1.5]
= b0 + b1 X Y
(que se lee como Y sombrero)
[1.6]
Mes 1 2 3 4 5
Ventas Publicidad (X US $ 1000) (X US $ 100) Us $450 380 540 500 420 US $50 40 65 55 45
se obtienen mediante la recta de regresin y Los valores Y representan el estimado de las ventas.
Esta recta est determinada mediante la estimacin de b0 y b1. un procedimiento matemtico utilizado para estimar esos valores se denomina mnimos cuadrados ordinarios (MCO),
Figura 1.1
es el error.
[1.7]
Debido a que algunos errores son negativos y positivos. MCO producir una recta tal que la suma de errores sea cero:
) 0 ( Y Y i i
La suma de errores al
cuadrado se minimiza
2 ) ( Y Y min i i
[1.8]
produce una recta tal que la suma de los errores al cuadrado es menor de lo que sera con cualquier otra recta.
El mtodo MCO utiliza varias formas de calculo que llegan a los mismos resultados
La pendiente b1 de la recta de regresin, llamada el coeficiente de regresin y el intercepto b0,
Los parmetros 0 y 1,son desconocidos por lo tanto son los que se van a estimar con los datos mustrales. Utilizaremos el mtodo Suma de cuadrados ordinario Sumas de cuadrados y los productos cruzados
La pendiente de la recta de regresin
b1
SCxy SCx
[1.9]
b0 Y b1 X
[1.10]
SCx
( X
2
X )
(
2 2
X ) n
2
[1.11]
SCy
Y
2
(Y
Y ) (
Y ) n
[1.12]
SCxy
( X i X )( Y i Y )
( X )( Y ) n
[1.13]
XY
SCxy ( X i X )(Yi Y )
Ilustran cmo la recta MCO realmente se basa en las desviaciones de las observaciones a partir de su media.
Se recolectaron los valores mensuales por gastos de publicidad y nmero de pasajeros para los n = 15 meses ms recientes. Los datos aparecen en la tabla 1.2, Determinar el modelo de regresin por MCO para ver si esta relacin
existe Coeficiente de regresin y el intercepto
b bX Y 0 1
150 204 104 391 160 315 140 280 456 170 176 234 368 150 192 3.490
100 144 65 289 100 225 100 196 361 100 121 169 256 100 144 2.469
225 289 169 529 256 441 196 400 576 289 256 324 529 225 256 4.960
SCx X
2
( X ) 2
SCy Y 2 ( Y)
SCy Y
2
( Y ) 2
SCx y
XY -
( X )( Y )
b1
Y 268 Y 17 .86667 n 15
X X n 187 12 .46667 15
1.08
Yi 4.40 1.08 X i
El modelo de regresin
1.-El centro de ubicacin laboral en una universidad desea determinar si los promedios puntuales en notas de los estudiantes puede explicar el nmero de ofertas laborales que ellos reciben despus de graduarse. Los datos siguientes corresponden a los 10 recin graduados.
Estudiante Promedios Ofertas 1 3.25 3 2 2.35 3 3 1.02 1 4 0.36 0 5 3.69 5 6 2.65 4 7 2.15 2 8 1.25 2 9 3.88 6 10 3.37 2
2.- Un economista del Departamento de Recursos Humanos est preparando un estudio sobre el comportamiento del consumidor. l recolect los datos que aparecen en miles de dlares para determinar si existe una relacin entre el ingreso del consumidor y los niveles de consumo. Determine cul es la variable dependiente.
Consumidor Ingreso Consumo 1 24.3 16.2 2 12.5 8.5 3 31.2 15 4 28.0 17 5 35.1 24.2 6 10.5 11.2 7 23.2 15 8 10.0 7.1 9 8.5 3.5 10 15.9 11.5 11 14.7 10.7 12 15 9.2
a. Haga un diagrama de dispersin para los datos. b. Calcule e interprete el modelo de regresin. Qu le dice este modelo sobre la relacin entre el consumo y el ingreso? Qu proporcin de cada dlar adicional que se gana se invierte en consumo?
3.- Un banco que se especializa en crditos para vivienda intenta analizar el mercado de finca raz, midiendo el poder explicativo que las tasas de inters tienen sobre el nmero de casas vendidas en el rea. Se compilaron los datos para un periodo de 10 meses, as:
Mes Inters Casas 1 12.3 196 2 10.5 285 3 15.6 125 4 9.5 225 5 10.5 248 6 9.3 303 7 8.7 255 8 14.2 102 9 15.2 105 10 12 114
4.- Una empresa produce partes para camin que se utilizan en los
semirremolques. El jefe de contabilidad desea desarrollar un modelo de regresin que pueda utilizarse para predecir los costos. El selecciona unidades de produccin fabricadas como una variable de prediccin y
recolecta los datos que se observan aqu. Los costos estn en miles de
dlares y las unidades en cientos.
Unidades Costo 12.3 6.2 8.3 5.3 6.5 4.1 4.8 4.4 14.6 5.2 14.6 4.8 14.6 5.9 6.5 4.2
a. Haga un diagrama de dispersin para los datos. b. Calcule e interprete el modelo de regresin. Qu le dice este modelo sobre la relacin entre produccin y costos? c. Segn el modelo, Cunto costara producir 750 unidades?
5.- El profesor ha anotado que muchos de sus estudiantes se han ausentado de clase este semestre, considera que puede explicar esta falta de asistencia por las distancias a las que sus estudiantes viven del campus. Se prctica una encuesta a once estudiantes sobre cuantas millas deben viajar para asistir a clase y el nmero de clases a las que han faltado.
Millas
Ausencias
5
2
6
2
2
4
0
5
9
4
12
2
16
5
5
2
7
3
0
1
8
4
a. Haga un diagrama de dispersin para los datos. b. Compare e interprete el modelo de regresin Qu determina el profesor? c. A cuantas clases faltara usted si viviera a 3.2 millas del campus, segn el modelo?
Refirindonos al primero Mide el grado de dispersin de los valores Yi alrededor de la recta de regresin.
Refleja la tendencia a desviarse del valor real de Y cuando se utiliza el modelo de regresin para fines predicativos. En este sentido, es una medida del error tpico.
Si la recta de regresin pasara por cada uno de los puntos. No se presentarn errores en los pronsticos, y el error estndar de estimacin sera cero
Usualmente habr alguna dispersin en los datos
Figura 1.7
Diagramas de dispersin posibles
El error estndar de estimacin mide esta variacin promedio de los puntos de datos alrededor de la recta de regresin Y Proporciona una medida del error que se presentari en dicha estimacin.
Se
2 ( Y Y ) i i
n2
[1.15]
Uno de los supuestos bsicos del modelo MCO es que la varianza en los errores alrededor de la recta de regresin es la misma para todos los valores de X. Entre menor sea el valor de 2, menor ser la dispersin Debido a que 2 es un parmetro, permanecer desconocida, y es necesario estimar su valor con los datos mustrales. Una estimacin insesgada de 2 es el cuadrado medio del error (CME)
La suma de cuadrados
del error
[1.16]
En un modelo de regresin simple, se imponen dos restricciones en el conjunto de datos, debido a que se deben estimar dos parmetros, 0 y 1.
Por tanto hay n 2 grados de libertad y CME es:
Cuadrado medio del error
SCE CME n2
Se CME
[1.18]
150 204 104 391 160 315 140 280 456 170 176 234 368 150 192 3.490
100 144 65 289 100 225 100 196 361 100 121 169 256 100 144 2.469
225 289 169 529 256 441 196 400 576 289 256 324 529 225 256 4.960
SCx X
2
( X ) 2
SCy Y 2 ( Y)
SCy Y
2
( Y ) 2
SCx y
XY -
( X )( Y )
( SC (SC
2 )2
SC x
(148.9333) 2 171.7333 - (148.9333) 171.7333 - 137 . 7333 137 . 7333 10.6893 CME 10.6893 10.6893 15 CME - 2 0.82226 15 - 2
10.6893
Se
0.82226 0.82226
Se 0.90678 0.82226 o
0.907
0.90678
o 0.907
Proporciona una medida cuantificable de que tan bien se ajusta el modelo a los datos que se han recolectado.
El error estndar siempre se expresa en las mismas unidades que la variable dependiente Y, en este caso miles de pasajeros. Por tanto, el error estndar de 0.907, o 907 pasajeros mide la variabilidad de los valores Y alrededor de la recta de regresin. En anlisis de regresin se tienen dos variables, X y Y. el error estndar de estimacin es una medida de dispersin de los valores Y alrededor de su media, dado un valor X especfico. Como el error estndar de estimacin es similar a la desviacin estndar para una sola variable, puede interpretarse similarmente.
En el ejemplo actual, en donde X = 10.
El objetivo del anlisis de correlacin consiste en determinar que tan intensa es la relacin entre dos variables Es decir qu tan bueno es el mejor ajuste.
.
SCR SCT
[1.22]
Se observa precisamente lo que r est midiendo. La porcin que regresin SCR. est explicada por el modelo de
Con relacin al monto total de la desviacin alrededor de Y , SCT, Como raz cuadrada de SCR/SCT, el coeficiente de correlacin proporciona una medida relativa Por ende mide la fuerza de la relacin entre Y y la variable explicativa X.
Forma de calcular
el coeficiente de correlacin
[1.23]
En nuestro l caso
Esto indica una relacin positiva fuerte entre los pasajeros y la cantidad de dinero invertido en fines publicitarios.
El coeficiente de determinacin r2
Es otra medida la ms importante de la bondad de ajuste se halla.
Coeficiente de
determinacin
r2
[1.24]
[1.25]
Proporciona una medida de bondad de ajuste porque revela que porcentaje del cambio en Y se explica por un cambio en X.
Como se puede esperar, r2 puede determinarse ms fcil, simplemente elevando al cuadrado el coeficiente de correlacin r. r2 = (0.9683)2 = 0.94
Adicionalmente, se debe tener cuidado de no utilizar el modelo de regresin para predecir Y para valores de X que estn fuera del rango del conjunto original de datos.
Figura 1.15
Posible relacin X Y
r 0.93776 o 0.94
2
SCx X
2
( X )
SCx X
2
( X )
SCE SCy
(SC xy ) 2 SC x
2
SCxy SCx
148.933333
137 . 733333
1.0813166 1.08
SCx X
2
( X ) 2
SCy Y 2 ( Y)
SCy Y
2
( Y ) 2
SCx y
XY -
( X )( Y )
SCx X 2
( X ) 2
SCy Y 2 ( Y)
SCy Y
2
( Y ) 2
SCx y
XY -
( X )( Y )
( SC (SC
22 ) )
(148.9333) 2 171.7333 - (148.9333) 171.7333 - 137 . 7333 137 . 7333 10.6893 CME 10.6893 10.6893 15 CME - 2 0.8222615 - 2
10.6893
Se
0.82226 0.82226
0.90678 Se 0.82226o
0.907
0.90678
o 0.907
Proporciona una medida cuantificable de que tan bien se ajusta el modelo a los datos que se han recolectado.
( SC (SC
22 ) )
(148.9333) 2 171.7333 - (148.9333) 171.7333 - 137 . 7333 137 . 7333 10.6893 CME 10.6893 10.6893 15 CME - 2 0.8222615 - 2
10.6893
Se
0.82226 0.82226
0.90678 Se 0.82226o
0.907
0.90678
o 0.907
Forma de calcular
el coeficiente de correlacin
[1.23]
SCxy SCx
148.933333
137 . 733333
1.0813166 1.08
4.40 1.08 X Y i i
Observaciones ( meses ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Sumatoria Promedio
15,19941917 17,36205227 13,03678606 22,76863504 15,19941917 20,60600194 15,19941917 19,52468538 24,93126815 15,19941917 16,28073572 18,44336883 21,68731849 15,19941917 17,36205227