Académique Documents
Professionnel Documents
Culture Documents
RESPONSABLE: ING. VANESSA SALAZAR PRESENTADO POR: ADRIANA GUERRERO GUERRERO MAYRA NEIRA PERERO JOSELIN PINEDA GAMBOA I TRMINO 2012 GUAYAQUIL-ECUADOR
Tabla de contenido
I. II. III. IV. Regresin Lineal Simple .............................................................................................................. 3 Estimacin de los parmetros de la recta de regresin .......................................................... 3 Coeficiente de Correlacin ...................................................................................................... 4 Fuentes de variacin en la regresin lineal ............................................................................. 5 Coeficiente de determinacin ................................................................................................. 6 Tabla de anlisis para la varianza ............................................................................................ 6 Prueba de Dependencia Lineal del Modelo ............................................................................ 6 Estimacin de la varianza ........................................................................................................ 7 Intervalos de confianza ........................................................................................................... 7 Prueba de hiptesis ................................................................................................................. 8 Ejemplo.................................................................................................................................... 9 Regresin Lineal Mltiple .......................................................................................................... 12 Variables Independientes y Dependientes ........................................................................... 12 Supuestos para Hiptesis ...................................................................................................... 13 Estimacin de los parmetros por mnimos cuadrados ........................................................ 13 Varianza residual ................................................................................................................... 14 Contraste de regresin .......................................................................................................... 14 Coeficiente de determinacin R .......................................................................................... 15 Ejemplo.................................................................................................................................. 15 Errores que deben de evitarse .............................................................................................. 17 Caso prctico segn base de datos del INEC ............................................................................. Referencias Bibliogrficas .........................................................................................................
2
Una vez realizada la muestra, se dispondr de n pares de valores o puntos del plano (x1, y1), (x2, y2),..., (xn, yn). El mtodo de estimacin aplicable en regresin, denominado de los mnimos cuadrados, permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las estimaciones de los parmetros de la recta de regresin obtenidas con este procedimiento son:
( ( )( ) )
Coeficiente de Correlacin
El ms utilizado indicador de relaciones lineales entre dos variable e es el denominado Coeficiente de Correlacin Lineal cuyo objetivo es medir la fortaleza de la relacin lineal que pudiera existir entre dos variables e . Este coeficiente se lo define y denota de la siguiente manera:
) ( )(
( )
SCY tambin corresponde a la suma de cuadrados total = SCtotal - Cuando el signo r es igual a el signo de la pendiente de la recta de regresin lineal. - Si le valor de r es cercano a 1 significa que hay una fuerte relacin lineal positiva entre e - Si le valor de r es cercano a -1 significa que hay una fuerte relacin lineal positiva entre e - Si le valor de r es cercano a 0 significa que hay una fuerte relacin lineal positiva entre e
Suma de cuadrados del total (SCT), mide la dispersin en los valores observados de . Se utiliza para el clculo de la varianza de la muestra. Suma de cuadrados explicada (SCR), mide la variabilidad total en los valores observados de en consideracin a la relacin lineal entre e . Suma de cuadrados residual o inexplicada (SCE), mide la dispersin de los valores observados respecto a la recta de regresin es la cantidad que se minimiza cuando se obtienen la recta de regresin.
Coeficiente de determinacin
Se define el coeficiente de determinacin como el cuadrado del coeficiente de correlacin entre los valores de Y observados y los valores de Y ajustados. Sin embargo se puede demostrar que es igual a la siguiente expresin:
El rango de es entre 0, cero ajuste, hasta 1, ajuste perfecto (cuando los puntos aparecen en una lnea recta).
Ha: 0. Existe regresin lineal entre Si se especifica el nivel de significancia es rechazar si con
Estimacin de la varianza
La varianza de los valores del modelo es desconocida. Para poder inferencias acerca de los parmetros , es necesario un estimador. ( )
Intervalos de confianza
Se pueden hacer predicciones de valores Y para valores X que no estn en el conjunto de observaciones, intervalos de confianza verticales, que tienen la ventaja de proporcionar una cuantificacin del error de prediccin. La estimacin de parmetros consiste en determinar los parmetros y a partir de los datos muestrales observados; es decir, deben hallarse valores como y de la muestra, que represente a y , respectivamente. Empleando el mtodo de los mnimos cuadrados, es decir minimizando la suma de cuadrados de los errores, se determinan los valores de y , asi: ( )
El coeficiente de regresin (b1).- pendiente de la recta de regresin, representa la tasa de cambio de la respuesta Y al cambio de una unidad en X. Si , se dice que no existe relacion lineal entre las dos variables. Este procedimiento permite hallar los valores llamados lmites de confianza, as:
grados de
Prueba de hiptesis
Se plantea los siguientes casos: a) Cuando ; es decir, si la variable Y no est relacionada linealmente con la variable X. Esto equivale a plantear la hiptesis Hp: y va una prueba F comparar el valor de F calculado (Fc) con el valor F tabular con el valor F tabular (Fo), donde y ( ) grados de libertad. Si , se rechaza la hiptesis planteada, esto supone un valor distinto de cero y se concluye que se puede expresar en trminos de literalmente. b) Cuando tiene un valor especfico distinto de cero ; es decir, Hp: = . En este caso, para la prueba de esta hiptesis se usa el estadstico t de Student. El valor calculado es hallado mediante la expresin: ( Si al nivel ) .
Ejemplo
Venta de automviles Se piensa que si aumentan el porcentaje de comisin pagada al vendedor de automviles, aumenta la venta. Estudio sobre 15 concesionarios similares X Comisiones pagadas a vendedores de autos en un mes (%) Y Ganancias netas por ventas, en el mismo mes (Millones de $) Representacin de los datos en un grfico de dispersin:
Calculamos los promedios de ambas variables y se las restamos a los valores. Promedio de la X: 5.4 Promedio de la Y: 16.1 Desviaciones respecto de las medias, sus cuadrados y productos:
Representa una recta, cuyo intercepto con el eje vertical es -0.96, y su pendiente es 3.18, o sea, si el porcentaje de comisin X aumenta en 1%, la ganancia neta Y aumenta en 3.18 Millones de pesos. La tabla siguiente contiene los valores de Y ajustados, para cada valor de X, adems de los valores de Y observados, a modo de comparacin. Los ajustados se obtienen por la frmula
Se puede observar que el promedio de los valores ajustados es igual al promedio de los valores observados, y que el promedio de las diferencias es cero. La suma de las diferencias al cuadrado es 19.8, luego la estimacin de la desviacin estndar del error es igual a:
Ms arriba se calcularos las sumas de cuadrados y de productos, y dieron los siguientes valores:
Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mnima, es decir, que se va a minimizar la varianza residual. Esta ecuacin recibe el nombre de hiperplano en un espacio multidimensional, pues cuando tenemos dos variables explicativas, en vez de recta de regresin tenemos un plano.
La relacin de las variables independientes con la variable dependiente debe de ser lineal, es decir, proporcional.
Homocedasticidad Para cada valor o combinacin de variables independientes la varianza de los residuos es constante, es decir, todas tendrn la misma varianza: ( )
Independencia Los residuos son las diferencias entre los valores observados y los pronosticados. Los residuos o perturbaciones aleatorias son independientes entre s, es decir: ( )
Normalidad Los residuos o perturbaciones tienen una distribucin normal con media cero. ( ) Si admitimos que los datos presentan estas hiptesis entonces el teorema de Gauss-Markov establece que el mtodo de estimacin de mnimos cuadrados va a producir estimadores ptimos, en el sentido que los parmetros estimados van a estar centrados y van a ser de mnima varianza.
Adems
Es decir, los residuos obtenidos del modelo estimado por mnimos cuadrados no van a estar correlacionados con las variables independientes.
Varianza residual
Grficamente es fcil ver la relacin:
Dividiendo la variabilidad no explicada entre sus grados de libertad obtenemos la varianza residual de la variable dependiente Y:
( )
Contraste de regresin
Si los residuos siguen una distribucin normal y que: , tenemos
Por lo tanto:
( )
( ) En general si el p-value es menor de 0.05 se acepta que el modelo de regresin es significativo; en caso contrario no podemos hablar de regresin, pues el modelo sera nulo. Si aceptamos que el modelo de regresin es significativo, es habitual mostrar el p-value; por ejemplo: Encontramos que este modelo de regresin es estadsticamente significativo con un p-value de 0.0003
Coeficiente de determinacin R
Este coeficiente es muy importante pues determina qu porcentaje (en tantos por uno) de la varianza de la variable dependiente es explicado por el modelo de regresin. En general, se pueden clasificar los valores de 2 R de la siguiente manera: Mayor de Menor de 0.3 0.3 a 0.4 0.4 a 0.5 0.5 a 0.85 0.85 Muy malo Malo Regular Bueno Sospechoso Este coeficiente es adimensional; es decir, que no est afectado por transformaciones lineales de las variables; por ello, si cambiamos las unidades de medida, el coeficiente de determinacin permanecer invariante.
Ejemplo
Consideramos una muestra de personas como la que sigue a continuacin: Registro sexo estatura l_roxto pie l_brazo a_espald d_crneo peso X X X X X X Y
1 6 2 3 4 5
1 2 3 4 5 6 7 8
39 38 43 40 41 40 41 44
36 34 39 36 36 36 36 37
43 40 41 42 44 44.5 36 41.5
55 55 54.5 57 57 54 56 58
43 45 48 49 50 51 52 52
Si consideramos el peso como variable dependiente y como posibles variables independientes: estatura, pie, l_brazo, a_espald y d_craneo .
En base a estos datos, vamos a construir un modelo para predecir el peso de una persona (Y). Esto equivale a estudiar la relacin existente entre este conjunto de variables y la variable peso (Y).
Frecuencia
1 2 Propiedad de la edificacion
40
Frecuencia
30
20
10
75
375
450
40
Frecuencia
30
20
10
75
375
450
Frecuencia
50 40 30 20 10 0 -400 0 400 800 1200 1600 superficie del terreno 2000 2400
area a construir