Vous êtes sur la page 1sur 20

ESCUELA SUPERIOR POLITECNICA DEL LITORAL INSTITUTO DE CIENCIAS MATEMATICAS ING.

EN AUDITORA Y CONTADURA PBLICA AUTORIZADA

PROYECTO ESTADSTICA INFERENCIAL

RESPONSABLE: ING. VANESSA SALAZAR PRESENTADO POR: ADRIANA GUERRERO GUERRERO MAYRA NEIRA PERERO JOSELIN PINEDA GAMBOA I TRMINO 2012 GUAYAQUIL-ECUADOR

Escuela Superior Politcnica del Litoral 2 Proyecto de Estadstica Inferencial

Tabla de contenido
I. II. III. IV. Regresin Lineal Simple .............................................................................................................. 3 Estimacin de los parmetros de la recta de regresin .......................................................... 3 Coeficiente de Correlacin ...................................................................................................... 4 Fuentes de variacin en la regresin lineal ............................................................................. 5 Coeficiente de determinacin ................................................................................................. 6 Tabla de anlisis para la varianza ............................................................................................ 6 Prueba de Dependencia Lineal del Modelo ............................................................................ 6 Estimacin de la varianza ........................................................................................................ 7 Intervalos de confianza ........................................................................................................... 7 Prueba de hiptesis ................................................................................................................. 8 Ejemplo.................................................................................................................................... 9 Regresin Lineal Mltiple .......................................................................................................... 12 Variables Independientes y Dependientes ........................................................................... 12 Supuestos para Hiptesis ...................................................................................................... 13 Estimacin de los parmetros por mnimos cuadrados ........................................................ 13 Varianza residual ................................................................................................................... 14 Contraste de regresin .......................................................................................................... 14 Coeficiente de determinacin R .......................................................................................... 15 Ejemplo.................................................................................................................................. 15 Errores que deben de evitarse .............................................................................................. 17 Caso prctico segn base de datos del INEC ............................................................................. Referencias Bibliogrficas .........................................................................................................
2

Escuela Superior Politcnica del Litoral 3 Proyecto de Estadstica Inferencial

I. Regresin Lineal Simple


Tiene como objetivo el estudiar cmo los cambios en una variable, no aleatoria, afectan a una variable aleatoria, en el caso de existir una relacin funcional entre ambas variables que puede ser establecida por una expresin lineal, es decir, su representacin grfica es una lnea recta. Cuando la relacin lineal concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo de regresin lineal simple. La respuesta aleatoria al valor X de la variable controlada se designa por y, segn lo establecido, se tendr: ( ) Donde y son los coeficientes de regresin De manera equivalente, otra formulacin del modelo de regresin lineal simple sera: si es un valor de la variable predictora e la variable respuesta que le corresponde, entonces

es el error o desviacin aleatoria de

Estimacin de los parmetros de la recta de regresin


El primer problema a abordar es obtener los estimadores de los parmetros de la recta de regresin, partiendo de una muestra de tamao n, es decir, n pares ( x1, Y1), (x2, Y2),..., (xn, Yn); que representan nuestra intencin de extraer para cada xi un individuo de la poblacin o variable .

Escuela Superior Politcnica del Litoral 4 Proyecto de Estadstica Inferencial

Una vez realizada la muestra, se dispondr de n pares de valores o puntos del plano (x1, y1), (x2, y2),..., (xn, yn). El mtodo de estimacin aplicable en regresin, denominado de los mnimos cuadrados, permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las estimaciones de los parmetros de la recta de regresin obtenidas con este procedimiento son:
( ( )( ) )

Donde e representan las medias muestrales.

Coeficiente de Correlacin
El ms utilizado indicador de relaciones lineales entre dos variable e es el denominado Coeficiente de Correlacin Lineal cuyo objetivo es medir la fortaleza de la relacin lineal que pudiera existir entre dos variables e . Este coeficiente se lo define y denota de la siguiente manera:

) ( )(

( )

Escuela Superior Politcnica del Litoral 5 Proyecto de Estadstica Inferencial

SCY tambin corresponde a la suma de cuadrados total = SCtotal - Cuando el signo r es igual a el signo de la pendiente de la recta de regresin lineal. - Si le valor de r es cercano a 1 significa que hay una fuerte relacin lineal positiva entre e - Si le valor de r es cercano a -1 significa que hay una fuerte relacin lineal positiva entre e - Si le valor de r es cercano a 0 significa que hay una fuerte relacin lineal positiva entre e

Fuentes de variacin en la regresin lineal


Los clculos de regresin pueden ser vistos como un proceso de particin de la suma total de cuadrados, se define: ) ( ) ( ) ( Se observa que la desviacin estndar total para un suma de las desviaciones explicada e inexplicada. Luego: ( ) ( ) ( en particular es igual a la

SCtotal = SCregresin + SCresidual

Escuela Superior Politcnica del Litoral 6 Proyecto de Estadstica Inferencial

Suma de cuadrados del total (SCT), mide la dispersin en los valores observados de . Se utiliza para el clculo de la varianza de la muestra. Suma de cuadrados explicada (SCR), mide la variabilidad total en los valores observados de en consideracin a la relacin lineal entre e . Suma de cuadrados residual o inexplicada (SCE), mide la dispersin de los valores observados respecto a la recta de regresin es la cantidad que se minimiza cuando se obtienen la recta de regresin.

Coeficiente de determinacin
Se define el coeficiente de determinacin como el cuadrado del coeficiente de correlacin entre los valores de Y observados y los valores de Y ajustados. Sin embargo se puede demostrar que es igual a la siguiente expresin:

El rango de es entre 0, cero ajuste, hasta 1, ajuste perfecto (cuando los puntos aparecen en una lnea recta).

Tabla de anlisis para la varianza


Cuando cada particin se asocia a una porcin correspondiente del total de grados de libertad, la tcnica es conocida como anlisis de varianza (ANOVA), que generalmente se presenta en un cuadro de la siguiente forma:
Fuentes Regresin Residual: Error Total Grados de libertad 1 n-2 n-1 Suma de cuadrados (SC) SCR SCE SCT Cuadrados medios (CM) SCR/1 2 S =SCE/(n-2) Fo (SCR/1)(SCE/(n-2)

Prueba de Dependencia Lineal del Modelo


( La prueba estadstica F evala las hiptesis: Hp: = 0. No existe una regresin lineal entre )

Escuela Superior Politcnica del Litoral 7 Proyecto de Estadstica Inferencial

Ha: 0. Existe regresin lineal entre Si se especifica el nivel de significancia es rechazar si con

e de la prueba, entonces la regin critica grados de libertad

Estimacin de la varianza
La varianza de los valores del modelo es desconocida. Para poder inferencias acerca de los parmetros , es necesario un estimador. ( )

es un estimador insesgado de la varianza La variable aleatoria grados de libertad ( )

tiene distribucin ji-cuadrado con n-2

Intervalos de confianza
Se pueden hacer predicciones de valores Y para valores X que no estn en el conjunto de observaciones, intervalos de confianza verticales, que tienen la ventaja de proporcionar una cuantificacin del error de prediccin. La estimacin de parmetros consiste en determinar los parmetros y a partir de los datos muestrales observados; es decir, deben hallarse valores como y de la muestra, que represente a y , respectivamente. Empleando el mtodo de los mnimos cuadrados, es decir minimizando la suma de cuadrados de los errores, se determinan los valores de y , asi: ( )

constituye el intercepto cuando x=0

: es el valor que representa (estimador) a : es el valor que representa (estimador) a

Escuela Superior Politcnica del Litoral 8 Proyecto de Estadstica Inferencial

Sus desviaciones estndares respectivas son:

El coeficiente de regresin (b1).- pendiente de la recta de regresin, representa la tasa de cambio de la respuesta Y al cambio de una unidad en X. Si , se dice que no existe relacion lineal entre las dos variables. Este procedimiento permite hallar los valores llamados lmites de confianza, as:

donde es el valor "t" tabular al nivel de significancia libertad ( )

grados de

Prueba de hiptesis
Se plantea los siguientes casos: a) Cuando ; es decir, si la variable Y no est relacionada linealmente con la variable X. Esto equivale a plantear la hiptesis Hp: y va una prueba F comparar el valor de F calculado (Fc) con el valor F tabular con el valor F tabular (Fo), donde y ( ) grados de libertad. Si , se rechaza la hiptesis planteada, esto supone un valor distinto de cero y se concluye que se puede expresar en trminos de literalmente. b) Cuando tiene un valor especfico distinto de cero ; es decir, Hp: = . En este caso, para la prueba de esta hiptesis se usa el estadstico t de Student. El valor calculado es hallado mediante la expresin: ( Si al nivel ) .

se rechaza la hipotesis planteada, donde t es el valor de la tabla y grados de libertad

Escuela Superior Politcnica del Litoral 9 Proyecto de Estadstica Inferencial

Ejemplo
Venta de automviles Se piensa que si aumentan el porcentaje de comisin pagada al vendedor de automviles, aumenta la venta. Estudio sobre 15 concesionarios similares X Comisiones pagadas a vendedores de autos en un mes (%) Y Ganancias netas por ventas, en el mismo mes (Millones de $) Representacin de los datos en un grfico de dispersin:

Calculamos los promedios de ambas variables y se las restamos a los valores. Promedio de la X: 5.4 Promedio de la Y: 16.1 Desviaciones respecto de las medias, sus cuadrados y productos:

Escuela Superior Politcnica del Litoral 10 Proyecto de Estadstica Inferencial

Entonces utilizando las frmulas de arriba,

El modelo para estos datos, es

Representa una recta, cuyo intercepto con el eje vertical es -0.96, y su pendiente es 3.18, o sea, si el porcentaje de comisin X aumenta en 1%, la ganancia neta Y aumenta en 3.18 Millones de pesos. La tabla siguiente contiene los valores de Y ajustados, para cada valor de X, adems de los valores de Y observados, a modo de comparacin. Los ajustados se obtienen por la frmula

Escuela Superior Politcnica del Litoral 11 Proyecto de Estadstica Inferencial

Se puede observar que el promedio de los valores ajustados es igual al promedio de los valores observados, y que el promedio de las diferencias es cero. La suma de las diferencias al cuadrado es 19.8, luego la estimacin de la desviacin estndar del error es igual a:

Ms arriba se calcularos las sumas de cuadrados y de productos, y dieron los siguientes valores:

Entonces el coeficiente de determinacin es: ( )

Escuela Superior Politcnica del Litoral 12 Proyecto de Estadstica Inferencial

II. Regresin Lineal Mltiple


Nos permite trabajar con una variable a nivel de intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir relacionar mediante ecuaciones, una variable en relacin a otras variables llamndose Regresin mltiple. Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionados entre s, por lo que es posible que una de las variables pueda relacionarse matemticamente en funcin de otra u otras variables. En la regresin lineal mltiple consideraremos que los valores de la variable dependiente Y han sido generados por una combinacin lineal de los valores de una o ms variables explicativas y un trmino aleatorio:

Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mnima, es decir, que se va a minimizar la varianza residual. Esta ecuacin recibe el nombre de hiperplano en un espacio multidimensional, pues cuando tenemos dos variables explicativas, en vez de recta de regresin tenemos un plano.

Variables Independientes y Dependientes


Primero tenemos que la variable dependiente es el PESO; segundo las variables que usamos para predecir el peso se llaman VARIABLES INDEPENDIENTES, las cuales deben ser elegidas cuidadosamente; a continuacin hay algunas recomendaciones: Tener sentido numrico. No deber de haber variables repetidas o redundantes. Las variables introducidas en el modelo debern de tener una cierta justificacin terica. La relacin entre variables independientes en el modelo y casos debe de ser como mnimo de 1 a 10.

Escuela Superior Politcnica del Litoral 13 Proyecto de Estadstica Inferencial

La relacin de las variables independientes con la variable dependiente debe de ser lineal, es decir, proporcional.

Supuestos para Hiptesis


Se deben hacer las siguientes consideraciones sobre los datos para poder realizar un anlisis de regresin lineal mltiple: Linealidad La ecuacin de regresin debe adoptar una forma en particular, es decir, los valores de la variable dependiente estn generados por el siguiente modelo lineal:

Homocedasticidad Para cada valor o combinacin de variables independientes la varianza de los residuos es constante, es decir, todas tendrn la misma varianza: ( )

Independencia Los residuos son las diferencias entre los valores observados y los pronosticados. Los residuos o perturbaciones aleatorias son independientes entre s, es decir: ( )

Normalidad Los residuos o perturbaciones tienen una distribucin normal con media cero. ( ) Si admitimos que los datos presentan estas hiptesis entonces el teorema de Gauss-Markov establece que el mtodo de estimacin de mnimos cuadrados va a producir estimadores ptimos, en el sentido que los parmetros estimados van a estar centrados y van a ser de mnima varianza.

Estimacin de los parmetros por mnimos cuadrados


Vamos a calcular un hiperplano de regresin de forma que se minimice la varianza residual: ( )

sta es la expresin del estimador de parmetros B. ( )

Escuela Superior Politcnica del Litoral 14 Proyecto de Estadstica Inferencial

Adems

Es decir, los residuos obtenidos del modelo estimado por mnimos cuadrados no van a estar correlacionados con las variables independientes.

Varianza residual
Grficamente es fcil ver la relacin:

Dividiendo la variabilidad no explicada entre sus grados de libertad obtenemos la varianza residual de la variable dependiente Y:
( )

Contraste de regresin
Si los residuos siguen una distribucin normal y que: , tenemos

Escuela Superior Politcnica del Litoral 15 Proyecto de Estadstica Inferencial

Por lo tanto:
( )

( ) En general si el p-value es menor de 0.05 se acepta que el modelo de regresin es significativo; en caso contrario no podemos hablar de regresin, pues el modelo sera nulo. Si aceptamos que el modelo de regresin es significativo, es habitual mostrar el p-value; por ejemplo: Encontramos que este modelo de regresin es estadsticamente significativo con un p-value de 0.0003

Coeficiente de determinacin R

Este coeficiente es muy importante pues determina qu porcentaje (en tantos por uno) de la varianza de la variable dependiente es explicado por el modelo de regresin. En general, se pueden clasificar los valores de 2 R de la siguiente manera: Mayor de Menor de 0.3 0.3 a 0.4 0.4 a 0.5 0.5 a 0.85 0.85 Muy malo Malo Regular Bueno Sospechoso Este coeficiente es adimensional; es decir, que no est afectado por transformaciones lineales de las variables; por ello, si cambiamos las unidades de medida, el coeficiente de determinacin permanecer invariante.

Ejemplo
Consideramos una muestra de personas como la que sigue a continuacin: Registro sexo estatura l_roxto pie l_brazo a_espald d_crneo peso X X X X X X Y
1 6 2 3 4 5

1 2 3 4 5 6 7 8

mujer mujer mujer mujer mujer mujer mujer mujer

158 152 168 159 158 164 156 167

39 38 43 40 41 40 41 44

36 34 39 36 36 36 36 37

68 66 72.5 68.5 68.5 71 67 73

43 40 41 42 44 44.5 36 41.5

55 55 54.5 57 57 54 56 58

43 45 48 49 50 51 52 52

Si consideramos el peso como variable dependiente y como posibles variables independientes: estatura, pie, l_brazo, a_espald y d_craneo .

Escuela Superior Politcnica del Litoral 16 Proyecto de Estadstica Inferencial

El modelo que deseamos construir es:

En base a estos datos, vamos a construir un modelo para predecir el peso de una persona (Y). Esto equivale a estudiar la relacin existente entre este conjunto de variables y la variable peso (Y).

1. Ejemplo con Hiptesis

Escuela Superior Politcnica del Litoral 17 Proyecto de Estadstica Inferencial

Errores que deben de evitarse


Errores que son fciles pasar por alto al realizar un modelo de regresin lineal mltiple son los siguientes: No controlar el factor tamao. Si hay un factor de ponderacin, no tenerlo en cuenta. Al calcular los grados de libertad en los contrastes de hiptesis. No incluir una variable relevante en el modelo. Incluir una variable irrelevante. Especificar una relacin lineal que no lo es.

Escuela Superior Politcnica del Litoral 18 Proyecto de Estadstica Inferencial

Variable Dependiente: Edificacion


Normal 120 100 80 60 40 20 0
Media 1,343 Desv.Est. 0,4764 N 140

Frecuencia

1 2 Propiedad de la edificacion

Variable Independiente: Area a cosntruir


80 70 60
Frecuencia

Media 135,8 Desv.Est. 134,2 N 140

50 40 30 20 10 0 -200 0 200 400 600 area a construir 800 1000

Escuela Superior Politcnica del Litoral 19 Proyecto de Estadstica Inferencial

Variable Independiente: Area de planta


Normal 50
Media 83,18 Desv.Est. 51,86 N 140

40

Frecuencia

30

20

10

75

150 225 300 area de planta

375

450

Variable Independiente: Area de planta


Normal 50
Media 83,18 Desv.Est. 51,86 N 140

40

Frecuencia

30

20

10

75

150 225 300 area de planta

375

450

Escuela Superior Politcnica del Litoral 20 Proyecto de Estadstica Inferencial

Variable Independiente: Superfice del terreno


Normal 80 70 60
Media 238,6 Desv.Est. 276,8 N 140

Frecuencia

50 40 30 20 10 0 -400 0 400 800 1200 1600 superficie del terreno 2000 2400

Grfica de matriz de Tipo de obra. superficie d. area de pla. ...


0 1000 2000 0 500 1000 104 Tipo de obra 102 100 2000 1000 0 400 area de planta 200 0 superficie del terreno

1000 500 0 100 102 104 0 200 400

area a construir

Vous aimerez peut-être aussi