Vous êtes sur la page 1sur 26

La regresin y los anlisis de correlacin nos muestran como determinar tanto la naturaleza como la fuerza de una relacin entre

dos variables En el anlisis de regresin desarrollaremos una ecuacin de estimacin, esto es, una formula matemtica que relaciona las variables conocidas con la variable desconocida. Entonces podemos aplicar el anlisis de correlacin para determinar el grado de en el que estn relacionadas las variables. El anlisis de correlacin, entonces, nos dice qu tan bien estn relacionadas las variables. El anlisis de correlacin, entonces, nos dice que tan bien la ecuacin de estimacin realmente describe la relacin.

En el estudio de la relacin funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de prediccin y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notacin: Y=a+bX+ Donde:
a es el valor de la ordenada donde la lnea de regresin se intercepta con el eje Y. b es el coeficiente de regresin poblacional (pendiente de la lnea recta) es el error

Los valores de la variable independiente X son fijos, medidos sin error. La variable Y es aleatoria Para cada valor de X, existe una distribucin normal de valores de Y (subpoblaciones Y) Las variancias de las subpoblaciones Y son todas iguales. Todas las medias de las subpoblaciones de Y estn sobre la recta. Los valores de Y estn normalmente distribuidos y son estadsticamente independientes.

Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El mtodo de estimacin es el de Mnimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuacin de regresin muestral estimada es:

Que se interpreta como: a es el estimador de Es el valor estimado de la variable Y cuando la variable X = 0 b es el estimador de , es el coeficiente de regresin
Est expresado en las mismas unidades de Y por cada unidad de X. Indica el nmero de unidades en que vara Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresin).Un valor negativo de b sera interpretado como la magnitud del decremento en Y por cada unidad de aumento en X.

Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de una muestra de 12 hombres adultos. Para cada estatura fijada previamente se observ el peso de una persona seleccionada de entre el grupo con dicha estatura, resultando:
X 152 155 152 155 157 152 157 165 162 178 183

178

50

61. 5

54. 5

57. 5

63. 5

59

61

72

66

72

84

82

Con estos datos vamos a plantear una ecuacin de regresin simple que nos permita pronosticar los pesos conociendo las tallas. Utilizaremos a = 0.05, y contrastaremos nuestra hiptesis con la prueba F.

Representacin matemtica y grfica de los datos:

HO: No hay relacin entre la variable peso y la variable estatura. HA: Hay relacin entre la variable peso y la variable estatura.
Fuente de Variacin Debido a la Regresin Error Total Grados de Libertad 1 10 11 Suma de Cuadrados 1061.1 145.2 1206.3 Cuadrados Medios 1061.1 14.5 Estadstico F 73.08

Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hiptesis nula y aceptamos que la variable estatura est relacionada con la variable peso con un 95% de confianza. De acuerdo al desarrollo matemtico hemos obtenido los siguientes clculos:

Lo que nos permite obtener los coeficientes a y b.


b = 1223 / 1409.667 = 0.8676 a = 65.25 (0.8676) (162.167) = -75.446

La ecuacin de regresin estimada es: = -75.446+0.8676X El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio, por cada centmetro de aumento en la estatura de los hombres adultos. El valor de a, no tiene interpretacin prctica en el ejemplo, se interpretara como el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0. Utilizando la ecuacin de regresin para estimar o predecir valores de la variable Y: Para una talla de 180 se obtiene un peso de 80.7 kg.
Coeficiente de correlacin: R= 0.9379 Coeficiente de determinacin: R=0.8796

Cunto se espera que pese (en promedio) una persona que mide 1.60 m? Sustituyendo el valor de inters en la ecuacin: = -75.446+0.8676X Se obtiene: = -75.446+0.8676(160) = 63.37 kg

La ecuacin de Regresin Lineal estimada para las variables estatura y peso muestran, de acuerdo a la prueba F, relacin. Esta relacin se ha estimado en un R = 93.7, que indica una fuerte relacin positiva. Adems si consideramos el coeficiente de determinacin R = 87.9 podemos indicar que el 87.9% de las variaciones que ocurren en el peso se explicaran por las variaciones en la variable estatura.

Este tipo se presenta cuando dos o ms variables independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z). Por ejemplo: Podra ser una regresin de tipo mltiple:
Una Empresa de desarrollo de software establece relacionar sus Ventas en funcin del numero de pedidos de los tipos de software que desarrolla (Sistemas, Educativos y Automatizaciones Empresariales), para atender 10 proyectos en el presente ao.

En la Tabla representa Y (Ventas miles de S/.) e X (N pedidos de sistemas), W (N de pedidos de Aplicaciones Educativas) y Z (N de pedidos de Automatizaciones empresariales).

Y X W Z

440 455 470 510 506 480 460 500 490 450 50 40 35 45 51 55 53 48 38 44 98 74

105 140 110 130 125 115 100 103 118 75 68 70 64 67 72 70 73 69

Objetivo: Se presentara primero el anlisis de regresin mltiple al desarrollar y explicar el uso de la ecuacin de regresin mltiple, as como el error estndar mltiple de estimacin. Despus se medir la fuerza de la relacin entre las variables independientes, utilizando los coeficientes mltiples de determinacin.

Dispone de una ecuacin con dos variables independientes adicionales:


Se puede ampliar para cualquier nmero "m" de variables independientes: Para poder resolver y obtener y en una ecuacin de regresin mltiple el clculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el mtodo de mnimo de cuadrados:

Es una medida de dispersin la estimacin se hace ms precisa conforme el grado de dispersin alrededor del plano de regresin se hace mas pequeo. Para medirla se utiliza la formula:

Y : Valores observados en la muestra : Valores estimados a partir a partir de la ecuacin de regresin n : Nmero de datos m : Nmero de variables independientes

Mediante el siguiente problema podremos ilustrar la aplicacin de Regresin Multiple: En la Facultad de Ingeniera de Sistemas y Computo de la Universidad "Inca Garcilaso de la Vega" se quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo cual se escoge al azar una muestra de 15 alumnos y ellos registran notas promedios en las asignaturas de Algoritmos, Base de Datos y Programacin como se muestran en el siguiente cuadro.

Alumno 1 2 3

PHP 13 13 13

Algoritmos 15 14 16

Base de Datos 15 13 13

Programacin 13 12 14

4
5 6 7 8 9 10 11 12

15
16 15 12 13 13 13 11 14

20
18 16 13 16 15 14 12 16

14
18 17 15 14 14 13 12 11

16
17 15 11 15 13 10 10 14

13
14 15

15
15 15

17
19 13

16
14 15

15
16 10

Lo que buscamos es construir un modelo para determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos, Base de Datos y Programacin. Se presentara la siguiente ecuacin a resolver:

Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de regresin o utilizando Regresin de Anlisis de datos, en la Hoja de Calculo de Excel podemos calcular tambin los coeficientes de regresin:

Por lo tanto podemos construir la ecuacin de regresin que buscamos:

El 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las notas obtenidas por las asignaturas de Algoritmos, Base de Datos y Programacin.

Sirve para medir la bondad del ajuste de una recta de regresin a un conjunto de observaciones, en el caso de tener una variable dependiente y una independiente.

Dicha medida nos la da el coeficiente de determinacin R2 , que verifica 0 R2 1. Cuanto ms cercano a uno sea su valor mejor ser el ajuste, y tanto peor cuanto ms cercano a cero.
Se calcula como el cuadrado del coeficiente de correlacin lineal de Pearson

El coeficiente de correlacin lineal de Pearson (se denota r ) es una medida de asociacin lineal entre dos variables aleatorias X e Y: r = =Cov(X,Y)

SxSy

Se verifica que 1 r 1 y podemos decir que:

" Si r = -1, existe una relacin lineal negativa perfecta entre X e Y. " Si r = 1, existe una relacin lineal positiva perfecta entre X e Y. " Si r = 0, no existe ninguna relacin lineal entre X e Y (X e Y son independientes).

Sirve para medir la adecuacin del modelo hallado (bondad del ajuste de la recta de regresin al conjunto de observaciones), en el caso de tener una variable dependiente y varias independientes.
Dicha medida nos la da el coeficiente de determinacin R2 , que verifica 0 R2 1. Cuanto ms cercano a uno sea su valor, mayor es el grado de asociacin lineal que existe entre la variable dependiente y las independientes o predictoras. Nos mide la proporcin de la variacin total de las observaciones que se explican mediante la ecuacin (recta) de regresin