Académique Documents
Professionnel Documents
Culture Documents
El anlisis de regresin lineal es una tcnica estadstica utilizada para estudiar las relaciones entre variables. Se adapta a una amplia variedad de situaciones. En la industria con mucha frecuencia es necesario resolver problemas que implican conjuntos de variables, cuando se sabe que existe alguna relacin inherente entre ellas. a partir de lo anterior, es necesario establecer modelos que expliquen dicha relacin. Cuando, simultneamente, contemplamos dos variables continuas, aunque por extensin se pueden emplear para variables discretas cuantitativas, surgen preguntas y problemas especficos. Esencialmente, se emplearn estadsticos descriptivos y tcnicas de estimacin para contestar esas preguntas, y tcnicas de contraste de hiptesis especficos para resolver dichos problemas. La mayora de estos mtodos estn encuadrados en las tcnicas regresin y correlacin. En forma ms especifica el anlisis de correlacin y regresin comprende el anlisis de los datos mustrales para saber qu es y cmo se relacionan entre si dos o ms variables en una poblacin. El anlisis de correlacin produce un nmero que resume el grado de la fuerza de relacin entre dos variables; y el anlisis de regresin da lugar a una ecuacin matemtica que describe dicha relacin. La tcnica de regresin lineal simple est indicada cuando se pretende explicar una variable respuesta cuantitativa en funcin de una variable explicativa cuantitativa tambin llamada variable independiente, variable regresora o variable predictora. Por ejemplo, se podra intentar explicar el peso en funcin de la altura. El modelo intentara aproximar la variable respuesta mediante una funcin lineal de la variable explicativa.
LOS ALUMNOS
REGRESION LINEAL
1. ANTECEDENTES: Origen Histrico del trmino Regresin. El termino regresin fue introducido por Francis Galton. En un famoso artculo, Galton hallo que aunque exista una tendencia a que los padres de alta estatura tuvieran asimismo hijos altos, y de igual forma a los padres de baja estatura tuvieran hijos de baja estatura, la estatura promedio de los nios que nacan de padres con una determinada estatura tenda a moverse a regresar hacia la altura promedio de la poblacin total. El trmino regresin se utiliz por primera vez en el estudio
de variables antropomtricas: al comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio La ley universal de regresin de Galton fue confirmada por su amigo Karl Pearson, quien colecciono ms de mil registros de estaturas de los miembros de diferentes grupos familiares. Pearson encontr que la estatura promedio de los hijos de un grupo de padres altos era inferior a la estatura de sus padres, mientras que la estatura promedio de los hijos de un grupo de padres de baja estatura era mayor que la estatura de sus respectivos padres, generndose un fenmeno mediante el cual los hijos altos y bajos de estatura regresaban hacia la estatura promedio de todos los hombres. El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que emplean modelos basados en cualquier clase defuncin matemtica. Los modelos lineales son una explicacin simplificada de la realidad, mucho ms gil y con un soporte terico por parte de la matemtica y la estadstica mucho ms extenso.
2. REGRESION LINEAL: El anlisis de regresin trata de analizar la dependencia de una variable cuantitativa a explicar respecto de una o varias variables explicativas, tambin cuantitativas. En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modeliza la relacin entre una variable dependiente Y, las variables independientes Xi y un trmino aleatorio . Este modelo puede ser expresado como:
Donde 0 es la interseccin o trmino "constante", las son los parmetros respectivos a cada variable independiente, y p es el nmero de parmetros independientes a tener en cuenta en la regresin. Matemticamente la regresin la podemos representar como: Y = f (Xi) Donde Y es la variable dependiente y Xi representa las diferentes variables independientes. Si solo hay una variable independiente (X) se trata de un modelo de regresin simple. Cuando hay dos o ms variables independientes se trata de un modelo de regresin mltiple.
Si recordamos el modelo de regresin simple o modelo de regresin lineal de primer orden responde a la siguiente frmula matemtica. y = 0 + 1x + e Donde: y = variable dependiente o variable a explicar x = variable independiente o variable explicativa e (psilon) = error o perturbacin aleatoria 0 =origen de la recta: punto donde la recta corta el eje de ordenadas o eje de la y. 1 =pendiente de la recta o coeficiente de regresin: nos indica en cuanto aumenta (o disminuye) la variable dependiente por cada incremento en 1 unidad de la variable independiente.
3. EL MODELO DE REGRESIN LINEAL El modelo lineal relaciona la variable dependiente Y con K variables explicativas (k = 1,...K), o cualquier transformacin de stas, que desconocidos:
donde
de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carcter estocstico. En el caso ms sencillo, con una sola variable explicativa, el hiperplano es una recta:
El
problema
de
la
regresin
consiste
en
elegir , de
modo que la ecuacin quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observacin cualquiera isima (i= 1,... I) se registra el comportamiento simultneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).
, son
los coeficientes de regresin, sin que se pueda garantizar que coinciden con parmetros reales del proceso generador. Por tanto, en
Para cada valor de X la perturbacin tomar distintos valores de forma aleatoria, pero no tomar sistemticamente valores positivos o negativos, sino que se supone que tomar algunos valores mayores que cero y otros menores, de tal forma que su valor esperado sea cero. 4.2 Homocedasticidad para todo t Todos los trminos de la perturbacin tienen la misma varianza que es desconocida. La dispersin de cada esperado es siempre la misma. 4.3 Incorrelacin. en torno a su valor
Para todo t,s con t distinto de s Las covarianzas entre las distintas perturbaciones son nulas, lo que quiere decir que no estn correlacionadas o auto
correlacionadas. Esto implica que el valor de la perturbacin para cualquier observacin muestral no viene influenciado por los valores de la perturbacin correspondientes a otras observaciones muestrales. 4.4 Regresores no estocsticos. 4.5. No existen relaciones lineales exactas entre los regresores. 4.6. Suponemos que no existen errores
de especificacin en el modelo ni errores de medida en las variables explicativas 4.7. Normalidad de las perturbaciones
5. TIPOS DE MODELOS DE REGRESION LINEAL Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros: Regresin lineal simple
Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de la forma:4
Donde
y siguen los
Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:5
Derivando respecto a
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros:4
La regresin lineal permite trabajar con una variable a nivel de intervalo o razn. De la misma manera, es posible analizar la relacin entre dos o ms variables a travs de ecuaciones, lo que se denomina regresin mltiple o regresin lineal mltiple. Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionadas entre s, por lo que es posible que una de las variables puedan relacionarse matemticamente en funcin de otra u otras variables. Maneja varias variables independientes. Cuenta con varios
parmetros. Se expresan de la forma:6 (13) donde los es el error asociado a la medicin supuestos de modo y que con ). del valor y siguen (media
6. RECTAS DE REGRESION Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente, son posibles dos rectas de mximo ajuste:
La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1, el ajuste ser bueno y las predicciones realizadas a partir del modelo obtenido sern muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratar de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no sern fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresin se intersecan en un punto llamado centro de gravedad de la distribucin.
Lneas de tendencia Una lnea de tendencia representa una tendencia en una serie de datos obtenidos a travs de un largo perodo. Este tipo de lneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petrleo o el valor de las acciones) han aumentado o decrementado en un determinado perodo. Se puede dibujar una lnea de tendencia a simple vista fcilmente a partir de un grupo de puntos, pero su posicin y pendiente se calcula de manera ms precisa utilizando
tcnicas estadsticas como las regresiones lineales. Las lneas de tendencia son generalmente lneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la lnea. Medicina En medicina, la mortalidad con las primeras evidencias de relacionando estudios que
utilizaban la regresin lineal. Los investigadores incluyen una gran cantidad de variables en su anlisis de regresin en un esfuerzo
por
eliminar
factores
que
pudieran
producir correlaciones
espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-econmico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educacin o posicin econmica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresin. En el ejemplo del tabaquismo, un hipottico gen podra aumentar la mortalidad y aumentar la propensin a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razn, en la actualidad las pruebas controladas aleatorias son consideradas mucho ms confiables que los anlisis de regresin.
8. EJERCICIOS DE REGRESION LINEAL I. Cinco nios de 2, 3, 5, 7 y 8 aos de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos. 1 Hallar la ecuacin de la recta de regresin de la edad sobre el peso. 2 Cul sera el peso aproximado de un nio de seis aos?
xi
yi
x i yi
xi2
yi 2
14
196
28
20
400
60
32
25
1 024
160
42
49
1 764
294
44
64
1 936
352
25
152
151
5 320
894
II.
Una compaa desea hacer predicciones del valor anual de sus ventas totales en cierto pas a partir de la relacin de stas y la renta nacional. Para investigar la relacin cuenta con los siguientes datos:
18 9
19 0
20 8
22 7
23 9
25 2
25 7
27 4
29 3
30 8
31 6
40 2
40 4
41 2
42 5
42 9
43 6
44 0
44 7
45 8
46 9
46 9
X representa la renta nacional en millones de euros e Y representa las ventas de la compaa en miles de euros en el
periodo que va desde 1990 hasta 2000 (ambos inclusive). Calcular: 1 La recta de regresin de Y sobre X. 2 El coeficiente de correlacin lineal e interpretarlo. 3 Si en 2001 la renta nacional del pas fue de 325 millones de euros. Cul ser la prediccin para las ventas de la compaa en este ao?
xi
yi
x i y i
xi2
yi 2
189
402
35 721
161 604
75 978
190
404
36 100
163 216
76 760
208
412
43 264
169 744
85 696
227
425
51 529
180 625
96 475
239
429
57 121
184 041
102 531
252
436
63 504
190 096
109 872
257
440
66 049
193 600
113 080
274
447
75 076
199 809
122 478
293
458
85 849
209 764
134 194
308
469
94 864
219 961
144 452
316
469
99 856
219 961
148 204
2 753
4 791
708 933
2 092 421
1 209 720
III.
Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de una muestra de 12 hombres adultos. Para cada estatura fijada previamente se observ el peso de una persona seleccionada de entre el grupo con dicha estatura, resultando: X Y 152 155 152 155 157 152 157 165 162 178 183 178 50 61.5 54.5 57.5 63.5 59 61 72 66 72 84 82
Con estos datos vamos a plantear una ecuacin de regresin simple que nos permita pronosticar los pesos conociendo las tallas. Utilizaremos a = 0.05, y contrastaremos nuestra hiptesis con la prueba F.
DESARROLLO
Representacin matemtica y grfica de los datos:Representacin Matemtica estatur peso a dato s x y x ^2 2310 1 152 50 4 y ^2 xy s Regresin Lineal y est. 56.4 2500 7600 3 -6.43 Residu al L. I. L. S. L. I. L. S. 53.0 59.7 47.3 65.5 7 9 0 6 I.C. para la I. media C.
individual
2402 3782. 9532. 59.0 2 155 61.5 5 3 5 3 56.4 8284 3 -1.93 2.47
2310 6 152 59 4 2464 7 157 61 9 2722 8 165 72 5 2624 9 162 66 4 3168 10 178 72 4 3348 11 183 84 9 3168 12 178 82 4
56.4 3481 8968 3 60.7 3721 9577 7 67.7 5184 11880 1 65.1 4356 10692 1 78.9 5184 12816 9 83.3 7056 15372 2 78.9 6724 14596 9 3.01 0.68 -6.99 0.89 4.29 0.23 2.57
Representacin Grfica
HIPTESIS
HO: No hay relacin entre la variable peso y la variable estatura. HA: Hay relacin entre la variable peso y la variable estatura. Tabla varianza Fuente de Grados de Suma de Cuadrados estadstico Variacin libertad Debido a la regresin 1 error total 10 11 1061.1 145.2 1206.3 1061.1 14.5 73.08 cuadrados medios F de anlisis de
Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hiptesis nula y aceptamos que la variable estatura est relacionada con la variable peso con un 95% de confianza.
Lo que nos permite obtener los coeficientes a y b. Luego, b = 1223 / 1409.667 = 0.8676 a = 65.25 (0.8676) (162.167) = -75.446
INTERPRETACIN
La ecuacin de regresin estimada es: Coeficiente de correlacin: R= 0.9379 Coeficiente de determinacin: R=0.8796 El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio, por cada centmetro de aumento en la estatura de los hombres adultos. El valor de a, no tiene interpretacin prctica en el ejemplo, se interpretara como el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0. Utilizando la ecuacin de regresin para estimar o predecir valores de la variable Y: Para una talla de 180 se obtiene un peso de 80.7 kg. Cunto se espera que pese (en promedio) una persona que mide 1.60 m? Sustituyendo el valor de inters en la ecuacin:
Se obtiene:
SE CONCLUYE: La ecuacin de Regresin Lineal estimada para las variables estatura y peso muestran, de acuerdo a la prueba F, relacin. Esta relacin se ha estimado en un R = 93.7, que indica una fuerte relacin positiva. Adems si consideramos el coeficiente de determinacin R = 87.9 podemos indicar que el 87.9% de las variaciones que ocurren en el peso se explicaran por las variaciones en la variable estatura.
CONCLUSIONES
La regresin lineal simple y la regresin mltiple, analiza la relacin de dos o ms variables continuas, cuando analiza dos variables a esta se le conoce como variable bivariantes que pueden corresponder a variables cualitativas. La finalidad de una ecuacin de regresin es la de estimar los valores de una variable con base en los valores conocidos de la otra. Del mismo modo, una ecuacin de regresin explica los valores de una variable en trminos de otra. Es decir, se puede intuir una relacin de causa y efecto entre dos o ms variables. El anlisis de regresin nicamente indica qu relacin matemtica podra haber, de existir una. El objetivo de un anlisis de regresin es determinar la relacin que existe entre una variable dependiente (y) y una o ms variables independientes (1 2 3x , x , x , ... ). Para poder realizar esta relacin, se debe postular una relacin funcional entre las variables. Cuando se trata de una variable independiente, la forma funcional que ms se utiliza en la prctica es la relacin lineal. Estas tcnicas estadsticas constituyen una herramienta til para el anlisis de las variables de un proceso ya que a travs de la aplicacin de stas, es posible .conocer el modelo que siguen y la fuerza con que se encuentran relacionadas. Asimismo, es posible explicar la relacin que guardan dos o ms causas de un posible defecto.
Pginas: 527-535 2. Libro: Estadstica descriptiva e inferencial Autor : Antonio Vargas Sabadas
Pginas: cap. 14