La regresin y la correlacin son dos tcnicas estrechamente relacionadas y comprenden una
forma de estimacin. En forma ms especifica el anlisis de correlacin y regresin comprende el anlisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una poblacin. El anlisis de correlacin produce un nmero que resume el grado de la correlacin entre dos variables; y el anlisis de regresin da lugar a una ecuacin matemtica que describe dicha relacin. El anlisis de correlacin generalmente resulta til para un trabajo de exploracin cuando un investigador o analista trata de determinar que variables son potenciales importantes, el inters radica bsicamente en la fuerza de la relacin. La correlacin mide la fuerza de una entre variables; la regresin da lugar a una ecuacin que describe dicha relacin en trminos matemticos Los datos necesarios para anlisis de regresin y correlacin provienen de observaciones de variables relacionadas. Regresin lineal La regresin lineal simple comprende el intento de desarrollar una lnea recta o ecuacin matemtica lineal que describe la reaccin entre dos variables. La regresin puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo. La finalidad de una ecuacin de regresin seria estimar los valores de una variable con base en los valores conocidos de la otra. Otra forma de emplear una ecuacin de regresin es para explicar los valores de una variable en trmino de otra. Es decir se puede intuir una relacin de causa y efecto entre dos variables. El anlisis de regresin nicamente indica qu relacin matemtica podra haber, de existir una. Ni con regresin ni con la correlacin se pude establecer si una variable tiene causa ciertos valores de otra variable. Ecuacin Lineal Dos caractersticas importantes de una ecuacin lineal la independencia de la recta la localizacin de la recta en algn punto. Una ecuacin lineal tiene la forma y = a + bx En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la altura de la recta en x= 0, y b seala su pendiente. La variable y es la que se habr de predecir, y x es la variable predictora. Determinacin de la ecuacin matemtica En la regresin, los valores de y son predichos a partir de valores de x dados o conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de variable independiente. Mtodos de mnimos cuadrados EL procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que conoce como mtodo de mnimos cuadrados. La recta resultante presenta 2 caracterstica importantes es nula la suma desviaciones verticales en los puntos a partir de la recta es mnima la suma de los cuadrados de dicha desviaciones (yi - yc)2 En el cual Yi = valor esperado de y Yc= valor calculado de y utilizando la ecuacin de mnimos cuadrados con el valor correspondientes x para yi Los valores de a y b para la recta es Yc = a + bx que minimiza la suma de los cuadrados de la desviacin ecuaciones normales y = na + (x) xy= a (x) +b (x2) En las que n es el numero de pares de observaciones. Evaluando las cantidades x, y, etc. Se puede resolver estas dos ecuaciones simultneamente para determinar a b. la ecuaciones puede despejarse. Se obtuvieron dos formulas aun para a y otra para b. n(xy)- (x)(y) b= n(x2)-(x)2 y - b x a= n Inferencia en el anlisis de regresin Los supuestos para el anlisis de regresin son como: Existen datos de medicin para a x y z. la variable dependiente es una variable aleatoria. para cada valor de x, existe una distribucin condicional de la qu es de naturaleza normal la desviacin estndar de toda las distribuciones condicionales son iguales EL error estndar de estimacin La determinante primaria de la exactitud es el grado de dispersin de la poblacin: cuanto mas dispersa este, menor ser la exactitud de la estimacin. El grado de dispersin en la poblacin se puede estimar a partir del grado de dispersin en las observaciones de la muestra con respecto a la lnea de regresin calculada, utilizando la formula. Se = " (yi -yc) n-2 en la cual: yi = cada valor de y yc = valor de lnea de regresin correspondiente a partir de la ecuacin de regresin. n = nmeros de observaciones. La formula anterior no se utiliza por lo general para clculos reales, es mas fcil trabajar con la formula simplificada Se " y2 - a y - b xy n - 2 Inferencia de acerca de la pendiente de unalnea de regresin Aun cuando es muy poca o nula relacin entre dos variables de aun poblacin, es posible obtener valores maestrales que hacen que parezca que la variables estn relacionadas, es importantes probar los resultados tales de caculo, a fin determinar si son significativos (es decir si los parmetros verdaderos no son cero), Si no existe ninguna relacin se esperara obtener aun pendiente cero, se pone a prueba la hiptesis nula contra la hiptesis alternativa. La significacin del coeficiente de regresin se puede probar comparndolo con su desviacin estndar t = valor de la muestra - valor esperado Desviacin estndar Anlisis de regresin lineal mltiple La regresin mltiple comprende tres o ms variables. Existe solo una variable dependiente, pero hay dos o mas tipo independiente. Esta operacin al desarrollo de una ecuacin que se pede utilizar para predecir valore de y, respecto a valores dados de la diferencia variables independientes adicionales es incrementar la capacidad predicativa sobre la de la regresin lineal simple. Las tcnicas de los mnimos cuadrados se utilizan para obtener ecuaciones de regresin. Yc= a +b1x1+b2x2+bkxk a = ordenada en el origen b1= pendiente k = numero de variables independientes Un anlisis de regresin simple de dos variable da lugar a la ecuacin de una recta, un problema de tres variables produce un plano, y un problema de k variables implica un hiperplano de a (k +1) dimensiones. Anlisis de Correlacin EL objetivo de un estudio de correlacin es determinar la consistencia de una relacin entre observaciones por partes. EL termino correlacin significa relacin mutua, ye que indica el grado en el que los valores de una variable se relacionan con los valores de otra. Se considera tres tcnicas de correlacin uno para datos de medicin, otro para datos jerarquizados y el ltimo para clasificaciones nominales. Datos Continuos: r de Pearson EL grado de relacin entre dos variables continuas se resume mediante un coeficiente de correlacin que se conoce como r de Pearson en honor del gran matemtico Kart Pearson, quien ideo este mtodo. Esta tcnica es valida mientras si es posible establecer ciertos supuestos bastante estrictos. Tales supuestos son los siguientes: Tanto x como y son variables continuas aleatorias. Es decir, a diferencia del anlisisde referencia de regresin, no es aceptable seleccionar ciertos valores de x, y despus medir y; tanto y como x deben de variar libremente. La distribucin conjunta de frecuencia es normal. Esto recibe el nombre de de distribucin normal divariada. Carcter de r El coeficiente de relacin presenta dos propiedades que establecen la naturaleza de una relacin entre dos variables. Una es su signo (+ o -) y la otra, es su magnitud. El signo es igual al de la pendiente de una recta que podra ajustarse a los datos si estos se graficaran en un diagrama de dispersin, y la magnitud de r indica cuan cerca esta de la recta tales puntos. Mtodo practicar para calcular r Dado que los clculos necesarios pueden requerir mucho tiempo especialmente cuando se resta las medias del grupo de cada observacin se elevan a cuadrado esas diferencias. Existe una versin, la cual simplifica los clculos: r= n ("xy)-("x)("y) _ "n("x2)-("x)2 "n("y2)("y)2 Existen 3 formas posibles para obtener el valor de r en el caso de datos de medicin: estandarizar cada conjunto y hallar el producto medio, calcular el coeficiente de determinacin r2 y obtener su raz cuadrada como utilizar la formula. Para un conjunto de datos los tres mtodos producirn el mismo valor para r no obstante cada mtodo agrega algo a la comprensin del significado del termino correlacin Inferencia acerca del coeficiente de correlacin Intervalo de confianza para la correlacin de la poblacin El valor del coeficiente de correlacin de la muestra se puede utilizar como un estimado de la correlacin verdadera de poblacin existen varios mtodos para obtener un mtodo de confianza para pero quizs la forma mas directa es usar un diagrama. Si se examinan el diagrama se observara que el intervalo de los valores potenciales (no conocidos) se indica a lo largo de la escala vertical los posibles valores r de la muestra se indica en la escala inferior una serie de curvas representan tamao de muestras seleccionadas. Prueba de significacin de r Puede ser necesario evaluar una aseveracin con respecto al valor de . La forma mas sencilla es obtener un intervalo de confianza para r y observar si el valor propuesto esta incluido en el intervalo de ser as se rechaza a Ho y se acepta la alternativa. Datos jerarquizados de: r Spearman Es una tcnica no paramtrica que utiliza para medir la fuerza de una relacin por pares de 2 variables cuando los datos se encuentran en forma jerarquizados. El objeto de calcular un coeficiente de correlacin estos ejemplos es determinar el grado en el que dos conjuntos de jerarquizacin concuerdan o no. Esta tcnica tambin se puede extender a calificaciones u otro tipo de medicin si estas se convierten a rangos. Las medidas de l grado de concordancia son sol cuadrados de las diferencias entre los dos conjuntos de rangos: si la suma de stos es pequea, esto significa que hay acuerdo; si la suma es grande, esto indica lo contrario. EL calculo real de la correlacin comprende la formula. rsp = 1 - 6"d2 n(n2 -1) En la cual n es el nmero de observaciones y "d2 es la suma de los cuadrados de la diferencia entre los rangos. El coeficiente de correlacin de jerarqua obtenido recibe el nombre de r Spearman. La suma de la diferencia es cero. Esto no sirve como una comprobacin til de los clculos aunque no es necesaria en la frmula. El procedimiento es como el siguiente: Obtener la diferencia en rango para cada par de observaciones Como comprobaciones, verificar que la diferencias se sumen a 0 elevar el cuadrado la diferencias sumar los cuadrados de la diferencia para obtener "d2 Calcular rsp Si el valor rsp es pequeo para situaciones en donde n es mayor que 10, la hiptesis nula de rsp = 0 puede ser probada utilizndola la frmula rsp - 0 t= "(1- rsp 2) (n -2) Datos nominales: el coeficiente de contingencia Cuando ambas variables se miden en escalas nominales ( es decir , categoras ) , el anlisis es fcilmente mediante el desarrollo de una tabla de contingencia semejante a la que se utilizo en el anlisis de k proporciones ( prueba de ji cuadrada ), el procedimiento en realidad de aun extensin del anlisis de una tabla r * k. Una medida de relacin es calcular el coeficiente de contingencia en C, donde x2 C= X2 + N Un aspecto interesante de una tabla ji cuadrada es que l tamao mximo posible de x2 es funcin de N, de las observaciones y del tamao de la tabla. En le caso de tabla con los valores cuadrado, esto lleva obtener un valor mximo de C de K - 1 C max = k En el cual k es el nmero de fila o columnas. La comprar C con C max se pude obtener una idea de la intensidad de la asociacin entre la variables. Esta es una relacin moderada, no muy intensa. Su interpretacin exacta en parte de la naturaleza de los datos y de los resultados comparables que se obtengan de otros estudios, por lo que es difcil establecer valores definitivos d intensidades. Se bebe observar que la formula no frmula no produce automticamente el signo del coeficiente de contingencia. DE ah que no siempre resulte evidente el existe aun relacin positiva o negativa. Ventajas: Nos e requiere de supuestos con respectos a la formula de poblacin Solamente se necesita una medicin nominal ( categoras) Limitaciones El limite superior de C es menor que 1.00 incluso Para un correlacin perfecta. El lmite superior depende del tamao de la tabla, por lo que no son comparables los coeficientes de contingencia de tablas de tamao diferente El coeficiente de contingencia no es directamente comprable con otras medidas de correlacin, como la r de Pearson y la r de Spearman, o incluso con otras tablas de contingencia de tamao diferente. Cada casilla deber tener una frecuencia esperada por lo menos 5. C max solamente se puede calcular a partir de tabla de valores al cuadrado EJERCICIOS PAG. 411 1.- Cual es la ecuacin de una recta con las siguientes caractersticas? pendiente 10.2 y ordenada en el origen 5.0. Yc=5 +10.2x. pendiente 55 y ordenada en el origen 0. Yc=55x. Pendiente 27 y ordenada en el origen -2. Yc=-2 +27x. Pendiente -13 y ordenada en el origen 200. Yc=200 - 13x. Pendiente 0 y ordenada en el origen 2.4. Yc=2.4 2.- Calcule los valores de a y b en la ecuacin lineal yc =a+bx apartir de las grficas de la fig. 14.4. Yc=6+(7.5/500)x Yc=-1 +(12/4)x EJERCICIOS PAG. 416 1.- Suponga que una cadena de supermercados financia un estudio sobre los gastos anuales en comestibles de familias de cuatro miembros. La investigacin se limit a familias con ingresos netos que van de $ 8,000 a $ 20,000 dlares. Se obtuvo la siguiente ecuacin: yc =-200 + .10x y = gastos anuales estimados x = ingresos netos anuales Estime los gastos de una familia de cuatro miembros con un ingreso anual de $15,000. Como queremos estimar el gasto anual, se sustituye el valor de los ingresos(x) en la ecuacin y queda as: Yc =-200 +.10(15,000) Yc =-200 +1500 Yc=1300 Uno de los vicepresidentes se preocupa por el hecho de que aparentemente la ecuacin indica que una familia con ingreso de $2,000 no gastara nada en alimentos. Cul sera su respuesta? La respuesta es que no tiene de que preocuparse ya que el gasto est estimado para familias con ingresos de 8000 a 20000 dlls. Explique porqu no se podra utilizar en los siguientes casos: 1) estimacin en los gastos de familias de cinco miembros. No es posible ya que la ecuacin est calculada para una familia de cuatro miembros. 2) estimacin en los gastos de familias cuyos ingresos netos van de $20,000 a $35,000. No se puede porque la formula se calculo para sueldos menores o iguales a 20,000. d. Grafique la ecuacin. 2.- Un bufete de ingenieros consultores ha establecido la siguiente relacin con respecto al rendimiento por galn de automviles estadounidenses de 6 cilindros, cuyo peso vara de 1500 a 3000 libras: yc=30 - 0.002x y=rendimiento millas/galn x=peso del vehculo Represente esta relacin con una grfica y marque los ejes. Estime el consumo de gasolina X milla para un auto de peso: Sustituimos en la formula: 1)2000 lb yc=30 - 0.002(2000)=26 2)1500 lb yc=30 - 0.002(1500)=27 3)2500 lb yc=30 - 0.002(2500)=25 3.- Emplee los siguientes valores de resumen para determinar las ecuaciones de regresin: a. "x=200, "y=300, "xy=6200, "x2=3600, n=20. b= 20(6200)-(200)(300) 20(3600)-(200)2 b=2 a=300-b(200) 20 a=-5 Yc =-5 +2x b. "x=7.2, "y=37, "xy=3100, "x2=620, n=36. b= 36(3100)-(7.2)(37) 36(620)-(7.2)2 b=5 a=37-b(7.2) 36 a=.028 Yc =5 +.028x c. "x=700, "y=-250, "xy=-1400, "x2=21000, n=30. b= 30(-1400)-(700)(-250) 30(21000)-(700)2 b=.95 a=-250-b(700) 30 a=-30.5 Yc =-30.5 +.95x d. "x=33, "y=207, "xy=525, "x2=750, n=40. b= 40(525)-(33)(207) 40(750)-(33)2 b=.49 a=207-b(33) 40 a=4.77 Yc =4.77 +x