Vous êtes sur la page 1sur 58

NDICE. Contenido pg. Introduccin....

i
NDICE........................................................................................................................................1 Contenido pg............1 Introduccin....i ...................1 Objetivos......................................................................................................................................3 Objetivo General:.....................................................................................................................3 Objetivos Especficos:.............................................................................................................3 REGRESION Y CORRELACION.............................................................................................4 Capitulo I.................................................................................................................................4 Definiciones.........................................................................................................................4 DIAGRAMA DE DISPERSION:.......................................................................................4 REGRESION SIMPLE.......................................................................................................5 CORRELACION SIMPLE.................................................................................................6 Capitulo II................................................................................................................................6 Ecuacin de Regresin Simple............................................................................................6 CAPITULO III.........................................................................................................................9 Modelos de Ecuacin Regresin Simple.............................................................................9 Modelo de Lnea Recta........................................................................................................9 Modelo de Ecuacin Cuadrtica.......................................................................................11 Caso Exponencial: Yc = abx.............................................................................................14 Caso Potencial o Polinomial: Yc = axb............................................................................17 Desviacin Estndar de Regresin....................................................................................19 CAPITULO IV......................................................................................................................19 Coeficiente de Correlacin................................................................................................19 Calculo del coeficiente de correlacin r............................................................................20 CALCULO DEL COEFICIENTE DE CORRELACIN POR EL MTODO PRODUCTO - MOMENTO DE KARL PEARSON.......................................................21 CORRELACIN DE RANGOS DE SPEARMAN.........................................................23 1

CAPITULO V........................................................................................................................28 Pruebas de Regresin y Correlacin..................................................................................28 Prueba de hiptesis para la correlacin de rangos de Spearman......................................34 CAPITULO VI......................................................................................................................35 Regresin Lineal Mltiple.................................................................................................35 Desviacin estndar de regresin mltiple......................................................................37 Capitulo VII...........................................................................................................................41 Ejercicios Resueltos...........................................................................................................41 Ejercicio de diagrama de dispersin.................................................................................41 Regresin con Mnimo Cuadrado.....................................................................................42 Ejemplo de Regresin Simple, Desviacin Estndar de Regresin y Coeficiente de Correlacin de Pearson......................................................................................................44 Ejercicio de coeficiente de correlacin por el mtodo de rangos de Spearman...............47 Ejercicio de regresin mltiple.........................................................................................48 Ejercicio de prueba de hiptesis........................................................................................53 CONCLUSIONES.................................................................................................................54 Bibliografa............................................................................................................................58

Objetivos.
Objetivo General:
Conocer los elementos necesario para la realizacin de un anlisis de regresin y correlacin.

Objetivos Especficos:
Mostrar los elemento tericos necesario para establecer un anlisis de regresin. Desarrollar las ecuaciones normales correspondiente al mtodo de mnimos cuadrados. Establecer la manera de en la que se elije el modelos de regresin a utilizable a partir de la forma que tomen el conjunto de datos. Analizar las aplicaciones practicas del anlisis de regresin. Aprender a reconocer el procedimiento para el trato de variables con n incgnitas. Conocer las principales diferencias entre el anlisis de regresin y el anlisis de correlacin. Aplicar la frmula prueba de hiptesis tanto para regresin como correlacin para la toma de decisiones

REGRESION Y CORRELACION
REGRESION Definiciones: es el anlisis que se utiliza para hacer predicciones. La regresin mide en forma funcional, a travs de una ecuacin, la posible relacin entre las variables con el objeto de predecir una de ellas en funcin de la(s) otra(s).

CORRELACION Definiciones: se dirige sobre todo a medir la intensidad o fuerza con que estn relacionadas linealmente las variables. Se utiliza para medir la intensidad de la asociacin entre variables numricas. Mide la fuerza y la direccin de la relacin lineal entre dos variables cuantitativas.

Capitulo I Definiciones
DIAGRAMA DE DISPERSION: Un diagrama de dispersin muestra la relacin entre dos variables cuantitativas medidas para los mismos individuos o grupo de individuos. Los valores de una variable aparecen en el eje de las abscisas y los valores de la otra en el eje de las ordenadas. 4

Si una de las dos variables se pueden considerar una variable explicativa, sus valores se sitan siempre en eje de las abscisas en el diagrama de dispersin. La representacin grfica bidimensional en el anlisis de regresin que implica una variable dependiente y una variable independiente.

Para interpretar un diagrama de dispersin, se identifica primero sus aspectos generales. El aspecto general debe revelar la direccin la forma y la fuerza de la relacin entre las dos variables. Si la relacin entre las dos variables tiene una direccin clara, decimos que existe una asociacin positiva (si valores altos de las dos variables tienden a ocurrir simultneamente) o una asociacin negativa (si valores altos de una variable tienden a coincidir con valores bajos de la otra) Las relaciones lineales, cuando los puntos del diagrama de dispersin se sitan aproximadamente a lo largo de una recta, son una forma importante de relacin entre dos variables.

REGRESION SIMPLE. La naturaleza de la relacin puede tomar muchas formas, desde las sencillas hasta las extremadamente complicadas. La ms sencilla consiste en un lnea, es decir, una relacin lineal. Se establece que Y es una funcin de slo una variable independiente. Se le denomina tambin regresin bivariada, porque solo hay dos variables. Se represente por la formula. Y = f (X).

CORRELACION SIMPLE. Es cuando se estudia el grado de asociacin o dependencia entre dos variables. Se mide por un coeficiente de correlacin, representado por r.

Capitulo II Ecuacin de Regresin Simple


Es la ecuacin de una relacin entre dos variables; donde una depende de la otra. Pudiendo tomar distintas formas. En fin, ecuacin de regresin simple se refiere a aquella que puede ser representada en dos dimensiones dentro del diagrama de dispersin. La ecuacin de regresin de muestra que representa el modelo de regresin de lnea recta es:

i = bo + b1Xi
en la que i es el valor predicho de Y para las observaciones i. Con el propsito de predecir valores de Y, esta ecuacin requiere la determinacin de dos coeficientes: bo (la interseccin Y) y b1 (la pendiente). Cuando ya se han obtenido bo y b1 , se conoce la lnea recta y puede ser graficada en el diagrama de dispersin. El anlisis de regresin lineal simple tiene que ver con la bsqueda de la lnea recta que mejor se ajuste a los datos. El mejor ajuste significa que deseamos encontrar la lnea recta para la cual las diferencias entre los valores reales (Yi ) y los valores que serian predichos a partir de la lnea ajustada de regresin (i) sean lo mas pequeas posibles. Debido a que tales diferencias sern positivas y negativas para las diferentes observaciones, minimizamos matemticamente la expresin

en la que Yi = valor real de Y para la observacin i i = valor predicho de Y para la observacin i 6

Puesto que

i =b0 +b1Xi , se trata de minimizar la expresin

Que tiene dos incgnitas, b0 y b1 Una tcnica matemtica utilizada para determinar los valores de b0 y b1 que mejor se ajuste a los datos observados se conoce como mtodos de mnimos cuadrados. Cualquiera de los valores de b0 y b1 que sean diferentes a los determinados por el mtodo de mnimos cuadrados tendran como resultados una suma mayor de las diferencias al cuadrado del valor real de Y y su valor predicho. Al utilizar el mtodo de mnimos cuadrados ecuaciones conocidas como ecuaciones normales obtendremos las siguientes dos

Debemos resolverlas de manera simultanea para obtener b0 y b1 . Ya que se tienen dos ecuaciones con dos incgnitas, podemos resolverlas de la manera siguiente:

y
Examinando las ecuaciones, observamos que se tienen cinco cantidades que deben calcularse con el fin de determinar b0 y b1 . Estas son, n, el tamao de la muestra; , la suma de los valores X; la suma de los valores cuadrados de X,

, la suma de los valores de Y; y

, las suma de los productos cruzados de X y Y.

La deduccin de las formulas normales mediante el mtodo de mnimos cuadrados se realiza de la misma manera para otras funciones de grados superiores, logartmicas y potencial; con la cualidad de que tiene que estar en dos dimensiones,(x,y); para tres dimensiones requiere anlisis adicional.

CAPITULO III Modelos de Ecuacin Regresin Simple


En el diagrama de dispersin se puede observar un vago indicio del tipo de relacin que existe entre las variables. La naturaleza de la relacin puede tomar muchas formas, desde las sencillas hasta la mas complejas. La relacin mas sencilla consiste en una lnea o relacin lineal. De acuerdo a la forma que tome dicho diagrama as ser la funcin que se utilizar, de tal forma que describa adecuadamente la relacin entre las variables. Los siguientes son algunos ejemplos: Y = a + bx Y = a + bx + cx2 Y = abx Y = axb (ecuacin lineal) (ecuacin cuadrtica) (ecuacin exponencial) (ecuacin potencial o polinomial)

Modelo de Lnea Recta El modelo de lnea recta puede presentarse como:

Yi = 0 + 1Xi + i
En la que 0 = la interseccin Y para la poblacin 1 = pendiente de la poblacin i = error aleatorio en Y para la observacin i.

En este modelo, la pendiente de la recta 1 representa el cambio esperado en Y por unidad de cambio en X; es decir, representa la cantidad que cambia la variable Y (ya sea positiva o negativamente), con respecto a una unidad de cambio particular en X. Por otro lado, la interseccin en el eje Y, 0 , representa el valor promedio de Y cuando X es igual a cero. Adems, el ltimo componente del modelo, i , representa el error aleatorio en Y por cada observacin i que se presenta. El modelo matemtico apropiado que se debe seleccionar est influenciado por la distribucin de los valores de X y Y en el diagrama de dispersin. X Y 1 3 1.5 4 2 3 3 5 2.5 4 2.5 5 3.5 6 4 6 4.5 6.5 4.5 7 5 7 6 8 6.5 8 7.5 8 10 9

Al graficar en el diagrama de dispersin:

La forma que toma el diagrama de dispersin (nube de puntos sobre la grfica), sugiere que se puede aplicar una funcin lineal. En ese caso es posible utilizar el mtodo de mnimos cuadrados. hay otros mtodos adems de el mtodos mnimos cuadrado; pero es el 10

matemticamente ms exacto. La interpretacin de este mtodo esta en el capitulo anterior. (para el caso lineal)

Xi 1.0 1.5 2.0 3.0 2.5 2.5 3.5 4.0 4.5 4.5 5.0 6.0 6.5 8.0 7.5 62

Yi 3 4 3 5 4 5 6 6 6.5 7 7 8 8 10 9 91.52

XY 3 6 6 15 10 12.5 21 24 29.25 31.5 35 48 52 80 67.5 440.75

X2 1 2.25 4 9 6.25 6.25 12.25 16 20.25 20.25 25 36 42.25 64 56.25 321

91.5 = 15a + 62b 440.75 = 62a + 321b Se tiene que b = 0.97 y a = 2.09. La ecuacin de regresin queda as: Y = 2.09 +0.97X; si deseramos estimar cualquier de Y basta con conocer el de x y viceversa. Si quisiramos encontrar el valor en Y de X = 7 tendremos: Y = 2.09 + 0.97(7); Y = 8.88. Valor que no aparece en la tabla de valores, pero es la mejor estimacin, si los datos siguen la tendencia lineal. Modelo de Ecuacin Cuadrtica. 11

Existe tambin la regresin curvilnea, y dentro de esta se encuentra el caso parablico o funcin de segundo grado ( o cuadrtica) que podemos resolverla tambin con el mtodo de mnimos cuadrados. Calculemos la ecuacin de regresin para la siguiente informacin: Las cantidades pertenecen a la cantidad de una sustancia qumica en reaccin despus de X minutos.
Xi(minutos) Yi(gramos) 1.0 34 1.2 32 1.5 26 2.0 18 2.5 18 2.7 12 3.0 14 3.2 12 3.5 15 4.0 13 4.5 18 5.0 16 5.2 22 5.5 26 6.0 35

Graficamos:

Podemos observar que el diagrama toma forma de parbola, de aqu que ajustaremos una funcin de segundo grado: Yc = a + bx + cx2 . Para encontrar la ecuaciones normales mediante el mtodo de mnimos cuadrados. (Yi Yc)2 debe ser un mnimo. Entonces se tiene (Yi a bx cx2)2 si derivamos con respecto a a , b y c y dichas derivadas las igualamos a cero se obtienen las siguientes ecuaciones normales.

12

Calcularemos los datos necesarios para encontrar el valor de las constantes: Xi Yi 1 34 1.2 32 1.5 26 2 18 2.5 18 2.7 12 3.0 14 3.2 12 3.5 15 4 13 4.5 18 5 16 5.2 22 5.5 26 6 35 50.8 311 Sustituyendo en el sistema: 311 = 15a + 1038.1 = XY 34.0 38.4 39.0 36.0 45.0 32.4 42.0 38.4 52.5 52.0 81.0 80.0 114.4 143.0 210.0 1038.1 X2Y 34.00 46.08 58.50 72.00 112.50 87.48 126.00 122.88 183.75 208.00 364.50 400.00 594.88 786.50 1260.00 4457.07 X2 1.00 1.44 2.25 4.00 6.25 7.29 9.00 10.24 12.25 16.00 20.25 25.00 27.04 30.25 36.00 208.26 X3 1.000 1.728 3.375 8.000 15.625 19.683 27.000 32.768 42.875 64.000 91.125 125.000 140.608 166.375 216.000 955.162 X4 1.0000 2.0736 5.0625 16.0000 39.0625 53.1441 81.0000 104.8576 150.0625 256.0000 410.0625 625.0000 731.1616 915.0625 1296.0000 4685.5494

50.8b +

208.26c (1)

50.8a + 208.26b + 955.162c (2)

4457.07 = 208.26a + 955.162b + 4685.55c (3) Simultaneando para eliminar la constante a: 311 = 15a + 50.8b + 208.26c (-50.8) (15) 1038.1 = 15571.5 = -227.3 = Resolviendo (1) y (3): 311 = 15a + 50.8b + 208.26c (-208.26) 4457.07 = 208.26a + 955.162b + 4685.55c (15) -64768.86 = -3123.9a - 10579.608b - 43372.2276c 66856.05 = 3123.9a + 14327.430b + 70283.25c 2087.19 = 3747.822b + 26911.0224c (5) 13 50.8a + 208.26b + 955.162c 762a + 3123.90b +14327.430c 543.26b + 3747.822c (4)

- 15798.8 = - 762a 2580.64b 10579.608c

Resolviendo (4) y (5): -227.3 = 543.26b + 3747.822c (-3747.822) (543.26) 2087.19 = 3747.822b + 26911.0224c

851879.9406 = - 2036041.779b 14046169.75c 1133886.839 = 2036041.779b + 14619682.02c 1985766.779 = c = 1985766.779 ; c = 3.46 573512.28 Sustituyendo el valor c en (4): -227.3 = 543.26b + 3747.822(3.46); -227.3 = 543.26b +12967.46412; b = -13194.76412 ; b = - 24.29 543.26 Sustituyendo los valores de c y b en (1) tenemos 311 = 15a + 50.8(-24.29) + 208.26(3.46) ; 311 = 15a 1233.932 + 720.5796 a = 824.3524 ; a = 54.96 15 Entonces se tiene que: Yc = a + bx + cx2 ; Yc = 54.96 24.29x + 3.46x2; con esta ecuacin se puede estimar (predecir) cualquier valor de X comprendido entre 1.0 y 6.0. 573512.28c

Caso Exponencial: Yc = abx Es recomendado en el calculo de tasa de crecimiento, aunque es viable a cualquier otra variable. El siguiente cuadro contiene la informacin correspondiente al numero de palabras Y que un grupo de secretarias puede llegar a escribir de acuerdo al numero X de entrenamiento:

Xi

8 14

Yi

15

18

25

30

35

45

53

70

Siguiendo los valores nos damos cuenta que por cada unidad X hay un cambio mayor que proporcional en Y, pero es engaoso y es preferible graficar. Graficamos:

Esta informacin se ajusta a la funcin exponencial Yc = abx tenemos: aplicando logaritmos tenemos: log Yc = log abx ; aplicando propiedades de los logaritmos tenemos: log Yc = log a + x log b. debemos minimizar ( log Yi log Yc ) 2 . Sustituyendo tenemos que: ( log Yi log a x log b)2 ; Si derivamos con respecto a a y b e igualamos a cero tenemos las siguientes ecuaciones normales:

Realizaremos los calculo necesarios para despejar las a y b. 15

Xi 1 2 3 4 5 6 7 8 36

Yi 15 18 25 30 35 45 53 70 291

log Yi 1.1760913 1.2552725 1.3979400 1.4771213 1.5440680 1.6532125 1.7242759 1.8450980 12.0730795

X log Yi 1.1760913 2.5105450 4.1938200 5.9084850 7.7203400 9.9192750 12.0699313 14.7607840 58.2592716

X2 1 4 9 16 25 36 49 64 204

Sustituyendo los valores de la tabla en las ecuaciones (1) y (2): 12.0730795 = 8 log a + 36 log b (1) 58.2592716 = 36 log a + 204 log b (2) Multiplicando por - 9 la ecuacin (1) y por 2 la ecuacin (2): -108.6577155 = - 72 log a 324 log b 116.5185432 = 72 log a + 408 log b 7.8608279 = 84 log b

log b = 7.8608279 = 0.093581284 84 b = 1.240455773. Sustituimos este valor en la ecuacin (1): 12.0730795 = 8 log a + 36 log (1.240455773) 12.0730795 = 8 log a +3.368926246 log a = 8.704153254 = 1.088019157; a = 12.24670218. 8 Sustituyendo en Yc = abx ; Yc = (12.24670218)(1.240455773)x

16

Si necesitramos X= 2; Yc = (12.24670218)(1.240455773)2 ; Yc = 18.84; no es exactamente el valor de la tabla (18) pero es una buena aproximacin considerando que podremos estimar cualquier valor entre 1 y 8.

Caso Potencial o Polinomial: Yc = axb A la funcin Yc = axb le aplicamos logaritmos y tenemos; log Yc = log a + b log x. Como ( log Yi log Yc)2 debe se un mnimo. Al derivar con respecto a a y b tenemos:

Ahora ajustaremos una funcin potencial a un conjunto de datos, correspondientes al consumo y al ingreso( en unidades monetarias constantes) de cierta comunidad. Denominaremos X al ingreso y Y al consumo.

X Y

2.0 1.6

2.1 1.7

2.4 2.0

2.4 2.1

2.5 2.2

2.8 2.5

3 2.6

17

En el siguiente cuadro estn contenidos las columnas con las clculos necesarios para la aplicacin de las ecuacin de regresin. log X. log Y 0.061446 0.074255 0.114455 0.122511 0.136264 0.177942 0.197992 0.884865

Xi 2.0 2.1 2.4 2.4 2.5 2.8 3.0

Yi 1.6 1.7 2.0 2.1 2.2 2.5 2.6

log X 0.301030 0.322219 0.380211 0.380211 0.397940 0.447158 0.477121 2.705890

log Y 0.204120 0.230449 0.301030 0.322219 0.342423 0.397940 0.414973 2.213154

(log X)2 0.090619 0.103825 0.144561 0.144561 0.158356 0.199950 0.227645 1.069517

Sustituyendo en las ecuaciones normales: 2.213154 = 7 log a + 2.705890 b 0.884865 = 2.705890 log a + 1.069519b Resolviendo las ecuaciones mediante el mtodo de eliminacin por sustitucin llegamos a los siguientes valores: 18

b = 1.2472; log a = -0.166 ; a = 0.68234. la ecuacin de la regresin es Yc = 0.68234X1.2472 Podemos encontrar cualquier valor ente 2.0 y 3.0 inclusive. Para X = 2 ; Yc mediante la formula seria 1.62, y en la tabla esta 1.6; hay una diferencia de 0.02 que es la precisin que se pierde en el redondeo y es el riesgo que se corre al estimar. Para X = 3; Yc = 2.69; en cambio en la tabla (datos de origen) es 1.7. y de la misma manera nos es posible calculara cualquier valor de X dentro del intervalo. A pesar de que los diagramas de dispersin pueden ser especialmente tiles en la determinacin de la forma matemtica de la relacin, existen procedimiento estadsticos ms sofisticados a fin de determinar el modelo ms adecuado para un conjunto de variables, y no tener que deducir a ojo cual es el que mejor se adapta, ya que no siempre es obvio el modelo a seguir. Tal como fue en el caso anterior, en el que la grfica a simple vista describe una relacin lineal, y hasta podra confundirse con una relacin exponencial. En fin, la decisin se vuelve ms difcil en un intervalo corto con pocas observaciones.

Desviacin Estndar de Regresin. La desviacin estndar de regresin llamada tambin error estndar de estimacin se define como la desviacin tpica de las desviaciones de los valores de Yi con respecto a Yc en formula queda as:

Un mtodo simplificado siguiente formula.

para calcular el error estndar de regresin

lo da la

CAPITULO IV Coeficiente de Correlacin


19

Coeficiente de correlacin. Ya hemos dicho anteriormente, que la correlacin mide la intensidad o fuerza con que estn relacionadas las variables y ser medida por el coeficiente r de correlacin. Tipos de correlacin. Segn el nmero de variables que estudiamos, la correlacin puede ser: a) Correlacin simple. Cuando de estudia el grado de asociacin o dependencia entre dos variables. b) Correlacin mltiple: cuando se estudia el grado de asociacin que puede existir entre tres o mas variables; una de ellas dependiente y el resto independiente. c) Correlacin parcial: En el caso de la correlacin mltiple, es la cuantificaron del grado de asociacin neta entre dos variables, una vez eliminad estadsticamente la influencia de las otras variables independientes. Atendiendo la naturaleza de la funcin y segn el tipo de ecuacin y regresin, la correlacin puede ser rectilnea, parablica exponencial potencial etc. a) Correlacin directa o positiva: cuando ocurren aumentos o disminuciones en una variable ocurren tambin en la otra variable ya que su relacin es directamente proporcional. (Dependientes, independiente) b) Correlacin inversa o negativa: esta relacin es inversamente proporcional entre las variables (dependientes, independiente)

Calculo del coeficiente de correlacin r

20

Existen diversos coeficientes que miden el grado de correlacin, adaptados a la naturaleza de los datos. El ms conocido es el coeficiente de Pearson (introducido en realidad por Francis Galton), estudiaremos los siguientes mtodos: Con el mtodo producto - momento de Karl Pearson. Correlacin de rangos de Spearman

CALCULO DEL COEFICIENTE DE CORRELACIN POR EL MTODO PRODUCTO - MOMENTO DE KARL PEARSON Desarrollado por Karl Pearson a finales de siglo, y algunas veces se le llama el coeficiente de correlacin producto-momento de Pearson. Representado con una r, el coeficiente de correlacin puede asumir cualquier valor entre -1 y 1; es decir, -1 r 1 Un valor de r = -1 indica una relacin negativa perfecta entre X y Y, tal como se observa en la figura (a). Todas las observaciones quedan en lnea recta perfecta con una pendiente negativa. Por tanto, X y Y se movern en direcciones opuestas. La figura (b) muestra una relacin positiva perfecta entre X y Y con r = 1. Como se anot anteriormente, en toda relacin entre dos variables existe la posibilidad de que exista alguna variacin alrededor de la recta de regresin. Esto se observa en las figuras (c) y (d), las cuales muestran relaciones fuertes pero menos perfectas. En ambos casos el valor absoluto de r se aproxima a 1. Por el contrario, la figura (e) muestra muy poca o ninguna relacin entre X y Y, y r se aproxima a cero. En general, entre mayor sea el valor absoluto de r, ms fuerte ser la relacin entre X y Y.

(e) Poca o ninguna relacin; no se

(a) 5 2,5
42 3 1,5 21 1 0,5 00 00

(c)

Fuerte Relacin Positiva Relacin Negativa Perfecta r est cerca de +1 r = -1

(b) 5 5
4 4 3 3 2

(d)

Fuerte4 puede dibujar una recta de ajuste Relacin Negativa r 0 Relacin Positiva Perfecta r est cerca de-1 3 r= 1
2 1

Y = f(X)
Y = f(X)
0,5 1 12 1,5 3 2 2,5 4

1 0 0

Y = f(X)
02 3 13 4 24

21
3 4

Y = f(X) 0
1

Karl Pearson lleg a la siguiente formula abreviado par calcular el coeficiente r de correlacin.

Podemos observar en la formula que teniendo las columnas necesarias para calcular la ecuacin de regresin, y agregando nada ms la columna de los cuadrados de la variable dependiente Y, se tiene la informacin necesaria para calcular el valor r.

En el siguiente ejemplo calcularemos el coeficiente de correlacin con el mtodo estudiado anteriormente.

Calcular el coeficiente de correlacin para la siguiente informacin relativa a los tiempos de calentamientos (X), en minutos y los espesores de oxido (Y) de cierta pieza, medidos de Angstrom1.

Angstrom: medida de longitud del sistema mtrico, equivale a 0.1 de milimicra. Una milimicra = 0.000000001 metro. O tambin Angstrom = 0.000000001

22

Xi Yi

10 3.2

20 7.5

30 7.0

40 8.2

50 14.0

60 16.4

80 15.1

90 20

Solucin: En el siguiente cuadro aparecen todos los clculos pertinentes para calcular el valor de r.

X 10 20 30 40 50 60 80 90 380

Y 3.2 7.5 7.0 8.02 14.0 16.4 15.1 20.0 91.4 32 150 210 328 700 984 1,208 1,800 5,412 100 400 900 1,600 2,500 3,600 6,400 8,100 23,600 10.24 56.25 49.00 67.24 196.00 268.96 228.01 400.0 1,275.7

Clculo de r por el mtodo producto momento:

= 0.94

CORRELACIN DE RANGOS DE SPEARMAN. El mtodo de Pearson requiere valores numricos precisos y el supuesto de normalidad en la distribucin de tales valores. En muchos casos, tal medida numrica no 23

puede ser posible, y puede no existir confirmacin para el supuesto de normalidad. En tales casos, no puede utilizarse el mtodo de Pearson No obstante, se puede todava clasificar sistemticamente u ordenar las observaciones. Esta clasificacin ordinal permite medir los grados de correlacin entre dos variables utilizando el coeficiente de correlacin de rangos de Spearman que es una prueba no paramtrica que mide la asociacin o interdependencia entre dos variables continuas. Para calcular rs, los datos son ordenados y reemplazados por su respectivo orden. El estadstico rs viene dado por la expresin:

Donde:

rs = Coeficiente de correlacin ordinal o por rangos (llamado comnmente correlacin por rangos de Spearman. di = es la diferencia entre las clasificaciones para cada observacin. n = es el tamao de la muestra. La interpretacin de coeficiente de Spearman es igual que la del coeficiente de

correlacin de Pearson. Oscila entre -1 y +1, indicndonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlacin pero no independencia. Entonces, entre ms se acerca el valor de rs a 1, ms relacin hay entre las variables expresadas en rangos. Es importante aclarar que cuando dos o ms observaciones estn igualadas en orden, a cada una se le asigna una media de los rangos. Veamos primero un ejemplo donde no hay empates: El ao pasado, Amco Tech, un fabricante de microchips para computador en Estados Unidos, contrat a siete tcnicos en computacin. A los tcnicos se les practic un examen diseado para medir sus conocimientos bsicos. Despus de un ao de servicio, a su supervisor se le pidi clasificar el

24

desempeo laboral de cada tcnico. Los puntajes del examen y las calificaciones del desempeo para los siete empleados aparecen en la siguiente tabla:

Tcnicos J. Smith A. Jones D. Boone M. Lewis G. Clark A. Lincoln G. Washintong

Puntaje en el examen 82 73 60 80 67 94 89

Clasificacin del desempeo 4 7 6 3 5 1 2

Vale la pena observar que aunque el puntaje del examen es una medida cuantitativa de los conocimientos de los tcnicos, la clasificacin del desempeo es simplemente una medida ordenada por el supervisor para saber cules tcnicos se estaban desempeando laboralmente bien. Por tanto, el jefe de operaciones decide utilizar la correlacin de rangos de Spearman para determinar si existe alguna relacin entre los puntajes del examen y el desempeo laboral. El director debe desarrollar primero la clasificacin para los puntajes del examen. Tales clasificaciones, junto con algunos clculos necesarios aparecen en la tabla siguiente:

Tcnicos J. Smith A. Jones D. Boone M. Lewis G. Clark A. Lincoln G. Washington

Puntaje en el examen 82 73 60 80 67 94 89

Clasificacin en la prueba (X) 3 5 7 4 6 1 2 28

Clasificacin por el desempeo (Y) 4 7 6 3 5 1 2 28

X Y= di -1 -2 1 1 1 0 0 0

(X-Y)2 = di2 1 4 1 1 1 0 0 di2 = 8

Clculo de r por el mtodo de rangos de Spearman: 25

Sustituyendo la formula:

Observaciones: 1. La suma de los rangos de ambas variables es siempre igual. 2. La suma de las diferencias entre los rangos es siempre cero. 3. El coeficiente de correlacin r de Pearson de los rangos de las variables siempre es igual al coeficiente de correlacin rs de Spearman. 4. El coeficiente de correlacin de r de Pearson calculado en las variables originales es diferente del coeficiente rs de Spearman. Comprobacin de la observacin 3:
Tcnicos J. Smith A. Jones D. Boone M. Lewis G. Clark A. Lincoln G. Washintong Clasificacin en la prueba (X) 3 5 7 4 6 1 2 28 Clasificacin por el desempeo (Y) 4 7 6 3 5 1 2 28

XY 12 35 42 12 30 1 4 136

X2 9 25 49 16 36 1 4 140

Y2 16 49 36 9 25 1 4 140

26

Veamos otro ejemplo. La siguiente informacin corresponde al nmero de semanas de entrenamiento y el puesto (rango) que ha obtenido un grupo de corredores de seguros de la PALIC de acuerdo al volumen de ventas que han realizado durante seis meses:
Vendedor A. Villeda L. Flores M. Henrquez E. Escapini J. Prez H. Bonilla S. Miranda A. Armas D. Jimnez G. Mira. Semanas de entrenamiento (X) 5 10 10 30 25 16 20 8 6 4 Volumen de ventas expresadas en rango (Y) 10 4 6 1 3 5 2 8 9 7

De acuerdo con estos resultados, cree que vale la pena que los vendedores de la compaa se preocupen por recibir entrenamiento para aumentar sus ventas? Solucin: Un ndice para contestar la pregunta puede ser el conocimiento del coeficiente de correlacin por rangos de Spearman, que nos puede decir el grado de relacin existente entre entrenamiento y volumen de ventas. Para calcular el coeficiente por rangos tenemos que expresar las semanas de entrenamiento en rangos, dando el rango 1 a quien tiene ms entrenamiento. A continuacin se presentan, en el siguiente cuadro, los rangos correspondientes y el resto de columnas para llevar a cabo el clculo de rs.
Entrenamiento en rango (X) 10.00 4.00 6.00 1.00 3.00 Volumen de ventas en rango (Y) 9.00 5.50 5.50 1.00 2.00

Vendedor A. Villeda L. Flores M. Henrquez E. Escapini J. Prez

X Y= di 1.0 -1.50 0.50 0.00 1.00

(X-Y)2 = di2 1.00 2.25 0.25 0.00 1.00

27

H. Bonilla S. Miranda A. Armas D. Jimnez G. Mira.

5.00 2.00 8.00 9.00 7.00 55.00

4.00 3.00 7.00 8.00 10.00 55.00

1.00 -1.00 1.00 1.00 -3.00 0.00

1.00 1.00 1.00 1.00 9.00 17.50

Observemos que hay un empate en el quinto y sexto puesto (L. Flores y M. Henrquez); por eso les asignamos a cada uno la medio de los rangos, o sea (5+6)/2 = 5.50.

De acuerdo a este resultado, vale la pena el entrenamiento para mejorar las ventas.

CAPITULO V Pruebas de Regresin y Correlacin


Prueba de hiptesis en la regresin lineal simple. Una parte importante para evaluar la adecuacin del modelo de regresin lineal simple consiste en probar hiptesis estadsticas alrededor de los parmetros del modelo y en elaborar ciertos intervalos de confianza. Para verificar si un modelo lineal, de la forma y = A + Bx, la variable independiente x afecta la respuesta y, el parmetro B debe de ser diferente de cero. De otra forma se tendra y = A, y no habra una contribucin lineal de la variable x a la regresin. El procedimiento para inferir la verificacin consiste en comprobar el sistema de hiptesis.

28

La elaboracin de la prueba se basa en los estimadores mnimos cuadrticos a y b de la recta estimada = a+ bx, y en sus propiedades. Sealemos, sin demostracin, las siguientes propiedades de b las cuales se generalizan a todos los estimadores de los mnimos cuadrados. Propiedades de b b es un estimador insesgado de B: E(b) = B. Un estimador insesgado de la varianza de Y

es:

La varianza de b es:

La desviacin estndar de b es:

B sigue una distribucin normal con E(b) y Var(b). El estadstico sigue una ley de student con v = n 2 grados de libertad.

(Al nmero de observaciones se le resta 2 debido a que se han estimado los parmetros a y b de la recta de regresin). Una vez encontrado el error estndar se utiliza la siguiente ecuacin:

29

Prueba de hiptesis para correlacin. Esta prueba es equivalente a la prueba de hiptesis dada en la prueba de hiptesis de regresin.

La manera de calcular el error estndar para este tipo de prueba es:

Una vez determinada la ecuacin del error estndar para la correlacin se aplica la siguiente formula:

A continuacin presentaremos un ejemplo que abarca la prueba de hiptesis tanto para regresin como para correlacin Acciones del Banco Central de Reserva para frenar la inflacin. Despus de aproximadamente seis aos de expansin continuada, la economa salvadorea comenz a presentar signos de presiones inflacionarias en el verano de 1988. Un articulo de La Prensa Grfica, describi los esfuerzos del Banco Central por calmar estos aires inflacionistas. Esto deba hacerse restringiendo el suministro de dinero a travs del aumento de la tasa de descuento que la banca comercial debe pagar al Banco Central. En febrero de 1988, Carlos Ernesto Euceda, vicepresidente del Banco Central de Reserva, dijo en una audiencia, que las acciones referente a las tasas de descuento podran predecirse sobre la base de la tasa de los fondos estatales, la cual es el costo que los banco cobran entre ellos para los crditos de un da para otro. Los controladores de la reserva argumentaron que la tasa de los fondos no estaban sirviendo para predecir adecuadamente los cambios en la tasa de descuento, y que este comportamiento deficiente dificultaba a los inversionistas intentar predecir qu nivel de la tasa de inters permitira el Banco Central.

30

A continuacin se presentan los valores para la tasa de los fondos del Banco Central y la tasa de descuento desde mediados de 1987 hasta mediados 1988. Sustentan estos datos los cargos de los controladores de la reserva? Fecha Junio de 1987 Julio de 1987 Agosto de 1987 Septiembre de 1987 Octubre de 1987 Noviembre de 1987 Diciembre de 1987 Enero de 1989 Febrero de 1988 Marzo de 1988 Abril de 1988 Mayo de 1988 Total: Tasa de Fondos Estatales 8.0 7.5 7.0 6.5 6.0 6.0 7.0 6.0 7.0 7.5 7.0 7.5 83.0 Tasa de Descuento (%) 7.5 7.5 7.0 6.5 6.0 5.5 5.5 5.5 5.5 5.5 6.0 6.5 74.5

Debido a que Carlos Euceda argument que la tasa de los fondos federales podra explicar la conducta de la tasa de descuento, los fondos estatales se ven como variable independiente. La naturaleza de la relacin entre la tasa de fondos estatales y la tasa de descuento es analizable a travs del anlisis de regresin y correlacin. X = 83 Y = 74.5 Y2 = 469.5 = 6.21 n = 12

XY = 518.5 X2 = 579

SCx = X2 (X)2/n = 4.916666667 SCy = Y2 (Y)2/n = 6.72917 SCxy = XY (X) (Y)/n =3.20833 b1 = SCxy/ SCx b1 = 0.6525 31

b0 = 1.6949 Por tanto la ecuacin es: El coeficiente de determinacin es: = 0.3111 r = 0.56 Los controladores de la reserva tienen razn en su critica de la tasa de los fondos estatales como predictor de los cambios en la tasa de descuento. Solo el 31% de los cambios en la tasa de descuento se explican mediante los cambios en la tasa de los fondos estatales. Una medida de bondad de de ajuste que refleja la capacidad de la tasa de los fondos estatales para predecir la tasa de descuentos es el error estndar de estimacin. El error estndar de estimacin es:

= 4.63033 CME = SCE/(n-2) = 4.63033/(12-2) = 0.463033 Se = 0.6808 Tpicamente, el estimado de la tasa de descuento est en error en 0.68 de un punto porcentual. Una prueba de significancia del coeficiente de correlacin sera muy til en este punto. Sea el nivel de confianza 95%. Con 10 grados de libertad el valor crtico de t es por tanto 2.228. Las hiptesis son:

32

Regla de decisin: no rechazar la Ho si t est entre 2.228. De lo contrario rechazar.

= 0.56/0.2627 = 2.13 La hiptesis nula no debe rechazarse. A pesar del hallazgo muestral de una relacin positiva entre las tasas de fondos estatales y la tasa de descuento, no se puede rechazar la hiptesis de que no hay correlacin. El coeficiente de correlacin muestral no es significativo al nivel del 5%. Una prueba de la significancia del coeficiente de regresin de b1= 0.6525424 nos es til, y sabio. La prueba se realizar al nivel del 99%. Con 10 grados de libertad, el valor critico t es 3.169.

Regla de decisin: No rechazar si t est entre 3.169. De lo contrario rechazar.

En donde:

La hiptesis de que 1= 0 no debe rechazarse. El valor para b1 no es significativamente diferente de cero al nivel del 1%. Hay muy poca confianza o nada de confianza en la tasa de los fondos estatales como predictor de la tasa de descuento. Sera

33

imprudente de parte de los inversionistas confiar en los fondos estatales como indicador del comportamiento de la tasa de descuento y de otras tasas de inters.

Prueba de hiptesis para la correlacin de rangos de Spearman. Con frecuencia se desea comprobar la hiptesis de que el coeficiente de correlacin poblacional. es cero. Es decir, se desea determinar la probabilidad de que a pesar de los hallazgos de la muestra que sugiere una relacin entre el puntaje y la clasificacin, en realidad no existe tal relacin y = 0. Para las muestras pequeas (n<30). La distribucin de rs no es normal, ni la prueba t es apropiada. Para ello debemos utilizar la tabla que el anexo al final de este trabajo, es la tabla de correlacin de rangos de Spearman. Si n>30, la distribucin de rs se aproxima a la normalidad con una media igual a cero, y con una desviacin estndar de . El estadstico de prueba Z es:

34

CAPITULO VI Regresin Lineal Mltiple


Anteriormente se analizo como una sola variable explicativa podra utilizarse para predecir el valor de la variable dependiente. Se considera como mas poderoso podra volverse el modelo si se utilizaran mas variables explicativas. Esto es precisamente lo que el modelo de regresin lineal mltiple hace, permitiendo incorporar como: dos o ms variables independientes. El modelo de regresin mltiple con k variables independientes se expresa

En donde () son los coeficientes de regresin y () es el termino de error aleatorio. Se estima el modelo utilizando los datos mustrales as:

35

En donde es el valor estimado para la variable dependiente y bi

son los

estimados para los coeficientes poblacionales () y bi se denominan coeficientes parciales ( o netos) de regresin y tienen la misma interpretacin que en la regresin simple. Por tanto, bi,, es la cantidad por la cual Y1 cambiara si X1 cambia en una unidad asumiendo que todas las otras variables independientes se mantienen constantes. Adems de los supuestos establecidos en la regresin simple se establecen dos mas: el primer supuesto requiere que el numero de observaciones n , exceda el numero de variables independientes k, en por los menos 2, en la regresin mltiple hay k+1 parmetros por estimar: los coeficientes para las variables independientes k ms el intervalo del intercepto. Por tanto los grados de libertad relacionados con el modelo son g.l= n (K + 1). Si se va a retener incluso un grado de libertad, n manera que n (K + 1) es por lo menos 1. El segundo supuesto involucra la relacin entre las variables independientes requiere que ninguna de las variables independientes este linealmente relacionada. Por ejemplo, si X1= X2 + X3, o quiz X1 = 0.5 X2, entonces una relacin lineal existira entre dos o mas variables independientes y surgira un problema grave. Este problema es la multicolinealidad. Y este existe si dos o ms variables independientes estn relacionadas linealmente. La multicolinealidad puede hacer que los signos algebraicos de los coeficientes sean opuestos a lo que la lgica pueda dictar, mientras que incrementan bastamente el error estndar de los coeficientes. A los parmetros (j), j= 0. 1,, k, se les denomina coeficientes de regresin. A los parmetros (j), j= 0. 1, ,k, a veces se les denomina coeficientes parciales de regresin , debido a que describen el efecto parcial de una variable independiente cuando las otras variables independientes del modelo se conservan constantes. Los modelos de regresin lineal mltiple a menudo se utilizan como funciones de aproximacin. Esto es, se desconoce la verdadera relacin funcional entre y y x1, x2,. . . . . , 36 debe exceder a k en por lo menos 2, de

xK, pero sobre ciertos intervalos de valores de las variables independientes el modelo de regresin lineal es una aproximacin adecuada.

Desviacin estndar de regresin mltiple Se define como la desviacin tpica de las desviaciones de los valores de X1 con

respecto a los valores calculados Xic y se denota con el smbolo S1.23, donde el primer subndice indica la variable dependiente, y los subndices secundarios indican las variables independientes. Se calcula de una manera similar a la desviacin estndar de la regresin simple, o sea:

Tambin existe un mtodo valores de ( X1 X1c ) 2 :

abreviado para calcular este valor, sin calcular los

La desviacin estndar de regresin mltiple se usa como medida de la bondad de las estimaciones basadas en la ecuacin de regresin; entre menor sea el valor de S1.23 menor es la dispersin de los valores de X1 Con respeto a los valores estimados X1c ; y por lo tanto, las estimaciones de la variable dependiente sern ms confiables ; es decir, ms parecidas a los valores reales de X1.

Para calcular los estadsticos bo, b1, b2,., br, basta con extender el procedimiento de minimizacin de la suma de los cuadrados de los errores aleatorios

37

Las derivadas parciales de la SCE con respecto a cada uno de los estadsticos b j, j = 0,1,.r, igualadas a cero, originan un sistema de r + 1 ecuaciones con r + 1 incgnitas.

Ecuaciones normales para una regresin mltiple con r variables independientes.

Cuando solo hay dos variables independientes, el sistema completo de ecuaciones normales es como sigue: Ahora se presenta un sistema de ecuaciones normales para r 2

De acuerdo con esta ecuacin, todas las sumatorias, aun cuando no tengan subndices, se extienden a todas las observaciones desde i= 1, 2,.. n. Ahora bien el problema se reduce a resolver el sistema de ecuaciones normales para b 0, b1, y b2 y obtener la recta de regresin:

Nota que par r = 3 variables independientes, se debe resolver un sistema de r + 1 = 4 ecuaciones con 4 incgnitas, y as sucesivamente para r= 4, r= 5, etc. Por ende, es necesario aplicar algebra matricial para resolver los sistemas de ecuaciones normales resultante. 38

Ejemplo: Investigar si el salario mensual (Y) que devenga un trabajador, de una compaa depende directamente del numero de aos de educacin formal que ha recibido (X1 ), y del tiempo que lleva trabajando en la empresa (X2 ). Determinar una ecuacin lineal de Y sobre X1 y X2 para la siguiente muestra de 9 trabajadores (Y: en miles de dlares X1 y X2 : en aos ). Y X1 X2 Solucin: Para darle solucin a este ejercicio primero se hacen las sumatorias y las multiplicaciones respectivas de la siguiente manera: y 11.2 12.3 7.6 11.6 4.3 6.9 6.5 2.5 13.1 76 X1 16 18 17 18 13 16 16 8 16 138 X2 18 20 4 19 10 6 2 20 25 124 X1 y 179.2 221.4 129.2 208.8 55.9 110.4 104 20 209.60 1238.5 X12 256 324 289 324 169 256 256 64 256 2194 X1 X2 288 360 68 342 130 96 32 160 400 1876 X2 y 201.6 246 30.4 220.4 43 41.4 13 50 327.5 1173.3 X22 324 400 16 361 100 36 4 400 625 2266 11.2 16 18 12.3 18 20 7.6 17 4 11.6 18 10 4.3 13 10 6.9 16 6 6.5 16 2 2.5 8 20 13.1 16 25

Se harn las sustituciones de los valores encontrados en la ecuacin de los mnimos cuadrados para despus llevarlas a la forma de la ecuacin lineal estimada que se ha detallado anteriormente como resultado el sistema de ecuaciones nos queda de la siguiente manera: 76 = 9 bo + 138 b1 + 124 b2 39

1238.5= 138 b0 + 2194 b1 +1876 b2 1173.5= 124 b0 + 1876 b1 +2266b2

Las solucin a este sistema de ecuaciones mediante el mtodo de simultneo o de eliminacin arroja los siguientes resultados: bo = - 11.0592, b1 = 1.0267 , b 2 = 0.2730 Por lo tanto, la ecuacin de regresin viene dada por: = - 11.0592 + 1.0267 x1 + 0.2730 x2

Si X1 = X2 (un trabajador cuyos aos de trabajo con la empresa coinciden con los aos de educacin formal) la variable x1 es la que contribuye ms a una respuesta salarial

40

Capitulo VII Ejercicios Resueltos


Ejercicio de diagrama de dispersin. Dado los siguientes datos para X y Y X: 28, 54, 67, 37, 41, 69, 76. Y: 14, 21, 36, 39, 18, 54, 52. a. Haga un diagrama de dispersin para los datos: b. Qu sugieren los datos sobre una relacin entre X y Y? c. Hacer una recta para aproximar la lnea de relacin.

Sugieren una relacin lineal positiva.

41

Regresin con Mnimo Cuadrado. Un economista del Departamento de Recursos Humanos de Florida State est preparando un estudio sobre el comportamiento del consumidor. l recolect los documentos que aparecen en miles de dlares para determinar si existe una relacin entre el ingreso del consumidor y los niveles de consumo. Determine cul es la variable dependiente. Consumidor Ingreso Consumo 1 2 3 4 5 6 7 8 24.3 12.5 31.2 28.0 35.1 10.5 23.2 10.0 16.2 8.5 15 17 24.2 11.2 15 7.1 9 8.5 3.5 10 11 15.9 14.7 11.5 10.7 12 15 9.2

a. Haga un diagrama de dispersin para los datos. b. Calcule e interprete el modelo de regresin. Qu le dice este modelo sobre la relacin entre el consumo y el ingreso?, Qu proporcin de cada dlar adicional que se gana se invierte en consumo? c. Qu consumo pronosticara el modelo para alguien que gana US$27,500.00? Solucin:

42

a. Se determina que la variable dependiente es el consumo, debido a que las personas consumiran dependiendo del nivel de ingreso que posean; elaborando el diagrama de dispersin, se establece que posee un relacin lineal positiva

b. Clculo de la regresin.

Consumidor 1 2 3 4 5 6 7 8 9 10 11 12

Ingresos (X) 24.3 12.5 31.2 28.0 35.1 10.5 23.2 10.0 8.5 15.9 14.7 15.0 228.9

Consumo (Y) 16.2 8.5 15.0 17.0 24.2 11.2 15.0 7.1 3.5 11.5 10.7 9.2 149.1

XY 393.66 106.25 468.00 476.00 849.42 117.60 348.00 71.00 29.75 182.85 157.29 138.00 3,337.82

X2 590.49 156.25 973.44 784.00 1,232.01 110.25 538.24 100.00 72.25 252.81 216.09 225.00 5,250.83

Y2 262.44 72.25 225.00 289.00 585.64 125.44 225.00 50.41 12.25 132.25 114.49 84.64 2,178.81

43

Este modelo indica que si se mantiene constante el consumo, por cada aumento de $1,000.00 en el ingreso, se pronostica que las personas aumentaran su consumo en $558.00 c. Pronostico para alguien que gana US$27,500.00

Se pronostica que si obtiene un ingreso de $27,500.00, invertir en consumo $15,346.77.

Ejemplo de Regresin Simple, Desviacin Estndar de Regresin y Coeficiente de Correlacin de Pearson. La siguiente informacin corresponde a la temperatura (F) y a la dilatacin de un determinado material:
Temperatura Dilatacin 87 5.0 50 2.2 75 4.1 90 5.4 55 2.8 54 3.0 68 3.6 85 4.9 82 4.1 80 4.2 45 2.0 58 2.7 66 3.1

44

a. Determinar la ecuacin de regresin, usando como variable dependiente la que usted estime conveniente. b. Calcule la desviacin estndar de regresin. c. Calcule el coeficiente de correlacin.

a. Se determina que la variable dependiente es la dilatacin, debido a que determinado material se dilatar dependiendo de la temperatura en que se encuentre; entonces:

Temperatura (X) 87 50 75 90 55 54 68 85 82 80 45 58 66 895

Dilatacin (Y) 5.0 2.2 4.1 5.4 2.8 3.0 3.6 4.9 4.1 4.2 2.0 2.7 3.1 47.1

XY 435.0 110.0 307.5 486.0 154.0 162.0 244.8 416.5 336.2 336.0 90.0 156.6 204.6 3,439.2

X2 7,569.0 2,500.0 5,625.0 8,100.0 3,025.0 2,916.0 4,624.0 7,225.0 6,724.0 6,400.0 2,025.0 3,364.0 4,356.0 64,453.0

Y2 25.00 4.84 16.81 29.16 7.84 9.00 12.96 24.01 16.81 17.64 4.00 7.29 9.61 184.97

Sustituyendo en las ecuaciones normales:

Igualando a en la primera ecuacin.

45

Igualando b en la segunda ecuacin.

Igualando las ecuaciones para encontrar b

Encontrando a:

Finalmente la ecuacin de regresin queda as:

b. Desviacin estndar de la regresin Aplicando la formula abreviada:

c. Coeficiente de correlacin Aplicando el coeficiente de correlacin de producto- momento:

46

Ejercicio de coeficiente de correlacin por el mtodo de rangos de Spearman. La siguiente informacin corresponde a los costos y a las ventas, en miles de colones de 12 tiendas: Tiendas Costos (X) 1 11 2 10 3 14 4 13 5 12 6 20 7 21 8 15 9 22 10 18 11 19 12 16 Calcular el coeficiente de correlacin por rangos. Tienda s 1 2 3 4 5 6 7 8 9 10 11 12 Ventas (Y) 19 15 20 14 16 33 32 18 29 22 23 20

Costos (X) 11 10 14 13 12 20 21 15 22 18 19 16

Ventas (Y) 19 15 20 14 16 33 32 18 29 22 23 20

Rango X 11 12 8 9 10 3 2 7 1 5 4 6 78

Rango Y 8 11 6.5 12 10 1 2 9 3 5 4 6.5 78

(X-Y)= di 3 1 1.5 -3 0 2 0 -2 -2 0 0 -0.5 0

(X-Y)2=di2 9 1 2.25 9 0 4 0 4 4 0 0 0.25 33.5 47

Clculo de r por el mtodo de rangos de Spearman:

Sustituyendo la formula:

Finalizando con el valor del coeficiente

Ejercicio de regresin mltiple. Suponga que una compaa grande de productos de consumo desea medir la efectividad de los diferentes medios de propaganda en la promocin de sus productos. En especial, se van a estudiar dos tipos de medios de promocin: propaganda en radio y televisin y propaganda en peridicos (incluyendo el costo de los cupones de descuento). Se seleccion una muestra de 22 ciudades cuya poblacin es aproximadamente igual para realizar un estudio durante un periodo de prueba de un mes. A cada ciudad se le asign un nivel de gastos especfico para publicidad de radio y televisin y para publicidad en peridicos. Se registraron las ventas del producto (en millones de dlares) durante el mes de prueba, junto con los niveles de gastos de los medios, y se tuvieron los siguientes resultados:
Publicidad en Ventas (miles de Ciudad dlares) Publicidad en radio y televisin (miles de dlares) Publicidad en peridicos (miles de dlares) Ciudad Ventas (miles de dlares) Publicidad en radio y televisin (miles de dlares) peridicos (miles de dlares)

1 2 3 4 5 6 7 8 9 10

973 1,119 875 625 910 971 931 1,177 882 982

0 0 25 25 30 30 35 35 40 40

40 40 25 25 30 30 35 35 25 25

12 13 14 15 16 17 18 19 20 21

1,577 1,044 914 1,329 1,330 1,405 1,436 1,521 1,741 1,866

45 50 50 55 55 60 60 65 65 70

45 0 0 25 25 30 30 35 35 40 48

11

1,628

45

45

22

1,717

70

40

Lleve a cabo un anlisis de regresin lineal mltiple. Basndose en los resultados obtenidos: a. Establezca la ecuacin de regresin mltiple. b. Interprete el significado de las pendientes en este problema.

a. Calculo de la ecuacin de regresin mltiple: Establecemos las ventas (Y) como la variable dependiente y los gastos en publicidad en radio y televisin (X1) y los gastos en peridicos (X2) como las variables independientes a continuacin se elabora una tabla con los datos necesarios para establecer la ecuacin de regresin mltiple: Ciudad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Y 973 1,119 875 625 910 971 931 1,177 882 982 1,628 1,577 1,044 914 1,329 1,330 1,405 1,436 1,521 1,741 1,866 1,717 X1 0 0 25 25 30 30 35 35 40 40 45 45 50 50 55 55 60 60 65 65 70 70 X2 40 40 25 25 30 30 35 35 25 25 45 45 0 0 25 25 30 30 35 35 40 40 YX1 0 0 21,875 15,625 27,300 29,130 32,585 41,195 35,380 39,280 73,260 70,965 52,200 45,700 73,095 73,150 84,300 86,160 98,865 113,165 130,620 120,190 YX2 38,920 44,760 21,875 15,625 27,300 29,130 32,585 41,195 22,050 24,550 73,260 70,965 0 0 33,225 33,250 42,150 43,080 53,235 60,935 74,640 68,680 X1 0 0 625 625 900 900 1,225 1,225 1,600 1,600 2,025 2,025 2,500 2,500 3,025 3,025 3,600 3,600 4,225 4,225 4,900 4,900 X2 1,600 1,600 625 625 900 900 1,225 1,225 625 625 2,025 2,025 0 0 625 625 900 900 1,225 1,225 1,600 1,600 X1X2 0 0 625 625 900 900 1,225 1,225 1,000 1,000 2,025 2,025 0 0 1,375 1,375 1,800 1,800 2,275 2,275 2,800 2,800 49

26,953

950

660

11264,040 851,410

49,250

22,700

28,050

Sustituyendo en las ecuaciones:

(1) (2) (3) La solucin a este sistema de ecuaciones mediante el mtodo de eliminacin por sustitucin arroja los siguientes resultados: Igualando b0 en la ecuacin 1:

Igualando b0 en la ecuacin 2:

Simultaneando:

50

(4) Igualando b0 en la ecuacin 1:

Igualando b0 en la ecuacin 3:

Simultaneando:

(5)

Igualando b1 en la ecuacin 4:

Igualando b1 en la ecuacin 5:

Simultaneando:

51

Encontrando b1, sustituyendo b2 en la ecuacin 4.

Encontrando b0, sustituyendo b1 y b2 en la ecuacin 1.

Por lo tanto, la ecuacin de regresin viene dada por:

b. Este modelo indica que manteniendo constante los gastos de publicidad en peridicos, por cada aumento de $1,000.00 en la publicidad en radio y televisin, se predice que las ventas aumentaran en $ 13,092.90. Manteniendo los costos de publicidad en radio y 52

televisin constantes, por cada aumento de $1,000.00 en publicidad en peridico, se predice que las ventas aumentaran en $ 16,797.20.

Ejercicio de prueba de hiptesis. Los licenciados de estadstica de la UES estn realizando un estudio para analizar la relacin entre los ingresos de las personas y sus niveles de consumo. 11 consumidores reportaron las siguientes cifras en miles de dlares. Al nivel de significancia del 5%, El coeficiente de correlacin de rangos de Spearman sugiere alguna relacin? Ingresos Consum o Solucin: Se plantean las siguientes hiptesis. 97 55 58 63 69 54 47 37 58 45 38 38 91 71 67 52 68 53 47 37 48 37

La hiptesis nula implica que no existe relacin, y la alternativa expresa la existencia de relacin. En la siguiente tabla estn contenidos los datos necesarios para la aplicacin de la formula de correlacin por rangos de Spearman. Como los datos son 11 se establecen 11 rangos donde al mayor 97 se le asigna 1 y al menor 11.

53

Ingreso 97 58 69 47 58 38 91 67 68 47 48

Consumo 55 63 54 37 45 38 71 52 53 37 37

Rango X 1 6.5 3 9.5 6.5 11 2 5 4 9.5 8 66

Rango Y 3 2 4 10 7 8 1 6 5 10 10 66

di -2 4.5 -1 -0.5 -0.5 3 1 -1 -1 -0.5 -2 0

di2 4 20.25 1 0.25 0.25 9 1 1 1 0.25 4 42

Se utiliza la formula siguiente

Ya que n<30 se utiliza la tabla del anexo al final de este trabajo. Cuando n = 11 y a = 0.05, resulta un valor critico de 0.6091.

a = 0.025
Zona de no rechazo -0.6091

a = 0.025

0.6091 0.8091

Interpretacin: Dado que el valor calculado es mayor que el critico se rechaza la hiptesis nula, implica que si existe relacin entre ingreso y consumo. CONCLUSIONES En relacin a la regresin, surgen dificultades en relacin a la eleccin al tipo de modelo a elegir; es recomendable no realizar la eleccin del modelos de regresin a simple vista, ya que incluso un cambio en la escala en el diagrama de dispersin 54

ocasiona un efecto visual que resulta engaoso. Para el caso, grupo de datos que se puede adaptar a una distribucin exponencial, si dicha tendencia es poco marcada, podra suponerse que sigue una relacin lineal o incluso potencial. Hay casos que hasta la grfica resulta de utilidad limitada debido a que la grfica no muestra de manera clara la tendencia que sigue. Cabe recordar que un error en el mtodo aplicado no proporcionar los resultado ptimos.

La regresin es una tcnica que ayuda a la prediccin, pero no dice exactamente lo que ocurrir, dice lo que podra ocurrir, nos propicia elementos de juicio para decidir, pero lo que ocurrir con cualquier fenmeno no estar bajo el control total. Se puede estimar ventas por cierta cantidad, que ser til para establecer cuanto producir, mas no son garantas suficientes de que se darn la estimaciones.

Las predicciones minimizan los riesgos de errar en las decisiones, mas no los elimina; ningn mtodo o tcnica podr librarnos de nuestras malas decisiones. Adems de que el proceso de obtencin de los datos a utilizar como insumo para la prediccin podra ser subjetivo, y por ende no se lo suficientemente certero en los resultados.

Sujetarse demasiado en las predicciones, no es fundamento para

el desarrollo

creativo y decisiones novedosas, esto en el caso de las empresa, ya que no es base suficiente como para decidir quien esta siendo mas novedoso en el tiempo. Es decir que se ve limitado en el campo cualitativo.

La regresin al considerar de manera funcional las variables en estudio vuelve ms objetiva la manera de generar los elementos (ecuacin) para predecir valores dentro del intervalo. 55

Lo ms importante para determinar el coeficiente de correlacin depender de los datos que se estn estudiando, ya que si lo que se estudia son datos cuantitativos, la mejor forma de determinarlos sera por el mtodo de momento-producto de Karl Pearson; pero si los datos en estudio son cualitativos, no paramtricos, el mejor mtodo es el mtodo de rangos de Spearman.

Es posible realizar una aproximacin del mtodo de Spearman al mtodo de Pearson, una vez se le han asignado rangos a las observaciones, si no se realiza no ser adecuada la aproximacin. Con esto es posible el tratamiento de datos cualitativos con mtodos cuantitativos.

En la medida en que aumenta el numero de variables en la regresin mltiple, ms complicado y largos se vuelven las operaciones, siendo necesario incluso la aplicacin de matrices, mtodos computarizados y no siempre se tiene programas disponibles o para su utilizacin es necesaria especializacin.

Para comprobar si el modelo de regresin simple es el adecuado se puede aplicar pruebas de hiptesis estadsticas alrededor de los parmetros del modelo y en elaborar ciertos intervalos de confianza. Esto es como una manera de encontrar posibles errores en la eleccin del modelo aplicado, y volver lo ms acertada posible la regresin.

El mtodo matemticamente ms exacto para encontrar la funcin de la regresin es el mtodo de mnimos cuadrados. 56

Anexo I Tabla de correlacin de rangos de Spearman

57

Bibliografa
Bonilla, Gildaberto, Estadstica II mtodos prcticos de inferencia estadstica, 2da edicin, UCA editores, San Salvador, El Salvador 1992. Berenson, Mark L y Levine, M. David, Estadstica bsica en administracin, sexta edicin, Prentice Hall Hispanoamericana S.A, Mxico 1996 Heldebrand, K. David y Ott. Lyman, Estadstica aplicada a la administracin y a la economa, Pearson Prentice Hall, Tercera edicin, Mxico 1998. Hines , W. William y Montgomery, C.Douglas, Probabilidad y Estadstica para Ingeniera y Administracin, CECSA, Mxico 1987. Moore, S. David, Estadstica Aplicada Bsica, Espaa 1995 Salguero Hernndez, Jos Alberto, Elementos de Probabilidad y Estadstica, UCA editores, San Salvador, El Salvador, 2002. Spiegel, Murray R, Teora y Problemas de Probabilidad y Estadstica Mc. Grawhill, Mxico 2004. Webster, L.Allen, Estadstica Aplicada a los Negocios y la Economa, Tercera Edicin, Mc Grawhill, Colombia 2000 www.wikipedia.org www.monografias.com

58

Vous aimerez peut-être aussi