Vous êtes sur la page 1sur 85

ESTADSTICA,

aprenda usando la computadora

Fraccin para el curso Estadstica III, 09O Dr. ALBERTO CASTILLO MORALES
TABLA DE CONTENIDO
7. REGRESIN LINEAL 7.1. INTRODUCCIN 7.2. EL MODELO DE REGRESIN LINEAL 7.3. INTERPRETACIN DE LOS COEFICIENTES DE REGRESIN 7.3.1. Interpretacin de 0 7.3.2. Interpretacin de los coeficientes de regresin 1,2 y 3 7.3.3. Interpretacin de las estimaciones de los coeficientes de regresin 1,2 y 3 7.4. ESTIMACIN Y PRUEBAS DE HIPTESIS EN REGRESIN LINEAL 7.4.1. Estimacin en regresin lineal 7.4.2. Notacin general para regresin lineal 7.4.3. Pruebas de hiptesis parciales de regresin 7.4.4. Prueba de la hiptesis de regresin 7.4.5. R cuadrada 7.4.6. Estimacin de la media y prediccin 7.4.7. Residuales y suposiciones de distribucin 7.4.8. Valores atpicos y puntos de influencia 7.4.9. Multicolinealidad 7.4.10. Regresin lineal simple 7.4.11. Regresin cuadrtica 8. ANLISIS DE VARIANZA Y DISEOS EXPERIMENTALES 8.1. DISEOS COMPLETAMENTE AL AZAR Y BLOQUES AL AZAR 8.1.1. Anlisis del diseo completamente al azar con un factor 8.1.2. Anlisis del diseo completamente al azar con dos factores 8.1.3. Anlisis del diseo bloques al azar con un factor 8.1.4. Anlisis del diseo bloques al azar con dos factores ANEXO 1. SOLUCIN DE EJEMPLOS CON EXCEL Ejemplo. Regresin lineal 1 Ejemplo. Regresin lineal 2 Ejemplo. Regresin lineal simple Ejemplo. Regresin cuadrtica Ejemplo. Completamente al azar, un factor Ejemplo. Completamente al azar, dos factores Ejemplo. Bloques al azar, un factor Ejemplo. Bloques al azar, dos factores Clculo de percentiles y de significaciones muestrales ANEXO 2. INSTRUCCIONES DE NCSS Ejemplo. Regresin lineal 1 Ejemplo. Regresin lineal 2 Ejemplo. Regresin lineal simple Ejemplo. Regresin cuadrtica Ejemplo. Completamente al azar, un factor Ejemplo. Completamente al azar, dos factores Ejemplo. Bloques al azar, un factor Ejemplo. Bloques al azar, dos factores Uso del calculador de probabilidades 2 2 3 5 5 6 7 7 8 12 14 17 19 20 23 27 32 35 40 46 47 49 51 56 58 62 63 63 64 65 65 67 69 70 70 71 72 72 73 74 75 76 77 78 78

Alberto Castillo Morales

7. REGRESIN LINEAL
En este captulo se tratarn los procedimientos que relacionan a la media de una variable aleatoria cuantitativa continua, la variable respuesta, con una o ms variables cuantitativas no aleatorias, las variables explicativas. Debido a que en muchas aplicaciones la variable respuesta depende de las variables explicativas o independientes, a la variable respuesta tambin se le conoce como variable dependiente y a las variables explicativas como variables independientes. Usaremos variable respuesta y variables explicativas porque la regresin se refiere a una forma especfica de relacin entre las variables, que cuando no ocurre no excluye la posibilidad de que exista dependencia de otro tipo y cuando ocurre puede deberse a alguna forma de dependencia ms compleja que la que se identifica con la regresin.

7.1. INTRODUCCIN
El nombre de regresin se origina de una de las primeras aplicaciones del mtodo de anlisis, el investigador que hizo el estudio concluy que haba una regresin hacia la media; se populariz el nombre y se sigue usando. La parte lineal en el nombre de la regresin lineal proviene del tipo de ecuacin que relaciona a la media de la variable respuesta con los valores de las variables explicativas: una suma de trminos, cada uno formado por el producto de un coeficiente cuyo valor se desconoce y una variable explicativa. Puede ocurrir que haya solo una variable explicativa o dos o ms, eso depende del problema. Se conoce como regresin lineal mltiple al caso con ms de una variable explicativa y como regresin lineal simple al caso con slo una variable explicativa. En el texto usaremos regresin lineal para la regresin lineal, incluyendo los dos casos: mltiple y simple. Cmo es que la media de una variable aleatoria (la variable respuesta) toma valores que se modifican cuando cambian los valores de las variables explicativas? Algunos casos donde puede usarse regresin dan una idea: 1) 2) 3) 4) 5) La media del precio de un producto depende de la inflacin y del tipo de cambio, la media de rendimiento por hectrea de maz depende de la cantidad de fertilizante (nitrgeno, fsforo y potasio) que se adiciona al suelo, el peso promedio de los pollos depende de la cantidad de protenas en su dieta y de la edad en que se venden, la media de ventas de un perfume depende de la presentacin y de la inversin en publicidad, la media de aprovechamiento de los alumnos medido por un examen depende del tiempo dedicado a estudiar por el alumno, del tiempo dedicado a preparar el material por parte del profesor y de la calificacin del estudiante en los cursos previos, la media del tiempo para transportarse de casa al trabajo depende de la distancia y de la hora del da, la media de velocidad mxima que alcanza un modelo de vehculo depende de su peso, el tamao del motor y el coeficiente aerodinmico, la media de tarjetas de crdito vendidas por telfono depende del nmero de llamadas, del tiempo dedicado a cada llamada, del tiempo de entrenamiento que tuvieron los agentes, del monto del crdito que se ofrece y de los trmites que tiene que efectuar el cliente,

6) 7) 8)

Alberto Castillo Morales

9)

la media del incremento de ventas debido a la publicidad en televisin depende del tiempo que el spot mantiene la atencin del auditorio y de la audiencia de los programas donde se transmite,

10) la media de ventas mensuales logradas por los vendedores de la seccin de muebles de un almacn depende de su antigedad, de su formacin acadmica y de la superacin en ventas que han tenido en los ltimos meses, 11) la media del valor de venta de un automvil usado depende del precio inicial, de los aos de uso, de los kilmetros recorridos, del nmero de dueos que ha tenido y del monto gastado en sus servicios, 12) la media de la humedad en un cuarto de almacenamiento depende de la humedad ambiental, de la velocidad del viento con que se ventila y de la temperatura del cuarto, 13) la media de edad en que mueren los hombres de un pas depende del producto nacional, del porcentaje de producto nacional que se dedica a salud pblica y del porcentaje de alfabetizacin, 14) la media de consumo de electricidad en una ciudad depende de la duracin del da y de la temperatura ambiente, 15) la media del contenido de grasa en la leche producida por una vaca depende de la proporcin de alfalfa y de melaza en su dieta, el nmero de das que han transcurrido desde el parto y el nmero de parto, 16) el valor medio de una accin depende de las ganancias que anuncia la empresa, del crecimiento del producto interno neto y de la inflacin, 17) la media de la dureza de la tableta en que se presenta una medicina depende de la humedad contenida en la mezcla bsica, la temperatura y la presin de la elaboracin, 18) la media de baja de peso siguiendo un sistema de dieta depende de la edad, el peso inicial, el tiempo dedicado a ejercicio y el nmero de caloras extras consumidas sobre las indicadas por el nutricionista, 19) la media de la proporcin del monto total del crdito en la tarjeta que se paga mensualmente depende del saldo total, de los ingresos y del nmero de dependientes y 20) la media del valor por metro cuadrado de un inmueble depende de su antigedad, de su distancia a un centro comercial, del tamao del inmueble y de la relacin entre superficie total y superficie construida, etc.

7.2. EL MODELO DE REGRESIN LINEAL


El modelo de regresin lineal establece una relacin las variables explicativas con la media de la variable respuesta por medio de la ecuacin de regresin, adems especifica que la distribucin de la variable respuesta es normal con media dada por la ecuacin de regresin y varianza desconocida pero constante. Para facilitar la lectura de la presentacin de la regresin, al principio se usarn tres variables explicativas para expresar las ecuaciones, ms adelante se tendr el caso con un nmero indeterminado de ellas. La variable respuesta se denotar con la letra y mayscula con negrilla, Y, las variables explicativas se denotarn x1, x2 y x3, la letra x indica que es variable explicativa y el nmero despus de ella se usa para identificar a la variable, as x1 es la primera variable explicativa, x2 es la segunda y x3 es la tercera variable explicativa, en los ejemplos se ver que una vez que se conocen los nombres de la variable Alberto Castillo Morales

respuesta y las variables explicativas, conviene usar sus nombres abreviados o letras que a la vez que las representan sirven de ayuda para recordar sus nombres en lugar de Y, x1, x2 y x3. Como ya se hizo en secciones anteriores, la media de la variable Y se representa con , la letra griega mi, solo que ahora se incluye un subndice para especificar las variables que integran a la ecuacin de regresin usando una diagonal / para separar a la variable respuesta de las explicativas, as Y / x1 ,x 2,x 3 , es la media de la variable respuesta Y dados los valores de x1, x2 y x3, note que la diagonal se lee dados los valores de. Cuando el contexto es muy claro se escribe solo o Y y algunos textos usan E(Y). La ecuacin para la regresin de Y sobre x1, x2 y x3 es Y/x1,x2,x3 = 0 + 1 x1 + 2 x2 + 3 x3, es la letra griega beta y 0, 1, 2 y 3 son los coeficientes de regresin. Se desconoce el valor de los coeficientes de regresin 0, 1, 2 y 3 y se trata de obtener informacin sobre ellos por medio de una muestra y los mtodos estadsticos de regresin lineal. Note que cada sumando en la ecuacin es el producto de un coeficiente de regresin () y una variable explicativa (x), considere que 0 est multiplicado por una variable que vale uno en todos los casos particulares de la poblacin: 0 = (1) 0 . La ecuacin de regresin Y/x1,x2,x3 = 0 + 1 x1 + 2 x2 + 3 x3 da la forma de calcular el valor de la media Y/x1,x2,x3 de Y cuando se conocen los valores de las variables explicativas x1, x2 y x3 y los coeficientes de regresin 0, 1, 2 y 3. Al observar (medir los valores de las variables) un caso particular de la poblacin se conoce a los valores de las variables Y, x1, x2 y x3, pero no se conocen los valores de los coeficientes de regresin 0, 1, 2 y 3. La variable aleatoria Y se distribuye normal con media Y/x1,x2,x3 cuyo valor depende de los valores de las variables explicativas por medio de la ecuacin de regresin; se conoce la forma de la ecuacin de regresin pero se desconocen los valores de los coeficientes, tambin se desconoce el valor de la desviacin estndar y/x1,x2,x3, que no cambia con los valores de las variables explicativas como sucede con la media. Usando la nomenclatura de la distribucin normal, el modelo de regresin lineal con tres variables explicativas se representa como sigue Y ~ N(Y/x1,x2,x3 = 0 + 1 x1 + 2 x2 + 3 x3, 2Y/x1,x2,x3 ). La distribucin de Y es normal y se identifica con los parmetros desconocidos 0, 1, 2, 3 y Y/x1,x2,x3, note que la desviacin estndar de la regresin se representa con la letra griega con los mismos subndices que se usaron para denotar a la media, de este modo se enfatiza que esta desviacin estndar es diferente de la que tiene Y cuando no se toman en cuenta las variables explicativas. Para estimar a los parmetros desconocidos es necesario obtener una muestra de casos particulares de la poblacin y medir a cada caso las variables Y, x1, x2 y x3, luego con los datos se procede a la estimacin de los parmetros 0, 1, 2, 3 y Y/x1,x2,x3. Siguiendo la forma de representacin de los 0 , 1 , estimadores que se us en captulos anteriores, los estimadores de 0, 1, 2, 3 y Y/x1,x2,x3 son 2, 3 y sy/x1,x2,x3 respectivamente. La ecuacin de regresin estimada se obtiene escribiendo los estimadores en lugar de los parmetros 0 , 3 en lugar de Y/x1,x2,x3, 0, 1 , 2, Y / x 1,x 2,x 3 , en la ecuacin de regresin; as escribiendo 1, 2, 3 en Y/x1,x2,x3 = 0 + 1 x1 + 2 x2 + 3 x3 se obtiene la ecuacin de regresin estimada
0 + 1 x1 + 2 x 2 + 3 x3 . Y / x1,x 2,x 3 =

A la ecuacin de regresin estimada tambin se le conoce como regresin estimada, o ecuacin de prediccin.

Alberto Castillo Morales

Y / x1,x 2,x 3 de la media Y/x1,x2,x3 se representa a menudo como Y y La estimacin o Y x1 ,x 2,x 3 para cuando se hace referencia al caso i de la muestra, en consonancia con Yi, x1i, x2i y x3i,se usa Y i

Y / x1i ,x 2i ,x 3i , esta representacin facilita la lectura de las grficas pero da la impresin de representar a
Y / x 1,x 2,x 3 , o que se est estimando a un valor de la variable Y, por lo que preferimos usar

Y / x1i ,x 2i ,x 3i , que enfatiza que se est estimando al parmetro Y/x1,x2,x3, la media de la distribucin de Y
dados los valores de las variables explicativas. Con base en resultados tericos que no se van a presentar en el texto, se pueden hacer intervalos de confianza y pruebas de hiptesis para cada uno de los coeficientes de regresin 0, 1, 2 y 3, para la media Y / x1 ,x 2,x 3 de Y en valores establecidos de las variables explicativas x1, x2, x3 y para la varianza de la distribucin 2. Para hacer intervalos de confianza y pruebas de hiptesis sobre los valores de los parmetros Y/x1,x2,x3, 0, 1, 2 y 3, se utiliza el estimador sy/x1,x2,x3 de la desviacin estndar Y/x1,x2,x3, o haciendo referencia a la varianza, el estimador s 2y/x1,x2,x3 de la varianza 2Y/x1,x2,x3. En los anlisis de varianza que se presentan ms adelante s 2y/x1,x2,x3 se identifica como CME; cuadrado medio del error o cuadrado medio residual. Interesa conocer si alguno o algunos de los coeficientes de regresin valen cero y para este propsito se dispone de mtodos para probar las hiptesis nulas de que los coeficientes son cero, todos ellos (sin incluir 0) y cada uno de ellos por separado. Si no se rechaza la hiptesis de que los tres coeficientes de las variables x1, x2 y x3 son cero, se dice que no hay regresin y se concluye que la media de la variable respuesta no se modifica al cambiar los valores de las variables respuestas. Si no se rechaza la hiptesis de que uno de los coeficientes es cero, para fines prcticos se le considera cero y se le puede retirar de la ecuacin de regresin.

7.3. INTERPRETACIN DE LOS COEFICIENTES DE REGRESIN


Conviene saber interpretar los valores que toman los coeficientes de regresin, para que la notacin no interfiera se explicar usando slo tres variables explicativas, la media de la variable respuesta Y cuando las variables explicativas valen x1, x2 y x3 respectivamente, es Y/x1,x2,x3 = 0 + 1 x1 + 2 x2 + 3 x3. Recuerde que el subndice 1 en el coeficiente de regresin 1 identifica a la primera variable explicativa x1, el subndice 2 identifica a la segunda variable explicativa x2 y el subndice 3 identifica a la tercera variable explicativa x3, pero en un trabajo especfico cada variable tiene su nombre, si se sabe, por ejemplo, que la variable respuesta Y es gasto, la primera variable explicativa (x1) es la variable saldo, la segunda variable explicativa (x2) es edad y la tercera variable explicativa (x3) es nmero de hijos, se puede sustituir el subndice 1 por la palabra saldo, el subndice 2 se sustituye con la palabra edad y el subndice 3 se sustituye con la palabra hijos y en lugar de x1 se escribe el nombre de la variable: saldo, en lugar de x2 edad, en lugar de x3 hijos (abreviacin de nmero de hijos) y en lugar de Y gasto, entonces la ecuacin de regresin con estas variables se escribe Y/saldo,edad,hijos = 0 + saldo saldo + edad edad + hijos hijos, y la interpretacin se hace utilizando los nombres de las variables.

7.3.1. Interpretacin de 0
El coeficiente 0 (beta cero) se conoce como ordenada al origen o constante y es el valor que toma la media Y/x1,x2,x3 cuando las tres variables x1, x2 y x3 valen cero. Si 0 vale cero, la variable Y tiene media cero cuando las tres variables x1, x2 y x3 valen cero y si 0 vale 25, la variable Y tiene media 25 cuando las tres variables x1, x2 y x3 valen cero.

Alberto Castillo Morales

7.3.2. Interpretacin de los coeficientes de regresin 1,2 y 3


Los coeficientes 1, 2 y 3 multiplican a las variables explicativas: 1 multiplica a x1, 2 multiplica a x2 y 3 multiplica a x3. Primero revisemos el caso en que un coeficiente vale cero. Si uno de los coeficientes, vale cero, al multiplicarlo por la variable explicativa produce cero sin importar el valor de la variable; el trmino donde interviene el coeficiente es cero y se puede eliminar de la ecuacin: 1) Si 1 vale cero (1=0), el producto 1 x1 es cero y el trmino 1 x1 se puede quitar de la ecuacin de regresin Y/x1,x2,x3 = 0 + 1 x1 + 2 x2 + 3 x3, que se reduce a Y/x1,x2,x3 = 0 + 2 x2 + 3 x3. 2) Si 2 vale cero el producto 2 x2 es cero y el trmino 2 x2 se puede quitar de la ecuacin de regresin Y/x1,x2,x3 =0 + 1 x1 + 2 x2 + 3 x3, que sin el trmino 2 x2 se reduce a Y/x1,x2,x3 = 0 + 1 x1 + 3 x3. 3) Si 3=0 el producto 3 x3 es cero y el trmino 3 x3 se puede quitar de la ecuacin de regresin Y/x1,x2,x3 = 0 + 1 x1 + 2 x2 + 3 x3, quedando el modelo reducido a Y/x1,x2,x3 = 0 + 2 x2 + 2 x2. Puede suceder que dos o ms coeficientes de regresin valgan cero, en este caso los trminos correspondientes se pueden eliminar de la ecuacin de regresin. Si los tres coeficientes 1, 2 y 3 valen cero, la ecuacin de regresin se reduce a Y/x1,x2,x3 = 0 y la media de Y es constante, vale 0, sin importar los valores que tomen las variables explicativas x1, x2 y x3. El valor de un coeficiente de regresin es igual a la magnitud del cambio de la media cuando a la variable que multiplica al coeficiente se le suma una unidad, manteniendo constantes a las dems variables explicativas. Ejemplo. Coeficiente de regresin y magnitud de cambio unitario Suponga que en la ecuacin de regresin Y/x1,x2,x3 = 0 + 1 x1 + 2 x2 + 3 x3 el coeficiente 1 vale 2: 1= 2, entonces se tiene Y/x1,x2,x3 = 0 + 2 x1 + 2 x2 + 3 x3. Si x1 vale 4, la media Y/x1=4,x2,x3 vale Y/x1=4,x2,x3 = 0 + 2 4 + 2 x2 + 3 x3 = 0 + 8 + 2 x2 + 3 x3 y si x1 se incrementa una unidad y pasa al valor 5, la media cambia su valor a Y/x1=5,x2,x3 = 0 + (2)(5) + 2 x2 + 3 x3= 0 + 10 + 2 x2 + 3 x3. Para conocer la magnitud del cambio se resta el valor de la ecuacin con x1=4 del valor de la ecuacin con x1=5, resulta Y/x1=5,x2,x3 - Y/x1=4,x2,x3 =2; la media modifica su valor por la cantidad 1= 2. En general, si j es el coeficiente de xj y el valor de xj se modifica sumndole una cantidad K, la media se modifica K xj. Si el coeficiente de regresin j es mayor que cero, o positivo, entonces el cambio de magnitud de la media tiene el mismo signo que el cambio de magnitud de la variable xj, se dice que al crecer el valor de la variable explicativa crece el valor de la media. Si el valor del coeficiente de regresin j fuera menor que cero o negativo, el signo de suma en la ecuacin de regresin se transforma en signo de resta y cuando xj crece la media decrece. Ejemplo. Coeficiente de regresin y magnitud de cambio unitario Suponga que en la ecuacin de regresin Y/x1,x2,x3 = 0 + 1 x1 + 2 x2 + 3 x3 el coeficiente 1 vale -3: 1= -3, entonces se tiene Y/x1,x2,x3 = 0 -3 x1 + 2 x2 + 3 x3. Si x1 vale 4, la media Y/x1=4,x2,x3 vale Y/x1=4,x2,x3 = 0 (3)(4) + 2 x2 + 3 x3 = 0 -12 + 2 x2 + 3 x3, si x1 se incrementa una unidad y pasa al valor 5, la media cambia su valor a Y/x1=5,x2,x3 = 0 (3) (5) + 2 x2 + 3 x3= 0 + 15 + 2 x2 + 3 x3. Para conocer la magnitud del cambio se resta el valor de la ecuacin con x1=4 del valor de la ecuacin con x1=5, resulta Y/x1=5,x2,x3 - Y/x1=4,x2,x3 =-3; cuando x1 incrementa su valor por una unidad, la media modifica su valor por la cantidad 1= -3, disminuye su valor tres unidades. Ejercicio Alberto Castillo Morales

En los dos ejemplos anteriores vea que si x1 vale 100 e incrementa su valor a 101, el cambio en el valor de la media es igual al valor del coeficiente de regresin. Tambin comprueba que si x1 vale 100 e incrementa su valor a 110 (incrementa su valor sumndole la constante K=10), el cambio en el valor de la media es igual al valor del coeficiente de regresin multiplicado por 10. Lo mismo que se vio para 1 se aplica a los dems coeficientes. Si 2 vale 83, por cada incremento de uno que tenga x2 la media crecer 83. Si 2 vale -0.07, por cada incremento de uno que tenga x2 la media disminuir 0.07.

7.3.3. Interpretacin de las estimaciones de los coeficientes de regresin 1,2 y 3


Las estimaciones de los coeficientes de regresin tienen la misma interpretacin que se hizo de los coeficientes de regresin, los valores de las estimaciones estn en la ecuacin de la regresin ajustada 0 + 1 x1 + 2 x 2 + 3 x 3 dando valores a los estimadores 3 . Si los tres 1 , 2, Y / x1,x 2,x 3 = 3 valen cero, la media estimada 0 , , Y / x1,x 2,x 3 vale coeficientes de regresin estimados
1 2

. La estimacin de un coeficiente puede ser mayor que cero o menor que cero, se acostumbra decir positivo o negativo (+ o ). Si es mayor que cero indica que la media crece cuando la variable correspondiente crece y si es menor que cero entonces la media decrece cuando la variable crece y cuando la variable explicativa crece una unidad la media estimada crece o decrece tanto como valga la estimacin del coeficiente. Debido a que cada coeficiente de regresin depende de las unidades de medida que se usaron al definir la variable explicativa y la variable respuesta, se ide una versin estandarizada del coeficiente que no dependa de las unidades de medida: el coeficiente estandarizado. Su valor se obtiene multiplicando la estimacin del coeficiente por la desviacin estndar de la variable explicativa y dividiendo este resultado entre la desviacin estndar de la variable respuesta, as, el coeficiente de regresin estandarizado j,estndar que corresponde a la variable explicativa xj es j,estndar = j s xj / s Y , en donde sxj es la desviacin estndar de xj en la muestra y sY es la desviacin estndar muestral de Y.

7.4. ESTIMACIN Y PRUEBAS DE HIPTESIS EN REGRESIN LINEAL


Las ecuaciones para obtener las estimaciones de los parmetros y hacer pruebas de hiptesis en regresin lineal con ms de una variable explicativa utilizan nomenclatura que va ms all de los objetivos de este libro. Los resultados de las estimaciones y las pruebas de hiptesis de regresin lineal que presenta la paquetera estadstica y la computadora, se basan en los resultados tericos que garantizan las mejores estimaciones y pruebas (vea Martnez G.A. y Castillo M.A. 1987). Con base en lo anterior se presentarn los listados de computadora con los resultados de estimacin y pruebas de hiptesis, discutiendo la forma correcta de utilizarlos. Para facilitar a los lectores el paso a otros libros de texto, se presentarn con detalle los mtodos de estimacin y pruebas de hiptesis para regresin lineal simple (una variable explicativa) en la seccin 7.4.10.

7.4.1. Estimacin en regresin lineal


En un problema de regresin lineal se define la variable respuesta y las variables explicativas, se especifica el modelo de regresin: la ecuacin de regresin y la distribucin normal con varianza Alberto Castillo Morales

constante de la variable respuesta, se toma una muestra y se pide al paquete estadstico la ecuacin de regresin estimada y las pruebas de regresin en el procedimiento de regresin mltiple, especificando la variable respuesta y las variables explicativas. PARMETROS Y ESTIMADORES EN LA REGRESIN DE Y SOBRE x1, x2,..., xk.

Y ~N ( Y / x1,x2,...,xk =0 +x1x1+x2 x2 +... +xkxk , 2 Y / x1 ,x2,...,xk )


PARMETRO ESTIMADOR

0 x1 1 x2 2
...

0 x1 x2
...

xk k
2 Y/x1,x2,x3

xk

CME = CMError = S 2 Y / x 1, x 2 ,..., xk


2 S 0

2 0 2 x1 2 x2

2 S x1 2 S x2

...

...
2 xk 2 S xk

0 + x1 x1 + x 2 x 2 +... + xk xk Y / x1, x 2 ,..., xk = 0 + x1 x1 + x 2 x 2 + ... + xk xk Y / x1, x 2 ,..., xk =


para valores de x1,x2,...,xk dados
2

para valores de x1,x2,...,xk dados, tambin se usa + x1+ x2 +... + xk = Y 0 x1 x2 xk


2 S
Y / x 1 , x 2 ,..., xk

Y / x 1 , x 2 ,..., xk

, para valores de x1,x2,...,xk dados

, para valores de x1,x2,...,xk dados

Prediccin de Yx1,x2,...,xk para valores de x1,x2,...,xk dados

S2 prediccin _ de _ Y / x 1, x 2 ,..., xk

para valores de x1,x2,...,xk dados Nota: Las ecuaciones de clculo se representan usando notacin matricial y no se ven en el texto. En un problema especfico se sustituyen por Y, x1, x2, ..., xk los nombres de las variables. Las estimaciones, o valores que toman los estimadores en los datos se obtienen con un paquete estadstico.

Ejemplo. Regresin lineal 1. Estimacin Nitrgeno, fsforo y potasio son tres nutrientes que determinan el rendimiento de grano de trigo. En un estudio se usaron tres dosis de cada uno de los tres nutrientes mencionados y se tuvieron 27 parcelas de cuatro metros cuadrados, en cada una de ellas se adicion una de las 27 combinaciones de dosis de nutrientes, al trmino del cultivo se cosech el trigo y se midi la cantidad de grano producido en cada parcela; las dosis de los nutrientes y el peso del grano cosechado se expresan en kilogramos por hectrea. Los datos se presentan en la tabla siguiente, la base de datos tiene la misma estructura que la tabla, con cuatro columnas, una para cada variable y 27 renglones con datos, uno por cada caso. Nitrgeno (N) kg/ha 80 80 80 Alberto Castillo Morales Fsforo (F) kg/ha 60 60 60 Potasio (P) kg/ha 40 80 120 Grano (G) kg/ha 4216.7 4903.9 5756.6

80 80 80 80 80 80 120 120 120 120 120 120 120 120 120 160 160 160 160 160 160 160 160 160

90 90 90 120 120 120 60 60 60 90 90 90 120 120 120 60 60 60 90 90 90 120 120 120

40 80 120 40 80 120 40 80 120 40 80 120 40 80 120 40 80 120 40 80 120 40 80 120

5109.7 4858.8 5094.1 5215.3 5385.0 6495.8 5976.0 5396.0 4114.5 5437.0 4913.6 8217.8 6288.3 7511.3 7731.1 7007.9 6556.4 6879.8 6760.3 6209.1 6988.8 7283.6 6509.5 8368.7

La zona de exploracin que cubren las variables explicativas est dada por los valores que toman en la muestra; una forma fcil pero a veces demasiado optimista de aproximar la zona de exploracin consiste en tomar los valores mnimo y mximo de cada variable explicativa. En este ejemplo Nitrgeno explora el intervalo de 80 a160, Fsforo explora el intervalo de valores entre 60 y 120 y Potasio explora el intervalo de 40 a 120 kg/ha. El modelo de regresin lineal, usando la primera letra de cada variable explicativa en los subndices es:

G / N,F,P = 0 + N Nitrgeno + F Fsforo + P Potasio ,


y la distribucin de la variable respuesta G es normal con desviacin estndar constante G ~ N(G/N,F,P = 0 + 1Nitrgeno+ 2Fsoforo+ 3Potasio, 2G/N,F,P). Se pide la regresin al paquete estadstico especificando que la variable respuesta es el peso del grano y las variables explicativas son Nitrgeno, Fsforo y Potasio. La regresin tiene muchas opciones para los reportes, por ahora, asegrese de pedir la ecuacin de regresin ajustada y los valores de los estimadores de los coeficientes de regresin. La ecuacin de regresin ajustada se obtiene sustituyendo los valores de las estimaciones de los coeficientes de regresin en
0 + N Nitrgeno + F Fsforo + P Potasio . G / N,F,P =

El listado de regresin reporta la estimacin del modelo, incluyendo la ecuacin: Modelo = 1160.663+ 21.56694*Nitrgeno+ 18.48296*Fsforo+ 8.822778*Potasio Seccin de coeficientes de regresin Variable Coeficiente Error Alberto Castillo Morales Intervalo de confianza Coeficiente

Independiente Constante Nitrgeno Fsforo Potasio

de regresin 1160.663 21.56694 8.822778

estndar 874.4293 4.591672 18.48296 4.591672

95% mnimo -648.2318 12.06835 6.122229 -0.6758194

95% mximo 2969.558 31.06554 5.818167 18.32137

estandarizado 0.0000 0.6174 31.14776 0.2526

En el listado que est arriba se reporta el modelo estimado sin especificar la variable respuesta, hay que agregarla para tener la ecuacin completa, usando tres cifras decimales se obtiene:

G / N,F,P = 1160.603 + 21.567 Nitrgeno + 18.483 Fsforo + 8.823 Potasio .


Los valores de los coeficientes de regresin tambin estn en la segunda columna de la seccin de coeficientes de regresin. Recuerde que esta ecuacin estimada a veces se escribe (es un defecto de notacin que es muy popular) usando el nombre de la variable respuesta en lugar de la media, queda como sigue
G N,F,P = 1160.603 + 21.567 Nitrgeno +18.483 Fsforo + 8.823 Potasio .

En la ecuacin se ve que en caso de no adicionar Nitrgeno, Fsforo ni Potasio se obtiene una media de 1160.603, siempre que el modelo no cambie con valores de los nutrientes menores que los cubiertos por la zona de exploracin. Cuando la dosis de Nitrgeno aplicado sube un kg/ha y las otras dos variables explicativas se mantienen constantes la media del peso de grano sube 21.567, de igual forma, cuando la dosis de Fsforo sube un kg/ha la media de la produccin de grano sube 18.483 y cuando el Potasio sube una unidad (1kg/ha) la media del peso de grano sube 8.823.

Ejemplo. Regresin lineal 2. Estimacin Un investigador est convencido que el gasto que por medio de tarjetas de crdito depende del ingreso, de la escolaridad en aos cumplidos y de la edad. Para probar su hiptesis selecciona viviendas de su colonia y entrevista a 50 personas que tienen tarjeta de crdito. La base de datos consiste de cuatro columnas y 50 renglones, hay una columna para cada variable y cada rengln tiene los datos de un caso observado. Los datos son: Ingreso (In) 57000 37000 70000 56000 36000 50000 47000 63000 43000 74000 45000 54000 44000 62000 60000 Alberto Castillo Morales Escolaridad (Es) 12 25 12 21 21 15 21 24 21 21 24 12 14 20 21 Edad (Ed) 41 43 37 41 41 48 36 62 53 47 48 33 31 57 36 Gasto (Ga) 9691 5273 14570 13407 9547 17200 14816 11957 8897 11513 8080 19306 12412 13402 21680

10

52000 53000 71000 32000 26000 45000 33000 38000 40000 39000 25000 34000 25000 28000 27000 41000 55000 71000 59000 28000 45000 22000 66000 56000 38000 39000 47000 32000

12 45 15 36 15 31 12 46 15 32 13 38 21 29 12 36 21 38 12 47 21 40 23 40 12 36 12 62 15 49 12 37 19 39 21 32 21 37 24 36 26 39 21 53 23 53 12 50 21 58 26 60 15 39 15 40 Contina en la pgina siguiente viene de la pgina anterior Ingreso (In) 17 15 13 12 15 12 15 viene de la pgina anterior Ingreso (In) 35 40 28 30 29 32 37

14500 13624 17903 10096 9296 16830 11731 18223 7360 11859 3500 4720 6700 5928 5068 24391 7335 16636 3329 8464 12665 12738 14854 11840 2572 2300 9599 10440

viene de la pgina anterior Ingreso (In) 58000 59000 31000 42000 30000 35000 44000

viene de la pgina anterior Ingreso (In) 12810 14780 7664 13859 4610 9759 8084

El modelo de regresin lineal, usando las dos primeras letras de cada variable explicativa en los subndices es :

Ga / In,Es,Ed = 0 + In Ingreso + Es Escolaridad + Ed Edad ,


y la distribucin de la variable respuesta Gasto es Ga~N(Ga/In,Es,Ed=0 + 1Ingreso+ 2Escolaridad+ 3Edad, Ga/In,Es,EdGa/In,Es,Ed). Se pide la regresin al paquete estadstico especificando que la variable respuesta es Gasto y las variables explicativas son Ingreso, Escolaridad y Edad. En las opciones para los reportes asegrese de pedir las estadsticas descriptivas, la ecuacin de regresin ajustada y los valores de los

Alberto Castillo Morales

11

estimadores de los coeficientes de regresin. La ecuacin de regresin ajustada se obtiene sustituyendo los valores de las estimaciones de los coeficientes de regresin en
0 + In Ingreso + Es Escolaridad + Ed Edad . Ga / In,Es,Ed =

El listado de regresin siguiente reporta que la zona de exploracin se define de manera aproximada por los valores mnimos y mximos de las variables explicativas, en la seccin de estadstica descriptiva del listado se ve que Ingreso va de 220000 a 74000 pesos, Escolaridad de 12 a 26 aos y Edad de 28 a 62 aos. Seccin de estadstica descriptiva # Error Variable casos Media estndar Ingreso 50 45280 13890.3 Escolaridad 50 17.4 4.659859 Edad 50 41.26 8.973453 Gasto 50 11156.36 4961.176

Mnimo 22000 12 28 2300

Mximo 74000 26 62 24391

Modelo = 12241.47+ .1806884*Ingreso-298.2538*Escolaridad-98.81403*Edad Seccin de coeficientes de regresin Variable Coeficiente Error Independiente de regresin estndar Constante 12241.47 3522.393 Ingreso 0.1806884 4.201554E-02 Escolaridad -298.2538 131.3907 Edad -98.81403 68.06369 Intervalo de confianza 95% mnimo 95% mximo 5151.263 19331.68 9.611555E-02 0.2652613 -562.7295 -33.77815 -235.8191 38.19106 Coeficiente estandarizado 0.0000 0.5059 -0.2801 -0.1787

El NCSS reporta el modelo estimado sin especificar la variable respuesta, hay que agregarla. Los valores de los coeficientes tambin estn en la segunda columna de la seccin de coeficientes de regresin. Usando cuatro cifras decimales se escribe: Ga / In,Es,Ed = 12241.47 + 0.1807 Ingreso 298.2538 Escolaridad 98.8140 Edad .
o = 12241.47 no debe interpretarse como el El valor de la estimacin de la ordenada al origen valor que tomara la media del gasto cuando el ingreso, la escolaridad y la edad valen cero, ya que son valores no cubiertos por la zona de exploracin y al estudioso de las tarjetas de crdito no le interesan las personas con ingreso cero, mucho menos con edad cero. Dentro de la zona de exploracin, cuando el ingreso aumenta un peso y la escolaridad y la edad se mantienen constantes, la media del gasto aumenta 0.1807 pesos, o mejor, cuando el ingreso aumenta 1000 pesos la media de Gasto aumenta 180.70 pesos (10000.1807 = 180.7). El coeficiente de escolaridad est precedido por el signo menos, as que cuando la escolaridad se incrementa un ao y se mantienen constantes el ingreso y la edad, la media del gasto disminuye 298.2538 pesos y finalmente al aumentar un ao la edad manteniendo sin variacin el ingreso y la escolaridad la media del gasto disminuye 98.8140 pesos. Llama la atencin que los coeficientes de escolaridad y edad sean menores que cero; al incrementarse el valor de la variable disminuye el gasto con tarjeta.

Note que en la seccin de coeficientes de regresin se reporta el intervalo de confianza para cada coeficiente de regresin y el coeficiente de regresin estandarizado, que se dise para comparar coeficientes de variables explicativas que se miden con diferentes unidades de medida. En este ejemplo las unidades de medida pesos y aos son diferentes y los coeficientes estandarizados dan una idea ms clara de la importancia de las variables explicativas que los estimadores de los coeficientes, en este ejemplo el coeficiente de regresin estandarizado con mayor valor absoluto es el de ingreso. Alberto Castillo Morales

12

Ejercicio Obtenga las estimaciones de los ejemplos de regresin usando Excel y NCSS. Los datos estn en las hojas 30 y 31del libro EjemplosLibro de Excel y en los archivos Ej31_RegresinLineal1 y Ej32_RegresinLineal2 de NCSS en el CD del texto. Las instrucciones para obtener el resultado usando Excel estn en el anexo 1 y las instrucciones para usar el NCSS estn en el anexo 2, en ambos identificados como Ejemplo. Regresin lineal 1 y 2. Si dispone de otro paquete estadstico, trabaje con l para obtener los resultados del ejemplo. Los resultados de Excel estn en los libros ResultadoRegresin1 y 2.

7.4.2. Notacin general para regresin lineal


En las secciones anteriores se usaron tres variables explicativas para facilitar la lectura de los detalles del modelo de regresin lineal, ahora se presenta la notacin de la regresin lineal cuando se tienen k variables explicativas, siendo k cualquier entero positivo. En la prctica se procura que k sea pequeo porque entre ms variables explicativas se tienen es ms difcil interpretar la ecuacin de regresin. El problema de regresin lineal surge cuando se identifica una poblacin en la que se definen k+1 variables: la variable respuesta Y que es cuantitativa aleatoria con distribucin normal y k variables explicativas x1, x2,..., xk que no son aleatorias, o si pudieran serlo se les considera no aleatorias para este anlisis, adems se supone que la media de la variable respuesta est relacionada con las variables explicativas por medio de la ecuacin de regresin. Los estimadores de los parmetros se obtendrn utilizando una muestra aleatoria de n casos particulares de elementos de la poblacin, a cada uno de estos casos se les miden las k+1 variables; es necesario que n sea mayor que k+1. Al medir las k+1 variables en cada caso particular que forma parte de la muestra se obtienen n observaciones de k+1 variables, se identifican los casos con un subndice en las variables, entonces el caso uno se representa como (Y1, x11, x21,...,xk1), el caso dos como (Y2, x12, x22,...,xk2), el caso general, identificado con el subndice i se denota como (Yi, x1i, x2i,..., xki) y el ltimo caso, el caso n con ( Yn, x1n, x2n,...,xkn). La distribucin de la variable respuesta para las n observaciones o casos se representa con la observacin i como sigue Yi ~ N( yi / x 1i ,x 2i ,...,xk i = 0 + 1 x1i + 2 x2i + ... +k xki, 2y/x1,...,xk); i = 1, ..., n. El subndice i toma valores 1,2,...,n y se acostumbra representarlo como i = 1,2,...,n. La desviacin estndar vale y/x1,...xk para todas las observaciones pero la media cambia al cambiar los valores de las variables explicativas de acuerdo con la ecuacin

yi / x1i ,x 2i ,...,xki = 0 + 1 x1i + 2 x2i + ... +k xki.


Una vez que se tiene la muestra y a cada caso particular se le evalan las k+1 variables, se obtiene una base de datos con k+1 columnas, una columna para cada una de las variables y n renglones, cada rengln tiene los datos de un caso. En el paquete estadstico se pide regresin y se alimentan los nombres de las variables respuesta y explicativas y se pide que reporte el modelo de regresin estimado, las pruebas parciales de regresin y la prueba total de regresin, ms adelante se mencionarn otros reportes que completan el anlisis. El paquete estadstico tiene programadas las ecuaciones para calcular los valores de los estimadores 0, 1, 2,..., k y sy/x1,...xk de los parmetros desconocidos 0, 1, 2, ..., k y y/x1,...xk. Una vez que se tienen los valores de las estimaciones se sustituyen en la ecuacin de regresin para obtener la ecuacin de regresin estimada, que para el caso particular i (i=1,2,...,n) se representa como

yi / x1i ,x 2i ,...,xki =
Alberto Castillo Morales

0+ 1 x1i + 2 x2i + ... + k xki.

13

Se puede especificar la regresin estimada sin incluir el subndice i que identifica a los casos particulares y se escribe
0+ 1 x1 + 2 x2 + ... + k xk. y / x 1,x 2,...,xk =

yi / x1i ,x 2i ,...,xki que representa a la estimacin de la media Tambin se acostumbra sustituir el smbolo por Y para indicar que se tiene un valor para predecir el valor de Y en las mismas circunstancias que
i

en el caso particular i, usando los valores de las variables explicativas en el caso particular i, la ecuacin queda como sigue: = 0+ 1 x1i + 2 x2i + ... + k xki. Y i Los resultados tericos tambin dan la ecuacin para obtener la estimacin sy/x1,...,xk de la desviacin
2 2 2 2 estndar y/x1,...xk y los estimadores s 0 , s 1 , s 2 ,..., s k de las varianzas de los estimadores de los 2 2 2 2 coeficientes de regresin: 0 , 1 , 2 ,..., k . Los estimadores de las varianzas se usan en las

ecuaciones para calcular los estadsticos de prueba y las significaciones muestrales para las pruebas de hiptesis parciales y total sobre los coeficientes de regresin.

7.4.3. Pruebas de hiptesis parciales de regresin

Al realizar un estudio de regresin es muy importante asegurarse de que cada una de las variables explicativas impacte al valor de la media, si el coeficiente de regresin de una de las variables fuera cero, el trmino correspondiente no afecta al valor de la media y la variable puede eliminarse de la ecuacin de regresin, adems, el modelo que se obtiene al quitar un trmino, el modelo reducido es ms sencillo. Para saber si el j simo coeficiente de regresin j del modelo yi / x 1i ,x 2i ,...,xk i = 0 + 1 x1i + 2 x2i + ... +k xki vale cero, se plantea la hiptesis de que el coeficiente de xj vale cero en el modelo, corresponde a l apareja de hiptesis H0: j =0 con HA: j 0 en el modelo yi / x1i ,x 2i ,...,xki = 0+1 x1i+2 x2i+...+k xki, o en el modelo de regresin de Y sobre x1,x2,...,xk y se le llama hiptesis parcial de regresin para el coeficiente i y se especifica el modelo que se est trabajando yi / x 1i ,x 2i ,...,xk i =0+1 x1i+2 x2i+ ...+k xki. Hay una prueba de hiptesis parcial de regresin para cada coeficiente de regresin y para referirse a todas ellas se usa H0: j =0 con HA: j 0 en el modelo de regresin de Y sobre x1,x2,...,xk, para j=0,1,2,...,k. Para decidir si se rechaza o no la hiptesis nula en cada prueba parcial, se compara el valor de la significacin muestral con el nivel de significacin y se rechaza la hiptesis nula si la significacin muestral es menor que el nivel de significacin. Al realizar una prueba parcial de regresin, entre ms pequeo sea se dice que es ms significativo el coeficiente y/o la variable explicativa que le corresponde y entre ms significativo sea el coeficiente, con mayor claridad se extiende hacia la poblacin la inferencia del impacto de la variable explicativa en la media de la variable respuesta. Debido a que tanto los valores de los estimadores como los resultados de las pruebas de hiptesis cambian de un modelo a otro, se especifica explcitamente al modelo al plantear las hiptesis y cuando se presentan los resultados de la estimacin y de las pruebas.

Alberto Castillo Morales

14

HIPTESIS SOBRE LOS COEFICIENTES PARCIALES EN LA REGRESIN DE Y SOBRE x1, x2,..., xk

Y ~N ( Y / x1,x2,...,xk =0 +x1x1+x2 x2 +... +xkxk , 2 Y / x1 ,x2,...,xk )


Hiptesis nula H0: x1 = 0 Hiptesis alternativa HA: x1 0 en el modelo de Y sobre x1, x2,..., xk Significacin muestral

t C (

x1 )

x1 = 2Pt con n--k-1 gl[t | t C ( ) |] , s


x1 x1
x1

| t C ( x 1 ) | es el valor absoluto de H0: x2 = 0 HA: x2 0 en el modelo de Y sobre x1, x2,..., xk

t C (

x1 )

t C (

x2

x2 = 2Pt con n--k-1 gl[t | t C ( , s


x2
x2

x2

|]

| t C ( x 2 ) | es el valor absoluto de . . . H0: xk = 0


. . .

t C (

x2

. . .

HA: xk 0 en el modelo de Y sobre x1, x2,..., xk

t C ( =
xk

xk , s
xk

xk

= 2Pt con n--k-1 gl[t | t C ( xk ) |]

| t C ( xk ) | es el valor absoluto de Nota: | t C ( xi ) | es el valor absoluto de

t C (
xi

xk

t C (

xi

o la distancia entre

t C (

y cero, n es el

tamao de muestra, k es el nmero de variables explicativas en el modelo, s j es la desviacin estndar del estimador xj del coeficiente xj , para j= 1,2,..., k

La prueba parcial de regresin para el coeficiente j en el modelo con k variables explicativas (j puede ser 0, 1,2,..,k), con una muestra de n casos, se basa en la distribucin t con n-k-1 grados de libertad. El estadstico de prueba para la hiptesis parcial sobre j se distribuye tn-k-1 cuando la hiptesis nula es verdadera, la t calculada a partir de la muestra, t c ( j ) , es

t c (j ) =

j s j

Ntese que la t calculada es el resultado de la divisin del estimador del coeficiente entre su desviacin estndar muestral. Resumiendo, la pareja de hiptesis nula y alternativa para la prueba parcial de que j es cero contra la alternativa bilateral que es diferente de cero se plantea as: H0:j=0, HA: j0 en la regresin Y/x1,...xk= 0+ 1 x1 + 2 x2 +...+ k xk y la significacin muestral es

j = 2 P[ t n k 1 >| t c ( ) |] ,
j

la hiptesis nula parcial de que el coeficiente j es cero en el modelo se rechaza si la significacin j es menor que el nivel de significacin establecido . Note que se usa el subndice j en j muestral para indicar que es la significacin muestral de la prueba parcial sobre el coeficiente de regresin identificado por el subndice j. Tambin se puede usar la t calculada para concluir en la prueba parcial del Alberto Castillo Morales

15

coeficiente j, para esto se necesita obtener, tn-k-1,1-/2, el percentil 100(1-/2)% de la tn-k-1 y se rechaza la hiptesis nula si t c ( j ) es mayor, en valor absoluto (tomado como positivo) que t n-k-1,1-/2. Si no se rechaza la hiptesis nula, se concluye que la muestra no da evidencia para rechazar la hiptesis j nula H0:j=0 en la regresin Y/x1,...xk= 0+ 1 x1 + 2 x2 +...+ k xk porque la significacin muestral j ) es mayor que el nivel de significacin (escriba el valor de ) y para fines (escriba el valor de prcticos se considera que j es cero y el trmino j xj puede eliminarse de la ecuacin de regresin. Al eliminar el trmino j xj de la ecuacin de regresin es necesario plantear nuevamente el problema de regresin con el modelo reducido, que se obtiene al quitar el trmino con j de la regresin original y se obtienen las estimaciones y se hacen las pruebas de hiptesis con este nuevo modelo. j resulta menor que el nivel de Si la hiptesis nula se rechaza porque la significacin muestral significacin , se sugiere concluir que la muestra da evidencia para rechazar la hiptesis nula H 0:j=0 en j (escriba el valor de la regresin Y/x1,...xk= 0+ 1 x1 + 2 x2 +...+ k xk porque la significacin muestral j ) es menor que el nivel de significacin (escriba el valor de ) y para fines prcticos se considera que j es diferente de cero y el trmino j xj se conserva en la ecuacin de regresin y se interpreta el valor de la estimacin del coeficiente. La prueba parcial que se explic para el coeficiente de regresin j se hace para cada coeficiente de regresin. Si es necesario se establece un nuevo modelo de regresin reducido al eliminar los trminos con coeficientes que no resultan significativos. Ejemplo (contina). Regresin lineal 1. Pruebas de hiptesis parciales En el ejemplo de rendimiento de grano de trigo se obtuvo la ecuacin ajustada

G / N,F,P = 1160.603 + 21.567 Nitrgeno + 18.483 Fsforo + 8.823 Potasio


da la impresin de que Nitrgeno es la variable explicativa ms importante porque su coeficiente 21.567 es el mayor, ya que a un incremento unitario de Nitrgeno corresponde un mayor aumento del rendimiento de grano de trigo. Aunque en este ejemplo lo anterior es cierto, conviene ver la importancia de los coeficientes de regresin a la luz de su significacin muestral en las pruebas parciales de regresin. Se pueden plantear cuatro pruebas parciales de regresin: H0:0=0, HA:00 en la regresin G/N,F,P= 0+ NNitrgeno+ FFsforo+ PPotasio, H0:N=0, HA:N0 en la regresin G/N,F,P= 0+ NNitrgeno+ FFsforo+ PPotasio, H0:F=0, HA:F0 en la regresin G/N,F,P= 0+ NNitrgeno+ FFsforo+ PPotasio y H0:P=0, HA:P0 en la regresin G/N,F,P= 0+ NNitrgeno+ FFsforo+ PPotasio El listado del anlisis de regresin reporta: Seccin de ecuacin de regresin Variable Coeficiente Error Independiente de Regresin Estndar Constante 1160.663 874.4293 Nitrgeno 21.56694 4.591672 Alberto Castillo Morales

t calculada (Ho: B=0) 1.3273 4.6970

Significacin muestral 0.197423 0.000099

Decisin (5%) Acepte Ho Rechace Ho

16

Fsforo Potasio

18.48296 8.822778

6.122229 4.591672

3.0190 1.9215

0.006111 0.067149

Rechace Ho Acepte Ho

Las significaciones muestrales de las pruebas parciales de regresin, identificndolas con el 0 =0.1974, N = .000099, F = 0.006111 y P subndice que corresponde al coeficiente son =0.067149. Se concluye que la muestra da evidencia para rechazar las hiptesis de que los coeficientes de regresin de Nitrgeno y Fsforo son cero, pero no hay evidencia con nivel de significacin de 5% (=0.05) para rechazar la hiptesis de que el coeficiente de Potasio es cero. La hiptesis parcial sobre 0 no es de inters porque la zona de exploracin no cubre las dosis cero de los nutrientes. Una de las ventajas de usar la significacin muestral se presenta en este ejemplo, P =0.067149, que llevara al rechazo de la hiptesis nula si el nivel de para Potasio se tiene significacin fuera de 7% (=0.07), un nivel que permitira conservar el trmino del potasio en la ecuacin esperando que nuevas investigaciones con menor variacin aleatoria permitan obtener el rechazo con 5% de significacin. Se comprueba que Nitrgeno es la variable explicativa con mayor influencia en la media del rendimiento del grano. Por una parte, el rechazo de la hiptesis parcial de regresin se basa en una significacin muestral de 0.000099, tan pequea que se rechazara con un nivel de significacin de 0.0001 (uno por diez mil) y por otra parte es el mayor coeficiente: 21.56694, por cada incremento de una unidad de nitrgeno hay un incremento de 21.56694 unidades de grano de trigo. Ejemplo (contina). Regresin lineal 2. Pruebas de hiptesis parciales En el ejemplo de regresin de Gasto sobre Ingreso, Escolaridad y Edad se obtuvo la ecuacin de regresin ajustada

Ga / In,Es,Ed = 12241.47 + 0.1807 Ingreso 298.2538 Escolaridad 98.8140 Edad .


Se pueden plantear cuatro pruebas de hiptesis parciales de regresin pero solo interesan las de los coeficientes de las variables explicativas, recuerde que no interesan casos con ingresos menores que los observados en la muestra. Las hiptesis parciales de regresin son: H0:In=0, HA:in0 en la regresin Ga/In,Es,Ed= 0+ InIngreso+ EsEscolaridad+ EdEdad H0:Es=0, HA:Es0 en la regresin Ga/In,Es,Ed= 0+ InIngreso+ EsEscolaridad+ EdEdad H0:P=0, HA:P0 en la regresin Ga/In,Es,Ed= 0+ InIngreso+ EsEscolaridad+ EdEdad El listado del anlisis de regresin reporta: Seccin de ecuacin de regresin Variable Coeficiente Error Independiente de regresin estndar Constante 12241.47 3522.393 Ingreso 0.1806884 4.201554E-02 Escolaridad -298.2538 131.3907 Edad -98.81403 68.06369 t calculada (Ho: B=0) 3.4753 4.3005 -2.2700 -1.4518 Significacin muestral 0.001124 0.000088 0.027940 0.153347 Decisin (5%) Rechace Ho Rechace Ho Rechace Ho Acepte Ho

In =0.000088 para rechazar la hiptesis de La muestra da evidencia con significacin muestral


Es =0.02794 para rechazar la hiptesis de que el que el coeficiente In de Ingreso sea cero y con coeficiente Es de Escolaridad sea cero, en cambio, no hay evidencia para rechazar la hiptesis de Ed =0.153347 es ms que el coeficiente Ed de edad sea cero porque la significacin muestral

Alberto Castillo Morales

17

grande que el nivel de significacin =0.05. Se puede pensar en el modelo de regresin sin la variable explicativa Edad.

7.4.4. Prueba de la hiptesis de regresin


La hiptesis total de regresin o hiptesis de regresin, especifica que todos los coeficientes de regresin 1, 2, ..., k de las variables explicativas x1, x2, ..., xk en el modelo Yi ~ N( yi / x 1i ,x 2i ,...,xk i = 0 + 1 x1i + 2 x2i + ... +k xki, y/x1,...,xk y/x1,...,xk); i = 1, ..., n. son iguales a cero. Si todos los coeficientes son iguales que cero, los cambios de valor en las variables explicativas no causan cambios en la media de la variable respuesta, puede analizarse sin intervencin de dichas variables, en cambio, si no todos los coeficientes de regresin son cero, al menos una de las variables explicativas influye en la media de la variable respuesta. La pareja de hiptesis nula y alternativa es H0: 1 = 2 =...= k = 0 y HA: al menos uno de 1, 2,...,k es diferente de cero en la regresin Y/x1,...xk= 0+ 1 x1 + 2 x2 +...+ k xk. HIPTESIS DE REGRESIN (TOTAL) EN LA REGRESIN DE Y SOBRE x1, x2,..., xk

Y ~N ( Y / x1,x2,...,xk =0 +x1x1+x2 x2 +... +xkxk, 2 Y / x1 ,x2,...,xk )


Hiptesis nula e hiptesis alternativa H0: x1 = x2 =...= xk = 0 HA: x1 0 x2 0 ... xk 0 en el modelo de Y sobre x1, x2,..., xk Significacin muestral

FC =

CMModelo Y sobrex1,x2,...,xk , CMError

= PF con k, n-k-1 gl[F Fc]

Nota: Los valores de las estimaciones se obtienen de la tabla de anlisis de varianza: n es el tamao de muestra, k es el nmero de variables explicativas en el modelo y CMError es la estimacin

S2

Y / x 1 , x 2 ,..., xk

de la varianza de regresin

Y / x 1 , x 2 ,..., xk

El estadstico de prueba de la hiptesis de regresin total es una F con k y n-k-1 grados de libertad. Con los datos de la muestra se obtiene la F calculada, F c y la significacin muestral es la probabilidad de que una F con k y n-k-1 grados de libertad sea mayor que la F c: = P[Fk,n-k-1 > Fc]. Se rechaza la hiptesis nula si el valor de la significacin muestral es menor que el nivel de significacin , se concluye que la muestra da evidencia con significacin muestral para rechazar la hiptesis nula H0: 1 = 2 =...= k = 0, por lo tanto al menos uno de los coeficientes de regresin 1, 2,..., k es diferente de cero. Como al menos uno de los coeficientes es diferente de cero, conviene revisar las pruebas parciales de regresin para saber cul o cules coeficientes son diferentes de cero. Si resulta que el valor de la significacin muestral es mayor que el nivel de significacin, no se rechaza la hiptesis nula, se concluye que la muestra no da evidencia con significacin muestral para rechazar H0: 1 = 2 =...= k = 0, para fines prcticos los k coeficientes de regresin son cero y no son tiles para explicar los cambios de valor de la media de la variable respuesta. Si se desea utilizar la F calculada para hacer la prueba se necesita obtener F k,n-k-1,1-, el percentil 100(1-) % de la Fk,n-k-1 y se rechaza la hiptesis nula de que todos los coeficientes de las variables son cero cuando el valor que toma la Fc es mayor que el percentil Fk,n-k-1,1-.

Alberto Castillo Morales

18

Se debe tener en cuenta que la hiptesis de regresin total no es equivalente a la realizacin de las k pruebas parciales sobre los coeficientes 1, 2,..., k. La mayora de las veces las pruebas dan resultados congruentes, pero pueden dar resultados aparentemente contradictorios. Las posibilidades son: 1) 2) 3) No se rechaza la hiptesis de regresin total ni se rechazan las k hiptesis parciales, la conclusin de que todos los coeficientes de las variables explicativas son cero coincide en ambas hiptesis, se rechaza la hiptesis de regresin total y se rechaza al menos una de las hiptesis parciales, las conclusiones coinciden y se complementan, no se rechaza la hiptesis de regresin total y se rechaza una o ms de las hiptesis parciales, esto indica que las pruebas de las hiptesis parciales fueron ms sensibles al rechazo, conviene concluir de acuerdo con las pruebas parciales y se rechaza la debe a que proporcional, configuracin adelante. hiptesis de regresin total y ninguna de las parciales, esta aparente contradiccin se hay dos o ms variables explicativas cuyos valores cambian de manera casi ocasionando que las pruebas parciales sean poco sensibles al rechazo, esta de los valores de las variables explicativas es la multicolinealidad y se ver ms

4)

Ejemplo (contina). Regresin lineal 1. Prueba de la hiptesis de regresin Continuando con el ejemplo sobre rendimiento de grano de trigo, la significacin muestral y la F calculada para la prueba de regresin se presenta en una tabla de anlisis de varianza: Tabla de anlisis de varianza Fuente de Grados de Suma de Variacin Libertad (GL) cuadrados (SC) Modelo 3 2.117191E+07 Error 23 1.396568E+07 Total 26 3.513759E+07 Se plantea la pareja de hiptesis H0: N=F=P=0 y HA:N0 o F0 o P0 en la regresin G/N,F,P= 0+ NNitrgeno+ FFsforo+ PPotasio. La significacin muestral =0.000078 da evidencia para rechazar la hiptesis de que los tres coeficientes de regresin N, F y P son cero, al menos uno de ellos es diferente de cero. En las pruebas parciales se vio que la muestra da evidencia de que los coeficientes de Nitrgeno y Fsforo son significativos al 5% y el de Potasio lo es al 7%. La tabla de anlisis de varianza tiene las mismas columnas que el anlisis de varianza visto en la comparacin de las medias de ms de dos poblaciones normales. Las fuentes de variacin en el anlisis de regresin son Modelo con k grados de libertad, Error con n-k-1 grados de libertad y total con k-1 grados de libertad. Tanto el Modelo como el Error tienen valores en las columnas de sumas de cuadrados (SC) y cuadrados medios (CM) y se representan como SCModelo, SCE, CMModelo y CME. El cuadrado medio del error es la estimacin de la varianza, entonces CME=s 2Y/x1,...,xk . En la columna de F est el valor F c, la F calculada para la prueba de regresin y en la ltima columna est la significacin muestral para la prueba de regresin, que debido a la fuente de variacin Modelo tambin se conoce como prueba del modelo. Ejemplo (contina). Regresin lineal 2. Prueba de la hiptesis de regresin En el ejemplo de regresin de Gasto sobre Ingreso, Escolaridad y Edad el listado produce la tabla de anlisis de varianza: Alberto Castillo Morales Cuadrado Medio (CM) 7057303 607203.4 1351446 F 11.6226 Significacin Muestral 0.000078

19

Tabla de anlisis de varianza Fuente de Grados de Variacin Libertad (GL) Modelo 3 Error 46 Total 49 La hiptesis total de regresin

Suma de cuadrados (SC) 4.433163E+08 7.627336E+08 1.20605E+09

Cuadrado F Significacin Medio (CM) Muestral 1.477721E+088.9120 0.000091 1.658117E+07 2.461326E+07

H0: In = Es = Ed = 0 y HA: al menos uno de In, Es,Ed es diferente de cero en la regresin Ga/In,Es,Ed= 0+ InIngreso+EsEscolaridad+EdEdad se prueba usando la significacin muestral del anlisis de varianza: =0.000091, la muestra da evidencia para rechazar la hiptesis nula de que los tres coeficientes In, Es y Ed son cero, por lo menos uno de ellos es diferente de cero. En las pruebas parciales de regresin se vio evidencia de que los coeficientes de Ingreso y Escolaridad son diferentes de cero, en cambio el coeficiente de Edad no result significativo. Ejercicio Utilice las bases de datos de los ejemplos de produccin de grano de trigo y de gasto en tarjetas de crdito para obtener los listados con las pruebas de regresin y parciales de regresin. Los datos estn en las hojas 30 y 31del libro EjemplosLibro de Excel y en los archivos Ej31_RegresinLineal1 y Ej32_RegresinLineal2 de NCSS en el CD del texto. Las instrucciones para obtener el resultado usando Excel estn en el anexo 1 y las instrucciones para usar el NCSS estn en el anexo 2, en ambos identificados como Ejemplo. Regresin lineal 1 y 2. Si dispone de otro paquete estadstico, trabaje con l para obtener los resultados del ejemplo. Los resultados de Excel estn en los libros ResultadoRegresin1 y 2.

7.4.5. R cuadrada
La R cuadrada ( R2) es un estadstico que da informacin sobre la calidad del ajuste de la regresin, su valor indica que tan cercanos estn los valores de la variable respuesta a las medias estimadas por la regresin, toma valores entre cero y uno y entre ms cercano est el valor de R 2 a uno, ms cercanos estn los datos de la ecuacin de regresin ajustada y entre ms grande sea el valor de R cuadrada mejor es el ajuste de la regresin, sus valores se interpretan comparndolos con los valores obtenidos en trabajos similares. La cercana de los datos a la ecuacin ajustada se mide comparando la variacin que tienen los valores de la variable respuesta con la variacin que tienen las medias estimadas con la regresin. La segunda variacin es parte de la primera y la R cuadrada es la proporcin que representa la variacin de las medias estimadas con respecto a la variacin de la variable respuesta; es la variacin que es explicada por el modelo de regresin. La R cuadrada, que inicialmente se llamaba coeficiente de determinacin, se calcula como la relacin entre la suma de cuadrados del modelo entre la suma de cuadrados total, ambos valores se presentan en la tabla del anlisis de varianza. La suma de cuadrados total, SCTotal, es la variacin que presenta la variable respuesta Y con respecto a su media Y , la suma de cuadrados del modelo, SCModelo, es la Y / x 1,...,xk usando la ecuacin de regresin variacin que presentan los valores estimados de la media con respecto a la media Y . Los paquetes estadsticos reportan el valor de R2 . Usando calculadora se puede obtener a partir de las sumas de cuadrados reportadas en el anlisis de varianza de la regresin, o usando la estimacin de la

Alberto Castillo Morales

20

varianza total de la variable respuesta s 2 Y y la estimacin de la varianza de la regresin, o varianza


2 residual, o varianza del error s Y / x1,...,xk :

(n k 1)s Y / xi,...,xk SCModelo R = = 1 SCTotal (n 1)s 2 Y


2 2

Los paquetes estadsticos tambin reportan el valor de R cuadrada ajustada, R ajustada , que se utiliza para comparar dos valores de R2 cuando los trabajos que les dieron lugar tienen diferente nmero de 2 casos y/o de variables explicativas. R ajustada se calcula con la siguiente ecuacin.
2 R ajustada = 1 (1 R 2 )(

n 1 ) n k 1

Ejemplo (contina). Regresin lineal 1. R cuadrada El ejemplo de produccin de grano de trigo produjo los siguientes resultados: R-cuadrada R-cuadrada ajustada 0.6025 0.5507

El valor de R2 indica que el modelo de regresin explica una proporcin de 0.6025 de la variacin total, el 60.25% de la variacin total. En trabajos de produccin de grano de trigo generalmente se obtienen valores de R2 mayores. Ejemplo (contina). Regresin lineal 2. R cuadrada Continuando con el ejemplo de Gasto se presentan los valores de R Cuadrada y cuadrada ajustada. R-cuadrada R-cuadrada ajustada 0.3676 0.3263

El valor de R2 indica que el modelo de regresin explica 36.76% de la variacin total del gasto, este valor es muy pequeo y se debe buscar una forma de explicar mayor proporcin de la variacin, ya sea introduciendo nuevas variables explicativas, restringiendo la poblacin a para que no presente tanta variacin, o ambas. Ejercicio Calcule los valores de R cuadrada y R cuadrada ajustada a partir de las sumas de cuadrados en los anlisis de varianza de los ejemplos anteriores.

7.4.6. Estimacin de la media y prediccin


La ecuacin de regresin ajustada se usa para estimar a la media y tambin se usa para hacer predicciones sobre futuros valores de la variable respuesta Y para valores especificados de las variables explicativas. Si se conocen los valores x1, x2, ..., xk que toman las variables explicativas, se usa la ecuacin
0+ 1 x1 + 2 x2 + ... + k xk y / x 1,x 2,...,xk =

Alberto Castillo Morales

21

y / x 1,x 2,...,xk . La estimacin de la media tambin para calcular el valor de la estimacin de la media se usa para predecir un valor desconocido de la variable respuesta Y cuando las variables explicativas valen x1, x2, ..., xk.
Conviene hacer la estimacin de la media y / x 1,x 2,...,xk y la prediccin de un valor de Y, que se denota como Yx1,...,xk en forma de intervalo de confianza. Estos intervalos son proporcionados por los paquetes estadsticos y la computadora, dan los intervalos para los valores de las variables explicativas que ocurren en los casos de la muestra y por solicitud expresa del usuario para otros valores de las variables explicativas. Dados los valores de las variables explicativas el intervalo de confianza para la media y / x 1,x 2,...,xk es ms pequeo que el intervalo de prediccin para Yx1,..,xk. Si se desea una estimacin de la media se debe usar el intervalo de confianza para la media y si se desea hacer una prediccin de confianza para un futuro valor de la variable aleatoria Y, se debe usar el intervalo de prediccin, que es ms amplio. Ejemplo (contina). Regresin lineal 1. Estimacin de la media y prediccin Las estimaciones por intervalo para la media G/N,F,P que reporta el paquete estadstico en el ejemplo de produccin de grano de trigo produjeron un listado con 27 renglones, en cada rengln est un caso, la media se estima sustituyendo los valores de las variables explicativas del caso en la ecuacin de regresin estimada, as, en el caso uno los valores de N, F y P fueron 80, 60 y 40 respectivamente (no se reportan en este listado, vea los datos), la ecuacin produjo el valor 4347.907 y el intervalo con 95% de confianza para la media G/N=80,F=60,P=40 inicia en 3620.37 y termina en 5075.444. En el rengln 12 las variables explicativas valen 120, 60 y 120 y el intervalo con 95% de confianza para la media G/N=120,F=60,P=120 es [5295.961, 6536.853], vea el listado en la pgina siguiente. Valores predichos con intervalo de confianza para la media Variable Valor Error Intervalo de confianza 95% Caso respuesta predicho estndar LII (media) LSI (media) 1 4216.7 4347.907 351.6953 3620.37 5075.444 2 4903.9 4700.818 299.9268 4080.373 5321.264 3 5756.6 5053.729 351.6953 4326.192 5781.267 4 5109.7 4902.396 299.9268 4281.951 5522.842 5 4858.8 5255.308 237.1129 4764.802 5745.813 6 5094.1 5608.219 299.9268 4987.773 6228.664 7 5215.3 5456.885 351.6953 4729.348 6184.422 8 5385 5809.796 299.9268 5189.351 6430.242 9 6495.8 6162.708 351.6953 5435.17 6890.245 10 5976 5210.585 299.9268 4590.14 5831.031 11 5396 5563.496 237.1129 5072.991 6054.002 12 4114.5 5916.407 299.9268 5295.961 6536.853 13 5437 5765.074 237.1129 5274.569 6255.58 14 4913.6 6117.985 149.9634 5807.762 6428.208 15 8217.8 6470.896 237.1129 5980.391 6961.402 16 6288.3 6319.563 299.9268 5699.117 6940.009 17 7511.3 6672.474 237.1129 6181.969 7162.979 18 7731.1 7025.385 299.9268 6404.939 7645.831 19 7007.9 6073.263 351.6953 5345.726 6800.8 20 6556.4 6426.174 299.9268 5805.729 7046.62 21 6879.8 6779.085 351.6953 6051.548 7506.623 22 6760.3 6627.752 299.9268 6007.306 7248.198 23 6209.1 6980.663 237.1129 6490.158 7471.168 24 6988.8 7333.574 299.9268 6713.128 7954.02 25 7283.6 7182.241 351.6953 6454.704 7909.778 Alberto Castillo Morales

22

26 27

6509.5 8368.7

7535.152 7888.063

299.9268 351.6953

6914.706 7160.526

8155.598 8615.601

El listado con los intervalos de prediccin para un valor de la variable respuesta tiene la misma estructura que el anterior pero ahora presenta los errores de prediccin, que son las desviaciones estndar que se usan para hacer el intervalo de prediccin, vea el listado en la pgina siguiente. Si se desea un intervalo de prediccin con 95% de confianza para N=120, F=60 y P=120 y se sabe que en el caso 12 N, F y P toman los valores especificados, se lee del listado que con 95% de confianza un futuro valor de G cuando N=120, F=60 y P=120 estar entre 4189.16 y 7643.655. Valores predichos e intervalo de prediccin para un valor de la variable respuesta Variable Valor Error Intervalo de confianza 95% Caso respuesta predicho prediccin LII Prediccin LSI Prediccin 1 4216.7 4347.907 854.9228 2579.365 6116.45 2 4903.9 4700.818 834.9608 2973.571 6428.066 3 5756.6 5053.729 854.9228 3285.187 6822.272 4 5109.7 4902.396 834.9608 3175.148 6629.644 5 4858.8 5255.308 814.5096 3570.366 6940.249 6 5094.1 5608.219 834.9608 3880.971 7335.466 7 5215.3 5456.885 854.9228 3688.343 7225.428 8 5385 5809.796 834.9608 4082.548 7537.044 9 6495.8 6162.708 854.9228 4394.165 7931.25 10 5976 5210.585 834.9608 3483.337 6937.833 11 5396 5563.496 814.5096 3878.555 7248.438 12 4114.5 5916.407 834.9608 4189.16 7643.655 13 5437 5765.074 814.5096 4080.133 7450.016 14 4913.6 6117.985 793.5316 4476.44 7759.53 15 8217.8 6470.896 814.5096 4785.955 8155.838 16 6288.3 6319.563 834.9608 4592.315 8046.811 17 7511.3 6672.474 814.5096 4987.533 8357.416 18 7731.1 7025.385 834.9608 5298.137 8752.633 19 7007.9 6073.263 854.9228 4304.72 7841.806 20 6556.4 6426.174 834.9608 4698.926 8153.422 21 6879.8 6779.085 854.9228 5010.542 8547.628 22 6760.3 6627.752 834.9608 4900.504 8355 23 6209.1 6980.663 814.5096 5295.721 8665.604 24 6988.8 7333.574 834.9608 5606.326 9060.822 25 7283.6 7182.241 854.9228 5413.698 8950.783 26 6509.5 7535.152 834.9608 5807.904 9262.399 27 8368.7 7888.063 854.9228 6119.521 9656.605 Ejemplo (contina). Regresin lineal 2. Estimacin de la media y prediccin Siguiendo con el ejemplo del Gasto en tarjetas como funcin del Ingreso, la Escolaridad y la Edad, los intervalos de prediccin para nuevas observaciones de Gasto en los valores de las variables explicativas Ingreso, Escolaridad y Edad que ocurrieron en los primeros siete casos de la muestra estn en el listado siguiente: Valores predichos e intervalo de prediccin para un valor de la variable respuesta Variable Valor Error Intervalo de confianza 95% Caso respuesta predicho prediccin LII Prediccin LSI Prediccin 1 9691 14910.29 4207.307 6441.422 23379.16 2 5273 7221.594 4245.477 -1324.108 15767.3 3 14570 17654.5 4309.063 8980.802 26328.19 4 13407 12045.32 4161.085 3669.488 20421.15 5 9547 8431.549 4161.733 54.41563 16808.68 Alberto Castillo Morales

23

6 7 51

17200 14816

12059.01 10913.19 12925.54

4166.042 4167.527 4206.709

3673.204 2524.396 4457.875

20444.82 19301.99 21393.21

En el caso 4 se tuvo (vea la base de datos, pgina 252): Ingreso = 56000, Escolaridad =21, edad = 41 y se obtuvo una estimacin de la media Ga / In= 56000,Es = 21 ,Ed= 41 o valor predicho YGa / In= 56000,Es = 21 ,Ed= 41 de 12045.32 y el intervalo de prediccin con 95% de confianza inicia en 3669.488 y termina en 20421.15. Si se tiene inters en predecir el valor que tomar la variable Gasto de un cliente con Ingreso = 40000, Escolaridad =12 y edad = 30, se incluye en la base de datos un rengln adicional con datos de las variables explicativas, dejando en blanco el valor de la variable respuesta Gasto y el paquete produce el intervalo de prediccin para estos valores en el rengln 51 (el ltimo rengln) del listado; el intervalo va de 4457.875 a 21393.21. Note que los intervalos de prediccin son muy amplios, esto sugiere que el trabajo debe hacerse para una poblacin ms uniforme o es necesario usar variables explicativas que sean ms relevantes para explicar la media del Gasto. Ejercicio Utilice las bases de datos de los ejemplos de produccin de grano de trigo y de gasto en tarjetas de crdito para obtener los listados con las estimaciones de la media y de prediccin. Los datos estn en las hojas 30 y 31del libro EjemplosLibro de Excel y en los archivos Ej31_RegresinLineal1 y Ej32_RegresinLineal2 de NCSS en el CD del texto. Las instrucciones para obtener el resultado usando Excel estn en el anexo 1 y las instrucciones para usar el NCSS estn en el anexo 2, en ambos identificados como Ejemplo. Regresin lineal 1 y 2. Si dispone de otro paquete estadstico, trabaje con l para obtener los resultados del ejemplo. Los resultados de Excel estn en los libros ResultadoRegresin1 y 2.

7.4.7. Residuales y suposiciones de distribucin


En regresin como en los otros mtodos que suponen distribucin normal, conviene revisar los resultados de las pruebas de normalidad que tienen disponibles los paquetes estadsticos. Debido a que en una regresin la media de la variable respuesta cambia de acuerdo con los valores de las variables explicativas, para probar normalidad en regresin se utilizan los residuales, que son las diferencias entre los valores observados y los valores estimados de las medias. Los residuales se representan con la letra r y un subndice que identifica al residual, pues hay uno por cada caso y se obtienen usando la ecuacin Y / x1i ,x 2i ,...,xki para cada valor de i=1,2,...,n, as, en un estudio con n casos hay n residuales; en ri = Yi-

en lugar de , algunos autores Y / x1i ,x 2i ,...,xki el residual i es ri = Yi- Y los textos donde se usa Y i i usan la letra e para representar a los residuales.
Antes de tener los datos, los residuales son variables aleatorias que tienen una distribucin que permite hacer las pruebas de normalidad. Como se hizo al revisar la normalidad en las pruebas sobre la media en la normal, se usarn las pruebas de simetra, de achatamiento y de normalidad general de DAgostino (DAgostino, R.B. and Stephens, M.A. 1986, pag. 395), para probar normalidad en regresin. La prueba de simetra propone H0: Los residuales tienen distribucin simtrica y HA: Los residuales no tienen distribucin simtrica. En el listado de la computadora se obtiene el valor de la significacin muestral, si es menor que el nivel de significacin se rechaza la hiptesis nula de simetra y la muestra da evidencia de que los residuales no tienen distribucin simtrica y por ello que no siguen la distribucin normal. Alberto Castillo Morales

24

La prueba de achatamiento propone H0: Los residuales tienen distribucin con parmetro de achatamiento normal y HA: Los residuales no tienen parmetro de achatamiento normal. Se revisa el valor de la significacin muestral, si es menor que el nivel de significacin se rechaza la hiptesis nula de achatamiento normal y la muestra da evidencia de que los residuales no tienen parmetro de achatamiento normal y por ello no se distribuyen normal. La prueba de normalidad propone H0: Los residuales tienen distribucin normal y HA: Los residuales no tienen distribucin normal. Si el valor de la significacin muestrales menor que el nivel de significacin se rechaza la hiptesis nula y la muestra da evidencia de que los residuales no tienen distribucin normal. Lo ideal es que ninguna de las tres pruebas se rechace y la muestra no de evidencia contra la suposicin de normalidad. Si las tres pruebas se rechazan la evidencia contra la suposicin de normalidad es clara, el mtodo de regresin no es adecuado, slo es aproximado cuando el tamao de muestra es muy grande. En ocasiones se rechaza una o dos de las pruebas de normalidad, en este caso se puede usar la regresin como aproximacin si el nmero de casos en la muestra (tamao de muestra) es grande, digamos mayor que 120. La grfica de probabilidad normal (en ingls prob plot) es un diagrama de dispersin de los residuales ordenados con percentiles de la distribucin normal estndar, los puntos forman una lnea recta (aproximada) cuando se cumple la normalidad y cuando no hay normalidad se aleja de la forma de una lnea recta presentando curvas o saltos. Las variables que dan la grfica de probabilidad normal son los residuales ordenados de menor mayor y los percentiles (100)(i)/(n+1) para i=1,2,...,n de la normal estndar. Las grficas de residuales contra las variables explicativas y la variable respuesta son los diagramas de dispersin correspondientes. Cuando no se cumple la suposicin de varianza constante se puede apreciar mayor dispersin hacia un lado de la grfica. Estas grficas se vern ms adelante en la seccin de valores atpicos. Debido a que los residuales tienen diferente desviacin estndar, para facilitar la interpretacin de las grficas de residuales, se sugiere usar los residuales estandarizados usando la estimacin de la desviacin estndar obtenida sin incluir el caso del residual, se llaman residuales estudentizados o Rstudent, que se obtienen dividiendo cada residual entre la desviacin estndar estimada sin usar el caso del residual. Ejemplo (contina). Regresin lineal 1. Residuales y suposiciones de distribucin En el ejemplo de produccin de grano de trigo la muestra no da evidencia contra la suposicin de distribucin normal ya que las significaciones muestrales de las pruebas de simetra normal, achatamiento normal y normal general son mayores que 0.20 en el listado. Seccin de pruebas de normalidad Prueba Simetra normal Achatamiento normal General de normalidad Valor -0.3624 1.1684 1.4965 Significacin muestral 0.717076 0.242646 0.473202 Decisin(5%) Acepte H0 Acepte H0 Acepte H0

En seguida se presenta el listado de residuales, para cada caso presenta el valor de Grano (Variable respuesta), el valor de la estimacin de la media (Predicho), el residual que es la Alberto Castillo Morales

25

diferencia de los dos anteriores, el porcentaje de error, que es el resultado de dividir el residual (con signo positivo) entre la variable respuesta y el cuadrado medio del error cuando el caso no entra a los clculos para ajustar la regresin (CME sin el caso). El valor del residual indica que tan cerca est Gasto de la estimacin de la media, pero es difcil interpretar su valor, para identificar a los que son muy grandes se usa el porcentaje de error y el cuadrado medio del error sin el caso, estadsticos que se usan para identificar valores atpicos, tema que se ver ms adelante. Reporte de residuales Variable Caso respuesta Predicho 1 4216.7 4347.907 2 4903.9 4700.818 3 5756.6 5053.729 4 5109.7 4902.396 5 4858.8 5255.308 6 5094.1 5608.219 7 5215.3 5456.885 8 5385 5809.796 9 6495.8 6162.708 10 5976 5210.585 11 5396 5563.496 12 4114.5 5916.407 13 5437 5765.074 14 4913.6 6117.985 15 8217.8 6470.896 16 6288.3 6319.563 17 7511.3 6672.474 18 7731.1 7025.385 19 7007.9 6073.263 20 6556.4 6426.174 21 6879.8 6779.085 22 6760.3 6627.752 23 6209.1 6980.663 24 6988.8 7333.574 25 7283.6 7182.241 26 6509.5 7535.152 27 8368.7 7888.063 % de Error 3.11 4.14 12.21 4.06 8.16 10.09 4.63 7.89 5.13 12.81 3.10 43.79 6.03 24.51 21.26 0.50 11.17 9.13 13.34 1.99 1.46 1.96 12.43 4.93 1.39 15.76 5.74 CME sin el caso 633820.9 632602.9 606603.3 632510.4 626928.1 620699.6 631472.1 625174.7 628470.3 603542.3 633398.2 461551.6 629411.9 566333.8 481936.8 634751.4 599556.8 608228.6 584939.4 633898.6 634224.6 633866.1 604982.9 628460.8 634217.1 578671.2 621616.8

Residual -131.2074 203.0815 702.8704 207.3037 -396.5074 -514.1185 -241.5852 -424.7963 333.0926 765.4148 -167.4963 -1801.907 -328.0741 -1204.385 1746.904 -31.26296 838.8259 705.7148 934.637 130.2259 100.7148 132.5481 -771.563 -344.7741 101.3593 -1025.652 480.637

La grfica de probabilidad normal (Normal probability plot) tiene en el eje vertical a los residuales ordenados de menor a mayor y en el eje horizontal a los percentiles de la distribucin normal que les corresponden, se les llama valores normales esperados (expected normal). Como son 27 casos se usan los percentiles 100/28%, 200/28%, ..., 2600/28% y 2700/28% de la normal estndar. Los datos no dan evidencia contra la normal si los puntos de la grfica estn alineados y quedan dentro de las lneas curvas como ocurre en este ejemplo.

Alberto Castillo Morales

26

G rfica de probabilidad norm al de grano


20 00.0

Residuales de grano

10 00.0

0.0

-10 00 .0

-20 00 .0 -2.0

-1.0

0.0

1.0

2.0

P ercentiles de la norm al estndar

Ejemplo (contina). Regresin lineal 2. Residuales y suposiciones de distribucin En el ejemplo de Gasto no se rechazan las hiptesis de simetra normal, de achatamiento normal ni general de normalidad; no hay evidencia contra la suposicin de distribucin normal: El listado que reporta el paquete estadstico es: Seccin de pruebas de normalidad Prueba Simetra normal Achatamiento normal Normal general Valor 1.7428 1.6049 5.6131 Significacin muestral 0.081368 0.108517 0.060414 Decisin(5%) Acepte Acepte Acepte

Se presentan los primeros nueve casos del listado de residuales con los valores observados de Gasto (respuesta), de las estimaciones de las medias o valores predichos (Predicho), los residuales, el porcentaje de error (% de error) y el cuadrado medio de la regresin sin el caso (CME sin el caso). Reporte de residuales Caso 1 2 3 4 5 6 7 8 9 respuesta 9691 5273 14570 13407 9547 17200 14816 11957 8897 Predicho 14910.29 7221.594 17654.5 12045.32 8431.549 12059.01 10913.19 10340.28 8510.6 Residual -5219.291 -1948.594 -3084.497 1361.682 1115.451 5140.988 3902.808 1616.719 386.4002 % de Error 53.86 36.95 21.17 10.16 11.68 29.89 26.34 13.52 4.34 CME sin el caso 1.630042E+07 1.685721E+07 1.670943E+07 1.690652E+07 1.69207E+07 1.633352E+07 1.659428E+07 1.687991E+07 1.694611E+07

Las ecuaciones de los estadsticos son: Residual = (Variable respuesta) - Predicho, % de error = 100Residual / (Variable respuesta), y CME sin el caso: es el cuadrado medio del error o estimacin de la varianza s Ga / In,Es,Ed en la regresin cuando se omite el caso en los clculos. Recuerde que hay 50 casos y al eliminar uno quedan 49 casos, ya que para calcular CME sin el caso, en cada rengln se omiten los datos del rengln. Alberto Castillo Morales
2

27

G rfica de probabilidad norm al de gasto


1 5 0 00 .0

Residuales de gasto

8 7 50 .0

2 5 00 .0

-3 75 0 .0

-1 0 0 00 .0 -3.0

-1 .5

0 .0

1 .5

3 .0

P ercentiles de la norm al estndar

La grfica de probabilidad normal (Normal probability plot) muestra que cuatro puntos quedan fuera del rea encerrada entre las lneas curvas, estos puntos no causaron problemas a la normalidad, ya que no se rechazaron las hiptesis nulas de simetra, de achatamiento y de normalidad general, pero debern analizarse con cuidado en la seccin de valores atpicos que se ver en seguida. Ejercicio Utilice el NCSS y los datos de los ejemplos de produccin de grano de trigo y de gasto en tarjetas de crdito para obtener los resultados que sirven para revisar las suposiciones de distribucin. Los datos estn en los archivos Ej31_RegresinLineal1 y Ej32_RegresinLineal2 de NCSS en el CD del texto. Las instrucciones para usar el NCSS estn en el anexo 2, identificadas como Ejemplo. Regresin lineal 1 y 2. Si dispone de otro paquete estadstico, trabaje con l para obtener los resultados del ejemplo.

7.4.8. Valores atpicos y puntos de influencia


En los anlisis de regresin se utilizan muestras de n casos a los que se miden k+1 variables; k variables explicativas y la variable respuesta. La variable respuesta se distribuye normal con media que depende de las variables explicativas y es muy difcil darse cuenta si los datos de algn caso particular tienen comportamiento fuera de lo usual con respecto a los dems casos (Belsley, D.A., et.al.1980). Por lo general no hay casos particulares con comportamiento diferente al de los dems, pero cuando hay uno o ms de estos casos, que se llaman casos atpicos, o puntos atpicos, deben identificarse porque puede ser que afecten el resultado del anlisis. Un caso particular puede ser atpico porque 1) el valor de la variable respuesta es muy grande con relacin a los otros casos incluidos en la muestra y como consecuencia tiene un residual que toma un valor positivo muy grande o 2) el valor de la variable respuesta es muy pequeo con relacin a los otros, su residual ser negativo con valor muy grande y 3) debido a la conformacin de valores de las variables explicativas, el caso particular est muy alejado de los otros en lo que a variables explicativas se refiere, es posible que no pertenezca a la misma poblacin que los dems casos. Los diagramas de dispersin de los residuales, o de los residuales estandarizados con las variables explicativas y con la variable respuesta, permiten se usan para identificar casos particulares que presentan valores atpicos. Los casos atpicos son importantes en regresin porque pueden influir en la ecuacin ajustada ms que los dems casos, produciendo un mal ajuste. Si se quita un caso atpico y se calcula la regresin sin l y mejora mucho el ajuste de la regresin, quiere decir que el punto atpico que se quit era un punto de influencia, pero puede haber valores atpicos que no sean puntos de influencia. Alberto Castillo Morales

28

Por lo anterior es importante poder reconocer, si es que estn presentes, los casos particulares con valores atpicos, o casos atpicos y tiene mayor importancia identificar entre los casos atpicos a los puntos de influencia, que tienen gran impacto en la ecuacin ajustada que se obtiene. Una vez que se identifica un punto atpico y con mayor razn si es punto de influencia, se debe revisar la pertenencia del caso a la poblacin que se estudia, la forma en que se seleccion para pertenecer a la muestra y la manera como se midi y anot a los valores de las variables. Si todo se hizo correctamente y el caso pertenece a la poblacin, el caso debe quedar en la muestra y se debe analizar sin el caso haciendo los cambios necesarios en la definicin de la poblacin que lo excluye del anlisis; puede considerarse la posibilidad de presentar ambos anlisis, con y sin el punto atpico o de influencia. Los valores de los residuales se revisan con mayor facilidad de manera grfica usando los residuales estandarizados, ya que se distribuyen normal estndar y se espera que el 95% de ellos aproximadamente tomen valores entre -2 y +2 y hay una probabilidad muy baja, de 0.0027 (uno de cada tres mil aproximadamente), de valores menores que -3 o mayores que 3. Se puede pedir al paquete estadstico que reporte los diagramas de dispersin del residual estandarizado (Rstudent) con cada una de las variables explicativas y con la variable respuesta. El paquete llama Rstudent al residual estandarizado porque hace la estandarizacin de cada caso usando la estimacin de la varianza que resulta de la regresin sin el caso. Aparte de la revisin de las grficas de residuales, hay estadsticos especiales para identificar a los puntos de influencia (Belsley, D.A., et.al. 1980), se le llama estadsticos de diagnstico. Por su importancia y por la facilidad de interpretarlos, se seleccionaron los estadsticos siguientes:

1) Diagonal de la matriz de proyeccin , se refiere a las variables explicativas. A cada caso le mide su
lejana de los dems casos, se representa con una h con acento circunflejo, un subndice identifica con i=1,...,n. Si el valor h de la diagonal de la matriz de proyeccin que corresponde al al caso: h i i * caso i es mayor que 8/n y su valor es mucho mayor que los de los dems casos, el caso i puede ser un punto de influencia debido a su lejana de los dems casos. 2) DFFITSi para i=1,...,n, mide la influencia de cada caso en su propia prediccin, es la diferencia estandarizada entre las predicciones para el caso con y sin los datos del caso. Si para el caso i el valor absoluto de DFFITSi es mayor* que uno y su valor es mucho mayor que los de los dems casos, el caso i puede ser un punto de influencia, e influye de manera especfica sobre su propia prediccin. D de Cook, mide la influencia de cada caso en las predicciones sobre todos los n casos. Si la D de Cook en el caso i (Di) es mayor* que uno y su valor es mucho mayor que los de los dems casos, entonces el caso i puede ser un punto de influencia porque afecta al conjunto de n predicciones. CovRatio o relacin de covarianzas, para el caso i; i=1,...,n, CovRatioi compara el conjunto de las estimaciones de varianza de los coeficientes de regresin cuando las estimaciones se hacen con todos los casos, con las estimaciones que se obtienen sin incluir el caso i. Cuando el valor de CovRatioi es menor* que 1-3 k/n y su valor es mucho menor que los de los dems casos, se puede considerar que el caso i es un punto de influencia porque su inclusin produce mayores varianzas en los coeficientes de regresin; k es el nmero de variables explicativas en el modelo. Ejemplo (contina). Regresin lineal 1. Valores atpicos y puntos de influencia

3)

4)

Se especifican valores basados en experiencia y en distribuciones aproximadas, considere la diferencia con la mayora de casos en la muestra. Alberto Castillo Morales

29

Se acostumbra revisar las grficas de probabilidad normal y las grficas de residuales estandarizados con las variables explicativas para detectar valores atpicos. En los datos de rendimiento de grano de trigo, la grfica de probabilidad normal (abajo), sigue el comportamiento esperado cuando los residuales siguen la distribucin normal: puntos alineados dentro del rea delimitada por las lneas curvas. En la grfica de los residuales estandarizados con Nitrgeno, se ve en N=120 un residual muy grande (arriba en medio) y otro con valor negativo muy grande (abajo en medio), estos puntos se pueden identificar por el valor del residual, el ms grande positivo y el ms grande negativo en los casos 11 y 12 respectivamente. Estos mismos residuales se identifican en las grficas de residuales con Fsforo y Potasio, pero no se separan mucho de los dems residuales y no parecen puntos atpicos, conviene revisar los listados de los estadsticos de diagnstico.
Grfica de probabilidad norm al de grano
2000.0 3.0

Rstudent vs Nitrgeno

Residuales de grano

1000.0

1.5

0.0

Rstudent
-1.0 0.0 1.0 2.0

0.0

-1000.0

-1.5

-2000.0 -2.0

-3.0 60.0

90.0

120.0

150.0

180.0

P ercentiles de la norm al estndar Rstudent vs Fsforo


3.0 3.0

Nitrgeno

Rstudent vs Potasio

1.5

1.5

Rstudent

0.0

Rstudent
65.0 90.0 115.0 140.0

0.0

-1.5

-1.5

-3.0 40.0

-3.0 20.0

50.0

80.0

110.0

140.0

Fsforo

Potasio

En el listado de diagnstico de regresin se ven los estadsticos diagonal de la matriz de , Di de Cook, DFFITSi y CovRatioi. Ningn valor de h es mayor que 8/27 = 0.2962, proyeccin, h i i los 27 valores de Di de Cook son menores que uno, el valor del caso 12 de DFFITS 12 es -1.1984 y excede en valor absoluto a uno, entonces el caso 12 debe revisarse por su posible influencia en la regresin y los valores de CovRatio i se comparan con (1)(9)/27 = 0.6666, los casos 11 y 12 dan valores menores que 0.6666 y deben revisarse para ver si son puntos de influencia. La revisin de los datos no muestra que los casos 11 y 12 sean atpicos con respecto a los dems casos y se decidi dejarlos en la regresin. Seccin de diagnstico de regresin Residual Diagonal Caso estandarizado Rstudent sombrero 1 1.344122 1.369463 0.203704 2 -0.590652 -0.582101 0.148148 3 -1.039449 -1.041355 0.092593 Alberto Castillo Morales

D de Cook 0.115542 0.015168 0.027563

Dffits 0.692648 -0.242753 -0.332649

Covratio 1.081514 1.319182 1.086008

30

4 5 6 7 8 9 10 11 12 13 14

1.130065 0.144840 1.010813 -0.441981 0.981251 0.282372 -0.479386 2.353427 -2.505436 0.691214 0.145767

1.137249 0.092593 0.032578 0.363281 0.141721 0.203704 0.001342 0.071680 1.011313 0.203704 0.065344 0.511502 -0.434113 0.092593 0.004983 -0.138672 0.980424 0.148148 0.041863 0.408865 0.276645 0.148148 0.003467 0.115369 -0.471209 0.148148 0.009992 -0.196508 2.641635 0.092593 0.141291 0.843839 -2.873693 0.148148 0.272922 -1.198413 0.683154 0.203704 0.030556 0.345526 0.142629 0.203704 0.001359 0.072139 Contina en la pgina siguiente viene de la pgina anterior Diagonal sombrero D de Cook 0.148148 0.088425 0.148148 0.001426 0.092593 0.007279 0.037037 0.023854 0.092593 0.001299 0.203704 0.002277 0.203704 0.014675 0.148148 0.000082 0.148148 0.022218 0.148148 0.001477 0.148148 0.003612 0.148148 0.049246 0.203704 0.007720

1.047568 1.494723 1.250857 1.272333 1.181862 1.383005 1.347137 0.437342 0.391904 1.379366 1.494653

Caso 15 16 17 18 19 20 21 22 23 24 25 26 27

Residual estandarizado Rstudent -1.426103 -1.460838 0.181071 0.177217 -0.534174 -0.525704 -1.575047 -1.630889 -0.225651 -0.220936 -0.188692 -0.184688 0.479028 0.470853 -0.043469 -0.042515 -0.714849 -0.707034 0.184300 0.180382 0.288242 0.282417 1.064260 1.067483 -0.347429 -0.340687

Dffits -0.609211 0.073905 -0.167930 -0.319844 -0.070575 -0.093411 0.238148 -0.017730 -0.294854 0.075224 0.117776 0.445171 -0.172313

Covratio 0.968337 1.394371 1.252367 0.785857 1.304873 1.490921 1.441210 1.401890 1.281814 1.394085 1.382197 1.145856 1.468943

Ejemplo (contina). Regresin lineal 2. Valores atpicos y puntos de influencia En los datos del ejemplo de gasto, los cuatro puntos que salen del rea delimitada por las lneas curvas en la grfica de probabilidad normal se muestran distribuidos a lo largo de Ingreso en la grfica de residuales estandarizados con Ingreso, en la grfica de Escolaridad estn en los valores pequeos de escolaridad y en Edad se acumulan sobre 30 aproximadamente. Cuando los residuales ms grandes estn distribuidos a lo largo de Ingreso tienen como efecto 0 , en el caso de Escolaridad los aumentar el valor de la estimacin de la ordenada al origen residuales grandes estn a la izquierda y suben solo ese lado del ajuste, aumentando el valor de la esc de regresin de escolaridad, un efecto intermedio a los dos estimacin del coeficiente anteriores se presentar en Edad, pues los residuales grandes se acumulan sobre 30 (tres de ellos) y afectan como lo hicieron con el coeficiente de Ingreso, pero estn distribuidos ms hacia la edad de edad. La interpretacin izquierda, disminuyendo el valor de la estimacin del coeficiente anterior es muy simplista, pues deben tomarse en cuenta las tres grficas al mismo tiempo. El reporte del diagnostico de regresin complementar esta opinin, pero slo el clculo de regresiones con y sin los posibles casos de influencia permitir tomar una decisin sobre dejarlos en la regresin o eliminarlos.

Alberto Castillo Morales

31

Grfica de probabilidad norm al de gasto


15000.0 4.0

Rstudent vs Ingreso

Residuales de gasto

8750.0

2.3

2500.0

Rstudent
-1.5 0.0 1.5 3.0

0.5

-3750.0

-1.3

-10000.0 -3 .0

-3.0 20000.0

35000.0

50000.0

65000.0

80000.0

P ercentiles de la norm al estndar

Ingreso

Rstudent vs Escolaridad
4.0 4.0

Rstudent vs Edad

2.3

2.3

Rstudent

0.5

Rstudent
15.0 20.0 25.0 30.0

0.5

-1.3

-1.3

-3.0 10.0

-3.0 25.0

35.0

45.0

55.0

65.0

Escolaridad

Edad

s se comparan con 8/n= 0.16, la de Di de Cook y Recordando que los valores de Diagonal h i DFFITSi con uno y CovRatioi con 1-3k/n=0.82, se revisan las columnas del listado que se presenta en la pgina siguiente.
Seccin de diagnstico de regresin Residual Diagonal Caso estandarizadoRstudent sombrero 1 -1.327376 -1.338758 0.067562 2 -0.500822 -0.496705 0.087021 3 -0.807407 -0.804302 0.119826 4 0.342052 0.338745 0.044235 5 0.280247 0.277421 0.044560 6 1.293093 1.302859 0.046724 7 0.982043 0.981655 0.047470 8 0.434998 0.431132 0.166935 9 0.097836 0.096777 0.059278 10 -0.834664 -0.831865 0.118059 11 -0.099303 -0.098228 0.063628 12 1.053596 1.054887 0.065542 13 -0.136301 -0.134838 0.049963 14 0.404716 0.401008 0.109315 15 2.141729 2.232557 0.068337 16 0.225905 0.223560 0.067268 17 -0.040753 -0.040309 0.037028 18 0.096892 0.095843 0.122013 Alberto Castillo Morales

D de Cook 0.031916 0.005977 0.022188 0.001354 0.000916 0.020489 0.012016 0.009479 0.000151 0.023314 0.000168 0.019465 0.000244 0.005026 0.084113 0.000920 0.000016 0.000326

Dffits -0.360367 -0.153349 -0.296764 0.072875 0.059911 0.288442 0.219145 0.192994 0.024293 -0.304357 -0.025606 0.279374 -0.030922 0.140485 0.604644 0.060037 -0.007904 0.035729

Covratio 1.001647 1.170098 1.171704 1.130853 1.135035 0.987735 1.053162 1.289264 1.159734 1.164746 1.165093 1.059708 1.147464 1.208538 0.769906 1.165457 1.133718 1.242621

32

19 20 21 22 23 24 25 26 27 28 29 30 31 32

0.050455 -0.001923 1.024219 0.690288 1.577180 -0.525149 0.202459 -0.780139 -0.727128 -0.751034 -0.468491 -0.701742 3.015499 -1.330701

0.049905 0.080673 0.000056 -0.001902 0.079208 0.000000 1.024778 0.038389 0.010470 0.686307 0.107315 0.014321 1.603912 0.052408 0.034394 -0.520974 0.044080 0.003179 0.200335 0.072449 0.000800 -0.776768 0.082544 0.013689 -0.723350 0.071872 0.010236 -0.747423 0.086887 0.013418 -0.464481 0.236211 0.016970 -0.697818 0.082983 0.011141 3.329756 0.048685 0.116341 -1.342245 0.034701 0.015914 contina en la pgina siguiente viene de la pgina anterior Diagonal sombrero D de Cook 0.135529 0.002686 0.061552 0.098204 0.121175 0.008349 0.104895 0.030037 0.121213 0.152285 0.108712 0.015993 0.101634 0.007597 0.099594 0.038194 0.149846 0.034142 0.026183 0.003281 0.042635 0.000498 0.048153 0.001532 0.047141 0.000072 0.088041 0.019942 0.066059 0.000374 0.080590 0.046911 0.066146 0.004879 0.027732 0.006999

0.014783 -0.000558 0.204754 0.237958 0.377197 -0.111873 0.055989 -0.232992 -0.201291 -0.230559 -0.258304 -0.209917 0.753267 -0.254489

1.187450 1.185822 1.035397 1.173260 0.922539 1.115099 1.172992 1.128388 1.123288 1.138214 1.402489 1.140530 0.475609 0.966776

Residual Caso estandarizadoRstudent 33 0.261760 0.259092 34 -2.447251 -2.595346 35 0.492138 0.488046 36 1.012558 1.012842 37 2.101482 2.186099 38 0.724209 0.720413 39 -0.518270 -0.514109 40 -1.175258 -1.180268 41 -0.880236 -0.878042 42 -0.698616 -0.694676 43 0.211550 0.209340 44 -0.348020 -0.344670 45 0.076551 0.075719 46 -0.908991 -0.907242 47 0.145375 0.143819 48 -1.463120 -1.482025 49 -0.524895 -0.520720 50 -0.990709 -0.990506

Dffits 0.102588 -0.664678 0.181224 0.346723 0.811900 0.251600 -0.172921 -0.392534 -0.368629 -0.113908 0.044177 -0.077523 0.016842 -0.281888 0.038249 -0.438775 -0.138585 -0.167283

Covratio 1.255571 0.665972 1.216488 1.114680 0.829778 1.170152 1.187284 1.073450 1.199979 1.074420 1.136091 1.135100 1.145332 1.113572 1.166980 0.981492 1.141475 1.030215

Con respecto a la Diagonal sombrero el caso 8 apenas pasa el lmite y el caso 29 lo hace por completo, D de Cook y DFFITS no sealan caso alguno pero CovRatio muestra que los casos 15, 31 y 34 parecen ser puntos de influencia. Este tipo de datos, sobre gastos, presenta mucha variacin y como cada caso est sealado por slo un criterio como punto de influencia se decidi dejar el ajuste tal como est. Ejercicio Utilice la base de datos de NCSS de los ejemplos de produccin de grano de trigo y de gasto en tarjetas de crdito para obtener las grficas de residuales y los estadsticos de diagnstico. Los datos estn en los archivos Ej31_RegresinLineal1 y Ej32_RegresinLineal2 de NCSS en el CD del texto. Las instrucciones para usar el NCSS estn en el anexo 2, identificadas como Ejemplo. Regresin lineal 1 y 2. Si dispone de otro paquete estadstico, trabaje con l para obtener los resultados del ejemplo.

7.4.9. Multicolinealidad
Alberto Castillo Morales

33

Cuando dos variables explicativas miden caractersticas similares en los elementos de la poblacin, o miden lo mismo pero de dos formas diferentes, los datos de las variables explicativas pueden presentar una estructura, que se conoce como multicolinealidad (Belsley, D.A. et.al. 1980), que no es adecuada para hacer un anlisis de regresin . Para detectar si hay multicolinealidad en los datos, se hace la regresin de cada variable explicativa sobre las dems variables explicativas, esto produce tantas regresiones como variables explicativas se tengan y si alguna de estas regresiones produce una R cuadrada con valor cercano a uno, mayor que 0.99, se tiene el problema de multicolinealidad. Una visin intuitiva sobre la multicolinealidad se puede obtener comparando la estructura de dos variables explicativas x1 y x2, en dos trabajos distintos. En uno de los trabajos los puntos del diagrama de dispersin de x1 y x2 se ven como una carretera recta, vea el diagrama de dispersin abajo a la izquierda, en el en el otro trabajo los puntos se ven como un rectngulo, vea el diagrama de la derecha.

x2 multicolineal

x2 sin problema

En el primer trabajo se puede presentar multicolinealidad porque la regresin de x1 sobre x2 es una lnea recta con un poco de dispersin, en la segunda no hay multicolinealidad, el coeficiente de la regresin de x1 sobre x2 es cero y no es significativa. En la grfica de la izquierda la regresin de x2 sobre x1 (y tambin la de x1 sobre x2) da un R 2 de 0.9967 y el diagrama de dispersin muestra los puntos de la grfica casi sobre una lnea recta, en la grfica de la derecha la regresin de x2 sobre x1 da un R 2 de cero.

x1
1.0 0.8 0.6

1.0 0.8 0.6

0.4 0.2 0 1 2 3 4 5 0 1 2 3 4 5 6

0.4 0.2 0 1 2 3 4 5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

x1

x2 multicolineal

x1

x2 sin problema

Alberto Castillo Morales

34

La regresin de Y sobre x1 y x2 es una superficie, como una lmina de metal, que est sobre los puntos del diagrama de dispersin x1,x2 y que se apoya sobre los puntos x1, x2 por medio de lneas verticales que actan como columnas. Utilizando valores de Y generados para que sea fcil interpretar las grficas, se ajusta una regresin y los puntos de las estimaciones de la media de Y se presentan en las grficas siguientes con una lnea que va de la media estimada al plano x1-x2. Si trata de detener la lmina de metal sobre las medias estimadas, la lmina tiene menos soporte grfica de la izquierda que en la grfica de la derecha, ya que en la primera los soportes estn alineados al centro y en la segunda estn distribuidos en todo el rectngulo, la primera es menos estable que la segunda; ese es el efecto de la multicolinealidad y cualquier punto que se altera, se quita o se agrega en los datos de la grfica de la izquierda puede modificar mucho el ajuste, pues es fcil cambiar el equilibrio de la lmina de metal sobre los puntos x1, x2 alineados. Un efecto de la multicolinealidad, que no se ve en las grficas anteriores, es que las desviaciones estndar de algunos de los estimadores de los coeficientes de regresin son muy grandes debido a la conformacin de los valores de las variables explicativas en la muestra, pudiendo causar que las pruebas parciales de regresin no sean significativas aunque la prueba total de regresin si sea significativa. Una consecuencia prctica de conocer el efecto de la multicolinealidad es que debe tenerse especial cuidado en la seleccin de variables explicativas que entran en la regresin, de modo que cada una de ellas mida una propiedad o caracterstica diferente de los elementos de la poblacin y que ninguna pueda obtenerse a partir de las otras usando una ecuacin de regresin lineal. Aparte del ajuste de las regresiones de cada variable explicativa con las dems, de las que se revisa el valor de la R cuadrada, hay otros estadsticos que permiten probar si hay problemas de multicolinealidad en los datos, pero debido a los conceptos tericos necesarios para usarlos no se consideran en este texto. Ejemplo (contina). Regresin lineal 1. Multicolinealidad En el ejemplo de peso de grano de trigo las variables explicativas Nitrgeno, Fsforo y Potasio dan lugar a diagramas de dispersin con forma de rectngulo, no presentan multicolinealidad y eso se manifiesta en la Seccin de multicolinealidad del listado de regresin: Seccin de multicolinealidad Variable Inflacin de independiente varianza Nitrgeno 1.000000 Fsforo 1.000000 Potasio 1.000000 R cuadrada con otras X's 0.000000 0.000000 0.000000

Tolerancia 1.000000 1.000000 1.000000

El listado presenta en la primera columna a la lista de variables independientes, en la tercera columna est la R cuadrada de la regresin de la variable en cada rengln con las dems variable independientes y en los tres casos la R2 es cero; no hay problema de multicolinealidad. Algunos usuarios prefieren ver la tolerancia, que es uno menos la R 2 y otros usan la inflacin de varianza que es uno entre la tolerancia, el lector encontrar ms sencillo usar los valores de R cuadrada. Ejemplo (contina). Regresin lineal 2. Multicolinealidad En el ejemplo de Gasto en tarjetas las R cuadradas de la regresin lineal de cada variable independiente (columna uno en el listado) con las dems variables explicativas estn en la tercera

Alberto Castillo Morales

35

columna del listado, sombreadas. Los valores de las R 2 son muy pequeos y no hay problemas de multicolinealidad. Seccin de multicolinealidad Variable Inflacin de independiente varianza Ingreso 1.006524 Escolaridad 1.107785 Edad 1.102380 Ejercicio Utilice la base de datos de NCSS de los ejemplos de produccin de grano de trigo y de gasto en tarjetas de crdito para obtener un listado con los valores de las R 2 de cada variable explicativa con las dems. Los datos estn en los archivos Ej31_RegresinLineal1 y Ej32_RegresinLineal2 de NCSS en el CD del texto. Las instrucciones para usar el NCSS estn en el anexo 2, identificadas como Ejemplo. Regresin lineal 1 y 2. Si dispone de otro paquete estadstico, trabaje con l para obtener los resultados. R cuadrada con otras X's 0.006482 0.097298 0.092871 Tolerancia 0.993518 0.902702 0.907129

7.4.10. Regresin lineal simple


Cuando se tiene una sola variable explicativa los datos de la variable respuesta y la variable explicativa se pueden graficar en un diagrama de dispersin y el modelo de regresin puede interpretarse como una lnea recta. Es el nico caso de regresin en el que los valores de las estimaciones y los estadsticos de pruebas de hiptesis se pueden calcular con relativa facilidad usando una calculadora. Conviene revisar el caso de regresin lineal simple con detalle, ya que por ser muy sencillo permite reforzar los conceptos para el establecimiento de los modelos de regresin y algunas de las estimaciones y pruebas de hiptesis, adems se facilita al lector la lectura de otros textos. El modelo de regresin lineal de una muestra de n casos de la variable respuesta Y sobre la variable explicativa x es: Yi ~ N( yi / xi = 0 + 1 xi, Y/x Y/x); i=1,...,n El subndice i en la ecuacin identifica a los casos en la muestra, si hay n casos i toma los valores 1,2,...,n. La ecuacin que relaciona a la media yi / xi de Y con la variable explicativa x en el caso i es

yi / xi = 0 + 1 xi.
La ecuacin de regresin es la ecuacin de una lnea recta que se ve cuando se grafican los valores de yi / xi en el eje vertical (de ordenadas) y los de xi en el eje horizontal. Para hacer la grfica se necesita conocer los valores de 0 y 1, por ejemplo, si se tiene la ecuacin yi / xi = 0.5 + 1.2 xi y se calculan los valores que toma la media yi / xi cuando x toma valores 0,1,...,10, se produce la tabla: x: Y/x: 1 1.7 2 2.9 3 4.1 4 5.3 5 6.5 6 7.7 7 8.9 8 10.1 9 11.3 10 12.5

y de la tabla se obtiene la grfica de Y/x como funcin de x:

Alberto Castillo Morales

36

Lnea = 0.5 + 1.2*x


15 10 5 0 0 2 4 x 6 8 10

Con esta visin geomtrica se puede ver que el coeficientes 0 es la ordenada al origen o el valor que toma la media cuando x vale cero, la altura a la que la lnea corta el eje de ordenadas y 1 es la pendiente o inclinacin de la lnea, que est dada por el cambio en altura de la lnea cuando el valor de x se incrementa por una unidad. La lnea crece 1.2 cuando x crece uno y crece 12 cuando x crece 10. La lnea crece en altura hacia la derecha cuando la pendiente 1 es mayor que cero, o como se acostumbra decir, es positiva y crece ms a medida que su valor es mayor. En cambio, si la pendiente 1 es menor que cero o negativa, la lnea decrece hacia la derecha, como en la grfica siguiente

Lnea =14-1.2*x
15 10 5 0 0 2 4 x 6 8 10

yi / x i , La ecuacin de regresin ajustada se representa de manera general escribiendo los estimadores


0y 1 en

lugar de los parmetros yi / xi , 0 y 1 en la ecuacin de regresin, quedando

yi / x i =

0+ 1 xi ,

yi / xi es i en lugar de la ecuacin ajustada usando y


i = = y
0+ 1 xi

y se le llama ecuacin de prediccin. Las ecuaciones para obtener los estimadores en la regresin lineal simple se basan en el clculo de la media y la varianza muestral de ambas variables y las llamadas sumas de cuadrados, que se representan como SC con un subndice que indica las dos variables que intervienen en su clculo y que para regresin lineal simple son:

Alberto Castillo Morales

37

SCxx = (n 1)s 2 x =

x
i=1 n i=1

2 i

nx 2 , nY 2 ,

SCYY = (n 1)s 2 Y =
n

SCxY =

x Y nxY .
i=1 i i

Con las sumas de cuadrados y las medias de las variables se obtienen los estimadores:

1 =

SC xY , SC xx

0 = Y 1 x ,
0 y 1 en lugar de los yi / x i , y al escribir la ecuacin de regresin usando los estimadores parmetros, se obtiene la lnea de regresin ajustada o de prediccin, que se escribe

yi / x i =

0+ 1 xi

0+ 1 xi. i = o y

El estimador de la varianza es s2Y/x = (SC YY

(SC xY ) 2 ) /(n 2) , SC xx

los estimadores de las varianzas de los estimadores de los coeficientes de regresin, usando s 2 para representar a las varianzas y como subndice el estimador al que se refieren, son
2 2 2 2 s + 1 = s Y / x / SC xx y s = sY / x (
0

1 n

x2 ). SC xx

El estadstico de prueba para las hiptesis de que los coeficientes valen cero en el modelo es la t calculada con n-2 grados de libertad, identificando con el primer subndice al coeficiente que prueban: 1 para 1 y 0 para 0, se tiene

t 1,c =

1 y s 1

t 0,c =

0 . s 0

Como en la regresin lineal slo hay una variable explicativa, la prueba parcial sobre 1 con tc,1, coincide con la prueba de regresin, que plantea que todos los coeficientes de las variables explicativas son cero. La prueba de regresin en el anlisis de varianza usa

Alberto Castillo Morales

38

SC 2 xY Fc = . SC xx s 2 Y/x
El intervalo de confianza para la media yi / xi cuando la variable explicativa toma valor x y t n-2, 1-/2 es el percentil 100(1-/2) de la t con n-2 grados de libertad inicia en
0+ 1 x

tn-2, 1-/2

1 (x x )2 s2 ( + ) Y/x n SC xx

y termina en
0+ 1x

+ tn-2, 1-/2

1 (x x )2 s2 ( + ), Y/x n SC xx

y el intervalo de prediccin con 100(1-)% de confianza para un valor de valor de Y cuando la variable explicativa vale x va de

0+ 1 x

tn-2, 1-/2

s2 Y / x (1 +

1 (x x )2 + ) n SC xx

a
0+ 1x

+ tn-2, 1-/2

s2 Y / x (1 +

1 (x x )2 + ), n SC xx

Ejemplo. Regresin lineal simple Se tiene una muestra de cinco casos con datos que facilitan los clculos manuales: x Y 1 3 2 4 3 6 4 5 5 7

El modelo de regresin completo es Yx ~ N( Y/x = 0 + x X, Y/x Y/x), los valores bsicos para los clculos de las estimaciones son n =5, x =3, y = 5 , sx = 1.581139 y sY= 1.581139. Las sumas de cuadrados son: SCxx = (n 1)s 2 x =

x
i=1 n i=1

2 i

nx 2 = (5 1) 1.5811392 = 55 5 3 2 = 10 nY 2 = 4 1.5811392 =135-552 = 10

SCYY = (n 1)s
n

2 Y

SCxY =

x Y nxY = 84-535=9.
i=1 i i

Los estimadores de los coeficientes se obtienen usando los resultados anteriores

Alberto Castillo Morales

39

1 =

SC xY = 9/10 = 0.9, SC xx

0 = Y 1 x = 5 0.93 = 2.3,

La ecuacin de regresin ajustada es

yi / x i =

0+ 1 xi

= 2.3 + 0.9 x, o

i = 2.3+0.9 x . y

El estimador de la varianza de la regresin es s


2

Y/x

= (SC YY

(SC xY ) 2 ) /(n 2) = (10-92/10 )/(5-2) = 0.6333, SC xx

los estimadores de las varianzas de los estimadores de los coeficientes de regresin son
2 2 s = s Y / x / SC xx = 0.6333/10 = 0.0633 y
1

1 x2 2 2 s + ) = 0.6333(1/5 + 32/10) = 0.6966, 0 = s Y / x ( n SC xx


0 = 0.8346. las correspondientes desviaciones estndar son s 1 = 0.2516 y s

Para probar si 1 vale cero se plantea la pareja de hiptesis H 0: 1 =0 y HA: 1 0 en el modelo Y/x = 0 + x. El estadstico de prueba vale

t 1,c =

1 = 0.9/0.2516 = 3.5771, s 1

y el percentil 97.5% de t con 3= n-2 grados de libertad es t 3,0.975 = 3.1824, lo que conduce a rechazar la hiptesis nula de que el coeficiente vale cero. La prueba de regresin en el anlisis de varianza produce una F calculada que es igual al cuadrado de la t calculada y el percentil 95% de la F con 1 y 3 grados de libertad es el cuadrado del percentil 97.5% de la t con 3 grados de libertad; las pruebas son equivalentes: Fc =

SC 2 xY = 92/(100.633333) = 12.7895. 2 SC xx s Y / x

El intervalo con 95% de confianza para la media yi / xi cuando la variable explicativa toma valor x=4 y tn-2, 1-/2 = 3.1824 es el percentil 97.5% de la t con 3 grados de libertad inicia en
0+ 1 x

tn-2, 1-/2

1 (x x )2 s2 + ) = 2.3+0.94 - 3.1824 Y/x( n SC xx

1 ( 4 3) 2 0.633333( + ) 5 10
Alberto Castillo Morales

40

= 5.9 3.1824 y termina en


0+ 1x

0.633333 0.3 = 5.9 (3.1824)(0.43589) = 4.5128

+ tn-2, 1-/2

1 (x x )2 s2 + ) = 5.9+(3.1824)(0.43589) = 7.2872. Y/x( n SC xx

El intervalo de prediccin con 95% de confianza para un valor de valor de Y cuando la variable explicativa vale 4 inicia en
0+ 1 x

tn-2, 1-/2

s2 Y / x (1 +

1 (x x )2 1 ( 4 3) 2 + ) = 5.9-3.1824 0.633333(1 + + ) n SC xx 5 10

= 5.9-(3.1824)(0.907377) = 3.0123 y termina en


0+ 1x

+ tn-2, 1-/2

s2 Y / x (1 +

1 (x x )2 + ) = 5.9+(3.1824)(0.907377) = 8.7876. n SC xx

La grfica mostrando la dispersin de las parejas de valores de x y Y y la recta de regresin yi / xi = 2.3 + 0.9 x es: estimada

8 7 6 5 4 3 2 1 0 0 1 2 3 x 4 5 6 Y

Ejercicio Utilice un paquete estadstico para obtener la regresin lineal simple del ejemplo. Los datos de Excel estn en la hoja 33 del libro EjemplosLibro, los de NCSS estn en el archivo Ej33_RegrLinealSimple de NCSS en el CD del texto. Las instrucciones para usar Excel y NCSS estn en los anexos 1 y 2, identificadas como Ejemplo. Regresin linealSimple. Si dispone de otro paquete estadstico, trabaje con l para obtener los resultados del ejemplo.

Alberto Castillo Morales

41

7.4.11. Regresin cuadrtica


En regresin lineal el coeficiente de una variable explicativa da la proporcin de cambio entre la variable explicativa y la variable respuesta; por cada unidad que cambia la variable explicativa la media de la respuesta cambia el valor dado por el coeficiente de la variable. Hay aplicaciones en las que la magnitud del cambio en el valor de la media de la variable respuesta se modifica al cambiar el valor de la variable explicativa, por ejemplo el aumento de peso por semana de un becerro de un ao de edad es mayor que el aumento de peso cuando el becerro tiene seis meses. Para reflejar que el cambio en la media de la respuesta se modifica al cambiar el valor inicial de la variable explicativa se puede usar la regresin cuadrtica. La regresin cuadrtica de Y sobre x1 se forma a partir de la regresin lineal de Y sobre x1: Y ~ N( 2 y / x 1 = 0 + 1 x1, y/x1 y/x1), a la que se agrega en la ecuacin de regresin el trmino 11 x1 , la variable explicativa que se incluye es el cuadrado, x1 2, de la variable x1, el modelo queda: Y ~ N( y / x1,x12 = 0 + 1 x1 + 11 x12, Y / x1,x 12 Y / x1,x12 ). Al incluir el trmino 11 x12 en la ecuacin de regresin, la proporcin de cambio entre el valor de la variable explicativa y la media de la variable respuesta se modifica al cambiar el valor inicial de la variable explicativa. En la lnea recta y / x = 6-2 x la constante -2 da la proporcin de cambio, cuando x se incrementa una unidad la media Y / x decrece 2 para cualquier valor inicial de x. En la ecuacin cuadrtica Y / x ,x 2 = 6-2 x + 1 x2 la media de la respuesta y / x ,x 2 cambia -1 (decrece 3) cuando x pasa de cero a uno, ya que pasa de 6-(2)(0)+(1)(0)=6 a 6-(2)(1)+(1)(1)(1)= 5, pero si x vale 2 y se incrementa una unidad pasando a 3 la media Y / x ,x 2 crece 3 unidades, ya que pasa de 6-(2)(2)+(1)(2)(2)=6 a 6-(2)(3)+(1)(3)(3)= 9, . En el modelo de regresin lineal con k variables respuesta Y ~ N( y / x 1,x 2,...,xk = 0 + 1 x1 + 2 x2 + ... +k xk, y/x1,...,xk y/x1,...,xk) se puede incluir el trmino cuadrtico 11x12 para x1, dando lugar a la cuadrtica en x1
2 Y~N( y / x1 ,x 2,...,xk ,x 12 =0+1 x1+2 x2+ ... +k xk+11x1 , Y / x 1,...,xk ,x 12 Y / x 1,...,xk ,x 12 ),

de la misma manera se pueden incluir los trminos cuadrticos para x2, x3,...,xk, dando lugar a la cuadrtica en x1,x2,...,xk:
2 2 Y~N( y / x 1,...,xk ,x 12 ,...xk 2 =0+1 x1+...+k xk+11x1 +...+kkxk , Y / x 1,...,xk ,x 12 ,..,xk 2

Y / x 1,...,xk ,x 12 ,..,xk 2 )
Cuando el coeficiente de la variable x12 es mayor que cero (positivo), para valores positivos de x1 la magnitud de cambio crece conforme crece x1 y cuando el coeficiente de x1 2 es menor que cero (negativo), para valores positivos de x1 la magnitud de cambio decrece conforme crece x1. Ejemplo. Ecuacin de la Regresin cuadrtica
2 Si en la ecuacin de regresin cuadrtica y / x 1,x 12 = 1 x1+11 x1 el coeficiente de x1 es 0.5 y el

de x12 es 0.1, queda y / x 1,x 12 = 0.5 x1+0.1 x12, la magnitud del cambio en la media y / x 1,x 12 cuando x1 aumenta de 5 a 6 es diferente de el cambio en la media cuando x1 aumenta de 10 a 11. Alberto Castillo Morales

42

Si x1 aumenta de 5 a 6, y / x1=5,x12 =25 = 0.55 + (0.1)(25)=5 y y / x1=6,x12 =36 = (0.5)(6)+(0.1)(36)= 6.6, la media crece 1.6, cuando x1 pasa de 10 a 11, y / x 1= 10,x 12 = 100 = (0.5)(10)+(0.1)(100)=15 y

y / x 1= 11,x 12 = 121 = (0.5)(11)+ (0.1)(121)= 17.6, el cambio en la media es un aumento de 2.6.


Cuando la magnitud del cambio en la media se modifica al cambiar el valor de x, adems de x 2, se pueden usar otros trminos, entre los ms usados estn el cubo x 3, la raz cuadrada x1 , el inverso

1 y el logaritmo ln(x), tambin se acostumbra usar el producto de dos variables explicativas como (x1) x1
(x2), (x1)(x3), etc. Es difcil saber cuando deben incluirse trminos que permitan que la magnitud del cambio en la media de la variable respuesta sea mayor (o menor) a medida que crece el valor de la variable explicativa, en ocasiones la experiencia y conocimiento del problema lo sugieren, en otros casos se hace buscando un mejor ajuste despus de revisar las grficas de residuales con las variables explicativas, en las que una tendencia curva de los residuales sugiere una regresin cuadrtica. Ejemplo. Regresin cuadrtica Un ganadero piensa adicionar melaza a las raciones de los becerros de engorda. Selecciona 20 becerros de la misma edad (aproximadamente) y les da la racin usual ms una dosis de melaza que va de cero a 2 kg por da. Espera que entre mayor sea la dosis de melaza mayor sea el aumento de peso en un mes, pero sospecha que 2 kg es una dosis demasiado grande. Los datos son : Melaza kg Aumento kg Melaza kg Aumento kg 0 25 1 37 0.1 23 1.1 36 0.2 25 1.2 37 0.3 30 1.3 37 0.4 34 1.4 43 0.5 26 1.5 40 0.6 30 1.6 36 0.7 32 1.7 39 0.8 36 1.8 44 0.9 40 1.9 41 2 38

La base de datos tiene 21 renglones y tres columnas, en cada rengln est un becerro, que son los casos particulares, una columna tiene la dosis de melaza, otra el aumento de peso y la tercera tiene el cuadrado de la dosis de melaza. En el diagrama de dispersin de aumento de peso y dosis se ve que el aumento de peso es mayor para las dosis ms pequeas, se ve la curvatura usual en los trabajos con dietas, con un aumento que disminuye a medida que la dosis de melaza aumenta y en las dosis mayores se estabiliza.
Aumento de Peso en kg
45 40 35

Aumento kg

30 25 20 15 10 5 0 0.0 0.2 0.3 0.5 0.7 0.8 1.0 1.2 1.3 1.5 1.7 1.8 2.0

Melaza adicionada Kg

Alberto Castillo Morales

43

Se ajusta el modelo cuadrtico, usando como subndices las dos primeras letras de cada variable y me2 para melaza al cuadrado

Au / me,me 2 = 0 + me Melaza + me 2 Melaza 2 ,


la distribucin de la variable respuesta Aumento de peso se distribuye normal con igual desviacin estndar
2 Au~N( Au / me,me 2 = 0 + me Melaza + me 2 Melaza , Au/me, me2au/me.me2).

El ajuste de la ecuacin de regresin cuadrtica produce el modelo estimado

Au / me,me 2 =23.05308+ 18.49677*mz-5.001635*mz2


Se plantean las hiptesis parciales de regresin sobre los coeficientes de melaza y melaza al cuadrado
2 H0:me=0, HA:me0 en la regresin Au / me,me 2 = 0 + me Melaza + me 2 Melaza 2 H0:me2=0, HA:me20 en la regresin Au / me,me 2 = 0 + me Melaza + me 2 Melaza

El listado del anlisis de regresin reporta valores de significacin muestral menores que 0.05 para los coeficientes de melaza y de melaza2 (melaza al cuadrado): Seccin de ecuacin de regresin Variable Coeficiente Error Independiente de regresin estndar Constante 23.05308 1.680618 melaza 18.49677 3.894209 melaza2 -5.001635 1.87985 t calculada (Ho: B=0) 13.7170 4.7498 -2.6607 Significacin muestral 0.000000 0.000160 0.015926 Decisin (5%) Rechace Ho Rechace Ho Rechace Ho

La muestra da evidencias con significacin muestral de 0.000160 de que el coeficiente de melaza es diferente de cero en la regresin cuadrtica, tambin da evidencia, con significacin muestral de 0.015926 de que el coeficiente de melaza al cuadrado es diferente de cero, con signo negativo. En conjunto los dos coeficientes indican que la media de la respuesta crece cada vez menos. La pareja de hiptesis de regresin total es H0: me = me2= 0 y HA: al menos uno de me, me2 es diferente de cero en la regresin

Au / me,me 2 = 0 + me Melaza + me 2 Melaza 2


El anlisis de varianza da una significacin muestral de 0.0000005 para rechazar la hiptesis de que los coeficientes de regresin de melaza y melaza al cuadrado son cero. Tabla de anlisis de varianza Fuente de Grados de Suma de Variacin Libertad (GL) cuadrados (SC) Modelo 2 611.5937 Error 18 142.692 Total 20 754.2857 Alberto Castillo Morales Cuadrado Medio (CM) 305.7968 7.927336 37.71429 F 38.5750 Significacin Muestral 0.000000

44

Note que el listado tiene el valor de 0.00000 para la significacin muestral porque se reportan seis cifras decimales, pero debe leerse que es menor que 0.0000005, tal como se escribi en el prrafo anterior. La R cuadrada vale 0.8108, la regresin ajustada explica el 81.08% de la variacin total R-cuadrada R-cuadrada ajustada 0.8108 0.7898.

Las significaciones muestrales de las pruebas de normalidad son mucho mayores que 0.05, son 0.68, 0.50 y 0.73, la muestra no da evidencia para rechazar las hip tesis nulas de que la distribucin de los residuales es simtrica, con achatamiento normal y normal. Seccin de pruebas de normalidad Prueba Simetra normal Achatamiento normal Normalidad general Valor 0.4055 -0.6741 0.6188 Significacin muestral 0.685131 0.500276 0.733903 Decisin(5%) Acepte H0 Acepte H0 Acepte H0

Interesa tener un intervalo con 95% de confianza para la media. Se muestra el listado para las dosis de 0.07 a 1.5 kg de melaza, casos 8 a 16. Valores predichos con intervalo de confianza para la media Variable Error Intervalo de confianza 95% Caso respuesta predicho estndar LII (media) LSI (media) 8 32 33.55002 0.8606073 31.74195 35.35809 9 36 34.64945 0.8920609 32.7753 36.5236 10 40 35.64885 0.9150577 33.72639 37.57132 11 37 36.54822 0.9233617 34.60831 38.48813 12 36 37.34755 0.9150577 35.42509 39.27002 13 37 38.04686 0.8920609 36.1727 39.92101 14 37 38.64612 0.8606073 36.83805 40.45419 15 43 39.14536 0.8325564 37.39622 40.8945 16 40 39.54456 0.8264216 37.80832 41.28081 Para la media del caso 10 que tuvo dosis de 0.9 de melaza (vea los datos), el intervalo con 95% de confianza para la media inicia en 33.73 y termina en 37.57. Note que al reportar slo dos decimales se aproxima hacia arriba si el valor del tercer decimal es mayor que 5 y hacia abajo si es menor que 5. Los residuales no muestran valores atpicos, no se presentan los listados, pero se vern en un ejercicio. Conviene revisar el listado sobre multicolinealidad porque en las regresiones cuadrticas puede llegar a ser un problema, debido a que una variable explicativa es el cuadrado de la otra (melaza y melaza al cuadrado); la R cuadrada de melaza con melaza cuadrada es 0.932111, menor que 0.99, no hay problemas de multicolinealidad. Seccin de multicolinealidad Variable Inflacin de independiente varianza mz 14.729977 mz2 14.729977 R cuadrada con otras X's 0.932111 0.932111

Tolerancia 0.067889 0.067889

Alberto Castillo Morales

45

El diagrama de dispersin de los residuales estandarizados (Rstudent) con melaza muestran que no hay valores atpicos.

Rstudent contrta m elaza


2.0

0.9

Rstudent

-0.3

-1.4

-2.5 -1 .0

0.5

2.0

3.5

5.0

Melaza

El diagrama de dispersin de los datos con la ecuacin ajustada

Au / me,me 2 =23.05308+ 18.49677*mz-5.001635*mz2 muestra la tendencia del aumento de peso a disminuir el crecimiento del aumento de peso en dosis de melaza mayores que uno, estabilizndose en un aumento de 39 kilos aproximadamente.
45

Aumento de peso

40

35

30

25 0.0

0.5

1.0 Dosis de melaza

1.5

2.0

Ejercicio Utilice la base de datos de aumento de peso para obtener un listado con los valores de la regresin cuadrtica del ejemplo anterior, incluyendo la grfica con la curva ajustada. Los datos de Excel estn en la hoja 34 del libro EjemplosLibro, los de NCSS estn en el archivo Ej34_RegrCuadratica en el CD del texto. Las instrucciones para usar Excel y NCSS estn en los anexos 1 y 2, identificadas como Ejemplo. Regresin cuadrtica. Si dispone de otro paquete estadstico, trabaje con l para obtener los resultados del ejemplo.

Alberto Castillo Morales

46

8. ANLISIS DE VARIANZA Y DISEOS EXPERIMENTALES


El mtodo de anlisis de varianza para probar la igualdad de medias de una variable aleatoria normal medida en dos o ms poblaciones se extiende al caso en que las poblaciones se identifican con dos o ms variables, esta situacin ocurre en el contexto de un experimento. En estadstica aplicada se entiende que para tener un experimento se comienza por definir las unidades experimentales, que son los elementos o casos particulares de una poblacin que tiene la caracterstica de que sus elementos son muy parecidos uno al otro, de tal forma que en todos los elementos de la poblacin la variable respuesta debera tomar el mismo valor, excepto por la variacin aleatoria que no se puede o no se quiere controlar; si ocurre lo anterior se dice que las unidades experimentales son homogneas. Cuando no se puede conseguir un nmero suficiente de unidades experimentales homogneas para realizar todo el experimento, se pueden definir dos o ms poblaciones de unidades experimentales, aunque estas poblaciones difieran, dentro de cada poblacin las unidades experimentales son homogneas y producen el mismo valor de la variable respuesta excepto por la variacin aleatoria inherente al problema. Entonces, se pueden tener varias poblaciones, digamos r poblaciones, cada una de ellas formada por unidades experimentales homogneas, aunque la media de los valores que toman las unidades experimentales de una poblacin puede ser diferente de la media de los valores que toman las unidades experimentales de otra poblacin. A estas poblaciones de unidades experimentales se les llama bloques de unidades experimentales. La idea general para hacer un buen experimento se basa en que las unidades experimentales son homogneas y producen el mismo valor de la variable respuesta, salvo la variacin aleatoria. As cuando se desea comparar dos o ms tratamientos, si las unidades experimentales que reciben un tratamiento producen una media diferente de aquellas que reciben otro tratamiento, lo hacen debido al estmulo que define al tratamiento, pues inicialmente las unidades experimentales daban la misma media. Un tratamiento es un nivel o dosis o modalidad de un tipo de estmulo o factor. As, el factor fuente de vitamina C en la elaboracin de alimento para pollos tiene los niveles limn, naranja y jitomate, el factor temperatura en un problema de elaboracin de galletas tiene los niveles 250, 275, 300 y 325 grados centgrados, el factor cantidad de glucosa en el sustrato donde crecen hongos microscpicos tiene los niveles 0.01%, 0.02% y 0.03%. Se desea comparar el efecto que producen en la media de la variable respuesta Y, los t niveles (o dosis o modalidades) diferentes de un tipo de estmulo o factor T, para ello se consiguen tr unidades experimentales homogneas que se separan al azar en t grupos de r unidades cada uno y a las unidades de un grupo, llmele grupo uno, se les aplica el nivel uno del estmulo, a las del grupo dos se les aplica el nivel dos y as se sigue hasta llegar a las unidades del grupo t a las que se les aplica el nivel t del factor, al final se tiene un experimento para comparar t tratamientos, con r unidades experimentales en cada tratamiento o con r repeticiones. La comparacin para conocer el efecto de los niveles del estmulo o de los tratamientos, se hace a igualdad de circunstancias para los tratamientos, ya que cada uno de ellos se evala en r unidades experimentales que difieren slo en el estmulo que recibieron. Si para medir el efecto de los estmulos debe transcurrir un periodo de tiempo, todas las unidades experimentales deben ser tratadas de igual manera y debe cuidarse que no interfieran unas con otras hasta que llegue el momento de medir la variable respuesta. Las unidades experimentales son homogneas y deberan producir el mismo valor de la variable respuesta, pero no lo hacen porque hay variacin aleatoria, por este motivo es necesario tener repeticiones para poder estimar la variacin y usarla como base para hacer las comparaciones de la media de la variable respuesta en los distintos tratamientos. Al aplicar cada tratamiento a r unidades experimentales se tienen r repeticiones para cada tratamiento, r es un entero igual o mayor que dos. Alberto Castillo Morales

47

En ocasiones se tienen dos o ms factores o tipos de estmulos. Si el primer factor se representa como A, el segundo factor como B, el factor A tiene a niveles A 1, A2, ..., Aa y el factor B tiene b niveles B 1, B2,..., Bb, las combinaciones de niveles de A y B producen a b tratamientos. Para aplicar un tratamiento se deben aplicar el nivel de A y el nivel de B que lo definen. Los tratamientos que definen los factores A y B con a y b niveles respectivamente, se pueden presentar en una tabla como la siguiente, en la que el primer subndice indica el nivel del factor A y el segundo subndice indica el nivel del factor B: Tratamientos: Combinacin de niveles de dos factores Niveles del Niveles del factor B factor A 1 2 ... b-1 1 2 ... a-1 a t1,1 t2,1 ta-1,1 ta,1 t1,2 t2,2 ta-1,2 ta,1 t1,b-1 t2,b-1 ta-1,b-1 ta,b-1

b t1,b t2,b ta-1,b ta,b

Tambin se puede presentar a los tratamientos usando la letra que identifica a cada factor y como subndice su nivel: Tratamiento Nivel del Factor A Nivel del Factor B Tratamiento combinado: notacin tnivel_de A,nivel_de_B = notacin (Anivel de A,Bnivel de B) = notacin (nivel de A, nivel de B) t1,1=(A1,B1)= (1,1)

1 2 . . . b b+1 . . . 2b . . . ab

A1 A1 . . . A1 A2 . . . A2 . . . Aa

B1 B2 . . . Bb B1 . . . Bb . . . Bb

A1,Bb A2,B1

A2,Bb

Aa,Bb

Ejemplo. Definicin de tratamientos con dos factores En experimentos de produccin de cultivos un tipo de estmulo es agregar nitrgeno al suelo y otro tipo de estmulo es la variedad de semilla que se usar. El factor A es nitrgeno y el factor B es variedad, si cada uno tiene tres niveles: 0, 50 y 100 para nitrgeno y V1, V2 y V3 para variedad, definen a nueve tratamientos que se presentan en la tabla que sigue: Tratamiento Nivel de Nitrgeno Nivel de Variedad Tratamiento. Notacin nitrgeno,variedad

Alberto Castillo Morales

48

1 2 3 4 5 6 7 8 9

0 0 0 50 50 50 100 100 100

V1 V2 V3 V1 V2 V3 V1 V2 V3

0,V1 0,V2 0,V3 50,V1 50,V2 50,V3 100,V1 100,V2 100,V3

El nmero de factores que definen a los tratamientos, los niveles de los estmulos que se definen para cada factor y el nmero total de tratamientos conforman el arreglo de los tratamientos. El arreglo de tratamientos puede ser de un solo factor T con t niveles, de dos factores A y B con a y b niveles respectivamente, dando lugar a ab combinaciones de tratamientos, puede ser de tres factores A, B y C con a, b y c niveles respectivamente, produciendo abc tratamientos combinados, etc. Hay arreglos de tratamientos ms complicados que no veremos en este texto.

8.1. DISEOS COMPLETAMENTE AL AZAR Y BLOQUES AL AZAR


Si se dispone de un nmero grande de unidades experimentales homogneas y se van a comparar t tratamientos con r repeticiones, cada tratamiento se aplica a r unidades experimentales y se tiene el diseo experimental que se llama diseo completamente al azar, con t tratamientos y r repeticiones . En ocasiones se aplica a diferente nmero de unidades experimentales cada tratamiento, entonces el tratamiento uno tiene r1 repeticiones, el tratamiento dos tiene r 2 repeticiones y as hasta llegar al tratamiento t que tiene rt repeticiones; se tiene ahora el diseo completamente al azar con t tratamientos y diferente nmero de repeticiones: r1, r2,..., rt. Si en lugar de una poblacin de unidades experimentales homogneas hubiera dos o ms tipos de unidades experimentales homogneas, a cada tipo de unidades se les llama bloque de unidades experimentales (homogneas). Se podra hacer un experimento en cada bloque de unidades experimentales, pero es ms eficiente hacer un experimento que utiliza los diferentes bloques, aplicando todos los tratamientos en cada bloque y si es posible teniendo el mismo nmero de repeticiones para cada tratamiento en cada bloque. Cuando hay una unidad experimental con cada tratamiento en cada bloque, el experimento tiene un diseo de bloques al azar que se utiliza cuando se tienen r bloques de unidades experimentales homogneas, cada uno con t unidades experimentales y se aplican los t tratamientos a las t unidades experimentales de cada bloque. Aunque hay ms diseos experimentales, en el texto solo trataremos los diseos completamente al azar y de bloques al azar (Vea Montgomery, 1991). Para evitar que el investigador consciente o inconscientemente favorezca a alguno de los tratamientos, los tratamientos se asignan a las unidades experimentales al azar. En el diseo completamente al azar las tr unidades experimentales homogneas se separan al azar en t grupos de r unidades experimentales y despus usando un sorteo se elige el tratamiento que va a cada grupo de r unidades experimentales. En el caso del diseo en bloques al azar, en cada bloque se hace un sorteo para asignar los tratamientos a las unidades experimentales que forman el bloque. El principal inters radica en conocer si el efecto en la media de la variable respuesta causado por los diferentes tratamientos es igual y se plantea la hiptesis nula de igualdad de medias de tratamientos. Si son t tratamientos y las medias de la variable respuesta en las unidades que reciben los tratamientos 1, 2,.., t son 1,2,...,t, se plantea la pareja de hiptesis estadsticas H0: 1=2=...=t y HA: al menos una pareja de medias i y i son diferentes.

Alberto Castillo Morales

49

Con los paquetes estadsticos y la computadora, los anlisis producen adems del valor del estadstico de prueba, Fc la significacin muestral ; la hiptesis nula de igualdad de medias se rechaza si la significacin muestral es menor que el nivel de significacin. Si se rechaza la hiptesis nula se concluye que la muestra da evidencia con de significacin muestral de que las medias de los tratamientos, no son iguales. Si no se rechaza la hiptesis nula porque la significacin muestral resulta mayor que el nivel de significacin , se concluye que la muestra no da evidencia para rechazar la hiptesis nula de igualdad de medias y para fines prcticos se les considera iguales. Cuando se rechaza la hiptesis nula de igualdad de medias se concluye que las medias de los tratamientos no son iguales, pero no se conoce a que tratamientos se debe el rechazo de la hiptesis nula, conviene continuar el anlisis para conocer a que parejas de medias se debe el rechazo de la hiptesis de igualdad o cules parejas de medias de tratamientos son diferentes. Hay muchos procedimientos estadsticos para comparar todas las parejas de medias, en el texto se usar el mtodo de Bonferroni que ya se present en el captulo de una normal y ms de dos poblaciones. Lo que hace el mtodo de Bonferroni es ordenar las medias de los tratamientos de mayor a menor y comparar sus diferencias con una constante para decidir si se rechaza la hiptesis de que en el ordenamiento de medias la pareja de medias es igual, si la diferencia de medias es mayor que la constante se rechaza la hiptesis de igualdad y se considera que la pareja de tratamientos producen un efecto que da lugar a diferentes medias. En muchos casos ms que probar si las medias de los tratamientos son iguales, se quiere conocer cul o cules tratamientos producen la mayor (o la menor) media. Este es un problema de seleccin de medias que puede resolverse con la ayuda de los resultados de las comparaciones de parejas de medias de Bonferroni: los tratamientos que no difieren de aquel que tiene la mayor media son los que producen la mayor media.

8.1.1. Anlisis del diseo completamente al azar con un factor


El diseo completamente al azar con t tratamientos y r repeticiones utiliza rt unidades experimentales homogneas, aplica cada tratamiento a r unidades y el tratamiento que se aplica a cada unidad experimental se determina por medio de un sorteo. Cuando los tratamientos tienen diferente nmero de repeticiones: r1, r2,..., rt, para el tratamiento 1, 2,...,t respectivamente, se debe disponer de n= r 1+ r2+...+ rt unidades experimentales homogneas. Para hacer el sorteo se seleccionan al azar las primeras r 1 (o r) unidades experimentales y se les aplica el tratamiento 1, luego se seleccionan al azar r 2 (o r) unidades y se les aplica el tratamiento 2, etc. Durante el tiempo que transcurre desde que se aplican los tratamientos hasta que llega el momento de medir la variable respuesta, las unidades experimentales se mantienen de manera que no interfieran entre si y se les cuida de igual forma para no propiciar diferencias entre ellas. Para identificar a que tratamiento y caso particular se refiere una medicin (un dato) de la variable respuesta Y, se usan dos subndices: el primero identifica al tratamiento y el segundo al caso particular dentro del tratamiento. Para el caso particular j del tratamiento i se escribe Yi,j, entendiendo que i es un valor de uno a t y j es un valor de uno a r i (o de uno a r si r 1=r2=...=rt=r). Los tratamientos son los niveles (o dosis, o modalidades) del factor o tipo de estmulo. La variable cuantitativa Y tiene distribucin normal con desviacin estndar constante y se mide en t poblaciones determinadas por los tratamientos o niveles del factor, as, el tratamiento 1 define a la primera poblacin, el tratamiento 2 a la segunda poblacin etc. La media de la variable Y en la poblacin 1 es 1, la poblacin 2 tiene media 2, etc., en general, la media de la poblacin i es i, i=1,2,...,t, adems se supone que las t poblaciones tienen igual desviacin estndar , lo anterior se representa con el modelo Yij ~ N(i, ); i=1,...,t, j=1,...,ri, Alberto Castillo Morales

50

que se lee: la variable Y en el caso j del tratamiento i se distribuye normal con media i y desviacin estndar . Para probar si hay efecto de los tratamientos en la media de la variable respuesta Y se plantea la pareja de hiptesis H0: Las medias de los tratamientos son iguales, o H0: 1= 2 = .... = t y HA: Entre las medias 1, 2, .... , t al menos una pareja es diferente, o HA: al menos hay una pareja de medias tal que j j. La hiptesis nula establece la igualdad de todas las medias, lo que quiere decir que todos los tratamientos producen el mismo efecto en la media de la variable respuesta Y y la hiptesis alternativa plantea que por lo menos una pareja de tratamientos produce diferente efecto en la media de Y. PARMETROS Y ESTIMADORES EN EL DISEO COMPLETAMENTE AL AZAR CON UN FACTOR

Yi,j ~ N( Y/nivel_i_del_factor_A = i = + Ai,

) para i=1,2,...,t y j=1,2,...,ri

PARMETRO

ESTIMADOR

(Media general de la variable Y)

Y/nivel_1_del_factor_A = 1 += A1 Y/nivel_t_del_factor_A = t += At

2 Yi Yi '

Y Y1

Y/nivel_2_del_factor_A = 2 += A2
... 2
i - i, para la pareja de niveles i, i , para la pareja de niveles i, i

Y2

...

Yt

2 CME = CMError = S dentro _ de _ tratamientos

Yi

i Yi' =A

i' , para la pareja de niveles i, i A

CME (

1 1 + ) , para la pareja de niveles i, i ri ri '

Nota: Hay t tratamientos, uno por cada nivel del factor A y el tratamiento i tiene r i repeticiones. El valor del i se obtienen del listado de efectos. CME se obtiene de la tabla de anlisis de varianza y los de A Como este es el caso de una variable normal medida en dos o ms poblaciones, el anlisis de este experimento es idntico al que ya se hizo en la seccin de una normal medida en dos o ms poblaciones, la nica diferencia es la forma como se generaron las poblaciones, antes fue por medio de una variable cualitativa en una poblacin, ahora es por la aplicacin de diferentes niveles del estmulo que define al factor tratamientos en una poblacin de unidades experimentales homognea.

Alberto Castillo Morales

51

PRUEBAS SOBRE LAS MEDIAS. DISEO COMPLETAMENTE AL AZAR CON UN FACTOR

Yi,j ~ N( Y/nivel_i_del_factor_A = i = + Ai,

) para i=1,2,...,t y j=1,2,...,ri

IGUALDAD DE TODAS LAS MEDIAS, FACTOR A Hiptesis nula e hiptesis alternativa Significacin muestral H0: 1 = 2 =...= t H0: A1 = A2 =...= At=0 CMtratamie ntos

FC =

HA: Al menos una pareja de i , i es diferente HA: A1 0 A2 0 ... At 0

CMError

CMt CMA , = CME CME

= PF con t-1, n-t gl[F Fc]

COMPARACIONES MLTIPLES DE PAREJAS DE MEDIAS. PRUEBA DE TUKEY-KRAMER Hiptesis nula e hiptesis alternativa Zona de rechazo para la pareja i, i' (para toda pareja i, i' con ii') (para toda pareja i, i' con ii') H0: i = i' | Yi - Yi ' | q CTky ( i ,i ') = para toda pareja i, i' con ii' 1 1 CMError H0: Ai = Ai' ( + ) para toda pareja i, i' con ii' ri ri ' 2

Alberto Castillo Morales

52

HA: max > minx HA: Amax > Aimin

ZRi,i' = { q CTky ( i ,i ') / q CTky ( i ,i ') > q t , n t ,1 },

donde q t ,n t tiene la distribucin del rango estudentizado de Tukey para t tratamientos y n-t grados de libertad del CMError. COMPARACIONES MLTIPLES DE PAREJAS DE MEDIAS. PRUEBA DE BONFERRONI Hiptesis nula e hiptesis alternativa Zona de rechazo para la pareja i, i' para la pareja i, i' (para toda pareja i, i' con ii') (para toda pareja i, i' con ii') H0: i = i' | Yi - Yi ' | t cBonf ( i ,i ') = para toda pareja i, i' con ii' 1 1 H0: Ai = Ai' ( + )CMError para toda pareja i, i' con ii' ri ri ' HA: i i' para la pareja i,i HA: Ai Ai' para la pareja i,i ZRi,i' = { t cBonf ( i ,i ') / t cBonf ( i ,i ') >

n - t ,1 t (t 1)

},

t n t tiene la distribucin t con los grados de libertad del CME. COMPARACIONES MLTIPLES DE MEDIAS CON UN CONTROL. PRUEBA DE BONFERRONI Hiptesis nula e hiptesis alternativa Zona de rechazo para la pareja i, i' para la pareja ctl, i (para toda pareja control,i, con icontrol) (para toda pareja control, i con icontrol H0: ctl = i | Yctl - Yi | t cBonf ( ctl ,i ) = H0: Actl = Ai
HA: ctl i HA: Actl Ai

1 1 + )CME rctl ri

ZRctl,i = { t cBonf ( ctl ,i ) / t cBonf ( ctl ,i ) >

n t ,1-

t ( t 1)

},

t n t se distribuye t con los grados de libertad del


CME. Nota: Hay t tratamientos y el tratamiento i tiene r i repeticiones, n es la suma de los r i. Los valores de CMt, CME, Fc y

se obtienen en la tabla de anlisis de varianza. Control se denota con ctl.

El estadstico de prueba tiene distribucin F con t-1 y nt grados de libertad cuando la hiptesis nula es cierta; recuerde que n=r1+r2+...+rt y si los tratamientos tienen igual nmero de repeticiones r, entonces n=rt. Para hacer la prueba se miden los valores de la variable respuesta en las unidades experimentales y se forma una base de datos con n renglones, uno para cada unidad experimental y dos columnas, en una columna est el valor de la variable Y y en la otra la identificacin del nivel del tratamiento; si se desea se puede agregar la columna con el nmero de caso en cada tratamiento, pero esta columna no se usa en el anlisis. Se pide al paquete estadstico el anlisis de varianza y la prueba de Bonferroni especificando la variable respuesta y la variable (columna) que identifica a los tratamientos. El paquete produce un anlisis de varianza con el valor de la significacin muestral = P[Ft-1,n-t> Fc], se rechaza la hiptesis nula de igualdad de medias de tratamientos si la significacin muestral es menor que el nivel de significacin. Para hacer la prueba usando F c, el valor calculado del estadstico F, se compara F c con el percentil 100(1-)% de la F con t-1 y n-t grado de libertad, que se denota como F t-1,n-t,1- y se rechaza la hiptesis de igualdad de medias si Fc es mayor que Ft-1,n-t,1-. Si el valor de es mayor que el nivel de significacin no se rechaza la hiptesis nula, se concluye que debido a que (escriba el valor de ) resulta mayor que (escriba el valor de ) la muestra no da evidencia para rechazar la hiptesis nula de igualdad de medias, para fines prcticos se considera que los tratamientos producen el mismo efecto en la media de Y. Si resulta que la significacin muestral es menor que el nivel de significacin se rechaza la hiptesis nula, se concluye que la muestra da Alberto Castillo Morales

53

evidencia con significacin muestral para rechazar la hiptesis nula de igualdad de medias, la hiptesis alternativa se considera verdadera y se sabe que al menos una pareja de tratamientos produce diferente efecto en la media de la variable Y. Se debe continuar el anlisis para encontrar las parejas de tratamientos que producen medias que son diferentes; se sugiere se utilice el procedimiento de Bonferroni. El anlisis con la computadora y un paquete estadstico tambin produce las estimaciones de la media y la desviacin estndar para los datos de Y en cada tratamiento y en el total de todas las unidades experimentales en el trabajo, da los grados de libertad para la F, el valor de la F calculada F c y la significacin muestral . Ejemplo. Diseo completamente al azar. Un factor Para comparar cuatro programas de computadora que dan asesora personal a los estudiantes de ingls, se seleccionan 18 alumnos de nuevo ingreso y se asignan seis a cada tipo de asesora, la variable respuesta es la calificacin en el curso. La tabla de datos es: Calificacin en ingls de los estudiantes por tipo de asesora Asesora tipo Asesora tipo Asesora tipo Asesora tipo 1 2 3 4 54.9 55.6 76.1 56.4 55.6 46.9 80.4 72.9 69.7 42.1 85.3 60.6 62.8 48.7 92.8 56.9 87 61.7 103.6 76.7 65.8 30.1 83.9 66.6 Para el paquete estadstico los datos se acomodan en 24 renglones y dos columnas, en cada rengln est un caso, en la columna uno est la variable asesora que define a los tratamientos y en la columna dos est la variable respuesta calificacin en ingls. Se pide el anlisis de varianza y la prueba de Bonferroni, se obtiene lo siguiente: Tabla de anlisis de varianza Fuente de Suma de Variacin GL cuadrados (SC) A: Tipo de asesora 3 4702.361 S: Error 20 2142.158 Total 23 6844.52 * Significativo con alfa = 0.05 Cuadrado Medio (CM) 1567.454 107.1079 F 14.63 Significacin Muestral 0.000028*

Prueba de Bonferroni para parejas de medias Respuesta: Calificacin Termino A: Tipo de asesora Alfa=0.050 Trmino de error=S GL=20 CME=107.1079 Valor crtico=2.927119 Grupo # Casos Media Diferente de los grupos 2 6 47.51667 4, 1, 3 4 6 65.01667 2, 3 1 6 65.96667 2, 3 3 6 87.01667 2, 4, 1 En la tabla del anlisis de varianza se prueba la hiptesis de igualdad de medias y la significacin muestral vale 0.000028, su valor es mucho menor que el nivel de significacin 0.05, la muestra da evidencia de que los tipos de asesora no tienen el mismo efecto en la media de la variable calificacin. La prueba de Bonferroni muestra que la asesora tipo 3 tiene la mayor media y difiere de los otros tres grupos (2,4,1), se sugiere que se utilice para todos los estudiantes, en cambio la Alberto Castillo Morales

54

asesora tipo 1 produce la menor media y es diferente de los otros tres grupos, se sugiere que no se use. Las asesoras tipo 1 y 4 son intermedias y no difieren entre si, pero ambas difieren de los tipos 2 y 3. Una visin grfica de los resultados anteriores se tiene en la grfica de cajas y ejes:
Grfica de cajas y ejes para calificacin por tipo de asesora

120.0

Media de calificacin en ingls

86.7

53.3

20.0

Tipo de asesora

Ejercicio Utilice la base de datos de tipo de asesora para obtener un listado con los resultados del anlisis del ejemplo anterior. Los datos de Excel estn en la hoja 35 del libro EjemplosLibro y los de NCSS estn en el archivo Ej35_CA1Factor en el CD del texto. Las instrucciones para usar Excel y NCSS estn en los anexos 1 y 2, identificadas como Ejemplo. Diseo completamente al azar. Un factor. Si dispone de otro paquete estadstico, trabaje con l para obtener los resultados.

8.1.2. Anlisis del diseo completamente al azar con dos factores


Como se vio en la seccin anterior, el diseo completamente al azar utiliza unidades experimentales homogneas, los tratamientos se aplican a las unidades experimentales usando un sorteo y a todas la unidades se les maneja de la misma forma hasta que se mide la variable respuesta, Y, que es cuantitativa y se distribuye normal con desviacin estndar constante. Se sugiere usar el diseo completamente al azar siempre que se disponga de suficientes unidades experimentales; para t tratamientos con r repeticiones cada uno se necesitan rt unidades. El objetivo del experimento es probar si los diferentes tratamientos producen el mismo efecto en la media de la variable respuesta. El diseo experimental completamente al azar con dos factores es un diseo completamente al zar en el que los tratamientos estn definidos por dos factores. Un factor es un tipo de estmulo, es una variable que toma como valores a los niveles, o dosis o modalidades del estmulo. Cuando hay dos factores los tratamientos se forman con las combinaciones de los niveles de los dos factores , estas combinaciones de niveles se ven con claridad en una tabla como la que se present en la primera seccin de este captulo. Para construir la tabla de doble entrada represente a la variable que define al primer factor con la letra A y a la variable que define al segundo factor con la letra B. La variable A tiene a niveles y toma los valores 1,2,...,a, la variable B tiene b niveles y toma los valores: 1,2,...,b. Las combinaciones de los a niveles de A y los b niveles de B dan lugar a ab tratamientos, entonces t=ab. Tratamientos: Combinacin de niveles de dos factores Niveles del Niveles del factor B factor A 1 2 ... b-1 1 Alberto Castillo Morales t1,1 t1,2 t1,b-1

b t1,b

55

2 ... a-1 a

t2,1 ta-1,1 ta,1

t2,2 ta-1,2 ta,1

t2,b-1 ta-1,b-1 ta,b-1

t2,b ta-1,b ta,b

En la tabla se representa a los tratamientos con la letra t y dos subndices, el primer subndice indica al nivel del factor A y el segundo subndice al nivel del factor B; entonces el tratamiento con el nivel i del factor A y el nivel j del factor B se representa como t i,j. Cuando se tiene un arreglo de dos o ms factores para definir a los tratamientos, para facilitar el anlisis se procura tener el mismo nmero de repeticiones en cada tratamiento. En el caso de dos factores con a y b niveles que definen a t=ab tratamientos, se necesitan rt = rab unidades experimentales homogneas para tener r repeticiones de cada tratamiento. El uso de dos o ms factores para definir a los tratamientos de un experimento tiene varias ventajas que pueden verse con profundidad en los libros de diseos experimentales: 1) 2) 3) Se ahorra tiempo porque se trabajan los dos factores de manera simultnea en lugar de hacer un experimento con cada factor, se puede hacer el anlisis por separado para cada factor y lo ms importante, se puede identificar si los efectos de los dos factores que se aplican a una unidad experimental se acumulan en ella sumndose, o si aparte de la suma hay una forma de acumulacin ms compleja que se conoce como interaccin entre los efectos de los niveles de los dos factores.

En el caso de un factor se vio que cada nivel del factor poda tener efecto diferente en la media de la variable respuesta Y y el anlisis consisti en probar si los diferentes niveles del factor tenan o no igual efecto en la media de Y. Ahora que hay dos factores se formulan tres hiptesis nulas: 1) Hiptesis que prueba si los niveles del factor A producen la misma media de Y, o hiptesis de igualdad de efectos principales del factor A, 2) Hiptesis que prueba si los niveles del factor B producen la misma media de Y, o hiptesis de igualdad de efectos principales del factor B y 3) hiptesis de que no hay interaccin entre los niveles de los factores A y B, o hiptesis de que los efectos de las combinaciones de niveles de los factores A y B en la media de Y son la suma de los correspondientes efectos (principales) de los niveles de A y de B. La prueba de la igualdad de los efectos principales del factor A no toma en cuenta la presencia del factor B en el experimento. Esto se puede hacer porque en cada nivel de A estn todos los niveles de B y lo mismo ocurre con la prueba de los efectos principales de los niveles de B, que no toma en cuenta la presencia del factor A. Si en una unidad experimental se aplica el nivel i de A y el nivel j de B, la aplicacin conjunta de ambos niveles causa en la unidad experimental un efecto combinado que consta de dos partes: 1) la suma del efecto del nivel i del factor A ms el efecto del nivel j del factor B y 2) el efecto de interaccin, que se incluye porque en la prctica los efectos de los niveles i del factor A y j del factor B no se suman, ya que al actuar de manera simultanea pueden incrementar (o disminuir) los efectos separados haciendo que la media sea mayor (o menor) que la suma de los efectos. 11 PARMETROS Y ESTIMADORES EN EL DISEO COMPLETAMENTE AL AZAR CON DOS FACTORES

Alberto Castillo Morales

56

Yi,j,k ~ N( Y/nivel_i_de_A_,nivel_ j_de_B = i += Ai + Bj + (AB)i,j,


para i=1,2,...,a, j=1,...,b y k=1,2,...,r PARMETRO

ESTIMADOR
Y

(Media general de la variable Y)

Y/nivel_ 1_ del_ factor_ A =A1 =+A1 Y/nivel_ 2_ del_ factor_ A =A2 =+A2
...

Y1

Y2

Y/nivel_ a_ del_ factor_ A =Aa =+Aa Y/nivel_ 1_ del_ factor_ B =B1 =+B1
...

... Y a

Y1

Y/nivel_ b_ del_ factor_ B =Bb =+Bb

... Yb

Y/nivel_ _1 de_ A,nivel_ _1 de_ B =A1,B1 =


=1,1 = +A 1 +B1 + ( AB )1,1
...

Y1 ,1

Y/nivel_ _1 de_ A,nivel_ b_ de_ B =A1,Bb =


=1,b = +A 1 +B b + ( AB )1,b

... Y1 ,b

Y/nivel_ 2_ de_ A,nivel_ _1 de_ B =A2,B1 =


Alberto Castillo Morales

Y 2,1

57

=2,1 = +A 2 +B1 + ( AB )2,1


...

Y/nivel_ a_ de_ A,nivel_ b_ de_ B =Aa,B

2
j j'

... Y a,b

b
2 CME = CMError = S dentro _ de _ tratamientos

= a ,b = + A a + B b + (AB) a ,b

A i - A i' =A i - A i' para la pareja de


niveles i, i del factor A niveles i, i del factor A
i j ' j'

Yi Yi ' =
factor A

i -A i ' , para la pareja de niveles i, i del =A


j -B j' , para la pareja de niveles j, j =B
= ( AB ) i , j - (AB ) i , j' , para la

B - B = B j - B j' para la pareja de

Y j Y j' =
del factor B

A ,B - A ,B = (AB) i , j - ( AB) i , j'


, para la pareja de niveles i, i , para la pareja de niveles i, i , para la pareja de niveles i, i

Yi , j Yi , j '' =

para la pareja de niveles i, i del factor A


2 Y
i - Yi '

pareja de combinaciones de niveles i, j e i,j de los factores A y b

2 Y 2 Y

j -Y j'

i,j

Yi , j '

para la pareja de combinaciones de niveles i,j e i,j Nota: El factor A tiene a niveles, el factor B tiene b niveles, son ab tratamientos, cada uno con r repeticiones. En los estimadores de las medias, se usa un punto en lugar de un subndice para indicar que se suman todos i estn en el listado de medias y efectos y los valores que corresponden a ese subndice. Los valores de A el valor del CME se obtiene de la tabla de anlisis de varianza.

2 CME , para la pareja de niveles i, i rb 2 CME , para la pareja de niveles j, j ra 2 CME , r

De las hiptesis nulas que pueden plantearse se llega a tres parejas de hiptesis que se prueban en el anlisis de varianza: 1) La prueba de no interaccin de los factores A y B sobre la media de la variable respuesta, que plantea las hiptesis H0: No hay interaccin entre los factores A y B y HA: Si hay interaccin entre los factores A y B, 2) prueba de igualdad de efecto de los diferentes niveles de A, que prueba si los niveles del factor A tienen igual efecto (principal) en la media de la variable respuesta y plantea a la pareja de hiptesis H0: El efecto de los niveles de A en la media es igual y HA: El efecto de los niveles de A en la media no es igual y 3) prueba de igualdad de efecto de los diferentes niveles de B, que prueba si los niveles del factor B tienen igual efecto (principal) en la media de la variable respuesta, que plantea las hiptesis H0: El efecto de los niveles de B en la media es igual y HA: El efecto de los niveles de B en la media no es igual.

Alberto Castillo Morales

58

Cada una de las tres pruebas mencionadas usa como estadstico de prueba una F y la significacin muestral es la probabilidad de obtener un valor de F mayor que el calculado: = P[F>Fc]. Los grados de libertad de la F para la hiptesis de no interaccin son (a-1)(b-1) y abrab y su significacin I = [F(a-1)(b-1),abr-ab >Fc], la F para probar efectos principales de A tiene a-1 y abr-ab grados de muestral es

A =P[Fa-1,abr-ab >Fc] y la F para probar los efectos principales de B libertad y su significacin muestral es
B =P[Fb-1,abr-ab >Fc]. tiene b-1 y abr-ab grados de libertad y su significacin muestral es

PRUEBAS DE EFECTOS PRINCIPALES E INTERACCIN EN EL DISEO COMPLETAMENTE AL AZAR CON DOS FACTORES

Yi,j,k ~ N( Y/nivel_i_de_A,nivel_ j_de_B = i += Ai + Bj + (AB)i,j,


para i=1,2,...,a, j=1,2,...,b y k=1,2,...,r

FACTOR A Hiptesis nula e hiptesis alternativa H0: A1 = A2 =...= Aa = 0 HAlt: A1 0 A2 0 ... Aa 0

Significacin muestral

Fc ( A ) =

A = PF con a-1, gl(error)[F Fc(A)]


FACTOR B Hiptesis nula e hiptesis alternativa H0: B1 = B2 =...= Bb = 0 HAlt: B1 0 B2 0 ... Bb 0 Significacin muestral

CMA CMA = , CMError CME

Fc ( B ) =

B = PF con b-1, gl(error)[F Fc(B)]

CMB CMB = , CMError CME

INTERACCIN AB Hiptesis nula e hiptesis alternativa Significacin muestral H0: (AB)1,1 = (AB)1,2 =...= (AB)1,b = CM (AB) CM ( AB) Fc ( AB) = = , (AB)2,1 = (AB)2,2 =...= (AB)2,b = CMError CME ... ( AB ) = PF con (a-1)(b-1), gl(error)[F Fc(AB)] (AB)a,1 = (AB)a,2 =...= (AB)a,b = 0 HAlt: Al menos uno de los efectos (AB) ij es diferente de cero, para i=1,...,a, j=1,...,b Nota: El factor a tiene a niveles, el factor B tiene b niveles, cada combinacin de tratamientos tiene r repeticiones. Los valores de CMA, CMB, CM(AB), CME, FC(A), FC(B), FC(AB) y las correspondientes ( AB) se obtienen de la tabla de anlisis de varianza. significaciones muestrales A, By

Una vez que se conocen los valores de la variable respuesta se forma una base de datos con abr renglones, uno para cada unidad experimental y tres columnas que corresponden a las tres variables: variable respuesta, variable que identifica al factor A y variable que identifica al factor B. En ocasiones, Alberto Castillo Morales

59

para hacer el anlisis de todos los tratamientos conviene incluir una cuarta columna para la variable que identifica a los tratamientos (son ab tratamientos) y si se desea se puede incluir una variable que identifique a las repeticiones, pero no se usa en el anlisis. Se pide al paquete estadstico el anlisis de varianza especificando la variable respuesta, los dos factores A y B y se pide que en el modelo se incluya la interaccin entre los dos factores A y B y se piden las pruebas de Bonferroni para A, B y la interaccin. El listado de resultados contiene los estadsticos descriptivos, el anlisis de varianza con las significaciones muestrales de las tres pruebas de inters y las pruebas de Bonferroni. En cada prueba se rechaza la hiptesis nula si el valor de la significacin muestral es menor que el nivel de significacin deseado, pero se debe iniciar el anlisis con la prueba de no interaccin, ya que su resultado influye en la forma de interpretar las pruebas de los efectos de los niveles de A y de B.

I para la prueba de la hiptesis de no interaccin es menor que el Cuando la significacin muestral


I de significacin muestral de que hay nivel de significacin establecido, , la muestra da evidencia con interaccin entre los factores A y B. La existencia de interaccin implica que para cada nivel del factor A hay un mejor nivel, ya sea que tenga mayor o menor media, del factor B (algunos pueden coincidir) y para cada nivel del factor B hay un mejor nivel del factor A (algunos pueden coincidir), las conclusiones del estudio deben hacer referencia a los dos factores y en trabajos posteriores conviene estudiarlos de I es mayor que el nivel de significacin, , la muestra no manera simultanea. Si la significacin muestral da evidencia para rechazar la hiptesis de no interaccin, para fines prcticos no hay interaccin entre los factores A y B, la interaccin puede quitarse del modelo, los factores A y B pueden estudiarse por separado ya que sus efectos son aditivos (en forma de suma) y el mejor nivel de A en la prueba de los efectos de A es el mejor para cualquier nivel del factor B y de manera recproca el mejor nivel del factor B en la prueba de los efectos de B es el mejor sin importar el nivel del factor A.
Cuando se rechaza la hiptesis de no interaccin se realiza la prueba de Bonferroni en los ab tratamientos dados por las combinaciones de niveles de A y B para saber cules parejas de tratamientos son diferentes. Slo cuando no se rechaza la hiptesis de no interaccin conviene prestar atencin a las pruebas de los efectos principales de A y de B, aunque se tiene la costumbre de revisarlas de todas formas. Si se rechaza la hiptesis nula de que los efectos de los niveles de A son iguales porque la significacin A resulta menor que el nivel de significacin , la muestra da evidencia de que los efectos de muestral los niveles de A no son iguales y se procede a realizar la prueba de Bonferroni sobre las medias de los niveles de A, para conocer las parejas de niveles que producen medias diferentes. Con respecto al factor B resulta menor que el nivel de significacin , se rechaza la hiptesis B, si la significacin muestral nula de que los efectos principales de los niveles de B son iguales, se concluye que la muestra da evidencia de que los efectos de los niveles de B no son iguales y se procede a realizar la prueba de Bonferroni sobre las medias de los niveles de B, para conocer las parejas de niveles que producen medias diferentes. Ejemplo. Diseo completamente al azar. Dos factores Una empresa que produce bolsa de plstico para invernadero tiene dos proveedores de materia prima y tres mquinas para hacer bolsas. Con el objetivo de probar la calidad del material de los dos proveedores y el potencial de sus tres mquinas, mide la produccin en kg de bolsa de dos turnos con cada una de las combinaciones de proveedor y mquina y para que la comparacin no est viciada por el operador, los doce turnos se hacen con el mismo operador. Los datos son: Proveedor 1 1 1 1 Alberto Castillo Morales Mquina 1 1 2 2 kg de bolsa 97.9 98.3 99 99.8

60

1 1 2 2 2 2 2 2

3 3 1 1 2 2 3 3

98.8 98.4 99.4 99.6 100.3 99.6 102.1 101.4

La base de datos para el paquete estadstico en la computadora consta de doce renglones y tres columnas, tal como la tabla anterior. Se pide el anlisis de varianza, se especifica la variable respuesta, los dos factores y se pide el reporte de la prueba de Bonferroni. Tabla de anlisis de varianza Fuente de Suma de Variacin GL cuadrados (SC) A: Proveedor 1 8.67 B: Mquina 2 3.875 AB 2 3.515 S 6 0.99 Total 11 17.05 * Significativo con alfa = 0.05 Cuadrado Medio (CM) 8.67 1.9375 1.7575 0.165 F 52.55 11.74 10.65 Significacin Muestral 0.000350* 0.008427* 0.010613*

En la tabla de anlisis de varianza se prueban tres hiptesis sobre las medias de produccin de bolsas: 1) la hiptesis nula de igualdad de medias de proveedores, 2) la hiptesis nula de igualdad de medias de mquinas y 3) la hiptesis nula de no interaccin entre proveedores y mquinas. Las significaciones muestrales son menores que 0.05 para las tres hiptesis nulas y se concluye, iniciando con la hiptesis de no interaccin, que la muestra da evidencia con significacin muestral de 0.0106 para rechazar la hiptesis nula de no interaccin, concluyendo que hay interaccin entre proveedores y mquinas y conviene buscar la combinacin de los dos factores que da mayor produccin. Con significacin muestral de 0.00035 la muestra da evidencia de que la media de produccin es diferente para los dos proveedores y con significacin muestral de 0.0084 da evidencia de que las mquinas tienen diferente media de produccin. Prueba de Bonferroni para parejas de medias Respuesta: kg de bolsa Trmino A: Proveedor Alfa=0.050 Error = S GL=6 CME=0.165 Valor crtico=2.446912 Grupo # Casos Media Diferente de los grupos 1 6 98.7 2 2 6 100.4 1 La prueba de Bonferroni muestra que la media de produccin del proveedor 2 es mayor. Prueba de Bonferroni para parejas de medias Respuesta: kg de bolsa Trmino B: Mquina Alfa=0.050 Error=S GL=6 CME=0.165 Valor crtico=3.287455 Grupo # Casos Media Diferente de los grupos 1 4 98.8 3 2 4 99.675 3 4 100.175 1

Alberto Castillo Morales

61

La prueba de Bonferroni para mquinas produce diferencia de medias de produccin entre las mquinas 1 y 3, siendo la tres la de mayor produccin, la mquina 2 tiene una media de produccin que no difiere de la medias de las mquinas 1 y 3. En cuanto a media de produccin las mquina 3 tiene mayor produccin que la mquina 1 y no difiere de la mquina 2; la mquina 1 si es inferior que la 3. Prueba de Bonferroni para parejas de medias Respuesta: kg de bolsa Trmino AB: Proveedor, Mquina Alfa=0.050 Error=S GL=6 CME=0.165 Valor crtico=4.697923 Grupo # Casos Media Diferente de los grupos 1,1 2 98.1 (2,3) 1,3 2 98.6 (2,3) 1,2 2 99.4 (2,3) 2,1 2 99.5 (2,3) 2,2 2 99.95 2,3 2 101.75 (1,1), (1,3), (1,2), (2,1) La combinacin de proveedor 2 y mquina 3 da mayor media de produccin y es diferente de las combinaciones dadas por el proveedor 1 con las mquinas 1, 2 y 3 y la del proveedor 2 con la mquina 1. La combinacin de proveedor 2 con la mquina 2 no difiere de la mejor combinacin: (2,3). Los resultados sugieren comprar al proveedor 2 y revisar la calibracin de las mquinas 1 y 2 para que eleven su media al nivel de la mquina 3. Ejercicio Utilice la base de datos de produccin de bolsas para invernadero para obtener un listado con los resultados del ejemplo anterior. Los datos de Excel estn en la hoja 36 del libro EjemplosLibro y los de NCSS estn en el archivo Ej36_CA2Factores en el CD del texto. Las instrucciones para usar Excel y NCSS estn en los anexos 1 y 2, identificadas como Ejemplo. Diseo completamente al azar. Dos factores. Si dispone de otro paquete estadstico, trabaje con l para obtener los resultados.

8.1.3. Anlisis del diseo bloques al azar con un factor


En el diseo de bloques al azar las unidades experimentales se agrupan por bloques de unidades homogneas, esto quiere decir que hay varias poblaciones de unidades experimentales, r poblaciones y cada una de estas poblaciones est formada por unidades experimentales homogneas. Recuerde que se dice que las unidades experimentales son homogneas cuando dan el mismo valor de la variable respuesta, excepto por variacin aleatoria que puede deberse a pequeas diferencias entre ellas o a problemas de precisin en la medicin de la variable respuesta. En cada bloque las unidades son homogneas, pero de un bloque a otro puede haber diferencias sustanciales en el valor que toma la variable respuesta, esto implica que hay un efecto de bloque que no necesitamos probar, pues sabemos que existe y fue por su existencia que las unidades experimentales se clasificaron en bloques. El diseo en bloques al azar con t tratamientos y r repeticiones necesita r bloques con t unidades experimentales y en cada bloque por separado se asigna al azar, usando un sorteo, un tratamiento a cada una de las t unidades experimentales. Hay r bloques y t tratamientos, cada bloque tiene t unidades experimentales, dando un total de tr unidades experimentales, cada bloque tiene a los t tratamientos y es una repeticin, si hay r bloques hay r repeticiones para cada tratamiento, una repeticin en cada bloque. Se puede hacer la comparacin de los efectos de los tratamientos en la media de la variable respuesta porque todos los tratamientos se establecen en cada bloque y dentro de cada bloque la comparacin de tratamientos es adecuada. Alberto Castillo Morales

62

Para probar si hay efecto de tratamientos, esto es, si al aplicar diferente nivel de tratamiento resulta una media diferente para Y se plantea la pareja de hiptesis H0: Los efectos de los niveles de los tratamientos son iguales y HA: Los efectos de los niveles de los tratamientos no son iguales. El estadstico de prueba es una F con t-1 y (t-1)(r-1) grados de libertad y la significacin muestral es la probabilidad de obtener un valor de F mayor que el calculado = P[F(t-1), (t-1)(r-1)>Fc]. Se rechaza la hiptesis nula de igualdad de efectos de tratamientos si la significacin muestral es menor que el nivel de significacin y se concluye que la muestra da evidencia con de significacin de que al menos una pareja de tratamientos produce efectos diferentes en la media de la variable respuesta, se sugiere continuar el anlisis con la prueba de Bonferroni para determinar las parejas de tratamientos que producen efecto diferente. Si no se rechaza la hiptesis nula porque resulta mayor que , la muestra no da evidencia contra la hiptesis de efectos iguales, puede usarse cualquiera de los tratamientos, aquel que por consideraciones ajenas al experimento sea el ms conveniente. Se tiene entonces una variable respuesta Y que se mide en las rt combinaciones de los niveles de los tratamientos y los niveles de los bloques; cada tratamiento es un nivel del factor tratamientos y cada bloque es un nivel del factor bloques. Una vez que termina el experimento y se conocen los valores de la variable respuesta se forma la base de datos con rt renglones, uno por cada unidad experimental y tres columnas, una para cada una de las variables: la variable respuesta, la variable que define a los tratamientos y la variable que define a los bloques. Se pide al paquete el anlisis de varianza especificando la variable respuesta y los bloques y los tratamientos, se pide el anlisis sin interaccin y la prueba de Bonferroni para tratamientos. Ejemplo. Poblaciones con bloques En estudios de aprendizaje en educacin preescolar se toma una poblacin de nios, pero debido a la influencia que tiene la edad en el aprendizaje se hacen bloques de edad de los nios, ya sea por aos o por semestres cumplidos. En estudios sobre produccin de leche se tiene una poblacin de vacas. Conviene hacer bloques por raza. Si se incluye ms de un establo en el estudio los establos forman bloques. En la comparacin de variedades de trigo se tiene una poblacin de parcelas de un metro cuadrado. Las parcelas que estn en la parte ms alta del terreno forman un bloque y las que estn en la parte ms baja forman otro bloque, de manera similar se hacen bloques con las parcelas que estn en las franjas intermedias a los bloques extremos. En la comparacin de produccin de cinco mquinas en una fbrica, cada operador forma un bloque y debe trabajar en cada una de las cinco mquinas para formar el bloque. En estudios sobre enfermedades respiratorias de adultos mayores las zonas climticas forman bloques. Cuando las unidades experimentales son personas se debe pensar si conviene hacer bloques por gnero, edad, ciudad donde radican, escolaridad, etc. En el caso en que las unidades experimentales son plantas y se les debe someter a manejo idntico mientras crecen y llegan a la produccin, debe revisarse si es necesario formar bloques que separen a las plantas que se riegan un da de aquellas que se riegan al da siguiente, etc. Ejemplo. Diseo bloques al azar. Un factor Para comparar la produccin de cuatro variedades de maz se dispone de cuatro parcelas de 30 metros cuadrados cada una en la granja G1, otras cuatro en la granja G2 y cuatro ms en la granja G3. La calidad de las parcelas de las tres granjas es diferente, pero las cuatro parcelas de cada granja son homogneas y forman un bloque. Se dispone entonces de tres bloques de cuatro parcelas cada uno para probar los cuatro tratamientos (variedades de maz). Se hace la siembra de Alberto Castillo Morales

63

las cuatro variedades en cada granja y cuando el cultivo est listo se procede a la cosecha de las parcelas midiendo el peso en kg, de grano de maz en cada parcela. Los datos fueron: Variedad 1 2 3 4 Produccin de maz en kg Granja1 Granja2 11.72 13.62 9.12 11.40 6.23 10.31 8.43 9.54 Granja3 15.01 11.13 10.49 12.57

Se plantea la pareja de hiptesis H 0: Los efectos de las variedades en la media de produccin de maz son iguales y HA: Los efectos de las variedades en la media de produccin de maz no son iguales. Se pide al paquete estadstico el anlisis de varianza y la prueba de Bonferroni. Para que se produzca el anlisis del diseo bloques al azar se usa un procedimiento que permita especificar el modelo con solo los factores A y B, sin interaccin AB, se escribe la suma de los trminos del modelo: A+B. El paquete produce el listado siguiente. En el listado se ve que el anlisis de varianza da evidencia con 0.004683 de significacin muestral de que al menos una pareja de variedades tiene diferente media de produccin de maz.

Tabla de anlisis de varianza Fuente de Suma de Variacin GL cuadrados (SC) A: Granja 2 24.51965 B: Variedad 3 32.02042 S 6 4.83255 Total 11 61.37262 * Significativo con alfa = 0.05

Cuadrado Medio (CM) 12.25982 10.67348 0.805425

F 15.22 13.25

Significacin Muestral 0.004463* 0.004683*

Conviene ver la prueba de Bonferroni para conocer las parejas de variedades que tienen diferente media. Prueba de Bonferroni para parejas de medias Respuesta: Maz Trmino B: Variedad Alfa=0.050 Error = AB GL=6 CMAB=0.805425 Valor crtico=3.862991 Grupo # Casos Media Diferente de los grupos 3 3 9.01 1 4 3 10.18 1 2 3 10.55 1 1 3 13.45 3, 4, 2 La prueba de Bonferroni muestra que la variedad uno difiere de las otras tres variedades y tiene mayor media que ellas. Las medias de produccin de las variedades 1, 2 y 3 no difieren. Ejercicio Utilice la base de datos de produccin de maz para obtener un listado con los resultados del ejemplo anterior. Los datos de Excel estn en la hoja 36 del libro EjemplosLibro y los de NCSS estn en el archivo Ej36_BA1Factor en el CD del texto. Las instrucciones para usar Excel y NCSS estn en los anexos 1 y 2, identificadas como Ejemplo. Diseo Bloques al azar. Un factor. Si dispone de otro paquete estadstico, trabaje con l para obtener los resultados.

Alberto Castillo Morales

64

8.1.4. Anlisis del diseo bloques al azar con dos factores


El diseo de bloques al azar se establece en bloques de unidades experimentales homogneas. Si los tratamientos estn definidos por los factores A con a niveles y B con b niveles, las combinaciones de niveles de los factores producen ab tratamientos, entonces para r repeticiones se necesitan r bloques con ab unidades cada uno, un total de abr unidades. La asignacin de los tratamientos a las unidades experimentales se hace con un sorteo por separado a cada bloque, se sortean t tratamientos a las t unidades que forman el bloque. Como en el caso del diseo bloques al azar con un factor, no se acostumbra probar los efectos de los bloques, puesto que debern de tener efecto diferente porque provienen de poblaciones diferentes; si no lo tuvieran es que se definieron bloques cuando no era necesario hacerlo. En cuanto a los factores que definen a los tratamientos conviene probar primero si hay efecto de interaccin entre los niveles de los factores A y B y slo si se rechaza la hiptesis de que no hay interaccin se procede a probar los efectos (principales) de los niveles del factor A y los efectos (principales) de los niveles del factor B. Para hacer las pruebas se plantean tres parejas de hiptesis: 1) Hiptesis para la prueba de no interaccin de los factores A y B sobre la media de la variable respuesta: H0: No hay interaccin entre los factores A y B y HA: Si hay interaccin entre los factores A y B, 2) hiptesis para la prueba de igualdad de efecto de los diferentes niveles de A en la media de la variable respuesta: H0: El efecto de los niveles de A en la media es igual y HA: El efecto de los niveles de A en la media no es igual, e 3) hiptesis para la prueba de igualdad de efecto de los diferentes niveles de B en la media de la variable respuesta: H0: El efecto de los niveles de B en la media es igual y HA: El efecto de los niveles de B en la media no es igual. La prueba de cada una de las tres parejas de hiptesis usa como estadstico de prueba una F y la significacin muestral es la probabilidad de obtener un valor de F mayor que el calculado: = P[F>Fc]. Los grados de libertad de la F para la hiptesis de no interaccin son (a-1)(b-1) y (ab-1)(r-1) y su I = [F(a-1)(b-1),(ab-1)(r-1) >Fc], la F para probar efectos principales de A tiene a-1 y significacin muestral es

A =P[Fa-1,(ab-1)(r-1) >Fc] y la F para probar los (ab-1)(r-1) grados de libertad y su significacin muestral es

B =P[Fbefectos principales de B tiene b-1 y (ab-1)(r-1) grados de libertad y su significacin muestral es 1,(ab-1)(r-1) >Fc].
Una vez que se conocen los valores de la variable respuesta Y, que se supone que se distribuye normal con desviacin estndar constante pero desconocida, se forma una base de datos con abr renglones, uno para cada unidad experimental y cuatro columnas que corresponden a las cuatro variables: variable respuesta, variable que identifica la factor A, variable que identifica al factor B y variable que identifica a los bloques y para hacer el anlisis de todos los tratamientos conviene incluir una quinta columna para la variable que identifica a los tratamientos (son ab tratamientos). Se pide al paquete estadstico el anlisis de varianza especificando la variable respuesta, los tres factores A, B y bloques, se pide que se incluya slo la interaccin entre los dos factores A y B y se piden las pruebas de Bonferroni para A, B y la interaccin AB. El listado de resultados contiene los estadsticos descriptivos, el anlisis de varianza con las significaciones muestrales de las tres pruebas de inters y las pruebas de Bonferroni. En cada prueba se rechaza la hiptesis nula si el valor de la significacin muestral es menor que el nivel de significacin deseado. Conviene iniciar el anlisis con la prueba de no interaccin entre los factores A Alberto Castillo Morales

65

y B, ya que su resultado influye en la forma de interpretar las pruebas de los efectos de los niveles de A y de B.

I para la prueba de la hiptesis de no interaccin es menor que el Cuando la significacin muestral


I de significacin muestral de que hay nivel de significacin establecido, , la muestra da evidencia con interaccin entre los factores A y B. La existencia de interaccin implica que para cada nivel del factor A hay un mejor nivel del factor B (algunos pueden coincidir) y para cada nivel del factor B hay un mejor nivel del factor A (algunos pueden coincidir), las conclusiones del estudio deben hacer referencia a los dos factores y en trabajos posteriores conviene estudiarlos de manera simultanea. Si la significacin muestral I es mayor que el nivel de significacin, , la muestra no da evidencia para rechazar la hiptesis de no interaccin, para fines prcticos no hay interaccin entre los factores A y B, la interaccin puede quitarse del modelo, los factores A y B pueden estudiarse por separado ya que sus efectos son aditivos (en forma de suma) y el mejor nivel de A en la prueba de los efectos de A es el mejor para cualquier nivel del factor B y de manera recproca el mejor nivel del factor B en la prueba de los efectos de B es el mejor sin importar el nivel del factor A.
Cuando se rechaza la hiptesis de no interaccin se realiza la prueba de Bonferroni en los ab tratamientos dados por las combinaciones de niveles de A y B para saber cules parejas de tratamientos son diferentes. Slo cuando no se rechaza la hiptesis de no interaccin conviene prestar atencin a las pruebas de los efectos principales de A y de B, aunque se tiene la costumbre de revisarlas de todas formas. Si se rechaza la hiptesis nula de que los efectos de los niveles de A son iguales porque la significacin A resulta menor que el nivel de significacin , la muestra da evidencia de que los efectos de muestral los niveles de A no son iguales y se procede a realizar la prueba de Bonferroni sobre las medias de los niveles de A, para conocer las parejas de niveles que producen medias diferentes. Con respecto al B resulta menor que el nivel de significacin , se rechaza la factor B, si la significacin muestral hiptesis nula de que los efectos principales de los niveles de B son iguales, se concluye que la muestra da evidencia de que los efectos de los niveles de B no son iguales y se procede a realizar la prueba de Bonferroni sobre las medias de los niveles de B, para conocer las parejas de niveles que producen medias diferentes. Ejemplo. Diseo completamente al azar. Dos factores Una granja que produce pollos de engorda quiere saber si se puede sustituir la paja de trigo por bagazo de caa y el maz por sorgo en la racin que se proporciona a los pollos. Se dispone de 4 jaulas para 12 pollos cada una y de una cantidad grande de pollos, la variable respuesta es la ganancia en peso de los doce pollos de cada jaula a los 45 das. La unidad experimental es la jaula y slo se cuenta con cuatro jaulas, por lo que es necesario hacer un primer bloque de cuatro jaulas, a los 45 das iniciar el segundo bloque con las mismas cuatro jaulas y luego de 45 das iniciar el tercer bloque en las mismas cuatro jaulas. Se tiene un diseo de bloques al azar con tres bloques y cuatro tratamientos generados por los factores 1) fibra dado por paja-bagazo de caa y 2) grano, dado por maz-sorgo. Los tratamientos son paja y maz, paja y sorgo, bagazo de caa y maz y bagazo de caa y sorgo. El experimento tardar 135 das ya que cada bloque se desarrolla en 45 das. Los datos estn en la tabla de la pgina siguiente. Se plantean tres parejas de hiptesis: 1) 2) 3) H0: No hay interaccin entre fibra y grano y H A: Hay interaccin entre fibra y grano, H0: No hay efecto del tipo de fibra en la media de ganancia de peso y H A: Hay efecto del tipo de fibra en la media de ganancia de peso, y H0: No hay efecto del tipo de grano en la media de ganancia de peso y H A: Hay efecto del tipo de grano en la media de ganancia de peso,

Alberto Castillo Morales

66

TRATAMIENTOS FIBRA GRANO Paja Maz Paja Sorgo Bagazo Maz Bagazo Sorgo

Bloque 1 13680 13116 13452 12108

PESO DE 12 POLLOS Bloque 2 13932 12984 13476 12180

Bloque 3 14064 13308 14400 12552

se pide al paquete estadstico el anlisis de varianza para los tres factores: bloques, fibra y grano, especificando en el modelo slo a la interaccin entre fibra y grano. Como bloque es el trmino A, fibra el trmino B y grano el trmino C el modelo es A+B+C+BC y se pide la prueba de Bonferroni. El listado es el siguiente: Respuesta: Peso Tabla de anlisis de varianza Fuente de Suma de Variacin GL cuadrados (SC) A: bloque 2 582432 B: fibra 1 708588 C: grano 1 3803628 BC 1 410700 S 6 244704 Total 11 5750052 * Significativo con alfa = 0.05

Cuadrado Medio (CM) 291216 708588 3803628 410700 40784

F 7.14 17.37 93.26 10.07

Significacin Muestral 0.025894* 0.005890* 0.000071* 0.019237*

El anlisis de varianza muestra que se rechaza la hiptesis de no interaccin entre fibra y grano, con Fibra significacin muestral de 0.019, tambin se rechazan las hiptesis de medias iguales de fibra (

Grano =0.00007). Se revisa la prueba de Bonferroni para =0.00589) y la de medias iguales de grano ( conocer las diferencias entre parejas de tratamientos combinados.
Prueba de Bonferroni para parejas de medias Respuesta: Peso Trmino B: Fibra, Grano Alfa=0.050 Error = S(ABC) GL=6 CME=40784 Valor crtico=3.862991 Grupo # Casos Media Diferente de los grupos Bagazo,Sorgo 3 12280 (Paja,Sorgo), (Bagazo,Maz), (Paja,Maz) Paja,Sorgo 3 13136 Bagazo,Sorgo), (Bagazo,Maz), (Paja,Maz) Bagazo,Maz 3 13776 (Bagazo,Sorgo), (Paja,Sorgo) Paja,Maz 3 13892 (Bagazo,Sorgo), (Paja,Sorgo) Los tratamientos con bagazo maz (2,1) y con paja y maz (1,1) tienen mayor media y no difieren entre si, pero ambos difieren de los tratamientos con sorgo (1,2) y (2,2). Puede usarse cualquiera de los dos tratamientos con mayor media y por los objetivos del estudio se sugiere usar bagazo con maz. La revisin de los efectos principales de fibra muestra que es mejor la paja y la comparacin de las medias de grano muestra que es mejor el maz. En este caso es clara la ventaja del experimento con los dos factores, pues la combinacin bagazo-maz resulto adecuada. No es conveniente reportar las pruebas de Bonferroni de fibra ni de grano porque se comparan slo dos tratamientos en cada una y ya se sabe que son diferentes, las medias son: Trmino B: fibra Alberto Castillo Morales # casos Media Desviacin estndar

67

Paja Bagazo C: grano Maz Sorgo

6 6 6 6

13514 13028 13834 12708

82.44594 82.44594 82.44594 82.44594

Ejercicio Utilice la base de datos de NCSS de ganancia de peso de pollos para obtener un listado con los resultados del ejemplo anterior. Los datos estn en el archivo Ej36_BA2Factores en el CD del texto. Las instrucciones para usar NCSS estn en el anexos 2, identificadas como Ejemplo. Diseo Bloques al azar. Dos factores. Si dispone de otro paquete estadstico, trabaje con l para obtener los resultados.

ANEXO 1. SOLUCIN DE EJEMPLOS CON EXCEL


Para resolver los ejemplos usando Excel sin tener que capturar los datos, es conveniente tener un archivo (libro de Excel) con las bases de datos que estn en el texto, el archivo se llama EjemplosLibro y se encuentra en el CD que se entrega con el texto, de manera alternativa solictelo al autor a la direccin electrnica acm@xanum.uam.mx. En el libro EjemplosLibro use las pestaas que estn abajo a la izquierda para ir a la hoja1, all est la lista de ejemplos que tienen base de datos. Se puede ir a cada ejemplo haciendo clic donde se indica. En la hoja del ejemplo use las flechas para ir a la parte superior izquierda, sitio donde encontrar la base de datos, las respuestas se colocaron hacia la derecha de modo que se pueda trabajar sin verlas, aunque puede verlas si lo desea. Use su copia de EjemplosLibro para seguir las instrucciones de este anexo y obtener sus resultados, que deben coincidir con los del autor. De manera adicional, en las respuestas del problema se pueden ver las funciones que se usan, esto permite al lector modificarlas para resolver problemas similares pero con diferentes datos. Con el objetivo de facilitar el trabajo a los lectores que no son diestros en el manejo de Excel, las instrucciones de los primeros ejemplos se dan con todo detalle y despus cuando el lector ha resuelto los primeros ejemplos ya no necesita tanto detalle y se dan instrucciones generales, entrando a detalle slo cuando el autor lo considera pertinente. Para aprovechar las instrucciones que se escriben en este anexo, conviene aclarar la notacin que se usar: a) Hacer clic quiere decir presionar y soltar de inmediato el botn izquierdo del ratn. b) Tener el cursor en una celda especificada, por ejemplo C1, quiere decir que con el ratn se seala la celda C1 y se hace clic. c) Marcar una o varias celdas contiguas, por ejemplo las celdas D2 a D4, quiere decir que las celdas D2, D3 y D4 estn marcadas dentro de un rectngulo de lneas gruesas. Eso se logra sealando con el ratn la primera celda, D2, haciendo clic y sin dejar de presionar el botn izquierdo del ratn mover el cursor hasta la ltima celda, D4, all soltar el botn. d) Abrir una ventana quiere decir sealar con el indicador del ratn la pestaa con el nombre de la ventana y hacer clic en ella para que aparezca la ventana. e) Tener el cursor en una ventanilla perteneciente a una ventana, quiere decir que se seala la ventanilla y se hace clic en ella para que el cursor quede en ella. Alberto Castillo Morales

68

f)

Marcar un botn dentro de una ventana quiere decir que se hace clic en dicho botn para marcar con el botn. Si un botn est marcado con y se desea desmarcarlo, se hace clic sobre l.

g) Las instrucciones para abrir una ventana, situar el cursor en una ventanilla y marcar ya sea un grupo de celdas o un botn se inician con una o ms palabras en letra cursiva y negrilla que indican la accin a realizar. separado por dos puntos sigue el nombre de la ventana, ventanilla, grupo de celdas o botn con letra normal en negrilla. h) Las instrucciones que requieren usar el teclado comienzan especificando con letra cursiva y negrilla donde debe estar el cursor, dos puntos como separacin y luego est la secuencia de teclas que deben presionarse. i) Arrastrar una funcin. Si en una celda est una funcin, para arrastrarla se marca con clic la celda y se apunta a su esquina inferior derecha hasta que aparece una cruz, se hace clic sobre la cruz y sin dejar de presionar el botn izquierdo se mueve el cursor hasta la ltima celda donde se desea copiar la funcin, all se suelta el botn. Con sangra mayor se dan notas complementarias. Ejemplo. Regresin lineal 1 En la hoja1 de EjemplosLibro seale Regresin lineal 1 para llegar a la hoja donde est la base Trigo y fertilizantes, de manera alternativa vaya a la hoja31. Los datos estn en las columnas A a D ocupando las hileras 2 a 29, son cuatro columnas con 27 renglones cada una. Para obtener los resultados del anlisis de regresin se necesita tener activadas las herramientas para anlisis. Vea si en la pestaa de Herramientas, arriba est Anlisis de datos. Si no estuviera: Abra Herramientas Abra Complementos Marque: Herramientas para anlisis Marque: Aceptar Ahora tendr Herramientas para anlisis en la lista de Herramientas Volviendo anlisis de regresin Abra Herramientas Abra Anlisis de datos Marque: Regresin Marque: Aceptar Cursor en ventanilla de Rango Y de entrada: $A$2:$A$29 Cursor en ventanilla de Rango X de entrada: $B$2:$D$29 Marque: Rtulos Marque: Nivel de confianza Cursor en la ventanilla de nivel de confianza:95 Marque: En un libro nuevo Marque: Residuos estndares Marque: Grafico de residuales Marque: Curva de regresin ajustada Marque: Grfico de probabilidad normal Marque: Aceptar

j)

Alberto Castillo Morales

69

Los resultados son voluminosos y se presentan en un libro nuevo, en sus datos lo llam ResultadoRegresin1. Ejemplo. Regresin lineal 2 En la hoja1 de EjemplosLibro seale Regresin lineal 2 para llegar a la hoja donde est la base Gasto, Ingreso, Edad y Escolaridad, de manera alternativa vaya a la hoja32. Los datos estn en las columnas A a D ocupando las hileras 2 a 52, son cuatro columnas con 52 renglones cada una. Para tener el anlisis de regresin Abra Herramientas Abra Anlisis de datos Marque: Regresin Marque: Aceptar Cursor en ventanilla de Rango Y de entrada: $A$2:$A$52 Cursor en ventanilla de Rango X de entrada: $B$2:$D$52 Marque: Rtulos Marque: Nivel de confianza Cursor en la ventanilla de nivel de confianza:95 Marque: En un libro nuevo Marque: Residuos estndares Marque: Grafico de residuales Marque: Curva de regresin ajustada Marque: Grfico de probabilidad normal Marque: Aceptar Los resultados son voluminosos y se presentan en un libro nuevo, en sus datos lo llam ResultadoRegresin2 Ejemplo. Regresin lineal simple En la hoja1 de EjemplosLibro seale Regresin lineal simple para llegar a la hoja donde est la base Datos sencillos, de manera alternativa vaya a la hoja33. Los datos estn en las columnas A y B ocupando las hileras 2 a 7, son dos columnas con 6 renglones cada una. Para tener el anlisis de regresin Abra Herramientas Abra Anlisis de datos Marque: Regresin Marque: Aceptar Cursor en ventanilla de Rango Y de entrada: $B$2:$B$7 Cursor en ventanilla de Rango X de entrada: $A$2:$A$7 Marque: Rtulos Marque: Nivel de confianza Cursor en la ventanilla de nivel de confianza:95 Marque: Rango de salida Cursor en ventanilla de Rango de salida: $G$1:$X$30 Marque: Residuos estndares Alberto Castillo Morales

70

Marque: Grafico de residuales Marque: Curva de regresin ajustada Marque: Grfico de probabilidad normal Marque: Aceptar

Ejemplo. Regresin cuadrtica En la hoja1 de EjemplosLibro seale Regresin cuadrtica para llegar a la hoja donde est la base Melaza y Aumento de peso, de manera alternativa vaya a la hoja34. Los datos estn en las columnas A y B ocupando las hileras 2 a 23, son dos columnas con 21 renglones cada una. Antes de pedir la regresin se necesita construir la variable melaza al cuadrado (Melaza2) y conviene tener juntas las dos variables independientes Marque la columna B en la parte superior, donde est la B Abra insertar:Seleccione Columnas Se tiene libre la columna B para colocar all a la nueva variable Cursor en B2:Melaza2 Cursor en B3:=A3*A3 Arrastre la funcin en B3 hasta B23 Para tener el anlisis de regresin Abra Herramientas Abra Anlisis de datos Marque: Regresin Marque: Aceptar Cursor en ventanilla de Rango Y de entrada: $C$2:$C$23 Cursor en ventanilla de Rango X de entrada: $A$2:$B$23 Marque: Rtulos Marque: Nivel de confianza Cursor en la ventanilla de nivel de confianza:95 Marque: Rango de salida Cursor en ventanilla de Rango de salida: $G$1:$X$35 Marque: Residuos estndares Marque: Grafico de residuales Marque: Curva de regresin ajustada Marque: Grfico de probabilidad normal Marque: Aceptar Se presentan los resultados pero los datos se dejan como estaban inicialmente. Ejemplo. Completamente al azar, un factor En la hoja1 de EjemplosLibro seale Completamente al azar, un factor para llegar a la hoja donde est la base de Asesora en ingls, de manera alternativa vaya a la hoja35.

Alberto Castillo Morales

71

Los datos estn en las columnas A y B ocupando las hileras 2 a 26. La identificacin de asesora est en la columna A y los datos de calificacin en ingls estn en la columna B, aunque deber separarse a las muestras de los tipos de asesora, la 1 est en A3:A8, la 2 en A9:A14, la 3 est en A15:A20 y la 4 en A21:A26. El procedimiento de Excel pide que los datos de cada grupo estn en una columna, as que se comienza copiando los datos en las columnas E a G, en cada una un vendedor: Cursor en E2:A1A2A3A4 luego de los ttulos copie los datos Marque A3:A8 Seleccione copiar Marque E3:E8 Seleccione pegar Marque A9:A14 Seleccione copiar Marque F3:F8 Seleccione pegar Marque A15:A20 Seleccione copiar Marque G3:G8 Seleccione pegar Marque A21:A26 Seleccione copiar Marque H3:H8 El anlisis de varianza se obtiene con Abra Herramientas Abra Anlisis de datos Marque: Anlisis de varianza de un factor Marque: Aceptar Cursor en ventanilla de Rango de entrada: $E$2:$H$8 Marque: Agrupado por columnas Marque: Rtulos en la primera fila Marque: Rango de salida Cursor en ventanilla de Rango de salida: $K$2:$Q$18 Marque: Aceptar Los estadsticos descriptivos: Abra Herramientas Abra Anlisis de datos Marque: Estadstica descriptiva Marque: Aceptar Cursor en ventanilla de Rango de entrada: $E$2:$H$8 Marque: Rtulos en la primera fila Marque: Rango de salida: $F$20:$K$35 Marque: Resumen de estadsticas Marque: Nivel de confianza para la media:95% Marque: Aceptar El Excel no tiene procedimiento para las pruebas de suposiciones ni conviene hacer la grfica de cajas ejes, para esto es necesario usar el NCSS. Conviene dar el procedimiento para la prueba de Bonferroni para igual nmero de casos por muestra. Alberto Castillo Morales

72

Primero escriba los ttulos: Cursor en O21:AlfaRepeticionesTratamientosAlfa BonferronigleCMEt(gle,alfa Bon)A1A2A3A4 Cursor en Q29:MediaA2A3A4 Cursor en O30:A1A2A3A4 Proporcione el valor de alfa, nmero de repeticiones (cuenta), tratamientos (nmero de grupos), los grados de libertad del error (gle) y el cuadrado medio del error (CME, o promedio de los cuadrados dentro de grupos)), calcule el alfa de Bonferroni y obtenga la t con la que se compara la t calculada para cada pareja de medias. Si la t calculada (en la tabla de doble entrada) es mayor que la t(gle, alfa Bon) las medias son diferentes. Cursor en P21:0.0553129.5 Cursor en R5:=R2/(2*(R4-1)) Cursor en F8 Abra: Insertar Abra: Funcin. Abra con doble clic:DISTR.T.INV Cursor en la ventanilla de Probabilidad: Marque 2*R5 Cursor en la ventanilla de Grados_de_libertad: Marque R6 Marque: Aceptar La t para cada pareja de medias Cursor en Q30:=(P31-P30)*RAIZ(P22/(2*P26)) Cursor en R30:=(P32-P30)*RAIZ(P22/(2*P26)) Cursor en S30:=(P33-P30)*RAIZ(P22/(2*P26)) Cursor en R31:=(P32-P31)*RAIZ(P22/(2*P26)) Cursor en S31:=(P33-P31)*RAIZ(P22/(2*P26)) Cursor en S32:=(P33-P32)*RAIZ(P22/(2*P26)) Ejemplo. Completamente al azar, dos factores En la hoja1 de EjemplosLibro seale Completamente al azar, dos factores para llegar a la hoja donde est la base de Bolsas para invernadero, de manera alternativa vaya a la hoja36. Los datos estn en las columnas A, B y C ocupando las hileras 2 a 14. La identificacin de Fuente est en la columna A, la identificacin de Maquinaria en la columna B y los datos de Kg de bolsa estn en la columna C. Los datos debern presentarse como lo pide el procedimiento Anlisis de varianza de dos factores con varias muestras por grupo. El procedimiento de Excel pide que los ttulos de un factor estn en la primera columna, segunda fila, a partir de la siguiente columna estn los datos de cada grupo, en columna, as que se comienza copiando los datos Cursor en F1:M1M2M3 Cursor en E2:Fuente1Fuente2 Copie los datos Marque C3:C4 Seleccione copiar Marque F2 Alberto Castillo Morales

73

Seleccione pegar Marque C5:C6 Seleccione copiar Marque G2 Seleccione pegar Marque C7:C8 Seleccione copiar Marque H2 Seleccione pegar Marque C9:C10 Seleccione copiar Marque F4 Seleccione pegar Marque C11:C12 Seleccione copiar Marque G4 Seleccione pegar Marque C13:C14 Seleccione copiar Marque H4 El anlisis de varianza se obtiene con Abra Herramientas Abra Anlisis de datos Marque: Anlisis de varianza de dos factores con varias muestras por grupo Marque: Aceptar Cursor en ventanilla de Rango de entrada: $E$1:$H$5 Marque: Agrupado por columnas Marque: Rtulos en la primera fila Marque: Rango de salida Cursor en ventanilla de Rango de salida: $E$8:$N$39 Marque: Aceptar El Excel no tiene procedimiento para las pruebas de suposiciones ni conviene hacer la grfica de cajas ejes, para esto es necesario usar el NCSS. Conviene dar el procedimiento para la prueba de Bonferroni . Primero escriba los ttulos: Cursor en O21:AlfaRepeticionesTratamientosAlfa BonferronigleCMEt(gle,alfa Bon)A1A2A3A4 Cursor en P29:MediaM2M3 Cursor en O30:M1M2M3 Proporcione el valor de alfa, nmero de repeticiones (cuenta), tratamientos (nmero de grupos), los grados de libertad del error (gle) y el cuadrado medio del error (CME, o promedio de los cuadrados dentro de grupos)), calcule el alfa de Bonferroni y obtenga la t con la que se compara la t calculada para cada pareja de medias. Si la t calculada (en la tabla de doble entrada) es mayor que la t(gle, alfa Bon) las medias son diferentes. Cursor en P21:0.054460.165 Cursor en R5:=R2/(2*(R4-1)) Cursor en F8 Abra: Insertar Alberto Castillo Morales

74

Abra: Funcin. Abra con doble clic:DISTR.T.INV Cursor en la ventanilla de Probabilidad: Marque 2*R5 Cursor en la ventanilla de Grados_de_libertad: Marque R6 Marque: Aceptar La t para cada pareja de medias Cursor en Q30:=(P31-P30)*RAIZ(P22/(2*P26)) Cursor en R30:=(P32-P30)*RAIZ(P22/(2*P26)) Cursor en S30:=(P33-P30)*RAIZ(P22/(2*P26)) Cursor en R31:=(P32-P31)*RAIZ(P22/(2*P26)) Cursor en S31:=(P33-P31)*RAIZ(P22/(2*P26)) Cursor en S32:=(P33-P32)*RAIZ(P22/(2*P26)) Ejemplo. Bloques al azar, un factor En la hoja1 de EjemplosLibro seale Bloques al azar, un factor para llegar a la hoja donde est la base de Maz, Variedades y Granjas, de manera alternativa vaya a la hoja37. Los datos estn en las columnas A, B y C ocupando las hileras 2 a 14. La identificacin de Granja est en la columna A, la identificacin de Variedad en la columna B y los datos de Maz estn en la columna C. Los datos debern presentarse como lo lee el procedimiento Anlisis de varianza de dos factores con varias una sola muestra por grupo. El procedimiento de Excel pide que los ttulos de un factor Bloques) estn en la primera columna, segunda fila, a partir de la siguiente columna estn los datos de cada grupo, en columna, los identificadores en la primera fila, as que se comienza copiando los datos Cursor en F1:V1V2V3V4 Cursor en E2:123 luego de los ttulos copie los datos Marque C3:C6 Seleccione copiar Marque F2 Seleccione pegado especial Marque Trasponer Marque Aceptar Marque C7:C10 Marque F3 Seleccione pegado especial Marque Trasponer Marque Aceptar Marque C11:C14 Seleccione copiar Marque F4 Seleccione pegado especial Marque Trasponer Marque Aceptar El anlisis de varianza se obtiene con Abra Herramientas Abra Anlisis de datos Marque: Anlisis de varianza de dos factores con una sola muestra por grupo Alberto Castillo Morales

75

Marque: Aceptar Cursor en ventanilla de Rango de entrada: $E$1:$I$4 Marque: Rtulos Cursor en ventanilla Alfa:0.05 Marque: Rango de salida Cursor en ventanilla de Rango de salida: $E$8:$N$39 Marque: Aceptar El Excel no tiene procedimiento para las pruebas de suposiciones ni conviene hacer la grfica de cajas ejes, para esto es necesario usar el NCSS. Conviene dar el procedimiento para la prueba de Bonferroni . Primero escriba los ttulos: Cursor en O21:AlfaRepeticionesTratamientosAlfa BonferronigleCMEt(gle,alfa Bon)A1A2A3A4 Cursor en P29:MediaV2V3V4 Cursor en O30:V1V2V3 Proporcione el valor de alfa, nmero de repeticiones (cuenta), tratamientos (nmero de grupos), los grados de libertad del error (gle) y el cuadrado medio del error (CME, o promedio de los cuadrados dentro de grupos)), calcule el alfa de Bonferroni y obtenga la t con la que se compara la t calculada para cada pareja de medias. Si la t calculada (en la tabla de doble entrada) es mayor que la t(gle, alfa Bon) las medias son diferentes. Cursor en P21:0.053460.805425 Cursor en R5:=R2/(2*(R4-1)) Cursor en F8 Abra: Insertar Abra: Funcin. Abra con doble clic:DISTR.T.INV Cursor en la ventanilla de Probabilidad: Marque 2*R5 Cursor en la ventanilla de Grados_de_libertad: Marque R6 Marque: Aceptar La t para cada pareja de medias Cursor en Q30:=(P31-P30)*RAIZ(P22/(2*P26)) Cursor en R30:=(P32-P30)*RAIZ(P22/(2*P26)) Cursor en S30:=(P33-P30)*RAIZ(P22/(2*P26)) Cursor en R31:=(P32-P31)*RAIZ(P22/(2*P26)) Cursor en S31:=(P33-P31)*RAIZ(P22/(2*P26)) Cursor en S32:=(P33-P32)*RAIZ(P22/(2*P26)) Ejemplo. Bloques al azar, dos factores En la hoja1 de EjemplosLibro seale Bloques al azar, dos factores para llegar a la hoja donde est la base de Engorda de pollos, de manera alternativa vaya a la hoja38. Los datos estn en las columnas A, B, C y D ocupando las hileras 2 a 14. La identificacin de Bloque A, la identificacin de Fibra en la columna B, la identificacin de Grano en la columna C y los datos de Peso estn en la columna D. Excel no tiene procedimiento para analizar estos datos, el anlisis de debe hacer con el NCSS Alberto Castillo Morales

76

Clculo de percentiles y de significaciones muestrales En la hoja1 de EjemplosLibro seale Clculo de percentiles y de significaciones muestrales para llegar a la hoja 39 En las columnas A a D se presenta la forma de utilizar las funciones inversas de las distribuciones normal estndar, t, ji cuadrada, F y binomial para obtener percentiles. Para cada distribucin se da el valor de la probabilidad que define al percentil (probabilidad a la izquierda), los parmetros que identifican a la distribucin y el percentil; en la celda que da el valor del percentil est la funcin que lo calcula. Para obtener un percentil, el lector deber elegir la distribucin y sustituir los valores de la probabilidad hacia la izquierda y los de los parmetros con sus datos. Si lo desea, anote el nombre de la funcin y la forma en que se alimentan los datos para que pueda llamarla desde cualquier aplicacin. Note que Excel a veces pide la probabilidad hacia la derecha o hacia ambos lados de la distribucin, por eso cambia la forma de dar los datos a las funciones. A partir de la columna F se presenta la forma de obtener la significacin muestral en las pruebas de z, t, ji cuadrada, F y binomial. Se dan los valores del estadstico calculado, los parmetros que identifican a la distribucin y el tipo de zona de rechazo: unilateral derecha (UD), unilateral izquierda (UI) y bilateral (B) y se producen los valores de las significaciones muestrales para los tres tipos de zonas de rechazo. Para obtener una significacin muestral, el lector deber elegir la distribucin y sustituir el valor del estadstico calculado y los de los parmetros. Debido a que la funcin t no acepta valores negativos del estadstico calculado, se dan por separado las opciones para valores de t calculada mayores que cero y menores que cero. Si lo desea, anote el nombre de la funcin y la forma en que se alimentan los datos para que pueda llamarla desde cualquier aplicacin. Note que Excel a veces pide la probabilidad hacia la derecha o hacia ambos lados de la distribucin, por eso cambia la forma de dar los datos a las funciones Note que las funciones que calculan los percentiles y las significaciones muestrales estn direccionadas a las celdas donde estn los datos y los valores de los parmetros.

ANEXO 2. INSTRUCCIONES DE NCSS


Para resolver los ejemplos usando NCSS sin tener que capturar los datos, es conveniente usar los archivos con las bases de datos que se encuentran en el CD que se entrega con el texto, de manera alternativa solictelo al autor a la direccin electrnica acm@xanum.uam.mx. El paquete estadstico NCSS se llama as por las iniciales de su nombre completo en ingls: Number Cruncher Statistical System, que puede traducirse a sistema estadstico triturador de nmeros, es un paquete fcil de usar que tiene capacidad sobrada para resolver los problemas de estadstica aplicada que se estudian en licenciatura. La mayora de las instrucciones se dan al NCSS por seleccin de los procedimientos que se presentan en pestaas y botones de men y submens. Se usar la siguiente notacin. a. Hacer clic quiere decir presionar y soltar de inmediato el botn izquierdo del ratn. b. Cursor en una celda especificada, por ejemplo C1, quiere decir que con el ratn se mueve el cursor hasta que est en el lugar deseado, la celda C1 y se hace clic. c. Abrir una ventana quiere decir que se coloca el indicador del ratn en la pestaa con el nombre de la ventana y se hace clic en ella para que aparezca la ventana.

Alberto Castillo Morales

77

d. Tener el cursor en una ventanilla perteneciente a una ventana, quiere decir que se seala la ventanilla y se hace clic en ella para que el cursor quede en ella. e. Marcar un botn dentro de una ventana quiere decir que se hace clic en dicho botn para marcar con el botn. Si un botn est marcado con y se desea desmarcarlo, se hace clic sobre l. f. Las instrucciones para abrir una ventana, situar el cursor en una ventanilla y marcar ya sea un grupo de celdas o un botn se inician con una o ms palabras con letra cursiva y negrilla que indican la accin a realizar. Separadas por dos puntos sigue el nombre de la ventana, ventanilla, grupo de celdas o botn con letra normal en negrilla. g. Las instrucciones que requieren usar el teclado comienzan especificando con letra cursiva y negrilla donde debe estar el cursor, dos puntos como separacin y luego est la secuencia de teclas que deben presionarse, con letra normal. h. Con letra normal se dan instrucciones complementarias. Ejemplo. Regresin lineal 1 Los datos de trigo y fertilizantes estn en h31RegrLineal1.S0 en las primeras 4 columnas, identificando a cada variable por la primera letra de su nombre. El anlisis de regresin con todos los listados que se usan en el texto se obtiene como sigue: Abra Analysis Abra Regression/Correlation Abra Multiple Regression Abra pestaa Variables Ventanilla Dependent Variable(s):g Puede usar la flecha gruesa a la derecha para seleccionar g Ventanilla Xs Independent Variable(s): n-p Use la flecha gruesa y seale las variables presionando Ctrl (sin soltar hasta que acabe) Ventanilla Weight Variable:vaca Ventanilla Alpha Level: 0.05 Botn Remove Intercept:sin marcar Botn Filter Active:sin marcar Abra pestaa Reports Variable Names: Labels Precision: single Marque Means Marque Correlations Marque Equation Marque Coefficient Marque ANOVA Marque Pred Means Marque Pred Individuals Marque Residual Marque Reg Diagnostics Marque Multicollinearitity Marque Write Model Marque Prob Plot Marque Rstd vs Xs Otros Botones sin marcar Marque (Botn de ejecucin, arriba a la izquierda) Si el lector lo prefiere, desmarque algunos de los botones de reportes para tener un listado menos pesado.

Alberto Castillo Morales

78

Ejemplo. Regresin lineal 2 Los datos de Gasto Ingreso, Edad y Escolaridad estn en h32RegLineal2.S0 en las primeras 4 columnas. El anlisis de regresin con todos los listados que se usan en el texto se obtiene como en el ejemplo anterior Regresin lineal 1. Ejemplo. Regresin lineal simple Los datos sencillos estn en las dos primeras columnas de h32RegLinealSimple.S0. El anlisis de regresin con todos los listados que se usan en el texto se obtiene como en el ejemplo Regresin lineal 1. El diagrama de dispersin con la lnea ajustada se obtiene con Abra Graphics Abra Scatter Plots Abra pestaa Variables Ventanilla Horizontal Variable(s): X Puede usar la flecha gruesa a la derecha para seleccionar X Ventanilla Vertical Variables(s): Y Ventanillas Grouping Variable, Symbol Size Variable y Data Label Variable vacos, otras ventanillas definidas por default. Abra pestaa Titles Ventanilla Top Title Line 1: Escriba el ttulo de la Grfica Ventanilla Top Title Line 2: Complete el ttulo en la segunda lnea si es necesario Ventanilla Bottom Line 1: Escriba el nombre de la variable en el eje horizontal Ventanilla Left Title: Escriba el nombre de la variable en el eje vertical Ventanilla Variable Names: Names Ventanilla Value Labels: Data Values Abra pestaa Vertical Ventanilla Label Text: Y Ventanilla Minimum: Escriba el valor mnimo en el eje Vertical, use 0 Ventanilla Maximum: Escriba el valor mximo en el eje Vertical, use 8 Ventanilla Number en Major ticks:9 Ventanilla Number en Minor ticks:0 Abra pestaa Tick Reference Settings Ventanilla Decimals: 0 Ventanilla Text Rotation: Horizontal Ventanilla Max Characters: 6 Vea el formato en la ventanilla de abajo y cambie a su gusto Marque OK Abra pestaa Horizontal Ventanilla Label Text: X Ventanilla Minimum: Escriba el valor mnimo en el eje Horizontal, use 0 Ventanilla Maximum: Escriba el valor mximo en el eje Horizontal, use 6 Ventanilla Number en Major ticks:7 Ventanilla Number en Minor ticks:0 Abra pestaa Tick Reference Settings Ventanilla Decimals: 0 Ventanilla Text Rotation: Horizontal Ventanilla Max Characters: 4 Vea el formato en la ventanilla de abajo y cambie a su gusto Marque OK Alberto Castillo Morales

79

Abra la pestaa Lines 1 Marque Regression Ventanilla Method (Arriba a la izquierda): L.S. Marque (Botn de ejecucin, arriba a la izquierda)

Ejemplo. Regresin cuadrtica Los datos de Melaza y Aumento de peso estn en las dos primeras columnas de h34RegCuad.S0. Para obtener la regresin cuadrtica se necesita una variable que tenga como valores a los cuadrados de mz (melaza), para crearla se procede como sigue Abra pestaa Variable Info Abajo a la izquierda Cursor en C3, Name: Borre y escriba mz2 Cursor en mz2, Transformation: mz*mz Abra Data Abra Recalc All Para regresar a la base de datos Abra pestaa Sheet1 Abajo a la izquierda El anlisis de regresin con todos los listados que se usan en el texto se obtiene como en el ejemplo Regresin lineal 1, especificando como variables independientes a mz y mz2. El diagrama de dispersin con la lnea ajustada se obtiene con Abra Graphics Abra Scatter Plots Abra pestaa Variables Ventanilla Horizontal Variable(s): aum Puede usar la flecha gruesa a la derecha para seleccionar aum Ventanilla Vertical Variables(s): Y Ventanillas Grouping Variable, Symbol Size Variable y Data Label Variable vacos, otras ventanillas definidas por default. Abra pestaa Titles Ventanilla Top Title Line 1: Escriba el ttulo de la Grfica Ventanilla Top Title Line 2: Complete el ttulo en la segunda lnea si es necesario Ventanilla Bottom Line 1: Escriba el nombre de la variable en el eje horizontal Ventanilla Left Title: Escriba el nombre de la variable en el eje vertical Ventanilla Variable Names: Names Ventanilla Value Labels: Data Values Abra pestaa Vertical Ventanilla Label Text: Aumento de peso Ventanilla Minimum: Escriba el valor mnimo en el eje Vertical, use 25 Ventanilla Maximum: Escriba el valor mximo en el eje Vertical, use 45 Ventanilla Number en Major ticks:5 Ventanilla Number en Minor ticks:4 Abra pestaa Tick Reference Settings Ventanilla Decimals: 0 Ventanilla Text Rotation: Horizontal Ventanilla Max Characters: 6 Vea el formato en la ventanilla de abajo y cambie a su gusto Marque OK Abra pestaa Horizontal Alberto Castillo Morales

80

Ventanilla Label Text: Cantidad de Melaza Ventanilla Minimum: Escriba el valor mnimo en el eje Horizontal, use 0 Ventanilla Maximum: Escriba el valor mximo en el eje Horizontal, use 2 Ventanilla Number en Major ticks:5 Ventanilla Number en Minor ticks:4 Abra pestaa Tick Reference Settings Ventanilla Decimals: 1 Ventanilla Text Rotation: Horizontal Ventanilla Max Characters: 4 Vea el formato en la ventanilla de abajo y cambie a su gusto Marque OK Abra la pestaa Lines 1 Marque Polynomial Para obtener la grfica sin la lnea ajustada desmarque Polynomial Ventanilla Order: 2 Marque (Botn de ejecucin, arriba a la izquierda) Ejemplo. Completamente al azar, un factor Los datos de Asesora en ingls estn en h35CA1Factor.S0 La prueba de igualdad de medias de calificacin en ingls se hace con el procedimiento de anlisis de varianza. Abra Analysis Abra ANOVA Abra Analysis of Variance Abra pestaa Factors 1-4 Ventanilla Response Variable(s):Calificac Puede usar la flecha gruesa a la derecha para seleccionar Calificac Ventanilla Factor 1 Variable (A): asesora Ventanilla Type:Fixed Ventanilla Comparisons: None Otras ventanillas de factor vacas Botn Filter Active:sin marcar Abra pestaa Reports Ventanilla Test Alpha:0.05 Ventanilla Precision: single Ventanilla Variable Names: Label Ventanilla Value Labels: Value Labels Ventanilla MC Alpha:0.05 Marque ANOVA Report Marque Means Report Marque Means Plot(s) Marque Box Plot Marque Bonferroni Test (All Pairs) Marque (Botn de ejecucin, arriba a la izquierda) La grfica de cajas y ejes se hace con el mismo procedimiento seguido en ejercicios anteriores Abra Graphics Abra Box Plots Abra pestaa Variables Ventanilla Variable(s): calificac Puede usar la flecha gruesa a la derecha para seleccionar ventas Alberto Castillo Morales

81

Ventanilla Grouping Variable:asesoria Ventanilla Exponent:None Ventanilla Aditive Constant: 0 Ventanilla Data Label Variable: C4 Botn Filter Active vaco Abra pestaa Titles Ventanilla Top Title Line 1: Escriba el ttulo de la grfica Ventanilla Top Title Line 2: Complete el ttulo en la segunda lnea si es necesario Ventanilla Bottom Line 1: Escriba el ttulo para la variable que define a la escala horizontal Ventanilla Variable Names: Labels Ventanilla Value Labels: Value Labels Abra pestaa Box Plot Ventanilla Shape: Rectangle Ventanilla Use for Box Width: Amount Ventanilla Percentile Type: AveXp(n+1) Es la forma de clculo que coincide con la del texto Ventanilla Inner Fence: 1.5 Ventanilla Outter Fence: 3.0 Marque: Show Outliers Ventanilla Type: Standard Ventanilla Scale Type: T-Shape Abra pestaa Vertical Ventanilla Label Text: Ventas Ventanilla Minimum: Escriba el valor mnimo en el eje vertical, use 20 Es opcional, ponga el valor si no le gusta como qued el histograma Ventanilla Maximum: Escriba el valor mximo en el eje vertical, use 120 Es opcional, ponga el valor si no le gusta como qued el histograma Ventanilla Number en Major ticks:5 Ventanilla Number en Minor ticks:1 Abra pestaa Tick Reference Settings Ventanilla Decimals: 0 Ventanilla Text Rotation: Horizontal Ventanilla Max Characters: 4 Vea el formato en la ventanilla de abajo y cambie a su gusto Marque OK Abra pestaa Horizontal Ventanilla Label Text: Periodo Abra pestaa Tick Reference Settings Ventanilla Decimals: 0 Ventanilla Text Rotation: Horizontal Ventanilla Max Characters: 4 Vea el formato en la ventanilla de abajo y cambie a su gusto Marque OK Marque (Botn de ejecucin, arriba a la izquierda) Ejemplo. Completamente al azar, dos factores Los datos de Bolsas de invernadero estn en h36CA2Factores.S0 La prueba de igualdad de medias de kg de bolsa para los dos factores y la interaccin se hace con el procedimiento de anlisis de varianza. Abra Analysis Abra ANOVA Abra Analysis of Variance Alberto Castillo Morales

82

Abra pestaa Factors 1-4 Ventanilla Response Variable(s):kg_b Puede usar la flecha gruesa a la derecha para seleccionar kg_bolsa Ventanilla Factor 1 Variable (A): fuente Ventanilla Type:Fixed Ventanilla Factor 2 Variable (B): maq Ventanilla Type:Fixed Ventanilla Comparisons: None Otras ventanillas de factor vacas Botn Filter Active:sin marcar Abra pestaa Reports Ventanilla Test Alpha:0.05 Ventanilla Precision: single Ventanilla Variable Names: Label Ventanilla Value Labels: Value Labels Ventanilla MC Alpha:0.05 Marque ANOVA Report Marque Means Report Marque Means Plot(s) Marque Bonferroni Test (All Pairs) Marque Test for Two Factor Interaction Marque (Botn de ejecucin, arriba a la izquierda) Ejemplo. Bloques al azar, un factor Los datos de Maz, Variedades y Granjas estn en h37Bloques1Factor.S0 Debido a que en presencia de bloques se debe especificar el modelo, la prueba de igualdad de medias de produccin de maz para el factor Variedades se hace con el procedimiento GLM de anlisis de varianza. Abra Analysis Abra ANOVA Abra GLM ANOVA Abra pestaa Factors 1-4 Ventanilla Response Variable(s):maiz Puede usar la flecha gruesa a la derecha para seleccionar maiz Ventanilla Factor 1 Variable (A): granja Ventanilla Type:Fixed Ventanilla Factor 2 Variable (B): variedad Ventanilla Type:Fixed Ventanilla Comparisons: None Otras ventanillas de factor vacas Botn Filter Active:sin marcar Abra pestaa Reports Ventanilla Test Alpha:0.05 Ventanilla Precision: single Ventanilla Variable Names: Label Ventanilla Value Labels: Value Labels Ventanilla MC Alpha:0.05 Marque ANOVA Report Marque Means Report Marque Means Plot(s) Marque Bonferroni Test (All Pairs) Abra GLM ANOVA Alberto Castillo Morales

83

Abra Model Ventanilla Which Model Terms:Custom Model Ventanilla Custom Model: A+B Marque (Botn de ejecucin, arriba a la izquierda)

Ejemplo. Bloques al azar, dos factores Los datos de Engorda de pollos estn en h38BA2Factores.S0 Debido a que en presencia de bloques se debe especificar el modelo, la prueba de igualdad de medias de peso para los factores Fibra, Grano y su interaccin se hace con el procedimiento GLM de anlisis de varianza. Abra Analysis Abra ANOVA Abra GLM ANOVA Abra pestaa Factors 1-4 Ventanilla Response Variable(s):peso Puede usar la flecha gruesa a la derecha para seleccionar peso Ventanilla Factor 1 Variable (A): bloque Ventanilla Type:Fixed Ventanilla Factor 2 Variable (B): fibra Ventanilla Type:Fixed Ventanilla Factor 3 Variable (C): grano Ventanilla Type:Fixed Ventanilla Comparisons: None Otras ventanillas de factor vacas Botn Filter Active:sin marcar Abra pestaa Reports Ventanilla Test Alpha:0.05 Ventanilla Precision: single Ventanilla Variable Names: Label Ventanilla Value Labels: Value Labels Ventanilla MC Alpha:0.05 Marque ANOVA Report Marque Means Report Marque Means Plot(s) Marque Bonferroni Test (All Pairs) Abra Model Ventanilla Which Model Terms:Custom Model Ventanilla Custom Model: A+B+C+BC Marque (Botn de ejecucin, arriba a la izquierda) Uso del calculador de probabilidades Para llegar al calculador de probabilidades de NCSS Abra Analysis Abra Other Abra Probability Calculator Aparece la lista de distribuciones.

Alberto Castillo Morales

84

Seleccione la distribucin deseada en el botn izquierdo para obtener percentiles y en el botn derecho para obtener probabilidades. Para percentiles (botn izquierdo): Especifique los valores de los parmetros y de la probabilidad a la izquierda en las ventanillas de la izquierda de la ventana y presione Calculate para obtener el percentil. En las ventanillas de la derecha Si pide el parmetro NCP asegrese que tiene el valor cero. Para probabilidades (botn derecho): Especifique los valores de los parmetros y del valor de la variable en las ventanillas de la izquierda y presione Calculate para obtener la probabilidad en las ventanillas de la derecha. Si pide el parmetro NCP asegrese que tiene el valor cero. Note que arriba de la ventanilla est el intervalo al que se refiere la probabilidad de que la variable aleatoria (con minsculas) tome un valor <=, >= 0 = que el valor del estadstico que se aliment en las ventanillas de la izquierda (con Maysculas). Para obtener las significaciones muestrales el valor de la variable que se alimenta es el valor del estadstico de prueba calculado y en las ventanillas a la derecha se busca el intervalo deseado: <= para unilaterales a la izquierda y >= para unilaterales a la derecha.

Alberto Castillo Morales

85