Académique Documents
Professionnel Documents
Culture Documents
versiones para diversos equipos entre ellos, para IBM y todos los compatibles; para Macintosh; etc. Las versiones 14 y 15 ofrecen, entre otras facilidades:
Puesto que el objetivo de este trabajo es el desarrollo simplificado de los principales temas de la Estadstica y la descripcin y uso del programa Minitab, en este captulo nos dedicaremos a la descripcin bsica de las principales caractersticas del programa Minitab. Primero haremos una presentacin del entorno en el cual opera el programa: a nivel de datos, de los resultados y la presentacin de grficos. Luego nos dedicaremos a presentar las caractersticas funcionales de cada uno de los comandos de la Barra de Men, as como una muy breve explicacin de las opciones ms comunes de cada comando. Naturalmente que, para su mejor comprensin haremos uso de algunos ejemplos sencillos de aplicacin directa.
Capacidad estadstica comprensiva y completa, que incluye anlisis de datos exploratorios, clculos bsicos, regresin, anlisis de varianza, tamao de muestra, anlisis multivariante, distribuciones no-paramtrica, series de tiempo, tabulacin cruzada y simulacin. La versin 15 presenta un anlisis multivariante mucho ms completo.
Calidad de grficos de alta resolucin, en particular la versin 15, con una representacin de calidad, totalmente editables y que incluye capacidad de afinamiento para la identificacin de puntos en el ploteo de los datos, pegar los grficos en otras aplicaciones; todo ello dentro de una diversidad de tipos y opciones en el manejo de los mismos.
Seguridad y mejoramiento de otras caractersticas que incluyen 1. Diagrama de cajas, de Pareto, diagramas de causa-efecto 2. Diagramas para el control de procesos estadsticos 3. Diagramas y grficos histricos 4. Capacidad de anlisis y exploracin de datos 5. Diseo de experimentos con capacidad de anlisis completos o fraccionados
1. Introduccin 2. Anatoma de la ventana principal 3. Dar nombre a una columna 4. Amplitud de una columna 5. Contenido de una celda 6. Ingreso de datos 7. Breve descripcin de los comandos de la Barra de Men 8. Comando File 9. Comando Edit 10. Comando Data 11. Comando Calc 12. Comando Stat 13. Comando Graph 14. Comando Editor>
Una capacidad de manejo de datos muy potente que permite importar datos hacia un proyecto, desde versiones anteriores, hojas de clculo, bases de datos y archivos de texto; enlace de datos hacia otras aplicaciones
1.Introduccin
Muchas facilidades que hubiramos querido apreciar en la versin 14, se tienen en la versin 15, como el caso de disponer de dos formas de captura de datos para realizar estimaciones por intervalos o pruebas de hiptesis as como su especial caracterstica: la parte grfica.
El Programa MINITAB es un programa estadstico muy potente, verstil y de fcil uso, que proporciona un amplio rango de aplicaciones estadsticas, capacidad de grfico, una interfase amigable con el usuario y una extensa ayuda en lnea con un men contextual muy sensitivo.
Facilidades para el manejo de Macros, lo que permite escribir programas en Minitab, extendiendo su funcionalidad, los que son procesados por un equipo en la modalidad de procesamiento en batch.
El programa Minitab ha tenido muchas versiones en su evolucin. La versin actual es la 15.0. Puesto que esta versin an tiene menos de un ao de haberse puesto en comercializacin, en algunos casos haremos referencia a la versin 14, por cuanto es esa la que se encuentra en nuestro medio. Este programa ha tenido un amplio uso desde los aos 60, abarcando tanto a mainframes como a minicomputadoras, y desde los aos 80 en las PCs. Se han escrito
No est dems resaltar el uso del Minitab en los problemas de Causa Efecto y tambin en la diversidad de aplicaciones que puede proporcionar en el Control de Calidad.
Nota: Nosotros desarrollaremos slo una parte de las bondades que ofrece el programa: aquellas cuyos temas son los ms comunes en las asignaturas de estadstica.
Una vez instalado el programa Minitab, su Sistema Operativo colocar un icono de acceso directo en el escritorio, como el que se muestra adems de insertarlo en la lista de los programas de aplicacin.
En los ltimos tiempos (diremos desde el inicio de los 90) la ciencia de la computacin en lo que a sistemas personales se refiere, se ha orientado a la programacin orientada a objetos y como consecuencia de ello aparecieron los lenguajes visuales; los que han permitido el diseo y la construccin de programas muy grandes y complejos que operan dentro de un escenario. Esto dio origen a los llamados espacios de trabajo(escenario) los que se configuran dentro de lo que se conoce como proyectos. A continuacin pasaremos a describirla.
Las ltimas versiones del Minitab permite la construccin de proyectos para resolver los problemas de proceso de datos. Un proyecto est formado por un conjunto de Hojas de trabajo, de resultados almacenados en variables temporales, de grficos a partir de los datos almacenados en las hojas, de los enlaces entre una hoja u otras aplicaciones externas y de la secuencia y ejecucin de macros. En particular un proyecto est formado por una o ms Hojas de Trabajo.
Como es lgico, tanto los proyectos como las hojas de trabajo y los grficos cuando de almacenarlos se trata, deben tener un nombre y una extensin.
Los proyectos, hojas de trabajo y los grficos se graban con el nombre que nosotros deseamos. Estos nombres se distinguen por su extensin. En el caso de los proyectos la extensin es MPJ. La extensin en el nombre de los archivos que son hojas de trabajo es MTW, y en el caso de un grfico es MGF.
Nota:
1. En el caso de las hojas de trabajo, la versin 14 del Minitab permite grabarlas en formato del Excel 97 o en otras versiones anteriores del Minitab. 2. En el caso de los grficos podemos grabarlo con extensin MGF para ser recuperados en el Minitab. Podemos grabarlos en formato JPG para se visualizado como imagen u objeto en otras aplicaciones, pero ya no por el Minitab. 3. Como en el caso anterior, se puede grabar un grfico con extensin TIF, pero no podr ser recuperado al Minitab.
La anatoma de esta ventana es similar a la mayora de las ventanas conocidas: La Barra de Titulo: Muestra el nombre de la Aplicacin (Minitab) y el nombre de la Hoja de trabajo. Si sta an no ha sido grabada, no tiene nombre, por lo que en ella se visualiza: Untitled. La Barra de estado :
En ella se muestra el nombre de la hoja activa. Durante el uso de algunos comandos, se muestra la sugerencia de usar F1 para ayuda.
La Barra de Men:
En ella se muestra los comandos que nos permite realizar todas las operaciones con nuestros datos
La Barra de Herramientas: Muestra los iconos que nos permite la ejecucin directa de una serie de acciones para una parte o la totalidad de los datos y resultados.
Nota: La hoja de trabajo del Minitab es como una hoja del Excel. Podemos ingresar datos, seleccionar, copiar o pegar desde un bloque o rango de columnas hacia otro, como en el caso del Excel. Pero se distinguir de ste, en el sentido que las celdas almacenan slo datos, no frmula. Los grficos necesariamente se muestran en otra ventana, no sobre la misma hoja. Y cuando existe una celda vaca, dentro de una columna de datos, se mostrar un asterisco *, excepto si se ha modificado para otro simbolo.
La Hoja de Trabajo:
En esta ventana se almacenan todos nuestros datos y los resultados de la ejecucin de los comandos. Es, como se puede apreciar, una autntica hoja electrnica como, en el caso del Excel. Consta de un conjunto de celdas referenciadas por una fila y columna determinadas. Los datos se ingresan por fila o por columna (que es el caso comn). El resultado de todos los comandos y acciones que pueden llevarse a cabo en Minitab, estn contenidas en una hoja. Su tamao asignado por omisin es de 100,000,000 filas y 4000 columnas. Naturalmente que, como en el Excel, se pueden tener abierto varias hojas de trabajo simultneamente.
La ventana Sesin:
Podramos decir que esta ventana fundamenta el carcter interactivo del Minitab. En ella se muestra la secuencia de comandos que se ejecutan transparentemente cuando alguna accin es llevada a cabo en la Hoja de Trabajo. La llamaremos tambin Ventana de Comandos ya que ella ser usada para ingresar los comandos que se ejecutan de modo interactivo. Si bien es cierto que mediante los comandos de la barra de men se puede explotar toda la capacidad del Minitab, hay situaciones en las que el usuario puede requerir de la ventana de sesin para ingresar directamente una o ms secuencias de instrucciones a las cuales se les conoce como comandos interactivos. Por ejemplo si deseamos realizar un determinado clculo entre el contenido de ciertas celdas para dejar el resultado en otra celda en particular, nos veremos precisado usar esta ventana. Por lo dems, el manejo de la barra de men a travs de la diversidad de ventanas que se genera, cubre todas nuestras necesidades comunes.
En la figura anterior se aprecia las otras ventanas asociadas a una sesin de Mintab, las que pasaremos a describirlas.
Ventana de Informacin:
Contiene toda la informacin de las columnas de cada una de las hojas del proyecto.
Ventana de Historia:
En esta ventana se muestra la secuencia de todos las acciones y comandos usados durante la sesin de uso del Minitab.
Ventana de Grfico:
En ella se aprecia los grficos trazados durante la sesin. Si no se cierran, todas ellas aparecen apiladas en la pantalla. Por lo general, slo una grfica es trazada por una secuencia de acciones; sin embargo puede generarse ms de un grfico en la misma ventana como es el caso que se muestra en la siguiente figura nmero 3.
Observaciones: 1. Pertenezcan o no al proyecto activo, en una sesin de trabajo se pueden tener abiertas ms de una hoja de trabajo, una de las cuales ser la hoja activa. 2. La ejecucin de todos los comandos afecta slo a la hoja de trabajo activa. Por supuesto que si mediante la calculadora se realiza una operacin y el resultado se almacena en una variable, la hoja no ser afectada. Cuando se grabe la hoja, y ms tarde se quiera volver a usarla, no se dispondr de la variable. Pero si se hubiera grabado como proyecto, al abrir ste, s se dispondr de la variable, con el ltimo valor almacenado en ella. 3. Si desea activar una hoja de trabajo, haga clic en la parte que vea de ella o use el comando <Ventana>. Tambin puede usar <Ctrl.> + <F6>, o hacer clic en el icono de la esquina superior de la hoja activa y seleccionar la opcin <Siguiente>.
Observaciones:
1. Pertenezcan o no al proyecto activo, en una sesin de trabajo se pueden tener abiertas ms de una hoja de trabajo, una de las cuales ser la hoja activa. 2. La ejecucin de todos los comandos afecta slo a la hoja de trabajo activa. Por supuesto que si mediante la calculadora se realiza una operacin y el resultado se almacena en una variable, la hoja no ser afectada. Cuando se grabe la hoja, y ms tarde se quiera volver a usarla, no se dispondr de la variable. Pero si se hubiera grabado como proyecto, al abrir ste, s se dispondr de la variable, con el ltimo valor almacenado en ella. 3. Si desea activar una hoja de trabajo, haga clic en la parte que vea de ella o use el comando <Ventana>. Tambin puede usar <Ctrl.> + <F6>, o hacer clic en el icono de la esquina superior de la hoja activa y seleccionar la opcin <Siguiente>.
Ejemplo: En C1
b) Tocando con el puntero del ratn la divisin de columna, en su nombre o etiqueta y, cuando se convierta en una flecha de doble sentido, arrastrar hacia la izquierda, para reducir, o la derecha, para aumentar (Figura anterior) c) Usando la opcin <Column> del comando <Editor>. Lo veremos luego.
3. Presionar <Enter>
Nota:
Nota: 1. El tamao de cada columna, por omisin est especificada en 8 carateres. 2. Cuando la columna contiene datos numricos puede ocurrir que, al realizar algn clculo, en algunas de sus celdas se visualice ******. En este caso se debe ampliar tambin el tamao de dicha columna.
1. El nombre de una celda se puede ingresar desde la ventana de sesin. Por ejemplo si C1 debe definirse como Descripcin, debemos digitar en la ventana de sesin: NAME C1 Descripcion o tambin NAME C1 Descripcion
2. El contenido de una celda particular puede ser Dataulada mediante el uso de comando ingresados en la Ventana de Sesin. Para hacer referencia de una celda se debe indicar la columna y entre parntesis, el nmero de la fila. Por ejemplo Cx(y), hace referencia a la fila y de la columna x , de manera que podra mos dejar en la fila 5 de la columna 2, la suma de la columna 3; para ello, ingresamos el comando: Let C2(5) = Sum(C3).
3. Recuerde que antes de usar la ventana de sesin para ingresar comandos, debe activarla: hacer clic en alguna parte de ella y luego <Editor> - <Enable Command language>.
4. Cuando se ingresa algn valor en una determinada celda de una columna, todas las celdas anteriores se rellenan con *.
La amplitud o ancho de una columna, definida por omisin, es de 8 caracteres (bytes). Este tamao se puede modificar usando una de las siguientes formas:
El dato numrico puede ser entero o flotante (con decimales). Cuando la cantidad es suficientemente grande, su resultado se visualiza en formato cientfico de la forma ra.bcdErn.
a) Automticamente, despus de ingresar el dato o nombre y presionar <Enter> El dato de tipo texto est formado por una cadena de caracteres vlidos. El espacio en blanco es una cadena de caracter.
Los datos de tipo fecha o tiempo (Date/Time) contienen diversos formatos de fecha o tiempo como son mm-dd-yyyy , mm/dd/yyyy y otros, en el caso de fechas y, hh:mm:ss en el caso del tiempo. C1 C2 C3 C4 Productos 1 Teclado PS/2 2 Monitor Samsung 15 40 130 160 86 190 90 65 120 250 11 Fax /Modem NN 56 Kbps 12 Lector CD LG 52X 13 Micrfono Mutex 14 Tarjeta de sonido Ondex 15 Lector CD Creative 52X 240 350 100 75 300 3 CPU Intel Pentium V 4 CPU Intel Pentium IV 5 Monitor LG 17 6 Disco duro 40 Gb 7 Disco duro 5Gb 8 CPU Intel Pentium III 9 Disco duro 20 Gb 10 Fax/Modem LG 56 Kbps 50 15 130 520 480 120 260 80 450 220 180 150 120 18 60 90 Cantidad Precio($)
Descuento 0 12 20 10 8 10 20 10 10 15 15 15 12 10 20
6. Ingreso de datos
x x
Para ello simplemente elija la columna y la fila a partir del cual desea almacenar los datos, digite el dato y luego presione <Enter> o la tecla gua correspondiente al sentido de ingreso de los siguientes datos, excepto flecha a la izquierda.
Al presionar <Enter>, por omisin el cursor activa la siguiente fila de la columna, hacia abajo. De manera que , en este caso, es suficiente presionar <Enter> para continuar con la secuencia. Si desea continuar ingresando datos en la columna de la derecha, es suficiente presionar <CTRL.> + <Enter>
Ejemplo 01:
Ingrese los datos del siguiente cuadro en las correspondientes columnas y filas que se muestran en el mismo. Procedimiento: Primero ingrese los nombres de las columnas: Clic en la celda debajo de C1 Digitar Productos
Presionar <Enter>
8. Comando <FILE>
Para abrir, grabar, imprimir archivos que contienen hojas de trabajos, grficos o proyectos, usaremos el comando FILE.
La secuencia
Es usado
<File> - <New..>
<File> As>
<Save
La secuencia Para abrir una hoja de trabajo ya grabado Abre una base de datos para una consulta Grabar la hoja de trabajo o proyecto (en uso)
Es usado para Observe que las opciones de este comando estn agrupadas por el uso que se den: Para manejo de proyectos Para manejo de hojas de trabajo Para manejo de grficos Para imprimir Para cerrar el Minitab Para acceder a los archivos recientemente usados Otras Opciones adicionales:
<File> - <Save Current Worksheet Para grabar la Hoja de trabajo(en uso) as...> Para grabar con otro nombre (en uso) Cierra la hoja de trabajo activa
<Close Worksheet>
La ventana que se obtiene al hacer clic en el comando <File> es la que se muestra en la siguiente figura.
Abre un grfico en Minitab, previamente grabado Permite importar/exportar archivos de tipo texto Imprime una hoja de trabajo
Nota Importante:
Vuelva a ejecutar el Minitab. Abra el proyecto Proy01.mpj usando la secuencia <File> - <Open Proyect>. Ubique la unidad y carpeta y luego seleccione el archivo Proy01.mpj.
1. Todos los archivos(Hojas de trabajo (*.Mtw o Proyectos *.Mpj) que usaremos en el estudio del Minitab, se encontrarn en la carpeta Tutor Minitab, que se encuentra en la unidad C. Se puede observar que el Minitab ha cargado a memoria las dos hojas de trabajo contenido en el proyecto.
2. Todos los proyectos u Hojas de trabajo que debemos grabar se debern hacerlo en la misma carpeta.
Ejemplo 02:
Para hacer algunas operaciones sobre el contenido de las hojas vamos a estudiar las opciones principales que tiene el comando EDIT. Podemos copiar, pegar, cortar celdas.
Grabe su hoja de trabajo con el nombre Ses01 usando la secuencia <File> - <Save Current Worksheet...>. Puesto que el archivo no tiene nombre, en la siguiente ventana que salga, debemos indicarle la carpeta y el nombre que va a tener. En el recuadro Guardar en ubique la carpeta donde desea guardarlo, en el recuadro Nombre del archivo digite Ses01 y luego haga clic en el botn <Save> La secuencia <Edit><Clear Cells> <Edit><Delete Cells> <Edit> <Copy Cells> <Edit><Cut Cells> <Edit> <Paste Cells> <Select All Cells>
Las principales opciones que tiene este comando son las siguientes
Es usado para Limpiar el contenido de una celda(Se inserta un *) Eliminar la celda especificada(las otras se reordenan) Copiar a memoria el contenido de la(s) celda(s) Copiar y elimina la celda con su contenido Pegar aquello que se copi o cort, a partir del cursor Seleccionar toda la hoja de trabajo activa
Diferencia entre <Save Current Worksheet > y < Save Current Worksheet as>: Vuelva a grabar la hoja usando <Save current WorkSheet> Como ya la hoja tiene nombre, no aparece la ventana anterior. Si tuviramos que grabarla con otro nombre, entonces deberemos usar la secuencia <File> - <Save Current Worksheet As ...> para que pida el nombre. (Lo que tambin podramos aprovechar para cambiar de unidad, por ejemplo grabarlo en otra unidad diferente a la de uso).
Ahora abra el archivo ProdPc.Mtw que se encuentra en la misma carpeta. Abra tambin el archivo recientemente grabado Ses01.Mtw. Para ello use <File> - <Open Worksheet> Ubique el nombre del archivo en la carpeta arriba mencionada
La figura que se muestra a continuacin nos permite visualizar las opciones obtenidas al hacer clic sobre el comando EDIT.
Activar/Desactivar cada una de las hojas cargadas a memoria: Grabemos ahora todas las hojas como un proyecto llamado Proy01. Use la secuencia: <File> - <Save Project as>. Como el proyecto no tiene nombre, se puede usar tambin <File> - <Save Project>. A continuacin ubique la unidad y carpeta donde desea guardar y en <File name> digite Proy01. Ahora puede ver en la barra de ttulo, el nombre del
3. Copie toda la columna C4 usando <Edit> - <Copy Cells>. Puede usar tambin la forma clsica de copiar: <CTRL>+C. 4. Ahora active la Hoja ProdPc.MTW y haga clic en la etiqueta C4 5. Pegue lo copiado en dicha columna usando <Edit> - <Paste Cells> o use <CTRL>+V.
Nota: Por supuesto que puede usar cualquier otra forma de copiar y pegar que Ud. sepa; usando los iconos de la barra de herramientas, por ejemplo.
Podramos crear la hoja nueva y luego copiar, o podramos copiar y luego crear. La secuencia es indiferente, lo copiado permanece en memoria hasta que no se vuelva a copiar otros datos.
Como se puede observar, la funcin que realizan estas opciones son similares a las que se encuentran en las ventanas del comando <Edit> o <Edicin> de muchas aplicaciones, slo que en el caso del Minitab, todas ellas se aplican sobre un conjunto de celdas(filas o columnas seleccionadas) de la hoja de trabajo.
6. Active la Hoja Ses01.Mtw 7. Seleccione toda la hoja usando <Edit> - <Select all cells>. (Como podr apreciar, los nombres de las columnas no quedan seleccionadas y adems, slo queda seleccionada el rango de datos, no toda la hoja) y luego copie usando <Edit> - <Copy Cells>. 8. Abra una nueva hoja usando la secuencia <File> <New> Como puede ver en la ventana adjunta. Podemos crear un nuevo proyecto, o una nueva hoja. Seleccionaremos hoja usando: - <Mintab Workshhet> - <Ok>
Nota: Dejamos para un desarrollo posterior la opcin <Link> que permite realizar enlaces entre una y otra columna bajo la concepcin DDE(Dynamic Data Exchange)
Ejemplo 03
9. Haga clic en la primera celda de la columna C1 y pegue lo copiado usando la opcin <Paste Cells> de <Edit>. 10. Vuelva Ses01.Mtw y copie los nombres de las columnas hacia la nueva hoja y grabe a sta como WSes01. 11. Grabe el proyecto para guardar las modificaciones de una de sus hojas.
Si Ud. observa, la hoja Ses01 contiene una columna de Descuentos (C4), pero la hoja ProdPc, no tiene. Vamos a copiar la columna Descuentos de Ses01 hacia la columna 4 de ProdPc.
Nota: Para pasar de una hoja de trabajo a otra (en realidad de una ventana del Minitab a otra del mismo) use las teclas: <CTRL>+<F6>.
1.
2.
Nota: Observe que en la barra de titulo de la hoja de trabajo aparece el nombre de la hoja, mientras que en la barra de titulo del proyecto(ventana principal), aparece el nombre del proyecto.
Note tambin que las opciones estn agrupadas por categora de funcin: Para manejo de Hoja, manejo de columna, para variables y celdas y para visualizar los datos.
La secuencia
Es usado para Extrae/Copia parte de la hoja, de manera especial Extrae parte de la hoja con columnas completas Ordena la hoja activa o nueva por algn criterio Genera conjunto de ndices de posicin de datos Borra filas especificadas, reordenando las restantes Elimina la variable(columna), no reordena columna Copia columnas hacia otras, condicionalmente Apilar/Desapilar columnas para formar otra(s) Aade o suma dos o ms columnas hacia otra Permite codificar una columna determinada Cambia el tipo de dato(Numerico/Texto/Fecha) Imprime el contenido de columnas seleccionadas Permite transponer filas a columnas o viceversa
Ahora vamos a describir el comando DATA que nos permitir el manejo de los datos dentro de la hoja. Como veremos, se puede crear Subhojas, juntar, separar columnas, ordenar los datos, eliminar filas, borrar variables, codificar, cambiar el tipo de dato, etc. En las versiones anteriores este comando era DATA.
Use este comando para extraer o copiar, para cortar o excluir un subconjunto de datos de la hoja activa. Igualmente puede usar para ordenar e imprimir toda o parte de la hoja. Tambin puede cambiar el tipo de formato de sus datos.
Abra el archivo Familia.Mtw usando <File> - <Open Worksheet> Seleccione la unidad y carpeta donde se encuentra el archivo mencionado.
Como puede apreciar, en esta hoja tenemos, en la columna C2, la variable Sexo, en el cual los datos son: M y F.
Vamos a crear una nueva hoja que contenga slo a los hombres (M) y otra que contenga a las mujeres (M).
Active la hoja Hombres. Extraiga a todos aquellos que provienen de las escuelas pblicas (Escuela = Priv). Que la nueva hoja se llame Escuela Privada Ahora vamos a extraer los datos por Sexo y por Escuela. Para ello
a) El nombre de la nueva hoja debe ser Hombres. <Data> - <Split Worksheet...> En la ventana siguiente seleccione las variables Sexo y Escuela Cierre estas cuatro hojas sin grabar o guardar Use la secuencia : Active la hoja original Familia.Mtw
b) Debe estar activada: <Specify wich rows to included> de la opcin <Include or Exclude>. Es decir, debemos indicarle las columnas a ser incluidas.
d) En la siguiente ventana, en el recuadro Condition se debe tener la condicin de comparacin. En este caso son todos los alumnos cuya variable sexo es igual a M; es decir, Sexo = M. Observe la siguiente imagen.
e) Ahora haga clic en <Ok> para volver a la ventana anterior y luego <Ok> Trabajemos ahora con otra base de datos:
Como podr apreciar, esta hoja contiene los nombres de los alumnos y el total de crditos en los que estn matriculados; slo que estn separados por sexo.
Copie todos los datos (incluyendo los nombres de las columnas) hacia una nueva hoja de trabajo. 1. Seleccione las cuatro primeras columnas y luego copie. 2. Use <File> - <New> - <Minitab worksheet> - <Ok> para abrir una nueva hoja de trabajo. 3. Haga clic debajo de la columna C1 y pegue lo copiado
En la ventana siguiente, en el columnas: Alumnos, Crditos y Sexo. recuadro <Sort columns(s)>, <Data> - <Sort>
En esta nueva hoja vamos a juntar (Stack) la columna C1 con la columna C3 y lo almacenaremos en la columna C6. ingrese las tres
En la siguiente ventana, debe rellenar los datos segn como se muestra en la siguiente figura
En el recuadro de <Stack the following columns> ingrese las columnas Varones y Mujeres
En el recuadro <Store sorted data in> o Almacenar lo sorteado en, ingrese las celdas C10 C11 C12.
Usaremos la columna C6 para apilar. Activar <Column of current worksheet> e ingresar la columna C6
Puesto que los subndices pueden servir para identificar el tipo de dato en C6, almacenaremos los subndices en C8. Esto lo hacemos ingresando C8 en el recuadro <Store subscript in:>
Haremos lo mismo con las columnas de crditos y la colocaremos en C7. En este caso deje en blanco el recuadro <Store subscript in>, no lo necesitamos.
Vamos a ordenar nuestros datos por sexo y dentro de ello por nombres (campo Alumnos). En el primer recuadro <Sort by column> o Sortear por columna: ingrese la columna Sexo y en el siguiente recuadro ingrese Alumnos. Su ventana debe quedar como indica la siguiente figura
Ponga por nombre Alumnos, Crditos y Sexo a las columnas C6, C7 y C8, respectivamente.
Use la opcin SORT para ordenar los datos Para Ud. amigo lector
Podramos haber sorteado sobre las mismas columnas? Claro que s. Sugerimos que lo pruebe. Use las columnas C6, C7 y C8. <Data> - <Erase variables> para borrar una o ms variables (columnas) Usaremos <Data> - <Delete rows> para borrar una o ms filas de una columna o varias, reordenando las filas hacia arriba.
Ejercicios
Ejecute por favor las siguientes peticiones: <Data> - <Erase variables> En <Columns, constant and matrices to erase > ingresamos C1-C4 Hacemos clic en <Ok> Para borrar las columnas C1-C4 usaremos la secuencia
- Ordene slo las columnas de los varones con sus respectivos crditos sobre las mismas columnas.
- Ahora, apile (Stack) a todos los alumnos en la columna C6, a los crditos en C7 y haga que la columna C8 contenga el sexo de los alumnos.
Borrar variables
Usted puede verificar que las columnas persisten pero sin datos
Para borrar celdas con datos puede usar el comando <Edit>, donde Eliminemos ahora las columnas C1 C4. Para ello seleccionamos toda la columna C1 hasta C4. Usemos ahora <Edit> - <Delete Cells>
<Edit> - <Erase cells> permite borrar el contenido de las celdas seleccionadas y reemplazar su contenido con * Grabe la hoja restante con el nombre Alumnos405
<Edit> - <Delete cells> permite eliminar la celda reordenando hacia arriba las celdas restantes.
Nota: Si selecciona toda la columna y usa <Erase cells> borrar toda la columna, dejndola vaca
Para terminar, vamos a imprimir en pantalla todas las columnas. Para ello usaremos la secuencia: <Data> - <Display Data>
Si selecciona toda la columna y usa <Delete cells> suprime la columna y las columnas de la derecha se reordenan hacia la izquierda
Como se puede ver, Erase y Delete son opciones del comando Data usados para diferentes propsitos.
Usaremos
Abra el archivo Emple01.Mtw. La informacin contenida en ella se refiere a los empleados de una tienda comercial del Centro de Lima. Usando todo lo que hasta aqu hemos aprendido, resuelva cada una de los siguientes ejercicios.
a) Convierta los datos contenidos en la columna C5 de numrico a texto. Luego reemplace los valores de acuerdo a la siguiente equivalencia:
Sin instruccin
Secundaria completa
Estudios en Institutos Ahora vamos a codificar esta columna que ya es de tipo texto.
Estudios Universitarios
Titulado
Maestra
Doctorado o equivalente
Otras especializaciones
b) Copie los datos Tiempo de Serv. , columna C4, hacia la columna C9. Qu ocurre con el nombre de esta nueva variable?
c) Obtenga una nueva hoja que contenga a todos los empleados cuyo tiempo total de trabajo (tiempo de servicio en la tienda ms experiencia previa) sea mayor o igual a 18 aos. <Data> - <Code> - <Text to Text> A continuacin debemos llenar los datos segn se indica en la siguiente figura.
d) Si el propietario de la tienda decide premiar con un bsico a todos los empleados mayores de 40 aos, a cuntos y a quines debe premiar?. Extraiga hacia una nueva hoja a los que cumplen dicha condicin.
b) Esta pregunta podemos resolverla de varias maneras. Usemos la siguiente: Seleccionemos la columna C4, haciendo clic en su etiqueta Copiamos la columna haciendo clic en el botn Hagamos clic en la etiqueta C9
Solucin a) Para resolver esta pregunta debemos cambiar el tipo de datos de Numrico a Texto: Para ello use la siguiente secuencia: <Data> - <Change data type> - <Numeric to Text>
Pegamos lo copiado usando el botn 0 1 2 * Sin datos Dos niveles Un nivel Sin stano
Nro. stano
Nuevo Cdigo
Dejamos el nombre de la nueva hoja como est y en <Condition> pondremos 'Tpo. Serv.'>=18
Ejemplo 06
La inmobiliaria Hogar dulce Hogar est interesada en realizar un estudio sobre el monto de rebaja que experimenta el precio de sus inmuebles entre el momento en que el cliente consulta y el precio final de contrato. Una primera posibilidad de estudio es extraer y separar de su base de datos InmbHogar.Mtw, a todos aquellos que adquieren el inmueble al mismo precio de consulta y los que solicitan un descuento. Use el Minitab para resolver esta inquietud.
De aquellos que compraron sin descuento, imprima en pantalla los siguientes datos: Precio de Venta, Nro. de baos y Capacidad de la cochera
Solucin:
Para ello debemos hacer uso de la opcin <Code> del comando <Data>. La siguiente ventana muestra los datos que se debe ingresar para obtener lo pedido. En <Code data from column> ingresamos la columna C6 Stano. En <Into columns> ingresamos la columna que debe contener el Nuevo cdigo En los siguientes espacios ingresamos los datos de la tabla Hacemos clic en <Ok> para obtener los resultados.
Ejemplo 07
Si no estuviera abierto el archivo InmbHogar.Mtw, vuelva a abrirlo. Vamos a codificar la columna Stano de acuerdo a la siguiente tabla:
Este es el primer comando que permite realizar una gran diversidad de tipos de clculos estadsticos. Podemos realizar clculos estadsticos por fila o por columna; podemos generar un conjunto de datos numricos o de tipo fecha; igualmente podemos obtener distribuciones de probabilidad y evaluar probabilidades; y si an el clculo que debemos realizar no puede ser resuelto por la va de comandos, podemos hacer uso de la calculadora. <Calculator>
Nota: Mucho de estos clculos se pueden realizar tambin mediante el lenguaje de comandos ingresados en la Ventana de Sesin, al estar activado el modo de ingreso de comandos. Recuerde que para activar este modo debe hacer clic primero en la Ventana de Sesin y luego usar <Editor> - <Enable Command Language>.
Permite realizar una serie de operaciones aritmticas sobre los datos de la hoja. Estos clculos pueden incluir el uso de una o ms funciones aritmticas, trigonomtricas, estadsticas, de fecha/hora, estadistica por fila, as como ordenar columnas.
<Column Statistics..>Esta es la primera opcin del Minitab que permite obtener un conjunto de resultados estadsticos sobre una determinada columna. Se puede obtener el total, la media, la desviacin estndar, rango, el valor mximo, valor mnimo, la mediana, la suma de los cuadrados, etc. En cada operacin slo se puede calcular un estadstico.
<Row Statistic...>
Como en el caso anterior, permite obtener estadsticos por fila. Un estadstico de los mencionados en la opcin anterior, por columna. Genera una variable estandarizada centrada en la media. Es til en el caso de la distribucin normal, para obtener Z con distribucin normal (0, 1) y en general para resolver inferencia estadstica
<Standardize>
En la figura anterior podemos observar que se puede generar conjunto simple de nmeros <Simple Set of Numbers...>, tales como 0, 1, 2, 3, ... 7, 13, 19, 25, ...
Igualmente se puede generar un conjunto arbitrario de datos numricos usando la opcin <Arbitrary Set of Numbers>.
Si desea ingresar una columna de datos literales, como nombre de meses, productos, personas, etc. use <Text Values>.
<Set Base>
Permite ingresar una semilla para la generacin de una nueva secuencia de nmeros aleatorios.
<Random Data>
Permite generar diversos tipos de datos aleatorios: Binomiales, de tipo Poisson, Normales, Beta, etc.
<Matrices>
<Probability Distributions>
Permite construir una distribucin de probabilidades sea Binomial, Poisson, Entero, Normal, Exponencial, Cauchy, etc.
La siguiente figura muestra las diferentes opciones que tiene estas dos opciones.
Con el <Calculator> podemos realizar diversos tipos de operaciones aritmticas con las columnas de la hoja y dejar el resultado en una nueva columna o en la misma; se puede almacenar el resultado en una variable, cuyo valor se guarda en una nueva columna disponible. En las expresiones aritmticas que use se pueden incluir diversos tipos de funciones soportadas por el Minitab.
visualizar en el archivo LDistrib01.Mtw. Queremos calcular la varianza de X, sabiendo que V(X) = E(X) [E(X)].
<Ok>
Ver que el resultado est en R que es el nombre que el Minitab le asigna a la primera celda de la primera columna disponible y que se encuentra a la derecha de los datos.
Observacin: Si en lugar de R hubiramos usado K1, el valor sera almacenado en esta variable y no en una celda de Minitab. Es ms conveniente esta modalidad ya que si ms tarde usa dicha columna, el valor de R se perder.
Vamos a calcular la varianza de una manera detallada, usando columnas de trabajo. Para ello debemos calcular en C3 el producto de X*P(X = x), para luego calcular la suma con SUM(C3), que ser igual a E[X]. Del mismo modo calculemos en C4 el producto X*X*P(X = x), para luego calcular SUM(C4), que representar E[X]. Finalmente obtendremos V[X] = E[X] (E[X]) y el resultado lo guardaremos en una variable cualquiera como R. Para visualizar el valor de K1, se debe usar: <Data> - <Display data>
Paso 02: Calcularemos el producto de X por P(X = X). Usemos la siguiente secuencia Nota: 1. Otra forma de calcular la varianza directamente, sin usar columnas de trabajo del la hoja es: 2. <Calc>-<Calculator> En <Store results> SUM(C1*C1*C2)-SUM(C1*C2)**2. Luego <Ok> V en <Expression> digitar la expresin:
<Calc> - <Calculator>.
En <Expression> ingrese la operacin: X*P(X=x) Seleccione la celda del lado izquierdo en lugar de digitar
<Ok> 3. Si construye una expresin aritmtica como la anterior, es mejor usar la etiqueta de la columna en lugar del nombre complementario, salvo que la use seleccionando y no digitando.
Paso 03: Ahora calcularemos X por P(X = x). Usemos la siguiente secuencia:
<Calc> - <Calculator>
<Ok>
Pamela 16 10 7 2 12 2. Obtener el porcentaje de faltas en la columna C3 <Calc> - <Calculator>) Ingresamos C3 para guardar el resultado del clculo <Ok> En <Expresin> ingresamos C2/Sum(C2) Usamos la calculadora: Ingresamos el nombre de la columna C3: Porcentaje. 25 18 9 12 4 13 8 16 7 24 18 14 6 17 4. Grabe su hoja con el nombre Faltas.mtw 3. Ordene todas las columnas alfabticamente(por la columna C1)
12
directamente
Carlos
Nota: 1. Por supuesto que tambin puede ingresarlos 2. La primera columna tambin puede ingresar usando la secuencia
Miguel
Sandra
<Calc> - <Make Patterned Data> - <Text Values> y en el recuadro Text Values digitar los nombres separados por un espacio en blanco, aunque su tamao es limitado y su uso se remite slo a datos de texto que no tienen espacios en blanco.
Felipe
Alonso
Karla
Yacole
Baslavi
Isabel
Lorena
Mariella
Eduardo
Mario
Rodrigo
Sandra
Victor
Enrique
James
Alvaro
Vamos a crear una hoja de trabajo que contenga el ingreso mensual, en miles de dlares, que una compaa exportadora obtuvo durante los aos 1991 a 2002. La columna C1 contendr los meses, las columnas C2 hasta C13 los aos.
Solucin Abra una nueva hoja de trabajo Ingreso de los meses: <Calc> - <Make Patterned Data> En <Store patterned data in> ingrese C1
<Ok>
Seleccionamos 12 columnas haciendo clic debajo de la etiqueta de la columna C2 y arrastrando hasta la columna C13
Ahora vamos a generar supuestamente las ventas de un determinado producto durante todos los meses de todos los aos.
<Calc> - <Random Data> - <Integer> En <Generate> 12. En <Store in Columns> C2 C12. En <Minimum Value> 230. En <Maximum Value> 980.
Este es uno de los comandos que caracteriza al Minitab y que a la vez lo diferencia respecto a una hoja de clculo como el MS Excel. Y es el ms importante por cuanto nos permite obtener un conjunto de resultados que pertenecen a la Estadstica Descriptiva as como la Estadstica Inferencial.
Grabe la hoja con el nombre de Ventas A continuacin pasamos a describir sus opciones muy brevemente:
Hasta aqu hemos querido presentar las diversas opciones de los comandos de la barra de Men. Para fijar ideas hemos desarrollado algunos ejemplos propios de cada comando y sus respectivas opciones. Completaremos ahora el estudio de los comandos del Minitab slo mencionndolos con un breve comentario para luego realizar aplicaciones que requieran el uso de cualquiera de sus opciones.
<Basic Statistics>
Permite obtener un conjunto de indicadores estadsticos como la media, mediana, desviacin estndar, mximo, mnimo, cuartiles. Igualmente permite obtener intervalo de confianza de varios modelos, realizar diversas pruebas de hiptesis, correlacin y pruebas de normalizacin. <Regression> Realiza anlisis de regresin lineal de mltiples variables; anlisis bietpico, estimacin y ploteo de residuales y diversas formas de grficos.
Permite realizar anlisis de varianza con diferentes formas de acceder al modelo, enfocado desde el punto de vista del diseo de experimentos.
<Bar Chart>
<DOE>
Permite realizar diseo de experimentos para el estudio en forma simultnea de varios factores.
<Control Charts>
<Multivariate>
Realiza anlisis de componentes principales, anlisis factorial, anlisis discriminante, de conglomerdos en sus dos formas.
<Time
Series>
Realiza anlisis de series de tiempo: anlisis de tendencias, descomposicin, promedios mviles, alizamiento. Tambin realiza autocorrelacin, ARIMA, etc.
<Tables>
Permite realizar tabulacin cruzada, prueba chi-cuadrado, anlisis de correspondencia simple y mltiple. sobre procedimientos estadsticos no-
<Nonparametrics>
<Power and Simple size> Permite realizar clculos sobre la potencia y tamao de muestra para ejecutar anlisis prospectivos y retrospectivos.
En los prximos captulos tendremos muchas oportunidades para practicar el uso de cada una de las opciones del comando STAT.
Este comando dispone de una gran cantidad de modelos diferentes grficos y ploteos para la diversidad de estimadores y mltiples pruebas realizadas sobre un conjunto de datos. A continuacin mencionaremos los ms importantes.
Entre sus principales opciones tenemos: <Contour Plot...> Plotea grfico de contorno al estilo de curvas de nivel, como grficos bidimensionales definido por tres variables X, Y, Z. <3D Scatter Plot> <DotPlot> Permite la construccin de grficos tridimensionales
<Scatterplot...>
<Matrix Plot...>
Traza diversas formas de grficos de una variable(Y) vs otra(X) Visualiza puntos por cada observacin a lo largo del Eje X. Si hubieran ms de una ocurrencia, sobrepone los puntos.
<Pie Chart...>
Permite construir grficos de tipo torta con una serie de opciones disponibles. Si se hace click en la Ventana de Sesin y luego se activa este comando se puede usar
Si desea usar la ventana de sesin para ingresar comandos en modo Batch. Para ello, primero debe hacer clic en la ventana respectiva.
Este comando permite el manejo de columnas sea para definir su formato (nmero de decimales), amplitud, insertar filas o columnas as como tambin mover columnas.
1. Uso de <Tally> para la obtencin de estadsticas descriptivas 2. Use de <Sort> para el ordenamiento de datos 3. Grficos de tipo <Plot> , <Chart> Configuracin de la plantilla usada para la construccin de grficos 4. Configuracin de la plantilla de grficos. Opcin <Layout> 5. Codificacin de variables 6. Grficos circulares(Pie Chart) 7. Diagrama de cajas 8. Introduccin a Regresin
Usaremos
Permite definir el nmero de decimales, si la columna debe ser numrica, de tipo texto o fecha.
<Editor> - <Column>
Si de contar se trata, usaremos Tally en Minitab. Podemos contar datos numricos y tambin literales. Esta opcin determina la frecuencia de veces que un dato u observacin se presenta en el grupo.
Como hemos visto antes, esta opcin se encuentra dentro de las opciones de <Table>, en el comando <Stat> y nos permite la obtener estadsticas sobre la
frecuencia absoluta
frecuencias relativas
Ejemplo 1
El departamento de Admisin de la Universidad de Amazonas realiz una encuesta a los alumnos ingresantes del ao 1999. A cada uno de ellos de ellos se le present un cuestionario de 10 preguntas. La ltima columna contiene el tipo de movilidad con el cual se dirige a la Universidad: 1: Movilidad propia; 0: Vehculo pblico. Las respuestas obtenidas, se muestran en el archivo Ingre99.Mtw.
Con la finalidad de detectar algn comportamiento respecto a los resultados del ao anterior, se decidi realizar un estudio estadstico descriptivo de estos datos. En Variables digitamos Edad
A continuacin trataremos de plantear una serie de preguntas y las resolveremos usando las diversas herramientas que nos ofrece el Minitab.
1. Cmo obtener una distribucin de frecuencias por edad? Cuntos alumnos son de sexo masculino?. Cul es el porcentaje de estudiantes mujeres?. Podramos obtener el total de alumnos que eligieron una determinada facultad?
La solucin a este ejercicio lo haremos usando la opcin <Tally> que est dentro de <Tables>, del comando <Stat> el cual permitir dar respuesta a las preguntas.
Variables: Sexo
<Ok>
Display: Counts
<Ok>
Podemos pedir que nos muestre porcentajes (frecuencia relativa) o total acumulado.
En muchas ocasiones el clculo que debemos realizar requiere que los datos estn ordenados.
En este caso slo cambiamos Display, donde activamos Percents. La secuencia es la siguiente:
Para resolver todo problema de ordenamiento el Minitab dispone de la opcin <Sort> que se encuentra dentro del comando <Data>.
En la ventana de la derecha se muestra los recuadros que debemos llenar para que Minitab pueda ordenar nuestros datos.
<Ok> En <Sort columns> ingresaremos la lista de las columnas (variables) a ser ordenadas.
<Stat>-<Tables> - <Tally>
En los cuadros de <By column:> debemos ingresar la columna que determina el criterio de ordenamiento. El nivel de ordenamiento se define de acuerdo a esta lista. Se puede ordenar hasta por cuatro columnas.
En <Store sorted columns> debemos ingresar las columnas donde debemos guardar los resultados ordenados. Paso 02:
Para ver su aplicacin desarrollemos el siguiente ejemplo Debemos ordenar los datos por Facultad. Para ello usamos la siguiente secuencia:
Ejemplo 2
<Manip> - <Sort> En la ventana siguiente se debe ingresar la lista de las columnas sujetas al ordenamiento. Como vamos a ordenar toda la tabla, en <Sort column(s)> ingresamos todas las columnas. Para ello podemos seleccionar todas y luego hacer clic en botn <Select>, como se muestra en la siguiente figura:
Prosigamos con los datos del ejemplo anterior. Si el orden de importancia de las facultades histricamente est determinado por el porcentaje de postulantes a cada una de ellas, cuntos alumnos y en qu porcentaje eligieron las primeras dos facultades de mayor importancia?
Suponga que el orden de importancia viene dado por la siguiente secuencia: Medicina, Biotecnia, Biologa y Agricultura.
Solucin
Si Ud. Observa los datos ver que no se encuentran ordenados por facultades. Esto implica que debemos hacer uso de la opcin SORT.
Paso 01.
Puesto que al ordenar los datos sobre la misma hoja, se va a modificar la disposicin original, o en el peor de los casos, podemos perder algunos datos, por seguridad vamos a abrir una nueva hoja de trabajo. Para ello usemos la siguiente secuencia:
<File> - <New> - <Minitab Worksheet> -<Ok> Como debemos ordenar por facultad, en <Store sorted column(s) in:> ingresamos C1C10
*** Recuerde que debe copiar todos los datos hacia esta nueva hoja ***
Ahora debemos decirle al Minitab que queremos que ordene por Facultad, para ello en la primera lnea de <Sort by column:> ingresamos Facultad.
Grfico de Histograma
Puesto que un histograma de frecuencias necesita el rango, nmero de clases, amplitud, etc. primero obtendremos estos resultados.
*** Observe que puede ordenar por varias columnas a la vez Paso 01: Cargar el archivo DatObs.mtw del disco duro *** Paso 02. Determinacin de estos valores usando <Stat>
***
*** Podramos ordenar por Sexo, por Facultad, por Colegio y por edad
Ahora debemos obtener frecuencias absolutas y porcentuales. Para ello usamos <Tally>. La secuencia es la siguiente:
<Ok>
En la ventana siguiente ingrese la columna Datos o C1. Hacemos clic en <Statistics> para pedirle las estadsticas que deseamos calcular. En este caso deben quedar activadas Maximum, Minimum, Range y N total, como se muestra en la siguiente figura.
En muchos casos el comportamiento de los datos o la informacin obtenida a partir de ella, puede ser rpidamente comprendida si los resultados cuantitativos se ven apoyados con una o ms grficas del mismo. El Minitab proporciona una gran cantidad de tipos de grficos para resolver diferentes situaciones estadsticas.
A continuacin pasamos a estudiar algunos tipos de grficos que pueden ser usados en la Estadstica Descriptiva.
Datos
50
34.16
72.24
38.08
De acuerdo a los resultados anteriores, el lmite inferior del primer intervalo es 34.16; el lmite superior del ltimo intervalo es 74.24; el rango es 38.08 y el total de datos es n = 50.
La amplitud de clase lo encontramos dividiendo el Rango entre el nmero de intervalos de clase; en este caso, entre 8; con lo que obtenemos 4.76 como amplitud.
<Graph> - <Histogram>
En la ventana de dilogo que se muestra, se selecciona <Simple> y hacemos Clic en <Ok>. En la siguiente ventana, ingrese la variable como se muestra en la figura de la derecha. Observacin importante:
En el grfico podemos apreciar que en efecto hay 8 intervalos pero se muestra los puntos medios y no los lmites inferior y superior de cada intervalo. Ms adelante veremos que, cuando se maneja datos agrupados y se desea construir una tabla de frecuencias, se puede hacer a partir del histograma obtenido.
Hacemos clic en <Data View> y luego en la ficha <Display> seleccionamos una opcin del conjunto:
Usaremos la opcin ScatterPlot cada vez que se desee obtener un grfico que relacione una variable contra otra. Por ejemplo, en los datos que estamos usando, nos interesara saber cmo se comporta el total de crditos en relacin a la edad de los alumnos.
Ejemplo 3
Podramos obtener algn tipo de grfico que nos permita visualizar la relacin que hay entre la variable Edad y la variable Crditos del archivo Ingre99.mtw?
La opcin Project lines muestra la grfica de las variables en forma de lneas verticales, lo que nos permite comparar el nmero de crditos de los alumnos de acuerdo a la edad.
Comenzamos abriendo el archivo Ingre99.mtw. Graficar una relacin entre dos variables significa realizar un cruce entre ellas. Para ello haremos uso de la grfica de tipo PLOT. Luego de haber completado su seleccin, haga clic en <Ok>
Plotearemos las variables Edad y Crditos de los alumnos de la base de datos Ingre99.mtw. La secuencia <Graph> - <ScatterPlot> nos genera la ventana de la izquierda. Seleccionamos <Simple> y hacemos clic en <Ok> para pasar a la siguiente ventana.
Recomendamos que pruebe con las otras opciones y vea cul se adapta a sus exigencias.
En el grfico observe que hay una cantidad de crditos correspondiente al valor de las edades. Ms crditos llevan los alumnos entre las edades 18 y20.
Ubicaremos la variable Edad en el Eje X y Crditos en el eje Y. Para ello es suficiente hacer doble clic en Crditos primero y en Edad despus.
Nota:
Esta es tambin una de las formas clsicas de representar grficamente una distribucin de frecuencias
Y qu tipo de grfico se habra mostrado si hubiramos seleccionado en < Display> Symbol? El Minitab ofrece una diversidad de grficos de tipo Chart que pueden ser usados para visualizar nuestros datos.
La siguiente figura responde a esta pregunta. Podemos obtener Charts de barras, de lneas, de reas, de proyecciones y de smbolos. Estas opciones son los equivalentes a los grficos de tipo ScatterPlot.
Sin embargo en este caso, el tipo de grfico Chart se fundamenta en aquello que se quiere graficar:
Puede graficarse como variable a la frecuencia de los datos Puede graficarse como variable a la suma de los datos, la media, mediana, desviacin estndar, etc.
Ejemplo 4
Obtener una grfica de tipo Chart para las mismas variables del ejemplo anterior. Primero graficaremos slo la variable Edad.
Observe la densidad de los datos en cada valor de la variable Edad. En la grfica se muestra algunos valores del nmero de crditos.
Solucin
Podramos decir que este tipo de grfico nos permite observar la densidad de los datos por cada cambio en la variable ubicada en el Eje X.
Al usar la secuencia <Graph> - <Bar Chart> obtenemos la siguiente ventana del lado izquierdo. Luego de hacer clic en <Ok pasamos a la ventana que se muestra, donde completamos los datos segn se muestra en la derecha.
Ejercicio
Use la secuencia: <Graph> - <Bar Chart > - <Cluster> - <Ok>. Como variables categricas elija Sexo y Edad. Haga clic en <Multiple graphs>. En <By variables with groups in separate panels> ingrese Facultad. Luego <Ok> y <Ok>. Puede analizar los grficos resultants?
Qu ocurre si vuelve a graficar pero ahora hace clic en <Data View> y elige Project Line?
Podramos decir que la mayor parte de los alumnos tienen entre 18 y 19 aos.
Vuelva a usar la secuencia <Graph> - <Bar Chart>. De las opciones de <Bars represent> seleccione <A function of a variable>. Haga clic en <Cluster> (segundo cuadro). Con ello logra obtener una ventana como la que se muestra. Complete segn se indica para graficar el crdito por edad.
Solucin
1.
<Graph> - <Bar Chart> - <Ok> En variables categricas ingrese Hrs Est y Hrs TV. Luego haga clic en <Ok>.
Por lo general, se construye grficos de una variable en relacin a otra. La variable determinante, es Y, y la variable X hace referencia a la categora de la distribucin y en una relacin lineal, constituye la variable independiente.
En <Multiple Graphs> seleccione <In separate panels of a same graph>. Luego <Ok>
Qu ocurre si se elige <On separate graphs>? Qu ocurre si en <Multiple graphs> se activa la casilla <Same Y>.
Nota: Compare las horas dedicadas a estudio(Hrs. Est) o TV (Hrs. TV) entre los varones y las mujeres, que mostramos en las siguientes figuras. Observe tambin que, usando el tipo de grfico <Chart> podemos visualizar en una sola ventana dos o ms grficos. En la tercera figura hemos superpuesto las Horas de TV (en color negro slido) a las Horas de estudio.
2.
En este caso debemos ingresar informacin de las dos variables y usaremos como variable categrica a la variable Edad.
Ingrese los datos segn se muestra en la siguiente ventana. De manera que el Minitab ofrece a sus usuarios dos modos de operacin o de interfase:
Por la dificultad que tiene el uso de la ventana Sesin o de Comandos y por el natural apego de todo usuario de la computacin al manejo de ventanas, esta seccin la desarrollaremos en una pgina avanzada .
Una grfica de puntos permite representar a cada uno de los datos mediante un punto en el Eje X. Si una determinada observacin se repitiera, los puntos se visualizarn uno sobre otro; igualmente, si hubiera observaciones muy prximas, los puntos se sobrepondran uno sobre otro. Ejercicio
Se puede observar que un gran porcentaje de alumnos acumulan crditos que van desde 80 hasta 130. Y que, por otro lado, el conjunto de datos observados presenta dos grupos fuera de lo normal, fuera de contexto, son los outliers. Si se eliminan estos datos incluyendo los que estn alrededor de 70, podramos decir que los crditos acumulados se encuentran normalmente distribuidos.
Compare grficamente las horas dedicadas al estudio vs horas dedicadas a ver la televisin. Qu conclusiones puede extraer. Quines tienden a ver ms televisin?
Ejemplo 6
Ejercicio
Abra el archivo Ingre99.Mtb . Grafiq uemos primero la variable Edad. Esto lo hacemos mediante: Comente la distribucin de la variable Crditos por el Nmero de hermanos. La grfica se muestra en la siguiente figura.
Comentario: Observamos que el mayor porcentaje de alumnos se concentra entre los 18 y 19 aos, con un sesgo, podramos decir normal, hacia la derecha.
Para construir la nueva columna numrica, a partir de la columna Facultad, de tipo texto, use
5.
Codificacin de variables
Minitab ofrece codificar datos numricos a numricos, datos numricos a texto, de texto a numricos, de texto a texto. Esto por que para efectos de graficar puede ser que para un tipo de grfico determinado, no permita hacerlo con variables de tipo texto o literales.
La ventana que aparece es la que se muestra en la siguiente figura. Complete los datos segn se indica y grafique.
No siempre los datos son numricos. Por ejemplo en el archivo Ingre99.mtw tenemos tres variables que son de tipo carcter: Sexo, Colegio y Facultad. En <Code data form column> ingresamos Facultad
Si bien el Minitab dispone de la opcin <Tally> para obtener estadsticas en cuanto a frecuencia absoluta y relativa de estas variables, sin embargo no se puede obtener un grfico de ellas, excepto de tipo <Chart>.
Pero si bien no podemos disponer de todos los tipos de grficos, s podemos codificar estos datos como variables numricas, como lo veremos en los siguientes ejemplos.
En <Into columns> ingresamos la nueva columna que contendr los cdigos, C11
Ejemplo 7
En <New> ingresamos 1.
Obtener una distribucin grfica de puntos (DotPlot) para las variables Facultad por Sexo.
Solucin
En la siguiente lnea hacemos lo mismo ingresando Biologa y 1 respectivamente. Procedemos de manera similar para Biotecnia, 3 y para Medicina, 4.
Si Ud. intenta hacerlo, al usar <Graph> - <DotPlot> obtendr una lista de variables en las que no se encuentra ninguna de las de tipo literal. En este caso facultad no aparece. Ingrese FacultadNumerico como nombre de la columna C11.
Si pudiramos construir otra columna que contenga un 1 por cada alumno de Agraria, un 2 por cada alumno de Biologa, 3 por cada alumno de Biotecnia y 4 por los alumnos de Medicina, podramos disponer de esta nueva columna, de tal forma que al usar <Graph> <DotPlot> ingresamos Crditos en <Variables> y en <By variables>, ingresamos la nueva columna.
Con esta modificacin nuestra variable Facultad ser FacultadNumerico y estar en la columna C11.
<Graph> - <DotPlot>
Ejemplo 8
Construya un grfico de tipo torta para la variable Facultad.
En Y ingresamos Crditos
Solucin
Este es uno de los tipos de grficos ms conocido junto con los de barra o de lnea. El Minitab dispone de grficos circulares de dos y tres dimensiones.
Vamos a construir grficos circulares tipo torta. Para ello usaremos el archivo Ingre99.
Como la columna C2 contiene la variable Sexo, usamos la secuencia: <Calc> - <Pie Chart>
<Graph> - <Pie Chart>. En la ventana siguiente ingrese la variable Sexo. Haga clic en <Labels>. Vaya a la ficha <Slice labels>. Active todas las opciones de esta ficha.
Para verificar si los porcentajes son los indicados podemos usar <Tally>.
Finalmente
haga
clic
en
<Ok>
Para ello usamos la secuencia: <Stat> - <Tables> - <Tally> - <Variables> C11 . Active todas las opciones. Compare estos porcentajes con los del grfico.
Ejemplo 9
A continuacin haremos uso del Minitab para obtener los medidas de tendencia central, de dispersin y las de posicin que forman parte de la estadstica descriptiva.
Construya otro grfico circular que represente los porcentajes de los datos en cada intervalo.
En <Categories in> ingrese C4. C8. Entre las medidas de tendencia central tenemos:
En
<Frequencies
in>
ingrese
La media aritmtica
Es el valor central de un conjunto de datos Es el valor de mayor frecuencia de repeticin Es la media aplicada luego de eliminar extremos de datos que distorsionan al conjunto. En trminos de notas de 30 alumnos, donde 4 no rindieron la prueba y 5 obtuvieron 20, mientras que los 21 restantes se encuentran alrededor del promedio 12, diramos que la media es afectada por los que no rindieron la prueba.
Nota: Observe esta otra forma de graficar la misma variable usando la opcin <Pie Chart ...>. En este caso hemos hecho clic con el botn derecho sobre el grfico; se ha seleccionado <Edit Pie> y luego hemos ido a la ficha <Explode> y hemos hecho clic en la casilla.
La varianza
La desviacin estndar
El coeficiente de variacin
Con solo apreciar la figura anterior, podemos deducir que el Minitab constituye una buena herramienta de apoyo tanto en el estudio de la Estadstica como en el campo de la investigacin.
Cuartiles.
<Display Descriptive Statistics...>: Aquellas que proporcionan resultados descriptivos propios de una muestra;
Dividen a los datos en cuatro grupos porcentualmente del mismo tamao. El primer cuartil, Q 1, indica que el 25% de los datos tienen valores como mximo a Q 1. El segundo cuartil, Q2representa el 50% de los datos inferiores o iguales a l. Y Q3 representa a los 75% de valores menores o guales a dicho valor.
<Store Descriptive Statistics...>: Los que permiten guardar los resultados en columnas
Las opciones
Deciles: Equivalente a los cuartiles, pero que divide a los datos en 10 grupos iguales.
<1- Sample Z ...> , <1 Sample t >, <2 Sample t> y <Paired t > :
Usemos el minitab
nos permiten realizar procesos de estimacin y prueba de hiptesis para una o dos poblaciones, o realizar anlisis de datos pareados.
Las opciones
nos proporcionan estimaciones a partir de las proporciones muestrales, sobre una o dos poblaciones.
<2 Variances ...>: nos permite analizar la razn de variabilidad en el comportamiento de dos poblaciones, a travs de sus varianzas.
Adems de las estadsticas por fila y columna que nos proporciona el comando <Calc>, disponemos del comando <Stat> que en su primera opcin tiene a <Basic Statistics> para proporcionarnos las estadsticas antes mencionadas, visualizndolas en la ventana de sesin, o almacenando en la hoja de trabajo activa.
Las opciones
<Correlation ...> y <Covariance ...>: Variable Prom.Gral. 11.071 0.486 10.150 10.740 11.070 11.550 11.860 Mean StDev Minimum Q1 Median Q3 Maximum
nos proporciona informacin suficiente para un anlisis de regresin y correlacin de los datos.
<Normality test>: Que permite realizar una prueba de hiptesis para examinar si los datos se ajustan a una distribucin normal, proporcionando adems una grfica de tipo Plot. Donde N Mean Median Es la mediana de los datos
Representa el total de observaciones(total de alumnos) Representa la media aritmtica, media o promedio muestral
A continuacin resolveremos algunos ejemplos usando estas herramientas y las otras sern tomadas en cuenta dentro del tema que les corresponde
TrMean Representa la media podada. Hay datos extremos? Lo veremos despus. Desviacin estndar de la muestra. Es la desviacin estndar poblacional(tambin error estndar de la media) Es el mnimo valor de la muestra u observacin Es el mximo valor de los datos Representa el primer cuartil Representa el tercer cuartil
Ejemplo 10
Realice un anlisis descriptivo respecto a la variable Promedio General de los alumnos en el archivo Ingre99.mtw.
Solucin
<Stat> - <Basic Statistics> - <Display Descriptive Statistics> Los 120 alumnos tienen como Promedio General de grupo a 11.071; con una desviacin estndar de 0.486; centrados en 11.070, que es la Mediana El promedio mnimo es 10.15 y el mximo es 11.86.
He aqu los resultados: En base a estos dos ltimos estadsticos de posicin podramos obtener:
Results for: Ingre99.MTW Rango Intercuartlico(RIQ) : La diferencia entre Q3 y Q1; es decir IRQ = Q3 Q1
Fronteras interiores
En la ventana cuyo titulo es Display Descriptive statistics , en el recuadro <Variables> ingresamos la variable Prom. Gral.
Derecho : Q3 + 1.5 RIQ Activamos la opcin <By variables> e ingresamos la variable Sexo en el recuadro.
Fronteras exteriores
Izquierdo: Q1 - 3 RIQ y dentro de esta nueva ventana activamos Hacemos clic en el botn<Graphics> <Graphical summary>. Los resultados fueron:
Derecho : Q3 + 3 RIQ
En los resultados podemos apreciar que Q 1 = 10.74; esto significa que el 25% de los alumnos tienen un promedio mximo de 10.74. Como la mediana es 11.07, entonces el 50% de los promedios no sobrepasan 11.07. a) Por sexo
Del mismo modo, Q3 = 11.55 indica que el 75% de los promedios de los alumnos estn por debajo de 11.55; dicho de otra manera, el 25% de los alumnos tienen un promedio superior a 11.55. Descriptive Statistics: Prom.Gral.
Total Variable Sexo Count Mean SE Mean StDev Variance CoefVar Minimum 80 M 40 11.135 0.0534 10.942 0.0764 0.478 0.228 0.483 0.234 4.29 4.42 10.200 10.150
Nota: Si un dato observado se aparta ms all de las fronteras exteriores, se dice que el dato es un outlier extremo y se representa por 0; en caso contrario se dice que presenta un outlier moderado, en cuyo caso se representa por *. Prom.Gral. F
Ejemplo 11
Ahora obtendremos estadsticas del promedio general por a) sexo y b) por Colegio de procedencia. Adems pediremos que nos muestre el histograma de los datos as como un resumen grfico (Graphical summary).
Variable
Sexo Q1 Prom.Gral. F M
Median Q3
Maximum IQR 10.800 11.230 11.550 11.640 10.390 11.050 11.170 11.860 0.750 0.780
Solucin
Usando la secuencia:
En cuanto a la grfica pedida, en la siguiente figura solo mostramos las ventanas de grfico correspondiente a la variable Sexo = M. La ventana de la izquierda contiene el histograma. El promedio de los varones tienen mayor variacin (CV(X) = 16.424).
Variable Prom.Gral. Priv Pbl 10.445 11.150 11.550 11.640 1.105 10.800 11.070 11.600 11.860 0.800
En ella se puede apreciar que el promedio general de los varones est alrededor de 12. Presenta un sesgo hacia la izquierda; es decir, es asimtrica hacia la izquierda. En cuanto a la segunda ventana podemos encontramos una descripcin grfica as como una cuantitativa del promedio general de los varones. Hay estadsticos como Skewness, Kurtosis, intervalos de confianza, P value, que nos los analizaremos por ahora. Colegio Q1 Median Q3 Maximum IQR
La siguiente figura describe los elementos que conforman una caja en un grfico BoxPlot. La forma de visualizar la caja depende de cmo se pide la grfica.
En la siguiente seccin comentaremos grficos de caja, que se muestra horizontal y en azul, por debajo del histograma.
Total
Prom.Gral. Priv
67
11.093 0.0585
Pbl
53
11.043 0.0685
Prom.Gral. Priv
Le media podada resulta del clculo de la media aritmtica, luego de eliminar estos outliers.
Si la mediana se encuentra muy cerca de la cara lateral derecha (superior en este caso) es por que se acerca al tercer cuartil Q3, en cuyo caso se dice que los datos presentan una asimetra hacia la izquierda.
Ejemplo 12
Solucin
Ante todo usaremos el comando <Stat> - <Basic statistics> - <Ddisplay descriptive ...>
Variable Sexo
N 68 37
N* 12 3
Q1 98.00 13.00
Q3 120.00 118.00
La mediana es
113
Q1 = 95,
Haciendo uso de las frmulas para las fronteras dadas anteriormente, encontramos:
59
155
Fronteras exteriores
23
Nota: Observe los dos outliers que ya habamos observ ado antes. Y son extremos. Observe ahora una grfica BoxPlot para la variable Prom. Gral por el tipo de Movilidad.
En esta figura hemos indicado los elementos del Diagrama de Cajas para el Sexo Femenino.
Como se puede apreciar, los crditos de las alumnas presentan una cierta inclinacin hacia el tercer cuartil; es decir, un gran porcentaje de alumnos tienen promedio por encima de la mediana.
Tambin podemos obtener grficos de caja usando el modo texto del Minitab. Para ello usamos la secuencia de comandos:
<Graph> - <Carcter graphs> - <BoxPlot> A continuacin mostramos tambin los resultados obtenidos al usar esta opcin de Graph, pero en la modalidad de caracteres <Character graph>.
Movilidad
--------------------------
-------------I
I--------
--------------------------
--------------Ahora use la opcin <Stack> e ingrese las dos variables. Obtendr el grfico de la derecha.
----------------I
I--------------
--------------Pedimos a Ud. que obtenga la segunda grfica que representa una grfica de barras agrupadas de tipo <Stack>, una sobre otra. Tomando en cuenta para ello la variable Sexo.
--------+---------+---------+---------+---------+--------Prom.Gral 15.0
9.0
10.5
12.0
13.5
10.
9.
Graficos agrupados
En Minitab podemos trazar la grfica de varias variables en la misma ventana de grficos. Esto permite un anlisis del comportamiento de las mismas a travs del tiempo. Podemos ubicar en el Eje X la variable que permite la generacin de los eventos en las otras variables y visualizar su recorrido por cada cambio de X.
Ejemplo 17
Construya una grfica de barras agrupadas para comparar el total de alumnos por facultad, provenientes de los colegios pblicos y privados.
Ejemplo 28
Abra el archivo DemProd.Mtw que se encuentra en la carpeta de trabajo. Este archivo contiene la demanda de tres tipos de productos: A, B y C de la empresa Producciones Magic S.A. durante los meses del ao 2001.
Seleccione la opcin <Cluster> y luego clic en <Ok>. En <Variables categricas> introduzca las variables Colegio y Facultad. Construya un grfico de lneas conectadas de la demanda de los tres productos.
Hagamos que las barras se muestren de colores diferentes: Para ello, use botn derecho sobre una de las barras. Clic en <Edit bars>. Haga clic en Custom de <Fill pattern> y seleccione el color Lima en <background color>. En la ficha Groups, ingrese la variable Colegio en el recuadro. Luego haga clic en <Ok>. Obtendr el siguiente grfico.
Solucin
Una vez abierto el archivo Ud. ver que la primera columna contiene los meses del ao 2001. Usaremos esta columna para graficar las otras tres columnas.
La secuencia es:
<Graph> - <ScatterPlot> - <With connect line> - <Ok>. de la siguiente ventana, se aprecia aqu.
Una
parte
Como puede apreciar, hemos ingresado la columna de los meses en el Eje X y la demanda de los tres productos, en el Eje Y.
Observe que la variable Mes se ha repetido para las tres variables de producto.
En <Data display> de <Data view> seleccione Connect line. Hagamos una introduccin a las ecuaciones de regresin, que ms tarde las trataremos dentro del concepto de Intervalos Confianza y Pruebas de Hiptesis.
En <Multiple graph> seleccione <Overlaid on the same graph>. Luego <Ok> y <Ok>.
Abra el archivo Regre01.Mtw que se encuentra en su carpeta de trabajo. Este archivo contiene la informacin del Producto Bruto Interno (PBI), el Gasto Pblico (GP) y las Exportaciones (EX) de un determinado pas entre los aos 1984 1996. Respecto a estos datos queremos encontrar la relacin entre el PBI y el GP.
YPBI = D + E GPT + PT
Necesitamos pues obtener mayor informacin. Esto nos lo permite el uso de la regresin lineal. Usando los datos del archivo Regre01.Mtw, obtendremos los estimadores de la ecuacin YPBI = D + E GPT + PT Para ello usemos la siguiente secuencia: <Stat> - <Regression> - <Regression> En la siguiente ventana ingresar a la variable GP como variable predictora(Predictor) y a PBI como la variable explicativa(Response). Ingresando por la opcin <Results> pedimos Ecuacin de regresin, coeficientes, r,... Ingresando por la opcin <Graph> pedimos ploteo de Residuales vs lo estimado. Igualmente podemos almacenar una serie de resultados como los valores de los coeficientes, la tabla de los residuales, etc. Los resultados se dan a continuacin; tambin mostramos la grfica de los residuales vs el PBI ajustados. Regression Analysis
Coeficiente de correlacin U :
Ejemplo 29
Ante todo plotearemos las variables PBI y GP para ver si efectivamente existe una relacin lineal PBI = f(GP) entre ellas. Esto lo haremos usando la siguiente secuencia:
<Graph> - <ScatterPlot>. Seleccione <Wth groups> - <Ok>. Como variable X elegimos a GP y como Y elegimos a PBI. La grfica se muestra en la siguiente figura.
La grfica nos indica que efectivamente existe una relacin entre las variables. Pero qu tan bien queda explicada, PBI por GP; si se incrementa una unidad de GP, en cunto se incrementa el PBI? Qu grado de correlacin existe entre ellas?
Predictor Constant
Coef -439.2
StDev 221.0
T -1.99
P 0.072
GP
13.2908
0.9434
14.09
0.000
S = 139.9
R-Sq = 94.7%
R-Sq(adj) = 94.3%
Analysis of Variance Igualmente podemos almacenar los resultados del clculo regresional para luego graficar los residuales y los valores estimados. Para ello usamos la secuencia: <Stat> - <Regression> - <Regression> . 198.48 0.000
Source
DF
SS
MS
Regression
3887134
3887134
Residual Error
11
215426
19584 En la opcin <Storage> activamos entre otras: Coeficientes, Fitts, residual, X matriz.
Total
12
4102560
Con estos resultados, y suponiendo que los ajustes y residuales se encuentran en la columna C6(fitts1) y C7(resid1), hacemos uso de la siguiente secuencia:
Tambin podemos graficar la recta de ajuste sobre el diagrama de dispersin, usando <Stat> <Regression> - <Fitted Line Plot>.
EJ02. La siguiente tabla muestra el porcentaje de familias con diversos niveles de ahorros durante los aos 1969 y 1994
Ao 1969 Menos de 10,000 10,000 - 14,999 15,000 - 24,999 25,000 - 34,999 35,000 - 49,999 50,000 - 74,999 75,000 - 99,999 Ms de 100,000 17.8 5.0 2.9 24.7 19.1 15.8 15.0 14.3 18.0 19.9 8.8 8.4 6.7 6.9 7.9 8.7
Ao 1994
12.
Ejercicios propuestos
La solucin a Ej01 y Ej02 estn en el archivo Proy03.mpj a) Construya una grfica de histograma para comparar la variacin de los ingresos b) Construir un grfico de torta para ver la distribucin de las personas por nivel de ingreso en los dos aos.
EJ01. La siguiente tabla representa el monto de los ingresos salariales de la poblacin econmicamente activa y el monto de los ahorros en el sistema bancario de un pas entre los aos 1950 a 1996
Ao 57,120
Ingreso
Ahorro
EJ03. Los siguientes datos representan los tiempos de sobrevivencia(en dias) de 50 pacientes aquejados de cncer: 42 45 51 46 340 81 243 63 155 151 37 138 245 377 537 455 776 163 20 1234 201 2970 456 1235 1581 40 3808 1804 719 365 129 45 9 234 1092 827 272 188 54 93 128 822 282 532 102 152 182 2827 2672 28 53 912. Con respecto a estos datos:
2 200,000
1960
2 345,000
a) Construya un cuadro de distribucin de frecuencias b) Calcular los estadsticos media, mediana, desviacin estndar, mximo, mnimo c) Construir el histograma de los datos. Comentar d) Construir un grfico de tipo BoxPlot. Comentar
1970
271,000
1980
3 182,328
1990
3 522,037
1996
3 782,862
EJ04. La siguiente tabla muestra la distribucin de frecuencia de los tiempos (en minutos) que tiene que perder un conductor para desplazarse desde El Jockey Plaza Shopping Center hasta La Avenida Arequipa.
Procedimiento: P1. Abrir el archivo Saldos.mtw. Frec. Rel. Frec. Abs. Ac. Frec. Rel. Ac.
Intervalo de clases
Frec. Abs.
14.9
P2. Obtenr las estadsticas: Mximo, Mnimo, Rango, N total usando: <Stat> - <Basic Statistics> <Display descriptives statistics>. Ingresar la variables Saldo (C1) - <Statistics> - Activar Mean, Maximum, Minimum, Range y N total - <Ok> - <Ok> Rango = 3546
15.0 -
18.9
10
19.0 -
22.9
14
23.0 -
26.9
25
27.0 -
30.9
17
P3. Calcular el nmero de intervalos: k = 1 + 3.323*Log(n) = 1 + 3.323*Log(2074). Segn esto k = 12. Esto es, la tabla a ser construida tendr 12 intervalos. Ahora se debe calcular la amplitud o ancho de cada intervalo (en nuestro caso, todos los intervalos tendrn el mismo ancho). C = Rango / k = 3546 / 12 = 295.5 P3. Construir el histograma usando: <Graph> - <Histogram> - <Simple> - <Ok> - En <Graph variable> ingresar Saldo o C1. Luego <Ok>. Esto nos construye el histograma no importa el nmero de intervalos. Esto se debe ajustar a 12. Paso 4: En el grfico, botn derecho sobre el eje de categoras (Eje X). Hacer clic en <Edit X scale>. En la ficha <Binning>, activar: <CutPoint> y <Midpoint cutpoint positions>. Al interior del recuadro digitar: Min:Max/Amplitud. En nuestro caso: 32:3578/295.5. - <Ok>. Nota:
31.0 -
34.9
35.0 -
38.9
d) Complete la tabla
Esto permite reconstruir el histograma con el nmero de intervalos requerido. Si C tuviera muchos decimales, trate de redondear por exceso a fin de que logre obtener los intervalos deseados. Cuando esto ocurra se tendr expresado el Mnimo y Mximo as como cada uno de los extremos de los 12 intervalos. Si ocurre como en este ejemplo, el extremo del intervalo que falta es suficiente sumar C al extremo inferior.
Observacin
El siguiente ejercicio es particularmente importante ya que nos permite obtener la tabla de distribucin de frecuencia para un conjunto de datos, utilizando los recursos que nos proporciona la grfica de histograma que en este caso recibe el nombre de Histograma de frecuencias.
Paso 5: Colocar la frecuencia absoluta como etiqueta de cada barra: Este es el nico y principal motivo por el que se recurre al grfico. Haga clic con el botn derecho sobre cualquiera de las barras del grfico; seleccione <Add> y luego <Data labels>. Luego <Ok> sin modificar nada en la ventana. Copie en su tabla en la columna fi. Paso 6. Obtener la frecuencia absoluta acumulada: Fi. Haga clic con el botn derecho sobre el eje vertical; hacemos clic en <Edit Y scale>. En la ficha <Type>, activar la casilla Acumulative values cross bins; <Ok>. Paso 7. Obtener la frecuencia relativa: Botn derecho sobre el Eje vertical; en Type seleccionar <Percent> - <Ok>. Desactivar <Acumulative > Paso 8: Obtener la frecuencia relativa acumulada. Repetir el paso 7 pero ahora activar <Acumulative .> - <Ok>.
EJ05. Construya una tabla de distribucin de frecuencias a partir del grfico de histograma y determinando el nmero de intervalos mediante el criterio de Sturges (k = 1 + 3.323Log(n) ).
Solucin
Paso 9. Obtener la marca de clase o punto medio: El punto medio es la semisuma de los lmites inferior y superior de cada intervalo.
No de Int. 179.75 475.25 770.75 1066.25 1361.75 1657.25 1952.75 2248.25 2543.75 2839.25 3134.75 3430.25 113 2074 0.05448409 1 90 1961 0.04291225 0.94551591 101 1871 0.04918033 0.90260366 118 1770 0.05641273 0.85342334 253 1652 0.12246866 0.79701061 288 1399 0.1388621 0.67454195 283 1111 0.1364513 0.53567985 303 828 0.1460945 0.39922854 239 525 0.11523626 0.25313404 100 286 0.04821601 0.13789778 99 186 0.04773385 0.08968177 87 87 0.04194793 0.04194793
Lim. Inf.
Fi
Fi
hi
Hi
32
327.5
327.5
623
623
918.5
918.5
1214
1214
1509.5
1509.5
1805
1805
2100.5
2100.5
2396
2396
2691.5
10
2691.5
2987
11
2987
3282.5
12
3282.5
3578
La Estadstica Descriptiva es una clara demostracin del porqu se deca que la computacin (y por tanto el computador) era una herramienta de apoyo ( y de clculo). Y vaya que s lo es. Hemos visto pasar por el programa Minitab toda la Estadstica Descriptiva. Hemos desarrollado parte de las bondades de este programa para realizar un anlisis de datos descriptivos. Las variables aleatorias constituyen el fundamento de la Estadstica Inferencial. Los modelos matemticos que determinan el comportamiento poblacional de ciertos fenmenos aleatorios, son construidos en base a las variables aleatorias. El programa Minitab es entonces una herramienta eficaz para simular este comportamiento, construyendo escenarios hipotticos o supuestos tericos, que se sustentan en el comportamiento poblacional en el pasado. Por ello el objetivo de este captulo es estudiar las variables aleatorias y los modelos de probabilidad discretos y continuos. Objetivo es tambin utilizar el Minitab para la solucin de todos los problemas de los modelos probabilsticos.
1.
2.
3. a) p(x) 0
Distribucin Binomial.
4. b)
Distribucin Hipergeomtrica
5.
Distribucin Geomtrica
6. Observaciones
Distribucin de Poisson
7.
Distribucin Uniforme
8. 1.
Distribucin Exponencial p(2) = P(X = 2) es la probabilidad de que la variable aleatoria X tome el valor 2
9.
Distribucin Normal
Una variable aleatoria se define como una funcin que hace corresponder nmeros reales a
elementos del Espacio Muestral. Una variable aleatoria puede ser discreta o continua. 4. por La Funcin de Distribucin Acumulada de X es F, definida
5.
Sea x un Experimento, Ensayo o Fenmeno Aleatorio. Sea W el Espacio Muestral asociado al experimento x formado por todos los posibles resultados de la realizacin de dicho experimento. Se dice que X es una Variable Aleatoria, a una funcin tal que, para cada elemento w del espacio tal que x = X(w).
6.
7.
Una variable aleatoria puede ser Discreta o Continua. 8. Del mismo modo, dado F, se puede hallar p(x) tal que
9.
f(x) 0
Caso continuo:
1.
2.
F(x) = P(X x) =
3.
4.
2. El valor esperado de una variable aleatoria es el valor que se espera que ocurra. Virtualmente es un valor promedio de un conjunto de valores de X, que a diferencia de la media aritmtica, estos valores an no han ocurrido. Es desde este punto de vista, una media terica. La media aritmtica es el valor promedio de un conjunto finito de valores de una muestra de tamao n. Esa muestra es una parte de una determinada poblacin, cuyo comportamiento est definido por X. Si X representa a todos los posibles valores que puede tomar los elementos de la poblacin(Espacio Muestral), es lgico afirmar que X defina el comportamiento de la poblacin de donde proviene. Por ello se dice que la media o valor esperado de X constituye la media terica o media poblacional. Este valor no se calcula, se estima a partir de la media muestral.
5.
Supongamos que la variable aleatoria X toma valores 0, 1, 2, ..., 12. Podemos usar la siguiente secuencia: <Calc> - <Make Patterned Data> - <Simple Set of Numbers ...>
V(X) es la varianza de X y se define como A continuacin obtenemos la ventana que se muestra en la siguiente figura.
Nota:
1.
s = V(X)
2.
es la Desviacin Estndar de X
Nota:
En <Store patterned data in:> debemos ingresar la columna donde queremos guardar los valores de X, podra ser C1. En este caso digitaremos C1 En <From first values> ingresamos 0 ya que es el valor inicial de X En <To last values> ingresamos 12, ltimo valor de X. Luego <Ok> Definir la distribucin de probabilidad p(x):
Para usar el Minitab debemos tener los valores de la variable aleatoria X y su correspondiente funcin de probabilidad p(x). En una columna se ingresar el rango de X y en otra los valores de la funcin de probabilidad para cada valor de X. A partir de la cual, se puede obtener la distribucin acumulada o la probabilidad de cualquier evento. Esto ser diferente si X tiene una distribucin conocida, como lo veremos ms adelante.
Si bien podemos ingresar desde el teclado a una columna los valores que toma una variable aleatoria, el programa Minitab dispone de la opcin <Make Patterned Data> del comando <Calc> para generar una secuencia de valores que podramos suponer, son los valores que toma una variable aleatoria.
El Minitab dispone tambin de la opcin <Probability Distributions ...> del comando <Calc> para resolver varias cuestiones relacionadas con la distribucin de probabilidades de X. La siguiente figura muestra la importancia que tiene esta opcin para el tema que estamos desarrollando en el presente captulo.
En primer lugar la franja azul, en el lado derecho indica que podemos usar la opcin <Discrete> para generar en una columna, una distribucin de probabilidad para valores de X. El uso de la opcin <Probability Distributions> nos permite resolver todo tipo de problemas de probabilidad cuando la variable tiene una distribucin conocida sea Binomial, Poisson, Uniforme, Normal, F, Chi Cuadrado, F, etc.
Al ingresar por esta secuencia, podemos disponer de otras opciones que nos permitirn generar los valores de la variable X. Estas opciones se muestran en la presente figura.
Ejemplo:
La siguiente nota regir para todo tipo de distribucin de probabilidad y para los diversos clculos que queramos realizar en ella.
Nota:
Cuando la distribucin de probabilidad de la variable no es conocida, ingresaremos los valores de la variable X y a continuacin en otra columna, sus respectivos valores de probabilidad. Nota respecto a esta ventana:
Luego de seleccionar una de estas opciones, pasaremos a una ventana como la que se muestra en la siguiente figura: 2.
1.
Para obtener p(k) = P(X = k), activaremos <Probability> Para obtener F(k) = P(X k ), activaremos <Cumulative probability>
3. Para obtener k tal que P(X k ) = p, donde p es conocida, activaremos la opcin < Inverse cumulative probability>. Esto permitir obtener k. 4. 5. Para 1 y 2 usaremos <Input constant:> donde ingresaremos valor de k Para 3 usaremos < Input constant: > donde ingresaremos el valor de p.
6. Usaremos <Input column: > toda vez que querramos obtener la distribucin de probabilidad segn 1, 2 3. 7. Si lo anterior se desea guardar en una columna, se usar < Optional storage>.
8. Las opciones <Values in: > y <Probability in: > variar segn las distribuciones. En los casos conocidos, stos requerirn los parmetros de la distribucin.
Y, cmo haremos en los casos en las que no se disponga de una columna de valores de F(x) en el cual se tenga P( X x ) = F(x) y queremos obtener algunos valores probabilsticos?.
Ejemplo 1
La siguiente secuencia ser lo que hagamos a partir de ahora, cada vez que tengamos que encontrar una determinada probabilidad sea para un valor puntual o usando la distribucin acumulada.
Una empresa dedicada a la venta de equipos informticos puede vender diariamente hasta 6 equipos. Sea X es una variable aleatoria que representa el nmero de equipos vendidos diariamente, con funcin de probabilidad definida por
X p(x)
0 0.10
1 0.15
2 0.20
3 0.25
4 0.20
5 0.06
6 0.04
Para los casos en los que la distribucin no es conocida, haremos clic en la opcin <Discrete>, tambin pasando a una ventana similar a la que se muestra en la figura anterior.
a) b)
c) b) Grfica de p(x):
d)
e)
Si Y = 3X 2, obtenga
i)
La distribucin de probabilidad de Y
ii)
La distribucin acumulada de Y
iii)
Para obtener una grfica similar a lo que se acostumbra tener cuando no se dispone de un computador, trazaremos un grfico de tipo Plot. Colocaremos la variable X en el eje X y p(x) estar en el eje Y. Esto lo hacemos usando la siguiente secuencia:
El coeficiente de variacin de Y
v)
Solucin
Para obtener un grfico similar a lo acostumbrado, debemos seleccionar en <Data View > activar Symbol y Project Line. Luego hacemos clic en <Ok>
Ante todo, definamos a la columna C1 como X, a la columna C2 como p(x) = P(X = x) y a la columna C3 como F(x) .
Use el botn derecho para usar Data Labels El grfico se muestra en la figura de la derecha.
Ahora ingresemos los valores de X en C1; y en C2, los valores de p(x). Grfica de F(x):
a) El Minitab no dispone de un comando para obtener la distribucin acumulada cuando la funcin de probabilidad no es conocida. Por ello para obtener F(x) ingresaremos los valores directamente desde el teclado
En este caso usaremos la opcin <Conect Line> de <Data View>, quitando las otras opciones.
c) Que la probabilidad sea, a lo ms, igual a 4, significa que X 4. Esto significa que debemos encontrar P(X 4).
Finalmente, puesto que buscamos P(X 4) ingresamos 4 en < Input constant> Luego de hacer clic en < Ok > obtendremos el resultado en la ventana de Sesin.
Como P(X 4) = F(4), ser suficiente observar que la columna de F(x) en la fila 5, donde X = 4, contiene el valor pedido; es decir P(X 4 ) = 0.90.
Hacemos clic en la opcin <Discrete>, con lo cual pasamos a otra ventana, que se muestra en la siguiente figura:
De manera que en la ventana anterior, en <Store result in variable> debemos ingresar una columna o nombre de una variable donde almacenar el resultado. En la figura anterior se ha digitado pepe. En <Expression > ingresamos la suma de c1 por c2; es decir, SUM(C1*C2). Esto nos dar el valor de E[X] = 2.64. Puesto que la varianza V[X] se define como V[X] = E[X] (E[X]) = podemos usar la expresin SUM(C1*C1*C2) (SUM(C1*C2))**2 Y almacenarlo, por ejemplo en V[X]
Puesto que los valores de la variable X estn en la columna C1, en <Values in:> ingresamos C1. Del mismo modo ingresaremos C2 en < Probability in:>
f)
Ingresemos Y en la columna C6; p(y) en C7; F(y) en C8; E[Y] en C9 y V[Y] en C10.
iv)
Para calcular los valores de Y; la funcin de probabilidad y la distribucin acumulada de Y, ingresaremos las siguientes expresiones mediante la calculadora: v) La siguiente figura muestra la grfica de la distribucin de probabilidad de Y
Para Y
3*C1 2
C2
SUM(C6*C7)
SUM(C6*C6*C7) (SUM(C6*C7))**2
Solucin
Ingresamos como valor inicial, 0; como valor final, 10. En <In Steps of> debemos ingresar 0.1, que sern los incrementos
Ahora usaremos la calculadora para almacenar en C2, F(x). Esto lo haremos ingresando la expresin:
1 (1/2)**(C1+1)
Esta es una delas distribuciones ms conocidas y utilizadas en el grupo de las distribuciones discretas, por cuanto muchos experimentos o fenmenos que se presentan en el mundo real tienen este comportamiento. Cuando se lanza una moneda, cuando se pregunta si una persona apoya a su presidente, cuando afirmamos que El 75% de los ingresos de los trabajadores se destinan a alimentacin, etc. estamos frente a una poblacin fo rmada por dos grupos: Los que poseen una propiedad y los que no la poseen. De manera que, cuando se extrae un elemento de la misma, ste puede pertenecer al grupo que posee la caracterstica, o no. Muchas otras distribuciones se apoyan en la distribucin binomial.
Para construir la grfica de F(x) usaremos <Plot>, usando la siguiente secuencia: Definicin
Sea X una variable aleatoria discreta. Si se define a X como el Nmero de veces que ocurre xito, con p la probabilidad de xito, al realizar n veces un ensayo que cumple con las condiciones de un Ensayo de Bernoulli, entonces diremos que X tiene distribucin Binomial, con parmetros n y p; lo que se indica por X B(n, p).
Luego haga clic en <Ok>, con lo cual obtendremos la grfica de F, la que se muestra a continuacin.
1. Cada repeticin del experimento se realiza con reposicin. (p es constante). Se lanza una moneda 400 veces. Sea X la variable aleatoria definida como El nmero de veces que sale cara. Puesto que X es una variable binomial, los valores que pueda tomar sern 0, 1, 2, ... , 400.
Supongamos que se tiene una urna conteniendo 8 bolillas blancas y 6 bolillas rojas. Se extrae dos bolillas, una despus de otra. Suponga que estamos interesados en obtener bolilla blanca.
Si la primera bolilla extrada es blanca y sta no se devuelve (sin reposicin), la urna tiene slo 7 de un total de 13, luego la probabilidad de que la segunda sea blanca, es 7/13. Como se ve, la probabilidad de xito ha cambiado, no es constante.
En <Numbers of rows to generate> ingresamos 400 para indicar que queremos 400 valores de la variable. En <Store in columns> ingresamos la columna C1 En <Number of trials> ingresamos 400 En <Probability of success> ingresamos 0.5 (que es la probabilidad de que salga cara).
Por el contrario, si la primera bolilla extrada se devuelve a la urna (con reposicin), la probabilidad de que la segunda sea blanca es 8/14. En este caso, la probabilidad de xito sigue siendo constante. Es esto lo que ocurre en el caso de una variable binomial.
Al
hacer
clic
en
<Ok>
obtendremos
los
valores
para
X.
El Minitab permite resolver problemas de variables aleatorias que tienen una distribucin binomial.
Podemos generar datos aleatorios que tengan Distribucin Binomial para lo cual usamos
<Calc> - <Calculator> En <Store result in variable> ingresamos una columna cualquiera o el nombre de una variable, por ejemplo Carlos. En este caso Minitab ingresar el resultado en la siguiente columna libre
Activar <Probability> para trabajar con la distribucin de p(x) Activar <Cumulative probability> para trabajar con la distribucin acumulada Activar <Inverse cumulative probability> para hallar K, tal que P(X K) = p.
Tericamente sabemos que E[X] = np = 400 (0.5) = 200 En el recuadro <Probability of success> ingresar p.
Seguramente si aumentamos n, la aproximacin ser mayor. Usaremos <Input column> si deseamos generar la distribucin de probabilidad
Nota: En <Optional storage> ingresaremos la columna donde queremos los valores de la distribucin.
Igualmente podemos construir la distribucin Binomial para una columna en la cual se encuentran los valores de la variable. Es decir, si se define a X como el Nmero de xitos obtenidos al repetir un ensayo n veces, teniendo como p la probabilidad de xito, entonces los valores de X sern 0, 1, 2, ..., n.
Si slo deseamos obtener la probabilidad para un determinado evento, P(X = k) el valor de F(a) = P(X a), usaremos la opcin <Input constant>, habiendo activado <Probability> para P(X = k) y <Cumulative probability> para P(X a).
Si se desea obtener el valor de a tal que P(X a) = p, entonces usaremos < Input constant>, habiendo activado <Inverse cumulative probability>.
Para obtener la distribucin de probabilidades en la columna C2, usamos la secuencia: Finalmente haremos clic en <Ok>.
<Calc> - <Probability Distribution> - <Binomial> . Si se trata de obtener la distribucin acumulada, se debe seleccionar < Cumulative probability> en lugar de <Probability>.
En esta ventana
En algunos problemas se debe encontrar un valor de k tal que P(X k ) = a. En ese caso se puede usar la opcin <Inverse cumulative probability> ingresando el valor de la probabilidad, a en el espacio <Input constant>
Paso 2: Puesto que p = 0.40, construiremos la distribucin binomial en C2, usando la secuencia:
Ejemplo 3
Los registros de una pequea compaa de servicios indican que el 40% de las facturas que envan son pagadas despus de la fecha de vencimiento. Construya la distribucin de probabilidad del nmero de facturas pagadas despus de la fecha de vencimiento. Si se envan 14 facturas, cul es la probabilidad de que
a)
b)
c)
Solucin
Sea X la v.a. definida como El nmero de facturas pagadas despus de la fecha de vencimiento.
Primero obtendremos la distribucin de probabilidad de X. Completamos la informacin requerida en la ventana de acuerdo a la figura anterior.
Paso 3: Repita el Paso 2, pero ahora en C3, y activando la opcin Cumulative ...
a) b)
Se pide P(X = 0) lo que se encuentra en C2(1) Se pide P(X 2). Usando la acumulada, P(X 2) = 1 P(X 1) = 1-0.00810 = 0.99190
Paso 1: Generamos valores de 0 a 14 en la columna C1, estos sern los valores de X; usando <Calc>-<Make patterned data> - <Simple of set numbers> ...
c) A lo ms 12 se paguen sin retraso es equivalente a Por lo menos 2 se pagan con retraso. De esta forma, Sea Y: Nmero de cosmticos defectuosos en el grupo de 4. P(A) =1/3 P(B)=2/3 P(D/A)=0.05 P(D/B)=0.10
Otra forma: Si la Si la probabilidad de que se pague con retraso es 0.40, entonces 0.60 ser la probabilidad de que se pague sin retraso. Si definimos a Y como el nmero de facturas que se paga sin retraso, con r = 0.60, su probabilidad de xito, entonces P(Y 12) = 0.9919; se usar los pasos anteriores con p = 0.60 Y tiene distribucin binomial con p la probabilidad de xito.
Ejemplo 4
La produccin diaria de un determinado cosmtico de los Laboratorios MISAB proviene de dos mquinas A y B. La antigedad de la mquina B le permite producir el doble de cosmticos que la mquina A. Sin embargo, el 10% de los cosmticos defectuosos, provienen de la mquina B, mientras que de A provienen slo el 5%. a)
Una venta particular involucra 4 cosmticos seleccionados aleatoriamente del lote de produccin de un da(tomando en cuenta la produccin de ambas mquinas). Si definimos a Y como el nmero de cosmticos defectuosos encontrados en esta venta y si definimos a C = 3Y - 9Y + 2, como el costo de prdida (en soles) por los cosmticos defectuosos en esta venta;
Paso 1: Usando <Calc> - <Make patterned data>, generar los valores de Y: 0, 1, 2, 3, 4 ya que n = 4 en la columna C1
a)
Encuentre el valor esperado de este costo Paso 2: Usando <Calc> - <Probability distributions> - <Binomial> y sabiendo que n = 4 y p = 0.25/3, generamos la distribucin de probabilidad de Y, en C2
b)
Solucin Paso 3: Usando <Calc> - <Make patterned data> generamos la columna C tal que
sin reposicin. Por esta razn, la variable aleatoria definida como el nmero de xitos obtenidos tiene una distribucin Hipergeomtrica.
Paso 4: Usando la calculadora e ingresando en <Expression> C2, obtenemos la distribucin de C, en la columna C4 Definicin
Paso 5: Usando la calculadora e ingresando en <Expression> SUM(C3*C4), obtenemos el costo esperado de C e igual a 2.91666
b) La probabilidad de que el costo de prdida sea inferior a 2 soles es P(C < 2). Al reemplazar C por 3Y- 9Y + 2 obtenemos P(3Y - 9Y < 0 )
Suponga que una cierta poblacin de tamao N, contiene m elementos que poseen determinado atributo o caracterstica. Suponga tambin que de esta poblacin se desea extraer sin reposicin una muestra de n elementos y estamos interesados en saber el nmero de elementos en la muestra que poseen dicho atributo o caracterstica. Si definimos a X como el nmero de elementos con dicho atributo, la probabilidad de obtener xito (que posea dicho atributo) en la primera ser m/N, la probabilidad de que el segundo tambin sea xito ser (m-1)/(N-1) y de que lo sea sabiendo que el primero no lo fue, ser m/(N-1).
Si ahora se elige una muestra de tamao n la variable X as definida tendr Distribucin Hipergeomtrica con parmetros N, m, n; es decir H(N, m, n) cuya funcin de probabilidad viene dada por
Luego P( C < 2 ) = P ( Y 2 ).
Ingresamos 4 en <Number of trials>. En <Probabilty success> ingresamos 0.08333 Observaciones: 1. Para que una variable aleatoria como X tenga distribucin Hipergeomtrica el experimento debe realizarse sin reposicin o sin reemplazamiento. 2. El valor esperado de X es 3. La varianza de X es
4. Distribucin Hipergeomtrica
Hipergeomtrica con Minitab
Este es otro de los modelos contrario al modelo Binomial. Si en este los resultados del experimento son independientes uno de otro, en el caso de una Distribucin Hipergeomtrica los resultados siguientes dependen de los anteriores. Esto ocurre ya que el experimento o fenmeno se realiza
Como en el caso de la Binomial, aqu tambin la Distribucin Hipergeomtrica se encuentra como opcin dentro de <Probability Distribution> del comando <Calc>.
La siguiente figura muestra la ventana que se obtiene despus de ejecutar esta secuencia.
En <Input constant> ingresar valor de X, digamos c, para el cual se quiere obtener la probabilidad individual, P(X = c) o la acumulada P(X c).
Puesto que todos los problemas de variable con distribucin hipergeomtrica son similares, desarrollaremos slo un ejemplo para ilustrar el uso del Minitab en su solucin.
En esta ventana :
Como en el caso de la binomial, se seleccionar < Inverse cumulative probability> si desea obtener un valor particular de X para el cual se conoce su probabilidad acumulada.
Nacionales
Total
Abogados
40
No - Abogados
10
Total
50
N = 100
n = 20 Repitiendo exactamente los mismo pasos del caso a), pero reemplazando los datos r y K, obtenemos, P(X = 12 ) = 0.12160
Caso a) Sea X El nmero de abogados extranjeros Puesto que hay 40 abogados extranjeros, r = 40 Igualmente, K = 12
Como se pide que halla exactamente 12 abogados K = 12 Usando lo dicho en el caso b), obtenemos P(X = 12 ) = 0.02667
Caso d)
Paso 2: Activamos la opcin <Probability> Usando la misma definicin de X del caso c) debemos encontrar P(X 12)
Paso 4: En <Sample size (n)> ingresamos 20 Como P(X 12) = 1 - P( X < 12) = 1 P(X 11)
Paso 6: En <Input constant> ingresamos 12 Usando lo dicho en la solucin del caso c) hallaremos la solucin, excepto que debemos seleccionar la opcin <Cumulative probability>.
Paso 7: <Ok>
5. Distribucin Geomtrica
Suponga que muchos clientes ingresan a una tienda de artefactos. A cada uno de ellos se les ofrece artefacto en particular. La probabilidad de que un cliente compre dicho artefacto es 0.25. Cul ser la probabilidad de que el primer cliente que compre el artefacto sea el vigsimo quinto cliente a quien se le ofreci el producto? Construya la distribucin de probabilidad del nmero de clientes a quienes se les ofreci el producto hasta obtener una venta. Obtenga la grfica de esta distribucin.
Esta distribucin toma en cuenta el nmero de veces que debe repetirse el experimento hasta que ocurra xito por primera vez, en cuyo caso, termina de realizarse el experimento. Aqu slo ocurre xito una sola vez. No interesa cuntos veces se deba repetir el ensayo. Solucin
Definicin
Paso 1: Generemos 25 nmeros de 1 hasta 25 almacenndolo en C1 que ser X. Para ello usamos <Calc> - <Make patterned data> - <Simple set of number> y completamos la ventana con los datos indicados Paso 2: Usando la calculadora, ingresamos en C2, la expresin 0.25*(0.75)**(C1-1) Paso 3: Observando la fila 25 encontramos p(25) = P(X = 25) = 0.000251 Paso 4: La grfica. Usemos la siguiente secuencia
Diremos que una variable aleatoria X tiene distribucin Geomtrica si X representa El nmero de veces que debe repetirse un experimento hasta que ocurra xito por primera vez. En este caso denotaremos por X G(p), donde p, la probabilidad de xito, constituye el parmetro de la distribucin cuya funcin viene dada por
1. El experimento termina cuando ocurre xito por primera vez 2. El valor esperado de X, E(X) = 1/p 3. La varianza de X, V(X) = q/p
Nota:
Ejemplo 6
Esta es una de las distribuciones muy genricas. Usado para aproximar distribuciones binomiales, tiene su importancia en los fenmenos de espera. Junto con la distribucin Exponencial, constituye dos formas de medir el comportamiento de eventos que ocurren en el tiempo y se encuentran en los mbitos de los fenmenos de espera.
Usemos la simulacin:
Definicin
Diremos que la variable aleatoria X tiene distribucin de Poisson, con parmetro l, si su funcin de probabilidad viene dada por
Observaciones
1. Notacin: X P(O) indica que X tiene distribucin de Poisson de parmetro O 2. El valor esperado de X , E(X) = O 3. La varianza de X, V(X) = O 4. Aproximacin por Poisson a una Binomial. Recuerde que cuando el tamao de n es bastante grande o cuando la probabilidad de xito es muy pequea; es decir, cuando n v y np = O (constante) o, equivalentemente, cuando n v y p 0 tal que
Como en las distribuciones anteriores, seleccionamos <Probability> si deseamos trabajar con la funcin de probabilidad, seleccionamos <Cumulative probability> si por el contrario, se desea la distribucin acumulada y se selecciona <Inverse cumulative probability> si deseamos obtener el valor de K conociendo su probabilidad acumulada.
np O entonces . Esto significa que, bajo las condiciones expuestas, un problema Binomial puede ser aproximado por Poisson usando E(X) = np = l
A continuacin se debe ingresar el valor del parmetro, que, como es igual a la media, aqu se pide la media. Use <Input column> si desea generar la distribucin y en <Optional storage> ingrese la columna donde desea colocar los valores de la distribucin.
Si slo desea obtener la probabilidad para un determinado evento, digamos P(X = k) F(a) = P(X a), use la opcin <Input constant>. Si desea encontrar el valor de a, conociendo la probabilidad r, P(X a) = r, entonces digite r para que el Minitab devuelva el valor de a.
Solucin
Solucin
Puesto que el promedio de clientes que llega es de 360 por hora, entonces en promedio llegan 6 por minuto. Sea X la variable que representa el Nmero de clientes que llegan a dicha caja registradora por minuto.
Ante todo, si no se desea generar los valores de probabilidad, es suficiente visualizar el resultado en la ventana de sesin usando la opcin <Input constant>. Para ello usamos la siguiente secuencia:
Puesto que toda cola de espera constituye un modelo de Poisson, en el caso discreto, X tendr distribucin de Poisson, con parmetro l = 6. Segn el problema, debemos encontrar P(X > 8).
Puesto que P(X > 8) = 1 - P(X 8), usaremos Minitab para hallar F(8).
En Minitab, Adems de seleccionar <Cumulative probability> en la ventana de la distribucin de Poisson, debemos ingresar tambin en <Mean> la media 6. Y en <Input constant> el valor 8. Esto nos dar P(X 8) = 0.8472, con lo cual P(X>8) = 0.1528.
Esta es una de las distribuciones para variables aleatorias continuas. Todo fenmeno o experimento que tiene un comportamiento constante, sin variacin; es decir, uniforme, diremos que cae en los mbitos de esta distribucin.
Definicin
Ejemplo 8
Sea X una variable aleatoria continua. Diremos que X est distribuida uniformemente sobre el intervalo (a, b), que constituyen sus parmetros, si su funcin de densidad de probabilidad viene dada por
El nmero medio de clientes que un operador de una caja registradora puede atender es de 360 por hora. Si en momentos de mayor demanda, este operador, realizando su mximo esfuerzo puede atender hasta un mximo de 8, cul es la probabilidad de que a dicha caja lleguen ms clientes de lo que el operador pueda atender?
1.
2.
Active <Inverse cumulative probability> para encontrar un k tal que P(X k) = a. En este caso a ser ingresado usando la opcin <Input constant>
3.
La media o valor esperado de X es En <Lower endpoint> ingrese el extremo inferior del intervalo a X b
La varianza de X es
En Minitab
Usando la secuencia
Use <Input constant> si desea obtener los valores de la distribucin, digitando la columna que contiene los valores de X. Use <Optional storage> si desea almacenar los valores de la distribucin en alguna columna.
Solucin
En esta ventana
Como
entonces
a + b =20 (1)
entonces
Usando Minitab
a)
Esta distribucin define el comportamiento de todo problema que cae en el terreno de los fenmenos de espera. As como la distribucin de Poisson es usado en los mismos fenmenos en trminos de eventos discretos, la distribucin Exponencial se usa cuando los eventos generados constituyen eventos continuos.
En <Lower endpoint> ingresamos 4 Diremos que X es una variable aleatoria continua que se distribuye exponencialmente si su funcin de densidad de probabilidad viene dada por
b) Como Y = 100 + 4X + 3X entonces, aplicando esperanza a cada miembro y usando las propiedades, tenemos: 1. La notacin X E(D) indica que X tiene distribucin exponencial 2. Aqu es importante la funcin de distribucin acumulativa por 4. El valor esperado de X es 5. La varianza de X es 6. Es bueno hacer notar que P(X d r) = 1 F(r) = 1 e-rD 7. Del mismo modo, P(X > r ) = e-rD definida
Con lo cual,
Nota:
Suponga que el administrador de una estacin de expendio de combustible para vehculos est interesado en aumentar sus ingresos diarios. El ha notado que, en horas de mayor demanda, muchos de sus clientes, al ver la cola que se forma esperando ser atendidos en un surtidor, se van a otra estacin. Y este fenmeno se repite varias veces en el da. Puesto que perder un cliente potencial es negativo para sus intereses, decide analizar el problema. La formacin de cola de espera se debe al excesivo tiempo de atencin a cada uno de los clientes. Para medir el tiempo de atencin puede usar la distribucin exponencial, para medir la longitud de cola puede usar la distribucin de Poison. Solucin
Para usar el Minitab con la distribucin Exponencial, usamos la siguiente secuencia: Si el parmetro es 1 entonces f(x) = e , x > 0
-x
<Calc> - <Probability distributions> - <Exponential>. Lo que genera la siguiente ventana: Paso 1: Generar en C1 valores de X de 0 a 50 con incrementos de 0.1 (Calc Make ...)
En <Mean > digitamos 1.0 En <Input column > ingresamos C1 En <Optional storage> ingresamos C2
Minitab no requiere del parmetro sino de la media de la distribucin, que para el caso, es la inversa del parmetro.
Si Ud. compara esta ventana con la que se obtiene para la distribucin de Poisson, ver que la informacin a ser introducida, es la misma en ambas distribuciones. En <Mean > 1.0 - <Input column > C1 En <Optional storage> C3
Esta es una de las distribuciones ms conocidas en la Estadstica. Es una distribucin cuya variable es continua. En todo problema derivado de experimentos donde el nmero de veces que se repite es un nmero suficientemente grande se resuelve en los predios de esta distribucin.
<Graph> - <ScatterPlot>
En Graph 1:
Esta es una de las funciones de distribucin ms importantes en la estadstica tanto en su desarrollo terico como en las aplicaciones.
Para Y ingresamos C2
En Graph 2
Diremos que la variable aleatoria X tiene una distribucin normal con parmetros m y s si su funcin de densidad viene dada por
Para X ingresamos C1
Para Y ingresamos C3
Observaciones
4. La varianza de X es V(X) = V
5.
9. Distribucin Normal
7. Si se define a Z como entonces Z N(0,1), la cual est tabulada y nos permite resolver cualquier problema de probabilidad.
Usemos Minitab para generar un conjunto de valores de X y su correspondiente funcin de densidad. Como la Normal N(0, 1) define casi la totalidad de su rea entre los valores de X que cae en el rango: -3.9 y 3.9, usaremos los siguientes pasos para generarla
<Calc> - <Probability distributions> - <Normal> Paso 1: Generamos en C1 valores desde 3.9 hasta 3.9 con incrementos de 0.01 usando la secuencia <Calc> - <Make patterned data> - <Simple set of numbers> . Valor inicial: -3.9. Valor final: 3.9. Incrementos: 0.01.
Activamos <Probability density> si deseamos usar la funcin de densidad Activamos <Cumulative probability> para trabajar con la acumulada Activamos <Inverse cumulative probability> para obtener un K tal que P(X K ) = p En <Mean> se debe ingresar el valor del parmetro m
activamos
En <mean> digitamos 0
En <Input column> C1
Como en los casos anteriores, se usar <Input constant> para encontrar un valor de probabilidad usando la distribucin acumulada.
En <Option storage> C2
Ejemplo 11
Construya la grfica de la funcin de densidad y acumulativa de X N(0,1) Paso 3: Siguiendo la misma secuencia pero cambiando para <Cumulative probability> y en <Optional sorage> digitamos la columna C3 para obtener en ella la distribucin acumulada.
Solucin
Paso 4: Para la grfica de las dos distribuciones usaremos el grfico de tipo <Plot>.
d) Si en la siguiente semana se asegura vender ms de 11,000 productos, cul es la probabilidad de que en esa semana se venda menos de 12,500 productos?.
Las grficas se muestran a continuacin Si definimos a X como El nmero de productos vendidos por semana entonces podemos decir que X N(10,000, 1500).
a)
Usando Minitab tenemos: Seleccionamos <Cumulative probability> En <Mean> ingresamos 10000; En <Standard desviation> ingresamos 1500; En <Input constant> ingresamos 12000. Clic en <Ok>
Ejemplo 12
Resolveremos el siguiente problema usando Minitab, sin generar valores para la distribucin y luego verificaremos los resultados de las probabilidades con lo que una tabla de normal nos muestre.
Se cree que las ventas de un determinado producto tienen una distribucin normal con promedio igual a 10,000 productos por semana y una desviacin estndar de 1,500 productos por semana.
a)
b)
b) Cuntos productos debe producir a fin de mantener una probabilidad de 97.5% de que la empresa cuente con suficientes existencias para cubrir la demanda semanal?
En Minitab debemos elegir la opcin <Inverse cumulative probability> En <Input constant> ingresamos 0.975
c) Cul es la probabilidad de que la venta semanal de estos productos difiera de la venta promedio, en ms de 1000 productos?
Esto no da como resultado 1.29x10 ; que equivale a 12,900 productos. Pero si se usa la opcin <Optional storage> ingresando una variable, digamos K1, usando la secuencia:
<Manip> - <Display data> y seleccionando K1, veremos que el verdadero resultado es K1 = 12939.9, es coincidente con lo que podamos encontrar usando una tabla de normal tabulada.
c) Definicin
P( | X - m | > 1000) = P(X - m < -1000 ) + P(X - m > 1000) Sea X una variable aleatoria continua. Diremos que X tiene una Distribucin Gamma si funcin de densidad de probabilidad viene dada por
d)
Debemos encontrar F (12000) F(11000) y dividirlo entre ( 1 F(11000) donde es la funcin Gamma.
Para ello sigamos exactamente la misma secuencia de pasos que se hizo en a), para encontrar F(12000).
En ese caso, usaremos la distribucin Gamma para resolver el problema. 3. El valor esperado de X es E(X) = r/a
4.
En Minitab, la distribucin gamma se encuentra como las anteriores distribuciones, en la opcin <Probability distributions> del comando <Calc>.
Puesto que los parmetros son los que determinan el comportamiento de la poblacin, debiramos evaluar a stos, obtener sus nuevos valor es, calcularlos. Sin embargo, en la mayora de los casos, los parmetros no se calculan, slo pueden ser estimados. No es que no se puede calcular; simplemente resulta oneroso en muchos casos; por tiempo, por su costo y por el tamao N de la poblacin.
Como en los casos anteriores, tambin se puede buscar un valor de K para una probabilidad dada tal que P(X k ) = a usando <Inverse acumulative probability>.
Un censo sobre toda la poblacin permitira obtener nuevos valores de los parmetros. Si quisiramos saber el ingreso promedio de todos los trabajadores por sectores deberamos censarlos a todos, a nivel nacional, como se realiza un proceso electoral para elegir al presidente de la repblica. Por todo ello es que la consulta, la encuesta, el muestreo se realiza sobre una parte de la poblacin, sobre una muestra de tamao n. El comportamiento de esta muestra estar determinado por otra variable muestral.
Del mismo modo se ingresar la columna que contiene los valores de X en <Input variable>, o <Input constant> para obtener una probabilidad determinada. El objetivo de este captulo es utilizar el programa Minitab para evaluar estadsticos de la muestra y determinar estimaciones de los parmetros de la poblacin, a travs de las variables muestrales.
El primer parmetro, r se ingresar en <First shape parameter> y en <Second shape parameter> se ingresar el valor del segundo parmetro. En este captulo trataremos los siguientes temas:
Las siguientes figuras muestran la grfica de la funcin de densidad y acumulada de la distribucin Gamma, que tiene como parmetros a r = 2 y a = 0.4. 1. Validez del Teorema del Limite Central
2. Estadsticas muestrales
Vamos a generar 100 valores en la columna C1, de 1 a 100, que indicar el i-simo elemento de la poblacin, de tamao 100; es decir N = 100.
5. Distribucin t de Student
6. Distribucin F de Fisher Paso 1: < Calc > - < Make patterned data > - < Simple of set numbers> Valor inicial: 1 Valor final: 100. Incrementos: 1.
8. Intervalos de Confianza y Prueba de Hiptesis en una poblacin Paso 2: A continuacin, en la columna C2 vamos a generar aleatoriamente las notas vigesimales de 100 alumnos de un determinado colegio particular. Supongamos que las notas van de 05 a 18.
11. Inferencia a cerca de las varianzas poblacionales Esto lo haremos usando la siguiente secuencia:
13. Intervalo de Confianza y Prueba de Hiptesis para la diferencia de proporciones <Calc> - <Random data> - <Integer>
Tomando en cuenta lo dicho lneas arriba, debemos obtener los llamados Estadsticos de la Muestra, que al ser calculados a partir de una muestra, constituyen variables muestralescon una determinada distribucin muestral, como la media muestral de la muestra, la varianza muestral, la proporcin muestral, entre los principales.
Y dice la Estadstica que debemos usar estos Estadsticos Muestrales para estimar los parmetros poblacionales. El fundamento lo encontramos en la Ley de Grandes Nmeros y el Teorema del Lmite Central, dos grandes teoremas de la Estadstica que la fundamentan tericamente.
A continuacin, usaremos el Minitab para comprobar si es cierto que los indicadores muestrales
pueden ser usados para estimar los parmetros poblacionales. <Stat> - <Basic statistics> - <Display descriptive statistics>
La media, 11.92 y la desviacin estndar, 3.892, se muestra en las primeras lneas de la siguiente figura. Las medias por fila, la que se dispone en la columna C8
Las medias por columna (que no se ve) son: 11.0278, 12.5278, 12.2222, 11.2222 y 10.8333, para las 5 muestras.
Paso 6: Calcularemos el promedio de las medias de las muestras , que la llamaremos la media muestral de medias muestrales .
Este valor es 11.5667, como se puede apreciar en la celda C10(3) y en las lneas por encima de la hoja de trabajo y que estn encerradas en una elipse.
Paso 4: Ahora vamos a extraer 5 muestras aleatorias de tamao 36 (n = 36) que las almacenaremos en las columnas C3 C7, de la siguiente manera:
Si tomamos 5 muestras aleatoria de tamao n = 36, la media o promedio de las medias muestrales es 11.5667 y est muy cerca de la media poblacional, 11.9200. Del mismo modo, si tomamos 4 muestras de tamao n = 36, encontramos que su media 11.5667 es la misma que la media de las medias muestrales de tamao 36 y muy cerca de la media poblacional.
Esto nos dice que la media de medias muestrales podra ser tomado como un buen estadstico capaz de ser tomado como valor de la media poblacional. Como un dato adicional, la desviacin poblacional dividida entre la raz cuadrada del tamao de la muestra, n = 5, que es igual a 1.74042, nos da un valor muy cercano a la desviacin estndar de la media de las medias muestrales.
Finalmente, la siguiente figura contiene la grfica de histogramas de los datos poblacionales y la grfica de las medias muestrales.
<Calc> - <Random data> - <Sample from columns> - <Sample 36 rows> Observe que, para un tamao de muestra, n = 36, la grfica (de la derecha) nos da la forma de la campana de Gauss indicndonos que LA DISTRIBUCIN MUESTRAL (eso es lo que representa la columna C8) ) de las medias muestrales tiene una distribucin aproximadamente normal, con parmetros y
Hemos repetido para las otras columnas, de la misma forma (parte de lo cual se muestra en la figura anterior).
100
11.880
12.000
11.867
4.430
0.443
Minimum
Maximum
Q1
Q3
Nota:
Como el valor de la media de cada muestra puede ser considerada como un valor de la media de las medias muestrales, podemos considerar a la media de las medias muestrales como una variable aleatoria, de all su nombre: Variable aleatoria definida como la Media muestral de medias muestrales.
La siguiente grfica prueba nuestra afirmacin. Que cuando n v ; es decir cuando el tamao de la muestra se hace bastante grande, la media muestral de medias muestrales se aproxima a la media poblacional. Y la distribucin de las medias muestrales tiene un comportamiento normal.
El siguiente trabajo de simulacin consiste de una poblacin de 100 alumnos cuyas notas se muestran en la columna C2. Su media (poblacional) y su desviacin estndar (poblacional) se muestran a continuacin, as como un histograma de frecuencias en modo texto. Variable X N 100 Mean 11.880 Median 12.000 TrMean 11.867 StDev 4.430 SE Mean 0.443
Variable X
Minimum 5.000
Maximum 19.000
Q1 8.000
Q3 16.000
Que cuando n v ; es decir cuando el tamao de la muestra se hace bastante grande, la media muestral de medias muestrales se aproxima a la media poblacional. Y la distribucin de las medias muestrales tiene un comportamiento normal.
El siguiente trabajo de simulacin consiste de una poblacin de 100 alumnos cuyas notas se muestran en la columna C2. Su media (poblacional) y su desviacin estndar (poblacional) se muestran a continuacin, as como un histograma de frecuencias en modo texto. TrMean StDev SE Mean
Variable
Mean
Median
Histogram of X N = 100
Midpoint
Count
11 ***********
18 ******************
La primera: Que podemos usar la distribucin normal para resolver problemas poblacionales cuya distribucin es desconocida o no interesa conocerla. Teorizada esta afirmacin, dio origen al Teorema del Lmite Central (TLC) en su forma generalizada.
10
17 *****************
12
11 ***********
14
7 *******
La segunda: Que podemos usar los estadsticos de la muestra para realizar estimaciones sobre el comportamiento poblacional. Teorizado esta afirmacin, dio origen a la Ley de Grandes Nmeros (LGN).
16
12 ************
18
19 *******************
20
5 *****
A continuacin hemos generado 36 muestras de tamao 16 (columnas de 3 a 18) y en la columna C19 hemos obtenido las medias de cada muestra. La media muestral de las medias muestrales obtenidas es 11.5747; la desviacin de la media muestral de medias es 1.0034. (Este resultado es aproximado a la poblacional y 1.003 | 4.4297 / 4.
Ahora nos dedicaremos a presentar los diversos estadsticos de la muestra. Cada uno de los cuales constituyen variables aleatorias muestrales y generan una distribucin de la muestra.
La primera grfica es la distribucin poblacional de las notas. Como es lgico, no tena por qu ser normal. Sin embargo la grfica de las medias muestrales s tiene, aproximadamente, un comportamiento normal, con media 11.5747 y una varianza 1.003.
VARIABLE La media muestral La proporcin muestral La varianza muestral La diferencia de medias muestrales La diferencia de proporciones muestrales
NOTACIN POBLACIONAL P S V P 1 - P2 S1 - S2
Las distribuciones muestrales de estas variables muestrales vienen definidas por su media y varianza, los que se muestran en el siguiente cuadro:
v. m.
Media
Varianza
Observacin importante: En lo sucesivo, cada vez que necesite usar una variable muestral de las mencionadas en la tabla anterior, debe recordar cul es su media y su varianza; es decir, su distribucin.
Solucin
Ahora bien, puesto que para una muestra suficientemente grande ( n > 30), por el Teorema del Limite Central, podemos usar la Distribucin Normal para resolver problemas de distribuciones muestrales, entonces es necesario definir un Z que nos permita transformar una variable muestral,
digamos T con T
a una variable Z N(0, 1). Sea Y: El ingreso promedio diario de trabajadores del sector textil
En este caso, definiremos a Z como Segn los datos: PX = 200; PY = 150; VX = 80 y VY = 80. Debemos encontrar la probabilidad de que la diferencia de medias muestrales sea menor o igual a 10; es decir, .
De manera que, si la variable muestral fuera la diferencia muestral de medias muestrales; es decir,
si
En los siguientes ejemplos usaremos el Minitab para resolver problemas de muestreo y distribuciones muestrales.
como su desviacin estndar, como dijimos en la observacin anterior, se encuentran en la tabla anterior.
Usando de Minitab:
, por el TLC tiene distribucin normal, debemos encontrar su media estndar; es decir, necesitamos y usando por normal.
Las distribuciones muestrales vistas anteriormente son aquellas que se fundamentan en el Teorema del Lmite Central; y podemos aplicar el muestreo probabilstico sobre ellas utilizando la distribucin normal, siempre que el tamao de la muestra sea suficientemente grande; esto es, n t 30.
Sin embargo, nada hemos dicho cuando n < 30. En estos casos, la aplicacin de la distribucin normal, no estara bien fundamentado ya que no cumplira con le Ley de Grandes Nmeros, ni con el Teorema del Lmite Central. Las distribuciones muestrales, cuando el tamao de la muestra es menor a 30, reciben el nombre de Distribuciones Muestrales para muestras pequeas.
Activamos <Cumulative probability>. Entre las distribuciones muestrales para muestras pequeas tenemos: En <Mean> ingresamos 50. En <Standard desviation> digitamos 17.88854 . La distribucin Chi Cuadrado ( La distribucin t de Student La distribucin F de Fisher )
Nota:
Este ejemplo ilustra la forma cmo se puede usar Minitab para resolver todo problema de probabilidad para distribuciones de variables aleatorias muestrales para una o dos poblaciones. Todo se reduce a obtener la media y desviacin estndar de la variable muestral. Y tanto su media
4. La mayora de libros presentan una tabla de la Distribucin complemento El Mintab usa la distribucin acumulada F; con < de la distribucin acumulada; es decir,
usando el .
Donde E(X) = r/D y V(X) = r/D La distribucin Chi-cuadrado en Minitab lo activamos mediante
Sea X una variable aleatoria continua. Diremos que X tiene una distribucin Chi cuadrado con m grados de libertad si su funcin de densidad de probabilidad est dada por La ventana que se obtiene es similar a las distribuciones continuas ya estudiadas.
Esta funcin es un caso especial de la funcin de distribucin Gamma en el cual hacemos D = 1/2 y r = v/2.
Para cualquiera de las opciones comentadas, se deber ingresar el nmero de grados de libertad, v.
Observaciones.
Finalmente, en <Input constant> se ingresar el valor de K, para el cual se desea encontrar la probabilidad, habiendo seleccionado <Cumulative probability>.
1. X es la notacin que emplearemos para afirmar que X tiene una distribucin Chi-cuadrado
Si se selecciona la opcin <Inverse cumulative probability>, entonces en <Input constant se debe ingresar el valor de la probabilidad, p, para el cual queremos encontrar K.
2. v representa el nmero de grados de libertad con el cual se evala los valores de esta distribucin.
a) P(X t 35.172)
b) P(X d 19.021)
e) Encuentre P(X t 30) Como F(38.968) = P( X d 38.968 ) siguiendo la secuencia del caso a) obtenemos F(38.968) = 0.98
Si X
d) Puesto debemos encontrar el valor de K sabiendo que P( X d K ) = 0.975, usaremos la opcin <Inverse cumulative probability>, siguiendo la secuencia:
En la ventana que se obtenga al usar la secuencia <Calc> - <Probability distributions> - <Inverse cumulative probability>
En <Degree of freedom> Ingresamos 23 que son los grado de libertad Con lo cual obtenemos K = 38.0756
; Procedimiento:
28.429 ---------------------
0.20
Como
30
---------------------------
32.007 ---------------------------
f) Obtendremos el valor de K interpolando de forma que nuestro amigo lector fije el procedimiento, si an no lo supiera.
P2. Sea Z1, Z2, ..., Zn una m.a. extrada de una poblacin N(0, 1). Si definimos a T como entonces T
Para ello usamos el siguiente procedimiento: P3. Si las variables aleatorias Xi , i = 1, 2, ..., n son independientes con N(Pi,V i), entonces
Observaciones
es
tal
que
2. Sea X una variable aleatoria con distribucin N(0, 1) y sea V una variable aleatoria
i)
con . Si X y V son independientes, entonces la variable aleatoria es tal que T t(v) 3. Como se puede ver en la figura, la distribucin N(0, 1) es un caso especial de la distribucin t de Student, cuando n es suficientemente grande. es tal que V
ii)
4. Las tablas disponibles presentan valores de t de Student usando la distribucin acumulada por ambas colas; de suerte que, si P(X < t 0 ) = 0.05, con n grados de libertad, debemos buscar en la tabla el valor de t 0 tal que P(X < t0 ) = 0.025
5. Distribucin t - Student
5. En Minitab encontramos los valores de t 0 usando el mismo concepto.
Definicin
6. Como en el caso de la distribucin Chi Cuadrado, cuando los valores de t 0 o el valor de la probabilidad no estuvieran en la tabla, se deber interpolar para encontrar su valor. En el Minitab, los hallaremos de manera directa.
Diremos que la variable aleatoria X tiene distribucin t de Student, con v grados de libertad, si su funcin de densidad de probabilidad viene dada por 7. Si las variables Z y V son independientes con
La siguiente figura muestra dos curvas t de Student con 5 y 15 grados de libertad, aunque los intervalos son diferentes: En el primero (-2, 6) y en el segundo (-6, 6). Entonces la variable aleatoria
8. La siguiente figura muestra la estrecha relacin entre la distribucin N(0, 1) y t(n). Si n v entonces la grfica de t(n) coincide con la grfica de N(0, 1).
9. La afirmacin anterior ratifica la decisin de usar N(0, 1) para resolver problemas de muestreo cuando n t 30 (muestras suficientemente grandes); mientras que si n < , t de Student o F de Debe completarse la informacin ingresando el nmero de grados de libertad en <Degrees of freedom>.
Por otro lado, si se desea encontrar la P(X d K), activando <Cumulative probability> se debe ingresar el valor de K en <Input constant>.
Si por el contrario se desea encontrar el valor de K, tal que P(X d K) = p, con p conocido, se debe activar <Inverse cumulative probability> y en <Input constant> se debe ingresar el valor de K.
T de Student en Minitab
Como en las otras distribuciones, usando <Calc> - <Probability Distributions> ingresamos a la ventana que se muestra a continuacin:
Sea X una variable aleatoria. Diremos que X tiene una Distribucin F de Fisher con n grados en el numerador y m grados en el denominador, si su funcin de densidad de probabilidad viene dada por
Activaremos la primera opcin: <Probability density> si deseamos generar algunos valores de esta distribucin en la columna digitada en <Optional storage>, para los valores de X ingresados en la columna digitada en <Input column>.
La grfica de la funcin de densidad con 25 grados de libertad en el numerador y 10 grados de libertad en el denominador, se da en la siguiente figura.
Sea
Sea
Propiedades
F de Fisher en Minitab
Para activar la ventana de informacin de esta distribucin se debe usar <Calc> - <Probability Distributions> , con la cual ingresamos a la ventana que se muestra a continuacin:
yV
entonces
2. Si X F(n, m) entonces
Si se desea encontrar P(X d 1.12) para X una variable aleatoria que tiene distribucin Chi Cuadrado con 20 grados de libertad en el numerador y 15 grados de libertad en el denominador, llenaremos la ventana anterior como se indica. En esta ventana, si se desea encontrar P(X d 1.12), sabiendo que X F(20, 15), obtendremos 0.5821.
Una vez calculado el estadstico de la muestra estamos en capacidad de usar la teora de la Estimacin para elegir un estimador adecuado que nos permita inferir resultados sobre la poblacin de donde proviene la muestra. Estos estimadores pueden darse de manera puntual o por intervalos. Y para probar estos resultados disponemos de la Prueba de Hiptesis, lo que nos permitir aceptar o rechazar afirmaciones planteadas a priori.
La Estimacin y la Prueba de Hiptesis son los componentes principales de la inferencia estadstica. La teora de la Estimacin comprende un estudio detallado de la bsqueda de unestimador (estadstico de la muestra, para el cual se construye su distribucin muestral),
digamos , del parmetro poblacional . Este estimador puede darse a travs de un valor puntual, Estimador Puntual; por el contrario, puede darse a travs de un intervalo, llamado Intervalo de Confianza. La estadstica nos dar las herramientas necesarias que fundamenten la potencia de este estimador puntual o el nivel de confianza en el caso de la estimacin por intervalo.
Tanto la obtencin del intervalo confidencial como la contrastacin de la Hiptesis, podrn ser realizadas usando la Distribucin Normal, Chi Cuadrado, t de Student o F de Fisher, dependiendo del estimador, del tamao de la muestra y de si es conocida o no la varianza poblacional. La Hiptesis a ser contrastada puede tener alguna de las siguientes formas:
En el mbito del Mtodo Estadstico, se busca un estimador del parmetro poblacional por que se desea comprobar, probar, verificar o contrastar una determinada Afirmacin, Supuesto al cual se le denomina Hiptesis Nula, H0, contra otra Hiptesis llamada Hiptesis de Trabajo o Hiptesis Alternativa, H1, proveniente de los resultados de la Estimacin dando como resultado la Aceptacin o el Rechazo de la Hiptesis Nula. El siguiente esquema nos muestra el Intervalo de Confianza usando la distribucin normal.
si
n > 30
entonces
VC = ZC
Algo ms, si la distribucin que define al estimador fuera t de Student, suponemos que la varianza poblacional es desconocida, en cuyo caso se usa s muestral.
Use la distribucin Chi Cuadrado ya que suponemos que tanto la varianza como la media poblacionales deben ser desconocidos. Para ello use sus respectivos estimadores puntuales.
Del mismo modo, si el clculo de VC debe hacerse por la distribucin Chi Cuadrado o F de Fisher, el valor VC se evala con la definicin correspondiente.
Todo esto nos permite resumir en la siguiente cuando se trata de UNA POBLACION
a) Con varianzas poblacionales conocidas: Use la distribucin normal con el Z apropiado para la diferencia de medias, tal que Z N(0, 1) b) Con varianzas poblacionales desconocidas: i)
NOTA IMPORTANTE
Cuando la suma de los tamaos de muestras, digamos (n = n 1 + n2) sea no mayor a 30: Use la distribucin t de Student estimando apropiadamente la varianza de la diferencia de medias muestrales. En el t calculado usar como grados de libertad a n1 + n2 2. Aqu debe distinguir los estimadores de la varianza de la diferencia de medias cuando las varianza son iguales o diferentes. ii) Cuando la suma de los tamaos de las muestras es mayor o igual a 30: Use la distribucin normal, calculando el Z apropiadamente tal que Z N(0, 1).
Las siguientes notas se debern tomar en cuenta al trabajar con Intervalos de Confianza as como en la Prueba de Hiptesis.
A) Media poblacional
D) Razn de varianzas
1. Si el tamao de muestra es suficientemente grande (n t 30), a) Cuando la varianza poblacional sea conocida, use la distribucin normal, usando el valor de Z tal que Z N(0, 1)
Use la distribucin F de Fisher empleando los estimadores correspondientes a la media y varianza poblacionales con (n-1) y (m-1) grados de libertad en el numerador y denominador, respectivamente.
b) Cuando la varianza poblacional sea desconocida, use el estimador y con ello calcule Z tal que Z N(0, 1)
E) Datos Pareados
c) Si el tamao poblacional N es finita, use lo anterior corrigiendo la desviacin con el factor de correccin para poblaciones finitas(cuando el muestreo se hizo sin reposicin).
a) Cuando n t 30, use la distribucin normal calculando el Z con los estimadores de la media y varianza en datos pareados, tal que Z N(0, 1) b) Cuando n < 30, use la distribucin t de Student, con el estimador de la varianza poblacional para datos pareados.
2. Si el tamao de muestra es pequeo; es decir, si n < 30 use la distribucin t de Student, usando a la varianza muestral como estimador de la varianza poblacional, cuando sta es desconocida.
Use la distribucin normal calculando el Z mediante los estimadores de la proporcin poblacional tal que Z N(0, 1) genera la ventana que se muestra en la siguiente figura
G) Diferencia de proporciones Como se puede apreciar, esa es la ventana que nos permitir obtener Intervalo de Confianza o realizar una Prueba de Hiptesis.
En el caso de una poblacin, primero recordaremos algunos criterios que debe tomarse en cuenta para obtener intervalos de confianza y prueba de hiptesis para luego desarrollar algunos ejemplos usando el Minitab.
Si los datos se han ingresado en una columna de la hoja de trabajo, use la primera opcin e ingrese a ella la columna correspondiente; en caso contrario, use <Summarized data> en ella ingrese el tamao de la muestra y la media de la muestra. En el siguiente cuadro de texto ingrese la desviacin poblacional. Luego haga clic en <Options> y slo ingrese el nivel de confianza. Luego <Ok> y <Ok>.
Como lo comentamos en el captulo II, el Minitab dispone de una categora especial para el estudio de la estimacin de intervalos de confianza y para realizar diversas pruebas de hiptesis.
Adems de ingresar los datos anteriores debe activar la casilla <Perform hypotesis test> y en la ventana de opciones debe seleccionar la forma de la hiptesis alternativa (less tan, not equal o greater tan).
La siguiente figura nos muestra las opciones que tenemos para trabajar con una poblacin tanto para Intervalos de Confianza as como para Pruebas de Hiptesis.
b) Usando el p Value: Esta es la forma tal vez ms sencilla para Aceptar o Rechazar la Hiptesis Nula en una prueba de Docimasia. Por lo general, seguiremos esta metodologa en lo que a Prueba de Hiptesis se refiere.
El p Value
En el caso de la Docimasia o Prueba de Hiptesis, el Minitab da preferencia a la prueba mediante el uso del p value.
2. La secuencia, cuando la varianza poblacional es desconocida Rechazar la Hiptesis Nula si el valor de p es muy pequeo (tiende a 0 digamos, el Mintab usa como lmite); esto es, que sea menor a 0.05
genera una ventana equivalente a la mostrada cuando se usa <1 Sample Z >.
De manera que la informacin a ser proporcionada para una t de Student ser similar que para el caso de una Normal.
Nota Importante:
a) Por la forma tradicional; es decir, obtener un Z calculado y comparar con el que obtenemos a travs del uso de <Inverse Cumulative Probability> de <Probability Distributions> del comando <Calc>, como ya hemos visto.
Ejemplo 3
Suponga que la siguiente data corresponde a los ingresos salariales de 50 trabajadores durante una semana en el cual se sabe que el ingreso promedio es de 680 soles con una desviacin estndar de 36 soles. 631 704 641 625 648 674 678 678 678 683 700 638 670 689 689 710 617 617 729 654 615 663 654 657 642
Puesto que el tamao de la muestra es 50 y es una poblacin, usaremos Z para obtener el Intervalo de Confianza para la media poblacional, lo cual lo haremos usando:
658
670
679
731
710
688
694
665
600
721
<Stat> - Basic statistics> - <1 Sample Z >, que nos lleva a la ventana de la derecha.
747
623
710
669
635
721
689
741
720
670
702
687
706
725
692
Esta ventana, como se puede ver y lo hemos explicado, la usaremos tanto para encontrar el Intervalo de Confianza como para cuando se trate de realizar Pruebas de Hiptesis, en los casos en que se deba usar la distribucin normal.
Obtenga un intervalo de confianza del 95% para la media de los ingresos salariales y sustente una breve interpretacin mediante algunos grficos de inters.
Observe que para obtener el intervalo de confianza es suficiente indicar el nombre de la columna que contiene los datos as como el nivel de confianza ( 1 - D )*100% en <Options>. Por comodidad, supondremos un nivel de confianza del 95%. Naturalmente este es un dato que el investigador debe tomar como supuesto y con el cual plantea su afirmacin el cual se convierte en Hiptesis Nula.
Solucin Completaremos los datos en esta ventana haciendo clic en <Graphs>. La siguiente figura muestra el histograma de frecuencias de los ingresos. Por esta opcin se puede elegir: <Histogram of data>, <Individual value plot> o <BoxPlot>.
En ella podemos apreciar cierto comportamiento normal en la variable. Aqu hemos seleccionado <Individual value plot>.
Usando la secuencia: En la siguiente figura se incluye tambin el intervalo de confianza para la media con el 95% de confianza y desviacin de 36.
<Stat> - <Basic Statistics> - <Display Statistic Descriptive>, podemos encontrar la media y la desviacin muestral de la muestra, cuyo tamao es de 50.
Variable
Mean
StDev SE Mean
95.0 % CI
Salarios
50
676.80
36.07
Como se puede apreciar, en la grfica se indica el intervalo de confianza y el valor puntual de la media muestra. Parece ser y la desviacin poblacional es un buen indicador, que los salarios en la muestra no presentan outliers. Igualmente observe que el valor de la desviacin muestral (36.07)es un buen estimador de 36.
Esto lo podemos verificar grficamente seleccionando esta vez la opcin <Box Plot of Data> de la misma secuencia anterior.
El segmento en rojo representa el Intervalo de Confianza, en el que, como se puede ver, la media muestral se encuentra en el centro.
El grfico se muestra en la figura de la derecha, en el cual, no se presentan ningn outliers; hay homogeneidad de los datos, no hay dispersin y por la gran aproximacin de la media y la mediana, la distribucin de los datos alrededor de estos estadsticos es muy homognea.
Parece ser que los datos presentan una concentracin alrededor de la media. Esto lo deducimos observando la grfica y tomando en cuenta la amplitud del Intervalo de Confianza.
Finalmente apreciemos los resultados de elegir la opcin <Graphical Summary> para lo cual debe seguir la siguiente secuencia: <Stat> - <Basic Statistics> <Graphical summary >
Si volvemos a usar la misma secuencia anterior, excepto que ahora elegimos Histogram of data tendremos la siguiente grfica:
Tomemos los datos del problema anterior. Si el Sindicato de Trabajadores exige un incremento de salarios afirmando que el promedio de los mismos es inferior al valor que le corresponde por el incremento en el costo de vida. Tendr razn el Sindicato?
Solucin
Para responder a esta pregunta debemos realizar una Prueba de Hiptesis. Para ello supondremos como Hiptesis Nula la afirmacin: El ingreso promedio es igual a 680 soles; es decir P0 = 680.
Supondremos que la Hiptesis Alternativa consiste en afirmar que El ingreso promedio es menor que 680 soles; es decir, P1 < P0 .
H0: P0 = 680
Al activar la casilla <perform hypotesis test> digitamos el ingreso promedio, que es 680.
A partir de ella, definir la Hiptesis Alternativa que nos permita determinar si se trata de una prueba de una cola(izquierda o derecha) o de dos colas.
Pasando a la ventana de <Options> en < Alternative>, ingresamos el tipo de prueba: Menor que(Less than).
Decidir por comparacin si se debe aceptar o rechazar la Hiptesis Nula Los resultados se muestran en la siguiente figura:
Ejemplo 4
Observe que el ZC = -0.63
Puesto que la prueba consisten en una prueba de una cola, el Z para un nivel de confianza de 95% , es Z1-D = -1.6449.
Puesto que ZC > Z1-D entonces se rechaza la Hiptesis Nula; es decir, el Sindicato no tiene razn en sus reclamos.
Aplicando el p-value:
Como p = 0.26 es mayor que 0.05 entonces no existe evidencia suficiente para rechazar la Hiptesis Nula; es decir, el Sindicato no tiene razn en sus reclamos.
El Minitab tambin permite realizar estimaciones proporcionales y prueba de hiptesis para proporciones.
En la siguiente figura (lado izquierdo) podemos apreciar que esto se puede realizar en una o dos poblaciones.
En la siguiente grfica y en la anterior podemos apreciar la proximidad entre el promedio de los ingresos y la afirmacin planteada en la Hiptesis Nula. Otra razn para afirmar que el Sindicato no tiene razn en sus reclamos.
PREGUNTA:
Si se desea obtener el intervalo de confianza y/o realizar una prueba de hiptesis para un conjunto de datos no numrico, cmo puede el Minitab resolver esta dificultad, planteada a nivel de proporciones poblacionales?
Si por otro lado recordamos que en una poblacin de proporciones S representa la proporcin poblacional de los elementos que poseen cierto atributo y representa la proporcin muestral de los que poseen el mismo atributo en la muestra, entonces
E(
) =
V( ) =
Como se puede ver, los alumnos ingresantes provienen de colegios Pblicos y Privados.
Como se puede apreciar, podemos realizar trabajos de proporciones para un conjunto de datos que estn en alguna columna de la hoja de trabajo, seleccionando la opcin <Sample in Column>, o podemos hacerlo conociendo el nmero de ensayos (number of trials) que representa el tamao de muestra y el nmero de elementos que poseen el atributo en estudio (number of success), seleccionando <Summarized data>
a) Cul es el intervalo de confianza del 95% del promedio de alumnos que provienen de colegios Privados?. b) De los ingresos anteriores se sabe que el 55% de los alumnos provienen de colegios pblicos. Si el Director de Admisin afirmaba que para este ao este porcentaje se incrementara, tena razn dicha autoridad?
Usaremos <Options> para ingresar la informacin necesaria para obtener el Intervalo de Confianza o realizar la Prueba de Hiptesis, los cuales se ingresa en la siguiente ventana, mostrada en la siguiente figura.
Solucin
Por ello, obtener un Intervalo de Confianza o realizar una Prueba de Hiptesis para proporciones, sigue la misma metodologa que aquella empleada para la media.
De acuerdo a los datos del problema, debemos realizar inferencia para la variable: proporcin poblacional. En este caso S = 0.55. El nivel de confianza es del 95%; es decir, 1 - D = 0.95; n = 120.
H0: S = 0.55 En el siguiente resumen mostramos tanto el intervalo de confianza as como el valor del p value.
H1:
> S
Donde En este distribucin muestral viene dada por Test and Confidence Interval for One Proportion
caso
representa
la
proporcin
muestral
cuya
E( ) =
V( ) =
La siguiente secuencia de comandos nos proporcionar la prueba de hiptesis as como el intervalo confianza para .
Success = Pbl
Exact Variable Colegio X 53 N Sample p 95.0 % CI 120 0.441667 (0.351108, 0.535173) P-Value 0.993
Puesto que este valor es bastante mayor que 0.05, entonces no es cierto que el porcentaje de ingresantes de los colegios pblicos se hayan incrementado.
Para realizar estimaciones respecto de la varianza poblacional, debemos usar la siguiente secuencia: <Stat> - <Basics Statisticas> - <1 varince >.
En la ventana se debe seleccionar <Sample in columns> si los datos estn en alguna columna de la hoja de trabajo o seleccionar la siguiente opcin y luego ingresar el tamao de la muestra y la desviacin estndar muestral, s. Al activar la casilla para ejecutar la prueba de hiptesis, se debe ingresar la desviacin estndar poblacional. A continuacin, en <Options> debe ingresar el nivel de confianza y seleccionar la forma de la hiptesis alternativa
tal que
Del mismo modo, use la siguiente secuencia para obtener la desviacin estndar de la muestra, s.
Si desea probar la hiptesis usando el valor calculado comparando con el valor Chi cuadrado terico con un nivel de confianza del 100(1-)%.
donde
Solucin
El resultado es 18.3070 . Probemos ahora con n 1 = 27. Es decir, como (n 1) x 1.5 = 40.5
El primer miembro de la desigualdad, dentro de los parntesis define a una variable Chi Cuadrado con (n-1) grados de libertad. Por ello,
si hacemos
Para ello, puesto que Minitab requiere de los grados de libertad, debemos hacer un mixing entre una estimacin manual y el Minitab para verificar el clculo manual.
Puesto que n es desconocido, debemos asignarle un valor tal que al multiplicarlo por 1.5, se encuentre el valor Chi Cuadrado con probabilidad 0.95 y n 1 grados de libertad.
Si en una poblacin, estuviramos interesados en realizar estimaciones sobre el parmetro poblacional P, entonces
Es cierto que con 10 grados de libertad y con una probabilidad acumulada de 0.95, se tiene un valor de Chi Cuadrado igual a 15?.
con
Usando Minitab:
H0: P0 = P
H1: P1 < P
La varianza poblacional tambin puede ser estimada a travs de su estimador que ser la varianza muestral s.
1. Un comerciante de productos sintticos determina a travs de diversas pruebas que el 4% de los tornillos fabricados por una determinada compaa son defectuosos. Si el comerciante adquiere lotes de 150 productos bajo la garanta de que el paquete contiene el 92% de productos no defectuosos, cul es la probabilidad de que un paquete no satisfaga la garanta?
Sea X1, X2, ..., Xn una muestra aleatoria de tamao n, extrada de una poblacin normal N( P, V).
Si
= V y
2. Un contratista piensa comprar una gran cantidad de radios a cierto fabricante. Este asegura al contratista que la duracin promedio de los radios es de 3600 das con una desviacin estndar de 40 das. El contratista decide comprar los radios slo si una muestra aleatoria de 64 de stos da como resultado una vida promedio de por lo menos 3600 das. Cul es la probabilidad de que el contratista adquiera los radios?
tal que Vc
Caso I
Caso II
Caso III
3. Una firma encuestadora efecta un anlisis de los resultados de la muestra para hacer predicciones respecto a las prximas elecciones. Supngase que se trata de medir el porcentaje de electores favorables a dos de los 5 candidatos para la regin de Lima. Si uno de los candidatos recibe por lo menos el 60% del voto en la muestra, entonces se pronosticar que dicho candidato ganar la contienda electoral. Si se selecciona una muestra de 900 electores, cul es la probabilidad de que se pronostique como ganador a ese candidato cuando el porcentaje real de sus votos es 55%?
14.
Si Vc <
; Rechazar H0
Rechazar H0 si Vc <
o si Si Vc >
; rechazar H0
El estadstico
, obtenido en una muestra aleatoria de tamao n, y definido como un estimador del parmetro poblacional , nos permite realizar diversos tipos de estimaciones tanto para una poblacin (lo que ya hemos desarrollado) como en el caso de dos poblaciones.
Vc >
El procedimiento es el mismo, excepto que, dependiendo del parmetro a ser estimado, del tamao de las muestras, del conocimiento que tengamos de las varianzas poblacionales ( iguales o diferentes, conocidas o desconocidas), se tendr diferentes formas de calcular el estadstico .
En el caso de dos poblaciones podemos estar interesados en realizar estimaciones respecto a la media o proporcin de dos poblaciones en trminos de su comparacin o la diferencia entre las medias o de las proporciones:
Del mismo modo podramos estar interesados en medir la Razn de sus Varianzas como lo veremos despus, o en medir la diferencia observada en una misma poblacin pero analizada desde los resultados de una muestra sometida a dos tratamientos, lo que se conoce como Distribucin de datos pareados.
(*)
Si las varianzas son desconocidas se utilizan sus estimadores; es decir, las varianzas de la muestra.
a)
Si n1 + n2 < 30, se usar la distribucin t de Student con n1+ n2 2 grados de libertad y donde la varianza de la diferencia de medias viene dada por
Si la suma de los tamaos de ambas muestras es grande (n 1 + n2 t 30), se usar la distribucin normal, tanto para varianzas conocidas iguales como diferentes. En este caso el Intervalo de Confianza del (1 - D )x100% es similar a (*), donde debemos cambiar t de Student con n1+ n2 2 grados de libertad en lugar de Z 1-D/2
Debemos probar:
Caso I
>
Caso II
Caso III
H1: P1 > P2
<
>
En la base de datos Ingre99.Mtw tenemos 120 datos, de los cuales 23 corresponden a la Facultad de Biologa, provenientes de colegios privados y pblicos. Vamos a extraer de esta hoja slo los alumnos que ingresaron a Biologa.
Nota:
Esto mismo rige para la prueba de hiptesis de la diferencia de medias cuando se usa la distribucin normal con Zc , es decir, cuando las varianzas poblacionales son conocidas; en cuyo caso se debe reemplazar Z en cada t que se encuentra en el cuadro anterior.
Ejemplo 7
Supongamos que el Director de la Oficina de Admisin afirma que el rendimiento promedio (Prom.Gral.) de los alumnos de Biologa, provenientes de los colegios privados es mayor que el rendimiento promedio de los alumnos de Biologa , provenientes de los colegios pblicos. Abra el archivo Ingre99.Mtw para comprobar esta afirmacin. Encuentre adems el Intervalo de Confianza del 95% para la diferencia de medias.
Solucin
Si Ud. usa <Stat> - <Tables> - <Tally> - Colegio, encontrar Priv = 11 y Pbl = 12; con lo cual, el nmero de grados de libertad ser igual a 21(n 1+ n2 2 = 21).
Sea H0 : El rendimiento promedio de los alumnos de Biologa, provenientes de los colegios privados es mayor que el rendimiento promedio de los alumnos de Biologa , provenientes de los colegios pblicos.
Puesto que n1+ n2 2 < 30 y las varianzas poblacionales no son conocidas, usaremos t de student con el resultado del anlisis anterior (Ejemplo 17), donde comprobamos la homogeneidad de las varianzas, por lo que debemos suponer, varianzas iguales.
Usemos ahora el Minitab que nos permitir obtener el intervalo de confianza del 95% y el p value para realizar la prueba de hiptesis. 95% CI for mu (Priv) - mu (Pbl): T-Test mu (Priv) = mu (Pbl) (vs not =): Both use Pooled StDev = 0.462 T = 0.88 P=0.39 DF = 21 ( -0.23, 0.57)
< Stat > - < Basic Statistics > - < 2-Sample t >
Puesto que el p value es mayor que el nivel de significacin 0.05, no se rechaza H 0 y se concluye de que no hay evidencia suficiente para afirmar de que el rendimiento de los alumnos provenientes de colegios privados es mayor que los que provienen de los colegios pblicos.
En el grfico siguiente no se muestra suficiente diferencia en los promedios como para rechazar la hiptesis nula.
De acuerdo al ejemplo anterior suponemos que las varianzas poblacionales son iguales.
Nota importante
Para un adecuado estudio de la teora de la estimacin en el caso de dos poblaciones se debe tomar en cuenta los casos en los que las varianzas poblacionales son conocidas o no. SE Mean 0.11 0.16 Siendo desconocidas, podramos suponer que ellas son iguales o diferentes.
Colegio
Mean
StDev
Priv
11
11.065
0.351
Pbl
12
10.897
0.544
Esto por cuanto los estimadores de la varianza de la distribucin muestral de la diferencia de medias muestrales, por ejemplo, se obtienen de manera diferente.
Del mismo modo, si n1 y n2 son los tamaos de las muestras aleatorias extradas de las dos poblaciones, cabe la posibilidad de que n 1 + n2 t 30 o n1 + n2 < 30, lo que generan diferentes distribuciones muestrales.
Por ello, es necesario realizar una comparacin de varianzas poblacionales; lo que se conoce como Prueba de Homogeneidad de varianzas, conocido tambin comoComparacin de dos varianzas poblacionales o Razn de varianzas poblacionales Por ello veremos ahora el siguiente tema:
Observe las dos curvas en el siguiente grfico. Las dos tienen el mismo promedio, pero, por la forma de la campana, tienen diferente varianza.
Esto justifica la necesidad de establecer una prueba de hiptesis para una razn de varianzas, a fin de comprobar si ellas son homogneas o no.
15.
Por otro lado, as como se realiza inferencia sobre la estimacin y prueba de hiptesis de la diferencia de medias o proporciones muestrales en el caso de dos poblaciones, as tambin podemos plantear el estudio de la razn de las varianzas de dos poblaciones definiendo al parmetro T como y su estimador . Este estudio lo haremos tomando en cuenta el intervalo de confianza y la prueba de hiptesis para T.
De manera que, si las varianzas poblacionales son iguales, dicha razn es 1 y podramos afirmar que las dos poblaciones tienen una distribucin homognea; es decir, los datos se encuentran igualmente dispersos. Una forma clara de interpretacin de la importancia de la homogeneidad de varianzas se puede apreciar en el siguiente ejemplo:
Supongamos que estamos comparando el rendimiento promedio de los alumnos de una asignatura dividida en dos secciones, cada una de las cuales estn asignadas a diferentes profesores. Podra ocurrir que el rendimiento promedio de ambas secciones sea la misma; pero sin embargo, las notas pueden tener diferente variabilidad.
Pues bien. Sea X1, X2, ..., Xn1 una muestra aleatoria extrada a partir una poblacin N( P1, V1) y se Y1, Y2, ..., Yn2 una muestra aleatoria extrada a partir una poblacin N( P2, V2).
Si son los estadsticos de la primera muestra, de tamao n 1 y estadsticos de la segunda muestra, de tamao n 2 en donde
son los
as como
Si Fc <FD; Rechazar H0
ser
varianzas poblacionales
De manera que si
es el estimador de
tal
que
F F(n1 1, 1)
n2
El programa Minitab resuelve problemas de estimacin por intervalos y pruebas de hiptesis como un problema de Anlisis de Varianza, pero en su forma simple, como una comparacin de dos poblaciones.
Esto se logra mediante la comparacin de medias poblacionales y tambin mediante la comparacin de sus varianzas; esta ltima a travs de PRUEBAS DE HOMGENEIDAD DE VARIANZAS.
Para realizar una Prueba de Homogeneidad de Varianzas debemos ejecutar la siguiente secuencia:
Caso I
Caso II
Caso III
<Stat> - <Basics Statisticas> - <2 variances > Observe Ud. que se dispone de tres formas de ingresar los datos: Cuando los datos estn en una columna y otra contiene los subndices para reconocer las dos muestras; cuando en la hoja de trabajo las muestras
estn en dos columnas y cuando se dispone de datos resumidos. Los resultados obtenidos son
La ventana de <Options> es mnima: slo requiere del nivel de confianza. Esto significa que en todas las pruebas, se asume que la hiptesis nula se formula como igualdad de varianzas o la afirmacin: Existe homigeneidad entre las dos poblaciones. Homogeneity of Variance Response Factors ConfLvl 95.0000 Colegio Prom.Gral.
Tomaremos en cuenta estos criterios toda vez que tengamos que obtener intervalo de confianza para una razn de varianzas o realizar pruebas de hiptesis de las varianzas poblacionales.
Ejemplo 8
Lower Sigma
Tomando los datos de la hoja Ingre99.Mtw, determine si la varianza del rendimiento de los alumnos provenientes de colegios privados es igual a la varianza del rendimiento de los alumnos provenientes de colegios pblicos.
Solucin
Por la pregunta deducimos que el rendimiento ser idntico o mejor : Homogneo si el cociente de la variabilidad del rendimiento en cada tipo de colegio es aproximadamente igual a 1.
< Stat > - < Anova > - < Homogeneity of Variance >. A continuacin debemos completar los datos en la siguiente ventana:
la misma muestra. Cada elemento de esta muestra genera dos resultados Xi e Yi. Se trata de probar si el rendimiento promedio de ambos tratamientos es la misma o medir su eficacia. Este tipo de problema es lo que constituye problemas de datos pareados y para el cual se puede realizar procesos de estimacin por intervalos o formular hiptesis a fin de verificar los resultados.
Definicin
Sea X1, X2, ..., Xn los resultados obtenidos en una muestra de tamao n, al evaluar sus elementos bajo alguna forma de experimento. Sea Y1, Y2, ..., Yn los resultados obtenidos luego de aplicar algn tratamiento a la misma muestra. Y supongamos que esta muestra ha sido extrada una poblacin N(P2 , V2).
P-Value
: 0.417
Puesto que el p value es mayor que 0.05 aceptamos la Hiptesis de igualdad de varianzas.
Sea (X, Y) una variable aleatoria muestral cuyos elementos se definen como pares ordenados de la forma (X1, Y1), (X2, Y2), ...., (Xn, Yn). Estas variables no son independientes. Veamos por qu: Si Xi representa el nivel de colesterol que tiene el i-simo paciente antes de suministrarle un medicamento, Yi representa el nivel de colesterol del mismo paciente despus de suministrarle dicho medicamento, sin duda, los resultados probablemente sean diferentes.
Las grficas que se muestran en la figura anterior contienen, aproximadamente, el mismo alargamiento en ambas cajas del boxplot.
Si definimos a D como funcin de dos variables aleatorias D = X Y, entonces D es una variable aleatoria poblacional, cuyos parmetros son
PD = E(D) = E(X Y ) = PX - PY
Muchas veces cuando se realizan estudios de muestreo comparando promedios, se extraen muestras de la misma poblacin, y el tratamiento al que se les somete es el mismo que se les da a los que provienen de diferente poblacin. Sin embargo hay situaciones en los que el experimento consiste en evaluar el rendimiento de los elementos de una muestra bajo dos circunstancias diferentes. Por ejemplo, cuando a una muestra de n pacientes se les evala su nivel de colesterol antes de aplicarles algn medicamento y luego se vuelve a evaluarlos despus de la aplicacin del medicamento. Otro ejemplo: A un grupo de trabajadores de una empresa se les somete a dos mtodos de capacitacin para medir la eficacia de los dos mtodos. En ambos ejemplos se trata de
De manera que si en una muestra aleatoria de tamao n, definimos el estadstico varianza muestral son
, cuya media y
entonces su distribucin de probabilidad viene dada por El intervalo de confianza de (1 - D )x100% y los tres tipos de Prueba de Hiptesis se realizan utilizando el mismo procedimiento dado para la diferencia de medias muestrales.
El programa Minitab dispone de una opcin dentro del comando <Stat>, lo que se consigue usando la siguiente secuencia:
Y puesto que la poblacin de donde provienen es normal, por la Propiedad Reproductiva de la <Stat> - <<Basic Statistics > - <Paired t >
Normal,
Para la estimacin del Intervalo de Confianza y una Prueba de Hiptesis, debemos contemplar dos casos:
Aqu tambin se dispone de las opciones comunes a otras ventanas como el caso de la diferencia de medias.
differences. En <Opciones> deje como est. No hay cambios. Luego de esto se obtendr el siguiente resultado.
En cuanto a las ventana de <Optinos> se aprecia que es la misma que en el caso de las diferencia de medias.
Para obtener un intervalo confidencial y una prueba de hiptesis, se debe hacer clic en <Options> e introducir los datos como <Confidence level>, <Test mean> y <Alternative>, como se muestra en la ventana adjunta.
Ejemplo 9
En cierto Examen de Admisin tomada por el Departamento de Admisin de la Universidad Nacional de San Marcos se produjo un incidente que oblig a tomarse un nuevo examen a los mismos postulantes. Los resultados de ambas pruebas se encuentran en el archivo ReExam.Mtw. Se puede afirmar que los resultados obtenidos en el ambos exmenes no tuvieron diferencia significativa; es decir, los rendimientos promedio no difieren?
Puesto que el valor de p value es 0.000 y es menos que 0.05, entonces rechazamos la hiptesis nula y afirmamos que los rendimientos promedio son diferentes.
Solucin En la figura de la derecha se muestra la ubicacin de H0 : P1 - P2 = 0 y el intervalo de confianza del 95% que incluye el promedio muestral (en azul). Comprobndose tambin que hay diferencia significativa; lo que nos permite rechazar la hiptesis nula.
Como se trata de un problema de datos pareados, debemos formular la hiptesis como que la media de la diferencia es nula; es decir, no hay diferencia en el rendimiento de las dos pruebas. D = 1-2 = 0
A fin de medir el efecto de una campaa de ventas sobre artculos sobrantes, en toda la cadena de tiendas que ofrecen el mismo producto, el Gerente de Investigacin de mercado tom una muestra aleatoria de 13 pares de tiendas que se hicieron concordar segn el volumen semanal promedio de ventas. Una tienda de cada par (el grupo experimental) fue expuesta a la campaa de promocin, mientras que la otra no lo fue. Los siguientes datos muestran los resultados en un perodo semanal.
Complete la ventana que se obtiene ingresando los datos que se requiere. En Samples in columns: First simple: Antes; Second simple: Despues. Haga clic en <Graph> y seleccione Histogram of
VENTAS(en miles) DE ARTICULOS SOBRANTES Paired T for Con promocin - Sin promocin
Tienda Con promocin Sin promocin Difference 13 3.654 3.186 13 59.19 19.49 5.41 0.884 13 62.85 20.03 5.55
Con promocin
Sin promocin
Mean
StDev
SE Mean
67.2
65.3
59.4
54.7
80.1
81.3
47.6
39.8
97.8
92.5
T-Test of mean difference = 0 (vs < 0): T-Value = 4.14 P-Value = 0.999
38.4
37.9
57.3
52.4 Puesto que p value > 0.05 entonces se acepta la hiptesis nula en el sentido de que el rendimiento promedio obtenido en el segundo examen fue mayor que en el primero.
75.2
69.9
94.7
89.0
10
64.3
58.4
11
31.7
33.0
12
49.3
41.7
13
54.0
53.6
Puede el Gerente de Investigacin llegar a la conclusin de que la promocin logr aumentar las ventas?
Solucin Donde la distribucin de probabilidades de la diferencia de proporciones muestrales dada por , viene
Caso I
Caso II
Caso III
Se usa la primera opcin si los datos se encuentran en dos columnas: -
> -
En la primera se encuentran los xitos y fracasos(recuerde que el problema de proporciones deriva de poblaciones binomiales y el muestreo realizado constituye n ensayos de Bernoulli) y, En la segunda se identifica al grupo que pertenece cada uno.
Rechazar H0 si Zc < ZD/2 o si Si Zc > Z1-D ; rechazar H0 Zc > t1-D/2 Se usa la segunda opcin cuando cada una de las muestras ocupan una columna diferente, en el cual se encuentran los xitos y fracasos.
Diferencia de proporciones en Minitab Se usa la tercera opcin cuando slo se posee resultados del muestreo y no los datos. Como cuando se dispone del tamao de cada muestra y el nmero de xitos dentro de ellas.
En Minitab existe tres formas diferentes de realizar una prueba de hiptesis para una diferencia de proporciones muestrales:
Luego de usar la secuencia < Stat > - < Basic Statistics > - < 2 Proportions > obtenemos la siguiente ventana
Solucin
Luego de abrir la hoja Ingre99.mtw. La columna C2 contiene la variable Sexo y la columna C3 contiene la variable Colegio. Colegio Priv Pbl 20 53 0.377358 20 67 0.298507 X N Sample p
Sea S2 la proporcin de varones provenientes de colegios pblicos Estimate for p(Priv) - p(Pbl): -0.0788510
Deseamos encontrar el Intervalo de confianza del 95% para S1 - S2 y realizar una prueba de hiptesis del tipo
H0 : S1 = S2
Test for p (Priv) - p(Pbl) = 0 (vs not = 0): Z = -0.91 P-Value = 0.364
Despus de usar la secuencia El intervalo de confianza del 85% para S1 - S2 es (-0.249250, 0.0915484)
Puesto que el p-value es mayor que 0.05 entonces aceptamos la hiptesis nula; es decir, no existe suficiente evidencia para afirmar de que los porcentajes de colegios de procedencia de ingresantes varones sean diferentes.
Haciendo clic en <Options> ingresamos 0.95 y seleccionamos <Not equal>. Luego <Ok> y <Ok>.
Un economista al servicio de una agencia estatal, desea determinar si la frecuencia de desempleo en las grandes reas urbanas del estado es diferente. Tomando como base muestras aleatorias de tamao 500 en cada ciudad, dicho economista encuentra 35 personas desempleadas en la Ciudad A y 25 en la Ciudad B. Bajo las suposiciones adecuadas y, con un nivel de significacin del 5%, existe alguna razn para creer que las frecuencias de desempleo en las dos reas son diferentes?
Solucin
Success = M
Ciudad A:
Ciudad B:
nB
El estudio de la Estadstica Inferencial no slo se ocupa de variables cuyo comportamiento est determinado por ciertos parmetros que la definen. Se ocupa tambin de variables cuya distribucin no es conocida, pero con las cuales se podra formular ciertas hiptesis que pueden ser validadas con ayuda de las distribuciones como la Distribucin Chi Cuadrado, que proporciona una colaboracin eficiente para estos temas. Por otro lado, no siempre el anlisis estadstico se realiza sobre datos cuantitativos, en muchos casos stos son de naturaleza cualitativa.
H0 : S1 = S2
H1: S1 z S2
El conjunto de estas variables se clasifican por categoras, cada una de las cuales pueden pertenecer a una determinada poblacin. Si bien el anlisis comparativo de dos poblaciones lo cubre la diferencia de medias o proporciones poblacionales, en este caso estamos hablando de una comparacin de ms de dos poblaciones. De manera que, an en el caso de que tuviramos variables con un determinado comportamiento, se trata de plantear comparaciones de mltiples variables cada una de las cuales podran tener una distribucin conocida: Se pueden realizar pruebas de Bondad de Ajuste para variables multinomiales, para variables normales o con una distribucin de Poisson. Tambin se puede probar la afirmacin de que un conjunto de datos se ajusta a una de estas distribuciones conocidas.
Sample
N Sample p
35
500 0.070000
Por ello estamos interesados en medir la independencia de estas variables categricas; se trata de analizar su homogeneidad o el tipo de ajuste que pudieran tener. Esto significa realizar prueba de hiptesis para la independencia de variables, para la homogeneidad de las mismas o, probar la bondad de su ajuste hacia alguna distribucin conocida.
25
500 0.050000 Por otro lado, desde el punto de vista de la estadstica, luego de conocer el valor del estadstico en una muestra, interesa medir el desvo que presentan respecto de su valor esperado; es decir, interesa medir, por ejemplo , en el caso de la media. Y como esta diferencia puede ser
95% CI for p(1) - p(2): (-0.00941252, 0.0494125) cero (como en este), es ms importante analizar errores en la estimacin del parmetro. que constituye la suma de los
Test for p(1) - p(2) = 0 (vs not = 0): Z = 1.33 P-Value = 0.183
Puesto que el p-value es mayor que 0.05 concluimos que no hay evidencia suficiente para rechazar la hiptesis nula planteada, por lo que deberemos aceptarla como vlida.
La distribucin Chi Cuadrado ser un instrumento que nos permitir evaluar este tipo de comparaciones y determinar la aceptacin o rechazo de las hiptesis de igualdad, como lo veremos en las siguientes secciones. En este captulo desarrollaremos los siguientes temas:
2. Pruebas de Independencia: Tablas de Contingencia Sea H0 : La proporcin de xitos en la muestra coincide con la probabilidad de xito.
Sea X1, X2, ..., Xk un conjunto de categoras mutuamente excluyentes extradas de una poblacin(puede ser Binomial, Normal o Poisson, Exponencial, etc.). Para aceptar o rechazar la hiptesis nula primero debemos realizar los clculos a partir de un conjunto de datos Xi.
Supongamos que pi: representa la probabilidad de ocurrencia de un elemento cualquiera de la poblacin (llmese Binomial, Poisson o Normal, etc.) Procedimiento:
Supongamos tambin que pXi : representa la probabilidad de ocurrencia de X i , en la i - sima categora, para i = 1, 2, ..., k
A continuacin se deber obtener una columna para la Frecuencia Esperada, tomando en cuenta el tipo de poblacin de la cual se ha extrado la muestra:
Podramos afirmar si la probabilidad de ocurrencia de un valor de la variable poblacional es la misma que la probabilidad de ocurrencia del mismo valor en una variable muestral?
Si fuera binomial, la Frecuencia Esperada para la i-sima categora ser Ei = npi. Si la poblacin fuera Normal, Ei = Pi. Si la poblacin es Poisson, entonces Ei = O i.
Si esto fuera cierto y, si la respuesta es positiva para cada uno de las categoras, entonces diramos que el comportamiento de los datos en la muestra se ajustan a la distribucin seleccionada en la hiptesis y que gozan de su comportamiento.
Luego en las dos columnas siguientes debemos obtener la diferencia (frecuencia observada menos frecuencia esperada, Oi - Ei) y los cuadrados de la misma.
La suma de ellos se deber comparar con el valor Chi Cuadrado con k 1 grados de libertad que nos entregue el Minitab, donde k representa el nmero de categoras.
Si el nmero de observaciones para una determinada categora fuese menor a 5, se procede a fusionar con la categora contigua.
Ejemplo 1
En un estudio de Anlisis de Mercado realizado por Compaa de Investigacin de Mercado(CIM), se observa que la participacin de tres empresas competidoras era del 30% de la Compaa A, 50% de la Compaa B y 20% de la Compaa C. Si la Compaa C introdujo un nuevo producto de Calidad Extra Blanca , se producir una modificacin en el comportamiento del mercado?; es decir, se modificar la participacin de cada una de las empresas competidoras en el mercado?
Frecuencia esperada(Ei)
X1
O1
E1 Para tratar de responder a esta pregunta, CIM llev a cabo una encuesta practicada a 200 clientes a fin de averiguar sobre su preferencia de compra en las tres compaas.
X2
O2
E2
...
Xk
Ok
Ek
Total
48 indicaron que prefieren el producto de la Compaa A; 98 indicaron que prefieren el producto de la Compaa B y 54 indicaron que prefieren el producto de la Compaa C.
El valor de
>=
(k-1- r) de la tabla
En base a estos resultados, CIM decidi realizar una Prueba de Bondad de Ajuste tomando en cuenta los siguientes criterios:
Donde r representa el nmero de parmetros a estimar. La poblacin de inters: Puesto que el muestreo realizado a cada compaa constituye un experimento binomial, el conjunto constituye una Poblacin multinomial
Puesto que 7.34 es mayor que el valor de la tabla, diremos que s existe suficiente evidencia para afirmar que el cambio efectuado por la Compaa C modificar la participacin de ellas en el mercado. En consecuencia, rechazamos la hiptesis nula.
Esto nos lleva a plantear la siguiente prueba, con el 95% de nivel de confianza:
La versin 15 dispone de muchas opciones que no se tena en las versiones anteriores. Esta es una de ellas. En la columna C1 digite las proporciones: 0.30, 0.50, 0.20 En la columna C2 digite las observaciones en la muestra: 48, 98, 54 Para realizar pruebas de Bondad de ajuste usaremos la secuencia: <Stat> - <Tables> - <Chi-Square goodness of fit test (one variable>
De acuerdo a los datos, podemos construir la siguiente tabla (Ei = np = 200(0.30)): Frecuencia esperada(Ei) (Oi Ei) 144 4 196 7.34 4.90 0.04 2.40 (Oi Ei)/Ei
Frecuencia observada(Oi)
Ca. A 100 40
0.30
48
60
Ca. B
0.50
98
Ca. C
0.20
54
Total
200
Luego
Sin embargo, sabemos que mediante la calculadora del comando <Calc>, podemos realizar cualquiera que sea el clculo que quisiramos; slo depende de nuestra habilidad.
Grados de libertad: 3 1
Nota:
Pero antes de continuar, quisiramos decir algo respecto a la ayuda que en este punto nos proporciona el programa Excel.
Este programa puede usarse en muchos casos, para reemplazar el uso de una tabla estadstica; obteniendo como ventaja, la emisin del p value, al cual nos hemos acostumbrado en Minitab. En cualquier celda digite: =DISTR.CHI(7.34,2) . P(X 7.34) En este caso, Chi Cuadrado con 2 grados de libertad y el valor calculado = 7.34, devuelve un p value = 0.02547647.
Chart of Contribution to the Chi-Square Value by Category Puesto que p value es menor que 0.05, entonces rechazamos la Hiptesis Nula.
Historical to Chi-Sq
Test
Contribution
48
0.3
0.3
60
98
0.5
0.5
100
Use D = 0.10.
54
0.2
0.2
40
18 20 25
20 24 25
22 26 28
27 27 26
22 25 28
25 19 24
22 21
27 25
25 26
24 25
26 31
23 29
N DF Chi-Sq P-Value
200 2
7.34
0.025 Solucin
El valor del Chi cuadrado calculado es el mismo. Usando pValue = 0.025 podemos concluir que, siendo menor que el nivel de significacin = 0.05, rechazamos Ho; es decir, s hay suficiente evidencia del cambio en las preferencias .
Debemos probar:
H1: La demanda semanal del producto no tiene una distribucin normal Total Variable Count Demanda 30 24.500 3.014 Mean StDev Variance Minimum Maximum Range 9.086 18.000 31.000 13.000
Usando Minitab:
Vamos a clasificarlas a las 30 observaciones en un conjunto de k categoras, de manera que podamos tener O1, O2, ...., Ok observaciones; es decir, vamos a construir una tabla de frecuencias, donde las frecuencias absolutas ser los Oi, las pi ser las probabilidades de que un valor Xi est en un determinado intervalo; es decir, pi = P(LimSup) P(LimInf). Estas probabilidades las hallaremos usando la distribucin normal en el cual hemos estimado dos parmetros: la media con el promedio de la muestra y la varianza con la varianza de la muestra s. De esta forma, al buscar los grados de libertad, debemos usar k-1-2 por ser dos los parmetros que se estimaron.
= 24.5
Procedimiento:
Para ello usaremos datos agrupados de manera que k representar el nmero de intervalos. Puesto que tenemos 30 observaciones, hagamos que k = 8.
Usando el botn derecho sobre una barra agregue etiquetas. El resto es sencillo para obtener la tabla de frecuencias. Paso 11: El valor de Chi Cuadrado con 7 grados de libertad y 10% de nivel: 9.23636
Puesto que
< (5) ; es decir, 6.5307 < 9.23636 (no es mayor que el valor terico) concluimos que hay suficiente evidencia para afirmar que la demanda semanal de dicho producto tiene una distribucin normal (no se rechaza la hiptesis nula).
Paso 4: Obtencin de las probabilidades para las columnas Lim. Inf. (C3) y Lim. Sup.(C4). Para ello usamos: A continuacin mostramos la tabla obtenida:
i) <Calc> - <Probability distributions> - <Normal> - <Cumulative Probability > - <Mean> 24.5 <Std.Desviation> 3.014 -<Input column > C3 - <Storage > C6 - <Ok> C3 I Linf Lsup C4 C5 Xi 2 3 3 4 22.875 24.500 4 5 24.500 26.125 11 6 26.125 27.750 7 27.750 29.375 8 29.375 31.000 3 3 1
C8
C9 C10 P(X=xi) 0.037 0.088 0.154 0.205 0.205 0.154 0.088 0.037 Oi 2 3 3 4 Ei
C11 (Oi - Ei )/Ei 1.121 2.627 4.633 6.153 11 6.153 3 4.633 3 2.627 1 1.121 0.689 0.053 0.576 0.754 3.818 0.576 0.053 0.013
ii) <Calc> - <Probability distributions> - <Normal> - <Cumulative Probability > - <Mean> 24.5 <Std.Desviation> 3.014 -<Input column > C4 - <Storage > C7 - <Ok>
Paso 5: Obtencin de la columna C8(P(X = xi): <Calc> - <Calculator> - <Store result in variable> C8 - <Expressions> C7 C6
La siguiente grfica prueba la afirmacin planteada como hiptesis nula. Y como bien, concluimos: Hay evidencia.
H0 : Los datos tienen una distribucin exponencial H1 : Los datos no tienen distribucin exponencial
Ejemplo 3
As hallamos el promedio de la muestra = 0.954, lo que nos permite encontrar el parmetro D = 1/0.954 = 1.048218 (recuerde que estamos estimando un parmetro, por lo que los grados de libertad ser: n-1-k = 50-1-1
Contrastar la Hiptesis de que las 50 observaciones que se dan en la siguiente tabla, forman una muestra aleatoria seleccionada de una poblacin exponencial.
0.91 1.62 1.16 0.61 0.76 0.05 1.53 1.86 1.28 0.31 0.22 0.37 0.06 0.22 0.91 0.04 1.41 0.56 0.53 0.50 0.24
1.22
1.28
0.02
2.33
0.90
0.86
1.45
1.22
0.55
<Calc>- <Probability distribution> - <Exponential> - Activamos <Probability density>. <Mean > = 0.954 <Input column > C1. Haremos que C7 contenga p(x)
0.16
2.02
1.59
1.73
0.49
1.28
0.06
0.19
0.29
0.74
3.65
3.41
0.07
0.51
1.27
Paso 4: Usando la calculadora: <Calc > - < Calculator> obtenemos los siguientes clculos, para cada una de las columnas indicadas.
1.75
0.89
0.79
1.28
0.57
Solucin
Para C2: Para C3: Para C4: Para C5: Para C6:
Probaremos
Obtenemos como
= 2.57437
<Calc> - <Probability distributions> - <Chi-Square> . Ingresando en grados de libertad: k 1 = 49 y en <Input constant> ingresamos 0.95 que representa el nivel de confianza.
Al estudiar la diferencia entre los parmetros poblacionales a travs de la diferencia muestral de los estadsticos muestrales correspondientes, lo que hemos hecho es realizar un anlisis comparativo de dos variables: X: Observaciones provenientes de la primera poblacin, e Y: Observaciones provenientes de la segunda poblacin.
Y al plantear la Hiptesis Nula de la igualdad de dichos parmetros, lo que hemos hecho es afirmar que dichos parmetros tienen el mismo comportamiento o que no existe suficiente evidencia para afirmar que difieren, versus la Hiptesis Alternativa que la niega.
Exponential with mean = 0.954 Queremos ahora generalizar este tipo de comparaciones para ms de dos poblaciones.
P( X <= x )
0.95 2.85793
Pero a diferencia de probar el mismo comportamiento entre dos poblaciones, trataremos de probar hiptesis de independencia en el comportamiento de las mismas, versus la hiptesis alternativa que afirma la dependencia entre el comportamiento de las poblaciones.
Como
no es mayor que
(48),
no rechazamos la afirmacin de que provengan de una poblacin exponencial. Esto se puede comprobar observando la siguiente figura cuya grfica de la izquierda corresponde a los datos y el de la derecha a una exponencial con media 0.954.
Ejemplo 4
La empresa Limpia Ya S.A. comercializa tres tipos de detergentes A, B y C. En un anlisis de segmentacin de mercado para los tres productos, el grupo de investigacin encargado ha planteado la duda de si las preferencias para los tres detergentes son diferentes entre los consumidores de los sectores Alto, Medio y Bajo. Si la preferencia de los detergentes fuera independiente del sector consumidor, se iniciara una nica campaa de publicidad para los tres productos; sin embargo, si la preferencia depende del sector de consumo, se ajustarn las promociones para tener en cuenta los distintos mercados de venta.
H0: La preferencia de detergente es independiente del sector de consumo H1: La preferencia de detergente no es independiente del sector de consumo
Despus de identificar a la poblacin y sectores consumidores, se puede tomar una muestra y preguntar a cada elemento de la muestra sobre su preferencia entre los tres tipos de detergentes. Medio Sexo Bajo 15 12 12 21 16 8 45 39
Alto
14
12
10
36
El conjunto de datos definido como observaciones corresponder a un determinado detergente, consumido por un determinado sector. Total 50 40 30 n= 120
Esto nos lleva a conformar todas las posibles combinaciones o contingencias a las cuales llamaremos Tabla de Contingencias.
De manera que una prueba de independencia utiliza como formato de trabajo una tabla de contingencias.
Por esta razn este tipo de prueba recibe el nombre de Pruebas de Tabla de Contingencias o prueba con tabla de contingencias.
Para encontrar las frecuencias esperadas haremos uso del siguiente razonamiento:
Si es cierto que la preferencia de los detergentes y el consumo por sector son independientes entonces la proporcin de consumo por detergente debe se igual entre los tres sectores. Detergente C O13 O23 O33 O.3 O.2 En otras palabras, la proporcin de consumo por detergente es 50/120, 40/120 y 30/120. O.1 Total Por ello, bajo la hiptesis de independencia, esperaramos que el total de los consumidores por sector estaran afectados por esta proporcin.
Detergente B
Alto
O11
Medio
O21
Sexo
Bajo
O31
Total
O1.
O2.
O3.
Luego el nmero esperado de consumidores por sector ser 36(50/120), 45(40/120) y 39(30/120).
Supongamos que se tom una muestra de 120 consumidores. Despus de usar los tres tipos de detergentes, se les pide manifestar su preferencia. Los resultados de la muestra se presentan en la siguiente tabla:
Detergente A
Alto Alto Medio Sexo Total 40 30 n= 120 50 40 30 Bajo 0.096 0.077 0.519 39 120 0.270 0.067 0.939 45 0.067 0.000 0.111 36 15 13 9.75 39 11.25 45
15
12
36
Medio
18.75
Sexo
Bajo
16.25
Total
50
Luego
= 2.146.
En consecuencia, hemos usado la siguiente frmula Usando Minitab encontramos el valor de (4) = 9.4877
Puesto que
<
(4)
Lo que falta ahora es repetir lo que hicimos en Bondad de Ajuste por Chi Cuadrado. Es decir obtener la suma de los cuadrados de las diferencias entre las frecuencias observadas y esperadas, dividido por las frecuencias esperadas. Slo que en este caso, la suma es con doble sumatoria, como aqu se indica,
Entonces, podemos afirmar que existe evidencia para sospechar que la preferencia por los detergentes es independiente del sector al que pertenece el consumidor.
tal que
El programa Minitab permite resolver problemas de contingencia usando Pruebas de Asociacin de variables por Chi Cuadrado
Los test de Chi Cuadrado permite probar si las probabilidades de clasificacin de una variable dependen de la clasificacin de otra variable.
El siguiente cuadro nos muestra la suma de los cuadrados mencionados lneas arriba.
Detergente A
< Stat > - < Tables > - < Chi Square Test >.
En siguiente ventana se debe ingresar la lista de las columnas que contienen las contingencias.
La siguiente figura(izuierda) muestra la secuencia que debemos usar para usar esta opcin de <Stat>. Aplicacin para el ejemplo propuesto:
De manera que usando <Stat> - <Table> - <Chi Square Test ...> pasamos a la siguiente ventana, que se muestra en la figura de la derecha.
El mismo ejemplo lo hemos resuelto por Minitab, obteniendo los siguientes resultados
All se debe ingresar las columnas de los datos que, para nuestro ejemplo corresponden a los tipos de detergentes, que corresponden a las contingencias.
Chi-Square Test
Procedimiento:
Chi-Sq = 0.067 + 0.000 + 0.111 + 0.270 + 0.067 + 0.939 + 0.096 + 0.077 + 0.519 = 2.146 DF = 4, P-Value = 0.709
Siendo el p-value > 0.05, aceptamos la hiptesis nula, equivalente a nuestra conclusin usando el valor de Chi cuadrado = 2.146. Para usar el Minitab seguiremos los siguientes pasos:
NOTA:
Paso 1: Ingresamos los datos a la hoja de trabajo del Minitab definiendo a C1 como Da, C2 como Noche y C3 como Fin de Semana
Pero el Minitab tambin resuelve pruebas de independencia cuando los datos no estn tabulados, como se explica en el siguiente ejemplo <Stat> - <Tables> - <Chi Square test >
Ejemplo 5
En <Columns containing > ingresamos las tres columnas: Dia, Noche y Fin de Semana
El gerente de un centro comercial quera saber si hay diferencias en la proporcin de mujeres compradoras a diversas horas durante diversos das de la semana. Se seleccionaron muestras aleatorias de 300 clientes en el da, 300 en la noche y 400 compradores en los fines de semana; obtenindose los siguientes resultados: Luego <Ok>
Dia
Noche
Fin de Semana
Hombres
90
125
185 Chi-Square Test Expected counts are printed below observed counts
Mujeres
210
175
215
Con un nivel de significacin del 5%, hay una diferencia en la proporcin de clientes en los diversos das y horas de la semana? 1
Total
Solucin
210 180.00
175 180.00
215 240.00
600
H0: No hay diferencia de eleccin del momento de compra Total 300 300 400 1000
Realizar esta prueba en Minitab es la misma que hicimos para independencia en una tabla de contingencia.
DF = 2, P-Value = 0.000
Puesto que el p-value es menor que 0.05, diremos que se rechaza la hiptesis de que no hay diferencia; es decir, existe evidencia de que las preferencia de compra difiere sobre el da y hora de compra.
Esto lo confirmamos con el valor de Chi-cuadrado calculado que es 19.358 vs el que encontramos usando
Con 2 grados de libertad Empleados Opinin Mayor que el promedio Menor que el promedio Total Obreros 68 57 125 De Oficina 45 30 75 Vendedores 70 30 100 Otros 60 15 75 243 132 375 Total
Encontramos 5.9915.
Realizar pruebas de independencia sobre una tabla de contingencia tambin resuelve otro tipo de preocupacin que tienen los investigadores sociales o estadsticos: El de la homogeneidad de los datos. Es lgico suponer que, si los datos obtenidos en la muestra, y organizados por diversas categoras, provienen de la misma poblacin, probablemente presenten una cierta homogeneidad en trminos de su dispersin. En el ejemplo anterior podramos preguntar si los resultados estadsticos obtenidos para los hombres tienen el mismo comportamiento que el de las mujeres.
H0: La opinin de los trabajadores de la empresa es la misma en todos ellos. H1: La opinin de los trabajadores de la empresa es diferente.
Segn esto, la Hiptesis Nula debiera plantearse como: La preferencia por el momento de compra es igual en mujeres que en hombres. De manera que la s hiptesis a plantearse sern:
Luego de ingresar los datos, excepto las columnas de totales, usamos la siguiente secuencia:
H1: La preferencia del momento de compra difiere entre compradores hombres y mujeres. Ingresamos las tres columnas y obtenemos los mismos resultados del ejemplo anterior:
Lo que nos lleva a rechazar la hiptesis de una opinin homognea entre los trabajadores. Para ello probar esta hiptesis los resultados del muestreo nos permitir formular la hiptesis alternativa en la que se afirme que dichos promedios son diferentes, con (1-D)100% de confianza.
3. Anlisis de la varianza
Si bien la distribucin muestral de la diferencia de medias muestrales permite realizar una comparacin entre dos poblaciones, cuando se trata de ms de dos poblaciones el procedimiento estudiado no lo permite. Y en la prctica hay muchas situaciones en las que debemos realizar comparaciones de medias entre ms de dos poblaciones.
Para resolver estos tipos de problemas usaremos el Anlisis de Varianza Puesto que queremos probar la igualdad de las medias, tomaremos como verdadera la hiptesis alternativa; es decir, que hay diferencia entre ellas.
El Anlisis de Varianza (ANOVA) permite estudiar la relacin de dependencia que puede existir entre un conjunto de variables independientes a las cuales se denominan Tratamientos o variables explicativas y una variable dependiente llamada tambin variable explicada o variables de respuesta.
Si esto es cierto, entonces mediremos el desvo o error de medicin entre las medias muestrales (entre tratamientos) y el promedio de las medias muestrales.
En este sentido un ANOVA se comporta como un anlisis de regresin excepto que un Anlisis de Varianza no supone dependencia y la prueba puede llevarse a cabo sobre variables de diferentes categoras, tanto cuantitativas como cualitativas.
Del mismo modo evaluaremos la variabilidad dentro de cada poblacin ( dentro de tratamientos) tomando en cuenta el error o desvo entre la media muestral y su promedio, en cada poblacin.
Fundamentacin:
Si la suma de estos cuadrados medios es bastante grande estaremos en posibilidad de rechazar la hiptesis nula.
Supongamos que P1, P2 y P3 representan las calificaciones medias de tres poblaciones que poseen determinada caracterstica sujeta a estudio.
Supongamos que la hiptesis de estudio consiste en afirmar que el comportamiento promedio en las tres poblaciones es la misma.
1. Para cada poblacin, la variable respuesta (el dato observado, variable dependiente) tiene una distribucin normal.
Del mismo modo, calculemos la Suma de los Cuadrados dentro de los Tratamientos (SSE) :
De manera que si
Xij
Pj
Supongamos que la Binarios PC S.A. se dedica a ensamblar equipos informticos en tres plantas ubicadas en Lima, Chiclayo y Arequipa. Puesto que esta empresa debe competir con un mercado que se satura muy rpidamente con otros compatibles, la gerencia de investigacin de mercado ha recibido el encargo de evaluar la calidad de sus productos a travs de la opinin de sus clientes ms representativos. Para ello se han diseado encuesta que incluye 100 preguntas respecto de opinin a favor o en contra referido a una serie de caractersticas de los equipos. Para ello se someti a la prueba a 6 clientes de cada una de las ciudades de ensamble.
n = n 1 + n 2 + ... + n k
Solucin
Calculemos ahora la Suma de los Cuadrados entre los Tratamientos (SSTR) : H0: P1 = P2 = P3 No hay diferencia significativa en el promedio de las calificaciones H1: Hay diferencia por lo menos entre un par de promedio de las calificaciones
, La siguiente tabla muestra los resultados obtenidos del muestreo as como algunas estadsticas obtenidas a partir de <Stat> - <Basic statistics> - <Display descriptive ....>
Que nos permitir calcular el Cuadrado Medio entre Tratamientos Cliente Lima Arequipa Chiclayo
1 75 73 84 75 79 Para el ejemplo: Fc = 28.0066 y F0.95 ( 2, 15 ) = 3.6823 Por consiguiente, rechazaremos la hiptesis nula si Fc > F1-D( k 1, n k ) es tal que Fc F( k 1, n k )
93
77
82
98
87
107
84
102
95
105
85
82
85 En consecuencia, rechazamos la hiptesis de que la calificacin promedio sean iguales en las tres plantas.
Media
101
85
Varianza
31.4721
29.7025
Desv. estndar
5.61
5.45
El programa Minitab nos permite obtener los resultados del Anlisis de Varianza con bastante facilidad. Para ello dispone de las siguientes opciones
n1 = 5, n2 = 7, n3 = 6
;k=3 ,
SSTR
MSTR =
1493.7778/2
= 746.8889
SSE
= 400.0254
MSE
400.0254/15 = 26.66836
Siguiendo con nuestro anlisis por el absurdo, si la hiptesis nula fuera verdadera, entonces MSTR y MSE constituiran dos estimadores insesgados e independientes de la varianza poblacional V .
La primera opcin permite realizar un anlisis de varianza cuando los datos han sido ingresados en una sola columna y en una segunda se encuentran los subndices que distinguen entre los tratamientos o variables.
En este caso el Minitab permite seleccionar una tcnica determinada para realizar la prueba, como lo veremos ms adelante. H1: Hay diferencia entre alguna pareja de medias poblacionales
La segunda opcin es usada cuando cada una de las variables ha sido ingresada en columnas separadas. La tabla del ANOVA que se obtenga ser el siguiente:
La estructura de las siguientes tablas nos indica la forma cmo debe prepararse al usar ANOVA
Fuente variacin Entre grupos Dentro grupos Total n-1 de n-k SSE k-1 SSTR
de Grados libertad
MSTR / MSE
a) En el primer caso los datos deben tener la disposicin mostrada en la tabla de la derecha, mientras que en la segunda todas deben estar en columnas separadas (izquierda).
SST
X11
X21
x31
....... Xk1
X12
X22
X32
....... Xk2
MSTR = MS
X13
X33
....... Xk3
...... Xknk
......
......
....... ......
X1n1
X2n2
X3n3
< Stat > - < ANOVA > - < One - way (Unstacked) >
En el recuadro <Responses> debemos ingresar todas las columnas que contienen los tratamientos o grupos. En el caso del ejemplo ingresamos C1 C3.
Luego
hacemos
clic
en
<Ok>
Los resultados se muestran a continuacin: con 2 grados de libertad en el numerador y 15 en el denominador, con un nivel de confianza del 95%, encontramos
Analysis of Variance
Source
DF
SS
MS
Factor
1493.8
746.9
28.01
Error
15
400.0
26.7
Total
17
1893.8
Level (----*----)
Mean
StDev -------+---------+---------+---------
C1
101.00
5.61
C2
85.00
5.45
(---*---)
C3
78.00
4.38 (---*---)
-------+---------+---------+--------90 100
Pooled StDev =
5.16
80
Observe que tambin se muestra el Intervalo de Confianza para las medias las que, como se ve, no se superponen; es decir, no coinciden o no son iguales.
Para ello, en la ventana mencionada se debe activar la opcin <Graphs> y elegir, por ejemplo, <Box plot of data> en cuyo caso obtenemos el siguiente grfico: La posicin de la mediana respecto a la media sugiere una diferencia principalmente entre los tratamientos Lima y Chiclayo.
Puesto que el p-value es menor que 0.05, rechazamos la hiptesis nula. Uso de la primera opcin
Recordando la solucin dada anteriormente, en el cual se us el valor calculado de F, encontramos que Fc = 28.0066 y usando
Qu ocurre si la variable de respuesta se encuentra en una sola columna y en la siguiente se tiene la identificacin de los grupos o tratamientos?
Para colocar las tres variables en la columna C5 y los Id de los tratamientos en C6:
Trabajar con mltiples poblaciones comparando sus promedios poblacionales para estudiar su comportamiento, es una generalizacin del Anlisis de la Varianza para mltiples poblaciones.
Pero visto cada muestra como un experimento, tenemos el caso especial de Diseo de Experimentos donde cada columna (variable poblacional) constituye una variable de respuesta o tratamiento y las filas, las observaciones encontradas para cada tratamiento de manera aleatoria.
En la opcin <Stack the following columns> ingresamos C1 C2 C3 ingresamos C5 Desde este punto de vista el estudio de comparaciones mltiples constituye una metodologa algo diferente, denominada Diseo de Experimentos completamente aleatorizados. ingresamos C6 Sin embargo el tema como tal, lo desarrollaremos en el siguiente captulo.
< Stat > - < ANOVA > - <One way > El procedimiento del ANOVA, visto anteriormente nos permite rechazar la hiptesis nula si se encuentra Pi z Pj para algn i z j .
ingresamos C6
Supongamos por ejemplo que se trata de elaborar un determinado medicamento para ser suministrado a un conjunto de pacientes de una determinada clnica. Para ello se dispone de cuatro tipos de medicamentos. Si por otro lado, estamos interesados en reducir los costos de fabricacin, luego de encontrar diferencia en los efectos promedios, no sera de gran importancia detectar cul o cules de ellos difieren entre s?.
Se trata entonces de realizar mltiples comparaciones de pares de medias poblacionales mediante el anlisis del ANOVA.
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 48 47 47 57 45 50 52 47 47 51 45 47 50 47 44 41 51 42 45 50 49 55 47 39 51 45 49 45 49 49 44 45 51 42 47 45 43 45 46 43 47 49 47 48 47 57 49 55 48 48 44 48 54 54 44 48 40 38 40 44 48 49 54 51 37 39 51 45
42
44
42
44
De manera que en este caso supondremos que se trata de probar las hiptesis
H1 : Pi z Pj para algn i z j
Esto nos recuerda la prueba de hiptesis de una diferencia de medias poblacionales, para las poblaciones i y j determinado.
De manera que segn sabemos, el estadstico que nos permitir aceptar o rechazar la hiptesis nula ser aquel que siga una distribucin t de Student con n k grados de libertad
con tc t(n k )
Por ello, si tc < tD/2 o tc > t1-D/2 entonces se rechazar la hiptesis nula.
Ejemplo 8
Los resultados de investigacin de mercado realizado por la venta diaria de un nuevo producto en cuatro sectores diferentes, ha dado como resultado los datos que se muestran en la siguiente tabla. Al nivel de confianza del 95%, son significativos las diferencias en el volumen de venta diaria? Se puede realizar un anlisis comparativo entre el promedio de ventas de pares de sectores?
Solucin
Obrero Sec. A 47 42 47 48
Sec. B
Sec. C
Sec. D
46
46
38
42
Antes de resolver el problema, expliquemos la opcin <Comparisons> del anlisis One Way del ANOVA. A continuacin resolveremos el problema
Si la prueba de hiptesis realizada indica que se debe rechazar la afirmacin de que no hay diferencia significativa a nivel de las medias poblacionales, entonces debemos tratar de identificar cul es el par de medias (pueden ser varios pares) poblacionales que difieren sustancialmente, que ha hecho que rechacemos la hiptesis nula.
La secuencia: < Stat > < ANOVA > < One Way > muestra la siguiente ventana
Al seleccionar la opcin <Comparisons ...> obtenemos la ventana que tambin se muestra en la figura, superpuesta a la primera. All hemos elegido los dos primeros mtodos con una tasa del 5%.
El mtodo One Way del ANOVA nos permite realizar este anlisis.
Para ello el Minitab dispone de cuatro mtodos similares, diferencindose uno de otro en el objetivo de su anlisis inferencial deseado, y los criterios de comparacin. Todos ellos requieren de una tasa de error individual o grupal (familiar) lo que se mide por lo general en trminos porcentuales. El Minitab usa por omisin, el 5%.
Mtodo de Tukey: Junto con el de Fisher, es el ms usado. El chequeo lo realiza sobre el intervalo de confianza de pares de medias poblacionales usando una tasa de error grupal, por omisin, de 5%.
Mtodo de Fisher: Difiere del anterior en que usa, para lo mismo, una tasa de error individual, que por lo general es tambin de 5%.
Mtodo de Dunnett: Compara la diferencia entre la media de cada tratamiento y la media de control(media de medias muestrales) usando una tasa de error grupal.
One-way Analysis of Variance Analysis of Variance for Tiempo Source Maquina Error 76 DF 3 SS 96.1 1361.7 MS 32.0 17.9 F 1.79 P 0.156
Mtodo Hsu MCB: Compara la diferencia entre el promedio de un determinado nivel y el mejor de los promedios de los otros niveles. Usa una tasa de error grupal del 5%.
Daremos solucin al ejemplo seleccionando los dos primeros mtodos que son los ms utilizados. Para ello supondremos una tasa de error del 5% (ingresado como 5).
Total
79
1457.9
Individual 95% CIs For Mean Family error rate = 0.0500 Individual error rate = 0.0103
Level
Mean
StDev -+---------+---------+---------+-----
20
20
20
46.500 3.954
(--------*---------)
20
48.500 3.859
(--------*---------)
-+---------+---------+---------+----48.0 50.0 1 2 3
Pooled StDev =
4.233
44.0
46.0
Source
DF
SS
MS
Maquina
96.1
32.0
1.79
0.156
-4.221 2.821
Error
76
1361.7
17.9
Total
79
1457.9 4 -6.171 0.871 -6.221 0.821 -5.521 1.521 Fisher's pairwise comparisons
Level N
Mean
StDev -+---------+---------+---------+-----
20
45.850
4.870 (--------*---------) Family error rate = 0.200 Individual error rate = 0.0500
20
45.800
4.175 (--------*--------)
20
46.500
3.954
(--------*---------)
20
48.500
3.859
(--------*---------) Critical value = 1.992 50.0 Intervals for (column level mean) - (row level mean)
-+---------+---------+---------+----48.0
Pooled StDev =
4.233
44.0
46.0
Por cada combinacin de grupos o tratamientos aparecen los lmites inferior y superior de los intervalos de confianza para la diferencia poblacional de las dos medias. Si los lmites de los intervalos de una pareja son de diferente signo entonces, los grupos o tratamientos son comparables, en caso contrario no lo son.
-2.616
2.716
-3.316
-3.366
El Mtodo Tukey nos permite concluir que los promedios de ventas diarias en todos los sectores son comparables.
2.016
1.966 Mientras que el Mtodo de Fisher nos permite concluir que los promedios de venta diaria entre el sector 2 y el 4 no pueden ser comparados.
-5.316
-5.366
-4.666
0.016
-0.034
0.666
El valor de Fc = 1.79 < 2.7249 = F0.95(3, 76) implica que no se rechaza la hiptesis nula; es decir que no existe diferencia significativa entre las medias poblacionales.
Del mismo modo, el p-value = 0.156 > 0.05; indican que no se rechaza la hiptesis nula; es decir, no hay diferencia significativa entre los promedios de ventas diaria de los cuatro sectores.
Empresa Citicorp Nations Bank Wells Fargo First Union Key Corp Chase Manhattan Fifth Third Corp
Clave 1 1 1 1 1 1 1
P/E 15 14 25 13 14 12 23
Un primer anlisis entre los intervalos que se muestra lnea arriba nos permiten deducir que no hay diferencia significativa entre los promedios (para que haya diferencia los intervalos no debieran tener ningn punto en comn).
Interpretacin:
Bank of New York 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 15 20 11 21 Analysis of Variance for P/E Source Clave Error Total DF 2 26 28 SS 23.8 410.4 434.2 Individual 95% CIs For Mean Based on Pooled StDev MS 11.9 15.8 F 0.75 P 0.481 13 12 16 20 Los resultados se muestran a continuacin 14 21 En < Graphs > seleccionamos Box Plot 17 22 En < Comparisions... > Seleccionamos los mtodos Tukey y Fisher 19 24 En < Factor > ingresamos C2 (Clave) 12 En < Response > ingresamos C3 (P/E) 15 19 < Stat > - < ANOVA > - < One Way > 16 15 16 13
17
Ante todo debemos ingresar los datos a una hoja de trabajo del Minitab en las columnas C1, C2 y C3, exactamente como lo tenemos en la tabla. Grabemos la hoja como BusWeek.mtw.
Mellon Bank
Puesto que los datos estn convenientemente ingresados, procedemos a ejecutar la siguiente secuencia de comandos:
American Express
Travelers
Merrill Lynch
MBNA
Cincinnati Financial
Franklin Resources
Fannie Mae
Allstate
American General
Cigna
Lincoln National
AFLAC
Equitable
Chubb
General Re
Solucin
Level
Mean
StDev ------+---------+---------+---------+
12
16.083
3.988 (--------*---------)
18.286
4.071
(-----------*-----------)
10
16.300
3.889 (---------*----------)
Pooled StDev =
3.973
15.0
17.5
-6.087
-3.714 3.281
-2.040 6.011
Intervals for (column level mean) - (row level mean) Puesto que el p-value = 0.481 es mayor que 0.05, aceptamos la hiptesis nula; es decir, concluimos de que la relacin precio / ganancia es similar para todos los grupos.
-6.892
-4.439
4.006
6.845
Del mismo modo, podramos usar el valor del F calculado = 0.75 menor que 3.3690
De manera que podemos tener un conjunto de variables (tratamientos) categorizadas por el tipo de dolencia. Esto implica que los resultados del experimento pueden ser agrupados por bloques y dentro de ellos por tratamientos.
1. Diseo de Bloque aleatorizados 2. Clasificacin de dos variables con repeticin 3. Uso de la opcin ANOVA balanceado 4. Regresin Lineal 5. Inferencia y ANOVA en Regresin Lineal
Los intervalos de confianza con lmites de diferente signo tambin afirman lo mismo.
La inferencia estadstica tiene mtodos especiales para realizar estudios para cada tipo de dato.
Hay una diferencia sustancial entre lo que significa trabajar con datos provenientes de observaciones y aquellos que pueden ser obtenidos a travs de un proceso experimental.
En el caso de los datos provenientes de situaciones observacionales, el objetivo inicial es la obtencin de una muestra. A partir de ella, y con la ayuda de la estimacin, inferimos comportamientos poblacionales.
Los datos observacionales son extrados mediante la realizacin de un fenmeno sin que para ello el investigador haya influido en los elementos de la muestra. Mientras que los datos experimentales provienen de un tratamiento previo a la cual se le somete a un conjunto de elementos de la muestra, luego del cual se tomarn en cuenta sus resultados.
En el caso de los datos provenientes de situaciones experimentales, una vez determinado el objeto del estudio (variable de inters) se procede a controlar diversas reacciones de los elementos de la muestra. Estas reacciones constituyen los factores de estudio en la variable de inters.
Los resultados obtenidos mediante la aplicacin de una encuesta constituyen datos observacionales. Los resultados obtenidos al realizar una prueba de orina a un conjunto de pacientes luego de someterlo a un determinado tratamiento, constituye datos experimentales. Este experimento se podra llevar a cabo en grupos de pacientes con diversas dolencias.
Caso 1:
Los auditores deben formarse un juicio acerca de varios aspectos de una auditora, con base a su experiencia directa y personal, en base a una experiencia indirecta, o a una combinacin de las dos. En un estudio se pidi a unos auditores que formaran su juicio sobre la frecuencia de errores que se pueden encontrar en una auditora.
En el segundo caso, adems de definir como tratamiento a cada uno de los procedimientos, es necesario distinguir los resultados tomando en cuenta las oficinas contables. En este caso las oficinas contables constituirn los factores o bloques en los cuales se divide cada uno de los tratamientos. Por esta razn debemos preguntarnos si la diferencia es significativa tanto entre los tratamientos as como dentro de los tratamientos.
Caso 2: En consecuencia podemos decir que dos ramas principales del Diseo de Experimentos, DOE son:
Se comparan cinco procedimientos de auditora en cuanto al tiempo total requerido para efectuar una. Estos procedimientos se realizan en cuatro oficinas contables diferentes. Diseo de Bloques Aleatorizados
Caso 1
El DOE se ocupa de este tipo de problemas y de otros como el caso de los Experimentos Factoriales, los que no los desarrollaremos en el presente trabajo.
Una empresa consultora recibi el encargo de evaluar cuatro marcas de vehculos respecto al rendimiento de combustible en dicha zona geogrfica. En la tabla siguiente se presentan los resultados obtenidos, en kilmetros por galn. En el primer caso, todas las observaciones constituyen un nico factor, para cada tipo de tratamiento. Este es el caso que hemos contemplado hasta ahora a travs del mtodo deComparaciones Mltiples.
Caso 2
Como producto del buen trabajo realizado por la empresa consultora, se encarg realizar un estudio de preferencia por la marca de vehculo en cuatro regiones diferentes y orientado a tres sectores de consumidores.
Problema:
Cuando en el primer caso los datos provienen de observaciones o experimentos de ms de un factor, ste puede influir en los resultados del anlisis. Por ejemplo, no es lo mismo comparar los promedios de las notas de los cursos de Estadstica, Clculo II y Mercadotecnia (Tratamientos), dictado en 12 secciones (datos), sin tomar en cuenta las facultades (factores) en las que se dictan.
Determinar si hay diferencia significativa entre los componentes Nuestro objetivo es tratar de controlar algunas variaciones provenientes de ciertas variables exgenas provenientes de las facultades. De esta forma reduciramos el valor de MSE con lo cual
Si en el primer caso definimos como tratamientos a la formacin de juicios: Experiencia directa, experiencia indirecta y de ambos, entonces en este caso se trata de comparar si hay diferencia entre tratamientos.
aumentara de valor, evitando de esta manera la aceptacin de la igualdad de medias en un anlisis comparativos de promedios.
Como se puede apreciar, podemos realizar, entre otros, un Anlisis de comparacin de medias, visto previamente; el ANOVA balanceado y el modelo lineal generalizado son procedimientos empleados en anlisis de datos con diversos tipos de experimentos.
El programa Mintab para resolver este tipo de problema, dispone del ANOVA en su opcin TWO WAY, esto lo obtenemos siguiendo la siguiente secuencia:
Supongamos que se desea realizar un estudio sobre el consumo de combustible en Km/Gal, de 4 marcas de vehculos, tomando en cuenta los tres tipos de combustible.
<Stat> - <ANOVA> Esto nos permite obtener la lista de las diversas modalidades o tipos de problemas que podemos resolver tanto como simples problemas de anlisis de comparacin de medias, como diseo de experimentos complejos.
En este caso, la variable en estudio es el consumo de combustible. Y es el dato que se ha recogido en la muestra. Es esta la variable respuesta (Response); estos datos se agrupan en tres grupos (bloques) segn la marca de vehculo y los tratamientos est constituido por el tipo de combustible al cual se les somete a los vehculos.
En el tema de anlisis de varianza ya nos hemos ocupado de las opciones <One-Way> y <OneWay (no apilado)>.
Al ingresar por <Two-Way> obtendremos la ventana que se muestra en el lado derecho de la figura anterior.
En <Row Factor> se deber ingresar la columna que contiene los bloques o factores (Marca).
En <Column Factor> se deber ingresar la columna que define a los elementos que forman cada uno de los tratamientos; en el caso del ejemplo, los tipos de combustible.
La siguiente tabla muestra un conjunto de kr observaciones distribuidas en k grupos que conforman los tratamientos (ubicados por columna) y los cuales han sido agrupados en r tipos diferentes de categoras a los cuales los llamaremos Bloques o Factores.
Grupo 1 ............ ............ ............. ............. ............... ............... ............... ............... ............ .......... Donde k representa el nmero de tratamientos, r representa el nmero de bloques.
Grupo 2
...........
Grupo k
Bloque 1
Bloque 2
......
...............
...............
Bloque r
Una firma contratista requiere de tres ingenieros civiles para realizar estimaciones de costos con la finalidad de participar en diversas subastas relativas a construccin. Para determinar si uno de ellos tiende a ser ms conservador(o liberal) que los otros, la firma contratista selecciona 4 proyectos de construccin y solicita a cada ingeniero que estime el costo de cada proyecto, independientemente uno de otro. Los datos se muestran a continuacin
Para ingresar estos datos al Minitab, se debe redisear la presentacin de la tabla de tal forma que se adecue a los requerimientos del Minitab, que consiste en:
Trabajo de construccin A 1 2 3 4 Total Medias 3500 3400 3100 3100 13100 3.275 B 3400 3400 3300 3400 13500 3.375
Ingeniero C 3600 3500 3200 3300 13600 3.400 Total 10500 10300 9600 9800 40200
En la siguiente columna, la secuencia de los bloques, que por lo general pueden estar identificados en secuencia, y
Finalmente en la tercera columna, una identificacin de los factores, los que tambin estarn representados por un identificador.
Solucin
Supongamos que Pi representa el promedio emitido por cada uno de los Ingenieros
H1 : Pi z Pj para algn i z j
H1 : Pi z Pj para algn i z j
Ingrese los datos a Minitab usando el siguiente procedimiento y grbelos como Anova3.mtw
En <Response> la columna C6 (Datos) En <Row factor > la columna C7 (Bloques) En <Column factor> la columna C8 (Tratamientos)
Paso 1: Damos nombre a las columnas: C1: Proyecto; C2: Ing. A; C3 Ing. B; y C4 Ing. C
Esto lo hacemos usando <Data> - <Stack> - <Columns> C2 C4 Analysis of Variance for Datos Source Bloq Trat Error Total DF 3 2 6 11 SS 176667 35000 58333 270000 17500 9722 MS 58889 1.80 F 6.06 0.244 P 0.030
Paso 4: En la columna C7 ingresamos 1, 2, 3, 4 tres veces un bloque por cada Ingeniero. Que el nombre de esta columna sea Bloques.
Paso 5: En la columna C8 ingresamos 1s en todos los datos de A, 2s en todos los datos de B y 3s en los de C. Que esta columna se llame Tratamientos.
Ahora, usando
<Calc> - <Probability distributions> - <Inverse cumulative probability> En consecuencia rechazamos la hiptesis nula; es decir, s hay evidencia suficiente para afirmar que los costos emitidos por los ingenieros, por cada proyecto, difieren uno de otro.
Como Fc = 1.8 < 5.1433 entonces concluimos que no hay evidencia suficiente para rechazar la hiptesis nula; es decir, no hay diferencia en la estimacin de los costos promedio realizados por los tres ingenieros.
El anlisis complementario que haremos a continuacin, ser reforzado en el siguiente ejemplo. Lo hacemos aqu aprovechando los resultados emitidos por el Minitab.
Sin embargo, si tomamos en cuenta una prueba dentro de los tratamientos; es decir, si Pi representa el promedio emitido por los Ingenieros por cada Proyecto, podemos plantear la siguiente prueba de hiptesis:
a) Proporcionan los datos suficiente evidencia que indique que las plantas producen la misma calidad de focos? b) Hay evidencia de que los cuatro tipos de filamentos tienen el mismo efecto sobre la duracin de los focos?
Fc = 6.06
Ante todo observe nuestro amable lector, que en este problema se plantea dos preguntas totalmente diferentes una de otra. En el primer caso se plantea una prueba de hiptesis de comparacin en el tiempo de duracin de los focos de las tres plantas. Mientras que en el segundo, se pide realizar una prueba de hiptesis de comparacin sobre el efecto que pudiera producir en el tiempo promedio de rendimiento, el tipo de filamento.
F (2, 6) = 5. 1433
Paso 1: Ingrese los datos a una hoja de trabajo haciendo corresponder a cada columna de la tabla con las columnas C1, C2, C3 y C4 del Minitab. El archivo es Anova4.mtw
Se trata pues de un problema de Anlisis de Varianza en donde se toma en cuenta dos variables. Paso 2: Debemos arreglar esta data de acuerdo a los requerimientos del Two Way del Minitab.
Las pruebas a ser contrastadas sern: Para ello, usemos la siguiente secuencia de comandos:
a) Para el caso de la comparacin de promedios de tiempo entre plantas: a) Colocar los tiempos de las tres plantas en la columna C6(Tiempos):
H0: Pi = Pj para algn i z j para i , j = Planta 1, Planta 2, Planta 3 < Manip > - < Stack/unstack > - < Stack columns> En < Stack the following columns > ingresar C2 C3 C4 En < Store the stacked data in > ingresar C6(Tiempos) En < Store subscripts in > ingresar C8(Plantas)
H1 : Pi z Pj para algn i z j
b) Para el caso de la comparacin de los efectos en los tiempos entre los filamentos:
H0: Pi = Pj para algn i z j para i, j = Filam. 1, Filam. 2, Filam. 3 y Filam. 4 b) Colocar la identificacin de los factores en la columna C7(Filamento)
H1 : Pi z Pj para algn i z j
En ambos casos rechazaremos la hiptesis nula si el p-value es menor que 0.05 o de manera equivalente, si el Fc resulte mayor que el F de la tabla
< Manip > - < Stack/Unstack > - < Stack Blocks of columns > En <Store two or more blocks of columns > ingresar en las tres primeras filas en blanco, C1 (Filamentos) En < Store stacked data in > ingresar C7 (Filamento)
Donde, como se dijo antes, k representa el nmero de tratamientos (columnas) y r representa el nmero de bloques (filas).
< Stat > - <ANOVA > - < Two Way >. En la ventana que salga: En <Response> ingresar C6 (Tiempos) En < Row Factor > ingresar C7 (Filamento) En < Column Factor > ingresar C8 (Plantas) Activar <Display means> (aunque no es necesario)
196.0
(-----------*-----------)
Analysis of Variance for Tiempos P a) Puesto que el p-value = 0.979 > 0.05 (o Fc = 0.06 < 5.1433 = F(2, 6) ) entonces, no hay evidencia suficiente para rechazar la hiptesis nula; es decir, las tres plantas producen la misma calidad de focos
Source
DF
SS
MS
Filament 0.092
8.7
2.9
0.06
0.979
Plantas
354.7
177.3
3.65
Error
291.3
48.6
b) En este caso, como el p-value = 0.092 > 0.05 ( o Fc = 3.65 < 4.7571 = F(3, 6) ) entonces, no hay evidencia suficiente para rechazar la hiptesis nula; es decir, el tipo de filamento no influye en la calidad de los focos o al revs, los cuatro filamentos tienen el mismo efecto sobre los focos.
Total
11
654.7
Individual 95% CI
193.0
(----------------*---------------) El siguiente ejemplo es tratado como una aplicacin del modelo de clasificacin de dos variables con replicacin, como una extensin del anlisis anterior.
190.7(----------------*---------------)
191.3 (----------------*---------------)
191.7 (---------------*----------------)
---------+---------+---------+---------+--
Y puesto que debemos tomar en cuenta la repeticin de las veces que se realiza el experimento por cada tratamiento y para cada bloque, es natural preguntarse tambin si las interacciones entre bloques y tratamientos tiene alguna diferencia significativa.
186.0
192.0
198.0
204.0 Todo se reduce a disponer los datos de acuerdo a los requerimientos de entrada del Minitab.
Individual 95% CI
Ejemplo 3
El siguiente cuadro muestra las compras de caf filtrante de 18 familias.
184.0 (-----------*-----------)
195.0
(------------*-----------)
H0: No hay diferencia significativa en el consumo del caf entre las ciudades Para las interacciones entre propaganda y ciudades(Interacciones) Ms de 10 veces 30 25 25 30 Se rechazar la hiptesis nula si el valor del p-value es < 0.05 o de manera equivalente, se rechazar la hiptesis nula si el valor calculado de F, Fc es mayor que el valor F de la tabla, de acuerdo a los siguientes grados de libertad. 32 18 H0: No hay ninguna relacin entre la propaganda televisada y las ciudades H0: Si hay alguna relacin entre la propaganda televisada y las ciudades
Ciudades 20 19 31
De 1 a 5 veces
De 6 a 10 veces
19
27
18
18
26
27
24
21
19
Cada familia est clasificado segn la ciudad en que reside y el nmero de veces que fue expuesta a la propaganda de caf, dada en la televisora local. Para conocer la evolucin del efecto de la propaganda, se desea saber, al nivel del 5%: Sea k: Nro. de tratamientos;
a) Si hay alguna diferencia entre la propaganda televisada y el consumo del producto Sea r: Nro. de bloques y
b) Si hay alguna diferencia significativa en el consumo del caf entre las ciudades
c) Si hay alguna relacin entre la propaganda televisada y las ciudades Sea l: Nro. de veces que se replica
Solucin a) Para tratamientos b) Para bloques : Fc > F[k-1, rk(l-1)] : Fc > F[r-1, rk(l-1)] c) Para las interacciones : Fc > F[(r-1)(k-1), rk(l-1)]
H0: No hay diferencia significativa entre propaganda televisada y el consumo del caf C1 Ciudades A A B C2 V1 19 27 18 C3 V2 18 20 27 C4 V3 30 18 25 C5 C6 C7 Veces Bloques 19 27 18 A A B 1 1 1 C8 Trat.
H1: Si hay diferencia significativa entre propaganda televisada y el consumo del caf
H0: No hay diferencia significativa en el consumo del caf entre las ciudades
B 24 En < Store subscripts in > ingresar C8(Trat.) 21 18 20 27 19 19 31 30 18 25 32 25 30 C 3 En < Row Factor > ingresar C7 (Bloques) C 3 B 3 En <Response> ingresar C6 (Veces) B 3 A 3 < Stat > - <ANOVA > - < Two Way >. En la ventana que salga: A 3 C 2 Paso 4: Resolver el problema. Para ello ingresamos la siguiente secuencia C 2 B 2 En <Store stacked data in> ingresar C7 (Bloques) B 2 A 2 En las tres primeras filas de la siguiente ventana, ingresar C1(Ciudades) A 2 <Manip> - <Stack/Unstack> - <Stacks Blocks of columns> C 1 C 1
26
19
32
26
24
19
25
21
31
30
Paso 1: Ingresar los nombres de las columnas En < Column Factor > ingresar C8 (Trat.)
Paso 2: Ingresar los datos de C1, C2, C3 y C4 segn se indica Activar <Display means> (aunque no es necesario)
Paso 3: Coloquemos los datos de acuerdo a los requerimientos del Minitab: Los resultados se muestran a continuacin
En < Stack the following columns > ingresar C2 C3 C4 Analysis of Variance for Veces
Source
DF
SS
MS
Bloques
31.0
15.5
0.49
0.627
Trat.
72.3
36.2
1.15
0.360
b) En este caso, como el p-value = 0.627 > 0.05 ( o Fc = 0.49 < 4.2565 = F(2, 9) ) entonces, no hay evidencia suficiente para rechazar la hiptesis nula; es decir, no hay diferencia en el consumo del caf entre las ciudades.
Interaction
29.7
7.4
0.24
0.911
Error
283.5
31.5
Total
17
416.5
c) Finalmente, como el p-value = 0.911 > 0.05 (o Fc = 0.24 < 3.6331 = F(4,9)) entonces, diremos tambin que no existe alguna relacin significativa entre la propaganda televisada y el consumo del caf por ciudad.
Individual 95% CI
Bloques
Mean --+---------+---------+---------+---------
22.0 (--------------*--------------) La Dra. Bslavi es una investigadora que intenta aislar el virus del SIDA. Planea realizar un experimento usando cuatro catalizadores (C 1, C2, C3 y C4) durante la produccin de una sustancia qumica para ver sus efectos en las clulas de un paciente infectado con el virus.
24.5
(--------------*--------------)
25.0
(-------------*--------------)
--+---------+---------+---------+--------Durante el desarrollo de la investigacin la Dra. Bslavi decide estudiar el efecto de cada uno de estos catalizadores en tres niveles de temperaturas diferentes (T 1, T2 y T3). Los datos recogidos en porcentaje de concentracin se muestran en la siguiente tabla.
17.5
21.0
24.5
28.0
Trat.
Mean -+---------+---------+---------+---------+
22.5 (--------------*--------------)
22.3 (--------------*--------------)
26.7
(--------------*--------------)
-+---------+---------+---------+---------+
17.5
21.0
24.5
28.0
a) Puesto que el p-value = 0.360 > 0.05 (o Fc = 1.15 < 4.2565 = F(2, 9) ) entonces, no hay evidencia suficiente para rechazar la hiptesis nula; es decir, no hay diferencia significativa entre la propaganda televisada y el consumo.
Solucin
T2 71 71 74 72 76 76 83 85 81 78 81 84 81 83 82 78 76 84 79 82 85 79 76 84 T2 T2 T3 T3 T3
H1: Si hay diferencia significativa entre el catalizador y la concentracin Las columnas constituyen los tratamientos (k = 4) con [(k-1,rk(l-1)] grados de libertad Las filas constituyen los bloques (r = 3) con [(r-1, rk(l-1)] grados de libertad Las interacciones (l=3) entre Tratamiento y Bloque tiene [(k-1)(r-1), rk(l-1)] gdos. lib. Ingrese los datos de acuerdo a la siguiente hoja:
H0: Si hay diferencia significativa en la concentracin por niveles de temperatura Temp. Cat. 1 Cat. 2 Cat. 3 Cat. 4 T1 T1 T1 T2 T2 T2 T3 T3 T3 C3 74 76 79 81 84 79 T2 2 81 77 T1 2 C4 67 75 71 71 74 72 76 76 73 68 73 77 79 79 78 81 78 83 74 76 79 76 82 76 83 81 85 81 84 81 84 85 84 82 84 81 Concent. 73 67 75 71 71 74 72 76 76 68 73 Temperat. T1 T1 T1 T2 T2 T2 T3 T3 T3 T1 T1 Cataliz. 1 1 1 1 1 1 1 1 1 2 2
H0: No hay ninguna relacin entre los catalizadores y los niveles de temperaturas
H0: Si hay ninguna relacin entre los catalizadores y los niveles de temperaturas
Vamos a colocar como columna a los cuatro catalizadores: (C1, C2, C3 y C4) y como fila o bloques a los tres niveles de temperaturas: (T 1, T2 y T3). El resultado es el siguiente:
C1
C2
T1
73
68
T1
67
73
T1
75
77
79 78 81 78 83 74 76 79 76 82 76 83 81 85 81 84 81 84 85 84 82 84 81 T3 4 T3 4 T3 4 Temperat T1 T2 T3 T2 4 Individual 95% CI Mean ----------+---------+---------+---------+75.67 78.25 80.17 (------*-------) (------*-------) (-------*-------) ----------+---------+---------+---------+76.00 78.00 80.00 82.00 T2 4 T2 4 T1 4 T1 4 Cataliz. Interaction Error Total T1 4 Temperat 3 6 24 35 T3 3 Source DF 2 T3 3 T3 3 Analysis of Variance for Concent. SS 122.39 475.64 79.61 161.33 838.97 MS 61.19 158.55 13.27 6.72 F 9.10 23.59 1.97 P 0.001 0.000 0.109 T2 3 Two-way Analysis of Variance T2 3 T2 3 Los resultados son los siguientes: T1 3 T1 3 T1 3 En < Column factor > ingresamos Cataliz. o la columna C9 T3 2 En < Row factor > ingresamos Temperat. o la columna C8 T3 2 T3 2 En < Response > ingresamos Concent. o la columna C7 T2 2
T2
< Stat > - < ANOVA > - < Two Way >
Individual 95% CI
Cataliz.
Mean --------+---------+---------+---------+---
Se realiz un experimento que consista en tomar el tiempo que tardaban 6 empleados de una financiera para resolver un determinado problema mediante la hoja de clculo Excel y una calculadora. Los problemas a resolver eran de dos tipos: Financieros (F) y Estadsticos (E). Los tiempos obtenidos se muestran en el siguiente cuadro.
1 Empleados de la financiera Carlos F Excel 3.1 2.5 8.1 5.3 7.6 3.8 2.8 3.0 Calculadora 7.5 5.1 2.0 4.9 E F E F E F 3.4 7.8 Pablo Jos Lucas E 2.7 5.5
72.78
(----*----)
77.33
(----*----)
79.11
(----*----)
82.89
(----*----)
--------+---------+---------+---------+--84.00
73.50
77.00
80.50
De acuerdo al valor del p-value se puede comprobar que las dos hiptesis nulas sern rechazadas; es decir, hay diferencia en el porcentaje de la concentracin tanto debido al uso de los catalizadores como el sometimiento a una determinada temperatura; sin embargo, la interaccin entre los niveles de temperatura y los catalizadores es insignificante, lo que implica que no se rechaza la hiptesis nula. Solucin
Hay diferencia en los tiempos promedio de clculo entre el tipo de problema y la forma de resolverlo?
La diferencia respecto al primer modelo One Way es que el anlisis se realiza por variacin individual y el nmero de observaciones debe ser el mismo para cada uno de los tratamientos. Aqu no hay distincin entre las probables interacciones que pudieran presentarse en diferentes observaciones del mismo tratamiento, que es lo que toma en cuenta el modelo de dos variables con replicacin.
Los datos deben ser ingresados a la hoja de trabajo segn se indica, en C1, C2, C3, C4
Ejemplo 5
El siguiente problema, que nada tiene de particular respecto a los anteriores, ser resuelto utilizando la opcin < Balanced ANOVA...> del Anlisis de Varianza, ANOVA, del comando < Stat > del Minitab.
Pablo Nuevo Antiguo Nuevo Antiguo Nuevo Antiguo Tipo pro fixed 2 Nuevo Modelo Antiguo Nuevo Antiguo Analysis of Variance for Tpo. Rpt fixed 2 Antiguo Nuevo Estad Matem Analysis of Variance (Balanced Designs) Los resultados se muestran a continuacin:
8.1
Estad
Antiguo
Pablo
2.8
Matem
Pablo
5.3
Matem
Jose
3.0
Estad
Jose
7.6
Estad
Jose
2.0
Matem
Jose
4.9
Matem
Lucas
3.4
Estad
Lucas
7.8
Estad
Lucas
2.7
Matem
Lucas
5.5
Matem
Manuel 3.3
Estad
Nuevo
Manuel 6.9 Source Particip Tipo pro Nuevo Modelo Antiguo Error Nuevo Total Antiguo 23 16 1 5 1 DF
Estad
Antiguo SS 1.053 16.667 72.107 4.692 94.518 MS 0.211 F P 0.72 0.619 16.667 56.84 0.000 72.107 245.91 0.000 0.293
Manuel 2.5
Matem
Nuevo
Manuel 5.4
Matem
Antiguo
Luis
3.6
Estad
Luis
7.8
Estad
Luis
2.4
Matem
Luis
4.8
Matem
Por el valor del p value podemos decir que s hay diferencia en el tiempo de respuesta debido a los participantes; mientras que los tiempos de respuesta promedio no difieren por el tipo de problema, as como tampoco por el modelo de clculo usado.
< Stat > - < ANOVA > - < Balanced ANOVA ... > . En la siguiente ventana
ingresar 'Particip.'
Donde E y D sern los parmetros a ser estimados y P ser la variable de perturbacin tal P N(0, V ).
Igualmente, en el caso multidimensional, X constituir una matriz de variables independientes o explicativas y Y la variable dependiente o endgena.
En Economa, Administracin y en general en todas las ciencias sociales y naturales se estudia entre otros temas, la relacin que existe entre dos variables. La cantidad demandada de un determinado producto en un mercado se considera como una funcin del precio; los costos de produccin de un determinado artculo se suponen que estn en funcin de la cantidad de artculos producidos; los gastos de consumo se consideran como una funcin de la renta; etc. Todas estas relaciones son tal vez representaciones muy simplistas de los verdaderos modelos cuyas formulaciones ms realistas requieren tal vez de la especificacin de muchas ms variables en cada una de sus relaciones. As podramos decir que la demanda puede considerarse como una funcin del precio, de los ingresos y de los precios de otros productos afines: los costos de produccin dependern del volumen de la misma, del precio de los factores de produccin y de los cambios en dicho volumen; del mismo modo los gastos de consumo pueden especificarse como una funcin de los ingresos, de la liquidez y de los niveles previos de consumo. Regresin en Minitab
El nmero de relaciones incluidas en un modelo econmico depende de los objetivos para los que se ha construido el modelo y del grado de explicacin que se pretende. Todos los modelos econmicos, tanto a nivel micro como a nivel macroeconmico, sea que pertenezcan a una industria, empresa o a un mercado, tienen similares caractersticas bsicas comunes.
El programa Minitab dispone de la opcin < Regression > del comando < Stat > para el anlisis de regresiones simples o mltiples.
La siguiente ventana es la que se obtiene al usar < Stat > - < Regression >.
Y desde el punto de vista matemtico, la relacin entre una variable y otras se expresa mediante el modelo y = f(x), en el cual los argumentos de la funcin constituyen las variables independientes, variables exgenas o explicativas y la variable y constituye la variable dependiente, endgena o explicada. Igualmente este modelo puede estar regido por una relacin lineal, cuadrtica, logartmica, etc.
Por otro lado, si la relacin existente es una relacin no lineal, se puede utilizar algn criterio matemtico para transformar dicha relacin en otra lineal equivalente. Por ello en este ltimo tema pretendemos resolver sistemas o modelos lineales desarrollados mediante el uso del programa Minitab.
La opcin < Regression > permite realizar una estimacin por el mtodo de los Mnimos Cuadrados Ordinarios para una regresin lineal simple y mltiple. Permite almacenar los resultados tanto de los valores ajustados como los residuales para un anlisis posterior; la generacin de los puntos de estimacin, de los valores de prediccin as como intervalos de confianza para los parmetros poblacionales y pruebas de ajuste de holguras.
Y = EX + D + P
La opcin < Stepwise > permite realizar el anlisis por pasos para aadir o remover variables con la intencin de identificar un conjunto de predictores(independientes). Hay tres procedimientos comunes: El stepwise estndar (aadiendo o removiendo variables); el stepwise hacia atrs(removiendo variables) y el forward stepwise(hacia delante, aadiendo variables).
United American Delta America West TWA 68.5 1.25 70.8 1.22 71.2 0.72 72.2 0.93
73.8
0.74
La opcin < Best subsets regression...> permite realizar un anlisis ms detallado usando el criterio del mximo r, examinando primero modelos de regresiones de un predictor, seleccionando despus los dos modelos que proporcionan el mximo r . El Mintab muestra los resultados de dichos modelos y examina ahora los modelos de dos variables predictoras, selecciona dos de los modelos que tengan el mejor r y visualiza los resultados; este proceso contina hasta que el modelo contenga todos los predictores.
La opcin < Fitted line plot ..> Permite ejecutar regresiones con trminos lineales y polinomiales de segundo y tercer orden de una variable predictora y plotea la lnea de regresin.
Ajuste una relacin lineal, cuadrtica o cbica para el diagrama de dispersin de estos datos. Indique la variable dependiente y la independiente.
Todo esto constituye un anlisis lineal de un modelo bsico basado en la tcnica de Mnimos Cuadrados Ordinarios. Como se puede ver, podemos realizar anlisis por mnimos cuadrados parciales y tambin problemas referidos al anlisis de regresin logstica y binaria. Solucin
Sin duda las quejas dependern de cun puntuales fueron las aerolneas. Por ello la variable Quejas ser la variable dependiente y la variable Puntualidad ser la independiente.
Siguiendo la metodologa de la estadstica paramtrica, la obtencin de los estimadores de los parmetros de la regresin, nos permitirn inferir resultados y plantear pruebas de hiptesis acerca del modelo, las que debern ser contrastadas usando los mismos criterios ya estudiados en una prueba de hipotesis.
Ejemplo 6
En The Wall Street Journal Almanac 1998 aparecieron datos sobre el desempeo de las aerolneas estadounidenses. A continuacin vemos los datos sobre el porcentaje de vuelos que llegan puntuales y la cantidad de quejas por 10,000 pasajeros.
% de puntualidad
% de Quejas
Southwest
81.8
Hagamos uso del programa Minitab para seleccionar una adecuada estimacin de estos parmetros.
Continental
76.6
NorthWest
76.6
Antes de ajustar el problema a un modelo lineal, convendra disponer del diagrama de dispersin para ver si la hiptesis de formular un modelo lineal se adecua. Trace un diagrama de dispersin usando <Graph> - <ScatterPlot> Como variable X: Puntualidad y variable Y: % de quejas. El siguiente es el grfico
US Airways
75.7
Seleccionemos primero la opcin < Linear > y con el mismo procedimiento seleccione despus la opcin < Cubic >.
Creemos que un modelo lineal puede ser un ajuste adecuado para estos datos, aunque habra que medir la relacin entre las dos variables pues parece que el porcentaje de dependencia es algo conservador.
Paso 1: Ingresamos los datos de la tabla en las columnas C1, C2 y C3 de una hoja de trabajo del Minitab.
Paso 2: Tratemos de ajustar los datos a una lnea de ploteo usando la secuencia:
< Stat > - < Regression > - < Fitted line Plot >. En la ventana que se obtenga S = 0.160818 R-Sq = 77.9% R-Sq(adj) = 74.7%
Analysis of Variance
Source
DF
SS
MS
Error
7 0.181037 0.025862 Los datos y resultados de este ejemplo lo encontramos en el archivo Regre02.mtw. All encontramos que las columnas C8 y C9 contienen el cuadrado de los residuales y las celdas de las columnas C10 y C11 contienen las varianzas y las desviaciones estndares para los dos modelos.
Total
8 0.819156
Mientras que al usar la opcin < Cubic >, la ecuacin de estimacin obtenida es Se puede apreciar que el modelo cbico tiene menor dispersin que el modelo lineal.
Y = 414.437 - 16.4312X + 0.218026X**2 - 9.67E-04X**3 Ahora vamos a realizar el anlisis de regresin correspondiente al problema. Para ello usemos la siguiente secuencia:
R-Sq = 81.1 %
Con slo observar el r podemos afirmar que los datos se ajustan mejor a una funcin cbica y no a una lineal.
Para mayor detalle veamos qu sucede con la varianza de los errores, lo que lo conseguiremos tomando en cuenta los residuales.
Para ello es suficiente hacer clic en la opcin < Storage> de la ventana anterior y activar < Resduals > (se puede almacenar tambin los valores ajustados <Fits> que los almacenaremos en la columnas C4 y C5.
En ella ingresemos en < Response > la variable dependiente C3 y en < Predictors > se ingresar todas las variables predictoras o independientes; en este caso, C2. Ingresando por <Options> active < Durbin Watson >
Puesto que queremos comparar las varianzas de los residuales con ambos modelos (lineal y cbico) hagamos lo mismo con el modelo cbico, cuyos residuales y fits los almacenaremos en las columnas C6 y C7.
Regression Analysis
Coef
StDev
Constant
6.018
1.052
5.72
% de pun
-0.07041
0.01418
-4.97
S = 0.1608
R-Sq = 77.9%
R-Sq(adj) = 74.7%
El coeficiente de regresin E = - 0.07401; representa el cambio que experimentara la variable Y (% de quejas) por cada unidad de cambio en la variable X ( % de puntualidad). Si se incrementa la puntualidad, el porcentaje de quejas se reducir, como es lgico.
Analysis of Variance
La grfica anterior fue obtenida con el MS Excel. Tomando en cuenta la ecuacin resultante de los modelos lineal y cbico se han obtenido estimaciones para porcentajes de puntualidad de 0 a 20. Se puede apreciar en ambos casos que, a mayor puntualidad el porcentaje de quejas disminuye. P 0.002
Source
DF
SS
MS
Regression
0.63812
0.63812
24.67
Residual Error 7
0.18104
0.02586
Total
0.81916
a) El trmino independiente llamado tambin intercepto D = 6.02, representa el valor inicial de Y; es decir, el 6.02% de quejas se recibira si ninguna aerolnea fuera puntual. En muchos casos esta constante no es lgicamente significativa.
Por otro lado, si tomamos en cuenta la diferencia entre los parmetros y sus estimadores, los elevamos al cuadrado y dividimos la suma de ellos entre el nmero de grados de libertad correspondientes, estaremos hablando del anlisis de varianza de una lnea de regresin.
b)
Como por lo general se desconoce la varianza poblacional de cada uno de los parmetros y como el nmero de datos, por lo general no permite el uso de una distribucin normal, el estadstico que se emplea tanto para la obtencin de los intervalos de confianza como para las pruebas de hiptesis es aquella cuya distribucin es t de Student con n 2 grados de libertad.
En el caso del anlisis de varianza, por su naturaleza misma seguiremos usando la distribucin F y/o el p-value.
En el ejemplo anterior, puesto que el valor de p-value para el coeficiente de regresin es 0.002 < 0.05, entonces rechazamos la hiptesis nula; es decir, que el porcentaje de quejas depende de alguna manera, de la puntualidad de llegada de los vuelos. Sin embargo, si utilizamos el valor del tc calculado que, como se puede ver tc = -4.97 y el valor de t de Student con 7 grados de libertad t0.975(7) = 1.8946; debiramos aceptar la hiptesis nula.
El estadstico a ser calculado, se define como De manera que frente a esta disyuntiva, en regresin es ms confiable utilizar el valor de r.
De manera que el Intervalo de Confianza de (1 - D)x100% para el coeficiente de regresin Ei, ser
Cun grande es la relacin entre las dos variables, en trminos cuantitiativos?, la prueba de hiptesis no nos permite responder a esta pregunta. El coeficiente de correlacin ser un indicador que nos permitir extraer esta conclusin. En este ejemplo, el estimador del coeficiente de correlacin, r = 0.74 . Esto indica que el porcentaje de quejas no depende exclusivamente del porcentaje en la puntualidad de llegadas de los vuelos; es decir, existe otros factores.
Nota:
Respecto a la docimasia, podramos plantear una Prueba de Hiptesis de estos mismos coeficientes afirmando que no existe ninguna relacin entre las variables predictoras y la variable predicha; esto es
Existir una correlacin perfecta; es decir, existir una relacin de dependencia total si el coeficiente de correlacin r 1 o r -1. En el primer caso existir una correlacin perfecta positiva y el segundo, una correlacin perfecta negativa. Pero si r 0.5 0.5 entonces diremos que la correlacin es moderada
H0: Ei = 0 Queremos realizar un anlisis de regresin entre el Producto Bruto Interno (PBI) y el Gasto Pblico (GP) a partir de una muestra con 13 observaciones para los perodos comprendidos entre los aos 1990 2002, referidas a la economa de un determinado pas sudamericano.
H1: Ei z 0
La hiptesis nula ser rechazada si el valor de p-value < 0.05; es decir, que existe una relacin de dependencia entre las variables independientes (predictoras) y la variable dependiente(predicha). Por el contrario, si el p-value > 0.05, entonces afirmaremos de que no existe evidencia para rechazar la hiptesis de que una variable dependa de las otras.
Solucin
Ejemplo 7
La relacin que suponemos debe existir es
Analysis of Variance
Source Regression Residual Error Total 12 4102560 11 215426 19584 1 3887134 3887134 198.48
DF
SS
MS
F 0.000
H0: Ei = 0 con i = 1
H1: Ei z 0
con i = 1
Supondremos tambin que la variable Pt es la variable de perturbacin aleatoria que satisface las hiptesis ideales de un modelo de regresin.
Puesto que el p-value < 0.05 en el caso de la variable GP, diremos que el PBI depende del Gasto Pblico y la medida de esta dependencia puede ser expresada como el 94.7% , lo cual es expresado con el valor de r, coeficiente de determinacin.
A diferencia del ejemplo anterior, en este caso el rechazo de la hiptesis nula se demuestra tambin usando el estadstico t. Por ello, puesto que tc = 14.09 > 1.7959 = t0.975(11) rechazamos la hiptesis nula.
< Stat > - < Regression > - < Regression > - < Response > PBI - < Predictor > GP
Regression Analysis
Solucin
The regression equation is Para responder a la pregunta debemos incluir la variable exportaciones al modelo de tal forma que el PBI = f(Gp, EX) T -1.99 0.000 Nuestro modelo de regresin lineal es 0.072 P Usemos los datos del archivo Regre01.mtw.
Predictor
Coef
StDev
Constant
-439.2
221.0
GP
13.2908
0.9434
14.09
S = 139.9
R-Sq = 94.7%
R-Sq(adj) = 94.3%
Analysis of Variance
Source Regression Residual Error 10 Total 12 4102560 50314 5031 2 4052247 2026123 402.70 0.000
DF
SS
MS
H0: Ei = 0 con i = 1, 2
H1: Ei z 0 con i = 1, 2
DF
Seq SS
< Stat > - < Regression > - < Regression > - < Response > PBI - < Predictor > GP
Interpretacin:
Regression Analysis
En primer lugar observemos que el coeficiente de determinacin ha mejorado sustancialmente, r = 0.988; es decir que el PBI se encuentra explicada a travs del Gasto Pblico, GP y el nivel de las Exportaciones, EX. Sin embargo, debemos tomar nota la fuerte cada que ha experimentado el PBI en su relacin con el Gasto Pblico, GP.
En el modelo anterior, por cada unidad de incremento en el Gasto Pblico, el PBI se incrementaba en 13.29, mientras que en el presente modelo, por cada unidad de incremento en el gasto Pblico, el PBI se incrementa slo en 1.35. Esta es una observacin que tambin debe ser tomada en cuenta para un anlisis ms profundo y detallado, el cual corresponde a la Econometra. T 3.90 0.63 5.73 0.000 0.540 Hagamos un anlisis grfico de este problema tratando de plotear lneas de ajuste para el modelo. 0.003 P
Predictor
Coef
StDev
Constant
1196.1
306.7
GP
1.355
2.138
Ex
4.7865
0.8355
S = 70.93
R-Sq = 98.8%
R-Sq(adj) = 98.5%
< Stat > - < Regression > - < Fitted line plot >
Ajustemos primero el PBI a los Gastos Pblicos, GP. Para ello ingresamos en <Response (Y) > PBI y en < Predictor> GP; activamos tambin <Lineal>.
En < Options > debemos activar < Display confidence intervals > y < Display prediction intervals > y con un < Confidence level > de 0.95.
Regression
y = - 439 + 13.3 x En rojo se muestra el intervalo de confianza de la media de PBI y en azul, el intervalo de confianza del valor predicho del PBI. Ntese que cuanto menor es la dispersin de los datos, respecto de la media, menor es el ancho de banda. Aqu r = 94.7%
Predictor 0.072
Coef
StDev
Constant
-439.2
221.0
-1.99
13.2908
0.9434
14.09
0.000
En el caso de PBI vs EX, tenemos la siguiente grfica. En este caso, el ancho de banda es mucho ms angosto y el r = 98.7%.
S = 139.9
R-Sq = 94.7%
R-Sq(adj) = 94.3%
Analysis of Variance
DF
SS
MS
Regression
3887134
3887134
Residual Error
11
215426
19584
Total
12
4102560
Nota:
Como nuestro amable lector podr haber notado, todos los resultados obtenidos en un anlisis de regresin, pueden ser almacenados para ser usados en otros clculos. Entre los resultados que ms interesas almacenar se encuentran los Residuales.
Variable independiente: Variable predictora ( Predictors). Modelo de regresin: Distribucin de probabilidad: y = E 0 + E 1 X + P El anlisis de los residuales permite:
Ecuacin de regresin estimada Residual: Diferencia entre el valor observado de la variable explicada y el valor
determinar si la relacin entre las variables es lineal, cuadrtica o cbica determinar si existe independencia entre los errores. si es cierto el supuesto de la normalidad de los errores si la varianza es constante(permite un anlisis de homosedasticidad)
Coeficiente de correlacin: Mide el grado de asociacin entre la variable explicada y los predictores.
>