Vous êtes sur la page 1sur 162

1.

Comandos de uso frecuente (1)

versiones para diversos equipos entre ellos, para IBM y todos los compatibles; para Macintosh; etc. Las versiones 14 y 15 ofrecen, entre otras facilidades:

Puesto que el objetivo de este trabajo es el desarrollo simplificado de los principales temas de la Estadstica y la descripcin y uso del programa Minitab, en este captulo nos dedicaremos a la descripcin bsica de las principales caractersticas del programa Minitab. Primero haremos una presentacin del entorno en el cual opera el programa: a nivel de datos, de los resultados y la presentacin de grficos. Luego nos dedicaremos a presentar las caractersticas funcionales de cada uno de los comandos de la Barra de Men, as como una muy breve explicacin de las opciones ms comunes de cada comando. Naturalmente que, para su mejor comprensin haremos uso de algunos ejemplos sencillos de aplicacin directa.

Capacidad estadstica comprensiva y completa, que incluye anlisis de datos exploratorios, clculos bsicos, regresin, anlisis de varianza, tamao de muestra, anlisis multivariante, distribuciones no-paramtrica, series de tiempo, tabulacin cruzada y simulacin. La versin 15 presenta un anlisis multivariante mucho ms completo.

Los temas que trataremos en este captulo sern los siguientes:

Calidad de grficos de alta resolucin, en particular la versin 15, con una representacin de calidad, totalmente editables y que incluye capacidad de afinamiento para la identificacin de puntos en el ploteo de los datos, pegar los grficos en otras aplicaciones; todo ello dentro de una diversidad de tipos y opciones en el manejo de los mismos.

Seguridad y mejoramiento de otras caractersticas que incluyen 1. Diagrama de cajas, de Pareto, diagramas de causa-efecto 2. Diagramas para el control de procesos estadsticos 3. Diagramas y grficos histricos 4. Capacidad de anlisis y exploracin de datos 5. Diseo de experimentos con capacidad de anlisis completos o fraccionados

1. Introduccin 2. Anatoma de la ventana principal 3. Dar nombre a una columna 4. Amplitud de una columna 5. Contenido de una celda 6. Ingreso de datos 7. Breve descripcin de los comandos de la Barra de Men 8. Comando File 9. Comando Edit 10. Comando Data 11. Comando Calc 12. Comando Stat 13. Comando Graph 14. Comando Editor>

Una capacidad de manejo de datos muy potente que permite importar datos hacia un proyecto, desde versiones anteriores, hojas de clculo, bases de datos y archivos de texto; enlace de datos hacia otras aplicaciones

1.Introduccin
Muchas facilidades que hubiramos querido apreciar en la versin 14, se tienen en la versin 15, como el caso de disponer de dos formas de captura de datos para realizar estimaciones por intervalos o pruebas de hiptesis as como su especial caracterstica: la parte grfica.

El Programa MINITAB es un programa estadstico muy potente, verstil y de fcil uso, que proporciona un amplio rango de aplicaciones estadsticas, capacidad de grfico, una interfase amigable con el usuario y una extensa ayuda en lnea con un men contextual muy sensitivo.

Facilidades para el manejo de Macros, lo que permite escribir programas en Minitab, extendiendo su funcionalidad, los que son procesados por un equipo en la modalidad de procesamiento en batch.

El programa Minitab ha tenido muchas versiones en su evolucin. La versin actual es la 15.0. Puesto que esta versin an tiene menos de un ao de haberse puesto en comercializacin, en algunos casos haremos referencia a la versin 14, por cuanto es esa la que se encuentra en nuestro medio. Este programa ha tenido un amplio uso desde los aos 60, abarcando tanto a mainframes como a minicomputadoras, y desde los aos 80 en las PCs. Se han escrito

No est dems resaltar el uso del Minitab en los problemas de Causa Efecto y tambin en la diversidad de aplicaciones que puede proporcionar en el Control de Calidad.

Nota: Nosotros desarrollaremos slo una parte de las bondades que ofrece el programa: aquellas cuyos temas son los ms comunes en las asignaturas de estadstica.

Una vez instalado el programa Minitab, su Sistema Operativo colocar un icono de acceso directo en el escritorio, como el que se muestra adems de insertarlo en la lista de los programas de aplicacin.

1. Comandos de uso frecuente (2)


Si tiene el icono en el escritorio, haga doble clic en l. De otra manera debe usar la siguiente secuencia: <Start> - <Programs> - <Minitab for Windows> - <Mintab>; si su Sistema Operativo est en espaol: <Inicio> - <Programas> - <Minitab for Windows> - <Mintab>

El Minitab y los proyectos

En los ltimos tiempos (diremos desde el inicio de los 90) la ciencia de la computacin en lo que a sistemas personales se refiere, se ha orientado a la programacin orientada a objetos y como consecuencia de ello aparecieron los lenguajes visuales; los que han permitido el diseo y la construccin de programas muy grandes y complejos que operan dentro de un escenario. Esto dio origen a los llamados espacios de trabajo(escenario) los que se configuran dentro de lo que se conoce como proyectos. A continuacin pasaremos a describirla.

La ventana que se obtiene se conoce como la ventana principal del Minitab.

1. Comandos de uso frecuente (3)


2. Anatoma de la ventana principal
Al ejecutar el programa, en la pantalla se visualiza la ventana principal del Minitab.

Las ltimas versiones del Minitab permite la construccin de proyectos para resolver los problemas de proceso de datos. Un proyecto est formado por un conjunto de Hojas de trabajo, de resultados almacenados en variables temporales, de grficos a partir de los datos almacenados en las hojas, de los enlaces entre una hoja u otras aplicaciones externas y de la secuencia y ejecucin de macros. En particular un proyecto est formado por una o ms Hojas de Trabajo.

Extensiones de proyectos, hojas y grficos

Como es lgico, tanto los proyectos como las hojas de trabajo y los grficos cuando de almacenarlos se trata, deben tener un nombre y una extensin.

Los proyectos, hojas de trabajo y los grficos se graban con el nombre que nosotros deseamos. Estos nombres se distinguen por su extensin. En el caso de los proyectos la extensin es MPJ. La extensin en el nombre de los archivos que son hojas de trabajo es MTW, y en el caso de un grfico es MGF.

Nota:

1. En el caso de las hojas de trabajo, la versin 14 del Minitab permite grabarlas en formato del Excel 97 o en otras versiones anteriores del Minitab. 2. En el caso de los grficos podemos grabarlo con extensin MGF para ser recuperados en el Minitab. Podemos grabarlos en formato JPG para se visualizado como imagen u objeto en otras aplicaciones, pero ya no por el Minitab. 3. Como en el caso anterior, se puede grabar un grfico con extensin TIF, pero no podr ser recuperado al Minitab.

La anatoma de esta ventana es similar a la mayora de las ventanas conocidas: La Barra de Titulo: Muestra el nombre de la Aplicacin (Minitab) y el nombre de la Hoja de trabajo. Si sta an no ha sido grabada, no tiene nombre, por lo que en ella se visualiza: Untitled. La Barra de estado :

En ella se muestra el nombre de la hoja activa. Durante el uso de algunos comandos, se muestra la sugerencia de usar F1 para ayuda.

La Barra de Men:

En ella se muestra los comandos que nos permite realizar todas las operaciones con nuestros datos

La Barra de Herramientas: Muestra los iconos que nos permite la ejecucin directa de una serie de acciones para una parte o la totalidad de los datos y resultados.

Nota: La hoja de trabajo del Minitab es como una hoja del Excel. Podemos ingresar datos, seleccionar, copiar o pegar desde un bloque o rango de columnas hacia otro, como en el caso del Excel. Pero se distinguir de ste, en el sentido que las celdas almacenan slo datos, no frmula. Los grficos necesariamente se muestran en otra ventana, no sobre la misma hoja. Y cuando existe una celda vaca, dentro de una columna de datos, se mostrar un asterisco *, excepto si se ha modificado para otro simbolo.

1. Comandos de uso frecuente (4)

La Hoja de Trabajo:

En esta ventana se almacenan todos nuestros datos y los resultados de la ejecucin de los comandos. Es, como se puede apreciar, una autntica hoja electrnica como, en el caso del Excel. Consta de un conjunto de celdas referenciadas por una fila y columna determinadas. Los datos se ingresan por fila o por columna (que es el caso comn). El resultado de todos los comandos y acciones que pueden llevarse a cabo en Minitab, estn contenidas en una hoja. Su tamao asignado por omisin es de 100,000,000 filas y 4000 columnas. Naturalmente que, como en el Excel, se pueden tener abierto varias hojas de trabajo simultneamente.

La ventana Sesin:

Podramos decir que esta ventana fundamenta el carcter interactivo del Minitab. En ella se muestra la secuencia de comandos que se ejecutan transparentemente cuando alguna accin es llevada a cabo en la Hoja de Trabajo. La llamaremos tambin Ventana de Comandos ya que ella ser usada para ingresar los comandos que se ejecutan de modo interactivo. Si bien es cierto que mediante los comandos de la barra de men se puede explotar toda la capacidad del Minitab, hay situaciones en las que el usuario puede requerir de la ventana de sesin para ingresar directamente una o ms secuencias de instrucciones a las cuales se les conoce como comandos interactivos. Por ejemplo si deseamos realizar un determinado clculo entre el contenido de ciertas celdas para dejar el resultado en otra celda en particular, nos veremos precisado usar esta ventana. Por lo dems, el manejo de la barra de men a travs de la diversidad de ventanas que se genera, cubre todas nuestras necesidades comunes.

En la figura anterior se aprecia las otras ventanas asociadas a una sesin de Mintab, las que pasaremos a describirlas.

Ventana de Informacin:

Contiene toda la informacin de las columnas de cada una de las hojas del proyecto.

Ventana de Historia:

En esta ventana se muestra la secuencia de todos las acciones y comandos usados durante la sesin de uso del Minitab.

Ventana de Grfico:

En ella se aprecia los grficos trazados durante la sesin. Si no se cierran, todas ellas aparecen apiladas en la pantalla. Por lo general, slo una grfica es trazada por una secuencia de acciones; sin embargo puede generarse ms de un grfico en la misma ventana como es el caso que se muestra en la siguiente figura nmero 3.

Observaciones: 1. Pertenezcan o no al proyecto activo, en una sesin de trabajo se pueden tener abiertas ms de una hoja de trabajo, una de las cuales ser la hoja activa. 2. La ejecucin de todos los comandos afecta slo a la hoja de trabajo activa. Por supuesto que si mediante la calculadora se realiza una operacin y el resultado se almacena en una variable, la hoja no ser afectada. Cuando se grabe la hoja, y ms tarde se quiera volver a usarla, no se dispondr de la variable. Pero si se hubiera grabado como proyecto, al abrir ste, s se dispondr de la variable, con el ltimo valor almacenado en ella. 3. Si desea activar una hoja de trabajo, haga clic en la parte que vea de ella o use el comando <Ventana>. Tambin puede usar <Ctrl.> + <F6>, o hacer clic en el icono de la esquina superior de la hoja activa y seleccionar la opcin <Siguiente>.

Observaciones:

1. Comandos de uso frecuente (5)


3. Dar nombre a una columna
El Minitab define a cada una de las columnas con la etiqueta: Cn; donde n indica el nmero de columna. Nosotros como usuario tambin podemos darle nombre a una columna. Para ello es suficiente: 1. <Hacer clic en la celda debajo de la columna especificada>

1. Pertenezcan o no al proyecto activo, en una sesin de trabajo se pueden tener abiertas ms de una hoja de trabajo, una de las cuales ser la hoja activa. 2. La ejecucin de todos los comandos afecta slo a la hoja de trabajo activa. Por supuesto que si mediante la calculadora se realiza una operacin y el resultado se almacena en una variable, la hoja no ser afectada. Cuando se grabe la hoja, y ms tarde se quiera volver a usarla, no se dispondr de la variable. Pero si se hubiera grabado como proyecto, al abrir ste, s se dispondr de la variable, con el ltimo valor almacenado en ella. 3. Si desea activar una hoja de trabajo, haga clic en la parte que vea de ella o use el comando <Ventana>. Tambin puede usar <Ctrl.> + <F6>, o hacer clic en el icono de la esquina superior de la hoja activa y seleccionar la opcin <Siguiente>.

Ejemplo: En C1

2. Digitar el nombre que deseamos darle. Ejemplo: Ventas

b) Tocando con el puntero del ratn la divisin de columna, en su nombre o etiqueta y, cuando se convierta en una flecha de doble sentido, arrastrar hacia la izquierda, para reducir, o la derecha, para aumentar (Figura anterior) c) Usando la opcin <Column> del comando <Editor>. Lo veremos luego.

3. Presionar <Enter>

Nota:

Nota: 1. El tamao de cada columna, por omisin est especificada en 8 carateres. 2. Cuando la columna contiene datos numricos puede ocurrir que, al realizar algn clculo, en algunas de sus celdas se visualice ******. En este caso se debe ampliar tambin el tamao de dicha columna.

1. El nombre de una celda se puede ingresar desde la ventana de sesin. Por ejemplo si C1 debe definirse como Descripcin, debemos digitar en la ventana de sesin: NAME C1 Descripcion o tambin NAME C1 Descripcion

2. El contenido de una celda particular puede ser Dataulada mediante el uso de comando ingresados en la Ventana de Sesin. Para hacer referencia de una celda se debe indicar la columna y entre parntesis, el nmero de la fila. Por ejemplo Cx(y), hace referencia a la fila y de la columna x , de manera que podra mos dejar en la fila 5 de la columna 2, la suma de la columna 3; para ello, ingresamos el comando: Let C2(5) = Sum(C3).

1. Comandos de uso frecuente (6)


5. Contenido de una celda
El contenido de una celda constituye un dato. El Minitab reconoce tres tipos de datos: numricos de tipo texto(o cadena de caracteres) de tipo fecha y/o tiempo.

3. Recuerde que antes de usar la ventana de sesin para ingresar comandos, debe activarla: hacer clic en alguna parte de ella y luego <Editor> - <Enable Command language>.

4. Cuando se ingresa algn valor en una determinada celda de una columna, todas las celdas anteriores se rellenan con *.

4. Amplitud de una columna

La amplitud o ancho de una columna, definida por omisin, es de 8 caracteres (bytes). Este tamao se puede modificar usando una de las siguientes formas:

El dato numrico puede ser entero o flotante (con decimales). Cuando la cantidad es suficientemente grande, su resultado se visualiza en formato cientfico de la forma ra.bcdErn.

a) Automticamente, despus de ingresar el dato o nombre y presionar <Enter> El dato de tipo texto est formado por una cadena de caracteres vlidos. El espacio en blanco es una cadena de caracter.

Los datos de tipo fecha o tiempo (Date/Time) contienen diversos formatos de fecha o tiempo como son mm-dd-yyyy , mm/dd/yyyy y otros, en el caso de fechas y, hh:mm:ss en el caso del tiempo. C1 C2 C3 C4 Productos 1 Teclado PS/2 2 Monitor Samsung 15 40 130 160 86 190 90 65 120 250 11 Fax /Modem NN 56 Kbps 12 Lector CD LG 52X 13 Micrfono Mutex 14 Tarjeta de sonido Ondex 15 Lector CD Creative 52X 240 350 100 75 300 3 CPU Intel Pentium V 4 CPU Intel Pentium IV 5 Monitor LG 17 6 Disco duro 40 Gb 7 Disco duro 5Gb 8 CPU Intel Pentium III 9 Disco duro 20 Gb 10 Fax/Modem LG 56 Kbps 50 15 130 520 480 120 260 80 450 220 180 150 120 18 60 90 Cantidad Precio($)

Descuento 0 12 20 10 8 10 20 10 10 15 15 15 12 10 20

6. Ingreso de datos

Los datos se pueden ingresar a una Hoja de Trabajo de dos maneras:

x x

Desde el teclado Usando comandos

Ingreso de datos desde el teclado

Para ello simplemente elija la columna y la fila a partir del cual desea almacenar los datos, digite el dato y luego presione <Enter> o la tecla gua correspondiente al sentido de ingreso de los siguientes datos, excepto flecha a la izquierda.

Al presionar <Enter>, por omisin el cursor activa la siguiente fila de la columna, hacia abajo. De manera que , en este caso, es suficiente presionar <Enter> para continuar con la secuencia. Si desea continuar ingresando datos en la columna de la derecha, es suficiente presionar <CTRL.> + <Enter>

Ejemplo 01:

Ingrese los datos del siguiente cuadro en las correspondientes columnas y filas que se muestran en el mismo. Procedimiento: Primero ingrese los nombres de las columnas: Clic en la celda debajo de C1 Digitar Productos

Presionar <Enter>

1. Comandos de uso frecuente (7)


7. Breve descripcin de los comandos de la Barra de Men
A continuacin pasamos a describir las principales opciones de los comandos de la barra de men a fin de tener una idea bsica de su utilidad. Muchos de ellos tienen las mismas funciones comunes a los que podemos encontrar en otras aplicaciones.

Repetir la secuencia para C2, C3 y C4

8. Comando <FILE>

Para abrir, grabar, imprimir archivos que contienen hojas de trabajos, grficos o proyectos, usaremos el comando FILE.

Para manejo de Proyectos: Usaremos:

La secuencia

Es usado

<File> - <New..>

Para crear una nueva Hoja o un Nuevo Proyecto

<File> - <Open Project>

Para abrir un proyecto previamente grabado

<File> - <Save Project>

Para grabar el proyecto activo(en uso)

<File> As>

<Save

Project Para grabar con otro nombre al que est en uso

Para manejo de Hojas de Trabajo: Usaremos:

La secuencia Para abrir una hoja de trabajo ya grabado Abre una base de datos para una consulta Grabar la hoja de trabajo o proyecto (en uso)

Es usado para Observe que las opciones de este comando estn agrupadas por el uso que se den: Para manejo de proyectos Para manejo de hojas de trabajo Para manejo de grficos Para imprimir Para cerrar el Minitab Para acceder a los archivos recientemente usados Otras Opciones adicionales:

<File> - <Open Worksheet>

<File> - <Query Database(ODBC)>

<File> - <Save Current Worksheet>

<File> - <Save Current Worksheet Para grabar la Hoja de trabajo(en uso) as...> Para grabar con otro nombre (en uso) Cierra la hoja de trabajo activa

<File> - <Save Project As>

<Close Worksheet>

La ventana que se obtiene al hacer clic en el comando <File> es la que se muestra en la siguiente figura.

<Open Graph> <Other Files> <Print Worksheet>

Abre un grfico en Minitab, previamente grabado Permite importar/exportar archivos de tipo texto Imprime una hoja de trabajo

Nota Importante:

Vuelva a ejecutar el Minitab. Abra el proyecto Proy01.mpj usando la secuencia <File> - <Open Proyect>. Ubique la unidad y carpeta y luego seleccione el archivo Proy01.mpj.

1. Todos los archivos(Hojas de trabajo (*.Mtw o Proyectos *.Mpj) que usaremos en el estudio del Minitab, se encontrarn en la carpeta Tutor Minitab, que se encuentra en la unidad C. Se puede observar que el Minitab ha cargado a memoria las dos hojas de trabajo contenido en el proyecto.

2. Todos los proyectos u Hojas de trabajo que debemos grabar se debern hacerlo en la misma carpeta.

1. Comandos de uso frecuente (8) 1. Comandos de uso frecuente (9)


9. Comando <EDIT>

Ejemplo 02:
Para hacer algunas operaciones sobre el contenido de las hojas vamos a estudiar las opciones principales que tiene el comando EDIT. Podemos copiar, pegar, cortar celdas.

Grabe su hoja de trabajo con el nombre Ses01 usando la secuencia <File> - <Save Current Worksheet...>. Puesto que el archivo no tiene nombre, en la siguiente ventana que salga, debemos indicarle la carpeta y el nombre que va a tener. En el recuadro Guardar en ubique la carpeta donde desea guardarlo, en el recuadro Nombre del archivo digite Ses01 y luego haga clic en el botn <Save> La secuencia <Edit><Clear Cells> <Edit><Delete Cells> <Edit> <Copy Cells> <Edit><Cut Cells> <Edit> <Paste Cells> <Select All Cells>

Las principales opciones que tiene este comando son las siguientes

Es usado para Limpiar el contenido de una celda(Se inserta un *) Eliminar la celda especificada(las otras se reordenan) Copiar a memoria el contenido de la(s) celda(s) Copiar y elimina la celda con su contenido Pegar aquello que se copi o cort, a partir del cursor Seleccionar toda la hoja de trabajo activa

Diferencia entre <Save Current Worksheet > y < Save Current Worksheet as>: Vuelva a grabar la hoja usando <Save current WorkSheet> Como ya la hoja tiene nombre, no aparece la ventana anterior. Si tuviramos que grabarla con otro nombre, entonces deberemos usar la secuencia <File> - <Save Current Worksheet As ...> para que pida el nombre. (Lo que tambin podramos aprovechar para cambiar de unidad, por ejemplo grabarlo en otra unidad diferente a la de uso).

Cierre su hoja actual usando <File> - <Close Worksheet>

Ahora abra el archivo ProdPc.Mtw que se encuentra en la misma carpeta. Abra tambin el archivo recientemente grabado Ses01.Mtw. Para ello use <File> - <Open Worksheet> Ubique el nombre del archivo en la carpeta arriba mencionada

La figura que se muestra a continuacin nos permite visualizar las opciones obtenidas al hacer clic sobre el comando EDIT.

Activar/Desactivar cada una de las hojas cargadas a memoria: Grabemos ahora todas las hojas como un proyecto llamado Proy01. Use la secuencia: <File> - <Save Project as>. Como el proyecto no tiene nombre, se puede usar tambin <File> - <Save Project>. A continuacin ubique la unidad y carpeta donde desea guardar y en <File name> digite Proy01. Ahora puede ver en la barra de ttulo, el nombre del

proyecto. Cierre el Minitab.

3. Copie toda la columna C4 usando <Edit> - <Copy Cells>. Puede usar tambin la forma clsica de copiar: <CTRL>+C. 4. Ahora active la Hoja ProdPc.MTW y haga clic en la etiqueta C4 5. Pegue lo copiado en dicha columna usando <Edit> - <Paste Cells> o use <CTRL>+V.

Nota: Por supuesto que puede usar cualquier otra forma de copiar y pegar que Ud. sepa; usando los iconos de la barra de herramientas, por ejemplo.

Ahora vamos a copiar hacia otra hoja de trabajo nueva.

Podramos crear la hoja nueva y luego copiar, o podramos copiar y luego crear. La secuencia es indiferente, lo copiado permanece en memoria hasta que no se vuelva a copiar otros datos.

Como se puede observar, la funcin que realizan estas opciones son similares a las que se encuentran en las ventanas del comando <Edit> o <Edicin> de muchas aplicaciones, slo que en el caso del Minitab, todas ellas se aplican sobre un conjunto de celdas(filas o columnas seleccionadas) de la hoja de trabajo.

6. Active la Hoja Ses01.Mtw 7. Seleccione toda la hoja usando <Edit> - <Select all cells>. (Como podr apreciar, los nombres de las columnas no quedan seleccionadas y adems, slo queda seleccionada el rango de datos, no toda la hoja) y luego copie usando <Edit> - <Copy Cells>. 8. Abra una nueva hoja usando la secuencia <File> <New> Como puede ver en la ventana adjunta. Podemos crear un nuevo proyecto, o una nueva hoja. Seleccionaremos hoja usando: - <Mintab Workshhet> - <Ok>

Nota: Dejamos para un desarrollo posterior la opcin <Link> que permite realizar enlaces entre una y otra columna bajo la concepcin DDE(Dynamic Data Exchange)

1. Comandos de uso frecuente (10)

Ejemplo 03

9. Haga clic en la primera celda de la columna C1 y pegue lo copiado usando la opcin <Paste Cells> de <Edit>. 10. Vuelva Ses01.Mtw y copie los nombres de las columnas hacia la nueva hoja y grabe a sta como WSes01. 11. Grabe el proyecto para guardar las modificaciones de una de sus hojas.

Si Ud. observa, la hoja Ses01 contiene una columna de Descuentos (C4), pero la hoja ProdPc, no tiene. Vamos a copiar la columna Descuentos de Ses01 hacia la columna 4 de ProdPc.

Nota: Para pasar de una hoja de trabajo a otra (en realidad de una ventana del Minitab a otra del mismo) use las teclas: <CTRL>+<F6>.

1.

Active la Hoja de trabajo Ses01.Mtw

2.

Seleccione toda la columna C4 haciendo clic en la etiqueta

Nota: Observe que en la barra de titulo de la hoja de trabajo aparece el nombre de la hoja, mientras que en la barra de titulo del proyecto(ventana principal), aparece el nombre del proyecto.

Note tambin que las opciones estn agrupadas por categora de funcin: Para manejo de Hoja, manejo de columna, para variables y celdas y para visualizar los datos.

1. Comandos de uso frecuente (11)


<Data><Subset Worksheet...> <Data><Split Worksheet...> <Data><Sort> <Data><Rank> <Data><Delete Rows...> <Data><Erase Variables...> <Data><Copy Columns...> <Data><Stack/Unstack> <Data><Concatenate> <Data><Code> <Data><Change Data Type> <Data><Display Data...> <Data><Transpose columns>

La secuencia

Es usado para Extrae/Copia parte de la hoja, de manera especial Extrae parte de la hoja con columnas completas Ordena la hoja activa o nueva por algn criterio Genera conjunto de ndices de posicin de datos Borra filas especificadas, reordenando las restantes Elimina la variable(columna), no reordena columna Copia columnas hacia otras, condicionalmente Apilar/Desapilar columnas para formar otra(s) Aade o suma dos o ms columnas hacia otra Permite codificar una columna determinada Cambia el tipo de dato(Numerico/Texto/Fecha) Imprime el contenido de columnas seleccionadas Permite transponer filas a columnas o viceversa

10. Comando <DATA>

Ahora vamos a describir el comando DATA que nos permitir el manejo de los datos dentro de la hoja. Como veremos, se puede crear Subhojas, juntar, separar columnas, ordenar los datos, eliminar filas, borrar variables, codificar, cambiar el tipo de dato, etc. En las versiones anteriores este comando era DATA.

1. Comandos de uso frecuente (12)


Ejemplo 04
Vamos a extraer una parte del archivo Familia.mtw y almacenarlo en una hoja nueva

Use este comando para extraer o copiar, para cortar o excluir un subconjunto de datos de la hoja activa. Igualmente puede usar para ordenar e imprimir toda o parte de la hoja. Tambin puede cambiar el tipo de formato de sus datos.

Abra el archivo Familia.Mtw usando <File> - <Open Worksheet> Seleccione la unidad y carpeta donde se encuentra el archivo mencionado.

La figura anterior muestra una lista de algunas opciones de este comando.

1. Comandos de uso frecuente (13)


Ejercicio
Obtenga una nueva sub-hoja llamada Mujeres en la que slo estn los de sexo femenino. Que la nueva hoja se llame Mujeres.

Como puede apreciar, en esta hoja tenemos, en la columna C2, la variable Sexo, en el cual los datos son: M y F.

Vamos a crear una nueva hoja que contenga slo a los hombres (M) y otra que contenga a las mujeres (M).

Para ello debemos usar:

Active la hoja Hombres. Extraiga a todos aquellos que provienen de las escuelas pblicas (Escuela = Priv). Que la nueva hoja se llame Escuela Privada Ahora vamos a extraer los datos por Sexo y por Escuela. Para ello

<Data> - <Subset Worksheet>. Completemos los datos en la siguiente ventana:

a) El nombre de la nueva hoja debe ser Hombres. <Data> - <Split Worksheet...> En la ventana siguiente seleccione las variables Sexo y Escuela Cierre estas cuatro hojas sin grabar o guardar Use la secuencia : Active la hoja original Familia.Mtw

b) Debe estar activada: <Specify wich rows to included> de la opcin <Include or Exclude>. Es decir, debemos indicarle las columnas a ser incluidas.

c) Haga clic en <Condition> de la opcin <Rows that match>

d) En la siguiente ventana, en el recuadro Condition se debe tener la condicin de comparacin. En este caso son todos los alumnos cuya variable sexo es igual a M; es decir, Sexo = M. Observe la siguiente imagen.

e) Ahora haga clic en <Ok> para volver a la ventana anterior y luego <Ok> Trabajemos ahora con otra base de datos:

Abra la hoja llamada Sec405.Mtw

Como podr apreciar, esta hoja contiene los nombres de los alumnos y el total de crditos en los que estn matriculados; slo que estn separados por sexo.

Copie todos los datos (incluyendo los nombres de las columnas) hacia una nueva hoja de trabajo. 1. Seleccione las cuatro primeras columnas y luego copie. 2. Use <File> - <New> - <Minitab worksheet> - <Ok> para abrir una nueva hoja de trabajo. 3. Haga clic debajo de la columna C1 y pegue lo copiado

En la ventana siguiente, en el columnas: Alumnos, Crditos y Sexo. recuadro <Sort columns(s)>, <Data> - <Sort>

En esta nueva hoja vamos a juntar (Stack) la columna C1 con la columna C3 y lo almacenaremos en la columna C6. ingrese las tres

Usemos la secuencia <Data> - <Stack> - <Stack Columns>

En la siguiente ventana, debe rellenar los datos segn como se muestra en la siguiente figura

En el recuadro de <Stack the following columns> ingrese las columnas Varones y Mujeres

En el recuadro <Store sorted data in> o Almacenar lo sorteado en, ingrese las celdas C10 C11 C12.

Usaremos la columna C6 para apilar. Activar <Column of current worksheet> e ingresar la columna C6

Puesto que los subndices pueden servir para identificar el tipo de dato en C6, almacenaremos los subndices en C8. Esto lo hacemos ingresando C8 en el recuadro <Store subscript in:>

Haga clic en <Ok>

Haremos lo mismo con las columnas de crditos y la colocaremos en C7. En este caso deje en blanco el recuadro <Store subscript in>, no lo necesitamos.

Vamos a ordenar nuestros datos por sexo y dentro de ello por nombres (campo Alumnos). En el primer recuadro <Sort by column> o Sortear por columna: ingrese la columna Sexo y en el siguiente recuadro ingrese Alumnos. Su ventana debe quedar como indica la siguiente figura

Ponga por nombre Alumnos, Crditos y Sexo a las columnas C6, C7 y C8, respectivamente.

Luego haga clic en <Ok> La hoja Ordenados.mtw contiene la solucin.

Use la opcin SORT para ordenar los datos Para Ud. amigo lector

Ahora vamos a ordenar alfabticamente estas columnas

Podramos haber sorteado sobre las mismas columnas? Claro que s. Sugerimos que lo pruebe. Use las columnas C6, C7 y C8. <Data> - <Erase variables> para borrar una o ms variables (columnas) Usaremos <Data> - <Delete rows> para borrar una o ms filas de una columna o varias, reordenando las filas hacia arriba.

1. Comandos de uso frecuente (14)

Ejercicios

Cierre esta hoja sin grabar y vuelva a la Hoja Sec405.

Ejecute por favor las siguientes peticiones: <Data> - <Erase variables> En <Columns, constant and matrices to erase > ingresamos C1-C4 Hacemos clic en <Ok> Para borrar las columnas C1-C4 usaremos la secuencia

- Ordene slo las columnas de los varones con sus respectivos crditos sobre las mismas columnas.

- Haga lo mismo con las columnas de las Alumnas

- Ahora, apile (Stack) a todos los alumnos en la columna C6, a los crditos en C7 y haga que la columna C8 contenga el sexo de los alumnos.

Borrar variables

Usted puede verificar que las columnas persisten pero sin datos

Para borrar celdas con datos puede usar el comando <Edit>, donde Eliminemos ahora las columnas C1 C4. Para ello seleccionamos toda la columna C1 hasta C4. Usemos ahora <Edit> - <Delete Cells>

<Edit> - <Erase cells> permite borrar el contenido de las celdas seleccionadas y reemplazar su contenido con * Grabe la hoja restante con el nombre Alumnos405

<Edit> - <Delete cells> permite eliminar la celda reordenando hacia arriba las celdas restantes.

Imprimir o visualizar variables

Nota: Si selecciona toda la columna y usa <Erase cells> borrar toda la columna, dejndola vaca

Para terminar, vamos a imprimir en pantalla todas las columnas. Para ello usaremos la secuencia: <Data> - <Display Data>

Si selecciona toda la columna y usa <Delete cells> suprime la columna y las columnas de la derecha se reordenan hacia la izquierda

Ahora seleccionaremos todas las columnas, en el orden en el que queremos visualizarlas.

Como se puede ver, Erase y Delete son opciones del comando Data usados para diferentes propsitos.

1. Comandos de uso frecuente (15)


Ejemplo 05

Usaremos

Abra el archivo Emple01.Mtw. La informacin contenida en ella se refiere a los empleados de una tienda comercial del Centro de Lima. Usando todo lo que hasta aqu hemos aprendido, resuelva cada una de los siguientes ejercicios.

a) Convierta los datos contenidos en la columna C5 de numrico a texto. Luego reemplace los valores de acuerdo a la siguiente equivalencia:

Sin instruccin

Primaria completa Complete la informacin de la siguiente ventana segn se muestra en la figura

Secundaria completa

Estudios en Institutos Ahora vamos a codificar esta columna que ya es de tipo texto.

Estudios Universitarios

Bachiller Para ello usaremos siguiente secuencia:

Titulado

Maestra

Doctorado o equivalente

Otras especializaciones

b) Copie los datos Tiempo de Serv. , columna C4, hacia la columna C9. Qu ocurre con el nombre de esta nueva variable?

c) Obtenga una nueva hoja que contenga a todos los empleados cuyo tiempo total de trabajo (tiempo de servicio en la tienda ms experiencia previa) sea mayor o igual a 18 aos. <Data> - <Code> - <Text to Text> A continuacin debemos llenar los datos segn se indica en la siguiente figura.

d) Si el propietario de la tienda decide premiar con un bsico a todos los empleados mayores de 40 aos, a cuntos y a quines debe premiar?. Extraiga hacia una nueva hoja a los que cumplen dicha condicin.

b) Esta pregunta podemos resolverla de varias maneras. Usemos la siguiente: Seleccionemos la columna C4, haciendo clic en su etiqueta Copiamos la columna haciendo clic en el botn Hagamos clic en la etiqueta C9

Solucin a) Para resolver esta pregunta debemos cambiar el tipo de datos de Numrico a Texto: Para ello use la siguiente secuencia: <Data> - <Change data type> - <Numeric to Text>

Pegamos lo copiado usando el botn 0 1 2 * Sin datos Dos niveles Un nivel Sin stano

Nro. stano

Nuevo Cdigo

Se puede observar que el nombre es diferente Tpo. Serv_1

c) En este caso usaremos la siguiente secuencia:

<Data> - <Subset WorkSheet>

Dejamos el nombre de la nueva hoja como est y en <Condition> pondremos 'Tpo. Serv.'>=18

d) Dejamos como ejercicio para el lector.

Abra el proyecto Proy02.mtw y usando <CTRL>+<F6> podr observar los resultados.

1. Comandos de uso frecuente (16)

Ejemplo 06

La inmobiliaria Hogar dulce Hogar est interesada en realizar un estudio sobre el monto de rebaja que experimenta el precio de sus inmuebles entre el momento en que el cliente consulta y el precio final de contrato. Una primera posibilidad de estudio es extraer y separar de su base de datos InmbHogar.Mtw, a todos aquellos que adquieren el inmueble al mismo precio de consulta y los que solicitan un descuento. Use el Minitab para resolver esta inquietud.

De aquellos que compraron sin descuento, imprima en pantalla los siguientes datos: Precio de Venta, Nro. de baos y Capacidad de la cochera

Solucin:

Use <Data> - <Subset WorkSheet>. En <Condition> ingrese: 'Pr. Venta'='Pr. Consulta'.

Para ello debemos hacer uso de la opcin <Code> del comando <Data>. La siguiente ventana muestra los datos que se debe ingresar para obtener lo pedido. En <Code data from column> ingresamos la columna C6 Stano. En <Into columns> ingresamos la columna que debe contener el Nuevo cdigo En los siguientes espacios ingresamos los datos de la tabla Hacemos clic en <Ok> para obtener los resultados.

Ejemplo 07

Si no estuviera abierto el archivo InmbHogar.Mtw, vuelva a abrirlo. Vamos a codificar la columna Stano de acuerdo a la siguiente tabla:

1. Comandos de uso frecuente (17)


- Para generar y trabajar con distribuciones de probabilidad - Para trabajar con matrices

11. Comando <CALC>>


A continuacin describiremos algunas de estas opciones.

Este es el primer comando que permite realizar una gran diversidad de tipos de clculos estadsticos. Podemos realizar clculos estadsticos por fila o por columna; podemos generar un conjunto de datos numricos o de tipo fecha; igualmente podemos obtener distribuciones de probabilidad y evaluar probabilidades; y si an el clculo que debemos realizar no puede ser resuelto por la va de comandos, podemos hacer uso de la calculadora. <Calculator>

Nota: Mucho de estos clculos se pueden realizar tambin mediante el lenguaje de comandos ingresados en la Ventana de Sesin, al estar activado el modo de ingreso de comandos. Recuerde que para activar este modo debe hacer clic primero en la Ventana de Sesin y luego usar <Editor> - <Enable Command Language>.

Permite realizar una serie de operaciones aritmticas sobre los datos de la hoja. Estos clculos pueden incluir el uso de una o ms funciones aritmticas, trigonomtricas, estadsticas, de fecha/hora, estadistica por fila, as como ordenar columnas.

<Column Statistics..>Esta es la primera opcin del Minitab que permite obtener un conjunto de resultados estadsticos sobre una determinada columna. Se puede obtener el total, la media, la desviacin estndar, rango, el valor mximo, valor mnimo, la mediana, la suma de los cuadrados, etc. En cada operacin slo se puede calcular un estadstico.

<Row Statistic...>

Como en el caso anterior, permite obtener estadsticos por fila. Un estadstico de los mencionados en la opcin anterior, por columna. Genera una variable estandarizada centrada en la media. Es til en el caso de la distribucin normal, para obtener Z con distribucin normal (0, 1) y en general para resolver inferencia estadstica

<Standardize>

1. Comandos de uso frecuente (18)

La figura siguiente muestra las opciones que tiene este comando.

Observe que estas opciones estn agrupadas en cuatro grupos de categoras:

- Para realizar clculos estadsticos

- Para generar datos usando algn criterio

<Make Patterned Data> de tipo numrico o fecha.

Genera un conjunto de datos simples o arbitrarios

En la figura anterior podemos observar que se puede generar conjunto simple de nmeros <Simple Set of Numbers...>, tales como 0, 1, 2, 3, ... 7, 13, 19, 25, ...

Igualmente se puede generar un conjunto arbitrario de datos numricos usando la opcin <Arbitrary Set of Numbers>.

Si desea ingresar una columna de datos literales, como nombre de meses, productos, personas, etc. use <Text Values>.

Se puede generar un conjunto de fechas como una secuencia de valores numricos.

<Set Base>

Permite ingresar una semilla para la generacin de una nueva secuencia de nmeros aleatorios.

<Random Data>

Permite generar diversos tipos de datos aleatorios: Binomiales, de tipo Poisson, Normales, Beta, etc.

<Matrices>

Permite leer, realizar operaciones con matrices EJEMPLO DE USO DE <CALCULATOR>:

<Probability Distributions>

Permite construir una distribucin de probabilidades sea Binomial, Poisson, Entero, Normal, Exponencial, Cauchy, etc.

La siguiente figura muestra las diferentes opciones que tiene estas dos opciones.

Con el <Calculator> podemos realizar diversos tipos de operaciones aritmticas con las columnas de la hoja y dejar el resultado en una nueva columna o en la misma; se puede almacenar el resultado en una variable, cuyo valor se guarda en una nueva columna disponible. En las expresiones aritmticas que use se pueden incluir diversos tipos de funciones soportadas por el Minitab.

1. Comandos de uso frecuente (19)


Ejemplo 08
Supongamos que una columna contiene los valores de una variable aleatoria X, almacenada en la columna C1. La columna C2 contiene los valores de las probabilidades para X = x; como se puede

visualizar en el archivo LDistrib01.Mtw. Queremos calcular la varianza de X, sabiendo que V(X) = E(X) [E(X)].

<Ok>

Para ello siga los pasos indicados:

Ver que el resultado est en R que es el nombre que el Minitab le asigna a la primera celda de la primera columna disponible y que se encuentra a la derecha de los datos.

Paso 01: Abra el archivo LDistrib01.Mtw.

Observacin: Si en lugar de R hubiramos usado K1, el valor sera almacenado en esta variable y no en una celda de Minitab. Es ms conveniente esta modalidad ya que si ms tarde usa dicha columna, el valor de R se perder.

Vamos a calcular la varianza de una manera detallada, usando columnas de trabajo. Para ello debemos calcular en C3 el producto de X*P(X = x), para luego calcular la suma con SUM(C3), que ser igual a E[X]. Del mismo modo calculemos en C4 el producto X*X*P(X = x), para luego calcular SUM(C4), que representar E[X]. Finalmente obtendremos V[X] = E[X] (E[X]) y el resultado lo guardaremos en una variable cualquiera como R. Para visualizar el valor de K1, se debe usar: <Data> - <Display data>

He aqu la secuencia de operaciones:

Seleccionar la o las variables que se deseen visualizar y luego clic en <Ok>

Paso 02: Calcularemos el producto de X por P(X = X). Usemos la siguiente secuencia Nota: 1. Otra forma de calcular la varianza directamente, sin usar columnas de trabajo del la hoja es: 2. <Calc>-<Calculator> En <Store results> SUM(C1*C1*C2)-SUM(C1*C2)**2. Luego <Ok> V en <Expression> digitar la expresin:

<Calc> - <Calculator>.

En <Store result in variable> ingrese C3

En <Expression> ingrese la operacin: X*P(X=x) Seleccione la celda del lado izquierdo en lugar de digitar

<Ok> 3. Si construye una expresin aritmtica como la anterior, es mejor usar la etiqueta de la columna en lugar del nombre complementario, salvo que la use seleccionando y no digitando.

Paso 03: Ahora calcularemos X por P(X = x). Usemos la siguiente secuencia:

<Calc> - <Calculator>

En <Store result in variable> ingrese C4

1. Comandos de uso frecuente (20)


Ejemplo 09
1. Usando el ya clsico COPY PASTE, ingrese en las columnas C1 y C2, los siguientes datos que se encuentran en el archivo Lista de faltas.doc

En <Expression> ingrese la expresin aritmtica: X*X*P(X=x)

<Ok>

Paso 04: Calcularemos la diferencia E[X] (E[X]). Usemos la siguiente secuencia:

<Calc> - <Calculator> (una variable cualquiera)

En <store result in> ingrese, R

En <Expression> ingrese la expresin: Sum(C4) (Sum(C3))**2

Pamela 16 10 7 2 12 2. Obtener el porcentaje de faltas en la columna C3 <Calc> - <Calculator>) Ingresamos C3 para guardar el resultado del clculo <Ok> En <Expresin> ingresamos C2/Sum(C2) Usamos la calculadora: Ingresamos el nombre de la columna C3: Porcentaje. 25 18 9 12 4 13 8 16 7 24 18 14 6 17 4. Grabe su hoja con el nombre Faltas.mtw 3. Ordene todas las columnas alfabticamente(por la columna C1)

12

directamente

Carlos

Nota: 1. Por supuesto que tambin puede ingresarlos 2. La primera columna tambin puede ingresar usando la secuencia

Miguel

Sandra

<Calc> - <Make Patterned Data> - <Text Values> y en el recuadro Text Values digitar los nombres separados por un espacio en blanco, aunque su tamao es limitado y su uso se remite slo a datos de texto que no tienen espacios en blanco.

Felipe

Alonso

Karla

Yacole

Baslavi

Isabel

Lorena

Mariella

Eduardo

Mario

Rodrigo

Sandra

Victor

1. Comandos de uso frecuente (21)


Ejemplo 10

Enrique

James

Alvaro

Vamos a crear una hoja de trabajo que contenga el ingreso mensual, en miles de dlares, que una compaa exportadora obtuvo durante los aos 1991 a 2002. La columna C1 contendr los meses, las columnas C2 hasta C13 los aos.

Solucin Abra una nueva hoja de trabajo Ingreso de los meses: <Calc> - <Make Patterned Data> En <Store patterned data in> ingrese C1

Paso 01: Usando Word abra el archivo Lista de faltas.doc

Paso 02: Seleccione las dos columnas. Copie

Paso 03: Active su hoja en Minitab; luego haga clic en la celda A1

En <Text values>, digite Meses Enero Febrero ... Diciembre

1. Comandos de uso frecuente (22)


12. Comando <STAT>
Use este comando para obtener resultados como estadstica bsica, anlisis de regresin, anlisis de varianza, diseo de experimentos, series de tiempo, etc.

<Ok>

Ingreso de los aos en cada columna:

Seleccionamos 12 columnas haciendo clic debajo de la etiqueta de la columna C2 y arrastrando hasta la columna C13

Digitamos los aos, presionando <Enter> en cada uno.

Ahora vamos a generar supuestamente las ventas de un determinado producto durante todos los meses de todos los aos.

<Calc> - <Random Data> - <Integer> En <Generate> 12. En <Store in Columns> C2 C12. En <Minimum Value> 230. En <Maximum Value> 980.

Verifique sus datos con los de la siguiente ventana

Este es uno de los comandos que caracteriza al Minitab y que a la vez lo diferencia respecto a una hoja de clculo como el MS Excel. Y es el ms importante por cuanto nos permite obtener un conjunto de resultados que pertenecen a la Estadstica Descriptiva as como la Estadstica Inferencial.

Grabe la hoja con el nombre de Ventas A continuacin pasamos a describir sus opciones muy brevemente:

Hasta aqu hemos querido presentar las diversas opciones de los comandos de la barra de Men. Para fijar ideas hemos desarrollado algunos ejemplos propios de cada comando y sus respectivas opciones. Completaremos ahora el estudio de los comandos del Minitab slo mencionndolos con un breve comentario para luego realizar aplicaciones que requieran el uso de cualquiera de sus opciones.

<Basic Statistics>

Permite obtener un conjunto de indicadores estadsticos como la media, mediana, desviacin estndar, mximo, mnimo, cuartiles. Igualmente permite obtener intervalo de confianza de varios modelos, realizar diversas pruebas de hiptesis, correlacin y pruebas de normalizacin. <Regression> Realiza anlisis de regresin lineal de mltiples variables; anlisis bietpico, estimacin y ploteo de residuales y diversas formas de grficos.

<Anova> <Histogram> Genera grficos de barra para cada variable en el eje X

Permite realizar anlisis de varianza con diferentes formas de acceder al modelo, enfocado desde el punto de vista del diseo de experimentos.

<Bar Chart>

Genera diversos tipos de cuadro: de lneas, smbolos, etc.

<DOE>

Permite realizar diseo de experimentos para el estudio en forma simultnea de varios factores.

<Control Charts>

Realiza anlisis grfico sobre pruebas de estimadores.

<Multivariate>

Realiza anlisis de componentes principales, anlisis factorial, anlisis discriminante, de conglomerdos en sus dos formas.

<Time

Series>

Realiza anlisis de series de tiempo: anlisis de tendencias, descomposicin, promedios mviles, alizamiento. Tambin realiza autocorrelacin, ARIMA, etc.

<Tables>

Permite realizar tabulacin cruzada, prueba chi-cuadrado, anlisis de correspondencia simple y mltiple. sobre procedimientos estadsticos no-

<Nonparametrics>

Permite realizar pruebas paramtricos de tres tipos.

<Power and Simple size> Permite realizar clculos sobre la potencia y tamao de muestra para ejecutar anlisis prospectivos y retrospectivos.

En los prximos captulos tendremos muchas oportunidades para practicar el uso de cada una de las opciones del comando STAT.

1. Comandos de uso frecuente (23)

13. Comando <GRAPH>


<BoxPlot> Permite construir Diagramas de Cajas en el cual se puede visualizar la concentracin de los datos al rededor de la mediana, el uso de los cuartiles e igualmente si existen datos extremos o aislados llamados outiliers.

Este comando dispone de una gran cantidad de modelos diferentes grficos y ploteos para la diversidad de estimadores y mltiples pruebas realizadas sobre un conjunto de datos. A continuacin mencionaremos los ms importantes.

Entre sus principales opciones tenemos: <Contour Plot...> Plotea grfico de contorno al estilo de curvas de nivel, como grficos bidimensionales definido por tres variables X, Y, Z. <3D Scatter Plot> <DotPlot> Permite la construccin de grficos tridimensionales

<Scatterplot...>

Traza un diagrama de dispersin de los datos.

<Matrix Plot...>

Traza diversas formas de grficos de una variable(Y) vs otra(X) Visualiza puntos por cada observacin a lo largo del Eje X. Si hubieran ms de una ocurrencia, sobrepone los puntos.

<Time Series Plot..>En este caso el tiempo se da en el Eje X

<Pie Chart...>

Permite construir grficos de tipo torta con una serie de opciones disponibles. Si se hace click en la Ventana de Sesin y luego se activa este comando se puede usar

<Steam and Leaf> <Editor> - <Enable Commands>

Permite construir un tipo de grficos de tallos y hojas.

1. Comandos de uso frecuente (24)

Si desea usar la ventana de sesin para ingresar comandos en modo Batch. Para ello, primero debe hacer clic en la ventana respectiva.

14. Comando <EDITOR>


En los prximos captulos haremos una descripcin ms detallada de los comandos <Calc> , <Stat> y <Graph>

Este comando permite el manejo de columnas sea para definir su formato (nmero de decimales), amplitud, insertar filas o columnas as como tambin mover columnas.

2. Grficos en la Estadstica Descriptiva (1)


En el primer captulo nos hemos dedicado a la presentacin del programa Minitab desde la perspectiva de su funcionalidad as como las ventajas que pueden significar su utilizacin como una herramienta de apoyo y de gestin en la estadstica. Ahora que ya sabemos utilizar y manipular algunos comandos, exploraremos algunos temas de la Estadstica Descriptiva en todo aquello en donde haya que realizar algn clculo computacional. De manera que los temas a ser tratados sern:

1. Uso de <Tally> para la obtencin de estadsticas descriptivas 2. Use de <Sort> para el ordenamiento de datos 3. Grficos de tipo <Plot> , <Chart> Configuracin de la plantilla usada para la construccin de grficos 4. Configuracin de la plantilla de grficos. Opcin <Layout> 5. Codificacin de variables 6. Grficos circulares(Pie Chart) 7. Diagrama de cajas 8. Introduccin a Regresin

La siguiente figura muestra las opciones que tiene este comando

Usaremos

<Editor> - <Format column>

Permite definir el nmero de decimales, si la columna debe ser numrica, de tipo texto o fecha.

<Editor> - <Column>

Si se necesita modificar la amplitud de la columna, esconder o visualizarla.

<Editor> - <Insert rows>

Si se desea insertar una o ms filas

1. Uso de la opcin <Tally>

<Editor> - <Insert columns> Si se desea insertar columnas

Si de contar se trata, usaremos Tally en Minitab. Podemos contar datos numricos y tambin literales. Esta opcin determina la frecuencia de veces que un dato u observacin se presenta en el grupo.

Como hemos visto antes, esta opcin se encuentra dentro de las opciones de <Table>, en el comando <Stat> y nos permite la obtener estadsticas sobre la

frecuencia absoluta

frecuencia absoluta acumulada

frecuencias relativas

frecuencia relativa acumulada

El siguiente ejemplo nos permitir entender su importancia. En efecto:

2. Grficos en la Estadstica Descriptiva (2)


Para la tabla de frecuencia por edad, ejecutamos la siguiente secuencia:

Ejemplo 1

El departamento de Admisin de la Universidad de Amazonas realiz una encuesta a los alumnos ingresantes del ao 1999. A cada uno de ellos de ellos se le present un cuestionario de 10 preguntas. La ltima columna contiene el tipo de movilidad con el cual se dirige a la Universidad: 1: Movilidad propia; 0: Vehculo pblico. Las respuestas obtenidas, se muestran en el archivo Ingre99.Mtw.

<Stat> - <Tables> - <Tally>

Al pasar a la siguiente ventana

Con la finalidad de detectar algn comportamiento respecto a los resultados del ao anterior, se decidi realizar un estudio estadstico descriptivo de estos datos. En Variables digitamos Edad

A continuacin trataremos de plantear una serie de preguntas y las resolveremos usando las diversas herramientas que nos ofrece el Minitab.

En Display seleccionamos Counts

1. Cmo obtener una distribucin de frecuencias por edad? Cuntos alumnos son de sexo masculino?. Cul es el porcentaje de estudiantes mujeres?. Podramos obtener el total de alumnos que eligieron una determinada facultad?

Luego hacemos clic en <Ok>

Verifique el contenido de su ventana con la figura anterior.

Solucin Para saber el nmero de alumnos varones hay en la base de datos

La solucin a este ejercicio lo haremos usando la opcin <Tally> que est dentro de <Tables>, del comando <Stat> el cual permitir dar respuesta a las preguntas.

Usamos al siguiente secuencia:

<Stat> - <Tables> - <Tally>

En Display: Activamos Counts

Variables: Sexo

<Ok>

Display: Counts

2. Grficos en la Estadstica Descriptiva (3)


2. Uso de <Sort> para ordenar datos
Sort en espaol significa ordenar, clasificar un conjunto de datos siguiendo algn criterio de ordenamiento. Si los datos son alfabticos, ordenaremos alfabticamente, si fueran numricos, puede ser en forma ascendente o descendente (aunque lo alfabtico tambin puede ser de A a Z o al revs).

<Ok>

Podemos pedir que nos muestre porcentajes (frecuencia relativa) o total acumulado.

Para una tabla de frecuencia relativas (porcentajes) por sexo:

En muchas ocasiones el clculo que debemos realizar requiere que los datos estn ordenados.

En este caso slo cambiamos Display, donde activamos Percents. La secuencia es la siguiente:

Para resolver todo problema de ordenamiento el Minitab dispone de la opcin <Sort> que se encuentra dentro del comando <Data>.

<Stat> - <Tables> - <Tally>

En Variables: ingresamos Sexo

En Display: Activamos Percents

En la ventana de la derecha se muestra los recuadros que debemos llenar para que Minitab pueda ordenar nuestros datos.

<Ok> En <Sort columns> ingresaremos la lista de las columnas (variables) a ser ordenadas.

Para total de alumnos por facultad:

<Stat>-<Tables> - <Tally>

En los cuadros de <By column:> debemos ingresar la columna que determina el criterio de ordenamiento. El nivel de ordenamiento se define de acuerdo a esta lista. Se puede ordenar hasta por cuatro columnas.

En Variables: ingresamos Facultad

En <Store sorted columns> debemos ingresar las columnas donde debemos guardar los resultados ordenados. Paso 02:

2. Grficos en la Estadstica Descriptiva (4)

Para ver su aplicacin desarrollemos el siguiente ejemplo Debemos ordenar los datos por Facultad. Para ello usamos la siguiente secuencia:

Ejemplo 2
<Manip> - <Sort> En la ventana siguiente se debe ingresar la lista de las columnas sujetas al ordenamiento. Como vamos a ordenar toda la tabla, en <Sort column(s)> ingresamos todas las columnas. Para ello podemos seleccionar todas y luego hacer clic en botn <Select>, como se muestra en la siguiente figura:

Prosigamos con los datos del ejemplo anterior. Si el orden de importancia de las facultades histricamente est determinado por el porcentaje de postulantes a cada una de ellas, cuntos alumnos y en qu porcentaje eligieron las primeras dos facultades de mayor importancia?

Suponga que el orden de importancia viene dado por la siguiente secuencia: Medicina, Biotecnia, Biologa y Agricultura.

Solucin

Si Ud. Observa los datos ver que no se encuentran ordenados por facultades. Esto implica que debemos hacer uso de la opcin SORT.

Seguiremos la siguiente secuencia:

Paso 01.

Puesto que al ordenar los datos sobre la misma hoja, se va a modificar la disposicin original, o en el peor de los casos, podemos perder algunos datos, por seguridad vamos a abrir una nueva hoja de trabajo. Para ello usemos la siguiente secuencia:

Despus de seleccionar, debe aparecer Edad Movilidad en el recuadro Sort column(s).

<File> - <New> - <Minitab Worksheet> -<Ok> Como debemos ordenar por facultad, en <Store sorted column(s) in:> ingresamos C1C10

*** Recuerde que debe copiar todos los datos hacia esta nueva hoja ***

Ahora debemos decirle al Minitab que queremos que ordene por Facultad, para ello en la primera lnea de <Sort by column:> ingresamos Facultad.

Dejamos Descending sin activar ya que deseamos que ordene de A hasta Z.

Grfico de Histograma

Finalmente hacemos clic en <Ok>

Puesto que un histograma de frecuencias necesita el rango, nmero de clases, amplitud, etc. primero obtendremos estos resultados.

*** Observe que puede ordenar por varias columnas a la vez Paso 01: Cargar el archivo DatObs.mtw del disco duro *** Paso 02. Determinacin de estos valores usando <Stat>

***

*** Podramos ordenar por Sexo, por Facultad, por Colegio y por edad

Paso 03: <Stat> - <Basic Statistics> <Display statistic descriptive>

Ahora debemos obtener frecuencias absolutas y porcentuales. Para ello usamos <Tally>. La secuencia es la siguiente:

<Stat> - <Tables> - <Tally>

En <Variables> ingresamos Programa

En <Display> activamos todas las opciones

<Ok>

2. Grficos en la Estadstica Descriptiva (5)

3. Grfico de tipo <Histogram>, <ScatterPlot> y <Chart>

En la ventana siguiente ingrese la columna Datos o C1. Hacemos clic en <Statistics> para pedirle las estadsticas que deseamos calcular. En este caso deben quedar activadas Maximum, Minimum, Range y N total, como se muestra en la siguiente figura.

En muchos casos el comportamiento de los datos o la informacin obtenida a partir de ella, puede ser rpidamente comprendida si los resultados cuantitativos se ven apoyados con una o ms grficas del mismo. El Minitab proporciona una gran cantidad de tipos de grficos para resolver diferentes situaciones estadsticas.

Los resultados se muestran en el siguiente recuadro: Descriptive Statistics: Datos Total

A continuacin pasamos a estudiar algunos tipos de grficos que pueden ser usados en la Estadstica Descriptiva.

Variable Count Minimum Maximum Range

Datos

50

34.16

72.24

38.08

En <Graph variables> ingresamos el nombre de la variable Datos . Luego clic en <Ok>.

Paso 03: Obtencin del grfico de Histograma

De acuerdo a los resultados anteriores, el lmite inferior del primer intervalo es 34.16; el lmite superior del ltimo intervalo es 74.24; el rango es 38.08 y el total de datos es n = 50.

La amplitud de clase lo encontramos dividiendo el Rango entre el nmero de intervalos de clase; en este caso, entre 8; con lo que obtenemos 4.76 como amplitud.

Al hacer clic en <Ok> se obtiene el siguiente grfico de Histograma.

Esta informacin vamos a ingresarla en la ventana del histograma.

Usemos la siguiente secuencia:

<Graph> - <Histogram>

En la ventana de dilogo que se muestra, se selecciona <Simple> y hacemos Clic en <Ok>. En la siguiente ventana, ingrese la variable como se muestra en la figura de la derecha. Observacin importante:

En el grfico podemos apreciar que en efecto hay 8 intervalos pero se muestra los puntos medios y no los lmites inferior y superior de cada intervalo. Ms adelante veremos que, cuando se maneja datos agrupados y se desea construir una tabla de frecuencias, se puede hacer a partir del histograma obtenido.

Grficas de tipo <ScatterPlot>


Project Connect Lowess Project Symbol

Hacemos clic en <Data View> y luego en la ficha <Display> seleccionamos una opcin del conjunto:

Usaremos la opcin ScatterPlot cada vez que se desee obtener un grfico que relacione una variable contra otra. Por ejemplo, en los datos que estamos usando, nos interesara saber cmo se comporta el total de crditos en relacin a la edad de los alumnos.

2. Grficos en la Estadstica Descriptiva (6)

Ejemplo 3

Podramos obtener algn tipo de grfico que nos permita visualizar la relacin que hay entre la variable Edad y la variable Crditos del archivo Ingre99.mtw?

La opcin Project lines muestra la grfica de las variables en forma de lneas verticales, lo que nos permite comparar el nmero de crditos de los alumnos de acuerdo a la edad.

Solucin Por ello, seleccionemos la opcin Project lines.

Comenzamos abriendo el archivo Ingre99.mtw. Graficar una relacin entre dos variables significa realizar un cruce entre ellas. Para ello haremos uso de la grfica de tipo PLOT. Luego de haber completado su seleccin, haga clic en <Ok>

Plotearemos las variables Edad y Crditos de los alumnos de la base de datos Ingre99.mtw. La secuencia <Graph> - <ScatterPlot> nos genera la ventana de la izquierda. Seleccionamos <Simple> y hacemos clic en <Ok> para pasar a la siguiente ventana.

Recomendamos que pruebe con las otras opciones y vea cul se adapta a sus exigencias.

En el grfico observe que hay una cantidad de crditos correspondiente al valor de las edades. Ms crditos llevan los alumnos entre las edades 18 y20.

Ubicaremos la variable Edad en el Eje X y Crditos en el eje Y. Para ello es suficiente hacer doble clic en Crditos primero y en Edad despus.

Ahora debemos indicar la forma de grfico de Plot que queremos:

Nota:

Esta es tambin una de las formas clsicas de representar grficamente una distribucin de frecuencias

Y qu tipo de grfico se habra mostrado si hubiramos seleccionado en < Display> Symbol? El Minitab ofrece una diversidad de grficos de tipo Chart que pueden ser usados para visualizar nuestros datos.

La siguiente figura responde a esta pregunta. Podemos obtener Charts de barras, de lneas, de reas, de proyecciones y de smbolos. Estas opciones son los equivalentes a los grficos de tipo ScatterPlot.

Sin embargo en este caso, el tipo de grfico Chart se fundamenta en aquello que se quiere graficar:

Puede graficarse como variable a la frecuencia de los datos Puede graficarse como variable a la suma de los datos, la media, mediana, desviacin estndar, etc.

Ejemplo 4
Obtener una grfica de tipo Chart para las mismas variables del ejemplo anterior. Primero graficaremos slo la variable Edad.

Observe la densidad de los datos en cada valor de la variable Edad. En la grfica se muestra algunos valores del nmero de crditos.

Solucin

Podramos decir que este tipo de grfico nos permite observar la densidad de los datos por cada cambio en la variable ubicada en el Eje X.

A continuacin veamos el grfico de tipo Chart

2. Grficos en la Estadstica Descriptiva (7)

Grfico de tipo Bar Chart:

Al usar la secuencia <Graph> - <Bar Chart> obtenemos la siguiente ventana del lado izquierdo. Luego de hacer clic en <Ok pasamos a la ventana que se muestra, donde completamos los datos segn se muestra en la derecha.

Ejercicio
Use la secuencia: <Graph> - <Bar Chart > - <Cluster> - <Ok>. Como variables categricas elija Sexo y Edad. Haga clic en <Multiple graphs>. En <By variables with groups in separate panels> ingrese Facultad. Luego <Ok> y <Ok>. Puede analizar los grficos resultants?

Qu ocurre si vuelve a graficar pero ahora hace clic en <Data View> y elige Project Line?

Qu hubiera pasado si la variable Facultad se ingresa en on separate graphs?.

Podramos decir que la mayor parte de los alumnos tienen entre 18 y 19 aos.

2. Grficos en la Estadstica Descriptiva (8)


Ejemplo 5:
1. Compare grficamente la distribucin de las horas dedicadas al estudio y a ver TV, en ventanas diferentes. 2. Construya una grfica que de las horas de estudio y horas de TV respecto a la edad.

Vuelva a usar la secuencia <Graph> - <Bar Chart>. De las opciones de <Bars represent> seleccione <A function of a variable>. Haga clic en <Cluster> (segundo cuadro). Con ello logra obtener una ventana como la que se muestra. Complete segn se indica para graficar el crdito por edad.

Solucin

1.

Para la comparacin grfica pedida usaremos la siguiente secuencia:

<Graph> - <Bar Chart> - <Ok> En variables categricas ingrese Hrs Est y Hrs TV. Luego haga clic en <Ok>.

Los resultados se muestran en las siguientes figuras:

Qu ocurre si en lugar de usar la opcin Mean de <Function> selecciona Count>?

Y si ahora selecciona Sum o alguna otra funcin?

Por lo general, se construye grficos de una variable en relacin a otra. La variable determinante, es Y, y la variable X hace referencia a la categora de la distribucin y en una relacin lineal, constituye la variable independiente.

En <Multiple Graphs> seleccione <In separate panels of a same graph>. Luego <Ok>

Qu ocurre si se elige <On separate graphs>? Qu ocurre si en <Multiple graphs> se activa la casilla <Same Y>.

Nota: Compare las horas dedicadas a estudio(Hrs. Est) o TV (Hrs. TV) entre los varones y las mujeres, que mostramos en las siguientes figuras. Observe tambin que, usando el tipo de grfico <Chart> podemos visualizar en una sola ventana dos o ms grficos. En la tercera figura hemos superpuesto las Horas de TV (en color negro slido) a las Horas de estudio.

2.

En este caso debemos ingresar informacin de las dos variables y usaremos como variable categrica a la variable Edad.

Para ello usaremos la siguiente secuencia:

2. Grficos en la Estadstica Descriptiva (9)


4. Informacin obtenida a partir de datos agrupados:
Si quisiramos trabajar con un cuadro para la distribucin de datos agrupados, y a partir de ella, generar todos los estadsticos descriptivos que nos pueda proporcionar, el Minitab dispone de su Lenguaje de Comandos que se ingresan en la Ventana de Sesin. Por ello a esta ventana se le conoce tambin como la ventana de comandos.

<Graph> - <Bar Chart> - <Ok>

Seleccione <Values from a Table>. En <Two-way table> seleccione Cluster.

Ingrese los datos segn se muestra en la siguiente ventana. De manera que el Minitab ofrece a sus usuarios dos modos de operacin o de interfase:

La interfase de comandos y la interfase grfica o GUI (el de ventanas) Nota:

Por la dificultad que tiene el uso de la ventana Sesin o de Comandos y por el natural apego de todo usuario de la computacin al manejo de ventanas, esta seccin la desarrollaremos en una pgina avanzada .

Grfico de Puntos (DotPlot)

Una grfica de puntos permite representar a cada uno de los datos mediante un punto en el Eje X. Si una determinada observacin se repitiera, los puntos se visualizarn uno sobre otro; igualmente, si hubiera observaciones muy prximas, los puntos se sobrepondran uno sobre otro. Ejercicio

Se puede observar que un gran porcentaje de alumnos acumulan crditos que van desde 80 hasta 130. Y que, por otro lado, el conjunto de datos observados presenta dos grupos fuera de lo normal, fuera de contexto, son los outliers. Si se eliminan estos datos incluyendo los que estn alrededor de 70, podramos decir que los crditos acumulados se encuentran normalmente distribuidos.

Veamos cmo se visualiza la grfica de la variable Edad usando esta opcin.

Compare grficamente las horas dedicadas al estudio vs horas dedicadas a ver la televisin. Qu conclusiones puede extraer. Quines tienden a ver ms televisin?

Ejemplo 6
Ejercicio

Abra el archivo Ingre99.Mtb . Grafiq uemos primero la variable Edad. Esto lo hacemos mediante: Comente la distribucin de la variable Crditos por el Nmero de hermanos. La grfica se muestra en la siguiente figura.

<Graph> - <DotPlot> En Variables ingrese Edad. <Ok>

Comentario: Observamos que el mayor porcentaje de alumnos se concentra entre los 18 y 19 aos, con un sesgo, podramos decir normal, hacia la derecha.

Plotee ahora la variable Crditos. La siguiente grfica es el resultado del ploteo.

2. Grficos en la Estadstica Descriptiva (10)


<Data> - <Code> - <Text to Numeric>

Para construir la nueva columna numrica, a partir de la columna Facultad, de tipo texto, use

5.

Codificacin de variables

Minitab ofrece codificar datos numricos a numricos, datos numricos a texto, de texto a numricos, de texto a texto. Esto por que para efectos de graficar puede ser que para un tipo de grfico determinado, no permita hacerlo con variables de tipo texto o literales.

La ventana que aparece es la que se muestra en la siguiente figura. Complete los datos segn se indica y grafique.

No siempre los datos son numricos. Por ejemplo en el archivo Ingre99.mtw tenemos tres variables que son de tipo carcter: Sexo, Colegio y Facultad. En <Code data form column> ingresamos Facultad

Si bien el Minitab dispone de la opcin <Tally> para obtener estadsticas en cuanto a frecuencia absoluta y relativa de estas variables, sin embargo no se puede obtener un grfico de ellas, excepto de tipo <Chart>.

Pero si bien no podemos disponer de todos los tipos de grficos, s podemos codificar estos datos como variables numricas, como lo veremos en los siguientes ejemplos.

En <Into columns> ingresamos la nueva columna que contendr los cdigos, C11

En <Original values> ingresamos Agraria

Ejemplo 7
En <New> ingresamos 1.

Obtener una distribucin grfica de puntos (DotPlot) para las variables Facultad por Sexo.

Solucin

En la siguiente lnea hacemos lo mismo ingresando Biologa y 1 respectivamente. Procedemos de manera similar para Biotecnia, 3 y para Medicina, 4.

Si Ud. intenta hacerlo, al usar <Graph> - <DotPlot> obtendr una lista de variables en las que no se encuentra ninguna de las de tipo literal. En este caso facultad no aparece. Ingrese FacultadNumerico como nombre de la columna C11.

Si pudiramos construir otra columna que contenga un 1 por cada alumno de Agraria, un 2 por cada alumno de Biologa, 3 por cada alumno de Biotecnia y 4 por los alumnos de Medicina, podramos disponer de esta nueva columna, de tal forma que al usar <Graph> <DotPlot> ingresamos Crditos en <Variables> y en <By variables>, ingresamos la nueva columna.

Con esta modificacin nuestra variable Facultad ser FacultadNumerico y estar en la columna C11.

Ahora podemos usar cualquier tipo de grfico con esta variable.

En particular, para DotPlot, tendremos

<Graph> - <DotPlot>

Ejemplo 8
Construya un grfico de tipo torta para la variable Facultad.

En Y ingresamos Crditos

En X ingresamos C11 o FacultadNumerico

Solucin

La grfica se muestra en la siguiente figura.

El siguiente es el grfico que Ud. debe obtener. La variable es Facultad.

2. Grficos en la Estadstica Descriptiva (11)

6. Grfico circular (PIE CHART)

Este es uno de los tipos de grficos ms conocido junto con los de barra o de lnea. El Minitab dispone de grficos circulares de dos y tres dimensiones.

Vamos a construir grficos circulares tipo torta. Para ello usaremos el archivo Ingre99.

Qu porcentaje de varones y mujeres conforman esta seccin de alumnos? La secuencia es la siguiente:

Como la columna C2 contiene la variable Sexo, usamos la secuencia: <Calc> - <Pie Chart>

<Graph> - <Pie Chart>. En la ventana siguiente ingrese la variable Sexo. Haga clic en <Labels>. Vaya a la ficha <Slice labels>. Active todas las opciones de esta ficha.

Para verificar si los porcentajes son los indicados podemos usar <Tally>.

Finalmente

haga

clic

en

<Ok>

Para ello usamos la secuencia: <Stat> - <Tables> - <Tally> - <Variables> C11 . Active todas las opciones. Compare estos porcentajes con los del grfico.

2. Grficos en la Estadstica Descriptiva (12)

Ejemplo 9

A continuacin haremos uso del Minitab para obtener los medidas de tendencia central, de dispersin y las de posicin que forman parte de la estadstica descriptiva.

Construya otro grfico circular que represente los porcentajes de los datos en cada intervalo.

2. Grficos en la Estadstica Descriptiva (13)


7. Los grficos y la Estadstica Descriptiva
Ante todo revisemos algunas formas de obtener medidas de tendencia central o de dispersin.

El resultado debe ser el que se muestra en el siguiente grfico.

En este caso use la opcin <Chart table>.

En <Categories in> ingrese C4. C8. Entre las medidas de tendencia central tenemos:

En

<Frequencies

in>

ingrese

La media aritmtica

La mediana La moda La media podada

Es el valor central de un conjunto de datos Es el valor de mayor frecuencia de repeticin Es la media aplicada luego de eliminar extremos de datos que distorsionan al conjunto. En trminos de notas de 30 alumnos, donde 4 no rindieron la prueba y 5 obtuvieron 20, mientras que los 21 restantes se encuentran alrededor del promedio 12, diramos que la media es afectada por los que no rindieron la prueba.

Nota: Observe esta otra forma de graficar la misma variable usando la opcin <Pie Chart ...>. En este caso hemos hecho clic con el botn derecho sobre el grfico; se ha seleccionado <Edit Pie> y luego hemos ido a la ficha <Explode> y hemos hecho clic en la casilla.

Entre las medidas de dispersin, que miden la variabilidad, tenemos:

La varianza

La desviacin estndar

El coeficiente de variacin

; mide el porcentaje de variabilidad de los datos.

Con solo apreciar la figura anterior, podemos deducir que el Minitab constituye una buena herramienta de apoyo tanto en el estudio de la Estadstica como en el campo de la investigacin.

Respecto a las medidas de posicin, podramos aadir las siguientes:

Las opciones del comando <Stat> se agrupan por categoras:

Cuartiles.

<Display Descriptive Statistics...>: Aquellas que proporcionan resultados descriptivos propios de una muestra;

Dividen a los datos en cuatro grupos porcentualmente del mismo tamao. El primer cuartil, Q 1, indica que el 25% de los datos tienen valores como mximo a Q 1. El segundo cuartil, Q2representa el 50% de los datos inferiores o iguales a l. Y Q3 representa a los 75% de valores menores o guales a dicho valor.

<Store Descriptive Statistics...>: Los que permiten guardar los resultados en columnas

Las opciones

Deciles: Equivalente a los cuartiles, pero que divide a los datos en 10 grupos iguales.

<1- Sample Z ...> , <1 Sample t >, <2 Sample t> y <Paired t > :

Usemos el minitab

nos permiten realizar procesos de estimacin y prueba de hiptesis para una o dos poblaciones, o realizar anlisis de datos pareados.

Las opciones

<1 proportions ...> , <2 proportions ...>

nos proporcionan estimaciones a partir de las proporciones muestrales, sobre una o dos poblaciones.

<2 Variances ...>: nos permite analizar la razn de variabilidad en el comportamiento de dos poblaciones, a travs de sus varianzas.

Adems de las estadsticas por fila y columna que nos proporciona el comando <Calc>, disponemos del comando <Stat> que en su primera opcin tiene a <Basic Statistics> para proporcionarnos las estadsticas antes mencionadas, visualizndolas en la ventana de sesin, o almacenando en la hoja de trabajo activa.

Las opciones

Descriptive Statistics: Prom.Gral.

<Correlation ...> y <Covariance ...>: Variable Prom.Gral. 11.071 0.486 10.150 10.740 11.070 11.550 11.860 Mean StDev Minimum Q1 Median Q3 Maximum

nos proporciona informacin suficiente para un anlisis de regresin y correlacin de los datos.

<Normality test>: Que permite realizar una prueba de hiptesis para examinar si los datos se ajustan a una distribucin normal, proporcionando adems una grfica de tipo Plot. Donde N Mean Median Es la mediana de los datos

Representa el total de observaciones(total de alumnos) Representa la media aritmtica, media o promedio muestral

A continuacin resolveremos algunos ejemplos usando estas herramientas y las otras sern tomadas en cuenta dentro del tema que les corresponde

2. Grficos en la Estadstica Descriptiva (14)


StDev SE Mean Minimum Maximum Q1 Q3

TrMean Representa la media podada. Hay datos extremos? Lo veremos despus. Desviacin estndar de la muestra. Es la desviacin estndar poblacional(tambin error estndar de la media) Es el mnimo valor de la muestra u observacin Es el mximo valor de los datos Representa el primer cuartil Representa el tercer cuartil

Ejemplo 10

Realice un anlisis descriptivo respecto a la variable Promedio General de los alumnos en el archivo Ingre99.mtw.

Solucin

Abra el archivo de datos INGRE99.MTW.

Usemos la secuencia: Interpretacin:

<Stat> - <Basic Statistics> - <Display Descriptive Statistics> Los 120 alumnos tienen como Promedio General de grupo a 11.071; con una desviacin estndar de 0.486; centrados en 11.070, que es la Mediana El promedio mnimo es 10.15 y el mximo es 11.86.

En <Variables> ingresemos Prom. Gral; es decir, la columna C6.

He aqu los resultados: En base a estos dos ltimos estadsticos de posicin podramos obtener:

Results for: Ingre99.MTW Rango Intercuartlico(RIQ) : La diferencia entre Q3 y Q1; es decir IRQ = Q3 Q1

Fronteras interiores

: Usado en los Diagramas de Caja(BoxPlot)

En la ventana cuyo titulo es Display Descriptive statistics , en el recuadro <Variables> ingresamos la variable Prom. Gral.

Izquierdo: Q1 - 1.5 RIQ

Derecho : Q3 + 1.5 RIQ Activamos la opcin <By variables> e ingresamos la variable Sexo en el recuadro.

Fronteras exteriores

: Usado en los Diagramas de Caja(BoxPlot)

Izquierdo: Q1 - 3 RIQ y dentro de esta nueva ventana activamos Hacemos clic en el botn<Graphics> <Graphical summary>. Los resultados fueron:

Derecho : Q3 + 3 RIQ

En los resultados podemos apreciar que Q 1 = 10.74; esto significa que el 25% de los alumnos tienen un promedio mximo de 10.74. Como la mediana es 11.07, entonces el 50% de los promedios no sobrepasan 11.07. a) Por sexo

Del mismo modo, Q3 = 11.55 indica que el 75% de los promedios de los alumnos estn por debajo de 11.55; dicho de otra manera, el 25% de los alumnos tienen un promedio superior a 11.55. Descriptive Statistics: Prom.Gral.

Total Variable Sexo Count Mean SE Mean StDev Variance CoefVar Minimum 80 M 40 11.135 0.0534 10.942 0.0764 0.478 0.228 0.483 0.234 4.29 4.42 10.200 10.150

Nota: Si un dato observado se aparta ms all de las fronteras exteriores, se dice que el dato es un outlier extremo y se representa por 0; en caso contrario se dice que presenta un outlier moderado, en cuyo caso se representa por *. Prom.Gral. F

2. Grficos en la Estadstica Descriptiva (15)

Ejemplo 11

Ahora obtendremos estadsticas del promedio general por a) sexo y b) por Colegio de procedencia. Adems pediremos que nos muestre el histograma de los datos as como un resumen grfico (Graphical summary).

Variable

Sexo Q1 Prom.Gral. F M

Median Q3

Maximum IQR 10.800 11.230 11.550 11.640 10.390 11.050 11.170 11.860 0.750 0.780

Solucin

Usando la secuencia:

En cuanto a la grfica pedida, en la siguiente figura solo mostramos las ventanas de grfico correspondiente a la variable Sexo = M. La ventana de la izquierda contiene el histograma. El promedio de los varones tienen mayor variacin (CV(X) = 16.424).

<Stat> - <Basic statisic> - <Display descriptive statistics ...>

Variable Prom.Gral. Priv Pbl 10.445 11.150 11.550 11.640 1.105 10.800 11.070 11.600 11.860 0.800

En ella se puede apreciar que el promedio general de los varones est alrededor de 12. Presenta un sesgo hacia la izquierda; es decir, es asimtrica hacia la izquierda. En cuanto a la segunda ventana podemos encontramos una descripcin grfica as como una cuantitativa del promedio general de los varones. Hay estadsticos como Skewness, Kurtosis, intervalos de confianza, P value, que nos los analizaremos por ahora. Colegio Q1 Median Q3 Maximum IQR

2. Grficos en la Estadstica Descriptiva (16)


8. Diagrama de cajas (BOXPLOT)
El BoxPlot es un instrumento grfico en la estadstica descriptiva que permite realizar un anlisis ms detallado y conciso respecto a la distribucin de los datos en la muestra. Esto se complementa, de manera cualitativa, con los resultados cuantitativos obtenidos a travs de los estadsticos de la muestra. Adicionalmente un Diagrama de Cajas permite determinar si la muestra tiene elementos outliers y si presenta un sesgo a la izquierda a la derecha o izquierda.

La siguiente figura describe los elementos que conforman una caja en un grfico BoxPlot. La forma de visualizar la caja depende de cmo se pide la grfica.

En la siguiente seccin comentaremos grficos de caja, que se muestra horizontal y en azul, por debajo del histograma.

b) Por Colegio de procedencia

He aqu los resultados emitidos en la Ventana de Sesin:

Descriptive Statistics: Prom.Gral.

Total

Variable 0.479 0.229 0.499 0.249 4.52 10.150 4.31 10.200

Colegio Count Mean

SE Mean StDev Variance CoefVar Minimum

Prom.Gral. Priv

67

11.093 0.0585

Pbl

53

11.043 0.0685

Los outliers son valores extremos en el conjunto de los datos.

Prom.Gral. Priv

10.800 11.070 11.600 11.860 0.800

Le media podada resulta del clculo de la media aritmtica, luego de eliminar estos outliers.

2. Grficos en la Estadstica Descriptiva (17)


Ejemplo 13
Obtenga un diagrama de cajas para la variable Crditos por la variable Sexo.

Si la mediana se encuentra muy cerca de la cara lateral derecha (superior en este caso) es por que se acerca al tercer cuartil Q3, en cuyo caso se dice que los datos presentan una asimetra hacia la izquierda.

Ejemplo 12
Solucin

Construyamos un diagrama de cajas (BoxPlot) para la variable crditos aprobados

Solucin: Obtuvimos los siguientes resultados:

Ante todo usaremos el comando <Stat> - <Basic statistics> - <Ddisplay descriptive ...>

Usemos la siguiente secuencia: Descriptive Statistics: Creditos by Sexo

<Stat> - <Basic Statistics> - <Display descriptive stastistic >

En el recuadro <Variables> ingresamos la variable Crditos. Crditos M F

Variable Sexo

N 68 37

N* 12 3

Mean 106.88 81.35

Median 113.00 94.00

TrMean 110.21 83.00

La grfica anterior corresponde a la solucin de este ejemplo.

En ella podemos observar que:

Variable Sexo Crditos F M Q3 = 119

StDev SE Mean 24.03 45.04 2.91 7.40

Min. 15.00 13.00

Max. 130.00 125.00

Q1 98.00 13.00

Q3 120.00 118.00

La mediana es

113

El valor de los cuartiles son:

Q1 = 95,

Haciendo uso de las frmulas para las fronteras dadas anteriormente, encontramos:

Fronteras interiores y 191

59

155

Fronteras exteriores

23

Los datos presentan dos outliers:

13 y 15. Ambos son extremos

----------OO ----------+---------+---------+---------+---------+---------+------Crditos 0 25 50 75 100 125 ------------I + I----

Nota: Observe los dos outliers que ya habamos observ ado antes. Y son extremos. Observe ahora una grfica BoxPlot para la variable Prom. Gral por el tipo de Movilidad.

En esta figura hemos indicado los elementos del Diagrama de Cajas para el Sexo Femenino.

Como se puede apreciar, los crditos de las alumnas presentan una cierta inclinacin hacia el tercer cuartil; es decir, un gran porcentaje de alumnos tienen promedio por encima de la mediana.

2. Grficos en la Estadstica Descriptiva (18)

Ejemplo 16 (Usando la versin 13 de Minitab)


La grfica siguiente nos indica que no tienen outliers y la asimetra es muy leve en el caso de los que no tienen movilidad.

Tambin podemos obtener grficos de caja usando el modo texto del Minitab. Para ello usamos la secuencia de comandos:

<Graph> - <Carcter graphs> - <BoxPlot> A continuacin mostramos tambin los resultados obtenidos al usar esta opcin de Graph, pero en la modalidad de caracteres <Character graph>.

En el recuadro de variables ingresemos la variable Crdito

He aqu el grfico. Hay sesgo por la izquierda.

Movilidad

--------------------------

-------------I

I--------

--------------------------

--------------Ahora use la opcin <Stack> e ingrese las dos variables. Obtendr el grfico de la derecha.

----------------I

I--------------

--------------Pedimos a Ud. que obtenga la segunda grfica que representa una grfica de barras agrupadas de tipo <Stack>, una sobre otra. Tomando en cuenta para ello la variable Sexo.

--------+---------+---------+---------+---------+--------Prom.Gral 15.0

9.0

10.5

12.0

13.5

10.

Grfico de mltiples variables

2. Grficos en la Estadstica Descriptiva (19)

9.

Graficos agrupados

En Minitab podemos trazar la grfica de varias variables en la misma ventana de grficos. Esto permite un anlisis del comportamiento de las mismas a travs del tiempo. Podemos ubicar en el Eje X la variable que permite la generacin de los eventos en las otras variables y visualizar su recorrido por cada cambio de X.

Ejemplo 17

Construya una grfica de barras agrupadas para comparar el total de alumnos por facultad, provenientes de los colegios pblicos y privados.

Ejemplo 28

Use la siguiente secuencia: <Graph> - <Bar Chart>

Abra el archivo DemProd.Mtw que se encuentra en la carpeta de trabajo. Este archivo contiene la demanda de tres tipos de productos: A, B y C de la empresa Producciones Magic S.A. durante los meses del ao 2001.

Seleccione la opcin <Cluster> y luego clic en <Ok>. En <Variables categricas> introduzca las variables Colegio y Facultad. Construya un grfico de lneas conectadas de la demanda de los tres productos.

Hagamos que las barras se muestren de colores diferentes: Para ello, use botn derecho sobre una de las barras. Clic en <Edit bars>. Haga clic en Custom de <Fill pattern> y seleccione el color Lima en <background color>. En la ficha Groups, ingrese la variable Colegio en el recuadro. Luego haga clic en <Ok>. Obtendr el siguiente grfico.

Solucin

Una vez abierto el archivo Ud. ver que la primera columna contiene los meses del ao 2001. Usaremos esta columna para graficar las otras tres columnas.

La secuencia es:

<Graph> - <ScatterPlot> - <With connect line> - <Ok>. de la siguiente ventana, se aprecia aqu.

Una

parte

Complete la siguiente ventana como se muestra en la figura.

Como puede apreciar, hemos ingresado la columna de los meses en el Eje X y la demanda de los tres productos, en el Eje Y.

2. Grficos en la Estadstica Descriptiva (20)


11. Introduccin a Regresin

Observe que la variable Mes se ha repetido para las tres variables de producto.

En <Data display> de <Data view> seleccione Connect line. Hagamos una introduccin a las ecuaciones de regresin, que ms tarde las trataremos dentro del concepto de Intervalos Confianza y Pruebas de Hiptesis.

En <Multiple graph> seleccione <Overlaid on the same graph>. Luego <Ok> y <Ok>.

Abra el archivo Regre01.Mtw que se encuentra en su carpeta de trabajo. Este archivo contiene la informacin del Producto Bruto Interno (PBI), el Gasto Pblico (GP) y las Exportaciones (EX) de un determinado pas entre los aos 1984 1996. Respecto a estos datos queremos encontrar la relacin entre el PBI y el GP.

Si existe una relacin, esta debe ser de la forma

YPBI = D + E GPT + PT

donde P es una variable de perturbacin que cumple determinadas condiciones ideales

E es el coeficiente de regresin; parmetro a ser estimado

D es el intercepto, parmetro a ser estimado

YPBI es el valor del PBI a ser estimado

Las ecuaciones de estimacin de estos parmetros se muestran a continuacin

para los cuales

Necesitamos pues obtener mayor informacin. Esto nos lo permite el uso de la regresin lineal. Usando los datos del archivo Regre01.Mtw, obtendremos los estimadores de la ecuacin YPBI = D + E GPT + PT Para ello usemos la siguiente secuencia: <Stat> - <Regression> - <Regression> En la siguiente ventana ingresar a la variable GP como variable predictora(Predictor) y a PBI como la variable explicativa(Response). Ingresando por la opcin <Results> pedimos Ecuacin de regresin, coeficientes, r,... Ingresando por la opcin <Graph> pedimos ploteo de Residuales vs lo estimado. Igualmente podemos almacenar una serie de resultados como los valores de los coeficientes, la tabla de los residuales, etc. Los resultados se dan a continuacin; tambin mostramos la grfica de los residuales vs el PBI ajustados. Regression Analysis

Coeficiente de correlacin U :

Es un estadstico que representa el grado de asociacin entre las variables

El valor de U se obtiene mediante la frmula

2. Grficos en la Estadstica Descriptiva (21)

Ejemplo 29

Ante todo plotearemos las variables PBI y GP para ver si efectivamente existe una relacin lineal PBI = f(GP) entre ellas. Esto lo haremos usando la siguiente secuencia:

<Graph> - <ScatterPlot>. Seleccione <Wth groups> - <Ok>. Como variable X elegimos a GP y como Y elegimos a PBI. La grfica se muestra en la siguiente figura.

La grfica nos indica que efectivamente existe una relacin entre las variables. Pero qu tan bien queda explicada, PBI por GP; si se incrementa una unidad de GP, en cunto se incrementa el PBI? Qu grado de correlacin existe entre ellas?

The regression equation is PBI = - 439 + 13.3 GP

Predictor Constant

Coef -439.2

StDev 221.0

T -1.99

P 0.072

GP

13.2908

0.9434

14.09

0.000

S = 139.9

R-Sq = 94.7%

R-Sq(adj) = 94.3%

2. Grficos en la Estadstica Descriptiva (22)

Como parte de las opciones pedidas tambin tenemos el anlisis de varianza:

Analysis of Variance Igualmente podemos almacenar los resultados del clculo regresional para luego graficar los residuales y los valores estimados. Para ello usamos la secuencia: <Stat> - <Regression> - <Regression> . 198.48 0.000

Source

DF

SS

MS

Regression

3887134

3887134

Residual Error

11

215426

19584 En la opcin <Storage> activamos entre otras: Coeficientes, Fitts, residual, X matriz.

Total

12

4102560

Con estos resultados, y suponiendo que los ajustes y residuales se encuentran en la columna C6(fitts1) y C7(resid1), hacemos uso de la siguiente secuencia:

<Stat> - <Regression> - <Residual Plots> Las variables son las mismas.

Los resultados se muestran a continuacin.

Tambin podemos graficar la recta de ajuste sobre el diagrama de dispersin, usando <Stat> <Regression> - <Fitted Line Plot>.

Seleccionar las mismas variables X e Y. El grfico se muestra a continuacin

EJ02. La siguiente tabla muestra el porcentaje de familias con diversos niveles de ahorros durante los aos 1969 y 1994

Ao 1969 Menos de 10,000 10,000 - 14,999 15,000 - 24,999 25,000 - 34,999 35,000 - 49,999 50,000 - 74,999 75,000 - 99,999 Ms de 100,000 17.8 5.0 2.9 24.7 19.1 15.8 15.0 14.3 18.0 19.9 8.8 8.4 6.7 6.9 7.9 8.7

Ao 1994

2. Grficos en la Estadstica Descriptiva (23)

12.

Ejercicios propuestos

La solucin a Ej01 y Ej02 estn en el archivo Proy03.mpj a) Construya una grfica de histograma para comparar la variacin de los ingresos b) Construir un grfico de torta para ver la distribucin de las personas por nivel de ingreso en los dos aos.

EJ01. La siguiente tabla representa el monto de los ingresos salariales de la poblacin econmicamente activa y el monto de los ahorros en el sistema bancario de un pas entre los aos 1950 a 1996

Construya una grfica que muestre el comportamiento de ambas variables

Ao 57,120

Ingreso

Ahorro

EJ03. Los siguientes datos representan los tiempos de sobrevivencia(en dias) de 50 pacientes aquejados de cncer: 42 45 51 46 340 81 243 63 155 151 37 138 245 377 537 455 776 163 20 1234 201 2970 456 1235 1581 40 3808 1804 719 365 129 45 9 234 1092 827 272 188 54 93 128 822 282 532 102 152 182 2827 2672 28 53 912. Con respecto a estos datos:

1950 172,077 478,340 1 129,312 1 582,061 2 168,697

2 200,000

1960

2 345,000

a) Construya un cuadro de distribucin de frecuencias b) Calcular los estadsticos media, mediana, desviacin estndar, mximo, mnimo c) Construir el histograma de los datos. Comentar d) Construir un grfico de tipo BoxPlot. Comentar

1970

271,000

1980

3 182,328

1990

3 522,037

1996

3 782,862

EJ04. La siguiente tabla muestra la distribucin de frecuencia de los tiempos (en minutos) que tiene que perder un conductor para desplazarse desde El Jockey Plaza Shopping Center hasta La Avenida Arequipa.

Procedimiento: P1. Abrir el archivo Saldos.mtw. Frec. Rel. Frec. Abs. Ac. Frec. Rel. Ac.

Intervalo de clases

Frec. Abs.

10.0 n = 2074 Max = 3578 Min = 32

14.9

P2. Obtenr las estadsticas: Mximo, Mnimo, Rango, N total usando: <Stat> - <Basic Statistics> <Display descriptives statistics>. Ingresar la variables Saldo (C1) - <Statistics> - Activar Mean, Maximum, Minimum, Range y N total - <Ok> - <Ok> Rango = 3546

15.0 -

18.9

10

19.0 -

22.9

14

23.0 -

26.9

25

27.0 -

30.9

17

P3. Calcular el nmero de intervalos: k = 1 + 3.323*Log(n) = 1 + 3.323*Log(2074). Segn esto k = 12. Esto es, la tabla a ser construida tendr 12 intervalos. Ahora se debe calcular la amplitud o ancho de cada intervalo (en nuestro caso, todos los intervalos tendrn el mismo ancho). C = Rango / k = 3546 / 12 = 295.5 P3. Construir el histograma usando: <Graph> - <Histogram> - <Simple> - <Ok> - En <Graph variable> ingresar Saldo o C1. Luego <Ok>. Esto nos construye el histograma no importa el nmero de intervalos. Esto se debe ajustar a 12. Paso 4: En el grfico, botn derecho sobre el eje de categoras (Eje X). Hacer clic en <Edit X scale>. En la ficha <Binning>, activar: <CutPoint> y <Midpoint cutpoint positions>. Al interior del recuadro digitar: Min:Max/Amplitud. En nuestro caso: 32:3578/295.5. - <Ok>. Nota:

31.0 -

34.9

35.0 -

38.9

a) Obtenga la amplitud de clase

b) Obtenga la marca de clase

c) Obtenga el tamao de la muestra

d) Complete la tabla

e) Construya histograma de frecuencia

Esto permite reconstruir el histograma con el nmero de intervalos requerido. Si C tuviera muchos decimales, trate de redondear por exceso a fin de que logre obtener los intervalos deseados. Cuando esto ocurra se tendr expresado el Mnimo y Mximo as como cada uno de los extremos de los 12 intervalos. Si ocurre como en este ejemplo, el extremo del intervalo que falta es suficiente sumar C al extremo inferior.

Nota: La solucin al ejercicio 5 se debe usar para resolver el ejercicio 3 y 4

2. Grficos en la Estadstica Descriptiva (24)

Observacin

El siguiente ejercicio es particularmente importante ya que nos permite obtener la tabla de distribucin de frecuencia para un conjunto de datos, utilizando los recursos que nos proporciona la grfica de histograma que en este caso recibe el nombre de Histograma de frecuencias.

Paso 5: Colocar la frecuencia absoluta como etiqueta de cada barra: Este es el nico y principal motivo por el que se recurre al grfico. Haga clic con el botn derecho sobre cualquiera de las barras del grfico; seleccione <Add> y luego <Data labels>. Luego <Ok> sin modificar nada en la ventana. Copie en su tabla en la columna fi. Paso 6. Obtener la frecuencia absoluta acumulada: Fi. Haga clic con el botn derecho sobre el eje vertical; hacemos clic en <Edit Y scale>. En la ficha <Type>, activar la casilla Acumulative values cross bins; <Ok>. Paso 7. Obtener la frecuencia relativa: Botn derecho sobre el Eje vertical; en Type seleccionar <Percent> - <Ok>. Desactivar <Acumulative > Paso 8: Obtener la frecuencia relativa acumulada. Repetir el paso 7 pero ahora activar <Acumulative .> - <Ok>.

EJ05. Construya una tabla de distribucin de frecuencias a partir del grfico de histograma y determinando el nmero de intervalos mediante el criterio de Sturges (k = 1 + 3.323Log(n) ).

Solucin

Paso 9. Obtener la marca de clase o punto medio: El punto medio es la semisuma de los lmites inferior y superior de cada intervalo.

La tabla de frecuencia a obtenerse debe ser el siguiente:

No de Int. 179.75 475.25 770.75 1066.25 1361.75 1657.25 1952.75 2248.25 2543.75 2839.25 3134.75 3430.25 113 2074 0.05448409 1 90 1961 0.04291225 0.94551591 101 1871 0.04918033 0.90260366 118 1770 0.05641273 0.85342334 253 1652 0.12246866 0.79701061 288 1399 0.1388621 0.67454195 283 1111 0.1364513 0.53567985 303 828 0.1460945 0.39922854 239 525 0.11523626 0.25313404 100 286 0.04821601 0.13789778 99 186 0.04773385 0.08968177 87 87 0.04194793 0.04194793

Lim. Inf.

Lim. Sup. Pto. Medio

Fi

Fi

hi

Hi

32

327.5

327.5

623

623

918.5

918.5

1214

1214

1509.5

1509.5

1805

1805

2100.5

2100.5

2396

3. Variables aleatorias y modelos probabilsticos (1)


VARIABLES ALEATORIAS Y MODELOS PROBABILISTICOS

2396

2691.5

10

2691.5

2987

11

2987

3282.5

12

3282.5

3578

Y el histograma mostrando las frecuencias absolutas es el siguiente:

La Estadstica Descriptiva es una clara demostracin del porqu se deca que la computacin (y por tanto el computador) era una herramienta de apoyo ( y de clculo). Y vaya que s lo es. Hemos visto pasar por el programa Minitab toda la Estadstica Descriptiva. Hemos desarrollado parte de las bondades de este programa para realizar un anlisis de datos descriptivos. Las variables aleatorias constituyen el fundamento de la Estadstica Inferencial. Los modelos matemticos que determinan el comportamiento poblacional de ciertos fenmenos aleatorios, son construidos en base a las variables aleatorias. El programa Minitab es entonces una herramienta eficaz para simular este comportamiento, construyendo escenarios hipotticos o supuestos tericos, que se sustentan en el comportamiento poblacional en el pasado. Por ello el objetivo de este captulo es estudiar las variables aleatorias y los modelos de probabilidad discretos y continuos. Objetivo es tambin utilizar el Minitab para la solucin de todos los problemas de los modelos probabilsticos.

En este captulo desarrollaremos los siguientes temas:

A) Variable Aleatoria Discreta


En el caso discreto se define a p(x) como la funcin de probabilidad de X si

1.

Conceptos de Variables Aleatorias discretas y continuas

2.

El Minitab y las variables aleatorias

3. a) p(x) 0

Distribucin Binomial.

4. b)

Distribucin Hipergeomtrica

5.

Distribucin Geomtrica

6. Observaciones

Distribucin de Poisson

7.

Distribucin Uniforme

8. 1.

Distribucin Exponencial p(2) = P(X = 2) es la probabilidad de que la variable aleatoria X tome el valor 2

9.

Distribucin Normal

10. Distribucin Gamma 2. P(X = x1 X = x2 ) = P(X = x1 ) + P(X = x2)

1. Conceptos de Variables Aleatorias discretas y continuas


3.

Una variable aleatoria se define como una funcin que hace corresponder nmeros reales a

elementos del Espacio Muestral. Una variable aleatoria puede ser discreta o continua. 4. por La Funcin de Distribucin Acumulada de X es F, definida

Dependiendo del tipo de experimento o fenmeno podemos hablar de modelos de probabilidad,

algunos de los cuales son muy comunes.

5.

P(X > x ) = 1 P(X x ) = 1 F(x)

Sea x un Experimento, Ensayo o Fenmeno Aleatorio. Sea W el Espacio Muestral asociado al experimento x formado por todos los posibles resultados de la realizacin de dicho experimento. Se dice que X es una Variable Aleatoria, a una funcin tal que, para cada elemento w del espacio tal que x = X(w).

6.

P(X < r ) = P(X r ) P(X = r) = F(r) p(r)

muestral W, le hace corresponder el elemento x del Espacio Rango

7.

P(a X b) = P(X b ) P(X a ) = F(b) F(a)

Una variable aleatoria puede ser Discreta o Continua. 8. Del mismo modo, dado F, se puede hallar p(x) tal que

p(x) = P(X x ) - P(X x - 1 ) = F(x) - F(x-1) 6. De manera que

9.

3. Variables aleatorias y modelos probabilsticos (2)


Caso discreto:

C) Esperanza matemtica o valor esperado

B) Variable Aleatoria Continua

E(X) es la Esperanza o Valor Esperado de la variable X y se define como

En el caso continuo se define a f como la funcin de densidad de probabilidad de X si

f(x) 0

Caso continuo:

Observaciones Si X es una variable aleatoria continua entonces su esperanza se define como

1.

2.

Si F es la funcin de distribucin acumulada de X entonces Nota: 1. m = E(X)

F(x) = P(X x) =

3.

De manera que P(a X b) = F(b) F(a)

4.

P(X > x) = 1 P(X x) = 1 F(x)

2. El valor esperado de una variable aleatoria es el valor que se espera que ocurra. Virtualmente es un valor promedio de un conjunto de valores de X, que a diferencia de la media aritmtica, estos valores an no han ocurrido. Es desde este punto de vista, una media terica. La media aritmtica es el valor promedio de un conjunto finito de valores de una muestra de tamao n. Esa muestra es una parte de una determinada poblacin, cuyo comportamiento est definido por X. Si X representa a todos los posibles valores que puede tomar los elementos de la poblacin(Espacio Muestral), es lgico afirmar que X defina el comportamiento de la poblacin de donde proviene. Por ello se dice que la media o valor esperado de X constituye la media terica o media poblacional. Este valor no se calcula, se estima a partir de la media muestral.

5.

P(a < X < b ) = P(a X < b) = P(a < X b) = P( a X b)

Supongamos que la variable aleatoria X toma valores 0, 1, 2, ..., 12. Podemos usar la siguiente secuencia: <Calc> - <Make Patterned Data> - <Simple Set of Numbers ...>

D) Varianza de una variable aleatoria

V(X) es la varianza de X y se define como A continuacin obtenemos la ventana que se muestra en la siguiente figura.

Nota:

1.

s = V(X)

2.

es la Desviacin Estndar de X

3. La desviacin s representa la cantidad de desvo que experimenta la variable respecto de su media.

Nota:

En <Store patterned data in:> debemos ingresar la columna donde queremos guardar los valores de X, podra ser C1. En este caso digitaremos C1 En <From first values> ingresamos 0 ya que es el valor inicial de X En <To last values> ingresamos 12, ltimo valor de X. Luego <Ok> Definir la distribucin de probabilidad p(x):

Para usar el Minitab debemos tener los valores de la variable aleatoria X y su correspondiente funcin de probabilidad p(x). En una columna se ingresar el rango de X y en otra los valores de la funcin de probabilidad para cada valor de X. A partir de la cual, se puede obtener la distribucin acumulada o la probabilidad de cualquier evento. Esto ser diferente si X tiene una distribucin conocida, como lo veremos ms adelante.

3. Variables aleatorias y modelos probabilsticos (3)

2. El Minitab y las Variables Aleatorias

Si bien podemos ingresar desde el teclado a una columna los valores que toma una variable aleatoria, el programa Minitab dispone de la opcin <Make Patterned Data> del comando <Calc> para generar una secuencia de valores que podramos suponer, son los valores que toma una variable aleatoria.

El Minitab dispone tambin de la opcin <Probability Distributions ...> del comando <Calc> para resolver varias cuestiones relacionadas con la distribucin de probabilidades de X. La siguiente figura muestra la importancia que tiene esta opcin para el tema que estamos desarrollando en el presente captulo.

En primer lugar la franja azul, en el lado derecho indica que podemos usar la opcin <Discrete> para generar en una columna, una distribucin de probabilidad para valores de X. El uso de la opcin <Probability Distributions> nos permite resolver todo tipo de problemas de probabilidad cuando la variable tiene una distribucin conocida sea Binomial, Poisson, Uniforme, Normal, F, Chi Cuadrado, F, etc.

Al ingresar por esta secuencia, podemos disponer de otras opciones que nos permitirn generar los valores de la variable X. Estas opciones se muestran en la presente figura.

Ejemplo:

La siguiente nota regir para todo tipo de distribucin de probabilidad y para los diversos clculos que queramos realizar en ella.

Nota:

Cuando la distribucin de probabilidad de la variable no es conocida, ingresaremos los valores de la variable X y a continuacin en otra columna, sus respectivos valores de probabilidad. Nota respecto a esta ventana:

Luego de seleccionar una de estas opciones, pasaremos a una ventana como la que se muestra en la siguiente figura: 2.

1.

Para obtener p(k) = P(X = k), activaremos <Probability> Para obtener F(k) = P(X k ), activaremos <Cumulative probability>

3. Para obtener k tal que P(X k ) = p, donde p es conocida, activaremos la opcin < Inverse cumulative probability>. Esto permitir obtener k. 4. 5. Para 1 y 2 usaremos <Input constant:> donde ingresaremos valor de k Para 3 usaremos < Input constant: > donde ingresaremos el valor de p.

6. Usaremos <Input column: > toda vez que querramos obtener la distribucin de probabilidad segn 1, 2 3. 7. Si lo anterior se desea guardar en una columna, se usar < Optional storage>.

8. Las opciones <Values in: > y <Probability in: > variar segn las distribuciones. En los casos conocidos, stos requerirn los parmetros de la distribucin.

Y, cmo haremos en los casos en las que no se disponga de una columna de valores de F(x) en el cual se tenga P( X x ) = F(x) y queremos obtener algunos valores probabilsticos?.

Ejemplo 1

3. Variables aleatorias y modelos probabilsticos (4)

La siguiente secuencia ser lo que hagamos a partir de ahora, cada vez que tengamos que encontrar una determinada probabilidad sea para un valor puntual o usando la distribucin acumulada.

Una empresa dedicada a la venta de equipos informticos puede vender diariamente hasta 6 equipos. Sea X es una variable aleatoria que representa el nmero de equipos vendidos diariamente, con funcin de probabilidad definida por

X p(x)

0 0.10

1 0.15

2 0.20

3 0.25

4 0.20

5 0.06

6 0.04

<Calc> - <Probability Distributions>

Para los casos en los que la distribucin no es conocida, haremos clic en la opcin <Discrete>, tambin pasando a una ventana similar a la que se muestra en la figura anterior.

a) b)

Obtenga la distribucin acumulada de X Construya la grfica de la funcin de probabilidad de p(x) y F(x)

c) b) Grfica de p(x):

Cul es la probabilidad de que X sea, a lo ms, igual a 4?

3. Variables aleatorias y modelos probabilsticos (5)

d)

Encuentre el valor esperado y la varianza de X

e)

Si Y = 3X 2, obtenga

i)

La distribucin de probabilidad de Y

ii)

La distribucin acumulada de Y

iii)

El valor esperado y la varianza de Y

Para obtener una grfica similar a lo que se acostumbra tener cuando no se dispone de un computador, trazaremos un grfico de tipo Plot. Colocaremos la variable X en el eje X y p(x) estar en el eje Y. Esto lo hacemos usando la siguiente secuencia:

iv) <Graph> - <ScatterPlot> <En Y: C2 > <En X: C1>

El coeficiente de variacin de Y

v)

La grfica de la funcin de probabilidad de Y

Solucin

Para obtener un grfico similar a lo acostumbrado, debemos seleccionar en <Data View > activar Symbol y Project Line. Luego hacemos clic en <Ok>

Ante todo, definamos a la columna C1 como X, a la columna C2 como p(x) = P(X = x) y a la columna C3 como F(x) .

Use el botn derecho para usar Data Labels El grfico se muestra en la figura de la derecha.

Ahora ingresemos los valores de X en C1; y en C2, los valores de p(x). Grfica de F(x):

a) El Minitab no dispone de un comando para obtener la distribucin acumulada cuando la funcin de probabilidad no es conocida. Por ello para obtener F(x) ingresaremos los valores directamente desde el teclado

En este caso usaremos la opcin <Conect Line> de <Data View>, quitando las otras opciones.

Esto se muestra en la siguiente figura.

c) Que la probabilidad sea, a lo ms, igual a 4, significa que X 4. Esto significa que debemos encontrar P(X 4).

Finalmente, puesto que buscamos P(X 4) ingresamos 4 en < Input constant> Luego de hacer clic en < Ok > obtendremos el resultado en la ventana de Sesin.

Como P(X 4) = F(4), ser suficiente observar que la columna de F(x) en la fila 5, donde X = 4, contiene el valor pedido; es decir P(X 4 ) = 0.90.

3. Variables aleatorias y modelos probabilsticos (6)


e) Para obtener el valor esperado de X usaremos la calculadora ( <Calculator> ) , opcin del comando <Calc>.

Usando comandos, tenemos:

Puesto que el valor esperado E[X] se define como

<Calc> - <Probability Distributions>

Hacemos clic en la opcin <Discrete>, con lo cual pasamos a otra ventana, que se muestra en la siguiente figura:

podemos sumar el producto de la columna C1 por C2 usando la funcin Sum de la calculadora.

De manera que en la ventana anterior, en <Store result in variable> debemos ingresar una columna o nombre de una variable donde almacenar el resultado. En la figura anterior se ha digitado pepe. En <Expression > ingresamos la suma de c1 por c2; es decir, SUM(C1*C2). Esto nos dar el valor de E[X] = 2.64. Puesto que la varianza V[X] se define como V[X] = E[X] (E[X]) = podemos usar la expresin SUM(C1*C1*C2) (SUM(C1*C2))**2 Y almacenarlo, por ejemplo en V[X]

Activamos <Cumulative probability >

Puesto que los valores de la variable X estn en la columna C1, en <Values in:> ingresamos C1. Del mismo modo ingresaremos C2 en < Probability in:>

La figura de la derecha muestra los resultados

f)

Para resolver las preguntas aqu formuladas:

Vamos a ingresar nombre a las columnas C6, C7 y C8:

Ingresemos Y en la columna C6; p(y) en C7; F(y) en C8; E[Y] en C9 y V[Y] en C10.

iv)

Ahora el coeficiente de variacin:

Usaremos <Calc> - <Calculator>:

Usando la calculadora ingresamos la expresin SQRT(C9(4))/C9(1)

Para calcular los valores de Y; la funcin de probabilidad y la distribucin acumulada de Y, ingresaremos las siguientes expresiones mediante la calculadora: v) La siguiente figura muestra la grfica de la distribucin de probabilidad de Y

Para Y

3*C1 2

i) Para p(y) misma que p(x))

C2

(Recuerde que en el caso discreto la distribucin es la

ii) Para F(y) :

Ingresamos directamente desde el teclado

iii) Para obtener la Media de Y, E[Y]:

SUM(C6*C7)

Para obtener la Varianza de Y, V[Y] debemos ingresar:

3. Variables aleatorias y modelos probabilsticos (7)


Ejemplo 2
Una variable X tiene por funcin de distribucin acumulada a

SUM(C6*C6*C7) (SUM(C6*C7))**2

Los resultados se muestran en la siguiente figura

Obtenga una grfica de F

Solucin

Generamos 100 valores para X en la columna C1. Para ello usaremos

3. Variables aleatorias y modelos probabilsticos (8)


3. Distribucin Binomial

<Calc> - <Make Patterned data> - <Simple Set of Numbers>

Ingresamos como valor inicial, 0; como valor final, 10. En <In Steps of> debemos ingresar 0.1, que sern los incrementos

Luego hacemos clic en <Ok>

Ahora usaremos la calculadora para almacenar en C2, F(x). Esto lo haremos ingresando la expresin:

1 (1/2)**(C1+1)

Esta es una delas distribuciones ms conocidas y utilizadas en el grupo de las distribuciones discretas, por cuanto muchos experimentos o fenmenos que se presentan en el mundo real tienen este comportamiento. Cuando se lanza una moneda, cuando se pregunta si una persona apoya a su presidente, cuando afirmamos que El 75% de los ingresos de los trabajadores se destinan a alimentacin, etc. estamos frente a una poblacin fo rmada por dos grupos: Los que poseen una propiedad y los que no la poseen. De manera que, cuando se extrae un elemento de la misma, ste puede pertenecer al grupo que posee la caracterstica, o no. Muchas otras distribuciones se apoyan en la distribucin binomial.

Para construir la grfica de F(x) usaremos <Plot>, usando la siguiente secuencia: Definicin

<Graph> - <ScatterPlot>. Ingresamos la columna C1 para la columna X y C2 para la columna Y.

En <Dadat View> seleccionamos <Connect>

Sea X una variable aleatoria discreta. Si se define a X como el Nmero de veces que ocurre xito, con p la probabilidad de xito, al realizar n veces un ensayo que cumple con las condiciones de un Ensayo de Bernoulli, entonces diremos que X tiene distribucin Binomial, con parmetros n y p; lo que se indica por X B(n, p).

Luego haga clic en <Ok>, con lo cual obtendremos la grfica de F, la que se muestra a continuacin.

La distribucin de probabilidad de X viene dada por

3. Variables aleatorias y modelos probabilsticos (9)


Experimento:

Observaciones: Comprobemos, por aproximacin, de que E[X] = np

1. Cada repeticin del experimento se realiza con reposicin. (p es constante). Se lanza una moneda 400 veces. Sea X la variable aleatoria definida como El nmero de veces que sale cara. Puesto que X es una variable binomial, los valores que pueda tomar sern 0, 1, 2, ... , 400.

2. La distribucin acumulada de X es 3. La media o esperanza de X es PX = E(X) = np y la varianza VX = np(1-p)

Comentario: Generemos entonces 400 valores binomiales para X usando:

Por qu decimos que cuando se realiza el experimento la probabilidad de xito es constante:

Supongamos que se tiene una urna conteniendo 8 bolillas blancas y 6 bolillas rojas. Se extrae dos bolillas, una despus de otra. Suponga que estamos interesados en obtener bolilla blanca.

<Calc> - <Random Data> - <Binomial>

La probabilidad de que la primera bolilla extrada sea blanca es 8/14.

Si la primera bolilla extrada es blanca y sta no se devuelve (sin reposicin), la urna tiene slo 7 de un total de 13, luego la probabilidad de que la segunda sea blanca, es 7/13. Como se ve, la probabilidad de xito ha cambiado, no es constante.

En <Numbers of rows to generate> ingresamos 400 para indicar que queremos 400 valores de la variable. En <Store in columns> ingresamos la columna C1 En <Number of trials> ingresamos 400 En <Probability of success> ingresamos 0.5 (que es la probabilidad de que salga cara).

Por el contrario, si la primera bolilla extrada se devuelve a la urna (con reposicin), la probabilidad de que la segunda sea blanca es 8/14. En este caso, la probabilidad de xito sigue siendo constante. Es esto lo que ocurre en el caso de una variable binomial.

Al

hacer

clic

en

<Ok>

obtendremos

los

valores

para

X.

Binomial con Minitab

El Minitab permite resolver problemas de variables aleatorias que tienen una distribucin binomial.

Calculemos la media aritmtica de estos 400 datos. Para ello usamos

Podemos generar datos aleatorios que tengan Distribucin Binomial para lo cual usamos

<Calc> - <Calculator> En <Store result in variable> ingresamos una columna cualquiera o el nombre de una variable, por ejemplo Carlos. En este caso Minitab ingresar el resultado en la siguiente columna libre

<Calc> - <Random Data> - <Binomial>

En <Expression> ingresamos AVERAGE(C1) -

Activar <Probability> para trabajar con la distribucin de p(x) Activar <Cumulative probability> para trabajar con la distribucin acumulada Activar <Inverse cumulative probability> para hallar K, tal que P(X K) = p.

Luego hacemos clic en <Ok>

En mi caso este valor es 198.903 En el recuadro <Number of trials> ingresar el valor de n.

Tericamente sabemos que E[X] = np = 400 (0.5) = 200 En el recuadro <Probability of success> ingresar p.

Seguramente si aumentamos n, la aproximacin ser mayor. Usaremos <Input column> si deseamos generar la distribucin de probabilidad

Nota: En <Optional storage> ingresaremos la columna donde queremos los valores de la distribucin.

He probado con n = 2000. El promedio obtenido es 1000.3. El terico es 1000. ?.

Igualmente podemos construir la distribucin Binomial para una columna en la cual se encuentran los valores de la variable. Es decir, si se define a X como el Nmero de xitos obtenidos al repetir un ensayo n veces, teniendo como p la probabilidad de xito, entonces los valores de X sern 0, 1, 2, ..., n.

Si slo deseamos obtener la probabilidad para un determinado evento, P(X = k) el valor de F(a) = P(X a), usaremos la opcin <Input constant>, habiendo activado <Probability> para P(X = k) y <Cumulative probability> para P(X a).

Estos valores pueden ser ingresados o generados en la columna C1.

Si se desea obtener el valor de a tal que P(X a) = p, entonces usaremos < Input constant>, habiendo activado <Inverse cumulative probability>.

Para obtener la distribucin de probabilidades en la columna C2, usamos la secuencia: Finalmente haremos clic en <Ok>.

<Calc> - <Probability Distribution> - <Binomial> . Si se trata de obtener la distribucin acumulada, se debe seleccionar < Cumulative probability> en lugar de <Probability>.

A continuacin disponemos de la siguiente ventana que se muestra en la figura

En esta ventana

En algunos problemas se debe encontrar un valor de k tal que P(X k ) = a. En ese caso se puede usar la opcin <Inverse cumulative probability> ingresando el valor de la probabilidad, a en el espacio <Input constant>

3. Variables aleatorias y modelos probabilsticos (10)


<Calc> - <Probability Distributions> - <Binomial> -...

Paso 2: Puesto que p = 0.40, construiremos la distribucin binomial en C2, usando la secuencia:

Ejemplo 3

Los registros de una pequea compaa de servicios indican que el 40% de las facturas que envan son pagadas despus de la fecha de vencimiento. Construya la distribucin de probabilidad del nmero de facturas pagadas despus de la fecha de vencimiento. Si se envan 14 facturas, cul es la probabilidad de que

a)

ninguna se pague con retraso?

b)

cuando menos dos se paguen con retraso?

c)

a lo ms, 12 se paguen sin retraso?

Solucin

Sea X la v.a. definida como El nmero de facturas pagadas despus de la fecha de vencimiento.

Primero obtendremos la distribucin de probabilidad de X. Completamos la informacin requerida en la ventana de acuerdo a la figura anterior.

Paso 3: Repita el Paso 2, pero ahora en C3, y activando la opcin Cumulative ...

Los resultados que se obtengan se visualizan en la siguiente figura

Responderemos ahora a las preguntas formuladas

a) b)

Se pide P(X = 0) lo que se encuentra en C2(1) Se pide P(X 2). Usando la acumulada, P(X 2) = 1 P(X 1) = 1-0.00810 = 0.99190

Paso 1: Generamos valores de 0 a 14 en la columna C1, estos sern los valores de X; usando <Calc>-<Make patterned data> - <Simple of set numbers> ...

c) A lo ms 12 se paguen sin retraso es equivalente a Por lo menos 2 se pagan con retraso. De esta forma, Sea Y: Nmero de cosmticos defectuosos en el grupo de 4. P(A) =1/3 P(B)=2/3 P(D/A)=0.05 P(D/B)=0.10

P( A lo ms 12 se paguen sin retraso)=P(Por lo menos 2 se pagan con retraso)

Luego P( X 2 ) = 1 P(X < 2) = 1 p(0) p(1) = 0.991902 Aqu n = 4.

Otra forma: Si la Si la probabilidad de que se pague con retraso es 0.40, entonces 0.60 ser la probabilidad de que se pague sin retraso. Si definimos a Y como el nmero de facturas que se paga sin retraso, con r = 0.60, su probabilidad de xito, entonces P(Y 12) = 0.9919; se usar los pasos anteriores con p = 0.60 Y tiene distribucin binomial con p la probabilidad de xito.

3. Variables aleatorias y modelos probabilsticos (11)

Clculo de p : El diagrama anterior nos releva de mayores comentarios

Ejemplo 4

La produccin diaria de un determinado cosmtico de los Laboratorios MISAB proviene de dos mquinas A y B. La antigedad de la mquina B le permite producir el doble de cosmticos que la mquina A. Sin embargo, el 10% de los cosmticos defectuosos, provienen de la mquina B, mientras que de A provienen slo el 5%. a)

p = P(A)P(D/A) + P(B)P(D/B) = 0.25/3 = 0.08333

Ejecute los siguientes pasos

Una venta particular involucra 4 cosmticos seleccionados aleatoriamente del lote de produccin de un da(tomando en cuenta la produccin de ambas mquinas). Si definimos a Y como el nmero de cosmticos defectuosos encontrados en esta venta y si definimos a C = 3Y - 9Y + 2, como el costo de prdida (en soles) por los cosmticos defectuosos en esta venta;

Paso 1: Usando <Calc> - <Make patterned data>, generar los valores de Y: 0, 1, 2, 3, 4 ya que n = 4 en la columna C1

a)

Encuentre el valor esperado de este costo Paso 2: Usando <Calc> - <Probability distributions> - <Binomial> y sabiendo que n = 4 y p = 0.25/3, generamos la distribucin de probabilidad de Y, en C2

b)

Calcule la probabilidad de que el costo de prdida sea inferior a 2 soles.

Solucin Paso 3: Usando <Calc> - <Make patterned data> generamos la columna C tal que

Segn el problema, C = 3Y - 9Y + 2 en la columna C3

sin reposicin. Por esta razn, la variable aleatoria definida como el nmero de xitos obtenidos tiene una distribucin Hipergeomtrica.

Paso 4: Usando la calculadora e ingresando en <Expression> C2, obtenemos la distribucin de C, en la columna C4 Definicin

Paso 5: Usando la calculadora e ingresando en <Expression> SUM(C3*C4), obtenemos el costo esperado de C e igual a 2.91666

Ahora resolvemos la pregunta b:

b) La probabilidad de que el costo de prdida sea inferior a 2 soles es P(C < 2). Al reemplazar C por 3Y- 9Y + 2 obtenemos P(3Y - 9Y < 0 )

Suponga que una cierta poblacin de tamao N, contiene m elementos que poseen determinado atributo o caracterstica. Suponga tambin que de esta poblacin se desea extraer sin reposicin una muestra de n elementos y estamos interesados en saber el nmero de elementos en la muestra que poseen dicho atributo o caracterstica. Si definimos a X como el nmero de elementos con dicho atributo, la probabilidad de obtener xito (que posea dicho atributo) en la primera ser m/N, la probabilidad de que el segundo tambin sea xito ser (m-1)/(N-1) y de que lo sea sabiendo que el primero no lo fue, ser m/(N-1).

3Y - 9Y < 0 3Y(Y 3) < 0 Y 3 < 0 Y < 3 Y 2

Si ahora se elige una muestra de tamao n la variable X as definida tendr Distribucin Hipergeomtrica con parmetros N, m, n; es decir H(N, m, n) cuya funcin de probabilidad viene dada por

Luego P( C < 2 ) = P ( Y 2 ).

Usando <Calc> - <Probability distributions> - <Binomial>

Activamos <Cumulative probability>

Ingresamos 4 en <Number of trials>. En <Probabilty success> ingresamos 0.08333 Observaciones: 1. Para que una variable aleatoria como X tenga distribucin Hipergeomtrica el experimento debe realizarse sin reposicin o sin reemplazamiento. 2. El valor esperado de X es 3. La varianza de X es

En <Input constant> ingresamos 2

Luego hacemos clic en <Ok>

3. Variables aleatorias y modelos probabilsticos (12)

4. Distribucin Hipergeomtrica
Hipergeomtrica con Minitab

Este es otro de los modelos contrario al modelo Binomial. Si en este los resultados del experimento son independientes uno de otro, en el caso de una Distribucin Hipergeomtrica los resultados siguientes dependen de los anteriores. Esto ocurre ya que el experimento o fenmeno se realiza

Como en el caso de la Binomial, aqu tambin la Distribucin Hipergeomtrica se encuentra como opcin dentro de <Probability Distribution> del comando <Calc>.

La siguiente figura muestra la ventana que se obtiene despus de ejecutar esta secuencia.

En <Sample size (n)> Ingresar el tamao de la muestra, n;

Si se desea obtener la distribucin de X:

En <Input column> ingresar la columna donde se encuentran los valores de X

En <Optional storage> ingresar la columna donde desea almacenar la distribucin

En <Input constant> ingresar valor de X, digamos c, para el cual se quiere obtener la probabilidad individual, P(X = c) o la acumulada P(X c).

Puesto que todos los problemas de variable con distribucin hipergeomtrica son similares, desarrollaremos slo un ejemplo para ilustrar el uso del Minitab en su solucin.

En esta ventana :

3. Variables aleatorias y modelos probabilsticos (13)


Ejemplo 5
Un club de 100 miembros est formado por 70 abogados, 50 extranjeros y 20 nacionales no abogados. Si se elige una comitiva de 20 miembros, cul es la probabilidad de que sta contenga a) b) c) d) Exactamente 12 abogados Exactamente 12 extranjeros Exactamente 12 abogados extranjeros Por lo menos 12 abogados extranjeros

Seleccionar <Probability> si desea una distribucin de la funcin de densidad

Seleccionar <Cumulative probability> si desea trabajar con la funcin acumulativa

Como en el caso de la binomial, se seleccionar < Inverse cumulative probability> si desea obtener un valor particular de X para el cual se conoce su probabilidad acumulada.

A continuacin se debe ingresar: Solucin

El tamao de la poblacin, N; De acuerdo a los datos, podemos generar la siguiente tabla:

En <Successes in population> ingresar el valor de r; aquellos que poseen un cierto atributo;

Extranjeros 30 70 30 20 50 Por ello r = 50. Caso b)

Nacionales

Total

Abogados

40

No - Abogados

10

Total

50

En este caso definimos a X como El nmero de extranjeros seleccionados en la muestra

Los datos generales: Como se pide hallar exactamente 12 extranjeros, K = 12

N = 100

n = 20 Repitiendo exactamente los mismo pasos del caso a), pero reemplazando los datos r y K, obtenemos, P(X = 12 ) = 0.12160

Usando el Minitab, haremos lo siguiente: Caso c)

Caso a) Sea X El nmero de abogados extranjeros Puesto que hay 40 abogados extranjeros, r = 40 Igualmente, K = 12

Sea X: El nmero de abogados seleccionados en la muestra

Segn esto, r = 70.

Como se pide que halla exactamente 12 abogados K = 12 Usando lo dicho en el caso b), obtenemos P(X = 12 ) = 0.02667

Paso 1: <Calc> - <Probability distributions> - <Hypergeometric>

Caso d)

Paso 2: Activamos la opcin <Probability> Usando la misma definicin de X del caso c) debemos encontrar P(X 12)

Paso 3: En <<Successes in population> ingresamos 100

Paso 4: En <Sample size (n)> ingresamos 20 Como P(X 12) = 1 - P( X < 12) = 1 P(X 11)

Paso 5: En <Successes in population> ingresamos 70

Paso 6: En <Input constant> ingresamos 12 Usando lo dicho en la solucin del caso c) hallaremos la solucin, excepto que debemos seleccionar la opcin <Cumulative probability>.

Paso 7: <Ok>

Resultado: P(X = 12 ) = 0.11617

3. Variables aleatorias y modelos probabilsticos (14)

5. Distribucin Geomtrica

Suponga que muchos clientes ingresan a una tienda de artefactos. A cada uno de ellos se les ofrece artefacto en particular. La probabilidad de que un cliente compre dicho artefacto es 0.25. Cul ser la probabilidad de que el primer cliente que compre el artefacto sea el vigsimo quinto cliente a quien se le ofreci el producto? Construya la distribucin de probabilidad del nmero de clientes a quienes se les ofreci el producto hasta obtener una venta. Obtenga la grfica de esta distribucin.

Esta distribucin toma en cuenta el nmero de veces que debe repetirse el experimento hasta que ocurra xito por primera vez, en cuyo caso, termina de realizarse el experimento. Aqu slo ocurre xito una sola vez. No interesa cuntos veces se deba repetir el ensayo. Solucin

Definicin

Paso 1: Generemos 25 nmeros de 1 hasta 25 almacenndolo en C1 que ser X. Para ello usamos <Calc> - <Make patterned data> - <Simple set of number> y completamos la ventana con los datos indicados Paso 2: Usando la calculadora, ingresamos en C2, la expresin 0.25*(0.75)**(C1-1) Paso 3: Observando la fila 25 encontramos p(25) = P(X = 25) = 0.000251 Paso 4: La grfica. Usemos la siguiente secuencia

Diremos que una variable aleatoria X tiene distribucin Geomtrica si X representa El nmero de veces que debe repetirse un experimento hasta que ocurra xito por primera vez. En este caso denotaremos por X G(p), donde p, la probabilidad de xito, constituye el parmetro de la distribucin cuya funcin viene dada por

Observaciones <Graph> - <Plot> . En la columna Y ingresamos p(x) o C2 y en X ingresamos C1

1. El experimento termina cuando ocurre xito por primera vez 2. El valor esperado de X, E(X) = 1/p 3. La varianza de X, V(X) = q/p

La grfica obtenida ser similar a la figura de la derecha.

Nota:

3. Variables aleatorias y modelos probabilsticos (15)


6. Distribucin de Poisson

Sabe Ud. cmo ser la grfica de una distribucin geomtrica?

Ejemplo 6
Esta es una de las distribuciones muy genricas. Usado para aproximar distribuciones binomiales, tiene su importancia en los fenmenos de espera. Junto con la distribucin Exponencial, constituye dos formas de medir el comportamiento de eventos que ocurren en el tiempo y se encuentran en los mbitos de los fenmenos de espera.

Usemos la simulacin:

Definicin

Diremos que la variable aleatoria X tiene distribucin de Poisson, con parmetro l, si su funcin de probabilidad viene dada por

Observaciones

1. Notacin: X P(O) indica que X tiene distribucin de Poisson de parmetro O 2. El valor esperado de X , E(X) = O 3. La varianza de X, V(X) = O 4. Aproximacin por Poisson a una Binomial. Recuerde que cuando el tamao de n es bastante grande o cuando la probabilidad de xito es muy pequea; es decir, cuando n v y np = O (constante) o, equivalentemente, cuando n v y p 0 tal que

Como en las distribuciones anteriores, seleccionamos <Probability> si deseamos trabajar con la funcin de probabilidad, seleccionamos <Cumulative probability> si por el contrario, se desea la distribucin acumulada y se selecciona <Inverse cumulative probability> si deseamos obtener el valor de K conociendo su probabilidad acumulada.

np O entonces . Esto significa que, bajo las condiciones expuestas, un problema Binomial puede ser aproximado por Poisson usando E(X) = np = l

A continuacin se debe ingresar el valor del parmetro, que, como es igual a la media, aqu se pide la media. Use <Input column> si desea generar la distribucin y en <Optional storage> ingrese la columna donde desea colocar los valores de la distribucin.

En el Minitab, la distribucin de Poisson la activamos usando

Si slo desea obtener la probabilidad para un determinado evento, digamos P(X = k) F(a) = P(X a), use la opcin <Input constant>. Si desea encontrar el valor de a, conociendo la probabilidad r, P(X a) = r, entonces digite r para que el Minitab devuelva el valor de a.

<Calc> - <Probability Distribution> - <Poisson>

3. Variables aleatorias y modelos probabilsticos (16)


Ejemplo 7
Suponga que la variable aleatoria X tiene una distribucin de Poisson con parmetro igual a 1.2. Encuentre la probabilidad de que X sea por lo menos igual a 5.

A continuacin se visualiza la siguiente ventana

Solucin

Puesto que el parmetro coincide con la media, entonces l = 1.2.

Solucin

Debemos encontrar P(X > 1 ). Como P(X>1) = 1 P(X 1) = 1 F(1).

Puesto que el promedio de clientes que llega es de 360 por hora, entonces en promedio llegan 6 por minuto. Sea X la variable que representa el Nmero de clientes que llegan a dicha caja registradora por minuto.

Ante todo, si no se desea generar los valores de probabilidad, es suficiente visualizar el resultado en la ventana de sesin usando la opcin <Input constant>. Para ello usamos la siguiente secuencia:

Puesto que toda cola de espera constituye un modelo de Poisson, en el caso discreto, X tendr distribucin de Poisson, con parmetro l = 6. Segn el problema, debemos encontrar P(X > 8).

<Calc> - <Probability Disributions> - <Poisson>

Puesto que P(X > 8) = 1 - P(X 8), usaremos Minitab para hallar F(8).

Seleccionamos <Cumulative probability>

En Minitab, Adems de seleccionar <Cumulative probability> en la ventana de la distribucin de Poisson, debemos ingresar tambin en <Mean> la media 6. Y en <Input constant> el valor 8. Esto nos dar P(X 8) = 0.8472, con lo cual P(X>8) = 0.1528.

En <Mean> ingresamos 1.2

3. Variables aleatorias y modelos probabilsticos (17)


7. Distribucin Uniforme

Al activar <Input constant> ingresamos 1

Hacemos clic en <Ok>

Esta es una de las distribuciones para variables aleatorias continuas. Todo fenmeno o experimento que tiene un comportamiento constante, sin variacin; es decir, uniforme, diremos que cae en los mbitos de esta distribucin.

Como resultado se obtiene 0.6626, con lo cual, P(X > 1 ) = 0.3374

Definicin

Ejemplo 8

Sea X una variable aleatoria continua. Diremos que X est distribuida uniformemente sobre el intervalo (a, b), que constituyen sus parmetros, si su funcin de densidad de probabilidad viene dada por

El nmero medio de clientes que un operador de una caja registradora puede atender es de 360 por hora. Si en momentos de mayor demanda, este operador, realizando su mximo esfuerzo puede atender hasta un mximo de 8, cul es la probabilidad de que a dicha caja lleguen ms clientes de lo que el operador pueda atender?

Active <Probability density> si desea valores para la funcin de densidad

Observaciones: Active <Cumulative probability> si desea trabajar con la dist. Acumulada

1.

X U(a, b) es la notacin para indicar que X tiene distribucin uniforme en (a, b)

2.

La funcin de distribucin acumulada de X es

Active <Inverse cumulative probability> para encontrar un k tal que P(X k) = a. En este caso a ser ingresado usando la opcin <Input constant>

3.

La media o valor esperado de X es En <Lower endpoint> ingrese el extremo inferior del intervalo a X b

4. En <Upper endpoint> ingrese b

La varianza de X es

En Minitab

Usando la secuencia

Use <Input constant> si desea obtener los valores de la distribucin, digitando la columna que contiene los valores de X. Use <Optional storage> si desea almacenar los valores de la distribucin en alguna columna.

<Calc> - <Probability Distributions> - <Uniform> obtendremos la siguiente ventana:

3. Variables aleatorias y modelos probabilsticos (18)


Ejemplo 9
El tiempo X que requiere el ensamble de un determinado componente, de un sistema informtico, es una variable aleatoria distribuida uniformemente con media igual a 10 das y una varianza de 12 dias. a) Cul es la probabilidad de requerir ms de 8 das para terminar el ensamble? b) Si el costo Y (en dlares) de ensamble se define segn Y = 100 + 4X + 3X, calcule el costo esperado para concluir dicha tarea

Solucin

De acuerdo a los datos, m = 10 y s = 12.

En esta ventana

Como

entonces

a + b =20 (1)

E(Y) = 100 + 4 (10) + 3 (112) = 576 dlares b - a = 12 (2)

Del mismo modo, si

entonces

3. Variables aleatorias y modelos probabilsticos (19)


8. Distribucin Exponencial

Resolviendo (1) y (2) obtenemos a = 4 y b = 16

Usando Minitab

a)

<Calc> - <Probability distributions> - <Uniform>

Esta distribucin define el comportamiento de todo problema que cae en el terreno de los fenmenos de espera. As como la distribucin de Poisson es usado en los mismos fenmenos en trminos de eventos discretos, la distribucin Exponencial se usa cuando los eventos generados constituyen eventos continuos.

Seleccionamos <Cumulative probability> Definicin

En <Lower endpoint> ingresamos 4 Diremos que X es una variable aleatoria continua que se distribuye exponencialmente si su funcin de densidad de probabilidad viene dada por

En <Upper endpoint> ingresamos 16

En <Input constant> ingresamos 8, lo que nos permite hallar P(X 8)

Luego la respuesta es P(X> 8) = 1 P(X 8) = 1- 1/3 = 0.66667 Observaciones

b) Como Y = 100 + 4X + 3X entonces, aplicando esperanza a cada miembro y usando las propiedades, tenemos: 1. La notacin X E(D) indica que X tiene distribucin exponencial 2. Aqu es importante la funcin de distribucin acumulativa por 4. El valor esperado de X es 5. La varianza de X es 6. Es bueno hacer notar que P(X d r) = 1 F(r) = 1 e-rD 7. Del mismo modo, P(X > r ) = e-rD definida

E(Y) = 100 + 4 E(X) + 3 E(X)

Como E(X) = 10 y V(X) = E(X) (E ), entonces E(X) = 12 + 10 = 112.

Con lo cual,

A continuacin desarrollaremos un ejemplo en el cual visualizaremos la grfica de esta distribucin continua.

Nota:

3. Variables aleatorias y modelos probabilsticos (20)


Ejemplo 10
Construya la grfica de la funcin de densidad y la grfica de la distribucin acumulada de la variable aleatoria X con Distribucin Exponencial y parmetro igual a 1.

Suponga que el administrador de una estacin de expendio de combustible para vehculos est interesado en aumentar sus ingresos diarios. El ha notado que, en horas de mayor demanda, muchos de sus clientes, al ver la cola que se forma esperando ser atendidos en un surtidor, se van a otra estacin. Y este fenmeno se repite varias veces en el da. Puesto que perder un cliente potencial es negativo para sus intereses, decide analizar el problema. La formacin de cola de espera se debe al excesivo tiempo de atencin a cada uno de los clientes. Para medir el tiempo de atencin puede usar la distribucin exponencial, para medir la longitud de cola puede usar la distribucin de Poison. Solucin

Para usar el Minitab con la distribucin Exponencial, usamos la siguiente secuencia: Si el parmetro es 1 entonces f(x) = e , x > 0
-x

<Calc> - <Probability distributions> - <Exponential>. Lo que genera la siguiente ventana: Paso 1: Generar en C1 valores de X de 0 a 50 con incrementos de 0.1 (Calc Make ...)

Paso 2: Generar en C2 los valores de la funcin de densidad usando:

<Calc> - <Probability distributions> - <Exponenial> -<Probability density>

En <Mean > digitamos 1.0 En <Input column > ingresamos C1 En <Optional storage> ingresamos C2

Minitab no requiere del parmetro sino de la media de la distribucin, que para el caso, es la inversa del parmetro.

Paso 3: Generar en C3 los valores de la funcin acumulada usando:

<Calc> -<Probability distributions>- <Exponenial>-<Cumulative probability>

Si Ud. compara esta ventana con la que se obtiene para la distribucin de Poisson, ver que la informacin a ser introducida, es la misma en ambas distribuciones. En <Mean > 1.0 - <Input column > C1 En <Optional storage> C3

Paso 4: Construimos las dos grficas usando el tipo de grfico <ScatterPlot>

Esta es una de las distribuciones ms conocidas en la Estadstica. Es una distribucin cuya variable es continua. En todo problema derivado de experimentos donde el nmero de veces que se repite es un nmero suficientemente grande se resuelve en los predios de esta distribucin.

<Graph> - <ScatterPlot>

En Graph 1:

Esta es una de las funciones de distribucin ms importantes en la estadstica tanto en su desarrollo terico como en las aplicaciones.

Para X ingresamos C1 Definicin

Para Y ingresamos C2

En Graph 2

Diremos que la variable aleatoria X tiene una distribucin normal con parmetros m y s si su funcin de densidad viene dada por

Para X ingresamos C1

Para Y ingresamos C3

Hacemos clic en <Ok>

La grfica se muestra a continuacin

Observaciones

1. La notacin que emplearemos ser X (P, V ) 2. La distribucin acumulada se define como

3. El valor esperado de X es E(X) = P

4. La varianza de X es V(X) = V

3. Variables aleatorias y modelos probabilsticos (21)

5.

9. Distribucin Normal

6. P(a < X d b) = P(a d X < b ) = P( a < X < b ) = P(a d X d b) = )(b) - )(a)

7. Si se define a Z como entonces Z N(0,1), la cual est tabulada y nos permite resolver cualquier problema de probabilidad.

8. El programa Minitab nos permitir resolver lo mismo sin el uso de la tabla.

Para usar Minitab en problemas de Normal, debemos usar la siguiente secuencia:

Usemos Minitab para generar un conjunto de valores de X y su correspondiente funcin de densidad. Como la Normal N(0, 1) define casi la totalidad de su rea entre los valores de X que cae en el rango: -3.9 y 3.9, usaremos los siguientes pasos para generarla

<Calc> - <Probability distributions> - <Normal> Paso 1: Generamos en C1 valores desde 3.9 hasta 3.9 con incrementos de 0.01 usando la secuencia <Calc> - <Make patterned data> - <Simple set of numbers> . Valor inicial: -3.9. Valor final: 3.9. Incrementos: 0.01.

La ventana que se obtiene es la siguiente:

Activamos <Probability density> si deseamos usar la funcin de densidad Activamos <Cumulative probability> para trabajar con la acumulada Activamos <Inverse cumulative probability> para obtener un K tal que P(X K ) = p En <Mean> se debe ingresar el valor del parmetro m

Paso 2: Generamos en C2 la funcin de densidad para los valores en C1: m = 1; s = 1

<Calc> - <Probability distributions> - <Normal>

A continuacin <Probability density>

activamos

En <mean> digitamos 0

En <Stand. Desv> 1.0

En <Standard desviation> se debe ingresar el la raz cuadrada del parmetro s

En <Input column> C1

Como en los casos anteriores, se usar <Input constant> para encontrar un valor de probabilidad usando la distribucin acumulada.

En <Option storage> C2

3. Variables aleatorias y modelos probabilsticos (22)


<Ok>

Ejemplo 11

Construya la grfica de la funcin de densidad y acumulativa de X N(0,1) Paso 3: Siguiendo la misma secuencia pero cambiando para <Cumulative probability> y en <Optional sorage> digitamos la columna C3 para obtener en ella la distribucin acumulada.

Solucin

Paso 4: Para la grfica de las dos distribuciones usaremos el grfico de tipo <Plot>.

d) Si en la siguiente semana se asegura vender ms de 11,000 productos, cul es la probabilidad de que en esa semana se venda menos de 12,500 productos?.

Usamos <Graph>- <Plot> Graph 1: X = C1, Y = C2; Graph 2; X = C1, Y = C3 Solucin

Las grficas se muestran a continuacin Si definimos a X como El nmero de productos vendidos por semana entonces podemos decir que X N(10,000, 1500).

a)

Debemos encontrar P(X > 12000) = 1 P(X 12000)

Clculo de F(12000) por Minitab

Usando Minitab tenemos: Seleccionamos <Cumulative probability> En <Mean> ingresamos 10000; En <Standard desviation> ingresamos 1500; En <Input constant> ingresamos 12000. Clic en <Ok>

Veamos ahora el siguiente ejemplo

3. Variables aleatorias y modelos probabilsticos (23)

Ejemplo 12

Resolveremos el siguiente problema usando Minitab, sin generar valores para la distribucin y luego verificaremos los resultados de las probabilidades con lo que una tabla de normal nos muestre.

Luego tenemos que P(X > 12000) = 1 0.9088 = 0.0912

Se cree que las ventas de un determinado producto tienen una distribucin normal con promedio igual a 10,000 productos por semana y una desviacin estndar de 1,500 productos por semana.

Estandarizando tenemos P(X>12000) = P(Z>4/3) = 1-F(1.333) = 1- 0.9088

a)

Cul es la probabilidad de vender ms de 12,000 productos en una semana cualquiera?

b)

Debemos encontrar un K tal que P(X > K) = 0.975

b) Cuntos productos debe producir a fin de mantener una probabilidad de 97.5% de que la empresa cuente con suficientes existencias para cubrir la demanda semanal?

En Minitab debemos elegir la opcin <Inverse cumulative probability> En <Input constant> ingresamos 0.975

c) Cul es la probabilidad de que la venta semanal de estos productos difiera de la venta promedio, en ms de 1000 productos?

3. Variables aleatorias y modelos probabilsticos (24)


10. Distribucin Gamma
Esta es una distribucin poco usada en la Estadstica, pero otras distribuciones, como la Chi Cuadrado, se basan en ella. Esta es la razn por la que la presentamos.

Esto no da como resultado 1.29x10 ; que equivale a 12,900 productos. Pero si se usa la opcin <Optional storage> ingresando una variable, digamos K1, usando la secuencia:

<Manip> - <Display data> y seleccionando K1, veremos que el verdadero resultado es K1 = 12939.9, es coincidente con lo que podamos encontrar usando una tabla de normal tabulada.

c) Definicin

Aqu se pide encontrar P( | X - m | > 1000).

P( | X - m | > 1000) = P(X - m < -1000 ) + P(X - m > 1000) Sea X una variable aleatoria continua. Diremos que X tiene una Distribucin Gamma si funcin de densidad de probabilidad viene dada por

= 1 + P(X < 9000) P(X 11000) = 0.5050

d)

Aqu debemos resolver una probabilidad condicional P(X <12000/X>11000).

cuyos parmetros son a y r con a > 0 y r > 0

Debemos encontrar F (12000) F(11000) y dividirlo entre ( 1 F(11000) donde es la funcin Gamma.

Para ello sigamos exactamente la misma secuencia de pasos que se hizo en a), para encontrar F(12000).

Observaciones: 1. Si r = 1 entonces f(x) = e


-ax

que indica que X es exponencial

Nota: 2. Si a = 1 entonces la variable X sigue una distribucin Gamma Estndar

Qu ocurre si la distribucin no es simtrica?

En ese caso, usaremos la distribucin Gamma para resolver el problema. 3. El valor esperado de X es E(X) = r/a

4.

La varianza de X es V(X) = r/a

En Minitab, la distribucin gamma se encuentra como las anteriores distribuciones, en la opcin <Probability distributions> del comando <Calc>.

La ventana que se obtiene es la siguiente.

4. Muestreo y distribuciones muestrales (1)


Muchas veces el comportamiento poblacional es sometido a estudio, sea por que se quiere realizar proyecciones o estimaciones o por que se pretende obtener informacin de ella para otros propsitos.

En ella se elegir <Probability density> si se desea trabajar con la funcin de densidad

Puesto que los parmetros son los que determinan el comportamiento de la poblacin, debiramos evaluar a stos, obtener sus nuevos valor es, calcularlos. Sin embargo, en la mayora de los casos, los parmetros no se calculan, slo pueden ser estimados. No es que no se puede calcular; simplemente resulta oneroso en muchos casos; por tiempo, por su costo y por el tamao N de la poblacin.

Se elegir <Cumulative probability> para trabajar con la distribucin acumulada

Como en los casos anteriores, tambin se puede buscar un valor de K para una probabilidad dada tal que P(X k ) = a usando <Inverse acumulative probability>.

Un censo sobre toda la poblacin permitira obtener nuevos valores de los parmetros. Si quisiramos saber el ingreso promedio de todos los trabajadores por sectores deberamos censarlos a todos, a nivel nacional, como se realiza un proceso electoral para elegir al presidente de la repblica. Por todo ello es que la consulta, la encuesta, el muestreo se realiza sobre una parte de la poblacin, sobre una muestra de tamao n. El comportamiento de esta muestra estar determinado por otra variable muestral.

Del mismo modo se ingresar la columna que contiene los valores de X en <Input variable>, o <Input constant> para obtener una probabilidad determinada. El objetivo de este captulo es utilizar el programa Minitab para evaluar estadsticos de la muestra y determinar estimaciones de los parmetros de la poblacin, a travs de las variables muestrales.

El primer parmetro, r se ingresar en <First shape parameter> y en <Second shape parameter> se ingresar el valor del segundo parmetro. En este captulo trataremos los siguientes temas:

Las siguientes figuras muestran la grfica de la funcin de densidad y acumulada de la distribucin Gamma, que tiene como parmetros a r = 2 y a = 0.4. 1. Validez del Teorema del Limite Central

2. Estadsticas muestrales

Vamos a generar 100 valores en la columna C1, de 1 a 100, que indicar el i-simo elemento de la poblacin, de tamao 100; es decir N = 100.

3. Distribuciones para muestras pequeas

4. Distribucin Chi Cuadrado Esto lo hacemos siguiendo los siguientes pasos:

5. Distribucin t de Student

6. Distribucin F de Fisher Paso 1: < Calc > - < Make patterned data > - < Simple of set numbers> Valor inicial: 1 Valor final: 100. Incrementos: 1.

7. Estimacin por Intervalos

8. Intervalos de Confianza y Prueba de Hiptesis en una poblacin Paso 2: A continuacin, en la columna C2 vamos a generar aleatoriamente las notas vigesimales de 100 alumnos de un determinado colegio particular. Supongamos que las notas van de 05 a 18.

9. Inferencia acerca de la varianza poblacional

10. Estimacin y Prueba de Hiptesis para dos poblaciones

11. Inferencia a cerca de las varianzas poblacionales Esto lo haremos usando la siguiente secuencia:

12. Distribucin muestral de medias para Datos Pareados

13. Intervalo de Confianza y Prueba de Hiptesis para la diferencia de proporciones <Calc> - <Random data> - <Integer>

4. Muestreo y distribuciones muestrales (2)


En la siguiente ventana debemos ingresar los datos segn se indica en la figura.

1. Validez del teorema del lmite central

Tomando en cuenta lo dicho lneas arriba, debemos obtener los llamados Estadsticos de la Muestra, que al ser calculados a partir de una muestra, constituyen variables muestralescon una determinada distribucin muestral, como la media muestral de la muestra, la varianza muestral, la proporcin muestral, entre los principales.

Y dice la Estadstica que debemos usar estos Estadsticos Muestrales para estimar los parmetros poblacionales. El fundamento lo encontramos en la Ley de Grandes Nmeros y el Teorema del Lmite Central, dos grandes teoremas de la Estadstica que la fundamentan tericamente.

Paso 3: Obtencin de la media y desviacin estndar de la muestra:

A continuacin, usaremos el Minitab para comprobar si es cierto que los indicadores muestrales

Para ello usaremos la siguiente secuencia:

pueden ser usados para estimar los parmetros poblacionales. <Stat> - <Basic statistics> - <Display descriptive statistics>

La media, 11.92 y la desviacin estndar, 3.892, se muestra en las primeras lneas de la siguiente figura. Las medias por fila, la que se dispone en la columna C8

Paso 5: Calcularemos le media de cada una de estas muestras:

Las medias por columna (que no se ve) son: 11.0278, 12.5278, 12.2222, 11.2222 y 10.8333, para las 5 muestras.

Paso 6: Calcularemos el promedio de las medias de las muestras , que la llamaremos la media muestral de medias muestrales .

Este valor es 11.5667, como se puede apreciar en la celda C10(3) y en las lneas por encima de la hoja de trabajo y que estn encerradas en una elipse.

Paso 4: Ahora vamos a extraer 5 muestras aleatorias de tamao 36 (n = 36) que las almacenaremos en las columnas C3 C7, de la siguiente manera:

Si tomamos 5 muestras aleatoria de tamao n = 36, la media o promedio de las medias muestrales es 11.5667 y est muy cerca de la media poblacional, 11.9200. Del mismo modo, si tomamos 4 muestras de tamao n = 36, encontramos que su media 11.5667 es la misma que la media de las medias muestrales de tamao 36 y muy cerca de la media poblacional.

4. Muestreo y distribuciones muestrales (3)

Primera muestra para la columna C3 (Obs 01):

Esto nos dice que la media de medias muestrales podra ser tomado como un buen estadstico capaz de ser tomado como valor de la media poblacional. Como un dato adicional, la desviacin poblacional dividida entre la raz cuadrada del tamao de la muestra, n = 5, que es igual a 1.74042, nos da un valor muy cercano a la desviacin estndar de la media de las medias muestrales.

La variable est en la columna C2 X. La almacenaremos en C3 Obs 01.

Finalmente, la siguiente figura contiene la grfica de histogramas de los datos poblacionales y la grfica de las medias muestrales.

<Calc> - <Random data> - <Sample from columns> - <Sample 36 rows> Observe que, para un tamao de muestra, n = 36, la grfica (de la derecha) nos da la forma de la campana de Gauss indicndonos que LA DISTRIBUCIN MUESTRAL (eso es lo que representa la columna C8) ) de las medias muestrales tiene una distribucin aproximadamente normal, con parmetros y

Las otras muestras

Hemos repetido para las otras columnas, de la misma forma (parte de lo cual se muestra en la figura anterior).

100

11.880

12.000

11.867

4.430

0.443

Variable X 5.000 19.000 8.000 16.000

Minimum

Maximum

Q1

Q3

Nota:

Como el valor de la media de cada muestra puede ser considerada como un valor de la media de las medias muestrales, podemos considerar a la media de las medias muestrales como una variable aleatoria, de all su nombre: Variable aleatoria definida como la Media muestral de medias muestrales.

La siguiente grfica prueba nuestra afirmacin. Que cuando n v ; es decir cuando el tamao de la muestra se hace bastante grande, la media muestral de medias muestrales se aproxima a la media poblacional. Y la distribucin de las medias muestrales tiene un comportamiento normal.

El siguiente trabajo de simulacin consiste de una poblacin de 100 alumnos cuyas notas se muestran en la columna C2. Su media (poblacional) y su desviacin estndar (poblacional) se muestran a continuacin, as como un histograma de frecuencias en modo texto. Variable X N 100 Mean 11.880 Median 12.000 TrMean 11.867 StDev 4.430 SE Mean 0.443

Variable X

Minimum 5.000

Maximum 19.000

Q1 8.000

Q3 16.000

Que cuando n v ; es decir cuando el tamao de la muestra se hace bastante grande, la media muestral de medias muestrales se aproxima a la media poblacional. Y la distribucin de las medias muestrales tiene un comportamiento normal.

4. Muestreo y distribuciones muestrales (4)


A continuacin se muestra el histograma mencionado

El siguiente trabajo de simulacin consiste de una poblacin de 100 alumnos cuyas notas se muestran en la columna C2. Su media (poblacional) y su desviacin estndar (poblacional) se muestran a continuacin, as como un histograma de frecuencias en modo texto. TrMean StDev SE Mean

Variable

Mean

Median

Histogram of X N = 100

De todo lo dicho, podemos emitir dos conclusiones muy importantes :

Midpoint

Count

11 ***********

18 ******************

La primera: Que podemos usar la distribucin normal para resolver problemas poblacionales cuya distribucin es desconocida o no interesa conocerla. Teorizada esta afirmacin, dio origen al Teorema del Lmite Central (TLC) en su forma generalizada.

10

17 *****************

12

11 ***********

14

7 *******

La segunda: Que podemos usar los estadsticos de la muestra para realizar estimaciones sobre el comportamiento poblacional. Teorizado esta afirmacin, dio origen a la Ley de Grandes Nmeros (LGN).

16

12 ************

18

19 *******************

4. Muestreo y distribuciones muestrales (5)


2. Estadsticos muestrales

20

5 *****

A continuacin hemos generado 36 muestras de tamao 16 (columnas de 3 a 18) y en la columna C19 hemos obtenido las medias de cada muestra. La media muestral de las medias muestrales obtenidas es 11.5747; la desviacin de la media muestral de medias es 1.0034. (Este resultado es aproximado a la poblacional y 1.003 | 4.4297 / 4.

Ahora nos dedicaremos a presentar los diversos estadsticos de la muestra. Cada uno de los cuales constituyen variables aleatorias muestrales y generan una distribucin de la muestra.

En la siguiente figura apreciamos lo siguiente:

Los estadsticos muestrales ms conocidos, son:

La primera grfica es la distribucin poblacional de las notas. Como es lgico, no tena por qu ser normal. Sin embargo la grfica de las medias muestrales s tiene, aproximadamente, un comportamiento normal, con media 11.5747 y una varianza 1.003.

VARIABLE La media muestral La proporcin muestral La varianza muestral La diferencia de medias muestrales La diferencia de proporciones muestrales

NOTACIN POBLACIONAL P S V P 1 - P2 S1 - S2

Las distribuciones muestrales de estas variables muestrales vienen definidas por su media y varianza, los que se muestran en el siguiente cuadro:

v. m.

Media

Varianza

Observacin importante: En lo sucesivo, cada vez que necesite usar una variable muestral de las mencionadas en la tabla anterior, debe recordar cul es su media y su varianza; es decir, su distribucin.

4. Muestreo y distribuciones muestrales (6)


Ejemplo 1
El ingreso promedio diario de los trabajadores del Sector de Construccin es de 200 pesos. En el Sector Textil, el ingreso promedio es de 150 pesos. Supongamos que los ingresos de los trabajadores en los dos sectores estn normalmente distribuidos con una desviacin estndar de 80 pesos. Cul es la probabilidad de que en dos muestras aleatorias independientes, de tamao 40, tomadas de cada sector, arrojen una diferencia entre de ingresos medios de 10 pesos o menos?

Solucin

Ahora bien, puesto que para una muestra suficientemente grande ( n > 30), por el Teorema del Limite Central, podemos usar la Distribucin Normal para resolver problemas de distribuciones muestrales, entonces es necesario definir un Z que nos permita transformar una variable muestral,

Sea X: El ingreso promedio diario de trabajadores del sector construccin.

digamos T con T

a una variable Z N(0, 1). Sea Y: El ingreso promedio diario de trabajadores del sector textil

En este caso, definiremos a Z como Segn los datos: PX = 200; PY = 150; VX = 80 y VY = 80. Debemos encontrar la probabilidad de que la diferencia de medias muestrales sea menor o igual a 10; es decir, .

De manera que, si la variable muestral fuera la diferencia muestral de medias muestrales; es decir,

si

entonces Puesto que y , entonces

En los siguientes ejemplos usaremos el Minitab para resolver problemas de muestreo y distribuciones muestrales.

como su desviacin estndar, como dijimos en la observacin anterior, se encuentran en la tabla anterior.

Usando de Minitab:

4. Muestreo y distribuciones muestrales (7)


3. Distribuciones para muestras pequenas

Puesto que la variable y desviacin luego encontrar

, por el TLC tiene distribucin normal, debemos encontrar su media estndar; es decir, necesitamos y usando por normal.

De acuerdo a los datos:

Las distribuciones muestrales vistas anteriormente son aquellas que se fundamentan en el Teorema del Lmite Central; y podemos aplicar el muestreo probabilstico sobre ellas utilizando la distribucin normal, siempre que el tamao de la muestra sea suficientemente grande; esto es, n t 30.

Ahora usamos: <Calc>-<Probability dist> - <Normal>

Sin embargo, nada hemos dicho cuando n < 30. En estos casos, la aplicacin de la distribucin normal, no estara bien fundamentado ya que no cumplira con le Ley de Grandes Nmeros, ni con el Teorema del Lmite Central. Las distribuciones muestrales, cuando el tamao de la muestra es menor a 30, reciben el nombre de Distribuciones Muestrales para muestras pequeas.

Activamos <Cumulative probability>. Entre las distribuciones muestrales para muestras pequeas tenemos: En <Mean> ingresamos 50. En <Standard desviation> digitamos 17.88854 . La distribucin Chi Cuadrado ( La distribucin t de Student La distribucin F de Fisher )

En <Input constant> digitamos 10

4. Distribucin Chi cuadrado


Recordemos que si la variable aleatoria continua X tiene una distribucin Gamma, entonces su funcin de densidad de probabilidad es

Hacemos click en <Ok>

Nota:

Este ejemplo ilustra la forma cmo se puede usar Minitab para resolver todo problema de probabilidad para distribuciones de variables aleatorias muestrales para una o dos poblaciones. Todo se reduce a obtener la media y desviacin estndar de la variable muestral. Y tanto su media

4. La mayora de libros presentan una tabla de la Distribucin complemento El Mintab usa la distribucin acumulada F; con < de la distribucin acumulada; es decir,

usando el .

con parmetros D > 0 y r > 0.

Donde E(X) = r/D y V(X) = r/D La distribucin Chi-cuadrado en Minitab lo activamos mediante

Definicin <Calc> - <Probability distributions> - <Chi square>

Sea X una variable aleatoria continua. Diremos que X tiene una distribucin Chi cuadrado con m grados de libertad si su funcin de densidad de probabilidad est dada por La ventana que se obtiene es similar a las distribuciones continuas ya estudiadas.

Seleccionaremos <Cumulative probability> si deseamos obtener

Seleccionaremos <Inverse cumulative probability> si queremos encontrar K.

Esta funcin es un caso especial de la funcin de distribucin Gamma en el cual hacemos D = 1/2 y r = v/2.

Para cualquiera de las opciones comentadas, se deber ingresar el nmero de grados de libertad, v.

Observaciones.

Finalmente, en <Input constant> se ingresar el valor de K, para el cual se desea encontrar la probabilidad, habiendo seleccionado <Cumulative probability>.

1. X es la notacin que emplearemos para afirmar que X tiene una distribucin Chi-cuadrado

Si se selecciona la opcin <Inverse cumulative probability>, entonces en <Input constant se debe ingresar el valor de la probabilidad, p, para el cual queremos encontrar K.

2. v representa el nmero de grados de libertad con el cual se evala los valores de esta distribucin.

4. Muestreo y distribuciones muestrales (8)


Ejemplo 2
Sea X una variable aleatoria con distribucin (23). Encontrar

3. El valor esperado de X es E(X) = v. Su varianza es V(X) = 2v

a) P(X t 35.172)

b) P(X d 19.021)

Siguiendo la misma secuencia que en el caso a) obtenemos P(X d 19.021) = 0.3

c) P( 13.091 d X d 38.968) c) Por lo que sabemos, P( 13.091 d X d 38.968) = F(38.968) F(13.091).

d) Encuentre el valor de K, tal que P( X d K ) = 0.975

e) Encuentre P(X t 30) Como F(38.968) = P( X d 38.968 ) siguiendo la secuencia del caso a) obtenemos F(38.968) = 0.98

f) Encuentre el valor de K, tal que P( X d K ) = 0.15

Solucin F(13.091) = P( X d 38.968 ). Al usar Minitab encontramos F(13.091) = 0.05.

Si X

(23) entonces el nmero de grados de libertad, v = 23. De manera que

De donde P( 13.091 d X d 38.968) = 0.98 0.05 = 0.93

a) P(X t 35.172) = 1 P(X d 35.172)

d) Puesto debemos encontrar el valor de K sabiendo que P( X d K ) = 0.975, usaremos la opcin <Inverse cumulative probability>, siguiendo la secuencia:

En la ventana que se obtenga al usar la secuencia <Calc> - <Probability distributions> - <Inverse cumulative probability>

<Calc> - <Probability distributions.> - <Chi Square> Ingresamos los grados de libertad.

En la siguiente ventana seleccionamos <Cumulative probability> En <Input constant> ingresamos 0.975

En <Degree of freedom> Ingresamos 23 que son los grado de libertad Con lo cual obtenemos K = 38.0756

En <Input constant>, ingresamos 35.172; con lo cual obtenemos

4. Muestreo y distribuciones muestrales (9)


e) Si usamos un tabla, contenida en la mayora de los libros, observaremos que dicha tabla no registra un valor = 30. En estos casos el valor de la probabilidad se obtiene realizando un proceso de interpolacin.

, luego P(X t 35.172) = 0.05

b) En este caso debemos encontrar

; Procedimiento:

Si p 0.10 Para 14.8480 0.10 Para K 0.15 Para 17.1865 -------------------0.20

28.429 ---------------------

0.20

Como

30

---------------------------

32.007 ---------------------------

Luego Por lo que

de esta ecuacin encontramos el valor de p = 0.156093.

Para encontrar p hemos usado la calculadora del Minitab.

Usando la calculadora del Minitab, encontramos K = 16.0173

Como hemos usado una tabla con resultado pedido.

, entonces p = 0.156093 ser el

Y usando Minitab para P( X d K ) = 0.15 encontramos K = 16.1219

Algunas propiedades importantes de la Distribucin

P1. Si las variables aleatorias X1, X2, ..., Xk y si Xi X1 + X2 +... + Xk (m1+m2+...+mk)

con mi grados de libertad, entonces

f) Obtendremos el valor de K interpolando de forma que nuestro amigo lector fije el procedimiento, si an no lo supiera.

P2. Sea Z1, Z2, ..., Zn una m.a. extrada de una poblacin N(0, 1). Si definimos a T como entonces T

Para ello usamos el siguiente procedimiento: P3. Si las variables aleatorias Xi , i = 1, 2, ..., n son independientes con N(Pi,V i), entonces

Como p = 0.15 se encuentra entre 0.10 y 0.20, diremos

Observaciones

es

tal

que

U 1. Si X t(v) entonces E(X) = 0 con v > 1 y

P4. Si X1, X2, ..., Xn es una m.a.i. de una poblacin N( P, V ), entonces

2. Sea X una variable aleatoria con distribucin N(0, 1) y sea V una variable aleatoria

i)

con . Si X y V son independientes, entonces la variable aleatoria es tal que T t(v) 3. Como se puede ver en la figura, la distribucin N(0, 1) es un caso especial de la distribucin t de Student, cuando n es suficientemente grande. es tal que V

ii)

Del mismo modo,

4. Muestreo y distribuciones muestrales (10)

4. Las tablas disponibles presentan valores de t de Student usando la distribucin acumulada por ambas colas; de suerte que, si P(X < t 0 ) = 0.05, con n grados de libertad, debemos buscar en la tabla el valor de t 0 tal que P(X < t0 ) = 0.025

5. Distribucin t - Student
5. En Minitab encontramos los valores de t 0 usando el mismo concepto.

Definicin

6. Como en el caso de la distribucin Chi Cuadrado, cuando los valores de t 0 o el valor de la probabilidad no estuvieran en la tabla, se deber interpolar para encontrar su valor. En el Minitab, los hallaremos de manera directa.

Diremos que la variable aleatoria X tiene distribucin t de Student, con v grados de libertad, si su funcin de densidad de probabilidad viene dada por 7. Si las variables Z y V son independientes con

, para todo x y v t 1, entero.

La siguiente figura muestra dos curvas t de Student con 5 y 15 grados de libertad, aunque los intervalos son diferentes: En el primero (-2, 6) y en el segundo (-6, 6). Entonces la variable aleatoria

8. La siguiente figura muestra la estrecha relacin entre la distribucin N(0, 1) y t(n). Si n v entonces la grfica de t(n) coincide con la grfica de N(0, 1).

9. La afirmacin anterior ratifica la decisin de usar N(0, 1) para resolver problemas de muestreo cuando n t 30 (muestras suficientemente grandes); mientras que si n < , t de Student o F de Debe completarse la informacin ingresando el nmero de grados de libertad en <Degrees of freedom>.

30 (muestras pequeas), se debe usar distribuciones como Fisher.

Si se desea obtener la distribucin acumulada, activar <Cumulative probability>.

Por otro lado, si se desea encontrar la P(X d K), activando <Cumulative probability> se debe ingresar el valor de K en <Input constant>.

4. Muestreo y distribuciones muestrales (11)

Si por el contrario se desea encontrar el valor de K, tal que P(X d K) = p, con p conocido, se debe activar <Inverse cumulative probability> y en <Input constant> se debe ingresar el valor de K.

T de Student en Minitab

4. Muestreo y distribuciones muestrales (12)


6. Distribucin F de Fisher
Definicin

Como en las otras distribuciones, usando <Calc> - <Probability Distributions> ingresamos a la ventana que se muestra a continuacin:

Sea X una variable aleatoria. Diremos que X tiene una Distribucin F de Fisher con n grados en el numerador y m grados en el denominador, si su funcin de densidad de probabilidad viene dada por

Como puede apreciar

lo que escribiremos como F F(n, m)

Activaremos la primera opcin: <Probability density> si deseamos generar algunos valores de esta distribucin en la columna digitada en <Optional storage>, para los valores de X ingresados en la columna digitada en <Input column>.

La grfica de la funcin de densidad con 25 grados de libertad en el numerador y 10 grados de libertad en el denominador, se da en la siguiente figura.

Sea

es una m.a.i. de una poblacin N( P1, V1 )

Sea

es una m.a.i. de una poblacin N( P2, V2 )

Si ambas muestras provienen de poblaciones independientes, entonces

Propiedades

es tal que F F(n1 1, n2 1)

1. Sean U y V dos variables aleatorias independientes tal que

F de Fisher en Minitab
Para activar la ventana de informacin de esta distribucin se debe usar <Calc> - <Probability Distributions> , con la cual ingresamos a la ventana que se muestra a continuacin:

yV

entonces

es una variable tal que F F(n, m).

2. Si X F(n, m) entonces

3. Distribucin de la razn de dos varianzas muestrales

Si se desea encontrar P(X d 1.12) para X una variable aleatoria que tiene distribucin Chi Cuadrado con 20 grados de libertad en el numerador y 15 grados de libertad en el denominador, llenaremos la ventana anterior como se indica. En esta ventana, si se desea encontrar P(X d 1.12), sabiendo que X F(20, 15), obtendremos 0.5821.

4. Muestreo y distribuciones muestrales (13)

7. Estimacin por intervalos y prueba de hiptesis

Una vez calculado el estadstico de la muestra estamos en capacidad de usar la teora de la Estimacin para elegir un estimador adecuado que nos permita inferir resultados sobre la poblacin de donde proviene la muestra. Estos estimadores pueden darse de manera puntual o por intervalos. Y para probar estos resultados disponemos de la Prueba de Hiptesis, lo que nos permitir aceptar o rechazar afirmaciones planteadas a priori.

La Estimacin y la Prueba de Hiptesis son los componentes principales de la inferencia estadstica. La teora de la Estimacin comprende un estudio detallado de la bsqueda de unestimador (estadstico de la muestra, para el cual se construye su distribucin muestral),

digamos , del parmetro poblacional . Este estimador puede darse a travs de un valor puntual, Estimador Puntual; por el contrario, puede darse a travs de un intervalo, llamado Intervalo de Confianza. La estadstica nos dar las herramientas necesarias que fundamenten la potencia de este estimador puntual o el nivel de confianza en el caso de la estimacin por intervalo.

Tanto la obtencin del intervalo confidencial como la contrastacin de la Hiptesis, podrn ser realizadas usando la Distribucin Normal, Chi Cuadrado, t de Student o F de Fisher, dependiendo del estimador, del tamao de la muestra y de si es conocida o no la varianza poblacional. La Hiptesis a ser contrastada puede tener alguna de las siguientes formas:

En el mbito del Mtodo Estadstico, se busca un estimador del parmetro poblacional por que se desea comprobar, probar, verificar o contrastar una determinada Afirmacin, Supuesto al cual se le denomina Hiptesis Nula, H0, contra otra Hiptesis llamada Hiptesis de Trabajo o Hiptesis Alternativa, H1, proveniente de los resultados de la Estimacin dando como resultado la Aceptacin o el Rechazo de la Hiptesis Nula. El siguiente esquema nos muestra el Intervalo de Confianza usando la distribucin normal.

Donde B) Varianza poblacional y = ZD ., donde Z N(0, 1)

es un valor obtenido en la distribucin que define al estimador; es decir,

si

n > 30

entonces

VC = ZC

Algo ms, si la distribucin que define al estimador fuera t de Student, suponemos que la varianza poblacional es desconocida, en cuyo caso se usa s muestral.

Use la distribucin Chi Cuadrado ya que suponemos que tanto la varianza como la media poblacionales deben ser desconocidos. Para ello use sus respectivos estimadores puntuales.

Del mismo modo, si el clculo de VC debe hacerse por la distribucin Chi Cuadrado o F de Fisher, el valor VC se evala con la definicin correspondiente.

C) Diferencia de medias en dos poblaciones

Todo esto nos permite resumir en la siguiente cuando se trata de UNA POBLACION

a) Con varianzas poblacionales conocidas: Use la distribucin normal con el Z apropiado para la diferencia de medias, tal que Z N(0, 1) b) Con varianzas poblacionales desconocidas: i)

4. Muestreo y distribuciones muestrales (14)

NOTA IMPORTANTE

Cuando la suma de los tamaos de muestras, digamos (n = n 1 + n2) sea no mayor a 30: Use la distribucin t de Student estimando apropiadamente la varianza de la diferencia de medias muestrales. En el t calculado usar como grados de libertad a n1 + n2 2. Aqu debe distinguir los estimadores de la varianza de la diferencia de medias cuando las varianza son iguales o diferentes. ii) Cuando la suma de los tamaos de las muestras es mayor o igual a 30: Use la distribucin normal, calculando el Z apropiadamente tal que Z N(0, 1).

Las siguientes notas se debern tomar en cuenta al trabajar con Intervalos de Confianza as como en la Prueba de Hiptesis.

A) Media poblacional

D) Razn de varianzas

1. Si el tamao de muestra es suficientemente grande (n t 30), a) Cuando la varianza poblacional sea conocida, use la distribucin normal, usando el valor de Z tal que Z N(0, 1)

Use la distribucin F de Fisher empleando los estimadores correspondientes a la media y varianza poblacionales con (n-1) y (m-1) grados de libertad en el numerador y denominador, respectivamente.

b) Cuando la varianza poblacional sea desconocida, use el estimador y con ello calcule Z tal que Z N(0, 1)

E) Datos Pareados

c) Si el tamao poblacional N es finita, use lo anterior corrigiendo la desviacin con el factor de correccin para poblaciones finitas(cuando el muestreo se hizo sin reposicin).

a) Cuando n t 30, use la distribucin normal calculando el Z con los estimadores de la media y varianza en datos pareados, tal que Z N(0, 1) b) Cuando n < 30, use la distribucin t de Student, con el estimador de la varianza poblacional para datos pareados.

2. Si el tamao de muestra es pequeo; es decir, si n < 30 use la distribucin t de Student, usando a la varianza muestral como estimador de la varianza poblacional, cuando sta es desconocida.

1. La secuencia, cuando se conoce la varianza poblacional o n > 30

F) Proporcin poblacional <Stat> - < Basic Statistics> - < 1 Sample Z ...>

Use la distribucin normal calculando el Z mediante los estimadores de la proporcin poblacional tal que Z N(0, 1) genera la ventana que se muestra en la siguiente figura

G) Diferencia de proporciones Como se puede apreciar, esa es la ventana que nos permitir obtener Intervalo de Confianza o realizar una Prueba de Hiptesis.

Como en el caso anterior, use Z.

4. Muestreo y distribuciones muestrales (15)

Bastar con seleccionar una de las dos opciones:

8. Intervalo de confianza y prueba de hiptesis en una poblacin

Si se trata de obtener el Intervalo de confianza

En el caso de una poblacin, primero recordaremos algunos criterios que debe tomarse en cuenta para obtener intervalos de confianza y prueba de hiptesis para luego desarrollar algunos ejemplos usando el Minitab.

Si los datos se han ingresado en una columna de la hoja de trabajo, use la primera opcin e ingrese a ella la columna correspondiente; en caso contrario, use <Summarized data> en ella ingrese el tamao de la muestra y la media de la muestra. En el siguiente cuadro de texto ingrese la desviacin poblacional. Luego haga clic en <Options> y slo ingrese el nivel de confianza. Luego <Ok> y <Ok>.

Como lo comentamos en el captulo II, el Minitab dispone de una categora especial para el estudio de la estimacin de intervalos de confianza y para realizar diversas pruebas de hiptesis.

Si se trata de realizar una prueba de hiptesis

Adems de ingresar los datos anteriores debe activar la casilla <Perform hypotesis test> y en la ventana de opciones debe seleccionar la forma de la hiptesis alternativa (less tan, not equal o greater tan).

La siguiente figura nos muestra las opciones que tenemos para trabajar con una poblacin tanto para Intervalos de Confianza as como para Pruebas de Hiptesis.

Una vez hallado el Zcalculado y el Docimasia o Prueba de Hiptesis.

se decidir usando las reglas de la

b) Usando el p Value: Esta es la forma tal vez ms sencilla para Aceptar o Rechazar la Hiptesis Nula en una prueba de Docimasia. Por lo general, seguiremos esta metodologa en lo que a Prueba de Hiptesis se refiere.

El p Value

En el caso de la Docimasia o Prueba de Hiptesis, el Minitab da preferencia a la prueba mediante el uso del p value.

4. Muestreo y distribuciones muestrales (16)

El p value es el nivel de significacin calculado a partir de D , que permite:

2. La secuencia, cuando la varianza poblacional es desconocida Rechazar la Hiptesis Nula si el valor de p es muy pequeo (tiende a 0 digamos, el Mintab usa como lmite); esto es, que sea menor a 0.05

<Stat> - < Basic Statistics> - < 1 Sample t ...>

genera una ventana equivalente a la mostrada cuando se usa <1 Sample Z >.

No rechazar la Hiptesis Nula, si el valor de p es mayor que 0.05

4. Muestreo y distribuciones muestrales (17)


9. Intervalo de confianza

De manera que la informacin a ser proporcionada para una t de Student ser similar que para el caso de una Normal.

Nota Importante:

El Minitab permite realizar Pruebas de Hiptesis de dos maneras:

a) Por la forma tradicional; es decir, obtener un Z calculado y comparar con el que obtenemos a travs del uso de <Inverse Cumulative Probability> de <Probability Distributions> del comando <Calc>, como ya hemos visto.

Ejemplo 3

Suponga que la siguiente data corresponde a los ingresos salariales de 50 trabajadores durante una semana en el cual se sabe que el ingreso promedio es de 680 soles con una desviacin estndar de 36 soles. 631 704 641 625 648 674 678 678 678 683 700 638 670 689 689 710 617 617 729 654 615 663 654 657 642

Puesto que el tamao de la muestra es 50 y es una poblacin, usaremos Z para obtener el Intervalo de Confianza para la media poblacional, lo cual lo haremos usando:

658

670

679

731

710

688

694

665

600

721

<Stat> - Basic statistics> - <1 Sample Z >, que nos lleva a la ventana de la derecha.

747

623

710

669

635

721

689

741

720

670

702

687

706

725

692

Esta ventana, como se puede ver y lo hemos explicado, la usaremos tanto para encontrar el Intervalo de Confianza como para cuando se trate de realizar Pruebas de Hiptesis, en los casos en que se deba usar la distribucin normal.

Obtenga un intervalo de confianza del 95% para la media de los ingresos salariales y sustente una breve interpretacin mediante algunos grficos de inters.

Observe que para obtener el intervalo de confianza es suficiente indicar el nombre de la columna que contiene los datos as como el nivel de confianza ( 1 - D )*100% en <Options>. Por comodidad, supondremos un nivel de confianza del 95%. Naturalmente este es un dato que el investigador debe tomar como supuesto y con el cual plantea su afirmacin el cual se convierte en Hiptesis Nula.

Solucin Completaremos los datos en esta ventana haciendo clic en <Graphs>. La siguiente figura muestra el histograma de frecuencias de los ingresos. Por esta opcin se puede elegir: <Histogram of data>, <Individual value plot> o <BoxPlot>.

En ella podemos apreciar cierto comportamiento normal en la variable. Aqu hemos seleccionado <Individual value plot>.

Usando la secuencia: En la siguiente figura se incluye tambin el intervalo de confianza para la media con el 95% de confianza y desviacin de 36.

<Stat> - <Basic Statistics> - <Display Statistic Descriptive>, podemos encontrar la media y la desviacin muestral de la muestra, cuyo tamao es de 50.

4. Muestreo y distribuciones muestrales (18)


Z Confidence Intervals

The assumed sigma = 36.0

Variable

Mean

StDev SE Mean

95.0 % CI

Salarios

50

676.80

36.07

5.09 ( 666.82, 686.78)

Como se puede apreciar, en la grfica se indica el intervalo de confianza y el valor puntual de la media muestra. Parece ser y la desviacin poblacional es un buen indicador, que los salarios en la muestra no presentan outliers. Igualmente observe que el valor de la desviacin muestral (36.07)es un buen estimador de 36.

Esto lo podemos verificar grficamente seleccionando esta vez la opcin <Box Plot of Data> de la misma secuencia anterior.

El segmento en rojo representa el Intervalo de Confianza, en el que, como se puede ver, la media muestral se encuentra en el centro.

El grfico se muestra en la figura de la derecha, en el cual, no se presentan ningn outliers; hay homogeneidad de los datos, no hay dispersin y por la gran aproximacin de la media y la mediana, la distribucin de los datos alrededor de estos estadsticos es muy homognea.

Parece ser que los datos presentan una concentracin alrededor de la media. Esto lo deducimos observando la grfica y tomando en cuenta la amplitud del Intervalo de Confianza.

Veamos una grfica de histograma qu dice respecto a nuestra afirmacin.

Finalmente apreciemos los resultados de elegir la opcin <Graphical Summary> para lo cual debe seguir la siguiente secuencia: <Stat> - <Basic Statistics> <Graphical summary >

Si volvemos a usar la misma secuencia anterior, excepto que ahora elegimos Histogram of data tendremos la siguiente grfica:

Aqu apreciamos un resumen de todo lo dicho lneas arriba.

Tomemos los datos del problema anterior. Si el Sindicato de Trabajadores exige un incremento de salarios afirmando que el promedio de los mismos es inferior al valor que le corresponde por el incremento en el costo de vida. Tendr razn el Sindicato?

Solucin

Para responder a esta pregunta debemos realizar una Prueba de Hiptesis. Para ello supondremos como Hiptesis Nula la afirmacin: El ingreso promedio es igual a 680 soles; es decir P0 = 680.

Supondremos que la Hiptesis Alternativa consiste en afirmar que El ingreso promedio es menor que 680 soles; es decir, P1 < P0 .

Probaremos H1: P1 < P0

H0: P0 = 680

4. Muestreo y distribuciones muestrales (19)


Usando la ventana obtenida por la secuencia

10. Prueba de hiptesis


<Stat> - <Basic Statistics> - <1 Sample Z ...>, ingresamos los datos como en el ejemplo anterior.

Lo que debemos tener presente al plantear una Prueba de Hiptesis es lo siguiente:

Determinar la afirmacin o supuesto que permita plantear la Hiptesis Nula

Al activar la casilla <perform hypotesis test> digitamos el ingreso promedio, que es 680.

A partir de ella, definir la Hiptesis Alternativa que nos permita determinar si se trata de una prueba de una cola(izquierda o derecha) o de dos colas.

Obtener los estadsticos, llmese Z o p value

Pasando a la ventana de <Options> en < Alternative>, ingresamos el tipo de prueba: Menor que(Less than).

Decidir por comparacin si se debe aceptar o rechazar la Hiptesis Nula Los resultados se muestran en la siguiente figura:

Ejemplo 4
Observe que el ZC = -0.63

Puesto que la prueba consisten en una prueba de una cola, el Z para un nivel de confianza de 95% , es Z1-D = -1.6449.

Si usramos la prueba de Z diramos:

Puesto que ZC > Z1-D entonces se rechaza la Hiptesis Nula; es decir, el Sindicato no tiene razn en sus reclamos.

Aplicando el p-value:

Como p = 0.26 es mayor que 0.05 entonces no existe evidencia suficiente para rechazar la Hiptesis Nula; es decir, el Sindicato no tiene razn en sus reclamos.

4. Muestreo y distribuciones muestrales (20)


11. Intervalo proporciones de confianza y prueba de hiptesis en

El Minitab tambin permite realizar estimaciones proporcionales y prueba de hiptesis para proporciones.

En la siguiente figura (lado izquierdo) podemos apreciar que esto se puede realizar en una o dos poblaciones.

En la siguiente grfica y en la anterior podemos apreciar la proximidad entre el promedio de los ingresos y la afirmacin planteada en la Hiptesis Nula. Otra razn para afirmar que el Sindicato no tiene razn en sus reclamos.

PREGUNTA:

Si se desea obtener el intervalo de confianza y/o realizar una prueba de hiptesis para un conjunto de datos no numrico, cmo puede el Minitab resolver esta dificultad, planteada a nivel de proporciones poblacionales?

Si por otro lado recordamos que en una poblacin de proporciones S representa la proporcin poblacional de los elementos que poseen cierto atributo y representa la proporcin muestral de los que poseen el mismo atributo en la muestra, entonces

Veamos el siguiente ejemplo:

4. Muestreo y distribuciones muestrales (21)


Ejemplo 5
Abra el archivo Ingre99.Mtw.

E(

) =

V( ) =

Al realizar la secuencia <Stat> - <Basic Statistics > - <1 Proportion ...>

Analicemos la variable: Colegio de procedencia.

Obtenemos una ventana que se encuentra en la figura anterior (derecha).

Como se puede ver, los alumnos ingresantes provienen de colegios Pblicos y Privados.

Como se puede apreciar, podemos realizar trabajos de proporciones para un conjunto de datos que estn en alguna columna de la hoja de trabajo, seleccionando la opcin <Sample in Column>, o podemos hacerlo conociendo el nmero de ensayos (number of trials) que representa el tamao de muestra y el nmero de elementos que poseen el atributo en estudio (number of success), seleccionando <Summarized data>

a) Cul es el intervalo de confianza del 95% del promedio de alumnos que provienen de colegios Privados?. b) De los ingresos anteriores se sabe que el 55% de los alumnos provienen de colegios pblicos. Si el Director de Admisin afirmaba que para este ao este porcentaje se incrementara, tena razn dicha autoridad?

Usaremos <Options> para ingresar la informacin necesaria para obtener el Intervalo de Confianza o realizar la Prueba de Hiptesis, los cuales se ingresa en la siguiente ventana, mostrada en la siguiente figura.

Solucin

Por ello, obtener un Intervalo de Confianza o realizar una Prueba de Hiptesis para proporciones, sigue la misma metodologa que aquella empleada para la media.

De acuerdo a los datos del problema, debemos realizar inferencia para la variable: proporcin poblacional. En este caso S = 0.55. El nivel de confianza es del 95%; es decir, 1 - D = 0.95; n = 120.

Igualmente, debemos realizar la prueba:

Ynuevamente clic en <Ok> para que Minitab realice el trabajo.

H0: S = 0.55 En el siguiente resumen mostramos tanto el intervalo de confianza as como el valor del p value.

H1:

> S

Donde En este distribucin muestral viene dada por Test and Confidence Interval for One Proportion

caso

representa

la

proporcin

muestral

cuya

E( ) =

V( ) =

Test of p = 0.55 vs p > 0.55

La siguiente secuencia de comandos nos proporcionar la prueba de hiptesis as como el intervalo confianza para .

Success = Pbl

Exact Variable Colegio X 53 N Sample p 95.0 % CI 120 0.441667 (0.351108, 0.535173) P-Value 0.993

<Stat> - <Basic Statistics> - <1 Proportion>

En <Sample in columns> Ingresmos la variable Colegio.

A continuacin hacemos clic en <Options>

Puesto que este valor es bastante mayor que 0.05, entonces no es cierto que el porcentaje de ingresantes de los colegios pblicos se hayan incrementado.

En <Confidence level> Ingresamos 0.95;

4. Muestreo y distribuciones muestrales (22)


12. Inferencia acerca de la varianza poblacional

En <Test proportion> Ingresmos 0.55;

En <Alternative> Seleccionamos Greather than que constituye la hipotesis alternativa;

Para realizar estimaciones respecto de la varianza poblacional, debemos usar la siguiente secuencia: <Stat> - <Basics Statisticas> - <1 varince >.

Hacemos clic en < Ok > para volver a la ventana previa

En la ventana se debe seleccionar <Sample in columns> si los datos estn en alguna columna de la hoja de trabajo o seleccionar la siguiente opcin y luego ingresar el tamao de la muestra y la desviacin estndar muestral, s. Al activar la casilla para ejecutar la prueba de hiptesis, se debe ingresar la desviacin estndar poblacional. A continuacin, en <Options> debe ingresar el nivel de confianza y seleccionar la forma de la hiptesis alternativa

Para el caso de la varianza, recuerde que

tal que

Del mismo modo, use la siguiente secuencia para obtener la desviacin estndar de la muestra, s.

Si desea probar la hiptesis usando el valor calculado comparando con el valor Chi cuadrado terico con un nivel de confianza del 100(1-)%.

4. Muestreo y distribuciones muestrales (23)


Ejemplo 6
Sea X1, X2, ..., Xn una muestra aleatoria extrada de una poblacin normal N( P, V).

donde

Del mismo modo, sea

la varianza muestral. Determinar el menor valor de n

para el cual se cumple

Solucin

Puesto que En <Degrees of freedom> Ingresamos 10

Multiplicando por (n-1) a la desigualdad En <Input constant> Ingresamos 0.95

El resultado es 18.3070 . Probemos ahora con n 1 = 27. Es decir, como (n 1) x 1.5 = 40.5

El primer miembro de la desigualdad, dentro de los parntesis define a una variable Chi Cuadrado con (n-1) grados de libertad. Por ello,

Al usar Minitab encontramos que el valor de la constante es 40.1133.

si hacemos

entonces debemos hallar un valor Chi cuadrado tal

Esto implica que n 1 = 27 .

que Luego el tamao muestral ser n = 28.

Para ello, puesto que Minitab requiere de los grados de libertad, debemos hacer un mixing entre una estimacin manual y el Minitab para verificar el clculo manual.

4. Muestreo y distribuciones muestrales (24)


En resumen

Puesto que n es desconocido, debemos asignarle un valor tal que al multiplicarlo por 1.5, se encuentre el valor Chi Cuadrado con probabilidad 0.95 y n 1 grados de libertad.

Si en una poblacin, estuviramos interesados en realizar estimaciones sobre el parmetro poblacional P, entonces

Supongamos que n = 11. Esto implica que (n-1)x1.5 = 15.

Es cierto que con 10 grados de libertad y con una probabilidad acumulada de 0.95, se tiene un valor de Chi Cuadrado igual a 15?.

con

Usando Minitab:

Para realizar una prueba de hiptesis de una cola, y con el (1 - D)x100%

<Calc> - <Probability distributions> - <ChiSquare> - <Inverse cumulative probability> Probaremos

H0: P0 = P

H1: P1 < P

4. Muestreo y distribuciones muestrales (25)


13. Problemas

Rechazaremos H0 si ZC < ZD , o si p - value < 0.05

Caso especial: Prueba de Hiptesis para la varianza poblacional

La varianza poblacional tambin puede ser estimada a travs de su estimador que ser la varianza muestral s.

1. Un comerciante de productos sintticos determina a travs de diversas pruebas que el 4% de los tornillos fabricados por una determinada compaa son defectuosos. Si el comerciante adquiere lotes de 150 productos bajo la garanta de que el paquete contiene el 92% de productos no defectuosos, cul es la probabilidad de que un paquete no satisfaga la garanta?

Sea X1, X2, ..., Xn una muestra aleatoria de tamao n, extrada de una poblacin normal N( P, V).

Si

= V y

= s entonces podemos definir la variable aleatoria

2. Un contratista piensa comprar una gran cantidad de radios a cierto fabricante. Este asegura al contratista que la duracin promedio de los radios es de 3600 das con una desviacin estndar de 40 das. El contratista decide comprar los radios slo si una muestra aleatoria de 64 de stos da como resultado una vida promedio de por lo menos 3600 das. Cul es la probabilidad de que el contratista adquiera los radios?

tal que Vc

y realizar pruebas de hiptesis de la forma

Caso I

Caso II

Caso III

3. Una firma encuestadora efecta un anlisis de los resultados de la muestra para hacer predicciones respecto a las prximas elecciones. Supngase que se trata de medir el porcentaje de electores favorables a dos de los 5 candidatos para la regin de Lima. Si uno de los candidatos recibe por lo menos el 60% del voto en la muestra, entonces se pronosticar que dicho candidato ganar la contienda electoral. Si se selecciona una muestra de 900 electores, cul es la probabilidad de que se pronostique como ganador a ese candidato cuando el porcentaje real de sus votos es 55%?

14.

Estimacin y prueba de hiptesis para dos poblaciones

Si Vc <

; Rechazar H0

Rechazar H0 si Vc <

o si Si Vc >

; rechazar H0

El estadstico

, obtenido en una muestra aleatoria de tamao n, y definido como un estimador del parmetro poblacional , nos permite realizar diversos tipos de estimaciones tanto para una poblacin (lo que ya hemos desarrollado) como en el caso de dos poblaciones.

Vc >

El procedimiento es el mismo, excepto que, dependiendo del parmetro a ser estimado, del tamao de las muestras, del conocimiento que tengamos de las varianzas poblacionales ( iguales o diferentes, conocidas o desconocidas), se tendr diferentes formas de calcular el estadstico .

En el caso de dos poblaciones podemos estar interesados en realizar estimaciones respecto a la media o proporcin de dos poblaciones en trminos de su comparacin o la diferencia entre las medias o de las proporciones:

. El intervalo de confianza del (1-D)x100% para la diferencia de medias ser

Del mismo modo podramos estar interesados en medir la Razn de sus Varianzas como lo veremos despus, o en medir la diferencia observada en una misma poblacin pero analizada desde los resultados de una muestra sometida a dos tratamientos, lo que se conoce como Distribucin de datos pareados.

(*)

De manera que vamos a estudiar uno de todos estos casos

Si las varianzas son desconocidas se utilizan sus estimadores; es decir, las varianzas de la muestra.

4. Muestreo y distribuciones muestrales (26)

a)

Caso de la diferencia de medias en dos poblaciones

Si n1 + n2 < 30, se usar la distribucin t de Student con n1+ n2 2 grados de libertad y donde la varianza de la diferencia de medias viene dada por

Para la diferencia de medias muestrales con tamaos n 1 y n2 , se tiene

De manera que el valor calculado de t con (n 1+ n2 2 ) grados de libertad ser

Donde la distribucin de la diferencia de

viene dada por

Si la suma de los tamaos de ambas muestras es grande (n 1 + n2 t 30), se usar la distribucin normal, tanto para varianzas conocidas iguales como diferentes. En este caso el Intervalo de Confianza del (1 - D )x100% es similar a (*), donde debemos cambiar t de Student con n1+ n2 2 grados de libertad en lugar de Z 1-D/2

Debemos probar:

Los tipos de Prueba de Hiptesis que se pueden plantear sern H0: P1 = P2

Caso I
>

Caso II

Caso III

H1: P1 > P2

<

>

En la base de datos Ingre99.Mtw tenemos 120 datos, de los cuales 23 corresponden a la Facultad de Biologa, provenientes de colegios privados y pblicos. Vamos a extraer de esta hoja slo los alumnos que ingresaron a Biologa.

Si tc < tD; Rechazar H0 Para ello usamos:

Rechazar H0 si < tD/2 o > t1-D/2

Si tc > t1-D ; rechazar H0

Nota:

<Manip> - <Subset Worksheet>.

Esto mismo rige para la prueba de hiptesis de la diferencia de medias cuando se usa la distribucin normal con Zc , es decir, cuando las varianzas poblacionales son conocidas; en cuyo caso se debe reemplazar Z en cada t que se encuentra en el cuadro anterior.

En <Include or Exclude> activamos <Specify wich rows to include>

En <Condition> digitamos lo que debe comparar: Facultad = Biologia.

4. Muestreo y distribuciones muestrales (27)


Si por alguna razn se presenta algn error, copie el dato Biologa desde una celda, luego use la secuencia anterior y pegue lo copiado en el momento que ingrese la comparacin.

Ejemplo 7

Supongamos que el Director de la Oficina de Admisin afirma que el rendimiento promedio (Prom.Gral.) de los alumnos de Biologa, provenientes de los colegios privados es mayor que el rendimiento promedio de los alumnos de Biologa , provenientes de los colegios pblicos. Abra el archivo Ingre99.Mtw para comprobar esta afirmacin. Encuentre adems el Intervalo de Confianza del 95% para la diferencia de medias.

Trabajemos con esta nueva hoja.

Solucin

Si Ud. usa <Stat> - <Tables> - <Tally> - Colegio, encontrar Priv = 11 y Pbl = 12; con lo cual, el nmero de grados de libertad ser igual a 21(n 1+ n2 2 = 21).

Sea H0 : El rendimiento promedio de los alumnos de Biologa, provenientes de los colegios privados es mayor que el rendimiento promedio de los alumnos de Biologa , provenientes de los colegios pblicos.

Puesto que n1+ n2 2 < 30 y las varianzas poblacionales no son conocidas, usaremos t de student con el resultado del anlisis anterior (Ejemplo 17), donde comprobamos la homogeneidad de las varianzas, por lo que debemos suponer, varianzas iguales.

Usemos ahora el Minitab que nos permitir obtener el intervalo de confianza del 95% y el p value para realizar la prueba de hiptesis. 95% CI for mu (Priv) - mu (Pbl): T-Test mu (Priv) = mu (Pbl) (vs not =): Both use Pooled StDev = 0.462 T = 0.88 P=0.39 DF = 21 ( -0.23, 0.57)

< Stat > - < Basic Statistics > - < 2-Sample t >

A continuacin se obtiene la siguiente ventana

Puesto que el p value es mayor que el nivel de significacin 0.05, no se rechaza H 0 y se concluye de que no hay evidencia suficiente para afirmar de que el rendimiento de los alumnos provenientes de colegios privados es mayor que los que provienen de los colegios pblicos.

En el grfico siguiente no se muestra suficiente diferencia en los promedios como para rechazar la hiptesis nula.

De acuerdo al ejemplo anterior suponemos que las varianzas poblacionales son iguales.

4. Muestreo y distribuciones muestrales (28)

Los resultados que se obtienen son los siguientes:

Two Sample T-Test and Confidence Interval

Nota importante

Two sample T for Prom.Gral.

Para un adecuado estudio de la teora de la estimacin en el caso de dos poblaciones se debe tomar en cuenta los casos en los que las varianzas poblacionales son conocidas o no. SE Mean 0.11 0.16 Siendo desconocidas, podramos suponer que ellas son iguales o diferentes.

Colegio

Mean

StDev

Priv

11

11.065

0.351

Pbl

12

10.897

0.544

Esto por cuanto los estimadores de la varianza de la distribucin muestral de la diferencia de medias muestrales, por ejemplo, se obtienen de manera diferente.

Del mismo modo, si n1 y n2 son los tamaos de las muestras aleatorias extradas de las dos poblaciones, cabe la posibilidad de que n 1 + n2 t 30 o n1 + n2 < 30, lo que generan diferentes distribuciones muestrales.

Por ello, es necesario realizar una comparacin de varianzas poblacionales; lo que se conoce como Prueba de Homogeneidad de varianzas, conocido tambin comoComparacin de dos varianzas poblacionales o Razn de varianzas poblacionales Por ello veremos ahora el siguiente tema:

Observe las dos curvas en el siguiente grfico. Las dos tienen el mismo promedio, pero, por la forma de la campana, tienen diferente varianza.

Esto justifica la necesidad de establecer una prueba de hiptesis para una razn de varianzas, a fin de comprobar si ellas son homogneas o no.

4. Muestreo y distribuciones muestrales (29)


Una aplicacin de esta razn podra ser bastante significativa en un caso en el que las medias no son muy explicativas.

15.

Inferencia acerca de las varianzas de dos poblaciones

(Prueba de Homogeneidad de varianzas)

Por otro lado, as como se realiza inferencia sobre la estimacin y prueba de hiptesis de la diferencia de medias o proporciones muestrales en el caso de dos poblaciones, as tambin podemos plantear el estudio de la razn de las varianzas de dos poblaciones definiendo al parmetro T como y su estimador . Este estudio lo haremos tomando en cuenta el intervalo de confianza y la prueba de hiptesis para T.

De manera que, si las varianzas poblacionales son iguales, dicha razn es 1 y podramos afirmar que las dos poblaciones tienen una distribucin homognea; es decir, los datos se encuentran igualmente dispersos. Una forma clara de interpretacin de la importancia de la homogeneidad de varianzas se puede apreciar en el siguiente ejemplo:

Supongamos que estamos comparando el rendimiento promedio de los alumnos de una asignatura dividida en dos secciones, cada una de las cuales estn asignadas a diferentes profesores. Podra ocurrir que el rendimiento promedio de ambas secciones sea la misma; pero sin embargo, las notas pueden tener diferente variabilidad.

Pues bien. Sea X1, X2, ..., Xn1 una muestra aleatoria extrada a partir una poblacin N( P1, V1) y se Y1, Y2, ..., Yn2 una muestra aleatoria extrada a partir una poblacin N( P2, V2).

Si son los estadsticos de la primera muestra, de tamao n 1 y estadsticos de la segunda muestra, de tamao n 2 en donde

son los

as como

Si Fc <FD; Rechazar H0

Rechazar H0 si Fc < FD/2 o si Si Fc > 1-D ; rechazar H0 Fc> F1-D/2

Y en cuanto al Intervalo de confianza del (1-D)x100% para

ser

entonces diremos que

es un estimador puntual para la razn o el cociente de las

varianzas poblacionales

De manera que si

es el estimador de

definiremos la variable aleatoria

4. Muestreo y distribuciones muestrales (30)


Razn de varianzas en minitab

tal

que

F F(n1 1, 1)

n2

El programa Minitab resuelve problemas de estimacin por intervalos y pruebas de hiptesis como un problema de Anlisis de Varianza, pero en su forma simple, como una comparacin de dos poblaciones.

Por tanto las pruebas de hiptesis a plantearse, usando el estadstico

Esto se logra mediante la comparacin de medias poblacionales y tambin mediante la comparacin de sus varianzas; esta ltima a travs de PRUEBAS DE HOMGENEIDAD DE VARIANZAS.

con n1 1 grados de libertad en el numerador y n 2 1 grados de libertad en el denominador, sern

Para realizar una Prueba de Homogeneidad de Varianzas debemos ejecutar la siguiente secuencia:

Caso I

Caso II

Caso III

<Stat> - <Basics Statisticas> - <2 variances > Observe Ud. que se dispone de tres formas de ingresar los datos: Cuando los datos estn en una columna y otra contiene los subndices para reconocer las dos muestras; cuando en la hoja de trabajo las muestras

estn en dos columnas y cuando se dispone de datos resumidos. Los resultados obtenidos son

La ventana de <Options> es mnima: slo requiere del nivel de confianza. Esto significa que en todas las pruebas, se asume que la hiptesis nula se formula como igualdad de varianzas o la afirmacin: Existe homigeneidad entre las dos poblaciones. Homogeneity of Variance Response Factors ConfLvl 95.0000 Colegio Prom.Gral.

Tomaremos en cuenta estos criterios toda vez que tengamos que obtener intervalo de confianza para una razn de varianzas o realizar pruebas de hiptesis de las varianzas poblacionales.

Ejemplo 8
Lower Sigma

Upper N Factor Levels

Tomando los datos de la hoja Ingre99.Mtw, determine si la varianza del rendimiento de los alumnos provenientes de colegios privados es igual a la varianza del rendimiento de los alumnos provenientes de colegios pblicos.

0.400240 0.478631 0.593213 67 Priv 0.408457 0.498599 0.636957 53 Pbl

Solucin

F-Test (normal distribution) Test Statistic: 1.085 P-Value : 0.748

Este es un problema de comparacin de varianzas.

Por la pregunta deducimos que el rendimiento ser idntico o mejor : Homogneo si el cociente de la variabilidad del rendimiento en cada tipo de colegio es aproximadamente igual a 1.

Levene's Test (any continuous distribution)

En Minitab debemos usaremos la opcin <ANOVA> del comando <Stat>.

< Stat > - < Anova > - < Homogeneity of Variance >. A continuacin debemos completar los datos en la siguiente ventana:

En < Response > ingresaremos la variable Prom. Gral

En <Factors> ingresaremos la variable Colegio.

la misma muestra. Cada elemento de esta muestra genera dos resultados Xi e Yi. Se trata de probar si el rendimiento promedio de ambos tratamientos es la misma o medir su eficacia. Este tipo de problema es lo que constituye problemas de datos pareados y para el cual se puede realizar procesos de estimacin por intervalos o formular hiptesis a fin de verificar los resultados.

Definicin

Test Statistic: 0.664

Sea X1, X2, ..., Xn los resultados obtenidos en una muestra de tamao n, al evaluar sus elementos bajo alguna forma de experimento. Sea Y1, Y2, ..., Yn los resultados obtenidos luego de aplicar algn tratamiento a la misma muestra. Y supongamos que esta muestra ha sido extrada una poblacin N(P2 , V2).

P-Value

: 0.417

Puesto que el p value es mayor que 0.05 aceptamos la Hiptesis de igualdad de varianzas.

Sea (X, Y) una variable aleatoria muestral cuyos elementos se definen como pares ordenados de la forma (X1, Y1), (X2, Y2), ...., (Xn, Yn). Estas variables no son independientes. Veamos por qu: Si Xi representa el nivel de colesterol que tiene el i-simo paciente antes de suministrarle un medicamento, Yi representa el nivel de colesterol del mismo paciente despus de suministrarle dicho medicamento, sin duda, los resultados probablemente sean diferentes.

Las grficas que se muestran en la figura anterior contienen, aproximadamente, el mismo alargamiento en ambas cajas del boxplot.

Si definimos a D como funcin de dos variables aleatorias D = X Y, entonces D es una variable aleatoria poblacional, cuyos parmetros son

4. Muestreo y distribuciones muestrales (31)

PD = E(D) = E(X Y ) = PX - PY

16. Distribucin muestral de medias para datos pareados


VD = V(D) = V(XY) = V(X) + V(Y) 2Cov(X, Y) = V1 + V2 - 2Cov(X,Y)

donde Cov(X, Y) = E(XY) E(X)E(Y) = PXY - PX PY

Muchas veces cuando se realizan estudios de muestreo comparando promedios, se extraen muestras de la misma poblacin, y el tratamiento al que se les somete es el mismo que se les da a los que provienen de diferente poblacin. Sin embargo hay situaciones en los que el experimento consiste en evaluar el rendimiento de los elementos de una muestra bajo dos circunstancias diferentes. Por ejemplo, cuando a una muestra de n pacientes se les evala su nivel de colesterol antes de aplicarles algn medicamento y luego se vuelve a evaluarlos despus de la aplicacin del medicamento. Otro ejemplo: A un grupo de trabajadores de una empresa se les somete a dos mtodos de capacitacin para medir la eficacia de los dos mtodos. En ambos ejemplos se trata de

De manera que si en una muestra aleatoria de tamao n, definimos el estadstico varianza muestral son

, cuya media y

y tal que S t(n-1)

entonces su distribucin de probabilidad viene dada por El intervalo de confianza de (1 - D )x100% y los tres tipos de Prueba de Hiptesis se realizan utilizando el mismo procedimiento dado para la diferencia de medias muestrales.

4. Muestreo y distribuciones muestrales (32)


Datos pareados en minitab

El programa Minitab dispone de una opcin dentro del comando <Stat>, lo que se consigue usando la siguiente secuencia:

Y puesto que la poblacin de donde provienen es normal, por la Propiedad Reproductiva de la <Stat> - <<Basic Statistics > - <Paired t >

Normal,

Para la estimacin del Intervalo de Confianza y una Prueba de Hiptesis, debemos contemplar dos casos:

A continuacin se obtiene la siguiente ventana:

Caso I: Cuando el tamao de la muestra es suficientemente grande (n t 30)

Por el TLC usamos

tal que Z N(0, 1)

Caso II: Cuando el tamao de la muestra es pequeo (n < 30)

En este caso usamos la distribucin t de Student calculando

Aqu tambin se dispone de las opciones comunes a otras ventanas como el caso de la diferencia de medias.

differences. En <Opciones> deje como est. No hay cambios. Luego de esto se obtendr el siguiente resultado.

En cuanto a las ventana de <Optinos> se aprecia que es la misma que en el caso de las diferencia de medias.

Para obtener un intervalo confidencial y una prueba de hiptesis, se debe hacer clic en <Options> e introducir los datos como <Confidence level>, <Test mean> y <Alternative>, como se muestra en la ventana adjunta.

Ejemplo 9

En cierto Examen de Admisin tomada por el Departamento de Admisin de la Universidad Nacional de San Marcos se produjo un incidente que oblig a tomarse un nuevo examen a los mismos postulantes. Los resultados de ambas pruebas se encuentran en el archivo ReExam.Mtw. Se puede afirmar que los resultados obtenidos en el ambos exmenes no tuvieron diferencia significativa; es decir, los rendimientos promedio no difieren?

Puesto que el valor de p value es 0.000 y es menos que 0.05, entonces rechazamos la hiptesis nula y afirmamos que los rendimientos promedio son diferentes.

Solucin En la figura de la derecha se muestra la ubicacin de H0 : P1 - P2 = 0 y el intervalo de confianza del 95% que incluye el promedio muestral (en azul). Comprobndose tambin que hay diferencia significativa; lo que nos permite rechazar la hiptesis nula.

Como se trata de un problema de datos pareados, debemos formular la hiptesis como que la media de la diferencia es nula; es decir, no hay diferencia en el rendimiento de las dos pruebas. D = 1-2 = 0

Segn esto debemos probar

4. Muestreo y distribuciones muestrales (33)


Ejemplo 10

H0 : PD = 0 (No existe diferencia significativa en el rendimiento de las dos pruebas)

H1: PD z 0 (S existe diferencia significativa en el rendimiento de las dos pruebas)

En Minitab usaremos la siguiente secuencia:

A fin de medir el efecto de una campaa de ventas sobre artculos sobrantes, en toda la cadena de tiendas que ofrecen el mismo producto, el Gerente de Investigacin de mercado tom una muestra aleatoria de 13 pares de tiendas que se hicieron concordar segn el volumen semanal promedio de ventas. Una tienda de cada par (el grupo experimental) fue expuesta a la campaa de promocin, mientras que la otra no lo fue. Los siguientes datos muestran los resultados en un perodo semanal.

<Stat> - <Basic Statistics > - < Paired t ... >

Complete la ventana que se obtiene ingresando los datos que se requiere. En Samples in columns: First simple: Antes; Second simple: Despues. Haga clic en <Graph> y seleccione Histogram of

VENTAS(en miles) DE ARTICULOS SOBRANTES Paired T for Con promocin - Sin promocin

Tienda Con promocin Sin promocin Difference 13 3.654 3.186 13 59.19 19.49 5.41 0.884 13 62.85 20.03 5.55

Con promocin

Sin promocin

Mean

StDev

SE Mean

67.2

65.3

59.4

54.7

80.1

81.3

4 95% CI for mean difference: (1.729, 5.579)

47.6

39.8

97.8

92.5

T-Test of mean difference = 0 (vs < 0): T-Value = 4.14 P-Value = 0.999

38.4

37.9

57.3

52.4 Puesto que p value > 0.05 entonces se acepta la hiptesis nula en el sentido de que el rendimiento promedio obtenido en el segundo examen fue mayor que en el primero.

75.2

69.9

94.7

89.0

10

64.3

58.4

4. Muestreo y distribuciones muestrales (34)


17. Intervalo de confianza y prueba de hiptesis para la diferencia de proporciones
Para la diferencia de proporciones muestrales con tamaos n 1 y n2 , se tiene

11

31.7

33.0

12

49.3

41.7

13

54.0

53.6

Puede el Gerente de Investigacin llegar a la conclusin de que la promocin logr aumentar las ventas?

Solucin Donde la distribucin de probabilidades de la diferencia de proporciones muestrales dada por , viene

Los resultados se muestran a continuacin

Paired T-Test and Confidence Interval

Si los tamaos de muestra n1 y n2 son grandes debemos encontrar Zc tal que

tal que Zc N(0, 1)

Los tipos de prueba que se pueden plantear se muestra en la siguiente tabla

Caso I

Caso II

Caso III
Se usa la primera opcin si los datos se encuentran en dos columnas: -

> -

En la primera se encuentran los xitos y fracasos(recuerde que el problema de proporciones deriva de poblaciones binomiales y el muestreo realizado constituye n ensayos de Bernoulli) y, En la segunda se identifica al grupo que pertenece cada uno.

Si Zc < ZD; Rechazar H0

Rechazar H0 si Zc < ZD/2 o si Si Zc > Z1-D ; rechazar H0 Zc > t1-D/2 Se usa la segunda opcin cuando cada una de las muestras ocupan una columna diferente, en el cual se encuentran los xitos y fracasos.

Diferencia de proporciones en Minitab Se usa la tercera opcin cuando slo se posee resultados del muestreo y no los datos. Como cuando se dispone del tamao de cada muestra y el nmero de xitos dentro de ellas.

En Minitab existe tres formas diferentes de realizar una prueba de hiptesis para una diferencia de proporciones muestrales:

4. Muestreo y distribuciones muestrales (35)


Ejemplo 11
Con relacin a los datos de los ingresantes Ingre99.Mtw el Director del Departamento de Admisin afirma que no hay diferencia entre la proporcin de varones provenientes de colegios privados que aquellos que provienen de colegios pblicos.

Luego de usar la secuencia < Stat > - < Basic Statistics > - < 2 Proportions > obtenemos la siguiente ventana

Solucin

Luego de abrir la hoja Ingre99.mtw. La columna C2 contiene la variable Sexo y la columna C3 contiene la variable Colegio. Colegio Priv Pbl 20 53 0.377358 20 67 0.298507 X N Sample p

Sea S1 la proporcin de varones provenientes de colegios privados

Sea S2 la proporcin de varones provenientes de colegios pblicos Estimate for p(Priv) - p(Pbl): -0.0788510

Sea S1 - S2 la diferencia proporcional de varones de los colegios privados y pblicos

Deseamos encontrar el Intervalo de confianza del 95% para S1 - S2 y realizar una prueba de hiptesis del tipo

95% CI for p(Priv) - p(Pbl): (-0.249250, 0.0915484)

H0 : S1 = S2

Test for p (Priv) - p(Pbl) = 0 (vs not = 0): Z = -0.91 P-Value = 0.364

H1: S1 z S2 Observamos que = -0.0788510.

Despus de usar la secuencia El intervalo de confianza del 85% para S1 - S2 es (-0.249250, 0.0915484)

<Stat> - <Basic Statistics> - <2 Proportions >

Activamos al primera opcin: <Samples in one column>.

Puesto que el p-value es mayor que 0.05 entonces aceptamos la hiptesis nula; es decir, no existe suficiente evidencia para afirmar de que los porcentajes de colegios de procedencia de ingresantes varones sean diferentes.

En <Samples> ingresamos la columna C2 (Sexo) y en <Subbscripts> ingresamos C3(Colegio).

4. Muestreo y distribuciones muestrales (36)


Ejemplo 12

Haciendo clic en <Options> ingresamos 0.95 y seleccionamos <Not equal>. Luego <Ok> y <Ok>.

Los resultados se muestran a continuacin

Un economista al servicio de una agencia estatal, desea determinar si la frecuencia de desempleo en las grandes reas urbanas del estado es diferente. Tomando como base muestras aleatorias de tamao 500 en cada ciudad, dicho economista encuentra 35 personas desempleadas en la Ciudad A y 25 en la Ciudad B. Bajo las suposiciones adecuadas y, con un nivel de significacin del 5%, existe alguna razn para creer que las frecuencias de desempleo en las dos reas son diferentes?

Test and Confidence Interval for Two Proportions

Solucin

Success = M

De acuerdo a los datos del problema:

Ciudad A:

nA = 500; nro. de xitos = 35

Ciudad B:

nB

= 500; nro. de xitos = 25

El estudio de la Estadstica Inferencial no slo se ocupa de variables cuyo comportamiento est determinado por ciertos parmetros que la definen. Se ocupa tambin de variables cuya distribucin no es conocida, pero con las cuales se podra formular ciertas hiptesis que pueden ser validadas con ayuda de las distribuciones como la Distribucin Chi Cuadrado, que proporciona una colaboracin eficiente para estos temas. Por otro lado, no siempre el anlisis estadstico se realiza sobre datos cuantitativos, en muchos casos stos son de naturaleza cualitativa.

Sea H0 : No hay diferencia en la frecuencia de desempleo de las dos ciudades

La pruebas a realizarse son:

H0 : S1 = S2

H1: S1 z S2

Usando Mintab encontramos los siguientes resultados

El conjunto de estas variables se clasifican por categoras, cada una de las cuales pueden pertenecer a una determinada poblacin. Si bien el anlisis comparativo de dos poblaciones lo cubre la diferencia de medias o proporciones poblacionales, en este caso estamos hablando de una comparacin de ms de dos poblaciones. De manera que, an en el caso de que tuviramos variables con un determinado comportamiento, se trata de plantear comparaciones de mltiples variables cada una de las cuales podran tener una distribucin conocida: Se pueden realizar pruebas de Bondad de Ajuste para variables multinomiales, para variables normales o con una distribucin de Poisson. Tambin se puede probar la afirmacin de que un conjunto de datos se ajusta a una de estas distribuciones conocidas.

Test and Confidence Interval for Two Proportions

Sample

N Sample p

35

500 0.070000

Por ello estamos interesados en medir la independencia de estas variables categricas; se trata de analizar su homogeneidad o el tipo de ajuste que pudieran tener. Esto significa realizar prueba de hiptesis para la independencia de variables, para la homogeneidad de las mismas o, probar la bondad de su ajuste hacia alguna distribucin conocida.

25

500 0.050000 Por otro lado, desde el punto de vista de la estadstica, luego de conocer el valor del estadstico en una muestra, interesa medir el desvo que presentan respecto de su valor esperado; es decir, interesa medir, por ejemplo , en el caso de la media. Y como esta diferencia puede ser

Estimate for p(1) - p(2): 0.02

95% CI for p(1) - p(2): (-0.00941252, 0.0494125) cero (como en este), es ms importante analizar errores en la estimacin del parmetro. que constituye la suma de los

Test for p(1) - p(2) = 0 (vs not = 0): Z = 1.33 P-Value = 0.183

Puesto que el p-value es mayor que 0.05 concluimos que no hay evidencia suficiente para rechazar la hiptesis nula planteada, por lo que deberemos aceptarla como vlida.

La distribucin Chi Cuadrado ser un instrumento que nos permitir evaluar este tipo de comparaciones y determinar la aceptacin o rechazo de las hiptesis de igualdad, como lo veremos en las siguientes secciones. En este captulo desarrollaremos los siguientes temas:

5. Anlisis de datos categricos (1)

1. Pruebas de Bondad de Ajuste

Usaremos la prueba de hiptesis para responder a esta pregunta.

2. Pruebas de Independencia: Tablas de Contingencia Sea H0 : La proporcin de xitos en la muestra coincide con la probabilidad de xito.

3. Anlisis de Varianza (ANOVA)

5. Anlisis de datos categricos (2)


Para ello, supongamos que

Podemos probar la Hiptesis Nula con un nivel de significacin de 100(1- D)%.

1. Pruebas de Bondad de Ajuste

Fundamento: H0 : pXi = pi para i = 1, 2, ..., k H1 : pXi z pi para i = 1, 2, ..., k

Sea X1, X2, ..., Xk un conjunto de categoras mutuamente excluyentes extradas de una poblacin(puede ser Binomial, Normal o Poisson, Exponencial, etc.). Para aceptar o rechazar la hiptesis nula primero debemos realizar los clculos a partir de un conjunto de datos Xi.

Supongamos que pi: representa la probabilidad de ocurrencia de un elemento cualquiera de la poblacin (llmese Binomial, Poisson o Normal, etc.) Procedimiento:

Supongamos tambin que pXi : representa la probabilidad de ocurrencia de X i , en la i - sima categora, para i = 1, 2, ..., k

Debemos obtener la Frecuencia Observada, Oi para cada categora (Xi)

Los pXi representan tambin la frecuencia relativa para cada X i

A continuacin se deber obtener una columna para la Frecuencia Esperada, tomando en cuenta el tipo de poblacin de la cual se ha extrado la muestra:

Podramos afirmar si la probabilidad de ocurrencia de un valor de la variable poblacional es la misma que la probabilidad de ocurrencia del mismo valor en una variable muestral?

Si fuera binomial, la Frecuencia Esperada para la i-sima categora ser Ei = npi. Si la poblacin fuera Normal, Ei = Pi. Si la poblacin es Poisson, entonces Ei = O i.

Si esto fuera cierto y, si la respuesta es positiva para cada uno de las categoras, entonces diramos que el comportamiento de los datos en la muestra se ajustan a la distribucin seleccionada en la hiptesis y que gozan de su comportamiento.

Luego en las dos columnas siguientes debemos obtener la diferencia (frecuencia observada menos frecuencia esperada, Oi - Ei) y los cuadrados de la misma.

Ahora bien, qu tan bueno puede ser dicho ajuste?

La suma de ellos se deber comparar con el valor Chi Cuadrado con k 1 grados de libertad que nos entregue el Minitab, donde k representa el nmero de categoras.

Si el nmero de observaciones para una determinada categora fuese menor a 5, se procede a fusionar con la categora contigua.

5. Anlisis de datos categricos (3)


> (k-1)

Se rechazar la Hiptesis Nula si

Ejemplo 1

En consecuencia, se trata de completar la siguiente tabla:

En un estudio de Anlisis de Mercado realizado por Compaa de Investigacin de Mercado(CIM), se observa que la participacin de tres empresas competidoras era del 30% de la Compaa A, 50% de la Compaa B y 20% de la Compaa C. Si la Compaa C introdujo un nuevo producto de Calidad Extra Blanca , se producir una modificacin en el comportamiento del mercado?; es decir, se modificar la participacin de cada una de las empresas competidoras en el mercado?

Categora Frecuencia observada(Oi) (Oi Ei) Solucin (Oi Ei)/Ei

Frecuencia esperada(Ei)

X1

O1

E1 Para tratar de responder a esta pregunta, CIM llev a cabo una encuesta practicada a 200 clientes a fin de averiguar sobre su preferencia de compra en las tres compaas.

X2

O2

E2

...

... La encuesta arroj los siguientes resultados:

Xk

Ok

Ek

Total

48 indicaron que prefieren el producto de la Compaa A; 98 indicaron que prefieren el producto de la Compaa B y 54 indicaron que prefieren el producto de la Compaa C.

El valor de

>=

ser contrastado con el

(k-1- r) de la tabla

En base a estos resultados, CIM decidi realizar una Prueba de Bondad de Ajuste tomando en cuenta los siguientes criterios:

Donde r representa el nmero de parmetros a estimar. La poblacin de inters: Puesto que el muestreo realizado a cada compaa constituye un experimento binomial, el conjunto constituye una Poblacin multinomial

Nota: Sea pA: La probabilidad de que un cliente consuma el producto de la Compaa A

pB: La probabilidad de que un cliente consuma el producto de la Compaa B

En <Input constant> 0.95

pC: La probabilidad de que un cliente consuma el producto de la Compaa C Obtenemos

CIM decide fijar como Hiptesis de trabajo lo siguiente:

Puesto que 7.34 es mayor que el valor de la tabla, diremos que s existe suficiente evidencia para afirmar que el cambio efectuado por la Compaa C modificar la participacin de ellas en el mercado. En consecuencia, rechazamos la hiptesis nula.

H0 : La participacin de cada compaa no sufrir ningn cambio y

5. Anlisis de datos categricos (4)


En Minitab

H1 : La participacin de cada una sufrir cambios.

Esto nos lleva a plantear la siguiente prueba, con el 95% de nivel de confianza:

La versin 15 dispone de muchas opciones que no se tena en las versiones anteriores. Esta es una de ellas. En la columna C1 digite las proporciones: 0.30, 0.50, 0.20 En la columna C2 digite las observaciones en la muestra: 48, 98, 54 Para realizar pruebas de Bondad de ajuste usaremos la secuencia: <Stat> - <Tables> - <Chi-Square goodness of fit test (one variable>

H0 : pA = 0.30; pB = 0.50; pC = 0.20

H1 : pA z 0.30; pB z 0.50; pC z 0.20

De acuerdo a los datos, podemos construir la siguiente tabla (Ei = np = 200(0.30)): Frecuencia esperada(Ei) (Oi Ei) 144 4 196 7.34 4.90 0.04 2.40 (Oi Ei)/Ei

Categora Proporcin de xito

Frecuencia observada(Oi)

Ca. A 100 40

0.30

48

60

Ca. B

0.50

98

Ca. C

0.20

54

Total

200

Luego

Sin embargo, sabemos que mediante la calculadora del comando <Calc>, podemos realizar cualquiera que sea el clculo que quisiramos; slo depende de nuestra habilidad.

Ahora el valor terico lo hallamos usando

<Calc> - <Probability Distributions> - <Chi Square> - <Inverse cumulative >

Grados de libertad: 3 1

Nota:

Pero antes de continuar, quisiramos decir algo respecto a la ayuda que en este punto nos proporciona el programa Excel.

Este programa puede usarse en muchos casos, para reemplazar el uso de una tabla estadstica; obteniendo como ventaja, la emisin del p value, al cual nos hemos acostumbrado en Minitab. En cualquier celda digite: =DISTR.CHI(7.34,2) . P(X 7.34) En este caso, Chi Cuadrado con 2 grados de libertad y el valor calculado = 7.34, devuelve un p value = 0.02547647.

A continuacin ingrese los datos segn se muestra en la siguiente figura

Los resultados que se obtienen se observan a continuacin

Chart of Contribution to the Chi-Square Value by Category Puesto que p value es menor que 0.05, entonces rechazamos la Hiptesis Nula.

Chi-Square Goodness-of-Fit Test for Observed Counts in Variable: C2

5. Anlisis de datos categricos (5)


Ejemplo 2
Considere que la demanda semanal de un producto tiene una distribucin normal. Haga una prueba de bondad de ajuste con los siguientes datos, para probar esta hiptesis.

Historical to Chi-Sq

Test

Contribution

Category Observed 2.40 0.04 4.90

Counts Proportion Expected

48

0.3

0.3

60

98

0.5

0.5

100

Use D = 0.10.

54

0.2

0.2

40

18 20 25

20 24 25

22 26 28

27 27 26

22 25 28

25 19 24

22 21

27 25

25 26

24 25

26 31

23 29

N DF Chi-Sq P-Value

200 2

7.34

0.025 Solucin

El valor del Chi cuadrado calculado es el mismo. Usando pValue = 0.025 podemos concluir que, siendo menor que el nivel de significacin = 0.05, rechazamos Ho; es decir, s hay suficiente evidencia del cambio en las preferencias .

Debemos probar:

H0: La demanda semanal del producto tiene una distribucin normal

Descriptive Statistics: Demanda

H1: La demanda semanal del producto no tiene una distribucin normal Total Variable Count Demanda 30 24.500 3.014 Mean StDev Variance Minimum Maximum Range 9.086 18.000 31.000 13.000

Usando Minitab:

Usemos este programa de la siguiente manera:

Media Desviacin estndar Valor mnimo Valor mximo = 31 = 18 = 3.014

Vamos a clasificarlas a las 30 observaciones en un conjunto de k categoras, de manera que podamos tener O1, O2, ...., Ok observaciones; es decir, vamos a construir una tabla de frecuencias, donde las frecuencias absolutas ser los Oi, las pi ser las probabilidades de que un valor Xi est en un determinado intervalo; es decir, pi = P(LimSup) P(LimInf). Estas probabilidades las hallaremos usando la distribucin normal en el cual hemos estimado dos parmetros: la media con el promedio de la muestra y la varianza con la varianza de la muestra s. De esta forma, al buscar los grados de libertad, debemos usar k-1-2 por ser dos los parmetros que se estimaron.

= 24.5

Ancho o Amplitud de intervalo = 13/8 = 1.625

Procedimiento:

5. Anlisis de datos categricos (6)


Paso 3: Obtencin de las marcas de clase (Xi) (columna C5) que constituyen las observaciones en datos agrupados: Oi : Tabulamos, simplemente. En todo caso, use el procedimiento dado al final del captulo II, siga paso a paso y con cuidado. Al editar la escala X debe ingresar segn se indica en la siguiente figura de la izquierda:

Para ello usaremos datos agrupados de manera que k representar el nmero de intervalos. Puesto que tenemos 30 observaciones, hagamos que k = 8.

Los siguientes pasos nos permitirn la tabla anterior

Paso 1: Ingresamos los datos en la columna C1.

Paso 2: Obtencin de Estadsticas Descriptiva de los datos observados:

<Stat> - <Basic statistics> - <Display Descriptive statistics> - C1 - <Ok>

Los resultados son los siguientes:

Paso 10: Suma de estos valores: Sum(C11) = 6.5307

Usando el botn derecho sobre una barra agregue etiquetas. El resto es sencillo para obtener la tabla de frecuencias. Paso 11: El valor de Chi Cuadrado con 7 grados de libertad y 10% de nivel: 9.23636

La imagen de la derecha muestra lo que se debe obtener:

Puesto que

< (5) ; es decir, 6.5307 < 9.23636 (no es mayor que el valor terico) concluimos que hay suficiente evidencia para afirmar que la demanda semanal de dicho producto tiene una distribucin normal (no se rechaza la hiptesis nula).

Paso 4: Obtencin de las probabilidades para las columnas Lim. Inf. (C3) y Lim. Sup.(C4). Para ello usamos: A continuacin mostramos la tabla obtenida:

i) <Calc> - <Probability distributions> - <Normal> - <Cumulative Probability > - <Mean> 24.5 <Std.Desviation> 3.014 -<Input column > C3 - <Storage > C6 - <Ok> C3 I Linf Lsup C4 C5 Xi 2 3 3 4 22.875 24.500 4 5 24.500 26.125 11 6 26.125 27.750 7 27.750 29.375 8 29.375 31.000 3 3 1

C6 P(Linf) 0.016 0.053 0.140 0.295 0.500 0.705 0.860 0.947

C7 P(Lsup) 0.053 0.140 0.295 0.500 0.705 0.860 0.947 0.984

C8

C9 C10 P(X=xi) 0.037 0.088 0.154 0.205 0.205 0.154 0.088 0.037 Oi 2 3 3 4 Ei

C11 (Oi - Ei )/Ei 1.121 2.627 4.633 6.153 11 6.153 3 4.633 3 2.627 1 1.121 0.689 0.053 0.576 0.754 3.818 0.576 0.053 0.013

ii) <Calc> - <Probability distributions> - <Normal> - <Cumulative Probability > - <Mean> 24.5 <Std.Desviation> 3.014 -<Input column > C4 - <Storage > C7 - <Ok>

1 18.000 19.625 2 19.625 21.250 3 21.250 22.875

Paso 5: Obtencin de la columna C8(P(X = xi): <Calc> - <Calculator> - <Store result in variable> C8 - <Expressions> C7 C6

Paso 6: La columna C9 es una copia de la columna C5 que son los Oi.

Paso 7: Obtencin de la columna C10 (Ei):

Usamos la calculadora para ingresar la expresin Sum(C9)*C8

La siguiente grfica prueba la afirmacin planteada como hiptesis nula. Y como bien, concluimos: Hay evidencia.

Paso 9: Obtencin de la columna C11: (Oi-Ei)/Ei:

Usamos la calculadora para ingresar la expresin (Oi-ei)**2/ei

H0 : Los datos tienen una distribucin exponencial H1 : Los datos no tienen distribucin exponencial

Paso 1: Ingresamos los datos en la columna C1

Paso 2: Obtencin de las estadsticas:

<Stat> - <Basic Statistics> - <Display descriptive statisctics> - <Ok>

5. Anlisis de datos categricos (7)

Ejemplo 3

As hallamos el promedio de la muestra = 0.954, lo que nos permite encontrar el parmetro D = 1/0.954 = 1.048218 (recuerde que estamos estimando un parmetro, por lo que los grados de libertad ser: n-1-k = 50-1-1

Contrastar la Hiptesis de que las 50 observaciones que se dan en la siguiente tabla, forman una muestra aleatoria seleccionada de una poblacin exponencial.

Paso 3: Obtencin de la distribucin de probabilidad

0.91 1.62 1.16 0.61 0.76 0.05 1.53 1.86 1.28 0.31 0.22 0.37 0.06 0.22 0.91 0.04 1.41 0.56 0.53 0.50 0.24

1.22

1.28

0.02

2.33

0.90

0.86

1.45

1.22

0.55

<Calc>- <Probability distribution> - <Exponential> - Activamos <Probability density>. <Mean > = 0.954 <Input column > C1. Haremos que C7 contenga p(x)

0.16

2.02

1.59

1.73

0.49

1.28

0.06

0.19

0.29

0.74

3.65

3.41

0.07

0.51

1.27

Paso 4: Usando la calculadora: <Calc > - < Calculator> obtenemos los siguientes clculos, para cada una de las columnas indicadas.

1.75

0.89

0.79

1.28

0.57

Solucin

Para C2: Para C3: Para C4: Para C5: Para C6:

SUM(C1)*C7 50*C7 C2 C3 C4*C4/C3 SUM(C4) Esta es la columna de los (Oi Ei) .


2

Como en el caso anterior,

Probaremos

Obtenemos como

= 2.57437

Paso 5: Usamos la secuencia:

<Calc> - <Probability distributions> - <Chi-Square> . Ingresando en grados de libertad: k 1 = 49 y en <Input constant> ingresamos 0.95 que representa el nivel de confianza.

Al estudiar la diferencia entre los parmetros poblacionales a travs de la diferencia muestral de los estadsticos muestrales correspondientes, lo que hemos hecho es realizar un anlisis comparativo de dos variables: X: Observaciones provenientes de la primera poblacin, e Y: Observaciones provenientes de la segunda poblacin.

Finalmente encontramos los siguientes resultados:

Y al plantear la Hiptesis Nula de la igualdad de dichos parmetros, lo que hemos hecho es afirmar que dichos parmetros tienen el mismo comportamiento o que no existe suficiente evidencia para afirmar que difieren, versus la Hiptesis Alternativa que la niega.

Exponential with mean = 0.954 Queremos ahora generalizar este tipo de comparaciones para ms de dos poblaciones.

P( X <= x )

0.95 2.85793

Pero a diferencia de probar el mismo comportamiento entre dos poblaciones, trataremos de probar hiptesis de independencia en el comportamiento de las mismas, versus la hiptesis alternativa que afirma la dependencia entre el comportamiento de las poblaciones.

Como

no es mayor que

(48),

Veamos el siguiente problema:

no rechazamos la afirmacin de que provengan de una poblacin exponencial. Esto se puede comprobar observando la siguiente figura cuya grfica de la izquierda corresponde a los datos y el de la derecha a una exponencial con media 0.954.

Ejemplo 4
La empresa Limpia Ya S.A. comercializa tres tipos de detergentes A, B y C. En un anlisis de segmentacin de mercado para los tres productos, el grupo de investigacin encargado ha planteado la duda de si las preferencias para los tres detergentes son diferentes entre los consumidores de los sectores Alto, Medio y Bajo. Si la preferencia de los detergentes fuera independiente del sector consumidor, se iniciara una nica campaa de publicidad para los tres productos; sin embargo, si la preferencia depende del sector de consumo, se ajustarn las promociones para tener en cuenta los distintos mercados de venta.

De manera que las hiptesis a plantearse sern:

5. Anlisis de datos categricos (8)

H0: La preferencia de detergente es independiente del sector de consumo H1: La preferencia de detergente no es independiente del sector de consumo

2. Prueba de Independencia: Tablas de contingencia

Despus de identificar a la poblacin y sectores consumidores, se puede tomar una muestra y preguntar a cada elemento de la muestra sobre su preferencia entre los tres tipos de detergentes. Medio Sexo Bajo 15 12 12 21 16 8 45 39

Alto

14

12

10

36

El conjunto de datos definido como observaciones corresponder a un determinado detergente, consumido por un determinado sector. Total 50 40 30 n= 120

Esto nos lleva a conformar todas las posibles combinaciones o contingencias a las cuales llamaremos Tabla de Contingencias.

5. Anlisis de datos categricos (9)


Si pudiramos obtener las frecuencias esperadas bajo la hiptesis de independencia entre la preferencia de los detergentes y el sector del consumidor, podramos usar la distribucin Chi Cuadrado para determinar si existe una diferencia significativa entre las frecuencias observadas y esperadas, como lo vimos en bondad de ajuste.

De manera que una prueba de independencia utiliza como formato de trabajo una tabla de contingencias.

Por esta razn este tipo de prueba recibe el nombre de Pruebas de Tabla de Contingencias o prueba con tabla de contingencias.

Para encontrar las frecuencias esperadas haremos uso del siguiente razonamiento:

El formato de la tabla se muestra a continuacin:

Si es cierto que la preferencia de los detergentes y el consumo por sector son independientes entonces la proporcin de consumo por detergente debe se igual entre los tres sectores. Detergente C O13 O23 O33 O.3 O.2 En otras palabras, la proporcin de consumo por detergente es 50/120, 40/120 y 30/120. O.1 Total Por ello, bajo la hiptesis de independencia, esperaramos que el total de los consumidores por sector estaran afectados por esta proporcin.

Detergente A O12 O22 O32

Detergente B

Alto

O11

Medio

O21

Sexo

Bajo

O31

Total

O1.

O2.

O3.

Luego el nmero esperado de consumidores por sector ser 36(50/120), 45(40/120) y 39(30/120).

Supongamos que se tom una muestra de 120 consumidores. Despus de usar los tres tipos de detergentes, se les pide manifestar su preferencia. Los resultados de la muestra se presentan en la siguiente tabla:

Todo esto se muestra en la siguiente tabla:

Producto Detergente B Detergente C Total

Producto Detergente A Detergente B Detergente C Total

Detergente A

Alto Alto Medio Sexo Total 40 30 n= 120 50 40 30 Bajo 0.096 0.077 0.519 39 120 0.270 0.067 0.939 45 0.067 0.000 0.111 36 15 13 9.75 39 11.25 45

15

12

36

Medio

18.75

Sexo

Bajo

16.25

Total

50

Luego

= 2.146.

En consecuencia, hemos usado la siguiente frmula Usando Minitab encontramos el valor de (4) = 9.4877

Puesto que

<

(4)

Lo que falta ahora es repetir lo que hicimos en Bondad de Ajuste por Chi Cuadrado. Es decir obtener la suma de los cuadrados de las diferencias entre las frecuencias observadas y esperadas, dividido por las frecuencias esperadas. Slo que en este caso, la suma es con doble sumatoria, como aqu se indica,

Entonces, podemos afirmar que existe evidencia para sospechar que la preferencia por los detergentes es independiente del sector al que pertenece el consumidor.

5. Anlisis de datos categricos (10)


Solucin por Minitab:

tal que

El programa Minitab permite resolver problemas de contingencia usando Pruebas de Asociacin de variables por Chi Cuadrado

donde k es el nmero de categoras(filas) y m es el nmero de contingencias (columnas) existentes en la muestra.

Los test de Chi Cuadrado permite probar si las probabilidades de clasificacin de una variable dependen de la clasificacin de otra variable.

El siguiente cuadro nos muestra la suma de los cuadrados mencionados lneas arriba.

Producto Detergente B Detergente C Total

Detergente A

Paso 2: Usar la secuencia:

< Stat > - < Tables > - < Chi Square Test >.

En siguiente ventana se debe ingresar la lista de las columnas que contienen las contingencias.

La siguiente figura(izuierda) muestra la secuencia que debemos usar para usar esta opcin de <Stat>. Aplicacin para el ejemplo propuesto:

Paso 3: Finalmente hacemos clic en < Ok >.

De manera que usando <Stat> - <Table> - <Chi Square Test ...> pasamos a la siguiente ventana, que se muestra en la figura de la derecha.

El mismo ejemplo lo hemos resuelto por Minitab, obteniendo los siguientes resultados

All se debe ingresar las columnas de los datos que, para nuestro ejemplo corresponden a los tipos de detergentes, que corresponden a las contingencias.

Chi-Square Test

Expected counts are printed below observed counts

Cada fila har referencia a cada una de las categoras.

Procedimiento:

La solucin de este tipo de problema en Minitab es muy sencillo:

Paso 1: Ingresamos los datos:

Cada categora en una fila;

Chi-Sq = 0.067 + 0.000 + 0.111 + 0.270 + 0.067 + 0.939 + 0.096 + 0.077 + 0.519 = 2.146 DF = 4, P-Value = 0.709

Cada contingencia en una columna.

Evitar el uso de columnas de totales marginales por fila o columna.

Siendo el p-value > 0.05, aceptamos la hiptesis nula, equivalente a nuestra conclusin usando el valor de Chi cuadrado = 2.146. Para usar el Minitab seguiremos los siguientes pasos:

NOTA:

Paso 1: Ingresamos los datos a la hoja de trabajo del Minitab definiendo a C1 como Da, C2 como Noche y C3 como Fin de Semana

Pero el Minitab tambin resuelve pruebas de independencia cuando los datos no estn tabulados, como se explica en el siguiente ejemplo <Stat> - <Tables> - <Chi Square test >

Paso 2: Usamos la siguiente secuencia:

5. Anlisis de datos categricos (11)

Ejemplo 5
En <Columns containing > ingresamos las tres columnas: Dia, Noche y Fin de Semana

El gerente de un centro comercial quera saber si hay diferencias en la proporcin de mujeres compradoras a diversas horas durante diversos das de la semana. Se seleccionaron muestras aleatorias de 300 clientes en el da, 300 en la noche y 400 compradores en los fines de semana; obtenindose los siguientes resultados: Luego <Ok>

Obteneidno los resultados son:

Dia

Noche

Fin de Semana

Hombres

90

125

185 Chi-Square Test Expected counts are printed below observed counts

Mujeres

210

175

215

Con un nivel de significacin del 5%, hay una diferencia en la proporcin de clientes en los diversos das y horas de la semana? 1

Dia 90 120.00 120.00

Noche 125 185

Fin de S 400 160.00

Total

Solucin

De acuerdo a los datos las hiptesis a plantearse son:

210 180.00

175 180.00

215 240.00

600

H0: No hay diferencia de eleccin del momento de compra Total 300 300 400 1000

H1: S hay diferencia de eleccin del momento de compra

Chi-Sq = 7.500 + 0.208 + 3.906 +

Realizar esta prueba en Minitab es la misma que hicimos para independencia en una tabla de contingencia.

5.000 + 0.139 + 2.604 = 19.358

DF = 2, P-Value = 0.000

5. Anlisis de datos categricos (12)


Ejemplo 6
Una compaa deseaba saber si sus obreros, sus empleados de oficina, sus empleados de ventas y sus otros empleados, se diferenciaban en cuanto a su opinin acerca de continuar laborando en la compaa, luego de una obligada reduccin de sueldos y salarios. Se tom una muestra aleatoria de cada uno de los cuatro grupos (poblaciones) y a cada uno se les solicit que diera su opinin sobre si continuara en la compaa o no. Las respuestas que se obtuvieron se encuentran en la siguiente tabla.

Puesto que el p-value es menor que 0.05, diremos que se rechaza la hiptesis de que no hay diferencia; es decir, existe evidencia de que las preferencia de compra difiere sobre el da y hora de compra.

Esto lo confirmamos con el valor de Chi-cuadrado calculado que es 19.358 vs el que encontramos usando

<Calc> - <Probability distributions> - <Chi Square> - <Inverse cumulative probability>

Con 2 grados de libertad Empleados Opinin Mayor que el promedio Menor que el promedio Total Obreros 68 57 125 De Oficina 45 30 75 Vendedores 70 30 100 Otros 60 15 75 243 132 375 Total

En <Input constant> de 95%

Encontramos 5.9915.

NOTA: SOBRE HOMOGENEIDAD

Debemos probar la Hiptesis:

Realizar pruebas de independencia sobre una tabla de contingencia tambin resuelve otro tipo de preocupacin que tienen los investigadores sociales o estadsticos: El de la homogeneidad de los datos. Es lgico suponer que, si los datos obtenidos en la muestra, y organizados por diversas categoras, provienen de la misma poblacin, probablemente presenten una cierta homogeneidad en trminos de su dispersin. En el ejemplo anterior podramos preguntar si los resultados estadsticos obtenidos para los hombres tienen el mismo comportamiento que el de las mujeres.

H0: La opinin de los trabajadores de la empresa es la misma en todos ellos. H1: La opinin de los trabajadores de la empresa es diferente.

Segn esto, la Hiptesis Nula debiera plantearse como: La preferencia por el momento de compra es igual en mujeres que en hombres. De manera que la s hiptesis a plantearse sern:

Luego de ingresar los datos, excepto las columnas de totales, usamos la siguiente secuencia:

H0: La preferencia por el momento de compra es igual en mujeres que en hombres

<Stat> - <Tables> - <Chi Square Test>

H1: La preferencia del momento de compra difiere entre compradores hombres y mujeres. Ingresamos las tres columnas y obtenemos los mismos resultados del ejemplo anterior:

Esto quiere decir que P1 = P2 = P3 .

Lo que nos lleva a rechazar la hiptesis de una opinin homognea entre los trabajadores. Para ello probar esta hiptesis los resultados del muestreo nos permitir formular la hiptesis alternativa en la que se afirme que dichos promedios son diferentes, con (1-D)100% de confianza.

5. Anlisis de datos categricos (13)


Por lo expuesto, debemos realizar la siguiente prueba:

3. Anlisis de la varianza

H0: P1 = P2 = P3 H1: Hay diferencia por lo menos en un par de calificaciones promedio

Si bien la distribucin muestral de la diferencia de medias muestrales permite realizar una comparacin entre dos poblaciones, cuando se trata de ms de dos poblaciones el procedimiento estudiado no lo permite. Y en la prctica hay muchas situaciones en las que debemos realizar comparaciones de medias entre ms de dos poblaciones.

Matemticamente el anlisis de la varianza se fundamenta en la demostracin por el absurdo:

Para resolver estos tipos de problemas usaremos el Anlisis de Varianza Puesto que queremos probar la igualdad de las medias, tomaremos como verdadera la hiptesis alternativa; es decir, que hay diferencia entre ellas.

El Anlisis de Varianza (ANOVA) permite estudiar la relacin de dependencia que puede existir entre un conjunto de variables independientes a las cuales se denominan Tratamientos o variables explicativas y una variable dependiente llamada tambin variable explicada o variables de respuesta.

Si esto es cierto, entonces mediremos el desvo o error de medicin entre las medias muestrales (entre tratamientos) y el promedio de las medias muestrales.

En este sentido un ANOVA se comporta como un anlisis de regresin excepto que un Anlisis de Varianza no supone dependencia y la prueba puede llevarse a cabo sobre variables de diferentes categoras, tanto cuantitativas como cualitativas.

Del mismo modo evaluaremos la variabilidad dentro de cada poblacin ( dentro de tratamientos) tomando en cuenta el error o desvo entre la media muestral y su promedio, en cada poblacin.

Fundamentacin:

Si la suma de estos cuadrados medios es bastante grande estaremos en posibilidad de rechazar la hiptesis nula.

Supongamos que P1, P2 y P3 representan las calificaciones medias de tres poblaciones que poseen determinada caracterstica sujeta a estudio.

Para ello el Anlisis de Varianza requiere de tres supuestos:

Supongamos que la hiptesis de estudio consiste en afirmar que el comportamiento promedio en las tres poblaciones es la misma.

1. Para cada poblacin, la variable respuesta (el dato observado, variable dependiente) tiene una distribucin normal.

2. La varianza de la variable respuesta V es la misma para todas las muestras

Del mismo modo, calculemos la Suma de los Cuadrados dentro de los Tratamientos (SSE) :

3. Las observaciones deben ser independientes

De manera que si

Xij

: Es la i-sima observacin, correspondiente al j-simo tratamiento

Que nos permitir calcular el Cuadrado Medio debido al Error

Pj

: Es la media de la j-sima poblacin

5. Anlisis de datos categricos (14)


Ejemplo 7

: Es la media muestral de la j-sima muestra(tratamiento)

: Es la varianza muestral del j-simo tratamiento

: Es la media muestral de las medias muestrales

Supongamos que la Binarios PC S.A. se dedica a ensamblar equipos informticos en tres plantas ubicadas en Lima, Chiclayo y Arequipa. Puesto que esta empresa debe competir con un mercado que se satura muy rpidamente con otros compatibles, la gerencia de investigacin de mercado ha recibido el encargo de evaluar la calidad de sus productos a travs de la opinin de sus clientes ms representativos. Para ello se han diseado encuesta que incluye 100 preguntas respecto de opinin a favor o en contra referido a una serie de caractersticas de los equipos. Para ello se someti a la prueba a 6 clientes de cada una de las ciudades de ensamble.

n = n 1 + n 2 + ... + n k

donde k: Total de tratamientos ( k muestras)

Solucin

De acuerdo a los datos, debemos realizar la siguiente prueba:

Calculemos ahora la Suma de los Cuadrados entre los Tratamientos (SSTR) : H0: P1 = P2 = P3 No hay diferencia significativa en el promedio de las calificaciones H1: Hay diferencia por lo menos entre un par de promedio de las calificaciones

, La siguiente tabla muestra los resultados obtenidos del muestreo as como algunas estadsticas obtenidas a partir de <Stat> - <Basic statistics> - <Display descriptive ....>

Que nos permitir calcular el Cuadrado Medio entre Tratamientos Cliente Lima Arequipa Chiclayo

1 75 73 84 75 79 Para el ejemplo: Fc = 28.0066 y F0.95 ( 2, 15 ) = 3.6823 Por consiguiente, rechazaremos la hiptesis nula si Fc > F1-D( k 1, n k ) es tal que Fc F( k 1, n k )

93

77

82

98

87

107

84

102

95

105

85

82

7 78 19.1844 4.38 ANOVA Con Minitab

85 En consecuencia, rechazamos la hiptesis de que la calificacin promedio sean iguales en las tres plantas.

Media

101

85

Varianza

31.4721

29.7025

Desv. estndar

5.61

5.45

5. Anlisis de datos categricos (15)

Para el caso de la empresa en estudio, tenemos:

El programa Minitab nos permite obtener los resultados del Anlisis de Varianza con bastante facilidad. Para ello dispone de las siguientes opciones

n1 = 5, n2 = 7, n3 = 6

;k=3 ,

con lo cual n = 18,

SSTR

5(101 87.11) + 7( 85 87.11) + 6(78 87.11) = 1493.7778

MSTR =

1493.7778/2

= 746.8889

SSE

(5-1)5.61 + (7-1)5.45 + (6-1)4.38

= 400.0254

MSE

400.0254/15 = 26.66836

Siguiendo con nuestro anlisis por el absurdo, si la hiptesis nula fuera verdadera, entonces MSTR y MSE constituiran dos estimadores insesgados e independientes de la varianza poblacional V .

De esta forma y por lo que ya sabemos, la variable

La primera opcin permite realizar un anlisis de varianza cuando los datos han sido ingresados en una sola columna y en una segunda se encuentran los subndices que distinguen entre los tratamientos o variables.

En este caso el Minitab permite seleccionar una tcnica determinada para realizar la prueba, como lo veremos ms adelante. H1: Hay diferencia entre alguna pareja de medias poblacionales

H0: P1 = P2 = P3 = ... = Pk (Todas las medias son iguales)

La segunda opcin es usada cuando cada una de las variables ha sido ingresada en columnas separadas. La tabla del ANOVA que se obtenga ser el siguiente:

La estructura de las siguientes tablas nos indica la forma cmo debe prepararse al usar ANOVA

Fuente variacin Entre grupos Dentro grupos Total n-1 de n-k SSE k-1 SSTR

de Grados libertad

de Suma de Cuadrados cuadrados medios MSTR MSE

MSTR / MSE

a) En el primer caso los datos deben tener la disposicin mostrada en la tabla de la derecha, mientras que en la segunda todas deben estar en columnas separadas (izquierda).

SST

Grpo 1 Grpo 2 X11 X12


X13

Grpo 3 1 1 En Minitab: SSTR = SS 1 1 2 2 2 K K

....... Grpo k Grupo Indice

X11

X21

x31

....... Xk1

X12

X22

X32

....... Xk2

MSTR = MS

X13

X23 ...... X1n1 X21 X22 X23 .. Xk2

X33

....... Xk3

...... Xknk

......

......

....... ......

Usemos la opcin <One Way (Unstacked)...>

X1n1

X2n2

X3n3

La secuencia de comandos ser:

< Stat > - < ANOVA > - < One - way (Unstacked) >

A continuacin se tendr la ventana que se muestra en la siguiente figura.

Las hiptesis a plantearse sern

En el recuadro <Responses> debemos ingresar todas las columnas que contienen los tratamientos o grupos. En el caso del ejemplo ingresamos C1 C3.

Luego

hacemos

clic

en

<Ok>

<Calc> - <Probabability distributions> - <F >

Los resultados se muestran a continuacin: con 2 grados de libertad en el numerador y 15 en el denominador, con un nivel de confianza del 95%, encontramos

One-way Analysis of Variance

5. Anlisis de datos categricos (16)


F0.95 ( 2, 15 ) = 3.6823 P Lo que nos permite llegar a la misma conclusin.

Analysis of Variance

Source

DF

SS

MS

Factor

1493.8

746.9

28.01

0.000 Apreciemos grficamente estos resultados:

Error

15

400.0

26.7

Total

17

1893.8

Individual 95% CIs For Mean

Based on Pooled StDev

Level (----*----)

Mean

StDev -------+---------+---------+---------

C1

101.00

5.61

C2

85.00

5.45

(---*---)

C3

78.00

4.38 (---*---)

-------+---------+---------+--------90 100

Pooled StDev =

5.16

80

Observe que tambin se muestra el Intervalo de Confianza para las medias las que, como se ve, no se superponen; es decir, no coinciden o no son iguales.

Para ello, en la ventana mencionada se debe activar la opcin <Graphs> y elegir, por ejemplo, <Box plot of data> en cuyo caso obtenemos el siguiente grfico: La posicin de la mediana respecto a la media sugiere una diferencia principalmente entre los tratamientos Lima y Chiclayo.

Puesto que el p-value es menor que 0.05, rechazamos la hiptesis nula. Uso de la primera opcin

Recordando la solucin dada anteriormente, en el cual se us el valor calculado de F, encontramos que Fc = 28.0066 y usando

Qu ocurre si la variable de respuesta se encuentra en una sola columna y en la siguiente se tiene la identificacin de los grupos o tratamientos?

5. Anlisis de datos categricos (17)


4. completamente aleatorizados Comparaciones mltiples: Caso diseo de experimentos

Antes de proceder al clculo, preparemos la data anterior de acuerdo a lo requerido:

Para colocar las tres variables en la columna C5 y los Id de los tratamientos en C6:

Trabajar con mltiples poblaciones comparando sus promedios poblacionales para estudiar su comportamiento, es una generalizacin del Anlisis de la Varianza para mltiples poblaciones.

<Manip> - < Stack/Unstack > - < Stack Columns >.

Pero visto cada muestra como un experimento, tenemos el caso especial de Diseo de Experimentos donde cada columna (variable poblacional) constituye una variable de respuesta o tratamiento y las filas, las observaciones encontradas para cada tratamiento de manera aleatoria.

En la opcin <Stack the following columns> ingresamos C1 C2 C3 ingresamos C5 Desde este punto de vista el estudio de comparaciones mltiples constituye una metodologa algo diferente, denominada Diseo de Experimentos completamente aleatorizados. ingresamos C6 Sin embargo el tema como tal, lo desarrollaremos en el siguiente captulo.

En la opcin < Store the stacked data in >

En la opcin < Store subscripts in >

Para obtener la tabla del ANOVA:

Aqu lo resolveremos aplicando la metodologa del ANOVA.

< Stat > - < ANOVA > - <One way > El procedimiento del ANOVA, visto anteriormente nos permite rechazar la hiptesis nula si se encuentra Pi z Pj para algn i z j .

En la opcin < Response > ingresamos C5

Pero, nada ms nos dice el ANOVA?

En la opcin < Factor >

ingresamos C6

Al activar la opcin <Graph> se dispone de varios tipos de grficos

En la seccin siguiente usaremos la opcin <Comparisons ...> que corresponde a

Supongamos por ejemplo que se trata de elaborar un determinado medicamento para ser suministrado a un conjunto de pacientes de una determinada clnica. Para ello se dispone de cuatro tipos de medicamentos. Si por otro lado, estamos interesados en reducir los costos de fabricacin, luego de encontrar diferencia en los efectos promedios, no sera de gran importancia detectar cul o cules de ellos difieren entre s?.

Se trata entonces de realizar mltiples comparaciones de pares de medias poblacionales mediante el anlisis del ANOVA.

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 48 47 47 57 45 50 52 47 47 51 45 47 50 47 44 41 51 42 45 50 49 55 47 39 51 45 49 45 49 49 44 45 51 42 47 45 43 45 46 43 47 49 47 48 47 57 49 55 48 48 44 48 54 54 44 48 40 38 40 44 48 49 54 51 37 39 51 45

42

44

42

44

De manera que en este caso supondremos que se trata de probar las hiptesis

H0: Pi = Pj para algn i z j

H1 : Pi z Pj para algn i z j

Esto nos recuerda la prueba de hiptesis de una diferencia de medias poblacionales, para las poblaciones i y j determinado.

De manera que segn sabemos, el estadstico que nos permitir aceptar o rechazar la hiptesis nula ser aquel que siga una distribucin t de Student con n k grados de libertad

con tc t(n k )

Por ello, si tc < tD/2 o tc > t1-D/2 entonces se rechazar la hiptesis nula.

5. Anlisis de datos categricos (18)

Ejemplo 8

Los resultados de investigacin de mercado realizado por la venta diaria de un nuevo producto en cuatro sectores diferentes, ha dado como resultado los datos que se muestran en la siguiente tabla. Al nivel de confianza del 95%, son significativos las diferencias en el volumen de venta diaria? Se puede realizar un anlisis comparativo entre el promedio de ventas de pares de sectores?

Solucin

Para resolver este problema usaremos la opcin:

Obrero Sec. A 47 42 47 48

Sec. B

Sec. C

Sec. D

<Stat> - <ANOVA> - <One Way ...>

46

46

38

42

Antes de resolver el problema, expliquemos la opcin <Comparisons> del anlisis One Way del ANOVA. A continuacin resolveremos el problema

5. Anlisis de datos categricos (19)


Coloque todas las columnas en una sola y los subndices en otra.

Para ello los datos deben estar en una columna.

Si la prueba de hiptesis realizada indica que se debe rechazar la afirmacin de que no hay diferencia significativa a nivel de las medias poblacionales, entonces debemos tratar de identificar cul es el par de medias (pueden ser varios pares) poblacionales que difieren sustancialmente, que ha hecho que rechacemos la hiptesis nula.

La secuencia: < Stat > < ANOVA > < One Way > muestra la siguiente ventana

Al seleccionar la opcin <Comparisons ...> obtenemos la ventana que tambin se muestra en la figura, superpuesta a la primera. All hemos elegido los dos primeros mtodos con una tasa del 5%.

El mtodo One Way del ANOVA nos permite realizar este anlisis.

Para ello el Minitab dispone de cuatro mtodos similares, diferencindose uno de otro en el objetivo de su anlisis inferencial deseado, y los criterios de comparacin. Todos ellos requieren de una tasa de error individual o grupal (familiar) lo que se mide por lo general en trminos porcentuales. El Minitab usa por omisin, el 5%.

Mtodo de Tukey: Junto con el de Fisher, es el ms usado. El chequeo lo realiza sobre el intervalo de confianza de pares de medias poblacionales usando una tasa de error grupal, por omisin, de 5%.

Mtodo de Fisher: Difiere del anterior en que usa, para lo mismo, una tasa de error individual, que por lo general es tambin de 5%.

Mtodo de Dunnett: Compara la diferencia entre la media de cada tratamiento y la media de control(media de medias muestrales) usando una tasa de error grupal.

Todos los resultados obtenidos se muestran a continuacin:

One-way Analysis of Variance Analysis of Variance for Tiempo Source Maquina Error 76 DF 3 SS 96.1 1361.7 MS 32.0 17.9 F 1.79 P 0.156

Mtodo Hsu MCB: Compara la diferencia entre el promedio de un determinado nivel y el mejor de los promedios de los otros niveles. Usa una tasa de error grupal del 5%.

Daremos solucin al ejemplo seleccionando los dos primeros mtodos que son los ms utilizados. Para ello supondremos una tasa de error del 5% (ingresado como 5).

Total

79

1457.9

Tukey's pairwise comparisons

Individual 95% CIs For Mean Family error rate = 0.0500 Individual error rate = 0.0103

Based on Pooled StDev

Level

Mean

StDev -+---------+---------+---------+-----

1 Critical value = 3.72

20

45.850 4.870 (--------*---------)

20

45.800 4.175 (--------*--------)

3 Intervals for (column level mean) - (row level mean)

20

46.500 3.954

(--------*---------)

20

48.500 3.859

(--------*---------)

-+---------+---------+---------+----48.0 50.0 1 2 3

Pooled StDev =

4.233

44.0

46.0

One-way Analysis of Variance 2 3.571 P 3 -4.171 2.871 -3.471

Analysis of Variance for Tiempo

Source

DF

SS

MS

Maquina

96.1

32.0

1.79

0.156

-4.221 2.821

Error

76

1361.7

17.9

Total

79

1457.9 4 -6.171 0.871 -6.221 0.821 -5.521 1.521 Fisher's pairwise comparisons

Individual 95% CIs For Mean

Based on Pooled StDev

Level N

Mean

StDev -+---------+---------+---------+-----

20

45.850

4.870 (--------*---------) Family error rate = 0.200 Individual error rate = 0.0500

20

45.800

4.175 (--------*--------)

20

46.500

3.954

(--------*---------)

20

48.500

3.859

(--------*---------) Critical value = 1.992 50.0 Intervals for (column level mean) - (row level mean)

-+---------+---------+---------+----48.0

Pooled StDev =

4.233

44.0

46.0

Por cada combinacin de grupos o tratamientos aparecen los lmites inferior y superior de los intervalos de confianza para la diferencia poblacional de las dos medias. Si los lmites de los intervalos de una pareja son de diferente signo entonces, los grupos o tratamientos son comparables, en caso contrario no lo son.

2 Para nuestro ejemplo:

-2.616

2.716

-3.316

-3.366

El Mtodo Tukey nos permite concluir que los promedios de ventas diarias en todos los sectores son comparables.

2.016

1.966 Mientras que el Mtodo de Fisher nos permite concluir que los promedios de venta diaria entre el sector 2 y el 4 no pueden ser comparados.

-5.316

-5.366

-4.666

0.016

-0.034

0.666

5. Anlisis de datos categricos (20)


Ejemplo 9
La clasificacin Global 1000 de la revista Business Week agrupa a las empresas con base en su valor de mercado (Business Week, 7 de Julio de 1997). La siguiente tabla muestra las relaciones PR (precio/rendimiento) para 29 empresas consideradas como el sector financiero. Una clave industrial 1 indica que se trata de una empresa bancaria, la clave 2, una de servicios financieros y la clave 3, una aseguradora. Al nivel de significacin del 5% pruebe si la media de la relacin precio a ganancias (P/E) es igual para los tres grupos de empresas.

El valor de Fc = 1.79 < 2.7249 = F0.95(3, 76) implica que no se rechaza la hiptesis nula; es decir que no existe diferencia significativa entre las medias poblacionales.

Del mismo modo, el p-value = 0.156 > 0.05; indican que no se rechaza la hiptesis nula; es decir, no hay diferencia significativa entre los promedios de ventas diaria de los cuatro sectores.

Veamos ahora el anlisis comparativo de pares de medias:

Empresa Citicorp Nations Bank Wells Fargo First Union Key Corp Chase Manhattan Fifth Third Corp

Clave 1 1 1 1 1 1 1

P/E 15 14 25 13 14 12 23

Un primer anlisis entre los intervalos que se muestra lnea arriba nos permiten deducir que no hay diferencia significativa entre los promedios (para que haya diferencia los intervalos no debieran tener ningn punto en comn).

Interpretacin:

Bank of New York 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 15 20 11 21 Analysis of Variance for P/E Source Clave Error Total DF 2 26 28 SS 23.8 410.4 434.2 Individual 95% CIs For Mean Based on Pooled StDev MS 11.9 15.8 F 0.75 P 0.481 13 12 16 20 Los resultados se muestran a continuacin 14 21 En < Graphs > seleccionamos Box Plot 17 22 En < Comparisions... > Seleccionamos los mtodos Tukey y Fisher 19 24 En < Factor > ingresamos C2 (Clave) 12 En < Response > ingresamos C3 (P/E) 15 19 < Stat > - < ANOVA > - < One Way > 16 15 16 13

17

Ante todo debemos ingresar los datos a una hoja de trabajo del Minitab en las columnas C1, C2 y C3, exactamente como lo tenemos en la tabla. Grabemos la hoja como BusWeek.mtw.

First Chicago NBD

Mellon Bank

Fleet Financial Group

Puesto que los datos estn convenientemente ingresados, procedemos a ejecutar la siguiente secuencia de comandos:

First Bank System

American Express

Travelers

Merrill Lynch

MBNA

Cincinnati Financial

Franklin Resources

Fannie Mae

American International Group

Allstate

Marsh & McLennan

American General

Cigna

5. Anlisis de datos categricos (21)


One-way Analysis of Variance

Lincoln National

AFLAC

Equitable

Chubb

General Re

Solucin

Level

Mean

StDev ------+---------+---------+---------+

Fisher's pairwise comparisons

1 Family error rate = 0.119 Individual error rate = 0.0500

12

16.083

3.988 (--------*---------)

18.286

4.071

(-----------*-----------)

10

16.300

3.889 (---------*----------)

------+---------+---------+---------+ 20.0 22.5 Critical value = 2.056

Pooled StDev =

3.973

15.0

17.5

A continuacin el anlisis de comparacin por los dos mtodos:

Intervals for (column level mean) - (row level mean)

Tukey's pairwise comparisons

Family error rate = 0.0500 1.683

-6.087

Individual error rate = 0.0199

Critical value = 3.51

-3.714 3.281

-2.040 6.011

Intervals for (column level mean) - (row level mean) Puesto que el p-value = 0.481 es mayor que 0.05, aceptamos la hiptesis nula; es decir, concluimos de que la relacin precio / ganancia es similar para todos los grupos.

Inverse Cumulative Distribution Function

-6.892

2.488 F distribution with 2 DF in numerator and 26 DF in denominator

-4.439

-2.874 P( X <= x) 0.9500 x 3.3690

4.006

6.845

Del mismo modo, podramos usar el valor del F calculado = 0.75 menor que 3.3690

De manera que podemos tener un conjunto de variables (tratamientos) categorizadas por el tipo de dolencia. Esto implica que los resultados del experimento pueden ser agrupados por bloques y dentro de ellos por tratamientos.

De esto es lo que se ocupa el Diseo de Experimentos.

En el presente captulo desarrollaremos los temas:

1. Diseo de Bloque aleatorizados 2. Clasificacin de dos variables con repeticin 3. Uso de la opcin ANOVA balanceado 4. Regresin Lineal 5. Inferencia y ANOVA en Regresin Lineal

Los intervalos de confianza con lmites de diferente signo tambin afirman lo mismo.

6. Minitab y el Diseo de Experimentos (1)

La inferencia estadstica tiene mtodos especiales para realizar estudios para cada tipo de dato.

Hay una diferencia sustancial entre lo que significa trabajar con datos provenientes de observaciones y aquellos que pueden ser obtenidos a travs de un proceso experimental.

En el caso de los datos provenientes de situaciones observacionales, el objetivo inicial es la obtencin de una muestra. A partir de ella, y con la ayuda de la estimacin, inferimos comportamientos poblacionales.

Los datos observacionales son extrados mediante la realizacin de un fenmeno sin que para ello el investigador haya influido en los elementos de la muestra. Mientras que los datos experimentales provienen de un tratamiento previo a la cual se le somete a un conjunto de elementos de la muestra, luego del cual se tomarn en cuenta sus resultados.

En el caso de los datos provenientes de situaciones experimentales, una vez determinado el objeto del estudio (variable de inters) se procede a controlar diversas reacciones de los elementos de la muestra. Estas reacciones constituyen los factores de estudio en la variable de inters.

6. Minitab y el Diseo de Experimentos (2)


Para determinar los tipos clsicos de DOE (Design Of Experiment) veamos los siguientes casos:

Los resultados obtenidos mediante la aplicacin de una encuesta constituyen datos observacionales. Los resultados obtenidos al realizar una prueba de orina a un conjunto de pacientes luego de someterlo a un determinado tratamiento, constituye datos experimentales. Este experimento se podra llevar a cabo en grupos de pacientes con diversas dolencias.

Caso 1:

Los auditores deben formarse un juicio acerca de varios aspectos de una auditora, con base a su experiencia directa y personal, en base a una experiencia indirecta, o a una combinacin de las dos. En un estudio se pidi a unos auditores que formaran su juicio sobre la frecuencia de errores que se pueden encontrar en una auditora.

En el segundo caso, adems de definir como tratamiento a cada uno de los procedimientos, es necesario distinguir los resultados tomando en cuenta las oficinas contables. En este caso las oficinas contables constituirn los factores o bloques en los cuales se divide cada uno de los tratamientos. Por esta razn debemos preguntarnos si la diferencia es significativa tanto entre los tratamientos as como dentro de los tratamientos.

Caso 2: En consecuencia podemos decir que dos ramas principales del Diseo de Experimentos, DOE son:

Se comparan cinco procedimientos de auditora en cuanto al tiempo total requerido para efectuar una. Estos procedimientos se realizan en cuatro oficinas contables diferentes. Diseo de Bloques Aleatorizados

Diseo de Experimentos aleatorizados o

Veamos otro ejemplo de los dos tipos de experimentos:

Caso 1

El DOE se ocupa de este tipo de problemas y de otros como el caso de los Experimentos Factoriales, los que no los desarrollaremos en el presente trabajo.

Una empresa consultora recibi el encargo de evaluar cuatro marcas de vehculos respecto al rendimiento de combustible en dicha zona geogrfica. En la tabla siguiente se presentan los resultados obtenidos, en kilmetros por galn. En el primer caso, todas las observaciones constituyen un nico factor, para cada tipo de tratamiento. Este es el caso que hemos contemplado hasta ahora a travs del mtodo deComparaciones Mltiples.

Caso 2

Como producto del buen trabajo realizado por la empresa consultora, se encarg realizar un estudio de preferencia por la marca de vehculo en cuatro regiones diferentes y orientado a tres sectores de consumidores.

6. Minitab y el Diseo de Experimentos (3)


1. Diseo de bloques aleatorizados

Problema:

Cuando en el primer caso los datos provienen de observaciones o experimentos de ms de un factor, ste puede influir en los resultados del anlisis. Por ejemplo, no es lo mismo comparar los promedios de las notas de los cursos de Estadstica, Clculo II y Mercadotecnia (Tratamientos), dictado en 12 secciones (datos), sin tomar en cuenta las facultades (factores) en las que se dictan.

Determinar si hay diferencia significativa entre los componentes Nuestro objetivo es tratar de controlar algunas variaciones provenientes de ciertas variables exgenas provenientes de las facultades. De esta forma reduciramos el valor de MSE con lo cual

Si en el primer caso definimos como tratamientos a la formacin de juicios: Experiencia directa, experiencia indirecta y de ambos, entonces en este caso se trata de comparar si hay diferencia entre tratamientos.

aumentara de valor, evitando de esta manera la aceptacin de la igualdad de medias en un anlisis comparativos de promedios.

Como se puede apreciar, podemos realizar, entre otros, un Anlisis de comparacin de medias, visto previamente; el ANOVA balanceado y el modelo lineal generalizado son procedimientos empleados en anlisis de datos con diversos tipos de experimentos.

6. Minitab y el Diseo de Experimentos (4)


Ejemplo terico

DISEO DE BLOQUES EN MINITAB

El programa Mintab para resolver este tipo de problema, dispone del ANOVA en su opcin TWO WAY, esto lo obtenemos siguiendo la siguiente secuencia:

Supongamos que se desea realizar un estudio sobre el consumo de combustible en Km/Gal, de 4 marcas de vehculos, tomando en cuenta los tres tipos de combustible.

<Stat> - <ANOVA> Esto nos permite obtener la lista de las diversas modalidades o tipos de problemas que podemos resolver tanto como simples problemas de anlisis de comparacin de medias, como diseo de experimentos complejos.

En este caso, la variable en estudio es el consumo de combustible. Y es el dato que se ha recogido en la muestra. Es esta la variable respuesta (Response); estos datos se agrupan en tres grupos (bloques) segn la marca de vehculo y los tratamientos est constituido por el tipo de combustible al cual se les somete a los vehculos.

En el tema de anlisis de varianza ya nos hemos ocupado de las opciones <One-Way> y <OneWay (no apilado)>.

Al ingresar por <Two-Way> obtendremos la ventana que se muestra en el lado derecho de la figura anterior.

En <Response> se deber ingresar la variable en estudio (Consumo).

En <Row Factor> se deber ingresar la columna que contiene los bloques o factores (Marca).

En <Column Factor> se deber ingresar la columna que define a los elementos que forman cada uno de los tratamientos; en el caso del ejemplo, los tipos de combustible.

La siguiente tabla muestra un conjunto de kr observaciones distribuidas en k grupos que conforman los tratamientos (ubicados por columna) y los cuales han sido agrupados en r tipos diferentes de categoras a los cuales los llamaremos Bloques o Factores.

En el presente caso haremos uso de <Two-Way>.

Grupo 1 ............ ............ ............. ............. ............... ............... ............... ............... ............ .......... Donde k representa el nmero de tratamientos, r representa el nmero de bloques.

Grupo 2

...........

Grupo k

Rechazaremos la hiptesis nula si Fc > F(k-1, (r-1)(k-1)

Bloque 1

Bloque 2

6. Minitab y el Diseo de Experimentos (5)


Ejemplo 1

......

...............

...............

Bloque r

Una firma contratista requiere de tres ingenieros civiles para realizar estimaciones de costos con la finalidad de participar en diversas subastas relativas a construccin. Para determinar si uno de ellos tiende a ser ms conservador(o liberal) que los otros, la firma contratista selecciona 4 proyectos de construccin y solicita a cada ingeniero que estime el costo de cada proyecto, independientemente uno de otro. Los datos se muestran a continuacin

Para ingresar estos datos al Minitab, se debe redisear la presentacin de la tabla de tal forma que se adecue a los requerimientos del Minitab, que consiste en:

Trabajo de construccin A 1 2 3 4 Total Medias 3500 3400 3100 3100 13100 3.275 B 3400 3400 3300 3400 13500 3.375

Ingeniero C 3600 3500 3200 3300 13600 3.400 Total 10500 10300 9600 9800 40200

Ingresar todos los datos en una sola columna.

En la siguiente columna, la secuencia de los bloques, que por lo general pueden estar identificados en secuencia, y

Finalmente en la tercera columna, una identificacin de los factores, los que tambin estarn representados por un identificador.

Las pruebas de hiptesis a plantearse son

Solucin

H0: Pi = Pj para algn i z j

Supongamos que Pi representa el promedio emitido por cada uno de los Ingenieros

H1 : Pi z Pj para algn i z j

Realizaremos la siguiente prueba de hiptesis:

H0: Pi = Pj para algn i z j

En la siguiente ventana ingresamos los datos como se muestra en la figura de la derecha

H1 : Pi z Pj para algn i z j

Rechazaremos la hiptesis nula si Fc > F(k-1, (r-1)(k-1)

Donde k representa el nmero de tratamientos, r representa el nmero de bloques.

Ingrese los datos a Minitab usando el siguiente procedimiento y grbelos como Anova3.mtw

En <Response> la columna C6 (Datos) En <Row factor > la columna C7 (Bloques) En <Column factor> la columna C8 (Tratamientos)

Paso 1: Damos nombre a las columnas: C1: Proyecto; C2: Ing. A; C3 Ing. B; y C4 Ing. C

6. Minitab y el Diseo de Experimentos (6)


Los resultados son los que se muestran a continuacin

Paso 2: En la columna C1, C2 y C3 ingresamos las columnas A, B y C.

Paso 3: Vamos a colocar las tres columnas en una sola.

Two-way Analysis of Variance

Esto lo hacemos usando <Data> - <Stack> - <Columns> C2 C4 Analysis of Variance for Datos Source Bloq Trat Error Total DF 3 2 6 11 SS 176667 35000 58333 270000 17500 9722 MS 58889 1.80 F 6.06 0.244 P 0.030

Vamos a colocarlos en la columna C6

Que el nombre de esta columna sea Datos

Paso 4: En la columna C7 ingresamos 1, 2, 3, 4 tres veces un bloque por cada Ingeniero. Que el nombre de esta columna sea Bloques.

Paso 5: En la columna C8 ingresamos 1s en todos los datos de A, 2s en todos los datos de B y 3s en los de C. Que esta columna se llame Tratamientos.

Paso 6: Usamos la siguiente secuencia de comandos:

Ahora, usando

<Stat> - <ANOVA> - <Two Way ..>

<Calc> - <Probability distributions> - <Inverse cumulative probability> En consecuencia rechazamos la hiptesis nula; es decir, s hay evidencia suficiente para afirmar que los costos emitidos por los ingenieros, por cada proyecto, difieren uno de otro.

obtenemos el valor de F(k-1, (r-1)(k-1) con el 95% de confianza,

6. Minitab y el Diseo de Experimentos (7)


Ejemplo 2
El departamento de calidad de una empresa fabricante de focos ahorradores desea verificar la bondad de su nueva tecnologa sometiendo a prueba los focos producidos en sus tres plantas A, B y C. Despus de recoger los tiempos de uso de cada uno de ellos, se obtuvo el siguiente cuadro:

que es igual a F0.95(3-1, (4-1)(3-1)) = 5.1433.

Como Fc = 1.8 < 5.1433 entonces concluimos que no hay evidencia suficiente para rechazar la hiptesis nula; es decir, no hay diferencia en la estimacin de los costos promedio realizados por los tres ingenieros.

Nota: 1 2 3 4 185 181 175 195

Filamentos 192 193 194 201

Pta. 1 Pta. 2 Pta. 3 192 194 199 199

El anlisis complementario que haremos a continuacin, ser reforzado en el siguiente ejemplo. Lo hacemos aqu aprovechando los resultados emitidos por el Minitab.

Sin embargo, si tomamos en cuenta una prueba dentro de los tratamientos; es decir, si Pi representa el promedio emitido por los Ingenieros por cada Proyecto, podemos plantear la siguiente prueba de hiptesis:

a) Proporcionan los datos suficiente evidencia que indique que las plantas producen la misma calidad de focos? b) Hay evidencia de que los cuatro tipos de filamentos tienen el mismo efecto sobre la duracin de los focos?

H0: Pi = Pj para algn i z j Solucin

H1 : Pi z Pj para algn i z j NOTA:

Y al observar los resultados anteriores para Bloques tenemos:

Fc = 6.06

Ante todo observe nuestro amable lector, que en este problema se plantea dos preguntas totalmente diferentes una de otra. En el primer caso se plantea una prueba de hiptesis de comparacin en el tiempo de duracin de los focos de las tres plantas. Mientras que en el segundo, se pide realizar una prueba de hiptesis de comparacin sobre el efecto que pudiera producir en el tiempo promedio de rendimiento, el tipo de filamento.

F (2, 6) = 5. 1433

Paso 1: Ingrese los datos a una hoja de trabajo haciendo corresponder a cada columna de la tabla con las columnas C1, C2, C3 y C4 del Minitab. El archivo es Anova4.mtw

Se trata pues de un problema de Anlisis de Varianza en donde se toma en cuenta dos variables. Paso 2: Debemos arreglar esta data de acuerdo a los requerimientos del Two Way del Minitab.

Las pruebas a ser contrastadas sern: Para ello, usemos la siguiente secuencia de comandos:

a) Para el caso de la comparacin de promedios de tiempo entre plantas: a) Colocar los tiempos de las tres plantas en la columna C6(Tiempos):

H0: Pi = Pj para algn i z j para i , j = Planta 1, Planta 2, Planta 3 < Manip > - < Stack/unstack > - < Stack columns> En < Stack the following columns > ingresar C2 C3 C4 En < Store the stacked data in > ingresar C6(Tiempos) En < Store subscripts in > ingresar C8(Plantas)

H1 : Pi z Pj para algn i z j

b) Para el caso de la comparacin de los efectos en los tiempos entre los filamentos:

H0: Pi = Pj para algn i z j para i, j = Filam. 1, Filam. 2, Filam. 3 y Filam. 4 b) Colocar la identificacin de los factores en la columna C7(Filamento)

H1 : Pi z Pj para algn i z j

En ambos casos rechazaremos la hiptesis nula si el p-value es menor que 0.05 o de manera equivalente, si el Fc resulte mayor que el F de la tabla

< Manip > - < Stack/Unstack > - < Stack Blocks of columns > En <Store two or more blocks of columns > ingresar en las tres primeras filas en blanco, C1 (Filamentos) En < Store stacked data in > ingresar C7 (Filamento)

a) Con (k-1) grados de libertad en el numerador y (k-1)(r-1) grados de libertad en el denominador.

b) Con (r-1) grados de libertad en el numerador y (k-1)(r-1) grados de libertad en el denominador.

Paso 3: Resolver el problema. Para ello ingresamos la siguiente secuencia

Donde, como se dijo antes, k representa el nmero de tratamientos (columnas) y r representa el nmero de bloques (filas).

< Stat > - <ANOVA > - < Two Way >. En la ventana que salga: En <Response> ingresar C6 (Tiempos) En < Row Factor > ingresar C7 (Filamento) En < Column Factor > ingresar C8 (Plantas) Activar <Display means> (aunque no es necesario)

El Minitab lo resolver exactamente como en el caso anterior, como pasamos a verlo.

3 ----------+---------+---------+---------+182.0 189.0 196.0 203.0

196.0

(-----------*-----------)

Los resultados se muestran a continuacin

6. Minitab y el Diseo de Experimentos (8)

Two-way Analysis of Variance Interpretacin:

Analysis of Variance for Tiempos P a) Puesto que el p-value = 0.979 > 0.05 (o Fc = 0.06 < 5.1433 = F(2, 6) ) entonces, no hay evidencia suficiente para rechazar la hiptesis nula; es decir, las tres plantas producen la misma calidad de focos

Source

DF

SS

MS

Filament 0.092

8.7

2.9

0.06

0.979

Plantas

354.7

177.3

3.65

Error

291.3

48.6

b) En este caso, como el p-value = 0.092 > 0.05 ( o Fc = 3.65 < 4.7571 = F(3, 6) ) entonces, no hay evidencia suficiente para rechazar la hiptesis nula; es decir, el tipo de filamento no influye en la calidad de los focos o al revs, los cuatro filamentos tienen el mismo efecto sobre los focos.

Total

11

654.7

6. Minitab y el Diseo de Experimentos (9)


2. Clasificacin de dos variables con repeticin

Individual 95% CI

Filament Mean ---------+---------+---------+---------+--

193.0

(----------------*---------------) El siguiente ejemplo es tratado como una aplicacin del modelo de clasificacin de dos variables con replicacin, como una extensin del anlisis anterior.

190.7(----------------*---------------)

191.3 (----------------*---------------)

191.7 (---------------*----------------)

---------+---------+---------+---------+--

Y puesto que debemos tomar en cuenta la repeticin de las veces que se realiza el experimento por cada tratamiento y para cada bloque, es natural preguntarse tambin si las interacciones entre bloques y tratamientos tiene alguna diferencia significativa.

186.0

192.0

198.0

204.0 Todo se reduce a disponer los datos de acuerdo a los requerimientos de entrada del Minitab.

Individual 95% CI

Plantas Mean ----------+---------+---------+---------+-

Ejemplo 3
El siguiente cuadro muestra las compras de caf filtrante de 18 familias.

184.0 (-----------*-----------)

195.0

(------------*-----------)

H0: No hay diferencia significativa en el consumo del caf entre las ciudades Para las interacciones entre propaganda y ciudades(Interacciones) Ms de 10 veces 30 25 25 30 Se rechazar la hiptesis nula si el valor del p-value es < 0.05 o de manera equivalente, se rechazar la hiptesis nula si el valor calculado de F, Fc es mayor que el valor F de la tabla, de acuerdo a los siguientes grados de libertad. 32 18 H0: No hay ninguna relacin entre la propaganda televisada y las ciudades H0: Si hay alguna relacin entre la propaganda televisada y las ciudades

Nmero de veces que fue colocada la propaganda

Ciudades 20 19 31

De 1 a 5 veces

De 6 a 10 veces

19

27

18

18

26

27

24

21

19

Cada familia est clasificado segn la ciudad en que reside y el nmero de veces que fue expuesta a la propaganda de caf, dada en la televisora local. Para conocer la evolucin del efecto de la propaganda, se desea saber, al nivel del 5%: Sea k: Nro. de tratamientos;

a) Si hay alguna diferencia entre la propaganda televisada y el consumo del producto Sea r: Nro. de bloques y

b) Si hay alguna diferencia significativa en el consumo del caf entre las ciudades

c) Si hay alguna relacin entre la propaganda televisada y las ciudades Sea l: Nro. de veces que se replica

Solucin a) Para tratamientos b) Para bloques : Fc > F[k-1, rk(l-1)] : Fc > F[r-1, rk(l-1)] c) Para las interacciones : Fc > F[(r-1)(k-1), rk(l-1)]

Deberemos probar las siguientes hiptesis:

Para los tratamientos(tipos de propaganda televisada):

6. Minitab y el Diseo de Experimentos (10)


Ante todo ingresemos los datos de acuerdo al siguiente criterio:

H0: No hay diferencia significativa entre propaganda televisada y el consumo del caf C1 Ciudades A A B C2 V1 19 27 18 C3 V2 18 20 27 C4 V3 30 18 25 C5 C6 C7 Veces Bloques 19 27 18 A A B 1 1 1 C8 Trat.

H1: Si hay diferencia significativa entre propaganda televisada y el consumo del caf

Para los bloques(Ciudades):

H0: No hay diferencia significativa en el consumo del caf entre las ciudades

B 24 En < Store subscripts in > ingresar C8(Trat.) 21 18 20 27 19 19 31 30 18 25 32 25 30 C 3 En < Row Factor > ingresar C7 (Bloques) C 3 B 3 En <Response> ingresar C6 (Veces) B 3 A 3 < Stat > - <ANOVA > - < Two Way >. En la ventana que salga: A 3 C 2 Paso 4: Resolver el problema. Para ello ingresamos la siguiente secuencia C 2 B 2 En <Store stacked data in> ingresar C7 (Bloques) B 2 A 2 En las tres primeras filas de la siguiente ventana, ingresar C1(Ciudades) A 2 <Manip> - <Stack/Unstack> - <Stacks Blocks of columns> C 1 C 1

26

19

32

26

24

19

25

21

31

30

Paso 1: Ingresar los nombres de las columnas En < Column Factor > ingresar C8 (Trat.)

Paso 2: Ingresar los datos de C1, C2, C3 y C4 segn se indica Activar <Display means> (aunque no es necesario)

Paso 3: Coloquemos los datos de acuerdo a los requerimientos del Minitab: Los resultados se muestran a continuacin

<Manip> - <Stack/Unstack> - <Stack columns>

6. Minitab y el Diseo de Experimentos (11)


Two-way Analysis of Variance

En < Stack the following columns > ingresar C2 C3 C4 Analysis of Variance for Veces

En < Store the stacked data in > ingresar C6(Veces)

Source

DF

SS

MS

Bloques

31.0

15.5

0.49

0.627

Trat.

72.3

36.2

1.15

0.360

b) En este caso, como el p-value = 0.627 > 0.05 ( o Fc = 0.49 < 4.2565 = F(2, 9) ) entonces, no hay evidencia suficiente para rechazar la hiptesis nula; es decir, no hay diferencia en el consumo del caf entre las ciudades.

Interaction

29.7

7.4

0.24

0.911

Error

283.5

31.5

Total

17

416.5

c) Finalmente, como el p-value = 0.911 > 0.05 (o Fc = 0.24 < 3.6331 = F(4,9)) entonces, diremos tambin que no existe alguna relacin significativa entre la propaganda televisada y el consumo del caf por ciudad.

Individual 95% CI

6. Minitab y el Diseo de Experimentos (12)


Ejemplo 4

Bloques

Mean --+---------+---------+---------+---------

22.0 (--------------*--------------) La Dra. Bslavi es una investigadora que intenta aislar el virus del SIDA. Planea realizar un experimento usando cuatro catalizadores (C 1, C2, C3 y C4) durante la produccin de una sustancia qumica para ver sus efectos en las clulas de un paciente infectado con el virus.

24.5

(--------------*--------------)

25.0

(-------------*--------------)

--+---------+---------+---------+--------Durante el desarrollo de la investigacin la Dra. Bslavi decide estudiar el efecto de cada uno de estos catalizadores en tres niveles de temperaturas diferentes (T 1, T2 y T3). Los datos recogidos en porcentaje de concentracin se muestran en la siguiente tabla.

17.5

21.0

24.5

28.0

Individual 95% CI Replicacin I C1 73 T1 T2 31.5 T3 72 81 83 82 76 78 81 84 76 83 85 81 71 79 76 84 71 79 82 85 74 78 76 84 C2 68 C3 74 C4 C1 81 67 C2 73 II C3 76 C4 84 C1 75 C2 77 III C3 79 C4 81

Trat.

Mean -+---------+---------+---------+---------+

22.5 (--------------*--------------)

22.3 (--------------*--------------)

26.7

(--------------*--------------)

-+---------+---------+---------+---------+

17.5

21.0

24.5

28.0

Interpretacin: Realice un anlisis de varianza para este experimento.

a) Puesto que el p-value = 0.360 > 0.05 (o Fc = 1.15 < 4.2565 = F(2, 9) ) entonces, no hay evidencia suficiente para rechazar la hiptesis nula; es decir, no hay diferencia significativa entre la propaganda televisada y el consumo.

Solucin

T2 71 71 74 72 76 76 83 85 81 78 81 84 81 83 82 78 76 84 79 82 85 79 76 84 T2 T2 T3 T3 T3

Deberemos probar las siguientes hiptesis:

Para los tratamientos(tipos de Catalizador):

H0: No hay diferencia significativa entre el catalizador y la concentracin

H1: Si hay diferencia significativa entre el catalizador y la concentracin Las columnas constituyen los tratamientos (k = 4) con [(k-1,rk(l-1)] grados de libertad Las filas constituyen los bloques (r = 3) con [(r-1, rk(l-1)] grados de libertad Las interacciones (l=3) entre Tratamiento y Bloque tiene [(k-1)(r-1), rk(l-1)] gdos. lib. Ingrese los datos de acuerdo a la siguiente hoja:

Para los bloques(Niveles de Temperatura):

H0: No hay diferencia significativa en la concentracin por niveles de temperatura

H0: Si hay diferencia significativa en la concentracin por niveles de temperatura Temp. Cat. 1 Cat. 2 Cat. 3 Cat. 4 T1 T1 T1 T2 T2 T2 T3 T3 T3 C3 74 76 79 81 84 79 T2 2 81 77 T1 2 C4 67 75 71 71 74 72 76 76 73 68 73 77 79 79 78 81 78 83 74 76 79 76 82 76 83 81 85 81 84 81 84 85 84 82 84 81 Concent. 73 67 75 71 71 74 72 76 76 68 73 Temperat. T1 T1 T1 T2 T2 T2 T3 T3 T3 T1 T1 Cataliz. 1 1 1 1 1 1 1 1 1 2 2

Para las interacciones entre Catalizador y Temperatura(interacciones)

H0: No hay ninguna relacin entre los catalizadores y los niveles de temperaturas

H0: Si hay ninguna relacin entre los catalizadores y los niveles de temperaturas

Hagamos algunas transformaciones con este cuadro:

Vamos a colocar como columna a los cuatro catalizadores: (C1, C2, C3 y C4) y como fila o bloques a los tres niveles de temperaturas: (T 1, T2 y T3). El resultado es el siguiente:

C1

C2

T1

73

68

T1

67

73

T1

75

77

79 78 81 78 83 74 76 79 76 82 76 83 81 85 81 84 81 84 85 84 82 84 81 T3 4 T3 4 T3 4 Temperat T1 T2 T3 T2 4 Individual 95% CI Mean ----------+---------+---------+---------+75.67 78.25 80.17 (------*-------) (------*-------) (-------*-------) ----------+---------+---------+---------+76.00 78.00 80.00 82.00 T2 4 T2 4 T1 4 T1 4 Cataliz. Interaction Error Total T1 4 Temperat 3 6 24 35 T3 3 Source DF 2 T3 3 T3 3 Analysis of Variance for Concent. SS 122.39 475.64 79.61 161.33 838.97 MS 61.19 158.55 13.27 6.72 F 9.10 23.59 1.97 P 0.001 0.000 0.109 T2 3 Two-way Analysis of Variance T2 3 T2 3 Los resultados son los siguientes: T1 3 T1 3 T1 3 En < Column factor > ingresamos Cataliz. o la columna C9 T3 2 En < Row factor > ingresamos Temperat. o la columna C8 T3 2 T3 2 En < Response > ingresamos Concent. o la columna C7 T2 2

T2

< Stat > - < ANOVA > - < Two Way >

6. Minitab y el Diseo de Experimentos (13)

Al usar la secuencia de comandos:

Individual 95% CI

Cataliz.

Mean --------+---------+---------+---------+---

Se realiz un experimento que consista en tomar el tiempo que tardaban 6 empleados de una financiera para resolver un determinado problema mediante la hoja de clculo Excel y una calculadora. Los problemas a resolver eran de dos tipos: Financieros (F) y Estadsticos (E). Los tiempos obtenidos se muestran en el siguiente cuadro.

1 Empleados de la financiera Carlos F Excel 3.1 2.5 8.1 5.3 7.6 3.8 2.8 3.0 Calculadora 7.5 5.1 2.0 4.9 E F E F E F 3.4 7.8 Pablo Jos Lucas E 2.7 5.5

72.78

(----*----)

77.33

(----*----)

79.11

(----*----)

Manuel F 3.3 6.9 E 2.5 5.4

Luis F 3.6 7.8 E 2.4 4.8

82.89

(----*----)

--------+---------+---------+---------+--84.00

73.50

77.00

80.50

De acuerdo al valor del p-value se puede comprobar que las dos hiptesis nulas sern rechazadas; es decir, hay diferencia en el porcentaje de la concentracin tanto debido al uso de los catalizadores como el sometimiento a una determinada temperatura; sin embargo, la interaccin entre los niveles de temperatura y los catalizadores es insignificante, lo que implica que no se rechaza la hiptesis nula. Solucin

Hay diferencia en los tiempos promedio de clculo entre el tipo de problema y la forma de resolverlo?

6. Minitab y el Diseo de Experimentos (14)


Sin duda este tipo de problema nos sugiere que los tiempos de clculo deben ser la variable de respuesta (Response), los empleados deben ser tomados como factores, as como el tipo de clculo y la forma de resolverlo. Por ello este es un caso especial del ANOVA que es posible resolverlo por la opcin antes mencionada.

3. Uso de la opcin de ANOVA balanceado

La diferencia respecto al primer modelo One Way es que el anlisis se realiza por variacin individual y el nmero de observaciones debe ser el mismo para cada uno de los tratamientos. Aqu no hay distincin entre las probables interacciones que pudieran presentarse en diferentes observaciones del mismo tratamiento, que es lo que toma en cuenta el modelo de dos variables con replicacin.

Los datos deben ser ingresados a la hoja de trabajo segn se indica, en C1, C2, C3, C4

Particip. Carlos Carlos Carlos Carlos Pablo

Tpo. Rpta. 3.1 7.5 2.5 5.1 3.8

Tipo prob. Estad Estad Matem Matem Estad

Modelo Nuevo Antiguo Nuevo Antiguo Nuevo

Ejemplo 5

El siguiente problema, que nada tiene de particular respecto a los anteriores, ser resuelto utilizando la opcin < Balanced ANOVA...> del Anlisis de Varianza, ANOVA, del comando < Stat > del Minitab.

Pablo Nuevo Antiguo Nuevo Antiguo Nuevo Antiguo Tipo pro fixed 2 Nuevo Modelo Antiguo Nuevo Antiguo Analysis of Variance for Tpo. Rpt fixed 2 Antiguo Nuevo Estad Matem Analysis of Variance (Balanced Designs) Los resultados se muestran a continuacin:

8.1

Estad

Antiguo

6. Minitab y el Diseo de Experimentos (15)

Pablo

2.8

Matem

Pablo

5.3

Matem

Jose

3.0

Estad

Jose

7.6

Estad

Jose

2.0

Matem

Factor Type Levels Values


Particip random 6 Carlos Jose Lucas Luis Manuel Pablo

Jose

4.9

Matem

Lucas

3.4

Estad

Lucas

7.8

Estad

Lucas

2.7

Matem

Lucas

5.5

Matem

Manuel 3.3

Estad

Nuevo

Manuel 6.9 Source Particip Tipo pro Nuevo Modelo Antiguo Error Nuevo Total Antiguo 23 16 1 5 1 DF

Estad

Antiguo SS 1.053 16.667 72.107 4.692 94.518 MS 0.211 F P 0.72 0.619 16.667 56.84 0.000 72.107 245.91 0.000 0.293

Manuel 2.5

Matem

Nuevo

Manuel 5.4

Matem

Antiguo

Luis

3.6

Estad

Luis

7.8

Estad

Luis

2.4

Matem

Luis

4.8

Matem

Usando la secuencia de comandos:

Por el valor del p value podemos decir que s hay diferencia en el tiempo de respuesta debido a los participantes; mientras que los tiempos de respuesta promedio no difieren por el tipo de problema, as como tampoco por el modelo de clculo usado.

< Stat > - < ANOVA > - < Balanced ANOVA ... > . En la siguiente ventana

6. Minitab y el Diseo de Experimentos (16)


4. Regresin lineal

En < Response > ingresar Tpo. Rpta.

En < Model >

ingresar 'Particip.'

'Tipo prob. ' Modelo

Donde E y D sern los parmetros a ser estimados y P ser la variable de perturbacin tal P N(0, V ).

Igualmente, en el caso multidimensional, X constituir una matriz de variables independientes o explicativas y Y la variable dependiente o endgena.

En Economa, Administracin y en general en todas las ciencias sociales y naturales se estudia entre otros temas, la relacin que existe entre dos variables. La cantidad demandada de un determinado producto en un mercado se considera como una funcin del precio; los costos de produccin de un determinado artculo se suponen que estn en funcin de la cantidad de artculos producidos; los gastos de consumo se consideran como una funcin de la renta; etc. Todas estas relaciones son tal vez representaciones muy simplistas de los verdaderos modelos cuyas formulaciones ms realistas requieren tal vez de la especificacin de muchas ms variables en cada una de sus relaciones. As podramos decir que la demanda puede considerarse como una funcin del precio, de los ingresos y de los precios de otros productos afines: los costos de produccin dependern del volumen de la misma, del precio de los factores de produccin y de los cambios en dicho volumen; del mismo modo los gastos de consumo pueden especificarse como una funcin de los ingresos, de la liquidez y de los niveles previos de consumo. Regresin en Minitab

El nmero de relaciones incluidas en un modelo econmico depende de los objetivos para los que se ha construido el modelo y del grado de explicacin que se pretende. Todos los modelos econmicos, tanto a nivel micro como a nivel macroeconmico, sea que pertenezcan a una industria, empresa o a un mercado, tienen similares caractersticas bsicas comunes.

El programa Minitab dispone de la opcin < Regression > del comando < Stat > para el anlisis de regresiones simples o mltiples.

La siguiente ventana es la que se obtiene al usar < Stat > - < Regression >.

Y desde el punto de vista matemtico, la relacin entre una variable y otras se expresa mediante el modelo y = f(x), en el cual los argumentos de la funcin constituyen las variables independientes, variables exgenas o explicativas y la variable y constituye la variable dependiente, endgena o explicada. Igualmente este modelo puede estar regido por una relacin lineal, cuadrtica, logartmica, etc.

Por otro lado, si la relacin existente es una relacin no lineal, se puede utilizar algn criterio matemtico para transformar dicha relacin en otra lineal equivalente. Por ello en este ltimo tema pretendemos resolver sistemas o modelos lineales desarrollados mediante el uso del programa Minitab.

Formulacin del modelo:

Supondremos que Y = f(x). Es un modelo real cuya representacin lineal ser

La opcin < Regression > permite realizar una estimacin por el mtodo de los Mnimos Cuadrados Ordinarios para una regresin lineal simple y mltiple. Permite almacenar los resultados tanto de los valores ajustados como los residuales para un anlisis posterior; la generacin de los puntos de estimacin, de los valores de prediccin as como intervalos de confianza para los parmetros poblacionales y pruebas de ajuste de holguras.

Y = EX + D + P

La opcin < Stepwise > permite realizar el anlisis por pasos para aadir o remover variables con la intencin de identificar un conjunto de predictores(independientes). Hay tres procedimientos comunes: El stepwise estndar (aadiendo o removiendo variables); el stepwise hacia atrs(removiendo variables) y el forward stepwise(hacia delante, aadiendo variables).

United American Delta America West TWA 68.5 1.25 70.8 1.22 71.2 0.72 72.2 0.93

73.8

0.74

La opcin < Best subsets regression...> permite realizar un anlisis ms detallado usando el criterio del mximo r, examinando primero modelos de regresiones de un predictor, seleccionando despus los dos modelos que proporcionan el mximo r . El Mintab muestra los resultados de dichos modelos y examina ahora los modelos de dos variables predictoras, selecciona dos de los modelos que tengan el mejor r y visualiza los resultados; este proceso contina hasta que el modelo contenga todos los predictores.

La opcin < Fitted line plot ..> Permite ejecutar regresiones con trminos lineales y polinomiales de segundo y tercer orden de una variable predictora y plotea la lnea de regresin.

Ajuste una relacin lineal, cuadrtica o cbica para el diagrama de dispersin de estos datos. Indique la variable dependiente y la independiente.

Todo esto constituye un anlisis lineal de un modelo bsico basado en la tcnica de Mnimos Cuadrados Ordinarios. Como se puede ver, podemos realizar anlisis por mnimos cuadrados parciales y tambin problemas referidos al anlisis de regresin logstica y binaria. Solucin

Sin duda las quejas dependern de cun puntuales fueron las aerolneas. Por ello la variable Quejas ser la variable dependiente y la variable Puntualidad ser la independiente.

Siguiendo la metodologa de la estadstica paramtrica, la obtencin de los estimadores de los parmetros de la regresin, nos permitirn inferir resultados y plantear pruebas de hiptesis acerca del modelo, las que debern ser contrastadas usando los mismos criterios ya estudiados en una prueba de hipotesis.

El modelo es entonces Queja = E (Puntualidad) + D

6. Minitab y el Diseo de Experimentos (17)


Que debe ser estimada mediante la ecuacin

Ejemplo 6

En The Wall Street Journal Almanac 1998 aparecieron datos sobre el desempeo de las aerolneas estadounidenses. A continuacin vemos los datos sobre el porcentaje de vuelos que llegan puntuales y la cantidad de quejas por 10,000 pasajeros.

Aerolneas 0.21 0.58 0.85 0.68

% de puntualidad

% de Quejas

Southwest

81.8

Hagamos uso del programa Minitab para seleccionar una adecuada estimacin de estos parmetros.

Continental

76.6

NorthWest

76.6

Antes de ajustar el problema a un modelo lineal, convendra disponer del diagrama de dispersin para ver si la hiptesis de formular un modelo lineal se adecua. Trace un diagrama de dispersin usando <Graph> - <ScatterPlot> Como variable X: Puntualidad y variable Y: % de quejas. El siguiente es el grfico

US Airways

75.7

ingresar C3 como variable endgena(dependiente) y C2 como variable predictora o independiente( % de Puntualidad).

6. Minitab y el Diseo de Experimentos (18)

Seleccionemos primero la opcin < Linear > y con el mismo procedimiento seleccione despus la opcin < Cubic >.

Creemos que un modelo lineal puede ser un ajuste adecuado para estos datos, aunque habra que medir la relacin entre las dos variables pues parece que el porcentaje de dependencia es algo conservador.

Los resultados obtenidos son

Paso 1: Ingresamos los datos de la tabla en las columnas C1, C2 y C3 de una hoja de trabajo del Minitab.

Regression Analysis: % de Quejas versus % de puntualidad

The regression equation is % de Quejas = 6.018 - 0.07041 % de puntualidad

Paso 2: Tratemos de ajustar los datos a una lnea de ploteo usando la secuencia:

< Stat > - < Regression > - < Fitted line Plot >. En la ventana que se obtenga S = 0.160818 R-Sq = 77.9% R-Sq(adj) = 74.7%

Analysis of Variance

Source

DF

SS

MS

P Regression 1 0.638119 0.638119 24.67 0.002

Error

7 0.181037 0.025862 Los datos y resultados de este ejemplo lo encontramos en el archivo Regre02.mtw. All encontramos que las columnas C8 y C9 contienen el cuadrado de los residuales y las celdas de las columnas C10 y C11 contienen las varianzas y las desviaciones estndares para los dos modelos.

Total

8 0.819156

Mientras que al usar la opcin < Cubic >, la ecuacin de estimacin obtenida es Se puede apreciar que el modelo cbico tiene menor dispersin que el modelo lineal.

Y = 414.437 - 16.4312X + 0.218026X**2 - 9.67E-04X**3 Ahora vamos a realizar el anlisis de regresin correspondiente al problema. Para ello usemos la siguiente secuencia:

R-Sq = 81.1 %

6. Minitab y el Diseo de Experimentos (19)


< Stat > - < Regression ... > - < Regression >.

Con un diagrama de dispersin y recta de ajuste dada en la siguiente figura

Obtendremos la siguiente ventana:

Con slo observar el r podemos afirmar que los datos se ajustan mejor a una funcin cbica y no a una lineal.

Para mayor detalle veamos qu sucede con la varianza de los errores, lo que lo conseguiremos tomando en cuenta los residuales.

Para ello es suficiente hacer clic en la opcin < Storage> de la ventana anterior y activar < Resduals > (se puede almacenar tambin los valores ajustados <Fits> que los almacenaremos en la columnas C4 y C5.

En ella ingresemos en < Response > la variable dependiente C3 y en < Predictors > se ingresar todas las variables predictoras o independientes; en este caso, C2. Ingresando por <Options> active < Durbin Watson >

Puesto que queremos comparar las varianzas de los residuales con ambos modelos (lineal y cbico) hagamos lo mismo con el modelo cbico, cuyos residuales y fits los almacenaremos en las columnas C6 y C7.

Los resultados que se obtienen son los que se muestra a continuacin:

Regression Analysis

The regression equation is

% de Quejas = 6.02 - 0.0704 % de puntualidad

Predictor 0.001 0.002

Coef

StDev

Constant

6.018

1.052

5.72

% de pun

-0.07041

0.01418

-4.97

S = 0.1608

R-Sq = 77.9%

R-Sq(adj) = 74.7%

El coeficiente de regresin E = - 0.07401; representa el cambio que experimentara la variable Y (% de quejas) por cada unidad de cambio en la variable X ( % de puntualidad). Si se incrementa la puntualidad, el porcentaje de quejas se reducir, como es lgico.

Analysis of Variance

La grfica anterior fue obtenida con el MS Excel. Tomando en cuenta la ecuacin resultante de los modelos lineal y cbico se han obtenido estimaciones para porcentajes de puntualidad de 0 a 20. Se puede apreciar en ambos casos que, a mayor puntualidad el porcentaje de quejas disminuye. P 0.002

Source

DF

SS

MS

Regression

0.63812

0.63812

24.67

6. Minitab y el Diseo de Experimentos (20)


5. Inferencia y ANOVA en regresin lineal
Si Y = EX + D es la recta regresin a la que se ajusta un conjunto de datos X 1, X2, ..., Xn, y los estadsticos son los estimadores de dichos parmetros, entonces es claro que podamos encontrar sus respectivos intervalos de confianza as como realizar pruebas de hiptesis para cada uno de los parmetros.

Residual Error 7

0.18104

0.02586

Total

0.81916

Durbin-Watson statistic = 2.526987

Interpretacin de estos resultados:

a) El trmino independiente llamado tambin intercepto D = 6.02, representa el valor inicial de Y; es decir, el 6.02% de quejas se recibira si ninguna aerolnea fuera puntual. En muchos casos esta constante no es lgicamente significativa.

Por otro lado, si tomamos en cuenta la diferencia entre los parmetros y sus estimadores, los elevamos al cuadrado y dividimos la suma de ellos entre el nmero de grados de libertad correspondientes, estaremos hablando del anlisis de varianza de una lnea de regresin.

b)

Como por lo general se desconoce la varianza poblacional de cada uno de los parmetros y como el nmero de datos, por lo general no permite el uso de una distribucin normal, el estadstico que se emplea tanto para la obtencin de los intervalos de confianza como para las pruebas de hiptesis es aquella cuya distribucin es t de Student con n 2 grados de libertad.

En el caso del anlisis de varianza, por su naturaleza misma seguiremos usando la distribucin F y/o el p-value.

En el ejemplo anterior, puesto que el valor de p-value para el coeficiente de regresin es 0.002 < 0.05, entonces rechazamos la hiptesis nula; es decir, que el porcentaje de quejas depende de alguna manera, de la puntualidad de llegada de los vuelos. Sin embargo, si utilizamos el valor del tc calculado que, como se puede ver tc = -4.97 y el valor de t de Student con 7 grados de libertad t0.975(7) = 1.8946; debiramos aceptar la hiptesis nula.

El estadstico a ser calculado, se define como De manera que frente a esta disyuntiva, en regresin es ms confiable utilizar el valor de r.

tal que tc t(n-2)

De manera que el Intervalo de Confianza de (1 - D)x100% para el coeficiente de regresin Ei, ser

Cun grande es la relacin entre las dos variables, en trminos cuantitiativos?, la prueba de hiptesis no nos permite responder a esta pregunta. El coeficiente de correlacin ser un indicador que nos permitir extraer esta conclusin. En este ejemplo, el estimador del coeficiente de correlacin, r = 0.74 . Esto indica que el porcentaje de quejas no depende exclusivamente del porcentaje en la puntualidad de llegadas de los vuelos; es decir, existe otros factores.

Nota:

Respecto a la docimasia, podramos plantear una Prueba de Hiptesis de estos mismos coeficientes afirmando que no existe ninguna relacin entre las variables predictoras y la variable predicha; esto es

Existir una correlacin perfecta; es decir, existir una relacin de dependencia total si el coeficiente de correlacin r 1 o r -1. En el primer caso existir una correlacin perfecta positiva y el segundo, una correlacin perfecta negativa. Pero si r 0.5 0.5 entonces diremos que la correlacin es moderada

6. Minitab y el Diseo de Experimentos (21)


Ejemplo 8

H0: Ei = 0 Queremos realizar un anlisis de regresin entre el Producto Bruto Interno (PBI) y el Gasto Pblico (GP) a partir de una muestra con 13 observaciones para los perodos comprendidos entre los aos 1990 2002, referidas a la economa de un determinado pas sudamericano.

H1: Ei z 0

La hiptesis nula ser rechazada si el valor de p-value < 0.05; es decir, que existe una relacin de dependencia entre las variables independientes (predictoras) y la variable dependiente(predicha). Por el contrario, si el p-value > 0.05, entonces afirmaremos de que no existe evidencia para rechazar la hiptesis de que una variable dependa de las otras.

El archivo Regre01.mtw contiene la informacin respectiva.

Solucin

Ejemplo 7
La relacin que suponemos debe existir es

Analysis of Variance

Source Regression Residual Error Total 12 4102560 11 215426 19584 1 3887134 3887134 198.48

DF

SS

MS

F 0.000

Esto implica que la prueba de hiptesis a ser planteada es

H0: Ei = 0 con i = 1

H1: Ei z 0

con i = 1

Supondremos tambin que la variable Pt es la variable de perturbacin aleatoria que satisface las hiptesis ideales de un modelo de regresin.

Puesto que el p-value < 0.05 en el caso de la variable GP, diremos que el PBI depende del Gasto Pblico y la medida de esta dependencia puede ser expresada como el 94.7% , lo cual es expresado con el valor de r, coeficiente de determinacin.

El uso de la siguiente secuencia,

A diferencia del ejemplo anterior, en este caso el rechazo de la hiptesis nula se demuestra tambin usando el estadstico t. Por ello, puesto que tc = 14.09 > 1.7959 = t0.975(11) rechazamos la hiptesis nula.

< Stat > - < Regression > - < Regression > - < Response > PBI - < Predictor > GP

6. Minitab y el Diseo de Experimentos (22)


Ejemplo 9
El PBI depender tambin de las exportaciones?.

nos permite obtener los siguientes resultados:

Regression Analysis

Solucin

The regression equation is Para responder a la pregunta debemos incluir la variable exportaciones al modelo de tal forma que el PBI = f(Gp, EX) T -1.99 0.000 Nuestro modelo de regresin lineal es 0.072 P Usemos los datos del archivo Regre01.mtw.

PBI = - 439 + 13.3 GP

Predictor

Coef

StDev

Constant

-439.2

221.0

GP

13.2908

0.9434

14.09

S = 139.9

R-Sq = 94.7%

R-Sq(adj) = 94.3%

Analysis of Variance

Source Regression Residual Error 10 Total 12 4102560 50314 5031 2 4052247 2026123 402.70 0.000

DF

SS

MS

Esto implica que las pruebas de hiptesis a ser planteada son:

H0: Ei = 0 con i = 1, 2

H1: Ei z 0 con i = 1, 2

Source GP Ex 1 165113 1 3887134

DF

Seq SS

El uso de la siguiente secuencia,

< Stat > - < Regression > - < Regression > - < Response > PBI - < Predictor > GP

Interpretacin:

nos permite obtener los siguientes resultados:

Regression Analysis

En primer lugar observemos que el coeficiente de determinacin ha mejorado sustancialmente, r = 0.988; es decir que el PBI se encuentra explicada a travs del Gasto Pblico, GP y el nivel de las Exportaciones, EX. Sin embargo, debemos tomar nota la fuerte cada que ha experimentado el PBI en su relacin con el Gasto Pblico, GP.

The regression equation is

PBI = 1196 + 1.35 GP + 4.79 Ex

En el modelo anterior, por cada unidad de incremento en el Gasto Pblico, el PBI se incrementaba en 13.29, mientras que en el presente modelo, por cada unidad de incremento en el gasto Pblico, el PBI se incrementa slo en 1.35. Esta es una observacin que tambin debe ser tomada en cuenta para un anlisis ms profundo y detallado, el cual corresponde a la Econometra. T 3.90 0.63 5.73 0.000 0.540 Hagamos un anlisis grfico de este problema tratando de plotear lneas de ajuste para el modelo. 0.003 P

Predictor

Coef

StDev

Constant

1196.1

306.7

6. Minitab y el Diseo de Experimentos (23)


Ejemplo 10

GP

1.355

2.138

Ex

4.7865

0.8355

S = 70.93

R-Sq = 98.8%

R-Sq(adj) = 98.5%

Para ello usemos la siguiente secuencia:

< Stat > - < Regression > - < Fitted line plot >

Ajustemos primero el PBI a los Gastos Pblicos, GP. Para ello ingresamos en <Response (Y) > PBI y en < Predictor> GP; activamos tambin <Lineal>.

En < Options > debemos activar < Display confidence intervals > y < Display prediction intervals > y con un < Confidence level > de 0.95.

Los resultados son los siguientes:

Regression

The regression equation is

y = - 439 + 13.3 x En rojo se muestra el intervalo de confianza de la media de PBI y en azul, el intervalo de confianza del valor predicho del PBI. Ntese que cuanto menor es la dispersin de los datos, respecto de la media, menor es el ancho de banda. Aqu r = 94.7%

Predictor 0.072

Coef

StDev

Constant

-439.2

221.0

-1.99

13.2908

0.9434

14.09

0.000

En el caso de PBI vs EX, tenemos la siguiente grfica. En este caso, el ancho de banda es mucho ms angosto y el r = 98.7%.

S = 139.9

R-Sq = 94.7%

R-Sq(adj) = 94.3%

Analysis of Variance

Source 198.48 0.000

DF

SS

MS

Regression

3887134

3887134

Residual Error

11

215426

19584

Total

12

4102560

Y la grfica de ajuste es la siguiente

Nota:

Como nuestro amable lector podr haber notado, todos los resultados obtenidos en un anlisis de regresin, pueden ser almacenados para ser usados en otros clculos. Entre los resultados que ms interesas almacenar se encuentran los Residuales.

Estadstico para una prueba F

6. Minitab y el Diseo de Experimentos (24)

Glosario de trminos y el Minitab


Anlisis de los residuales

Variable dependiente: Variable que se predice o explica(explicativa)( Response).

Variable independiente: Variable predictora ( Predictors). Modelo de regresin: Distribucin de probabilidad: y = E 0 + E 1 X + P El anlisis de los residuales permite:

Ecuacin de regresin: Modelo de regresin esperado: E(y) = E 0 + E1 X

Ecuacin de regresin estimada Residual: Diferencia entre el valor observado de la variable explicada y el valor

determinar si la relacin entre las variables es lineal, cuadrtica o cbica determinar si existe independencia entre los errores. si es cierto el supuesto de la normalidad de los errores si la varianza es constante(permite un anlisis de homosedasticidad)

predicho: ( ) Error cuadrado medio: Estimador de la varianza de los errores: MSE o s

Error estndar : Es la desviacin estndar de los errores

Suma de cuadrados debido a los errores :

Suma de cuadrados debido a la regresin :

Suma total de cuadrados:

Coeficiente de determinacin: Medida de la bondad de ajuste de la ecuacin de regresin.

Coeficiente de correlacin: Mide el grado de asociacin entre la variable explicada y los predictores.

Estadstico para una prueba t de los coeficientes de regresin :

>

Vous aimerez peut-être aussi