Uso y Manejo Statgraphics

USO Y MANEJO DEL SOFTWARE STATGRAPHICS
I.- ESTADISTICA DESCRIPTIVA. 1.1.- Definicin de Estadstica. 1.2.- Estructura y Tipos de Datos Estadsticos. 1.3.- Construccin de la Matriz de Datos 1.4.- Recuperacin de variables de la Bases de Datos para su Procesamiento 1.5.- Presentacin de los Datos. 1.5.1- Tablas estadsticas Variables Cualitativas o atributos, datos Unidimensionales. 1.5.2.- Grficos para Variables Cualitativas o Atributos. 1.6.- Desarrollo de Ejercicios de Aplicacin 1.7.- Ejercicios de Aplicacin. II.- PROCESAMIENTO ESTADISTICO DE DATOS CUANTITATIVOS. 2.1.- Medidas o Indicadores de resumen cuantitativos 2.1.1.- Medidas de Tendencia Central. 2.1.2.- Medidas de Variabilidad. 2.1.2.- Medidas de Posicionamiento 2.1.3.- Medidas de Deformacin. 2.2.- Tablas Estadsticas o de Frecuencia (Frecuency Tabulation) 2.2.1.- Variable Cuantitativa Discreta : 2.2.2.- Variable Cuantitativa Continua. 2.3.- Histogramas de Frecuencias. 2.3.1.- Clasificacin segn las formas de losHistogramas. 2.3.2.- Aplicacin de los Histogramas a problemas relacionados con calidad 2.3.3.- Estratificacin de Histogramas. 2.4.- Desarrollo de Ejercicios de Aplicacin 2.5.- Ejercicios de Aplicacin.
III.- PROCESAMIENTO DE DATOS BIDIMENSIONALES 3.1.- Ambas variables son cualitativas 3.2.- Una variable cualitativa y otra cuantitativa 3.3.- Dos variables cuantitativas 3.3.1.- Anlisis de regresin 3.3.2.- Anlisis de correlacin 3.3.3.- Evaluacin de la adecuacin del modelo de regresin. 3.4.- Modelos Lineales Reducibles a lineal.
I.- ESTADISTICA DESCRIPTIVA 1.1.- Definicin de Estadstica: Podemos definirla como una ciencia que sustentada en el Mtodo Cientfico y la Matemtica se preocupa de: Diseo y Planificacin de la colecta de los datos Recoleccin de los datos Procesamiento de los datos Anlisis e interpretacin de los resultados o informacin Con el objetivo de ayudar a tomar decisiones lo ms acertadas posibles , teniendo como respaldo el conocimiento obtenido de la "situacin estudiada" a travs de los datos. La definicin anterior es la que llevada a un ciclo permanente permite "la mejora continua" de toda actividad humana.
Dato
Procesamiento
Informacin
Anlisi s
Decisin
De este contexto podemos desprender entonces que toda la Estructura y Beneficios que se esperan de la Estadstica descansan en los DATOS. Esto nos sugiere que el mayor esfuerzo posible lo preocupacin de obtener DATOS DE BUENA CALIDAD. debemos focalizar en la
La fuente de obtencin de los datos presenta una gama muy grande de posibilidades en este " mundo cada vez ms informatizado". Algunas de estas fuentes son: Las Estadsticas Vitales de los Pases , registradas en lo que en Chile se llama "Registro Civil" Boletines de los distintos Ministerios de los Pases, Instituciones. Institutos Nacionales de Estadsticas. Encuestas - Entrevistas. Investigaciones diseadas con un propsito especfico. Todas las posibilidades de bsqueda OFRECIDAS HOY POR INTERNET., etc., etc....
Los Principios y Fundamentos Estadsticos son independientes de la materia , actividad humana , sector del conocimiento ,etc. en el cual se aplican los mtodos estadsticos. Por esta razn es que tienen una enorme potencialidad en Ciencias de la Salud, Agricultura, Meteorologa, Ingeniera, Industria, Comercio., etc., etc., ............ Segn el propsito que se tenga resolver, con la informacin obtenida, la Estadstica se divide en: a) Estadstica Descriptiva o Diagnstica b) Estadstica Inferencial o Inductiva
-1-
La Estadstica Descriptiva: Recibe este nombre cuando con la informacin obtenida slo se pretende describir o caracterizar una variable o un grupo particular. Las conclusiones son vlidas slo para ese grupo en particular. La Estadstica Inferencial: Recibe este nombre ,cuando existe un proceso riguroso de definicin de una muestra aleatoria a ser extrada del conjunto mayor, denominado Poblacin o Universo, la cual tiene asignado un grado de confiabilidad y un error preestablecido. La muestra es obtenida de la poblacin utilizando metodologas que aseguran la representatividad de la muestra respecto de la poblacin. La informacin obtenida de la muestra permite elaborar conclusiones vlidas para todo el Universo, con un cierto grado de confiabilidad, similar al que tiene la muestra. Es muy importante de tener en consideracin, que en la actualidad cualquier trabajo de investigacin para que tenga validez y pueda ser publicada en revistas serias indexadas, debe tener un respaldo de mtodos estadsticos adecuados para que los resultados puedan ser divulgados y tengan un grado de confiabilidad. 1.2.- Estructura y Tipos de Datos Estadsticos: El dato: es la materia prima con que trabaja la Estadstica. En trminos muy generales los datos se pueden referir a caractersticas observables, las cuales pueden ser: Cualitativas o atributos Cuantitativas o variables, las cuales a su vez se subdividen en: Discretas y Continuas Ejemplos Caractersticas cualitativas: - El sexo de un individuo - El estado civil de una persona - Profesin o actividad de la persona Ejemplos Variables Discretas, se originan cuando la variable expresa un conteo (N entero) - Cantidad de personas ausentes al trabajo diariamente en una empresa - Nmero de pacientes atendidos por mdico en un hospital - Cantidad de artculos defectuosos en un lote - Cantidad de Ctodos defectuosos en una cosecha - Cantidad de gramos por litro en una solucin Ejemplos de Variables Continuas, que se originan cuando la variable expresa una medicin - Temperatura axilar de un paciente - Tiempo utilizado para reparar una falla - Peso , Estatura de una persona - Temperatura , Ph ,etc. de una solucin que pasa por un ducto Sin embargo existen variables que el valor observado expresa un cierto orden o jerarqua .Se le denomina Variable Ordinal . Tiene la caracterstica de que el valor colectado indica un orden o jerarqua, permitiendo indicar una posicin relativa de los distintos elementos clasificados - Rendimiento de un alumno dentro de un curso : Bueno , Regular , Malo - Grado de dificultad de una prueba - Grado de una lesin o enfermedad - Grado de desarrollo de un Pas.
-2-
Matriz de los Datos Cuando se realiza un estudio cualesquiera sobre un conjunto finito de "n" sujetos, objetos ,cosas ,Individuos ,entidades, etc. , normalmente existe una variada gama de caractersticas que se colectan y que se expresan en los trminos vistos anteriormente, digamos entonces de manera genrica, que se determinan o especifican "p" variables. Lo anterior permite construir la llamada "Base de Datos" , que de manera muy general podemos decir que es un arreglo tipo matricial que tiene "n" filas y "p" columnas Individuos 1 2 3 ...... n El propsito de la matriz de datos es presentar los datos de la manera "ms depurada posible" ,para proceder al procesamiento de los datos y obtener informacin La primera preocupacin es aprender a estructurar una base de datos, utilizando un software para su posterior procesamiento. Los datos se ingresan en una planilla , muy similar a la denominada planilla EXCEL Utilizaremos un software estadstico llamado "STATGRAPHICS", versin 4.0 en ambiente Windows Construiremos una pequea base de datos , con antecedentes de personas 1.3.-Construccin de la Matriz de Datos "Pique" con el sector izquierdo del "ratn" el icono que identifica a "statgraphics 4.0. "Vers aparecer una pantalla como la siguiente, que en su extremo inferior izquierdo tiene una barra donde aparece un archivo denominado untiteled. Fig. 1 Var X1 Var X2 Var X3 Var X4 Var X5 ........... Var Xn
Picar el "cuadrado" que tiene el archivo untit... para maximizar esta planilla. Vers la siguiente figura.
-3-
Fig. 2
Sobre la palabra "Col_1" coloca la " + " que aparece cuando se trabaja con el ratn y esa columna se pondr de color negro cuando piques con el sector izquierdo del ratn. Seguidamente picas con el sector derecho y aparecer una "ventana" con varias opciones. Fig. 3
Al seleccionar " Modify Column " tendrs la posibilidad de definir : a) El nombre de la variable b) Realizar un pequeo comentario descriptivo de su contenido o significado, como por ejemplo las unidades de medicin de la variable c) Definir si la variable es un Atributo o cualidad , una fecha, una variable numrica decimal , una variable numrica entera, fijar la cantidad de decimales
-4-
Numeric : Debe ser activada cuando la variable es variable continua Character : Debe ser activada cuando la variable es un atributo o cualidad Integer : Debe ser activada cuando la variable es variable discreta o cuando se trata de una Variable ordinal donde el nmero entero que se ingresa representa una jerarqua, ya sea ascendente o descendente. Date : Si la variable a ingresar fuese una fecha , indicando da , mes , ao. Month : Si la variable fuese un mes dentro de un ao. Fixed Decimal : Fija el nmero de decimales a utilizar .Pone 2 por defecto. La pantalla que se activar es la siguiente Fig. 4
Supongamos que tenemos unas " fichas " con antecedentes de muchas personas que trabajan en una empresa , con los siguientes datos. Debemos definir en base a lo dicho anteriormente , las columnas de la base de datos: Nombre : Character Sexo : Character ( M=masculino ; F = femenino) Fecha de nacimiento : Date Nivel de Escolaridad : Integer (1="bsica incomp." ; 2= "bsica compl." ; .............) Oficio o Actividad Character Pertenencia de la vivienda : Character (Propia ; Arriendo. ; Allegado ; Cedida ; Leasing ; .......) Estatura : Numeric Peso : Numeric Edad : Integer
La Base de Datos tendr la siguiente presentacin
Fig. 5
-5-
Una vez que se han ingresado todas las fichas o encuestas o cada ciertos instantes, es necesario guardar la informacin ya sea en el "Disco Duro " de su computador o en un "Diskets" de 3.5 pulg. Para ello debe picar la palabra FILE con el sector izquierdo del ratn y luego en la ventana que se despliega picar la opcin " Save data file as.." Tendr las siguiente pantallas : Fig. 6
Fig. 7
-6-
Entonces en la pantalla de la figura N 7 , debers decidir donde guardar el archivo. Si la decisin fuese guardar en Disco de 31/2 (A) , entonces tendrs que picar esta opcin en el recuadro en primer plano . Seguidamente en este mismo recuadro , en el campo Nombre del archivo escribirs el nombre con que identificaras al archivo de datos. Si la decisin fuese guardar el archivo de datos en el Disco C ,entonces tendrs que picar esta opcin en el recuadro en primer plano . El computador te har seguir la ruta que tiene trazada de manera jerrquica, es decir, secuencialmente ir apareciendo en el campo "Guardar en" las palabras: Archivos de Programa ----Sgwin -----Data. Seguidamente en este mismo recuadro, en el campo Nombre del archivo escribirs el nombre con que identificaras al archivo de datos. Tambin puede guardarse el archivo con los datos, el directorio "mis documentos" El procedimiento es el mismo.
A modo de ejemplo, la pantalla siguiente refleja la estructura de una Base de Datos de personas, la que deber ser guardada segn lo sealado en prrafos anteriores.
Fig. 8
-7-
1.4.- Recuperacin de variables de la Bases de Datos para su Procesamiento Como se vio anteriormente, los datos estn almacenados en una estructura que se llama "Archivo", el cual est constituido por variables. Entonces debemos recuperar los datos desde el lugar en donde se encuentran 1. Si los datos estn en un disco de 31/2 , entonces siga el siguiente procedimiento: Ingrese en el ambiente de "Statgraphics" Introduzca el disco 31/2 en la disketera Pique la palabra FILE en la barra superior de herramientas de Statgraphics y tendr la siguiente `pantalla, Fig. 8. En la ventana de opciones seleccione para activar la barra que dice Open Data File.
Fig. 9
Lo ms posible es que aparezca una pantalla como lo indica la Fi. 10, de donde deber seleccionar la barra que dice "Disco de 31/2 (A)" y hacer doble click en dicha opcin Fig. 10
-8-
1.- Se desplegarn todos los archivos que contiene su disket , que fueron creados para ambiente statgraphics . Pero es posible tambin que en ese disket hayan otros archivos , y en este caso si desea ver todos los archivos que contiene el disket , deber ubicarse en el campo de la ventana en primer plano que dice "Tipos de Archivo : " y seleccionar aqu una opcin que dice "ALL FILES (*.*). upongamos que en su disket tenga un archivo que se llama erizo negro , con el cual desea trabajar. Para seleccionarlo haga doble click en ese nombre ,y tendr una pantalla como la Fig. 11 siguiente , la cual en su extremo inferior izquierdo aparece la palabra ERIZ... Haga un click en el cuadradito de esa barra y desplegar el contenido completo del archivo seleccionado. Fig. 11
2.- Si los datos se encuentran en el disco C , entonces entonces en la pantalla que muestra la Fig.11,en el recuadro en primer plano seleccione la opcin "disco C" . Seguidamente tendr frente a usted una pantalla que muestra la Fig. 12 , donde deber seleccionar la opcin archivos de programa haciendo un doble click Fig. 12
-9-
Seguidamente deber buscar el archivo llamado sgwin , y pulsar dos veces sobre esta palabra con el sector izquierdo del "mouse"., en la siguiente pantalla.
Fig. 13
Al picar dos veces seguidas sobre sgwin , tendr la siguiente pantalla Fig. 14
- 10 -
Despus deber hacer doble click sobre la la palabra Data de la pantalla que muestra la Fig. 14 y tendr la pantalla que despliega todos los archivos de este directorio
Fig. 15
Estos son archivos que trae el software en este directorio y cuyo propsito es utilizarlos para la enseanza de la metodologa estadstica y el manejo del mismo. En todo caso, lo mismo se hace para recuperar los datos desde el directorio mis documentos. A modo de ejemplo para desarrollar los contenidos , seleccionemos desde este directorio el archivo Cardata. Haga doble click sobre este archivo que aparece en la pantalla de la Fig. 15 y ver desplegarse la siguiente pantalla.
- 11 -
Fig. 16
Haga un doble click sobre el cuadrado ubicado en el rtulo Cardata y se desplegarn todas las variables de este archivo de datos , que contienen datos sobre una variedad de variables colectadas desde un conjunto de automviles vendidos en Estados Unidos de Norteamrica Fig. 17
1.5.- Presentacin de los Datos : La primera y ms elemental forma de tener informacin y una visin resumida de los datos , es a travs de la "tablas estadsticas " y los "Grficos estadsticos". Por supuesto que stas formas de resumir y presentar informacin depende de la naturaleza del tipo de datos.
- 12 -
1.5.1- Tablas estadsticas para ATRIBUTOS ,datos Unidimensionales Se trata de resumir todas las caractersticas o cualidades posibles que recoge esa variable , en una tabla que tiene una columna con el nombre de la caracterstica , otra con la cantidad de casos que registran esa caracterstica , otra columna con el porcentaje respectivo , y las columnas de frecuencias acumuladas Absolutas y Relativas. Para realizar una tabla de datos de una variable que recoge atributos se procede de la siguiente forma: A modo de ejemplo ,usar para trabajar el archivo "CARDATA" , tal como est mostrado en la Fig. 14 Tabular la variable ORIGIN que muestra la procedencia del Automvil vendido. En este caso se usaron cdigos numricos para mayor facilidad . 1 = Americano , 2 = Europeo , 3 = Japons Posicione el cursor del mouse tal como lo indica la siguiente pantalla
Fig. 18
Haga un click con el sector izquierdo del mouse y llene la ventana que aparece , tal como lo indica la siguiente pantalla. Luego active "OK"
Fig. 19
- 13 -
Ver aparecer una nueva pantalla ,y colocando la punta de la flecha del mouse en el cono "Tabular Opcion" tendr:
Fig. 20
y luego la pantalla siguiente , donde activar "Frequency Table"
- 14 -
Fig. 21
Entonces tendr ante usted la tabulacin deseada , que aparece en la siguiente pantalla:
Fig. 22
1.5.2.- Grficos para Variables Cualitativas o Atributos. A toda tabla estadstica se hace necesario , o es aconsejable, entregar una grfica que nos ayude a mejorar el nivel de comprensin de la variable en estudio.
- 15 -
Para este caso existen dos opciones grficas de inters. Una es el Grfico de Barras y la otra posibilidad es el Grfico Sectorial. El Grfico de Barras es aconsejable cuando la cantidad de atributos o cualidades que recoge la variable nos supere los diez. Este grfico muestra barras o rectngulos espaciados entre s , de manera tal que el largo ( o alto) de la barra es la cantidad de veces o frecuencia con que se presenta el atributo. El Grfico Sectorial , al igual que el anterior , es aconsejable cuando la cantidad de atributos no supere los seis. Este grfico se construye en un circulo , tomando sectores de l , proporcionales a la cantidad de datos en cada atributo. A modo de ejemplo , realizaremos los dos grficos anteriores , para la variable "origin" del ARCHIVO CARDATA Al lado derecho de la "Tabular Options" , aparece el cono de la opciones grficas de las "variables atributos o caracteres" (Graphical Options). Pique esta opcin con el sector derecho del mouse y tendr frente a usted la siguiente pantalla, donde activar la opcin Barchart , si lo que desea es un grfico de Barras . Si lo que desea es un grfico sectorial , entonces deber activar el la pantalla de opciones , Piechart
Fig. 23
Activando "Barchart" y haciendo un doble click en el sector negro del grafico se tiene la posibilidad de agrandar el grfico en pantalla y mostrar la siguiente figura :
Fig. 24
- 16 -
Estando con la punta o flecha del cursor en el sector o fondo negro de esta figura y sobre un texto o ttulo del grfico, active el sector derecho del mouse para acceder a algunas opciones de inters tales como : Cambiar las "frequency" o cantidades en " porcentajes " Dejar las barras en sentido Vertical Si "pica" sobre una palabra o texto cualesquiera con el sector izquierdo del mouse y seguidamente activar el sector derecho podr tener acceso a cambiar los textos o leyendas , el estilo y color de las letras , tamao ,etc. Tendr la siguiente pantalla : Fig. 25
Activando la opcin "Piechart" en la Fig . 22 , tendr el siguiente grfico: Fig. 26
- 17 -
Los colores y fondos en los grficos pueden cambiarse. Para ello debe posicionar la punta de flecha del cursor en un sector del grfico y presionar el sector izquierdo del mouse, seguidamente presionar el sector derecho y tendr una pantalla tal , como lo indica la siguiente figura donde debe elegir la opcin "Graphics Options" y tendr una gama de posibilidades grficas Fig. 27
Tendr la siguiente Pantalla con la ventana de opciones , que permiten cambiar la "trama o achurado" y el "color" que usted desea para ese sector.
Fig . 28
- 18 -
Existen oportunidades en que se cuenta ya con una tabla de datos categricos , y por lo tanto slo deseamos una representacin grfica .
Por ejemplo: Distribucin del sntoma ms relevante, en casos de Colon Irritable. Sntomas Astenia Cefaleas Dolor Eructos Insomnio Meteorismo Cantidad 58 35 60 45 68 75
Debemos crear un archivo para esta tabla en ambiente statgraphics , donde la variable sintomas se ingresa como un carcter ; la variable cantidad se declara como numrica o entera.
Fig. 29
- 19 -
Para acceder a los grficos de Barras o el grfico sectorial debemos de seguir las siguientes secuencias de pantallas:
Fig. 30
Fig . 31
- 20 -
Una vez completados los campos de la ventana en primer plano , activar en "OK".y el grfico a obtener ser por supuesto ser de Barras , tal como se aprecia en la siguiente figura. Fig. 32
Astenia Cefaleas Dolor Eructos Insomnio Meteorismo 0 20 40 60 80
Frecuencia
Si en la pantalla de la Fig. 23 seleccionamos " Piechart " , entonces por supuesto de que el grfico obtenido ser el Grfico Sectorial.
Fig. 33
- 21 -
Grafico Sectorial
21,99% 17,01%
Cantidad Astenia Cefaleas Dolor Eructos Insomnio Meteorismo
10,26%
19,94% 17,60% 13,20%
Cuando se trata de graficar tablas que presentan la distribucin o comportamiento de variables cualitativas, hoy en da se est usando en el campo de la mejora de la calidad y la productividad un grafico muy interesante llamado Grfico de Pareto.
En trminos muy generales , los problemas de calidad en el sector procesos industriales o de manufactura se presentan como prdidas (productos defectuosos y su costo) . En el sector servicio , la falta de calidad tambin se puede tratar de cuantificar a travs de las opiniones obtenidas de los usuarios y el desglose de las causas que motivan el descontento. Resulta muy importante aclarar el patrn de la distribucin de la prdida. La mayora de las prdidas se debern a unos pocos tipos de defectos , y estos defectos pueden atribuirse a un nmero reducido de causas. Si se identifican las causas de estos pocos defectos vitales ,podremos eliminar casi todas las prdidas , concentrando todo el esfuerzo en esas causas particulares y dejando de lado por el momento otros muchos defectos triviales. El uso del diagrama de Pareto permite solucionar este tipo de problema con eficiencia. En 1897 , el economista italiano V. Pareto present una frmula que mostraba que la distribucin del ingreso es desigual. En 1907, el economista norteamericano M.C. Lorenz expres una teora similar por medio de diagramas. Estos dos economistas indicaron que una proporcin muy grande del ingreso est en manos de muy pocas personas. En el campo de La mejora de la Calidad y la Productividad , el Dr. J.M. Juran aplic el mtodo de l diagrama de Lorenz como frmula para clasificar los problemas de calidad en los pocos vitales y los muchos triviales , y llam a este mtodo anlisis de Pareto. Seal que, en muchos casos, la mayora de los defectos y de su costo se deben a un nmero relativamente pequeo de causas.
Para visualizar la construccin de este grfico , seguiremos la siguiente secuencias de "pantallas " :
Fig. 34
- 22 -
En la pantalla que aparecer al activar la opcin "Pareto Chart" , deber llenar los siguientes campos : 1.- "Tabulate - Counts " , pues su datos ya estn tabulados. Se ingresa la variable cantidad en nuestro ejemplo . Si no hubiese sido as, el campo a llenar hubiese sido " Untabulated - Observations". 2.- "(Labels)" , coloque en este campo la variable que contienen los atributos. 3.- "(Weights)" , es un campo reservado para considerar ponderaciones o grado de importancia de cada uno de los atributos o cualidades recogidos. Este es el caso en situaciones de produccin o manufactura industrial, donde un causa de fallo puede tener un mayor o menor grado de importancia debido a implicancias en lo econmico , seguridad en las personas, etc.-. Picando sobre el cono "Tabular Options" , usted podr tener acceso a la tabla de frecuencia en primer lugar
Fig. 35
- 23 -
Picando sobre el cono "Graphical Options " , tendr acceso a la siguiente pantalla , don deber seleccionar la opcin "Pareto Chart" , para acceder al grfico de Pareto.
Fig. 36
Fig. 37
- 24 -
Pareto Chart for Cantidad

400 100,00 89,74 76,54 59,53 41,94 100 0 Meteorismo Dolor Insomnio Astenia Eructos Cefaleas
Costo $ 150 300 50 250 250 40 60
frequency
300 200 21,99
1.6.- Desarrollo de un Ejercicio de Aplicacin.A continuacin se muestra una tabla de datos con defectos en una pieza manufacturada, donde se le han colocado a cada uno de ellos los pesos o ponderaciones . Muchas veces dichas ponderaciones son valores en moneda nacional de lo que significa ese defecto.
Tipo de defecto Burbuja Fractura Mancha Rajadura Rayado Tensin otros Total
Cdigo Burb Frac Manc Raj Raya Tens Otro
Nmero de defectos 20 10 6 4 42 104 14 200
Con estos datos se pueden realizar los dos Grficos de Pareto . Uno donde no intervengan los costos unitarios , y el otro donde intervengan dichos costos.
a) No intervienen los costos Primero se obtiene la tabla Fig. 38
- 25 -
Enseguida podemos obtener el Grfico.
Fig. 39

200 160 83,00 73,00 52,00 90,00 100,00 95,00 98,00
frequency
120 80 40 0
Tens Raya
Burb Otro
Frac Manc
Raj
b).- Donde intervienen los costos Primero obtenemos la pantalla para observar como se llenan los campos Fig. 40
- 26 -
Enseguida se puede obtener la Tabla de Datos Fig. 41
Y luego el grfico respectivo donde a diferencia del anterior, cambia el orden de prioridad de los defectos a los cuales debera comenzar por darles solucin en una primera instancia.
Fig. 42
- 27 -

(X 1000) 24 20 77,46 64,30 46,05 98,68 100,00 90,61 95,00
score
16 12 8 4 0 Raya
Frac Tens Burb
Raj Otro
Manc
1.7.- Ejercicios de Aplicacin. 1.Los datos siguientes corresponden a una agrupacin llamada "Escuela de la Mujer" , ampara da bajo el "Programa de la Mujer" , (PRODEMU). Esta es una Fundacin sin fines de lucro, dependiente de la Primera Dama de la Nacin, con el propsito de potenciar el desarrollo de las mujeres de hogares en extrema pobreza, en bsqueda de una mayor equidad entre mujeres y hombres, para lograr superarse por medio de la Capacitacin en labores de uso domstico y econmico, ayudndolas en su realizacin como persona. Estos datos corresponden a una parte de la ficha de inscripcin en Cursos Sence , financiados por la Gobernacin Provincial de la Provincia de El Loa , II Regin Antofagasta. Construya una Base de Datos , que contenga las siguientes variables contenidas en la tabla de la prxima pgina. Considere que los valores ingresados en cada una de las variables , son cdigos cuyo significado son los siguientes: Est_Civ : 1= soltera ; 2=casada ; 3= Separada ; 4 = viuda Num_Hijos: 0 = sin hijos ; 1= un Hijo ; 2= ............. Escol(Escolaridad) : 1 = Bsica Incompleta ;2= Bsica Completa ; 3 = Media Incompleta Construya 1.- Base de Datos , utilizando "Statgraphics" 2.- La tabla de frecuencia para la variable estado civil 3.- Una grfica de barras para la variable estado civil 4.- La tabla de frecuencia para la variable escolaridad 5.- El grfico sectorial para la variable escolaridad Tabla de Datos.
- 28 -
Nombre L.J.V R.J.G B.R.A J.J.M M.C.V S.S.T J.Z.L M.S.V U.B.V N.C.A M.R.L P.C.V P.G.M E.D.C E.M.B S.T.A A.R.G L.T.V A.C.C J.P.M P.C.L Z.C.F R.P.L E.G.B J.L.B I.E.M M.V.R E.P.J G.G.M G.G.G D.C.S M.R.G O.P.A A.A.D M.A.A J.C.D J.G.G S.V.H S.V.A N.M.C
Est_Civ 1 2 1 1 2 2 1 4 2 1 1 4 2 1 2 2 3 2 2 2 2 1 2 3 2 4 1 3 2 4 2 2 2 4 1 1 2 2 2 2
Num_Hijos 2 2 0 0 3 2 0 1 6 3 2 4 2 3 4 1 1 1 2 2 2 4 3 2 8 3 1 2 5 3 2 2 3 3 1 6 5 6 3 5
Escol 3 2 1 1 2 1 2 2 2 2 1 1 2 1 2 2 2 1 1 2 2 2 1 1 1 1 3 1 1 2 1 2 2 2 2 1 2 1 2 2
Nombre M.M.M M.C.C R.L.P M.A.N P.E.C B.F.M M.G.D R.M.O M.M.A J.T.G M.V.M R.T.C J.A.N S.A.T G.A.T M.A.T R.A.T M.A.T A.G.C J.G.C J.L.L M.N.M C.A.R M.T.M M.T.L P.V.S U.C.F G.B.B M.H.S M.G.P Z.V.C P.G.B J.B.M R.C.C K.D.B I.G.F E.C.L Z.G.P G.D.C B.T.R
Est_Civ 2 2 3 2 2 4 2 2 2 1 2 1 2 2 1 2 2 1 2 2 2 4 2 2 1 1 1 3 3 2 2 3 2 2 2 1 1 2 2 4
N_Hijos 3 2 3 1 2 1 5 4 3 2 3 2 2 3 2 4 2 3 2 4 1 5 3 2 3 3 6 7 8 4 2 5 2 2 1 3 2 3 2 4
Escol 2 2 1 1 1 1 1 1 1 1 2 2 1 3 1 2 1 1 2 1 2 2 2 3 2 1 1 2 1 2 2 2 2 1 2 1 2 2 1 2
2.- La siguiente informacin est referida al Diagnstico que entrega el mdico a pacientes con hemorragia digestiva alta, que fueron atendidos en un Servicio de Urgencia "X" , durante 1992
Diagnstico Ulcera Gstrica Esofagitis erosiva
cantidad 42 16
- 29 -
Gastritis erosiva Ulcera duodenal Cirrosis heptica Yeyunitis hemorrgica No precisada
21 180 60 11 20
1.- Construya la tabla de frecuencia necesaria para realizar el grfico de Pareto 2.- Construya el Grfico de Pareto 3.- Redacte las conclusiones pertinentes a la informacin obtenida. II.PROCESAMIENTO ESTADISTICO DE DATOS CUANTITATIVOS.
2.1.- Estadstica Descriptiva Univariada. Cuando el tipo de dato que entrega la variable en estudio es una Cantidad (entera o decimal) , podemos tener informacin estadstica de ella a travs de tres vas: 1. Medidas o Indicadores de resumen cuantitativos 2. Tablas Estadsticas 3. Grficos Estadsticos Las razones principales para agrupar los datos son : determinar o calcular las distribuciones de frecuencias (Tablas Estadsticas), contar con algunos descriptores numricos de la distribucin ( Medidas de Resumen) , representar grficamente los resultados (Grficos Estadsticos), para determinar el comportamiento o tendencias del fenmeno que interesa analizar. 2.1.1.- Medidas de resumen cuantitativas. Fig. 43
Con el archivo de datos instalado en STATGRAPHICS y teniendo a la vista la pantalla principal, pique la ventana "Describe" y aparecer una pantalla como la anterior, la que deber ser seleccionada en "numerical data" seguido de "one-variable analysis" y pulzar "Enter".
- 30 -
Si el inters del usuario es, por ejemplo, procesar los datos del rendimiento en millas por galn de los coches , estando dentro del archivo de datos "cardata ", deber seleccionar esta variable del listado que aparece en el recuadro y colocarla en el campo que dice "Data", para luego picar con el mouse en "okey". Fig.- 44
Cuando usted complet la pantalla anterior, de acuerdo a lo indicado y pic en "okey", tendr frente a usted ,lo siguiente: Fig.- 45
Debajo de la primera lnea "de conos" usted tiene cuatro ventanas: 1.- La primera es una pizarra para cambiar de variable, en caso de que se desee. (Analysis options) 2.- La segunda llamada "tabular options" est destinada a satisfacer varios requerimientos del usuario, tales como:
- 31 -
Fig. 46
Analysis Summary : Entrega un resumen muy breve de cual es la variable en proceso, la cantidad de datos, y cual es su rango o recorrido. Summary Statistics: Proporciona todas las estadsticas de resumen ms usuales, pero pulsando el sector derecho del "mouse" ,aparece una ventana con la leyenda "pane option", la que aumenta la cantidad de estadsticas disponibles. Incluye medidas de: Tendencia Central (Promedio Aritmtico, Promedio Geomtrico , Modo, Mediana), Medidas de Variabilidad (Rango,Varianza, Desviacin Estndar, Error Estndar, Coeficiente de Variacin), Medidas de Posicionamiento (Cuartil 1, Cuartil 2), Medidas de Deformacin (Sesgo: Skewness; Curtosis: Kurtosis).
Resulta de particular inters "Standarized Skewness" (sesgo estandarizado) y "Standarized Kurtosis" (Curtosis estandarizada), con las cuales usted puede llegar a determinar si sus datos provienen de una distribucin normal. Cuando estos valores estn fuera del intervalo -2 y +2 indican un significativo incumplimiento con la normalidad estadstica, con lo cual se tiende a invalidar el resultado de aquellos test que requieren del supuesto de normalidad. El termino sesgo indica hacia que lado, izquierdo o derecho, tienden a concentrarse los datos. El trmino Curtosis tiene que ver con el grado de apuntamiento o alargamiento de la curva de datos. A menor coeficiente de variacin, ms homogeneidad en los datos y mayor grado de estiramiento o apuntamiento en sentido vertical Para mostrar esta opcin , desarrollaremos un ejemplo, que consistir en analizar la variable "mpg" ( rendimiento en millas por galn). Seleccione Summary Statistics.
2.1.- Medidas o Indicadores de Resumen Cuantitativos (Summary Statistics).
- 32 -
Debemos analizar cada uno de estos Indicadores o Estimadores estadsticos, que muestra el comportamiento de los datos de la variable en estudio. Pero es necesario decir que los que aparecen en esta pantalla son slo algunos de un conjunto mucho mayor. Para desplegar todas las medidas de resumen de los datos debemos activar el sector derecho del "mouse" y estando dentro de pane option seleccionar all y luego pulsar ok y obtendr la siguiente pantalla.
Fig.- 47
Es necesario revisar la forma de Clculo y la forma de interpretar esos estimadores para la variable en estudio. Los estimadores que aparecen en la pantalla anterior, se conocen con el nombre de Medidas de Resumen. Estas medidas se pueden clasificar en cuatro grupos: 2.1.1.- Tendencia Central : Son aquellos estimadores cuyos valores tienden a ubicarse en la parte Central del Recorrido o Rango de la Variable , es decir , ms o menos en la mitad del intervalo definido entre el valor mnimo y el valor mximo. Se consideran Medidas de Tendencia Central , las siguientes:
Average: Representa el Promedio Aritmtico.
X =
i= n i =1
X n
1....... n
El smbolo anterior significa que debemos sumar todas las mediciones u observaciones (datos) y dividir por el nmero total de datos (n). Esta es una medida que se ve influenciada por datos que a veces son anmalos, en el sentido de que pueden aparecer valores que se salen del rango o comportamiento habitual
- 33 -
de lo que normalmente se registra. Esto tiene mayor importancia en cuanto menor es la cantidad de datos que se procesan. Esta medida de Tendencia Central , tiene algunas caractersticas importantes de sealar
1.
(Xi X ) = 0
i =1
i=n
2.
Si Yi = a b Xi
Y =abX
Promedio aritmtico ponderado: Cuando los datos de la variable en estudio son colectados de diversos estratos, segmentos , o sub-poblaciones claramente identificados como puede ser: La estatura de hombres y mujeres El rendimiento de los coches , segn origen de procedencia La presin arterial sistlica , diastlica , de nios ,jvenes , adultos y senescentes.
De forma tal que la muestra o conjunto de datos colectados est particionada en "h" submuestras de tamaos n1 , n2 , ........., nh y a cada uno de estas submuestras se les entonces el promedio aritmtico puede o tienen calculado su promedio aritmtico i
total del conjunto total de datos se define y se calcula de la siguiente forma:
(n x + n2 x 2 + ......... + nh x h ) = 1 1 (n1 + n2 + ............... + nh )
n x
=
i =1 i =h i =1 i
i=h
ni
p x
i =1 i
i =h
donde
pi =
ni n
i = 1 , 2 , 3 , ............, h
Median : Representa la Mediana: Este es una medida de Tendencia Central cuyo valor separa el conjunto de datos en dos mitades. Cada una de ellas es un 50% . Es decir , entre el valor mnimo de la variable y la Mediana hay un 50 % de los datos ; por consiguiente , entre la Mediana y el valor mximo de la variable est el otro 50% superior. Para calcular la mediana es necesario ordenar los datos de menor a mayor. En el caso de que la cantidad de datos sea un nmero impar , la mediana se obtiene ubicando el valor que est en el centro. En el caso de que la cantidad de datos se un nmero par , la mediana se obtiene como el promedio de los dos valores centrales. Esta medida tiene la ventaja de ser menos sensible que el promedio aritmtico a la presencia de valores anmalos , ya que slo tiene en cuenta el orden de los datos y no su magnitud. Es decir no se altera mayormente si un valor o dato tiene un error grande de medida o de transcripcin. Al comparar el valor de la mediana con el promedio aritmtico , si hay mucha diferencia entre ellas , esto es una seal que la distribucin de los datos es ms bien asimtrica o heterognea.
- 34 -
Mode : Se llama Moda o Modo: Esta medida se conoce tambin con el nombre de Promedio Industrial. Est representado por el valor o cantidad que ms se repite o tiene una mayor frecuencia de aparicin. Geo. Mean : Se llama Media o Promedio Geomtrico: Esta medida corresponde al valor que tomara la variable si se calculase la media aritmtica de los logaritmos de los datos en lugar de los valores directos.
( Log X
X
g
i=n i =1
)
}
= Inv Log {
Este estadgrafo se utiliza principalmente en estudios de Economa , tales como distribucin de ingresos , clculo de ndices de precio , tasas de inters promedio dentro de un perodo. En estudios de crecimiento de Poblacin. En caracterizacin de la granulometra promedio de materiales particulados. En trminos generales, donde los valores de la variable representan tasas o porcentajes de variacin relativos. Comportamiento de la variable de forma exponencial. Tambin es necesario para compararlo con el valor que entrega el promedio aritmtico En caso de ser muy similares , significa que la distribucin de los datos en su forma grfica , tendera a darnos una curva ms o menos simtrica. Promedio Armnico : Esta es una medida de resumen de Tendencia Central que no est incorporado en las rutinas de clculo de Statgraphics. Su algoritmo de clculo es:
(1 / x )
i =1 i
i=n
(1 / x )
i =1 i
i =n
n
Las aplicaciones de esta medida de Tendencia Central que hacen aconsejable su utilizacin, est cuando las observaciones o mediciones "representan en si misma un promedio". Por ejemplo :
Se desea saber cuntas unidades en promedio se fabrican en una unidad de produccin , integrada por trabajadores , y el dato lo constituye la cantidad de unidades promedio que es capaz de producir cada operario. Se desea calcular la velocidad promedio a la cual un mvil de desplaz desde un Punto Inicial hasta un Punto final , pero que durante el trayecto tuvo varias interrupciones y por lo tanto en cada una de estas interrupciones se determin una velocidad media Se desea saber el incremento promedio durante el mes , de 10 artculos de primera necesidad y para ello se toma para cada artculo un cierto nmero de centro de ventas donde son vendidos dichos artculos. Por cada artculo tendremos un incremento promedio, que constituyen la base para calcular el Incremento Promedio en el mes de los 10 artculos.
- 35 -
Esta es la medida de resumen de Tendencia Central que se utiliza en cuando se calcula el Indice de Precios al Consumidor , conocido como I.P.C Entre los tres promedios anteriores se produce la siguiente desigualdad matemtica
La igualdad entre ellos se consigue cuando el perfil grfico de la curva de la distribucin de los datos , semeja una "campana" Tambin es de destacar otras Relaciones de inters , de carcter emprico que se dan entre las medidas de Tendencia Central. Si la curva presenta un Sesgo Positivo ,entonces : Promedio Moda < Mediana <
Si la curva presenta un Sesgo Negativo , entonces : Promedio < Mediana < Moda 2.1.2.- Medidas de Variabilidad: Estas medidas de resumen estn orientadas a cuantificar el grado o magnitud de cmo los datos se dispersan en torno a una medida de tendencia central. Generalmente se usa como valor de referencia el promedio aritmtico. Mucha dispersin es seal de poca uniformidad u homogeneidad en los datos. Por el contrario poca dispersin, es seal de homogeneidad en los datos. Range : Significa Rango Es una medida de variabilidad muy fcil de calcular pues es la diferencia entre al mayor valor de la variable se le resta el menor valor de la variable:
R = Xmximo -- Xmnimo
Variance : Significa Varianza. Es el promedio aritmtico de los desvos cuadrticos de los valores de la variable respecto de su promedio aritmtico.
tambin como
i =n
i= n i=1
( xi x )2 n
(varianza poblacional )
2
( x x)
i =1
i n 1
(varianza muestral )
Cabe destacar que los desvos del valor de la variable respecto de su media aritmtica deben de ser elevados al cuadrado, pues si se suman sin hacer esta operacin , el resultado de la suma es cero.
- 36 -
Std. Desviation : Significa Desviacin Estndar Es la raz cuadrada de la varianza. Tiene una gran importancia pues es la cuantificacin de la precisin de la medicin de la variable.
= 2
Se utiliza , entre otras aplicaciones , para construir intervalos de confiabilidad, que contendrn los valores lmites extremos (mnimos y mximos), en torno a los cuales oscilar un parmetro de una poblacin en Estudio. Si el perfil de la curva que representa a un conjunto de datos y tuviese la forma de una campana , estamos seguros que aproximadamente un 68,27 % de las veces , la medicin estar en el intervalo:
Desv. Estndar
Y con las caracterstica de la curva tipo campana , el intervalo stndar contendr el 95 % de los valores de la variable
2 Desv.
Std. Error : Significa Error Estndar. Suele representarse por " e.e " y es la desviacin estndar dividida por la raz cuadrada del nmero de datos.
e.e =
Permite construir intervalos de confiabilidad para el promedio aritmtico de los datos. A mayor nmero de datos , "n" , menor es el error estndar y por lo tanto ms estrecho o preciso ser el intervalo de estimacin para EL PROMEDIO. Por ejemplo. en intervalo formado por X 1.96 ee , nos dice que el promedio aritmtico de la variable, calculado a partir de una muestra de tamao "n" , estar en un 95 % de las veces, dentro del intervalo X 1.96 ee .
Coeff. of Var : Significa Coeficiente de Variacin. Es una medida de la variabilidad o de la dispersin relativa de una variable, en relacin con su promedio aritmtico. Tiene la propiedad de ser adimensional. Por lo tanto sirve para comparar el menor o mayor grado de homogeneidad de una variable respecto de otra. Por ejemplo , si medimos en un conjunto de personas su estaturas (cm) y su peso (kg) , deseamos saber cul presente una mayor grado de homogeneidad. C.V =
* 100%
Mientras ms cercano a cero es el C.V , mayor grado de homogeneidad en la variable. Desviacin Media : Esta es una medida de resumen de Variabilidad que no est incorporado en las rutinas de clculo de Statgraphics. Su algoritmo de clculo es :
(X
D.M =
i =1
i=n
X)
- 37 -
Podemos decir que la desviacin media es el promedio aritmtico de los valores absolutos de las desviaciones de los valores de la variable respecto del promedio aritmtico X . (Tambin en otras oportunidades suele utilizarse como valor de comparacin , la Mediana). Si la distribucin de los datos presenta un perfil de curva parecido a una campana, es decir si es Normal , entonces un 57,5 % central de las observaciones quedan dentro del intervalo X D.M. Es decir un poco ms de la mitad de los datos quedan concentradas dentro de un intervalo de una unidad de la desviacin media a uno y otro lado del promedio Observaciones: Una de las desventajas de la desviacin media, es que el signo de las desviaciones no se considera, ya que trabaja con el valor absoluto de ellas. Si no se trabajara con el valor absoluto y se usara como valor de referencia el promedio aritmtico, la suma de ellas sera cero. Si el valor de referencia fuese la mediana, el valor de la suma sera prximo a cero. Si se ignoran los signos de las desviaciones, quita al estimador su carcter algebraico , y as la medida no es adecuada para tratamiento matemtico. Lo importante tal vez , es que el conocer la desviacin media permite comprender mejor la medida ms importante de dispersin , que es la desviacin tpica o estndar.
Puntaje Estandarizado : Zi La variable o puntaje estandarizado mide la posicin relativa del valor de la variable con respecto al Promedio Aritmtico X , expresado en unidades de desviacin estndar . Su expresin algebraica es :
Zi =
Xi X
Esta variable es adimensional, por lo que resulta muy interesante su utilizacin cuando se desea comparar en que variable o variables una unidad de anlisis se encuentra mejor o peor. Tambin resulta de mucha utilidad cuando se necesita transformar valores de una variable expresados en cierta escala, en unidades de otra escala Igualmente se emplea para comparar resultados de experimentos expresados en ciertas unidades, con otros expresados en otras unidades. 2.1.3.- Medidas de Posicionamiento. Despus de hacer un ordenamiento de menor a mayor en los datos de la variable en estudio, se proceden a ubicar aquellas posiciones porcentuales de la cantidad de datos que dejan entre s un 25%. Es decir , son tres valores que separaran la totalidad de los datos en cuatro partes que contienen igual cantidad los datos .
Xmnimo
Lower Quartile Median Upper Quartile
Xmximo 25 % 50 % 75 % - 38 25 % 75 %
Lower Quartile : Significa Cuartil Inferior o Primer Cuartil. Es un valor que limita o separa el 25 % Inferior de los valores de la variable del 75 % Superior. Para el 25 % inferior , representa el Mximo valor de ese tramo . Para el 75 % superior , representa el Mnimo valor de ese sector. Upper Quartile : Significa Cuartil Superior o Tercer Cuartil. Es un valor que limita o separa el 75 % Inferior de los valores de la variable del 25 % Superior. Para el 75 % inferior , representa el Mximo valor de ese tramo . Para el 25 % superior , representa el Mnimo valor de ese sector. Entre el Lower Quartile y el Upper Quartile se produce un intervalo, cuya diferencia produce el denominado Rango Intercuartlico ( Interquartile Range) , que es una medida de variacin del 50 % central de los valores de la variable. Percentiles : Los Percentiles en Statgraphics , constituyen una ventana de opcin aparte dentro de la "Tabular Options". Se procede a un ordenamiento de los datos de la variable de menor a mayor proporcionan valores lmites que separan los datos , de manera tal que el Percentil 10. Por ejemplo: Nos indica que un 10% de los valores de la variable est por debajo de dicho valor y un 90 % delos datos est por sobre el valor del percentil 10. El Percentil 80, nos indica que un 80 % de los valores de la variable estn por debajo de dicho valor, y el 20% restante est por sobre el valor del percentil 80. Tambin pulsando el sector derecho del mouse, puede acceder a otras opciones de clculo de percentiles. Los Percentiles en Statgraphics , constituyen una ventana de opcin aparte dentro de la "Tabular Options". ,segn se puede apreciar en la figura n 46.Xmnimo Xmximo P10 P90
Los valores correspondientes los Percentiles 10 y 90 , producen un intervalo que contiene el 80% Central de todos los valores de la variable. 2.1.4.- Medidas de Deformacin: Son medidas de resumen que cuantifican fundamentalmente dos elementos de la distribucin de los datos : El Sesgo (Skewness) y la Curtosis (Kurtosis). El Sesgo : Cuantifica el grado de asimetra de una distribucin, es decir , cunto se aparta de la Simetra. Cuando este valor es "cero, sugiere que los datos estn simtricamente distribuidos en torno a una medida de Tendencia Central , que generalmente es el Promedio Aritmtico o la Mediana. Valores positivos para el Sesgo, indican que la "cola superior" o derecha de la curva que representa a los datos,es ms larga. Presencia de datos "anmalamente" altos.
- 39 -
0,16 0,12 0,08 0,04 0 0 4 8 12 16 20 24
Por el contrario., valores negativos indican que la "cola inferior" o lado izquierdo de la curva es ms larga. presencia de datos "anmalamente" bajos. Sesgo > 0, curva sesgada a la derecha o sesgo positivo.
Sesgo <0 , curva sesgada a la izquierda o sesgo negativo.
Existe una variada gama de algoritmos para cuantificar el grado de asimetra de la distribucin de los datos :
El estadstico Alemn Karl Pearson cuantificar el Sesgo.
propone dos frmulas empricas para
1 coeficiente de Sesgo de Pearson :
( X Moda )
2 coeficiente de Sesgo de Pearson :
3( X Mediana)
Otra medida del Sego en trminos de Cuartiles es : (Cuartil Superior - Mediana) - (Mediana - Cuartil Inferior ) Cuartil Superior - Cuartil Inferior Otra medida del Sesgo en trminos de Percentiles
- 40 -
( Percentil 90 - Mediana ) - (Mediana - Percentil 10) Percentil 90 - Percentil 10 Otra importante medida del Sesgo de una distribucin de los Datos de una variable es el llamado coeficiente momento de sesgo "a3".
a3 =
i =n
i =n i =1
( X i X )3
si
n 150
a3 =
n (X i X ) 3 (n - 1)(n - 2) 3
i =1
si
4 n 149
Otra medida a veces utilizada es b1 = (a3 )2 . Para curvas perfectamente simtricas , tal como una campana , b1 cero. Std. Skewness : Significa Sesgo Estandarizado. y a3 valen
Cuando la cantidad de datos colectados para la variable en estudio es igual o superior a 150, se puede asumir "normalidad estadstica". Resulta de vital importancia saber que tan alejado o prxima est el Sesgo de la variable con respecto de la Distribucin Normal Estndar. A veces el supuesto de normalidad estadstica simplifica y ayuda enormemente el anlisis e interpretacin estadstica de los datos. Cuando el valor del Sesgo Estandarizado queda fuera del intervalo -2 , +2 significa que el Sesgo de los datos colectados es significativamente diferente de un Sesgo Normal. Valores negativos, son indicadores de una "Cola" ms grande hacia el lado izquierdo, respecto de una medida de Tendencia Central . Por el contrario , un valor positivo indicara una "cola" ms larga hacia el lado derecho de la curva. El valor del Sesgo estandarizado se obtiene dividiendo el valor del sesgo por el factor
6 n
Kurtosis : Significa Curtosis Esta medida de resumen cuantifica el grado de "alargamiento" o "achatamiento " . En otros trminos, cuan aguzada o puntiaguda es la curva de la distribucin de los datos, en general por referencia a la normal. Mientras ms alargada o aflautada es la curva , se dice leptoctica. Mientras ms aplastada o achatada es la curva , se dice platicrtica Este coeficiente se calcula mediante el siguiente algoritmo:
n(n 1) ( X i X ) 4
b2 =
i =n i =1
(n 1)(n 2)(n 3) 4
3(n 1) 2 (n 2)(n 3)
La curtosis suele denotarse por b2
- 41 -
Para una curva cuyo perfil sea semejante al de una campana, el valor de este coeficiente es 3 Cuando b2 > 0 , la curva es Leptocrtica Cuando b2 < 0 , la curva es Platicrtica Std. Kurtosis : Significa Curtosis Estandarizada . Este coeficiente que sirve para comparar el grado de apuntamiento de la curva de los datos , con respecto a este mismo coeficiente en caso de Distribucin Normal. Cuando este valores est fuera del intervalo -2 y +2 indican un significativo incumplimiento con la normalidad estadstica, con lo cual se tiende a invalidar el resultado de aquellos test que requieren del supuesto de normalidad. El valor de la Curtosis Estandarizada se obtiene dividiendo el valor de la Curtosis por
24 n
Otra medida de curtosis que suele utilizarse para el 80 % central de los valores de la variable, es el coeficiente (Kappa) , denominado Coeficiente Percentil de Curtosis
( Percentil75 Percentil 25 ) 2( Percentil90 Percentil10 )
Este coeficiente , en el caso de la Distribucin Normal vale 0,263 Para ejemplificar un listado con todos las Medidas de Resumen analizadas, se mostrar la forma de obtenerlas: 1. 2. 3. 4. Recupere su archivo de datos "Cardata" Procese la variable "mpg" Siga todo el procedimiento indicado en las Fig. 44 hasta la Fig. 48. En la pantalla que obtendr en la Fig. 48 , seleccione la opcin "All"
- 42 -
Summary Statistics for mpg Count = 154 Average = 28,7935 Median = 28,9 Mode = 36,0 Geometric mean = 27,8219 Variance = 54,4232 Standard deviation = 7,37721 Standard error = 0,594473 Minimum = 15,5 Maximum = 46,6 Range = 31,1 Lower quartile = 22,4 Upper quartile = 34,3 Interquartile range = 11,9 Skewness = 0,112657 Stnd. skewness = 0,570747 Kurtosis = -0,832997 Stnd. kurtosis = -2,11008 Coeff. of variation = 25,6211% Sum = 4434,2
2.2.- Tablas de Frecuencia (Frecuency Tabulation) El propsito de una Tabla de Frecuencias , es resumir o cuantificar la cantidad de valores de la variable que estn contenidos en cada uno de los niveles de medicin de la variable. Produce un resumen ms compacto o visin ms global de los datos ,y con ello apreciar cierta "tendencia" en el comportamiento de ellos. A esta disposicin de los datos por niveles de medicin, junto a sus correspondientes frecuencias , se le denomina Distribucin de frecuencias o Tablas de Frecuencias. 2.2.1.- Variable Cuantitativa Discreta : Cuando la variable en estudio entrega como respuesta una "cuenta" o valor numrico entero, y el rango de variacin de la respuesta es relativamente pequeo y se desea resumirlos en una tabla de frecuencia unidimensional.,como es el caso de la variable "cylinders" del archivo "Cardata" y queremos saber de la cantidad de coches vendidos , clasificados por el nmero de cilindros, procedemos de la siguiente forma: 1. Posicionar el cursor en Describe 2. Seleccionar Categorical Data Tabulation 3. Colocar en Campo "Data" de la pizarra de dilogo la variable cilindres y presionar "Ok".
- 43 -
Frequency Table for cylinders -----------------------------------------------------------------------Relative Cumulative Cum. Rel. Class Value Frequency Frequency Frequency Frequency -----------------------------------------------------------------------1 3 1 0,0065 1 0,0065 2 4 104 0,6710 105 0,6774 3 5 3 0,0194 108 0,6968 4 6 30 0,1935 138 0,8903 5 8 17 0,1097 155 1,0000 ------------------------------------------------------------------------
La Tabla anterior compuesta por las siguientes columnas: "Value" significa el valor que toma la variable , en este caso el n de cilindros de los coches. "Frequency", contiene la cantidad de coches vendidos que tienen esa cantidad de cilindros. Por ejemplo , hay 104 coches vendidos cuyo nmero de cilindros es 4."Relative Frequency", indica la proporcin de coches, respecto del total (155) , que tienen esa cantidad de cilindros. Por ejemplo, el 19,35 % de los coches vendidos tienen 6 cilindros. "Cumulative Frequency", indica la cantidad acumulada de coches (de menos a ms) que tienen hasta ese nmero de cilindros. Por ejemplo , hay 108 coches cuyo nmero de cilindros flucta entre 3 y 5 inclusive. "Cum. Rel. Frequency", indica la proporcin acumulada de coches (de menos a ms) que tienen hasta ese nmero de cilindros. Por ejemplo , el 69,68 % de los coches vendidos tienen entre 3 y 5 cilindros , inclusive. 2.2.1.1.- Grficos Asociados a esta Tabla de Frecuencia
Coches vendidos segn nmero de cilindros

80
percentage
60 40 20 0 3 4 5 6 8
Son los mismos que vimos anteriormente : Barras (Barchart ) y Sectorial (Piechart)
- 44 -
Autos segn N de cilindros

10,97% 0,65% cylinders 3 4 5 6 8
19,35%
1,94% 67,10%
2.2.2.- Variable Cuantitativa Continua. Al resumir una gran cantidad de datos Cuantitativos Discretos con un Rango de variacin ms o menos amplio o datos Cuantitativos Continuos, resulta til distribuirlos en clases o categoras denominadas Intervalos y determinar el nmero de observaciones que pertenecen a cada clase, llamando a esta cantidad "Frecuencia Absoluta" o "Frecuencia de Clase". El nmero de intervalos o categoras a determinar para clasificar los datos, por reglas ms bien prcticas oscila entre 5 y 20. Douglas Montgomery en su libro "Control Estadstico de la Calidad", aconseja una regla emprica : Seala que la cantidad de intervalos a determinar debe ser igual a la "Raz Cuadrada del nmero de datos". De forma muy general los pasos que se deben seguir para tabular los datos en una tabla de frecuencia, son los siguientes. 1. Ubicar en el conjunto de datos los valores mximos y mnimo. 2. Determinar el rango de variacin de los datos "R" = Xmximo - Xmnimo 3. Determinar la amplitud o ancho de los intervalo "Ai" : Consiste en dividir el rango por un valor entero "k" que indica un nmero adecuado de intervalos a construir , que generalmente flucta entre 5 y 20. Tambin puede ser igual al nmero entero inferior ms prximo a la raz cuadrada del nmero de datos. Ai =
R k
k=
n
A1 + A2 2
Una manera comnmente usada para determinar "Ai" es : Ai =
Donde
A1 =
R 20
A2 =
R 5
El valor de Ai registra el dato.
se debe aproximar a la dcima de la unidad medida con que se
4.- Los intervalos o categoras se determinan de la forma siguiente: Intervalo 1 : [ Xmin ; Xmin + Ai )
- 45 -
Intervalo 2 : [ Xmin + Ai ; Xmin + 2 Ai ) . . Intervalo : t : [ Xmin +(t-1)Ai ; Xmin + t A ) 5.- Preparar un formato para la tabla de frecuencias ,el cual debe contener : una columna con los puntos medios o marcas de clase de los intervalos , otra columna para registrar la cantidad de valores que estn dentro de cada intervalo (frecuencia absoluta) , etc.6.- Lea cada valor registrado y vaya asignndolo al nico intervalo donde debe estar contenido. Construiremos a modo de ejemplo una Tabla de Frecuencia rendimiento en millas por galn mpg , del archivo cardata. 1. 2. 3. 4. para la variable
Posicione el cursor en Describe. Seleccione Numerical data One-variable anlisis Ingrese en el campo Data de la pizarra de dilogo la variable mpg y pulse "Ok" Active el cono Tabular Options y seleccione Frecuency Tabulation y pulse "Ok" Obtendr la siguiente Tabla propuesta por el software
Frequency Tabulation for mpg -------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------at or below 13,0 0 0,0000 0 0,0000 1 13,0 17,4444 15,2222 6 0,0390 6 0,0390 2 17,4444 21,8889 19,6667 30 0,1948 36 0,2338 3 21,8889 26,3333 24,1111 21 0,1364 57 0,3701 4 26,3333 30,7778 28,5556 29 0,1883 86 0,5584 5 30,7778 35,2222 33,0 36 0,2338 122 0,7922 6 35,2222 39,6667 37,4444 23 0,1494 145 0,9416 7 39,6667 44,1111 41,8889 6 0,0390 151 0,9805 8 44,1111 48,5556 46,3333 3 0,0195 154 1,0000 9 48,5556 53,0 50,7778 0 0,0000 154 1,0000 above 53,0 0 0,0000 154 1,0000 -------------------------------------------------------------------------------Mean = 28,7935 Standard deviation = 7,37721
Una vez dentro de esta pantalla y activando el sector derecho del mouse, tendr una ventana que ofrece varias opciones , para : 1. 2. Cambiar el nmero de clases o intervalos Cambiar el lmite inferior, (dar un nmero entero menor ms prximo al valor mnimo) 3. Cambiar el lmite superior , (dar un nmero entero mayor ms prximo al valor mximo) Construiremos una Tabla de Frecuencia para el Rendimiento en millas por Galn de los coches , que tenga : 1. 2. 10 intervalos El lmite inferior sea 15 ( puesto que 15,5 es el menor valor de la variable)
- 46 -
3.
El lmite superior sea 47 ( puesto que 46,6 es el mayor valor de la variable )
Los intervalos construidos por el software son del tipo ( ] , es decir abiertos por la izquierda y cerrados por la derecha, lo cual significa que este intervalo contiene aquellos datos que son mayores al lmite inferior del intervalo y menores o iguales que el lmite superior del intervalo Resulta de enorme inters aprender a interpretar los valores que entrega la siguiente tabla: Por ejemplo:
Frequency Tabulation for mpg -------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------at or below 15,0 0 0,0000 0 0,0000 1 15,0 18,2 16,6 13 0,0844 13 0,0844 2 18,2 21,4 19,8 21 0,1364 34 0,2208 3 21,4 24,6 23,0 17 0,1104 51 0,3312 4 24,6 27,8 26,2 19 0,1234 70 0,4545 5 27,8 31,0 29,4 20 0,1299 90 0,5844 6 31,0 34,2 32,6 25 0,1623 115 0,7468 7 34,2 37,4 35,8 21 0,1364 136 0,8831 8 37,4 40,6 39,0 9 0,0584 145 0,9416 9 40,6 43,8 42,2 5 0,0325 150 0,9740 10 43,8 47,0 45,4 4 0,0260 154 1,0000 above 47,0 0 0,0000 154 1,0000 -------------------------------------------------------------------------------Mean = 28,7935 Standard deviation = 7,37721
1. El 6 intervalo con su frecuencia absoluta : Hay 25 coches que tienen un rendimiento susperior o igual a 31 mpg e inferior a 34,2 mpg 2. La marca de clase del 6 intervalo con su frecuencia absoluta : Hay 25 coches que tienen un rendimiento promedio de 32,6 mpg
3. El 4 intervalo con su frecuencia relativa : Un 12,34 % de los coches tienen un rendimiento superior o igual 24,6 e inferior a 27,8. 4. 5. La marca de clase del 4 intervalo con su frecuencia relativa Un 12,34 % de los coches tienen un rendimiento promedio de 26,2 mpg La frecuencia absoluta acumulada hasta el 5 intervalo Hay 90 coches cuyo rendimiento es superior o igual a 15 mpg e inferior a 31 mpg.
6. La frecuencia relativa acumulada hasta el 7 intervalo. Un 88,31 % de los coches tienen un rendimiento superior o igual a 15 mpg e inferior a 37,4 % mpg 2.2.2.1.- Grficos Asociados a una Tabla de Frecuencia , con Escala de Intervalos.
- 47 -
Una de las maneras de presentar datos estadsticos es la presentacin grfica. El anlisis de los datos tabulados en cualquiera de las formas establecidas anteriormente, resulta casi imposible, debido a las mltiples comparaciones que se tienen que hacer con las cifras y el escaso tiempo que a veces se dispone para ello. Teniendo en consideracin de que los grficos en Estadstica resultan de vital importancia para explicar situaciones presentadas o resumidas en Tablas con Informacin resumida,( puesto que nos permiten : Tener una visin global y condensada del comportamiento de la variable , observar posibles tendencias , apreciar su campo de variacin ,etc.), debemos tener un especial cuidado en saber construirlos y luego analizarlos. En trminos muy generales, un grfico debe ser: Sencillo y auto-explicativo; Escalas adecuadas en los ejes de coordenadas a objeto de evitar las distorsiones y con ello evitar malas interpretaciones. Tal ejemplo ilustrativo ser desarrollado al final del presente captulo. 2.3.- Histograma de Frecuencia : Los datos obtenidos de una muestra sirven como base para decidir sobre la poblacin de la cual provienen. Mientras ms grande sea la muestra, ms informacin obtendremos sobre la poblacin. Aumntar el tamao de la muestra tambin implica un aumento en la cantidad de datos , y esto puede llegar a hacer difcil comprender la poblacin a partir de esos datos , an cuando se organicen en tablas. En ese caso necesitamos un mtodo que nos permita comprender la poblacin de un vistazo . Un histograma responde a esta necesidad. La organizacin de un buen nmero de datos en un histograma nos permite comprender la poblacin de manera objetiva. Es tal vez uno de los grficos ms utilizados. Se construye en un sistema coordenado formado por dos rectas perpendiculares entre si , que se denomina Plano Cartesiano. La recta o Eje Horizontal se denomina EJE "X ",y la recta o Eje Vertical se denomina EJE "Y" Est formado por barras que nacen desde el eje X ,con un ancho igual a la amplitud del intervalo y de altura en el eje Y igual a la frecuencia absoluta del intervalo (o su frecuencia relativa). Para obtener el histograma de la Tabla de la Frecuencia anterior , debemos: 1. 2. 3. 4. Posicione el cursor en Describe. Seleccione Numerical data One-variable anlisis Ingrese en el campo Data de la pizarra de dilogo la variable mpg y pulse "Ok" Active el cono Tabular Options y seleccione Frecuency Histogram y pulse "Ok"
Obtendr la siguiente pantalla: Fig. 48
- 48 -
Pulsando OK obtendremos el Histograma de Frecuencia de acuerdo con un diseo bsico que puede entrar a modificarse, utilizando el siguiente procedimiento: 1. Obtenga el Histograma de Frecuencia 2. Haga doble clic dentro del grfico para que este aumente de tamao 3. Pulse el sector derecho del mouse y seleccione pane options para configurar el Histograma nmero de intervalos , valor mnimo , valor mximo.
Fig. 49
Defina usted un histograma que tenga las siguientes caractersticas: 10 intervalos o clases El lmite inferior sea 15 El lmite superior sea 47 En el eje vertical lleve porcentaje (cantidad relativa)
- 49 -
De acuerdo con los datos, que provienen de una variable en estudio , el histograma nos entrega una especie de radiografa del comportamiento de la variable. De forma general se pueden encontrar diversos tipos de histogramas:
2.3.1.- Clasificacin segn las formas de Histogramas de frecuencia.
30 25
frequency
20 15 10 5 0 -2,5 -1,5 -0,5 0,5 1,5 2,5
Tipo general: La mayor frecuencia est en el centro y disminuye gradualmente hacia los extremos. La forma es simtrica. Tipo con sesgo positivo: Forma asimtrica. La frecuencia disminuye de manera ms bien brusca hacia la izquierda, pero gradualmente hacia la derecha. La mxima frecuencia est ms cerca del valor mnimo de la variable. Este tipo de histograma se presenta cuando el lmite inferior se controla tericamente o por un valor de especificacin inferior. Tipo con sesgo negativo: Forma asimtrica. La frecuencia disminuye de manera ms bien brusca hacia el lado derecho, pero gradualmente hacia la izquierda. La mxima frecuencia est ms cerca del valor mximo de la variable. Este tipo de histograma se presenta cuando el lmite superior se controlan tericamente o por un valor de especificacin superior.
- 50 -
40
Frecuencia
30 20 10 0 1 2 3 4 5 6 7
Tipo de precipicio a la izquierda (de precipicio a la derecha) : Forma asimtrica. El valor del promedio esta localizado el extremo izquierdo ( derecho ) lejos del centro del Rango, la frecuencia disminuye bruscamente a la izquierda (derecha) , y gradualmente hacia la derecha.(izquierda).
100
Frecuencia
80 60 40 20 0 -5 15 35 55 75 95 115
Es una forma que se presenta frecuentemente cuando se ha realizado una seleccin al 100% debido a una baja capacidad del proceso , y se necesita cumplir con un limite de especificacin inferior (superior). Tipo Planicie : Las frecuencias forman una planicie , porque las clases tienen ms o menos la misma frecuencia excepto aquellas de los extremos. Esta forma se presenta cuando la variable presenta un comportamiento heterogneo debido a problemas de estratificacin o segmentacin produciendo una mezcla de varias distribuciones que tienden a tener valores promedios diferentes.
Tipo de doble cspide ( bimodal ) : Existen dos intervalos ( o valores ) que presentan mximas frecuencias pero no se encuentran contiguas. Esta forma se presenta cuando se mezclan dos distribuciones que tienen valores de promedio diferentes. O cuando la variable presenta un comportamiento heterogneo debido a problemas de estratificacin o segmentacin produciendo una mezcla de dos distribuciones que tienden a tener valores promedios diferentes.
- 51 -
40
Frecuencia
30 20 10 0 1700 2200 2700 3200 3700 4200 4700
Tipo cspide aislada : Presenta una pequea cspide aislada que se encuentra aislada de un histograma de tipo general.
24 20
Frecuencia
16 12 8 4 0 15 25 35 45 55
Esta forma se presenta cuando se incluye una pequea cantidad de datos de una distribucin diferente , como en el caso de anormalidad en el proceso , error de medicin o inclusin de informacin de un proceso diferente. 2.3.2.- Aplicacin de los Histogramas a problemas relacionados con calidad: Un aspecto muy interesante es utilizar los histogramas que entregan los datos de la variable con los lmites de especificacin que le han sido asignados a la variable en estudio. Si existe una especificacin, dibuje sobre el histograma, con lneas verticales, los lmites de la especificacin , para comparar la distribucin de los datos con la respectiva especificacin. Luego observe si el histograma est localizado razonablemente dentro de los lmites.
Cuando el Histograma de los datos , acusa que se satisfacen las especificaciones
- 52 -
LSL = 15,0, Nominal = 35,0, USL = 55,0 18 15
frequency
12 9 6 3 0 15 25 35 45 55
mpg
LSL = 33,5, Nominal = 36,5, USL = 39,0 Pp = 0,67 Ppk = 0,32 Ppk (upper) = 1,03 Ppk (lower) = 0,32 K = -0,62
24 20
frequency
16 12 8 4 0 30 32 34 36 38 40
Lo que se necesita es mantener el estado actual, puesto que el histograma de los datos satisface la especificacin. Se satisface la especificacin, pero no hay margen extra.
LSL = 32,0, Nominal = 35,0, USL = 38,0 24 20 Pp = 0,73 Ppk = 0,68 Ppk (upper) = 0,78 Ppk (lower) = 0,68 K = -0,07
frequency
16 12 8 4 0 30 32 34 36 38 40
Ptje_Algodon
Es necesario reducir la variabilidad para poder quedar con un margen extra de tolerancia.
- 53 -
Cuando el histograma de los datos , no satisface las especificaciones
24 20
frequency
16 12 8 4 0 30 32 34 36 38 40
24 20
frequency
16 12 8 4 0 30 32 34 36 38 40
- 54 -
LSL = 30,5, Nominal = 33,0, USL = 35,5 24 20 Pp = 0,61 Ppk = 0,17 Ppk (upper) = 0,17 Ppk (lower) = 1,05 K = 0,72
frequency
16 12 8 4 0 30 32 34 36 38 40
2.3.3.- Estratificacin de Histogramas. Cuando los valores observados se dividen en dos o ms sub-poblaciones segn la condicin que exista en el momento de recoger los datos, esas sub-poblaciones se llaman estratos, y la divisin de los datos en estratos se llama estratificacin. Los valores observados siempre van acompaados de alguna variacin. Por tanto , cuando los datos se estratifican segn los factores que se cree puedan causar la variacin, las causas de la variacin se hacen ms fcilmente detectables. Este mtodo puede usarse de forma muy efectiva para mejorar la calidad del producto al reducir la variacin y mejorar el promedio del producto. Por lo general, la estratificacin se hace segn los materiales , las mquinas , las condiciones de operacin, de los turnos , trabajadores , etc. (usualmente se denominan Factores) 2.3.3.1.- Polgono de frecuencia Este grfico muestra un perfil de la curva asociada a la distribucin de los datos. Consiste en representar puntos (x , y ) en el Plano de manera que en el eje horizontal (X ) ubiquemos la marca de clase o punto medio del intervalo, y en el en eje vertical (Y) la frecuencia absoluta o relativa correspondiente a la marca de clase. Luego se une los puntos con segmentos de recta. Para construirlo usando Statgraphics , debemos estar dentro de una pantalla como la figura Nmero 50 , y en el campo Plot Type , seleccionar Polygon.
LSL = 30,5, Nominal = 34,5, USL = 36,5 24 Pp = 0,73 20 Ppk = 0,42
frequency
16 12 8 4 0 30 32 34 36 38 40
Ppk (upper) = 0,42 Ppk (lower) = 1,05 K = 0,10
- 55 -
Poligono de Frecuencia para "mpg"

18 15
percentage
12 9 6 3 0 15 25 35 45 55
mpg
2.3.3.2.- Ojiva o Curva de Concentracin Consiste en la representacin de una curva (con segmentos de recta ) , cuyas ordenadas tienen tantas unidades como elementos existan de la distribucin hasta el punto determinado . Para su construccin se emplea colocando en el eje horizontal , los intervalos ; el eje vertical, las frecuencias acumuladas o relativa. Haciendo uso de statgraphics , debemos estar en una pantalla como la Fig. 50 , y activar en el campo counts la opcin cumulative Nota : La OJIVA es un grfico que permite obtener de manera muy aproximada el valor de cualquier Percentil. Se debe trazar una lnea perpendicular al eje vertical (Percentage) que pase por un porcentaje deseado, y prolongarla hasta que corte la curva de las frecuencias acumuladas. Desde aqu, bajar una perpendicular que corte el eje horizontal (mpg). Este punto representa el valor del percentil.
Ojiva para "mpg"

100 80 60 40 20 0 15 25 35 45 55
percentage
mpg
2.3.3.3.- Box -and-Wisker Plot : ( Caja y bigotes).
- 56 -
Es un diagrama de caja que presenta los tres cuartiles, y los valores mnimo y mximo de los datos sobre un rectngulo, alineado horizontal o verticalmente. El rectngulo delimita el rango intercuartlico con la arista izquierda (o inferior) ubicada en el primer cuartil (lower Quartil), Q1, y la arista derecha (o superior) en el tercer cuartil (Upper Quartil), Q3 ,. Se dibuja una lnea a travs del rectngulo en la posicin que corresponde al segundo cuartil (mediana).De cualesquiera de las aristas del rectngulo se extiende una lnea, o bigote, que va hacia los valores extremos. Estas son observaciones que se encuentran entre cero y 1.5 veces el rango intercuartlico a partir de las aristas del rectngulo. Cuando estn entre 1.5 y 3 veces el rango intercuartlico a partir de las aristas del rectngulo se llaman valores atpicos (outliers).
Box-and-Whisker Plot
12
Precio (U$)
16 (X 1000)
Las observaciones que estn ms all de 3 veces el rango intercuartlico a partir de las aristas del rectngulo, reciben el nombre de valores atpicos extremos. Para representarlos, el software utiliza unos cuadraditos, tal como se ve en la siguiente figura: (al hacer click sobre ellos aparece en la pantalla el nmero o lnea del archivo, en que estn registrados. Para acceder a este grafico debe estar en una pantalla , tal como lo muestra la Fig. 48 Estando dentro del grfico anterior y pulsando el sector derecho del mouse, acceder a una ventana que tiene un pane options que permite configurar a sus necesidades el grfico Box-and- Wisker Plot y obtendr la siguiente pantalla :
Fig. 50
- 57 -
2.3.3.4.- Normal Probability Plot : (Grfico de Probabilidad Normal ). Los mtodos grficos resultan muy tiles cuando se elige una distribucin de probabilidad para describir una poblacin (variable) partiendo de datos colectados (muestra) con ese propsito. La grfica de probabilidad es un mtodo grfico para determinar si los datos muestrales se ajustan a una distribucin propuesta con base en un examen visual subjetivo de los datos. En este caso se trata de observar si los datos colectados nos indican cuan posible es de que la variable pueda asumir el modelo de Probabilidad Normal. En caso, que la distribucin normal describa de manera adecuada los datos, los puntos de la grfica, se ubicarn de aproximadamente a lo largo de una lnea recta. Si los puntos se desvan de manera significativa de una lnea recta, entonces el modelo propuesto no es el apropiado. La determinacin de, si la grfica corresponde o no a una lnea recta, es subjetiva. El procedimiento de obtencin se ilustra con un ejemplo: Veremos si la variable mpg se comporta como una Distribucin Normal .Debe obtener una pantalla tal como lo indica la Fig.49 y en ella seleccionar la opcin Normal Probability Plot
Grfica de Probabilidad Normal para MPG

99,9 99 95 80 50 20 5 1 0,1 15 25 35 45 55
percentage
mpg
2.3.3.5.- Symmetry Plot: Este grfico muestra la simetra de la variable en estudio. Ordena los datos de menor a mayor. Se seleccionan los datos que estn a la izquierda o a la derecha del
- 58 -
valor mediano o mediana (Separa el conjunto de datos en dos mitades o 0% ) y cada punto es graficado mostrando su respectiva distancia de la mediana. Si la distribucin de los datos es simtrica (sesgo cero), los puntos estarn muy cerca de la lnea recta diagonal en el grfico. Si la distribucin tiene signo positivo, los puntos estarn desviados por sobre la lnea diagonal. Si tiene sesgo negativo , habr puntos desviados por debajo de la lnea diagonal. Para acceder a este grfico deber estar presente la pantalla, tal como lo indica la Fig.49 y en ella activar la opcin Symmetry Plot, y tendr el siguiente grfico para la variable mpg.
Grfico de la Simetria para MPG Distancia sobre la Mediana

18 15 12 9 6 3 0 0 3 6 9 12 15 18
Distancia bajo la Mediana

2.4.- Desarrollo de Ejercicios de Aplicacin (Medidas de resumen asociadas a una tabla de frecuencia, con escala de intervalos) Statgraphics en su versin 4.0 para ambiente windows, calcula todas las Medidas Estadsticas de Resumen a partir de datos no tabulados. Sin embargo es necesario poner nfasis que tambin las podemos calcular a partir de una tabla de frecuencias. Es ms , hay algunas medidas que adquieren ms comprensin a partir de la tabla de datos , como puede ser el caso de la Moda , la Mediana. 2.4.1.- Ejemplo Ilustrativo: A modo de ejemplo, presentaremos a continuacin una Tabla de Frecuencia para la Potencia de los Automviles del Archivo Cardata. Tabla de Frecuencia para La Potencia de los Automviles del Archivo Cardata
N Interv 1 2 3 4 5 6 7 8 Total Limite Intervalos 45 60 60 75 75 90 90 105 105 120 120 135 135 150 150 165 Marca de Clase (Xi) 52,5 67,5 82,5 97,5 112,5 127,5 142,5 157,5 Frecuencia Absoluta fi 9 47 43 19 15 8 8 2 151 Xi *fi 472,5 3172,5 3547,5 1852,5 1687,5 1020,0 1140,0 315,0 13207,5
- 59 -
Las caractersticas y propiedades de estas Medidas Estadsticas ya fueron comentadas de forma extensa en prrafos anteriores , por lo que ahora slo se har nfasis en el algoritmo de clculo. Medidas de Tendencia Central Promedio Aritmtico
X =
X i fi
i =1 i =t
i =t
f
i =1
X
i =1
i =t
fi
Es decir , debemos sumar los productos de las marcas de clase de los "t" intervalos por el valor de la frecuencia absoluta respectiva , y luego dividir por la cantidad "n" de datos Promedio Geomtrico N Interv 1 2 3 4 5 6 7 8 Total Limite Intervalos 45 60 60 75 75 90 90 105 105 120 120 135 135 150 150 165 Marca de Clase (Xi) 52,5 67,5 82,5 97,5 112,5 127,5 142,5 157,5
i =t
Logaritmo de Xi
Frecuencia Absoluta fi 9 47 43 19 15 8 8 2 151
(Log Xi)* fi
( LogX
X g = Inv Log [
i =1
) * fi
] =
Promedio Armnico N Interv 1 2 3 4 5 6 7 8 Total Limite Intervalos 45 60 60 75 75 90 90 105 105 120 120 135 135 150 150 165 Marca de Clase (Xi) 52,5 67,5 82,5 97,5 112,5 127,5 142,5 157,5 ValorRecproco Marca de Clase (1/Xi ) Frecuencia Absoluta fi 9 47 43 19 15 8 8 2 151 (1/Xi )*fi
En la planilla anterior debemos realizar el clculo indicado , para cada intervalo.
- 60 -
Xh =
(1 / X i ) * f i
i =i
i =t
n
Modo o Moda En la tabla de frecuencia inicial , debemos ubicar el o los intervalos de mayor frecuencia absoluta. A este ( o estos) intervalo(s) se le(s) denomina intervalo modal , pues aqu se encuentra el valor de la moda. Luego se deben determinar los valores Frecuencia Absoluta del intervalo Modal - Frecuencia Absoluta del intervalo anterior al Intervalo modal
=
2 = Frecuencia Absoluta del intervalo Modal - Frecuencia Absoluta del intervalo siguiente al intervalo modal
N Interv 1 2 3 4 5 6 7 8 Total Limite Intervalos 45 60 60 75 75 90 90 105 105 120 120 135 135 150 150 165 Marca de Clase (Xi) 52,5 67,5 82,5 97,5 112,5 127,5 142,5 157,5 Frecuencia Absoluta fi 9 47 43 19 15 8 8 2 151
Modo = [ Lmite Inferior del intervalo Modal] + [ (1 / 1 + 2) ] * ai

Donde "ai " es la amplitud del intervalo modal Mediana : En la tabla de frecuencia inicial , debemos ubicar la columna de frecuencias absolutas acumuladas. Entrando por esta columna , ubicar hasta que intervalo tenemos acumuladamente el 50 % de los valores de la variable. A este intervalo le llamaremos intervalo mediano. N Interv 1 2 3 4 5 6 7 8 Total Limite Intervalos 45 60 60 75 75 90 90 105 105 120 120 135 135 150 150 165 Marca de Clase (Xi) 52,5 67,5 82,5 97,5 112,5 127,5 142,5 157,5 Frecuencia Absoluta fi 9 47 43 19 15 8 8 2 151 Frecuencia Absoluta Acumulada 9 56 99 118 133 141 149 151
El intervalo mediano sera el n 3 , pues hasta aqu ya est acumuladamente el 50 % de los datos
- 61 -
Med = Lmite Inferior del Intervalo Mediano + [
n ( Fi 1 ) * a i 2 fi
Donde: Fi 1 es la frecuencia absoluta acumulada hasta el intervalo anterior al intervalo mediano
fi
es la frecuencia absoluta del intervalo mediano.
ai es la amplitud del intervalo mediano

Cabe destacar que tanto la Moda como la Mediana, en el caso de que los datos estn tabulados y que ya sea el primer intervalo, el ltimo intervalo o ambos sean intervalos abiertos, son las nicas Medidas de Tendencia Central que pueden calcularse. Un intervalo es abierto cuando decimos " menos de 45 " , "ms de 150 " , por ejemplo.
Medidas de Variabilidad Varianza :
i= t i=1
( xi x )2 * fi n
2 =
(x
i =1
i =t
x)2 * fi
n 1
Desviacin Estndar Como ya se dijo anteriormente , es la raz cuadrada de la varianza. A partir de la tabla siguiente , haremos el clculo de la varianza y de la desviacin estndar N Interv 1 2 3 4 5 6 7 8 Total Limite Intervalos 45 60 60 75 75 90 90 105 105 120 120 135 135 150 150 165 Marca de Clase (Xi) 52,5 67,5 82,5 97,5 112,5 127,5 142,5 157,5 Frecuencia Absoluta fi 9 47 43 19 15 8 8 2 151 (Xi - X )2* fi
Calcule: La varianza, la desviacin estndar, el coeficiente de variacin , error Estndar, el primer y Segundo coeficiente de sesgo de Pearson, de la tabla anterior.
Desviacin Media :
- 62 -
(X
D.M =
i =1
i =t
X ) * fi
Determine la Desviacin Media en la siguiente tabla: N Interv 1 2 3 4 5 6 7 8 Total Limite Intervalos 45 60 60 75 75 90 90 105 105 120 120 135 135 150 150 165 Marca de Clase (Xi) 52,5 67,5 82,5 97,5 112,5 127,5 142,5 157,5 Frecuencia Absoluta fi 9 47 43 19 15 8 8 2 151
(X i X ) * fi
Medidas de Posicionamiento Percentiles : El clculo de cualquier Percentil , a partir de una Tabla de Frecuencias , es muy similar al procedimiento explicado para calcular la mediana. A partir de la tabla inicial, se debe ubicar la columna de Frecuencias Absolutas Acumuladas. Estando dentro de esta columna, determinar el intervalo que contiene el Percentil buscado. Por ejemplo, para determinar P20, es decir el percentil 20, se debe determinar hasta que intervalo se tiene acumulado, de menor a mayor, el 20 % de los datos.
Pj = Lim. Inferior interv. que contiene percentil "j"
n (100 * j ) Fi 1 + * ai f i
Donde: J: es s el valor del percentil deseado Fi-1 es la frecuencia acumulada hasta en intervalo anterior al que contiene el percentil "j" fi es la frecuencia absoluta del intervalo que contiene a el percentil "j" A modo de ejemplo calcule el percentil 20 y el percentil 80 de la sgte tabla de datos
- 63 -
Frecuencia Frecuencia Absoluta fi Absoluta Acumulada 1 9 9 2 47 56 3 43 99 4 19 118 5 15 133 6 8 141 7 8 149 8 2 151 Total 151 El Percentil 20, est contenido en el intervalo n 2 puesto que hasta dicho intervalo est Acumulado el 20% de 151 , cuyo valor es de 30,2 N Interv
Limite Intervalos 45 60 60 75 75 90 90 105 105 120 120 135 135 150 150 165
Marca de Clase (Xi) 52,5 67,5 82,5 97,5 112,5 127,5 142,5 157,5
P20
151 * 20 100 9 = 60 + * 15 = 47
El Percentil 80 , est contenido en el intervalo n 5 puesto que hasta dicho intervalo est acumulado el 80% de 151 , cuyo valor es de 120,8.
151 * 80 ( 100 ) 118 P80 = 105 + * 15 = 15

Medidas de Deformacin: Coeficiente de Sesgo :
a3 =
i =t i =1
( X i X )3 * fi
n
3
si n > 149
a3 =
n (X i X ) 3 * f i (n - 1)(n - 2) 3
i =1
i =t
si 4 < n < 150
N Interv Limite Intervalos 1 2 3 4 5 6 7 8 Total 45 60 75 90 105 120 135 150 60 75 90 105 120 135 150 165
Marca de Frecuencia Clase (Xi) Absoluta fi 52,5 9 67,5 47 82,5 43 97,5 19 112,5 15 127,5 8 142,5 8 157,5 2 151
(Xi - X )2* fi
(X
X ) * fi
3
El sesgo estandarizado se consigue dividiendo el valor del sesgo por Coeficiente de Curtosis :
6 n
- 64 -
n(n 1) ( X i X ) 4 * f i b2 =
(n 1)(n 2)(n 3) 4
i =1
i =t
3(n 1) 2 (n 2)(n 3)
El valor de la Curtosis Estandarizada se obtiene dividiendo el valor de la Curtosis por:
24 n
2.5.- Ejercicio de Aplicacin. 2.5.1.- La siguiente Base de Datos contiene nueve variables para N = 200 empleados ficticios de una Compaa o Empresa. Cada fila representa los valores de las nueves variables para un solo empleado. El nmero en la primera columna (1 ---200) es el nmero de empleado. Cada columna subsecuente representa los valores de una variable para los 200 empleados. Las nueve variables se definen como sigue: X1 : Nmero de aos en la empresa X2 : Nmero de horas sobretiempo (extras) trabajadas durante los ltimos seis meses X3 : Sexo ; 1 = mujer ; 2 = hombre X4 : Nmero de cursos de Educacin Continua terminados (capacitacin) X5 : Nmero de das con licencia mdica tomados en los ltimos seis meses X6 : Calificacin en la prueba de aptitud de la Compaa X7 : Nivel Escolar ; 0 =Enseanza Media ; 1 = Estudios Universitarios incompletos ; 2 = Ttulo Universitario ; 3 = Postgrado. X8 : Salario Base mensual X9 : Edad del empleado Construya esta Base de Datos para utilizarla ms adelante en Ejercicios de aplicacin y guardela en un disket de 3,5 o en el disco "C" de su computador personal Actividades a Desarrollar: 1.- Obtenga una tabla de distribucin de frecuencia para la variable X3 y las medidas de resumen 2.- Analice la informacin entregada por dicha tabla de frecuencias, segn los apuntes de clases. 3.- Construya una Grfico de Barras a partir de la tabla anterior, y ponga un nombre en Castellano a su grfico. 4.- Construya un Grfico Sectorial a partir de la tabla generada, y ponga un nombre en Castellano a su grfico. 5.- Obtenga una tabla de distribucin de frecuencia para la variable X4. y las medidas de resumen 6.- Analice la informacin entregada por dicha tabla de frecuencias, segn los apuntes de clases. 7.- Construya una Grfico de Barras a partir de la tabla anterior, y ponga un nombre en Castellano a su grfico. 8.- Construya un Grfico Sectorial a partir de la tabla generada, y ponga un nombre en Castellano a su grfico. 9.- Obtenga un conjunto de conclusiones, respecto de la variable en estudio
- 65 -
5.- Obtenga una tabla de distribucin de frecuencia para la variable X7. y las medidas resumen 6.- Analice la informacin entregada por dicha tabla de frecuencias, segn los apuntes clases. 7.- Construya una Grfico de Barras a partir de la tabla anterior, y ponga un nombre Castellano a su grfico. 8.- Construya un Grfico Sectorial a partir de la tabla generada, y ponga un nombre Castellano a su grfico. 9.- Obtenga un conjunto de conclusiones, respecto de la variable en estudio X1 11 24 17 9 15 6 4 2 17 17 15 21 4 12 23 20 19 12 5 11 11 8 20 1 6 18 21 7 21 27 20 11 11 3 16 2 12 16 9 15 3 17 17 X2 125 225 115 117 26 43 124 71 166 158 182 81 58 203 144 179 96 96 157 27 88 177 211 125 58 178 166 155 45 157 99 140 101 22 93 3 142 11 124 55 6 12 112 X3 1 2 2 1 1 1 2 2 2 1 2 2 1 1 1 1 2 2 2 2 1 2 1 1 2 1 1 1 2 2 2 1 1 1 1 2 1 2 2 2 2 1 1 X4 4 2 3 1 2 4 2 1 2 3 4 3 2 2 2 3 1 4 4 2 0 4 3 0 0 4 3 3 2 2 0 5 3 4 3 2 4 3 1 3 9 1 3 X5 9 2 5 1 0 8 4 1 5 2 4 6 5 3 4 5 5 7 8 4 6 6 1 9 7 3 5 4 6 5 4 7 9 4 5 5 9 0 5 5 3 6 0 X6 121,89 114,2 134,11 113,95 151,41 96,65 98,43 110,06 101,98 101,01 103,42 106,88 99,36 105,66 100,91 73,76 83,39 88,41 98,19 101,72 92,63 92,59 110,34 102,91 110,39 124,5 116,35 118,64 115,64 113,16 96,92 94,82 102,62 78,89 83,88 78,42 98,67 86,52 87,65 81,4 107,87 106,6 117,57 X7 2 1 1 1 2 1 2 1 1 1 2 2 2 2 1 2 0 1 1 1 1 1 2 2 2 1 1 1 2 2 2 0 1 1 1 0 1 1 2 1 2 1 1 X8 230650 271800 348750 236850 335500 226350 195750 204300 189550 255950 349750 268000 224000 312000 247500 304950 339650 304400 255450 239600 306300 387900 417050 197750 376000 342500 361950 280900 356000 399750 371000 275000 244500 231500 350000 220250 265000 364750 272000 339750 190000 286500 385000 X9 44 50 48 53 62 45 26 28 33 40 63 55 50 33 41 53 58 51 39 30 45 61 68 30 57 49 48 31 60 67 57 32 27 37 37 25 32 53 27 37 23 35 41
de de en en
- 66 -
23 6 1 7
71 28 20 43
2 2 2 1
3 1 5 3
7 3 4 3
96,15 107,97 104,72 85,54
2 1 2 0
404000 389000 270500 262750
63 54 31 33
X1 4 22 18 22 25 15 24 15 2 17 7 8 11 10 10 8 15 8 23 24 22 6 3 16 4 12 23 13 11 4 3 9 12 3 16 23 2 18 3 7 25 2 17 22 6
X2 113 77 152 0 112 103 215 50 169 92 132 48 200 149 79 48 202 74 74 138 66 68 184 123 105 0 52 121 90 31 52 79 136 169 70 26 187 198 171 132 211 112 118 204 24
X3 1 2 2 1 2 1 1 1 2 2 2 1 2 2 1 1 1 1 2 2 1 1 1 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2
X4 2 5 3 1 3 2 0 3 1 1 1 1 4 4 0 1 1 1 5 5 3 2 1 1 3 6 3 4 5 0 3 3 5 2 2 2 3 2 2 5 2 2 1 3 0
X5 4 4 5 4 7 1 7 6 9 3 7 7 9 4 5 8 8 3 4 4 3 5 7 4 7 8 4 8 2 3 1 4 4 3 8 7 4 5 9 7 9 1 3 2 3
X6 123,67 80,55 91,02 105,08 116,61 120,9 95,35 95,94 118,4 82,45 99,18 107,17 97,1 92,41 101,16 93,92 103,45 103,89 110,25 103,6 109,1 87,58 96,21 101,75 110,08 104,85 93,91 103,45 101,69 110,25 103,51 109,97 113,17 118,46 126,34 108,45 121,46 106,49 102,15 126034 106,38 102,35 98,12 96,82 100,03
X7 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 0 1 1 1 1 2 1 0 1 2 1 0 1 2 1 1 1 2 1 1 1 2 1 2 1 1 2 0 0 1
X8 300000 409000 370000 422500 473000 305000 261800 279400 156250 236500 419100 389500 436500 314500 246500 262500 372250 231000 403700 424500 383000 395000 314000 326700 331100 358500 471000 416000 407000 287500 352000 385000 418000 236000 420000 431750 251500 373000 251000 282150 470250 405000 404250 428500 275000
X9 40 63 54 62 63 39 41 39 26 42 41 56 70 39 40 37 57 29 65 63 65 57 29 39 47 61 61 46 42 29 35 45 42 28 46 54 29 42 27 31 65 44 45 51 20
- 67 -
X1 27 12 14 24 14 14 11 4 3 12 12 19 12 4 5 23 9 24 21 19 14 3 3 8 15 18 7 11 5 18 12 2 26 26 11 11 0 7 19 5 26 1 8 3 3
X2 11 100 193 74 61 96 138 15 13 149 158 209 180 200 182 59 28 112 169 121 28 111 132 24 160 44 79 187 107 182 48 217 167 33 22 44 81 123 13 189 59 147 50 70 198
X3 1 1 1 2 1 2 2 2 2 2 2 1 2 1 2 2 1 2 1 2 1 1 2 2 1 1 2 2 1 1 1 1 1 1 2 2 2 1 1 2 2 2 2 2 1
X4 3 3 3 0 1 2 3 2 0 2 2 3 0 2 1 4 3 1 1 2 2 3 4 0 4 5 2 4 0 5 4 2 2 3 1 3 3 0 5 4 0 2 3 1 1
X5 2 8 4 6 3 1 7 1 7 3 5 5 4 3 7 5 8 4 4 0 8 7 1 9 7 5 8 0 9 8 3 0 9 2 6 4 7 2 3 0 6 5 8 2 9
X6 112,69 93,77 121,96 99,7 93,21 117,27 103,46 106,38 102,35 98,12 122,27 123,64 134,53 100,87 124,09 109,13 102,32 119,55 113,04 103,75 103,89 110,25 93,18 109,11 87,58 96,2 89,71 108,64 113,15 104,37 111,36 123,07 99,7 93,21 106,27 102,83 104,18 107,48 119,13 92,42 101,15 93,91 78,26 97,98 100,03
X7 1 0 1 1 0 1 1 1 1 0 1 1 1 2 1 1 1 1 1 2 1 1 1 2 2 1 1 1 2 1 1 1 2 0 2 1 1 2 2 0 1 0 0 0 1
X8 451000 419000 424500 453750 345500 361000 279500 245250 271750 327750 358750 418000 415750 323500 349000 479500 236000 348750 320000 350000 330000 306000 276000 299000 372000 362000 320000 352000 246500 361000 281500 345500 453750 416000 395000 376000 339000 343250 383000 395000 265000 265000 290000 275000 251000
X9 65 49 57 68 39 38 34 28 26 38 46 52 55 31 35 66 31 47 49 46 41 38 25 36 41 51 34 49 28 46 35 31 67 63 47 44 31 31 40 44 58 28 35 28 25
- 68 -
X1 14 11 22 12 17 20 11 14 22 2 14 5 19 22 26 8 16 25 7 23 7 16 2 22 13 19 7 4 24 11 8 9 22 25 14 18 8 22 8 13 27 27 3 2 23
X2 193 77 125 160 28 39 154 129 204 90 37 173 6 83 125 169 55 217 19 173 173 105 11 52 103 143 123 114 37 100 100 198 198 136 0 17 103 15 107 129 167 118 209 125 22
X3 1 1 2 1 2 2 1 1 2 1 2 2 1 2 1 1 2 2 1 2 2 1 1 2 2 2 2 1 1 2 2 2 2 1 2 2 2 1 2 1 2 2 2 2 1
X4 1 0 4 1 0 5 0 1 2 5 4 2 2 1 1 5 4 2 1 0 4 2 1 1 0 1 4 1 5 2 2 5 1 0 4 3 0 1 0 5 0 0 5 4 2
X5 3 3 5 5 3 2 1 9 7 6 3 4 4 9 9 4 3 7 1 3 4 5 8 9 5 4 2 9 4 7 6 3 9 4 2 8 9 3 3 4 8 8 3 4 5
X6 120,54 120,93 125,95 100,73 105,08 123,37 119,53 116,61 119,69 103,46 106,38 110,17 105,01 100,02 135,22 87,79 103,14 112,55 109,11 87,58 92,91 89,73 108,57 113,15 104,36 111 111 87,71 99,12 128,72 107,85 107,85 122,66 93,35 115,46 125,59 92,37 99,17 102,84 104,18 107,75 119,13 92,42 101,16 91,35
X7 1 1 2 1 2 1 3 1 1 1 2 1 1 2 1 2 1 2 1 0 0 1 1 2 1 1 1 0 1 1 2 1 0 0 1 1 0 1 1 1 1 2 0 1 1
X8 320000 377500 440000 377500 376750 439450 438000 381700 405000 232250 316250 343250 405000 392750 438500 316250 393750 472000 281500 469000 291000 394000 231000 416500 358500 373500 315750 273500 471250 436750 400000 315700 417500 437800 436500 397500 295000 411500 330000 383000 461000 440000 236000 248500 450000
X9 38 45 56 44 42 62 44 40 49 25 32 35 50 52 58 34 41 66 33 63 28 41 25 46 40 41 34 28 64 55 41 44 40 52 38 44 30 44 35 38 69 66 22 29 62
X1 9
X2 151
X3 1
X4 1
X5 4
X6 96,82
X7 0
X8 438500
X9 52
- 69 -
15 17 5 26 27 12 1 3 0 16 3 5 1 7 2 2 5
11 39 193 217 189 209 70 52 138 35 9 173 11 129 162 5 74
2 2 2 2 1 2 2 2 2 2 1 2 2 2 1 2 2
4 4 0 2 3 2 5 1 0 3 1 2 1 3 3 1 3
2 1 5 5 7 3 4 6 4 4 3 8 4 6 3 1 6
96,82 89,03 112,67 121,96 104,5 117,48 96,38 107,32 121,36 94,02 129,13 122,14 93,86 104,59 107,85 101,68 111
0 1 2 1 2 1 0 1 1 0 1 2 3 1 1 1 1
400500 438000 353000 465500 458000 314500 200000 273000 200000 348500 418000 290000 302000 344500 235500 220000 330000
47 58 35 68 69 34 20 29 21 47 41 29 30 35 25 26 34
2.5.2.- La tabla siguiente presenta la Distribucin de la Edad de 200 empleados, sin diferenciacin de sexo, de la "Compaa XXX" (Pgina 48 ) -------------------------------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------------------------------1 19,0 23,0 21,0 5 0,0250 5 0,0250 2 23,0 27,0 25,0 13 0,0650 18 0,0900 3 27,0 31,0 29,0 27 0,1350 45 0,2250 4 31,0 35,0 33,0 22 0,1100 67 0,3350 5 35,0 39,0 37,0 17 0,0850 84 0,4200 6 39,0 43,0 41,0 23 0,1150 107 0,5350 7 43,0 47,0 45,0 25 0,1250 132 0,6600 8 47,0 51,0 49,0 13 0,0650 145 0,7250 9 51,0 55,0 53,0 13 0,0650 158 0,7900 10 55,0 59,0 57,0 11 0,0550 169 0,8450 11 59,0 63,0 61,0 15 0,0750 184 0,9200 12 63,0 67,0 65,0 10 0,0500 194 0,9700 13 67,0 71,0 69,0 6 0,0300 200 1,0000 ---------------------------------------------------------------------------------------------------Obtenga una tabla de frecuencia como la anterior para que pueda acceder a la siguiente informacin estadstica: 1.- Analice la informacin y redacte las interpretaciones que surgen de los distintos componentes de la tabla. 2.- Construya una Histograma a partir de la tabla anterior , y ponga un nombre en Castellano a su grfico. Haga un comentario respecto de la "forma" que presenta. 3.- Construya un polgono de frecuencia a partir de la tabla generada , donde el eje vertical contenga porcentajes. Ponga un nombre en Castellano a su grfico. 4.- Construya un polgono de frecuencias relativas generada acumuladas a partir de la tabla
con eje vertical expresado en porcentajes. Ponga un nombre en Castellano a su grfico.
- 70 -
5.- Usando la ventana Percentiles de Tabular Options, determine el intervalo numrico contienen el 50 % central de los datos? 6.- Cul es el coeficiente de variacin de los datos ?, cul es su opinin al respecto? 7.- Escriba el valor de las medidas de Tendencia Central : Promedio Aritmtico, Promedio Geomtrico, Mediana y Moda. Qu conclusin se puede obtener al comparar dichos valores? 8.- A partir de la Mediana, determine los intervalos que contienen el 50% inferior y el 50 % superior de los datos? 9.- Usando la ventana Percentiles de Tabular Options , determine el valor mximo del 15 % inferior de sus datos y el valor mnimo del 10% superior de sus datos. Exprese lo anterior en un intervalo numrico 10.- Determine el o los intervalos modales (A partir de su tabla de frecuencia ) e interprete la moda con su respectiva frecuencia absoluta. 11.- Obtenga a partir de su tabla de frecuencia , el valor de la mediana ,. 12.- Utilizando el promedio, la desviacin estndar, y los valores de la mediana y moda antes calculados, obtenga las medidas de sesgo de Pearson y comente que tipo de Simetra presenta la variable. (estandarice dichos valores) 13.- Obtenga para esta variables los grficos "Box-Plot" , "Probabilidad Normal " , "Grafico de la Simetra " . Analice estos grficos y obtenga conclusiones. 14.- Utilizando el campo "Select", del procedimiento seleccionado al comienzo, filtre por separado los datos de hombres y mujeres para saber: a) Promedio y la Mediana de Hombres y Mujeres b) Cul de los dos sexos presenta un mayor grado de homogeneidad?. Justifique con valores. c) Entre que Rango fluctan los valores de la variable en las mujeres? En los hombres? d) Comente los coeficientes de Sesgo y de Curtosis de la variable , segn sexo 15.- Obtenga un conjunto de conclusiones, respecto de la variable en estudio.
- 71 -

Uso y Manejo Statgraphics

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Uso y Manejo Statgraphics

Transféré par

Droits d'auteur :

Formats disponibles

USO Y MANEJO DEL SOFTWARE STATGRAPHICS

La Base de Datos tendr la siguiente presentacin

y luego la pantalla siguiente , donde activar "Frequency Table"

Activando la opcin "Piechart" en la Fig . 22 , tendr el siguiente grfico: Fig. 26

Astenia Cefaleas Dolor Eructos Insomnio Meteorismo 0 20 40 60 80

19,94% 17,60% 13,20%

Pareto Chart for Cantidad

300 200 21,99

Cdigo Burb Frac Manc Raj Raya Tens Otro

Nmero de defectos 20 10 6 4 42 104 14 200

a) No intervienen los costos Primero se obtiene la tabla Fig. 38

Enseguida podemos obtener el Grfico.

Pareto Chart for Cantidad

Enseguida se puede obtener la Tabla de Datos Fig. 41

Pareto Chart for Cantidad

Frac Tens Burb

Diagnstico Ulcera Gstrica Esofagitis erosiva

Gastritis erosiva Ulcera duodenal Cirrosis heptica Yeyunitis hemorrgica No precisada

2.1.- Medidas o Indicadores de Resumen Cuantitativos (Summary Statistics).

Average: Representa el Promedio Aritmtico.

total del conjunto total de datos se define y se calcula de la siguiente forma:

(n x + n2 x 2 + ......... + nh x h ) = 1 1 (n1 + n2 + ............... + nh )

0,16 0,12 0,08 0,04 0 0 4 8 12 16 20 24

Sesgo <0 , curva sesgada a la izquierda o sesgo negativo.

El estadstico Alemn Karl Pearson cuantificar el Sesgo.

propone dos frmulas empricas para

1 coeficiente de Sesgo de Pearson :

2 coeficiente de Sesgo de Pearson :

La curtosis suele denotarse por b2

( Percentil75 Percentil 25 ) 2( Percentil90 Percentil10 )

Coches vendidos segn nmero de cilindros

Autos segn N de cilindros

Una manera comnmente usada para determinar "Ai" es : Ai =

El valor de Ai registra el dato.

se debe aproximar a la dcima de la unidad medida con que se

El lmite superior sea 47 ( puesto que 46,6 es el mayor valor de la variable )

Obtendr la siguiente pantalla: Fig. 48

2.3.1.- Clasificacin segn las formas de Histogramas de frecuencia.

20 15 10 5 0 -2,5 -1,5 -0,5 0,5 1,5 2,5

30 20 10 0 1700 2200 2700 3200 3700 4200 4700

Cuando el Histograma de los datos , acusa que se satisfacen las especificaciones

LSL = 15,0, Nominal = 35,0, USL = 55,0 18 15

Cuando el histograma de los datos , no satisface las especificaciones

LSL = 30,5, Nominal = 34,5, USL = 36,5 24 Pp = 0,73 20 Ppk = 0,42

Ppk (upper) = 0,42 Ppk (lower) = 1,05 K = 0,10

Poligono de Frecuencia para "mpg"

Ojiva para "mpg"

2.3.3.3.- Box -and-Wisker Plot : ( Caja y bigotes).

Grfica de Probabilidad Normal para MPG

Grfico de la Simetria para MPG Distancia sobre la Mediana

Distancia bajo la Mediana

Frecuencia Absoluta fi 9 47 43 19 15 8 8 2 151

En la planilla anterior debemos realizar el clculo indicado , para cada intervalo.

Modo = [ Lmite Inferior del intervalo Modal] + [ (1 / 1 + 2) ] * ai

Med = Lmite Inferior del Intervalo Mediano + [

Donde: Fi 1 es la frecuencia absoluta acumulada hasta el intervalo anterior al intervalo mediano

es la frecuencia absoluta del intervalo mediano.

ai es la amplitud del intervalo mediano

Medidas de Variabilidad Varianza :

Pj = Lim. Inferior interv. que contiene percentil "j"

151 * 80 ( 100 ) 118 P80 = 105 + * 15 = 15

si 4 < n < 150

El valor de la Curtosis Estandarizada se obtiene dividiendo el valor de la Curtosis por:

96,15 107,97 104,72 85,54